[翻译]介绍RTTI和函数名修饰

元始天尊 · 发表于 2014-7-12 14:07:49

欢迎访问技术宅的结界，请注册或者登录吧。

您需要登录才可以下载或查看，没有账号？立即注册→加入我们

×

毕设想做这方面的内容，所以现在在学习，可能这段时间会翻译几篇优秀逆向文章

RTTI
运行时类型信息 (RTTI)是一种机制，它允许在程序执行时得到对象类型。由于很多开发者自己实现的类库之间的不兼容，因此在语言级别增加运行时类型信息的支持被加入到了C++语言中。为了清楚起见，这里有关 RTTI 讨论基本上都局限在指针类型，不过也适合引用类型。

有三种主要 C++ 语言元素有关运行时类型信息:

1.dynamic_cast 运算符。用于多态类型的转换。
2.typeid 运算符。用于标识对象的确切类型。
3.type_info 类。用于保存该类型信息。 typeid 运算符返回。

/GR（启用运行时类型信息）
添加代码以在运行时检查对象类型。
当 /GR 启用时，编译器将定义 _CPPRTTI 预处理器宏。默认情况下， /GR 处于打开状态。 /GR- 将禁用运行时类型信息。
如果编译器无法在代码中静态解析对象类型，则使用 /GR。当代码使用 dynamic_cast运算符或 typeid 时，通常需要 /GR 选项。但是， /GR 会导致映像的 .rdata 节增大。如果您的代码不使用 dynamic_cast 或 typeid，则使用 /GR- 可能会生成较小的映像。

在 Visual Studio 开发环境中设置此编译器选项
打开项目的“属性页”对话框。有关详细信息，请参见如何：打开项目属性页。
1.单击“C/C++”文件夹。
2.单击“语言”属性页。
3.修改“启用运行时类型信息”属性。

bad_typeid异常
当 typeid 操作数为 null 指针时， bad_typeid 异常。 typeid 运算符引发。

catch (bad_typeid)
statement
catch (bad_typeid)
statement

bad_typeid 的接口是:

class bad_typeid : public exception
{
public:
bad_typeid(const char * _Message = "bad typeid");
bad_typeid(const bad_typeid &);
virtual ~bad_typeid();
};
class bad_typeid : public exception
{
public:
bad_typeid(const char * _Message = "bad typeid");
bad_typeid(const bad_typeid &);
virtual ~bad_typeid();
};

下面的示例演示 bad_typeid 引发异常的 typeid 运算符。

// expre_bad_typeid.cpp
// compile with: /EHsc /GR
#include <typeinfo.h>
#include <iostream>

class A{
public:
// object for class needs vtable
// for RTTI
virtual ~A();
};

using namespace std;
int main() {
A* a = NULL;

try {
cout << typeid(*a).name() << endl;  // Error condition
}
catch (bad_typeid){
cout << "Object is NULL" << endl;
}
}
// expre_bad_typeid.cpp
// compile with: /EHsc /GR
#include <typeinfo.h>
#include <iostream>

class A{
public:
// object for class needs vtable
// for RTTI
virtual ~A();
};

using namespace std;
int main() {
A* a = NULL;

try {
cout << typeid(*a).name() << endl;  // Error condition
}
catch (bad_typeid){
cout << "Object is NULL" << endl;
}
}

Output
Object is NULL

__RTDynamicCast--dynamic_cast 运算符的运行时实现
PVOID __RTDynamicCast (
PVOID inptr,
LONG VfDelta,
PVOID SrcType,
PVOID TargetType,
BOOL isReference
) throw(...)

PVOID __RTDynamicCast (
PVOID inptr,
LONG VfDelta,
PVOID SrcType,
PVOID TargetType,
BOOL isReference
) throw(...)

参数
--------------------------------------------------------------------------------

inptr
为多态对象的指针。

VfDelta
按对象的虚函数指针。

SrcType
静态对象指向由 inptr 参数。

TargetType
转换的预期结果。

isReference
true ，如果输入为引用; false ，如果输入是指针。

返回值
--------------------------------------------------------------------------------

如果成功;返回值为相应的子对象的指针，否则为 null。

异常
--------------------------------------------------------------------------------

bad_cast() ，如果对 dynamic_cast<> 的输入是引用时该转换失败。

备注
--------------------------------------------------------------------------------

转换 inptr 转换为类型 TargetType对象。如果 TargetType 是指针或左值则inptr 的类型必须是指针，如果 TargetType 是引用 TargetType 必须是指针或引用到以前已定义的类类型或无效的指针。

typeid运算符
typeid( type-id )
typeid( expression )

typeid 使用运算符对象的类型将确定运行时。

typeid 的结果是 const  type_info。该值是对表示类型 ID 或表达式的类型， typeid 的窗体使用的 type_info 对象。请参见 type_info 类有关更多信息。

typeid 运算符不与托管类型一起使用 (抽象声明或实例)，请参见 typeid 有关获取特定类型的 Type 的信息。

typeid 运算符执行运行时检查，在对多态类类型的左值时，对象的实际类型不能依赖于所提供的静态信息。这类情况是:

对类的引用

指针，取消引用与 *

一 subscripted 指针 (即。 [ ]). (请注意用于指针的一个下标到多态类型。) 通常是不安全的。

如果表达式指向基类类型，，对象实际上是从该基类派生的类型， type_info 结果为派生类的引用。该表达式必须指向多态类型 (处理虚函数的类)。否则，结果是该表达式引用的静态类的 type_info 。此外，它指向必须取消引用的指针，以便使用对象。未取消引用指针，则结果将是指针的 type_info ，不将指向。例如：

// expre_typeid_Operator.cpp
// compile with: /GR /EHsc
#include <iostream>
#include <typeinfo.h>

class Base {
public:
virtual void vvfunc() {}
};

class Derived : public Base {};

using namespace std;
int main() {
Derived* pd = new Derived;
Base* pb = pd;
cout << typeid( pb ).name() << endl; //prints "class Base *"
cout << typeid( *pb ).name() << endl; //prints "class Derived"
cout << typeid( pd ).name() << endl; //prints "class Derived *"
cout << typeid( *pd ).name() << endl; //prints "class Derived"
delete pd;
}
// expre_typeid_Operator.cpp
// compile with: /GR /EHsc
#include <iostream>
#include <typeinfo.h>

class Base {
public:
virtual void vvfunc() {}
};

class Derived : public Base {};

using namespace std;
int main() {
Derived* pd = new Derived;
Base* pb = pd;
cout << typeid( pb ).name() << endl; //prints "class Base *"
cout << typeid( *pb ).name() << endl; //prints "class Derived"
cout << typeid( pd ).name() << endl; //prints "class Derived *"
cout << typeid( *pd ).name() << endl; //prints "class Derived"
delete pd;
}

如果表达式取消引用指针，因此，该指针的值为零， typeid 引发 bad_typeid 异常。如果指针不指向有效的对象， __non_rtti_object 引发异常，指示尝试分析触发错误的 RTTI (如访问冲突)，，因为对象是以某种方式无效 (无效指针或代码不是用 /GR)。

如果表达式不是指针和对对象的基类，则结果是 type_info 引用表示形式表达式。，当在编译时已知，静态表达式引用表达式的类型。静态类型，在计算表达式时，执行语义被忽略。此外，引用将被忽略，如果可能，在确定静态表达式时:

// expre_typeid_Operator_2.cpp
#include <typeinfo>

int main()
{
typeid(int) == typeid(int&); // evaluates to true
}
// expre_typeid_Operator_2.cpp
#include <typeinfo>

int main()
{
typeid(int) == typeid(int&); // evaluates to true
}

typeid 还可用于模板确定模板参数的类型:

// expre_typeid_Operator_3.cpp
// compile with: /c
#include <typeinfo>
template < typename T >
T max( T arg1, T arg2 ) {
cout << typeid( T ).name() << "s compared." << endl;
return ( arg1 > arg2 ? arg1 : arg2 );
}

type_info类
type_info类描述了编译器生成的类型信息，类的实例化对象存放一个指针指向类型名，type_info类还会存放合适的编码数据，用于比较类型是否相等和排序顺序，编码规则和排序顺序在每个程序中可能都不一样。
需要包含<typeinfo>头文件以使用type_info类，type_info类的接口是：
class type_info {
public:
virtual ~type_info();
size_t hash_code() const
_CRTIMP_PURE bool operator==(const type_info& rhs) const;
_CRTIMP_PURE bool operator!=(const type_info& rhs) const;
_CRTIMP_PURE int before(const type_info& rhs) const;
_CRTIMP_PURE const char* name() const;
_CRTIMP_PURE const char* raw_name() const;
};

type_info类不可以直接实例化，这是由于该类只有一个私有的拷贝构造函数，创建type_info对象的唯一方式是使用typeid操作符。由于赋值操作符也是私有的，因此不能复制和赋值给type_info对象。type_info::hash_code定义了一个哈希函数将typeinfo值映射为索引值。可以使用==和!=操作符比较type_info对象是否相同，继承关系不能影响类型排序顺序，使用type_info::before成员函数可以获取类型排序顺序，不同的程序甚至同一个程序的不同运行实例的type_info::before都可能会产生不同的效果，因此type_info::before有点像取地址操作符&
type_info::name函数返回const char*类型指针，指向可读的类型名称字符串，这段内存会被缓存起来且不会被直接释放。type_info::raw_name函数返回const char*指针指向对象类型的修饰名(解释在下面)，这种修饰名的作用是节省空间，由于不需要反修饰(修饰名->函数名)该函数比type_info::name快，由type_info::raw_name函数返回的字符串对于比较操作有益但不可读，如果需要可读字符串就要使用type_info::name。

C/C++函数调用约定与函数名称修饰规则探讨 .
分类：收藏转载 2008-12-08 11:44 306人阅读评论(0) 收藏举报
编译器pascal语言cfunctionwindows目录(?)[-]

1.函数调用约定Calling Convention
2.函数调用约定和名字修饰规则不匹配引起的常见问题
作者：星轨（oRbIt）
  使用C/C++语言开发软件的程序员经常碰到这样的问题：有时候是程序编译没有问题，但是链接的时候总是报告函数不存在（经典的LNK 2001错误），有时候是程序编译和链接都没有错误，但是只要调用库中的函数就会出现堆栈异常。这些现象通常是出现在C和C++的代码混合使用的情况下或在C++程序中使用第三方的库的情况下（不是用C++语言开发的），其实这都是函数调用约定（Calling Convention）和函数名修饰（Decorated Name）规则惹的祸。函数调用方式决定了函数参数入栈的顺序，是由调用者函数还是被调用函数负责清除栈中的参数等问题，而函数名修饰规则决定了编译器使用何种名字修饰方式来区分不同的函数，如果函数之间的调用约定不匹配或者名字修饰不匹配就会产生以上的问题。本文分别对C和C++这两种编程语言的函数调用约定和函数名修饰规则进行详细的解释，比较了它们的异同之处，并举例说明了以上问题出现的原因。

函数调用约定（Calling Convention）
函数调用约定不仅决定了发生函数调用时函数参数的入栈顺序，还决定了是由调用者函数还是被调用函数负责清除栈中的参数，还原堆栈。函数调用约定有很多方式，除了常见的__cdecl，__fastcall和__stdcall之外，C++的编译器还支持thiscall方式，不少C/C++编译器还支持 naked call方式。这么多函数调用约定常常令许多程序员很迷惑，到底它们是怎么回事，都是在什么情况下使用呢？下面就分别介绍这几种函数调用约定。

1.__cdecl

编译器的命令行参数是/Gd。__cdecl方式是C/C++编译器默认的函数调用约定，所有非C++成员函数和那些没有用__stdcall或 __fastcall声明的函数都默认是__cdecl方式，它使用C函数调用方式，函数参数按照从右向左的顺序入栈，函数调用者负责清除栈中的参数，由于每次函数调用都要由编译器产生清除（还原）堆栈的代码，所以使用__cdecl方式编译的程序比使用__stdcall方式编译的程序要大很多，但是 __cdecl调用方式是由函数调用者负责清除栈中的函数参数，所以这种方式支持可变参数，比如printf和windows的API wsprintf就是__cdecl调用方式。对于C函数，__cdecl方式的名字修饰约定是在函数名称前添加一个下划线；对于C++函数，除非特别使用extern "C"，C++函数使用不同的名字修饰方式。

2.__fastcall

编译器的命令行参数是/Gr。__fastcall函数调用约定在可能的情况下使用寄存器传递参数，通常是前两个 DWORD类型的参数或较小的参数使用ECX和EDX寄存器传递，其余参数按照从右向左的顺序入栈，被调用函数在返回之前负责清除栈中的参数。编译器使用两个@修饰函数名字，后跟十进制数表示的函数参数列表大小，例如：@function_name@number。需要注意的是__fastcall函数调用约定在不同的编译器上可能有不同的实现，比如16位的编译器和32位的编译器，另外，在使用内嵌汇编代码时，还要注意不能和编译器使用的寄存器有冲突。

3.__stdcall

编译器的命令行参数是/Gz，__stdcall是Pascal程序的缺省调用方式，大多数Windows的API也是__stdcall调用约定。 __stdcall函数调用约定将函数参数从右向左入栈，除非使用指针或引用类型的参数，所有参数采用传值方式传递，由被调用函数负责清除栈中的参数。对于C函数，__stdcall的名称修饰方式是在函数名字前添加下划线，在函数名字后添加@和函数参数的大小，例如：_functionname@number

4.thiscall

thiscall只用在C++成员函数的调用，函数参数按照从右向左的顺序入栈，类实例的this指针通过ECX寄存器传递。需要注意的是thiscall不是C++的关键字，不能使用thiscall声明函数，它只能由编译器使用。

5.naked call

采用前面几种函数调用约定的函数，编译器会在必要的时候自动在函数开始添加保存ESI，EDI，EBX，EBP寄存器的代码，在退出函数时恢复这些寄存器的内容，使用naked call方式声明的函数不会添加这样的代码，这也就是为什么称其为naked的原因吧。naked  call不是类型修饰符，故必须和_declspec共同使用。

VC的编译环境默认是使用__cdecl调用约定，也可以在编译环境的Project Setting...菜单－》C/C++ ＝》Code  Generation项选择设置函数调用约定。也可以直接在函数声明前添加关键字__stdcall、__cdecl或__fastcall等单独确定函数的调用方式。在Windows系统上开发软件常用到WINAPI宏，它可以根据编译设置翻译成适当的函数调用约定，在WIN32中，它被定义为 __stdcall。

函数名字修饰（Decorated Name）方式

函数的名字修饰（Decorated Name）就是编译器在编译期间创建的一个字符串，用来指明函数的定义或原型。LINK程序或其他工具有时需要指定函数的名字修饰来定位函数的正确位置。多数情况下程序员并不需要知道函数的名字修饰，LINK程序或其他工具会自动区分他们。当然，在某些情况下需要指定函数的名字修饰，例如在C++程序中，为了让LINK程序或其他工具能够匹配到正确的函数名字，就必须为重载函数和一些特殊的函数（如构造函数和析构函数）指定名字装饰。另一种需要指定函数的名字修饰的情况是在汇编程序中调用C或C++的函数。如果函数名字，调用约定，返回值类型或函数参数有任何改变，原来的名字修饰就不再有效，必须指定新的名字修饰。C和C++程序的函数在内部使用不同的名字修饰方式，下面将分别介绍这两种方式。

1. C编译器的函数名修饰规则

对于__stdcall调用约定，编译器和链接器会在输出函数名前加上一个下划线前缀，函数名后面加上一个“@”符号和其参数的字节数，例如_functionname@number。__cdecl调用约定仅在输出函数名前加上一个下划线前缀，例如_functionname。__fastcall调用约定在输出函数名前加上一个“@”符号，后面也是一个“@”符号和其参数的字节数，例如@functionname@number。

2. C++编译器的函数名修饰规则

C++的函数名修饰规则有些复杂，但是信息更充分，通过分析修饰名不仅能够知道函数的调用方式，返回值类型，参数个数甚至参数类型。不管__cdecl， __fastcall还是__stdcall调用方式，函数修饰都是以一个“?”开始，后面紧跟函数的名字，再后面是参数表的开始标识和按照参数类型代号拼出的参数表。对于__stdcall方式，参数表的开始标识是“@@YG”，对于__cdecl方式则是“@@YA”，对于__fastcall方式则是“@@YI”。参数表的拼写代号如下所示：
X--void
D--char
E--unsigned char
F--short
H--int
I--unsigned int
J--long
K--unsigned long（DWORD）
M--float
N--double
_N--bool
U--struct
....
指针的方式有些特别，用PA表示指针，用PB表示const类型的指针。后面的代号表明指针类型，如果相同类型的指针连续出现，以“0”代替，一个“0”代表一次重复。U表示结构类型，通常后跟结构体的类型名，用“@@”表示结构类型名的结束。函数的返回值不作特殊处理，它的描述方式和函数参数一样，紧跟着参数表的开始标志，也就是说，函数参数表的第一项实际上是表示函数的返回值类型。参数表后以“@Z”标识整个名字的结束，如果该函数无参数，则以“Z”标识结束。下面举两个例子，假如有以下函数声明：

int Function1(char *var1,unsigned long);

其函数修饰名为“?Function1@@YGHPADK@Z”，而对于函数声明：

void Function2();

其函数修饰名则为“?Function2@@YGXXZ” 。

对于C++的类成员函数（其调用方式是thiscall），函数的名字修饰与非成员的C++函数稍有不同，首先就是在函数名字和参数表之间插入以“@”字符引导的类名；其次是参数表的开始标识不同，公有（public）成员函数的标识是“@@QAE”,保护（protected）成员函数的标识是“@@IAE”,私有（private）成员函数的标识是“@@AAE”，如果函数声明使用了const关键字，则相应的标识应分别为“@@QBE”，“@@IBE”和“@@ABE”。如果参数类型是类实例的引用，则使用“AAV1”，对于const类型的引用，则使用“ABV1”。下面就以类CTest为例说明C++成员函数的名字修饰规则：

class CTest
{
......
private:
void Function(int);
protected:
void CopyInfo(const CTest &src);
public:
long DrawText(HDC hdc, long pos, const TCHAR* text, RGBQUAD color, BYTE bUnder, bool bSet);
long InsightClass(DWORD dwClass) const;
......
};

对于成员函数Function，其函数修饰名为“?Function@CTest@@AAEXH@Z”，字符串“@@AAE”表示这是一个私有函数。成员函数CopyInfo只有一个参数，是对类CTest的const引用参数，其函数修饰名为“?CopyInfo@CTest@@IAEXABV1@@Z”。 DrawText是一个比较复杂的函数声明，不仅有字符串参数，还有结构体参数和HDC句柄参数，需要指出的是HDC实际上是一个HDC__结构类型的指针，这个参数的表示就是“PAUHDC__@@”，其完整的函数修饰名为“?DrawText@CTest@@QAEJPAUHDC__@@JPBDUtagRGBQUAD@@E_N@Z”。InsightClass是一个共有的const函数，它的成员函数标识是“@@QBE”，完整的修饰名就是“?InsightClass@CTest@@QBEJK@Z”。

无论是C函数名修饰方式还是C++函数名修饰方式均不改变输出函数名中的字符大小写，这和PASCAL调用约定不同，PASCAL约定输出的函数名无任何修饰且全部大写。

3.查看函数的名字修饰

有两种方式可以检查你的程序中的函数的名字修饰：使用编译输出列表或使用Dumpbin工具。使用/FAc，/FAs或/FAcs命令行参数可以让编译器输出函数或变量名字列表。使用dumpbin.exe /SYMBOLS命令也可以获得obj文件或lib文件中的函数或变量名字列表。此外，还可以使用 undname.exe 将修饰名转换为未修饰形式。

函数调用约定和名字修饰规则不匹配引起的常见问题
函数调用时如果出现堆栈异常，十有八九是由于函数调用约定不匹配引起的。比如动态链接库a有以下导出函数：

long MakeFun(long lFun);

动态库生成的时候采用的函数调用约定是__stdcall，所以编译生成的a.dll中函数MakeFun的调用约定是_stdcall，也就是函数调用时参数从右向左入栈，函数返回时自己还原堆栈。现在某个程序模块b要引用a中的MakeFun，b和a一样使用C++方式编译，只是b模块的函数调用方式是 __cdecl，由于b包含了a提供的头文件中MakeFun函数声明，所以MakeFun在b模块中被其它调用MakeFun的函数认为是 __cdecl调用方式，b模块中的这些函数在调用完MakeFun当然要帮着恢复堆栈啦，可是MakeFun已经在结束时自己恢复了堆栈，b模块中的函数这样多此一举就引起了栈指针错误，从而引发堆栈异常。宏观上的现象就是函数调用没有问题（因为参数传递顺序是一样的），MakeFun也完成了自己的功能，只是函数返回后引发错误。解决的方法也很简单，只要保证两个模块的在编译时设置相同的函数调用约定就行了。

在了解了函数调用约定和函数的名修饰规则之后，再来看在C++程序中使用C语言编译的库时经常出现的LNK 2001错误就很简单了。还以上面例子的两个模块为例，这一次两个模块在编译的时候都采用__stdcall调用约定，但是a.dll使用C语言的语法编译的（C语言方式），所以a.dll的载入库a.lib中MakeFun函数的名字修饰就是“_MakeFun@4”。b包含了a提供的头文件中MakeFun函数声明，但是由于b采用的是C++语言编译，所以MakeFun在b模块中被按照C++的名字修饰规则命名为“?MakeFun@@YGJJ@Z”，编译过程相安无事，链接程序时c++的链接器就到a.lib中去找“?MakeFun@@YGJJ@Z”，但是a.lib中只有“_MakeFun@4”，没有“?MakeFun@@YGJJ@Z”，于是链接器就报告：

error LNK2001: unresolved external symbol ?MakeFun@@YGJJ@Z

解决的方法和简单，就是要让b模块知道这个函数是C语言编译的，extern "C"可以做到这一点。一个采用C语言编译的库应该考虑到使用这个库的程序可能是C++程序（使用C++编译器），所以在设计头文件时应该注意这一点。通常应该这样声明头文件：

#ifdef _cplusplus
extern "C" {
#endif

long MakeFun(long lFun);

#ifdef _cplusplus
}
#endif

这样C++的编译器就知道MakeFun的修饰名是“_MakeFun@4”，就不会有链接错误了。

许多人不明白，为什么我使用的编译器都是VC的编译器还会产生“error LNK2001”错误？其实，VC的编译器会根据源文件的扩展名选择编译方式，如果文件的扩展名是“.C”，编译器会采用C的语法编译，如果扩展名是 “.cpp”，编译器会使用C++的语法编译程序，所以，最好的方法就是使用extern "C"。

tkeians · 发表于 2017-9-19 11:13:10

好帖虽然看的人好像不多

账号		自动登录	找回密码
密码			立即注册→加入我们

[翻译]介绍RTTI和函数名修饰

欢迎访问技术宅的结界，请注册或者登录吧。

相关帖子