class object layout

//64位系统class A{ };//sizeof(A)为1class B : virtual public A{ };//sizeof(B)为8class C : virtual public A{ };//sizeof(C)为8class D : public B, public C{ };//sizeof(D)为16//sizeof(A)为1是因为编译器会安插一个char,使得多个object会有不同的地址
  • 内存布局:

  • 造成B和C大小为8的原因如下:

    • 语言本身造成的额外负担。若derived class派生自virtual base class,则derived class中含有一个vbptr指针,此指针指向virtual base class subobject或一个相关表格vbtable,而vbtable存放virtual base class subobject地址或编译位置(offset)
      • 注:derived class中包含本身和base class组成了对象,而属于某个基类的对象就是base class subobject
    • 编译器对特殊情况的优化处理。virtual base class A subobject的1 bytes一般放于derived class的固定部分的末端,某些编译器会对empty virtual base class提供特殊支持
      • empty virtual base class不定义任何数据,提供一个virtual interface。某些编译器处理下,一个empty virtual base class被视为derived class object最开始的那一部分,并没有使用任何的额外空间。因为含有member,所以也没有必要安插char
    • Alignment padding的限制。聚合的结构体大小收alignment限制,使其在内存更有效率地被存取
  • nonstatic data members和virtual nonstatic data members都存与class object中,且没有强制定义其排列顺序;static data members存于global data segment,不影响class object大小

  • nonstatic data members在class object中同一个access level的内存排列顺序应和被声明的顺序相同,不受static data members影响

  • class object的同一个access section中members不一定非得连续排列,member的alignment和内部使用的data members可能会介于声明的members间;且多个access section中data members可以自由排序,不用考虑声明顺序

  • access sections的多少并不影响内存大小

    class A{    public:    ...    private:    float x;    static int y;    private:    float z;    static int i;    private:    float j;}

the binding of a data member

  • 现有以下代码:
extern float x;class A{    public:    A(float, float, float);    float X() const { return x; };        private:    float x, y, z;}
  • 放在现在,X()的返回值肯定是class内部那个,但在以前的编译器,此操作会返回extern那个。因此,这也就产生了两种防御性程序风格:

    • 将所有data member放于class声明最开始处

      class A{    private:    float x, y, z;        public:    //这样将保证class内部    float X() const { return x; };}
    • 将所有inline member functions,放于class外。inline函数实体,在整个class声明完全看见后,绑定操作才会进行

      class A{    public:    A();        private:    float x,y,z;};inline float A::X() const{    return x;}
  • 请思考如下代码:

    typedef int length;class A{    public:    //length被判定为int类型    //_val 判定为A::_val    void do1( length val ) { _val = val; };    length do1() { return _val; };        private:    //这里length必须在"本class对它的第一个操作前"被看见.否则先前的判定操作不合法    typedef float length;    length _val;}
  • 对于member function的argument list来说,argument list中的名称会在它们第一次遭遇时被适当判断完成。因此,需要将nested type声明放于判断前

data member 的存取

​现有如下代码:

A a;//x的存取成本?a.x = 0.0;A* ot = &A;//通过指针的x的存取成本?pt->x = 0.0
  • 用指针进行存取:若A为derived class且继承体系中含有virtual base class,且存取的member从virtual base class继承而来,和单一继承、多重继承这样的就有很大差距,因为这个存取操作需要延迟至执行器,经由一个额外的间接导引解决

static data members

  • class object里的static data member,对于class objects和其本身,都不会产生额外负担

  • 无论是复杂的继承关系还是单一的class object,static data member永远只有一个实例

  • static data member每次被取用时,编译器都会对其进行转化

    //a.i = 0;A::i = 0; //pt->i = 0;A::i = 0;
  • 多个相同的classs都声明相同的static member,在data segment中这肯定会导致名称冲突,但编译器对其进行name-mangling,也就是暗中对每一个冲突的static data member编码,如此即可获得独一无二的识别代码

    • 不同的编译器有不同的name-mangling,但都包含两点:
      • 运用一个算法推导识别代码
      • 若编译系统必须和使用者交谈,这是识别代码可以被轻易地推导回原来的名称
  • 对于以上代码,虽然使用的member selection operators对static data member进行存取操作,但这只是图方便,实际上static data member并不在class object中,因此也并没有通过class object

若由A中的一函数调用static data member,会发生如下转化:

//do为A中的函数do().i = 0;//转化求值(void) do();A.i = 0;

若取static data member地址,也只会得到指向其类型的指针,并不会指向其class member

&A::i;//转化const int*

nonstatic data members

  • nonstatic data members存放在class object中,需经过explict或implicit class object进行存取,且进行存取操作时,编译器还需要把class object的起始地址加上data member的offset

    A A::do1( const A& pt ){    x += pt.x;    y += pt.y;    z += pt.z;}//转化A A::do1( A* const this, const A& pt ){    this->x += pt.x;    this->y += pt.y;    this->z += pt.z;}--------------------------------------------分割线--------------------------------------------------------a.y = 0.0;//起始地址+offset&a + (A::y - 1);
    • 这里的”-1″操作是因为指向data member的指针的offset总是被加上1,如此编译系统即可区分”指向data member的指针,用以指出class的第一个member”和”指向data member的指针,没有指向任何member”两种情况

      • 取一个nonstatic dat member的地址,会得到它在class中的offset;而取一个绑定在class object上的data member的地址,会得到他在内存中的真实地址
      class B{    public:    virtual ~B();    protected:    static B origin;    float x,y,z;}//&origin: 当前地址减去offset并加一float B::* p1 = &origin.y;//最终得到val:offset + 1float B::* p2 = &B::x;//B::* 是指向B data member的指针
    • 因为offset的值于编译期即可得出,因此存取一个nonstatic data member其实效率和c struct member一样,派不派生也是如此

data member的继承单一继承

  • 对于derived class object,编译器可以自由其derived class member 和 base class member的排列顺序,但大部分编译器中,base class members会先出现(以上virtual base class除外)

​现有以下代码:

class Point2d{    public:    float x() { return _x; }    float y() { return _y; }        void operation+=( const Point2d& rhs )        {            _x += rhs.x();            _y += rhs.y();        }    ...//constructor                private:    float _x, _y;}class Point3d{    public:    float z() { return _z; }        void operation+=( const Point3d& rhs )        {            Point2d::operator+=( rhs );            _z += rhs.z();        }    ...//constructor        private:    float _z;}
  • 以上这种继承被称为具体继承(concrete inheritance),derived class继承base class的data member和 member function,将之局部化,但这种行为并不会增加空间和时间上的额外负担。没有virtual function时,布局其实和c struct一样

  • 对于具体继承,需要注意因alignment padding膨胀的空间

    //32位//A大小 4 + 1 + alignment 3class A{    private:    int val;    char c1;}//B大小由8 + 1 + aligment3class B : public A{private:    char c2;}//根据B的意思,C也就是16class C : public B{    private:    char c3;}

    也许你会认为,这不是浪费很多空间吗,为什么不让derived class member直接填上base class aligment那一部分?

    如果是以上布局,又会产生一个问题:继承而得的members会被覆盖

    B* pb;A* pa1, pa2;//可指向ABCpa1 = pb;//这将导致c2的值被覆盖掉*pa2 = *pa1;

多态(单一)继承

​现有如下代码:

class Point2d{    public:    float x() { return _x; }    float y() { return _y; }        virtual void operation+=( const Point2d& rhs )        {            _x += rhs.x();            _y += rhs.y();        }        virtual float z() { return 0.0; }    virtual void z(float) { }    ...//constructor                private:    float _x, _y;}class Point3d{    public:    float z() { return _z; }        void operation+=( const Point2d& rhs )        {            Point2d::operator+=( rhs );            _z += rhs.z();        }    ...//constructor        private:    float _z;}//p1和p2可能为Point2d类型,也可能为Point3d类型void do( Point2d& p1, Point2d& p2 ){    p1 += p2;}
  • 支持多态继承会造成空间和时间上的负担:
    • virtual table,存放virtual functions地址和slots(支持runtime type identification)
    • 每个class object导入一个vptr
    • 优化constructor,在其中设定vptr的初值,使其指向class应对应的virtual table
    • 优化destructor,在其中抹去vptr
  • 对于编译器来说,vptr一般放于class object尾端,如此可以保留base class C对象布局,放在c中亦可使用

多重继承

  • 对于单一继承这种形式,base class object 和 derived class object都是从相同地址开始(例如先前实例中),因此将derived class object指定给base class的指针或引用,编译器不需要针对其修改地址,执行效率很高

​现有如下代码:

class Point2d{    public:    ...//含有virtual函数            protected:    float _x, _y;}class Point3d : public Point2d{    ...        protected:    float _z;}class Vertex{    public:    ... //含有virtual函数            protected:    Vertex* next;}class Vertex3d : public point3d, public Vertex{    ...        protected:    float mumble; }Vertex3d v3d;Vertex* pv;Point2d* p2d;Point3d* p3d;pv = &v3d;//内部转换 pv = (Vertex*)( ( (char*)&v3d ) + sizeof(Point3d) );//无需转换p2d = &v3d;p3d = &v3d    Vertex3d* pv3d;Vertex* pv;//若想进行指针的指定操作,还需加个判断pv = pv3d ? (Vertex*)((char*)pv3d) + sizeof( Point3d );//pv3d可能为野指针

内存布局:

  • c++并未要求多重derived class object中,base class objects有特定的排列顺序
  • 对于多重派生对象,例如Vertex3d,将地址指定给最左端base class(point3d)时,无需修改地址,因为两者起始地址相同;但往后的base class,需要修改地址,加上或减去介于其中的base class subobjects大小。若存取往后的base class data members,也并不需要付出额外成本,members的位置在编译期已固定,通过offset运算即可得出

虚拟继承

​iostram library:

//对应如下左图class ios {...};class istream : public ios {...};class ostream : public ios {...};class iostream : public istream, public ostream {...};//对应如下右图class ios {...};class istream : virtual public ios {...};class ostream : virtual public ios {...};class iostream : public istream, public ostream {...};

​根据如上可知,虚拟继承可以解决存储多个同一base class的问题(ios),那么这是如何实现的呢?

  • class内若内含virtual base class subobjects,会被分割为两部分:一个不变区域和一个共享区域
    • 不变区域:含有固定的offset,不受影响,可以直接存取
    • 共享区域:也就是virtual base class subobjects,这一区域会受每次派生操作影响而变化,只可以被简介存取

​编译期实现策略:

class Point2d{    ...    protected:    float _x, _y;}class Point3d : virtual public Point2d{    ...    protected:    float _z;}class Vertex : virtual public Point2d{    ...    protected:    Vertex* next;}class Vertex3d : public Vertex, public Point3d{    ...    protected:    float mumble;}
  • 一般的布局策略是先安排derived class不变部分,随后建立共享部分

  • 存取class的共享部分:在每一个derived class object中安插一些指针,每个指针指向一个virtual base class

void Point3d::operator+=( const Point3d& rhs ){    _x += rhs._x;    _y += rhs._y;    _z += rhs._z;}//进行如下转换__vbcPoint2d->_x += rhs.__vbcPoint2d->_x;_z += rhs._z;----------------------------------分割线-------------------------    Point2d* p2d = pv3d;//进行如下转换Point2d* p2d = pv3d ? pv3d->__vbcPoint2d : 0;

​然而,这种实现模型却存在两个缺点:

  • 每个对象针对每一个virtual base class含有一个指向其class的指针
  • 随着虚拟继承串链的变长,间接存取层次也会增加。(如三层虚拟派生,则有三次间接存取,也就是三个virtual base class指针)

​解决:

  • 对于第一个,引入virtual base class table,virtual base class指针放在table中,编译期会安插一个指针指向virtual base class table

  • 对于第二个,拷贝取得所有的nested virtual base class指针

  • virtual base class最有效的形式:一个抽象virtual base class,不含data member

对象成员和指向data member的指针效率

  • 对于对象成员,在编译期未优化时聚合、封装、继承方式在存取方面都有效率上的差异;优化后都是相同的,且封装并不会带来执行器的效率成本。其中聚合和封装、单一继承效率高,因为单一继承中members被连续存储在derived class中,且offset于编译期就计算出了;但虚拟继承的效率很低
  • 对于指向data member的指针,在编译期未优化时,通过指针间接存取效率相对于直接存取会更低,但优化后都是一样的;单一继承并不会降低效率,但虚拟继承中,因每一层都导入一个额外层次的间接性,因此效率较差