深入理解计算机系统_可重定位目标文件的格式---elf格式

本文详细介绍了可重定位目标文件(.o文件)的生成过程,包括预编译、编译和汇编阶段。重点讲解了Linux下ELF文件的结构,如ELF头、.text、.rodata、.data、.bss节的用途。同时,阐述了符号表(symtab)的重要性和各个字段的含义,以及.rel.text和.rel.data在链接时的作用。此外,还提到了调试信息和行号信息的存放。通过对ELF格式的深入理解,有助于代码排错和理解C/C++实现原理。

本篇笔记记录可重定位目标文件的格式— elf格式,也是《深入理解计算机系统》第7章的内容。了解这些内容,对我们很有帮助,比如代码排错,可以深入了解C/C++ 实现原理。
分别介绍如何得到可重定位目标文件及其格式。

2.1 如何得到可重定位目标文件?

可重定位目标文件,就是一个.o文件,这个.o文件不能被执行,还需要通过静态链接之后,才能成为可执行目标文件去执行。
cpp、cc1预编译 cc1编译 as汇编
XXX.c ——————————>a.i——————————>a.s——————————> XXX.o

2.2 Linux下Elf可重定位目标文件组成结构

如下图所示:
在这里插入图片描述
Linux下,每个.o文件都是这样的结构;每个节都有一个编号,编号的作用就是这个节的索引,通过索引找到这个节。链接时要做的就是将多个elf格式的.o文件合并为一个文件。
注意:每个.o的逻辑地址(就是标识编号)都是从0开始的。
下面分别说说,ELF格式的每个节的作用。

2.2.1 ELF头

可以通过readelf -h 查看elf格式头信息。
在这里插入图片描述
Magic: 7f固定,后边的45 4C 46为ELF的ascii码
Class: ELF64 //表示该ELF格式面对的是64位系统,在32位系统里面就是ELF32;
Data: 2’s complement, little endian//数据按小端序存储
Version: 1 (current) //ELF头版本号
Type: REL (Relocatable file) //目标文件类型,这里标注的是“可重定位目标文件”
Machine: Advanced Micro Devices X86-64 //cpu类别
Version: 0x1 //目标文件版本号
Entry point address: 0x0 //起始地址(入口地址),.o逻辑地址是从0开始的
Size of this header: 64 (bytes) // 格式头大小64V=B

2.2.2 .text

2 和3 都是只读节,放所有函数的机器指令,不过某些常量也会直接和指令一起存在.text当中。比如:

int main(void)
{
	int a = 20;
	a = a + 100;   //表达式中的100会直接和指令放在一起
}

2.2.3 .rodata节

只读数据节,放只读数据(放某些常量数据),比如:

int a = 100;
printf("%d", a);
char *p = "hello world";

格式字符串"%d"和"hello world"这两个字符串常量,都放在了.rodata中。

2.2.4 .data

存放已经被初始化的非0的全局变量和初始化的静态局部变量。
初始化的全局变量:

int a = 100; 		//初始化了的全局变量,a就是在.data节中
int main(void)
{
	printf("%d\n", a);
}

int main(void)
{
	static int b = 101;//已经初始化了的静态局部变量
	printf("%d", a);
}

这个例子中,如果int b 没有加static,那么b就是自动局部变量,程序运行起来后,存放在栈中。编译时候不涉及局部变量,因为编译时候还没有栈,只有运行起来后,启动代码才会初始化栈。程序运行起来后,开辟栈帧,然后将101放入栈中。

2.2.5 .bss段

放未初始化的全局变量和未初始化的静态局部变量。

int a; //未初始化了的全局变量
int main(void)
{
	printf("%d", a);
}
int main(void)
{
	static int b;//未初始化的静态局部变量
	printf("%d", a);
}	

由于int a 和 static int b未初始化,所以其实不占空间。因此,在编译好的.o文件中,.bss只是一个占位符,只有当程序真正运行起来后,才会在内存上真正的开辟.bss的空间,并在.bss空间中开辟a和b的空间,并制自动初始化为0。所以在.o中,.bss只是一个理论上的存在。
.o为什么没有开辟.bss空间?没有实际要存放的数据,开辟空间只是浪费空间。因为.o文件存放在硬盘上,如果给.o 开辟没有必要的.bss空间,会浪费磁盘空间。

2.2.6 symtab符号表

每一个.o文件都有一个符号表symtab,用于存放.o中所定义和引用的全局符号信息。比如:有a.c b.c两个文件,代码如下:

int a = 100;
int fun(int a)
{
	return 1;
}
					
extern int b;  //定义在了b.c中
					
int main(void)
{
	b = 10000;
						
	fun2(1000); //fun2定义在了c.c中
}

编译后:
a.c -> a.o
b.c -> b.o
a.o中定义的符号信息:
a:a.o自己定义的全局变量符号
fun:a.o自己定义的函数符号
main:a.o自己定义的函数符号
a.o中引用的符号信息
b:a.o引用的在b.o中定义的全局变量符号
fun2:a.o引用的在c.o中定义的fun2函数符号

符号表的意义:

链接器在链接时候,将多个.o文件链接成一个.o文件,比如将a.o 和 b.o链接在一起时候,链接器需要查看各个.o文件的符号表,才能将各自符号的定义和引用关联起来。
下图是符号表的字段
在这里插入图片描述
上图是《深入理解计算机系统》书中对符号表的定义,下面分别解释一下符号表这几个字段。
(1) name: 记录字符串在表中的偏移
name中记录的并不是字符串的名字,而是记录了字符串在.strtab中的偏移。
假如,.strtab中的内容为main\0fun2\0a_va\0…
如果name = 5, 到strtab表中搜索,当遇到\0截止,取出来的就是fun2;

(2) value:存放符号所在空间的起始地址
存放某个符号所在的段,如果在.bss段,value就存放.bss段的起始地址;

(3) size:表示value所指向空间中,符号所占空间的大小
通过value找到该空间的起始地址,通过name 找到 偏移地址,再通过size, 就可以确定所占的字节数。

(4) type: 符号类型,有3种类型
FUNC:代表的是函数;
OBJECT:代表的是全局变量;
FILE:是源文件的名字

(5) bind
有两种情况,LOCAL 和 GLOBAL
bind = local 表示本地符号,在模块内定义,只能由本模块引用,static修饰的变量和函数就是这种情况。
bind=GLOBAL(全局符号),表示符号在本模块定义,但是可以被其它模块引用(使用),extern修饰的全局变量和函数就是这种情况。

(6) section
section的值有四种情况,节索引号、ABS、UNDEF、COM
情况1:section=节索引号, 说明符号所对应的空间在哪个节里面。比如,section == 1,表示符号所在的空间再.text节中,说明符号代表的是函数,因为只有函数指令才会保存在.text中;
section == 3,符号代表的空间在.data中,说明符号是初始化了的全局变量,因为只有初始化了的全局变量才会在.data节。
**情况2:**section=ABS,表示该符号不需要被“链接程序”处理。比如,如果符号名是.c,这个符号不是全局变量、不是函数,只是一个源文件名而已,链接器(ld/collect2)在链接“可重定位目标文件”时,这个符号不需要被处理。
情况3:section=UNDEF,表示这个符号,只是在本模块中被引用了,这个符号并不是由本模块定义的。在本某块找不到定义,所以这个符号的section就被标注为了UNDEF,表示这个符号被定义在了其它模块中,链接时要到其它模块中去找搜寻它的定义。经常在编译时候,报ld 开头的链接错误,原因就是因为找到符号的定义,有两个原因:要不然就是忘了链接所需的目标文件,要不然就是函数/变量名称写错了。
情况4 :section=COM,表示还未被分配空间,未被初始化,比如未初始化的全局变量。
通过readelf -s 查看符号表,如下:
在这里插入图片描述
在这里插入图片描述
比如,main
(a)符号名:main
(b)类型:函数
©本地符号/全局符号:全局被extern修饰的全局变量和函数,都会被标记为GLOBAL;
(d) 所在节:函数指令存在了编号为1的.text节
(e) 节中位置:偏移为0,表示main指令从.text第一个字节处开始存放
(f) 大小:从.text的第一个字节往后,占26字节

2.2.7 .rel.text

将多个.o链接到一起时,每个.o的.text会被整合为一个.text,整合.text时就必须依赖.rel.text所记录的一些有关.text中指令的位置信息.

2.2.8

将多个.o链接到一起时,每个.o的.data会被整合为一个.data,整合到一起时,就必须要依赖.rel.data所记录的一些有关.data的信息.

2.2.9 debug

符号调试表,记录调试信息,编译时必须加-g选项,编译时才会在.debug节中加入调试信息。

2.2.10 line

存放代码行号,因为调试的时候往往需要显示源码的行号。只有gcc编译时加了-g选项后,才会加入行号信息。

2.2.11 strtab

.symtab、.debug所用到符号名字、每个节的节名字(比如.text等)、源文件名字(***.c)等,都存在.strtab中.比如,.text\0.rodata\0…fun\0main\0,查找时,就通过name偏移就可以找到。

2.2.12 节头部表

描述目标文件中每个节的某些相关信息。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值