百度360必应搜狗淘宝本站头条
当前位置:网站首页 > IT知识 > 正文

Python番外篇之代码编译与字节码

liuian 2025-03-01 14:37 21 浏览

引言

关于字节码,不太想讲,不影响实际使用,对新手不友好……
但是,涉及到新手经常碰到的问题的解惑,似乎又不得不讲。
最终,还是打算以番外篇的形式,稍微提一下。
不过,关于字节码的内容,我觉得在脑海里有以下几个观念,应该就够了,至于字节码的细节,能了解最好,实在不了解也不影响使用:
1、Python中一切皆对象
2、对象分为可变对象和不可变对象
3、区分重新赋值操作,还是对象本身发生变化
4、新手困惑的不可变对象的所谓的“对象修改”操作,一定是重新赋值操作,通过观察id()前后的变化,即可
5、看似简单的一行代码一般都不是一步完成,而所谓字节码指令是能看到Python一行代码背后的实现步骤

生成字节码

Python解释器为了加速执行的速度,避免从Python源代码到字节码的重复编译工作。通常来说,Python会在模块首次导入时,执行对该模块的编译工作,并保存编译结果到对应的.pyc文件中。
所以,如果没有作为模块进行到如,只是执行一个普通的脚本,是不会涉及到.pyc文件的生成的,因为Python解释器判定没有涉及模块复用,没有必要执行该项操作。

当然,除了通过import导入模块的方式,会自动生成该模块对应的.pyc文件外,我们还有其他方式,来更加灵活地控制生成.pyc文件,从而实现没有定义为模块的普通代码,也可以生成.pyc文件。

.pyc文件,一般会存储在源代码文件所在目录中的__pycache__目录中。
.pyc文件的命名,一般是:

{源代码文件名}.{Python解释器类型}_{Python版本号}.pyc

以下简单列举,除了import导入模块之外,两种生成.pyc文件的方法:

通过Python代码:

可以在代码中通过内建的模块py_compile/compileall来生成.pyc文件
比如,通过py_compile生成指定Python脚本对应的字节码文件

import py_compile

py_compile.compile('./faker_test.py')

会发现脚本所在目录中多了一个__pycache__目录,目录中多了一个名为:
faker_test.cpython-311.pyc的字节码文件。

根据实际环境的Python版本,文件名后面部分可能会有些差异。

通过compileall生成指定源码目录中所有源码脚本对应的.pyc文件:

import compileall

compileall.compile_dir('./')

脚本执行完成,会对当前目录中的所有Python脚本文件,生成其对应的.pyc文件。

通过Python -m 命令

也可以通过命令的形式,进行.pyc文件的生成,如同通过Python代码的方式,也可以指定单个文件,或者指定目录:

# 生成单个脚本文件的.pyc文件
python3 -m py_compile faker_test.py
# 生成当前目录中所有脚本文件对应的.pyc文件
python3 -m compileall ./

查看字节码

关于字节码文件的结构,这里简单描述一下。
需要说明的是,Python字节码文件中,除了包含源代码对应的字节码指令、对象外,还涉及到一些元数据信息,通常作为文件头存储,主要有以下信息,不同的Python版本可能会有差异。

文件头

文件头的元数据部分,共计16个字节,主要内容有:

  • 魔数(magic number):用于标识当前的Python版本和字节码的格式,占用4个字节;
  • 空字节padding:占用4个字节,当前默认均为0;
  • 源代码最后更新时间戳:占用4个字节;
  • 源代码文件的大小:占用4个字节,单位为byte

字节码

16字节的文件头元数据之后,就是字节码的主体部分了。主要的内容有:

  • co_code:字节码指令序列,每个指令都由操作码(opcode)和操作数(operand)组成;
  • co_consts:常量元组,包含代码中所有使用到的常量,整数、字符串、元组等;
  • co_names:名称元组,包含代码中使用的所有变量名、函数名等;
  • co_filename:源代码的文件名;
  • co_name:code对象的名称,通常是函数或者模块名;
  • co_firstlineno:代码对象的第一行行号,通常从1开始;
  • co_lnotab:代码行号表,用于将字节码偏移量映射到源代码中的行号

还有其他部分,就不再展开了。
下面通过代码实例,查看一个真实的.pyc文件的结构及相关内容:
首先是用于生成.pyc文件的代码示例,名为code_test.py

a = 10
b = 5
c = a + b


def my_sum(n1, n2):
    return n1 + n2

我们通过执行命令生成对应的.pyc文件:

 python3 -m compileall ./code_test.py

接下来,通过代码查看.pyc文件的内容,这部分代码可以不看,只看执行的输出结果,验证我们上面关于字节码文件结构的描述即可。

import dis
import marshal
import struct
import time
from rich import inspect

fp = open('./__pycache__/code_test.cpython-311.pyc', 'rb')
# 以下读取并输出文件头的元数据
# magic code
print(f"magic code: {struct.unpack('

首先看文件头部分代码的输出:

前面4行,分别输出了4个字节的元数据内容,共计16个字节;
最后一行,为输出的code对象的类型。
对照笔者系统中的文件属性:

接下来是我们重点需要了解的字节码对象部分,这里我们使用了之前介绍过的rich模块中的inspect()函数,用于更加直观的查看该对象的结构:

最后,是我们后续查看代码执行的细节的字节码指令序列,这里我们通过内置的dis模块,来进行反编译查看:

简单说明一下字节码指令序列的输出:

  • 第一列:源代码中的行号
  • 第二列:字节码指令序列中的偏移,可以看出每个字节码指令长度都是两个字节
  • 第三列:字节码操作符,如LOAD_CONST、STORE_NAME等
  • 第四列:字节码操作数,0、1等分别为操作数在co_const或者co_names元组中的索引,()中的部分为该操作数的真实内容

我们后续的重点,主要是查看Python代码被编译为的字节码指令的查看。感兴趣的可以自行研究。

总结

其实,在真实场景中,我们需要用到字节码的地方比较少。更多的场景可能反而是在新手学习Python的过程中,遇到不理解的代码运行结果,通过查看字节码指令序列,从而更清晰地理解其中的细节。
字节码本身并不复杂,甚至关于字节码的格式、字节码指令,在不同的编程语言虚拟机中的定义,也都是大同小异的,比如Java字节码和Python字节码。关于虚拟机的实现、内存管理机制,也都是基于比较通用的垃圾回收算法的不同实现而已。
对字节码感兴趣的,可以查找更多的官网相关资料,进行进一步的研究。
说明:关于本文代码中用到的dis模块、marshal模块、struct模块、time模块等,也可以通过help()查看使用文档,或者直接查看对应的模块定义。本文的重点在于字节码文件的描述,所以就没有就这些模块的使用展开讲述,后续如果有使用的场景,再另行展开。

相关推荐

git的撤销、删除和版本回退_git撤销删除的文件

备注:本文参考于廖雪峰的博客Git教程。依照其博客进行学习和记录,感谢其无私分享,也欢迎各位查看原文。知识点:1、gitstatus,查看git仓库的状态2、gitdiff查看git修改了的内容...

程序员开发必会之git常用命令,git配置、拉取、提交、分支管理

整理日常开发过程中经常使用的git命令!git配置SSH刚进入项目开发中,我们首先需要配置git的config、配置SSH方式拉取代码,以后就免输入账号密码了!#按顺序执行gitconfig-...

Git使用指南 | 教你轻松学会Git_git用法详解

4000字,教大家学会Git使用。一、Git基础1、Git介绍Git是目前世界上最先进的分布式版本控制系统。版本控制系统:设计师在设计的时候做了很多版本经过了数天去问设计师每个版本都改了些啥,设计师此...

深入浅出 Git_深入浅出 gRPC

git初体验使用git前需设置用户名和Email,这些信息会出现在提交记录中以标识作者。gitconfig--globaluser.name"YeHanlin"gitc...

Git不提交指定文件的方法_git不提交指定文件的方法有哪些

大家在开发项目的时候都很喜欢使用git作为代码管理工具,但是在开发项目的时候我们的本地配置文件不应该覆盖服务器中的配置文件,我们使用命令gitstatus查看待提交文件的时候需要注意不要把本地的配...

相见恨晚的 Git 命令动画演示,一看就懂

虽然Git是一个强大的工具,但是我觉得大部分人都会同意我说的:它也可以是一个……噩梦!我一直觉得,使用Git的时候把操作过程在脑海里视觉化会非常有用:当我执行某个命令的时候,分支之间是如何交互...

GitCode的一些命令_git命令大全

GitCode的一些命令配置工具对所有本地仓库的用户信息进行配置$gitconfig--globaluser.name"[name]"对你的commit操作设置关联的用户名$...

【git】 如何删除所有 tag(本地和远程)

要删除所有本地和远程的Git标签,可以按照以下步骤进行:删除本地标签首先,删除本地标签。你可以使用以下命令删除本地的所有标签:gittag-d$(gittag-l)这将列出并删除所有本地...

互联网大漏洞:每600个网站就有1个暴露了.git文件夹

对于Web开发人员来说,向外界暴露你的.git文件夹绝对是一个菜鸟级错误。因为这样会允许任何人下载你的整个源代码存储库,包括数据库密码、加密盐、Hash和第三方接口密钥API,还有你的用户名和密码。多...

git常用命令整理_git 常用

一、Git仓库完整迁移完整迁移,就是指,不仅将所有代码移植到新的仓库,而且要保留所有的commit记录1.随便找个文件夹,从原地址克隆一份裸版本库gitclone--bare旧的git地址...

项目常用GIT操作命令_git常用操作命令 简书

Git仓库更新依赖的命令:gradle--refresh-dependenciesgradleaR完全编译;./gradlewecomm:packages:telephony:larges...

【超详细】Git 所有常用命令 + 提交规范全指南(建议收藏!)

Git命令大全初始化类命令作用gitinit初始化一个本地Git仓库(当前目录会出现.git文件夹)gitclone<仓库地址>克隆远程仓库到本地,一般用来拉项目提交代...

Git 常用的alias命令大全_git -a

Git的alias(别名)功能可以将常用的复杂命令简化,大幅提升操作效率。以下是一些实用的Gitalias配置和常用示例:一、配置alias的方法通过gitconfig命令设置,分...

Git使用教程:最详细、最傻瓜、最浅显、真正手把手教

导读:因为教程详细,所以行文有些长,新手边看边操作效果出乎你的预料。GitHub虽然有些许改版,但并无大碍。一、Git是什么?Git是目前世界上最先进的分布式版本控制系统。工作原理/流程:Work...

实用干货分享(3)- Git常用操作干货分享

官方学习地址https://git-scm.com/book/zh/v2简单的代码提交流程1.gitstatus查看工作区代码相对于暂存区的差别;2.gitadd.将当前目录下修改的所有...