如果你退出 Python 解释器并重新进入,你做的任何定义(变量和方法)都会丢失。因此,如果你想要编写一些更大的程序,为准备解释器输入使用一个文本编辑器会更好,并以那个文件替代作为输入执行。这就是传说中的脚本。随着你的程序变得越来越长,你可能想要将它分割成几个更易于维护的文件。你也可能想在不同的程序中使用顺手的函数,而不是把代码在它们之间中拷来拷去。
为了满足这些需要,Python 提供了一个方法可以从文件中获取定义,在脚本或者解释器的一个交互式实例中使用。这样的文件被称为模块;模块中的定义可以导入到另一个模块或主模块中(在脚本执行时可以调用的变量集位于最高级,并且处于计算器模式)。
模块是包括 Python 定义和声明的文件。文件名就是模块名加上.py
后缀。模块的模块名(做为一个字符串)可以由全局变量__name__
得到。例如,你可以用自己惯用的文件编辑器在当前目录下创建一个叫fibo.py
的文件,录入如下内容:
# Fibonacci numbers module
def fib(n): # write Fibonacci series up to n
a, b = 0, 1
while b < n:
print(b, end=' ')
a, b = b, a+b
print()
def fib2(n): # return Fibonacci series up to n
result = []
a, b = 0, 1
while b < n:
result.append(b)
a, b = b, a+b
return result
现在进入 Python 解释器并使用以下命令导入这个模块:
>>> import fibo
这样做不会直接把fibo
中的函数导入当前的语义表;它只是引入了模块名fibo
。你可以通过模块名按如下方式访问这个函数:
>>> fibo.fib(1000)
1 1 2 3 5 8 13 21 34 55 89 144 233 377 610 987
>>> fibo.fib2(100)
[1, 1, 2, 3, 5, 8, 13, 21, 34, 55, 89]
>>> fibo.__name__
'fibo'
如果打算频繁使用一个函数,你可以将它赋予一个本地变量:
>>> fib = fibo.fib
>>> fib(500)
1 1 2 3 5 8 13 21 34 55 89 144 233 377
深入模块
除了包含函数定义外,模块也可以包含可执行语句。这些语句一般用来初始化模块。他们仅在第一次
被导入的地方执行一次。[1]
每个模块都有自己私有的符号表,被模块内所有的函数定义作为全局符号表使用。因此,模块的作者可以在模块内部使用全局变量,而无需担心它与某个用户的全局变量意外冲突。从另一个方面讲,如果你确切的知道自己在做什么,你可以使用引用模块函数的表示法访问模块的全局变量,modname.itemname
。
模块可以导入其他的模块。一个(好的)习惯是将所有的import
语句放在模块的开始(或者是脚本),这并非强制。被导入的模块名会放入当前模块的全局符号表中。
import
语句的一个变体直接从被导入的模块中导入命名到本模块的语义表中。例如:
>>> from fibo import fib, fib2
>>> fib(500)
1 1 2 3 5 8 13 21 34 55 89 144 233 377
这样不会从局域语义表中导入模块名(如上所示,fibo
没有定义)。
甚至有种方式可以导入模块中的所有定义:
>>> from fibo import *
>>> fib(500)
1 1 2 3 5 8 13 21 34 55 89 144 233 377
这样可以导入所有除了以下划线(_
)开头的命名。在大多数情况下,Python 程序员不使用此工具,因为它引入了一个未知的名称翻译,可能隐藏一些你已经定义的事情。
需要注意的是在实践中往往不鼓励从一个模块或包中使用*
导入所有,因为这样会让代码变得很难读。不过,在交互式会话中这样用很方便省力。
注意
出于性能考虑,每个模块在每个解释器会话中只导入一遍。因此,如果你修改了你的模块,需要重启解释器——或者,如果你就是想交互式的测试这么一个模块,可以用reload()
重新加载,例如reload(modulename)
。
作为脚本来执行模块
当你使用以下方式运行 Python 模块时,模块中的代码便会被执行:
python fibo.py <arguments>
模块中的代码会被执行,就像导入它一样,不过此时 __name__
被设置为 "__main__"
。这相当于,如果你在模块后加入如下代码:
If __name__ == "__main__":
import sys
fib(int(sys.argv[1]))
就可以让此文件像作为模块导入时一样作为脚本执行。此代码只有在模块作为 “main” 文件执行时才被调用:
$ python fibo.py 50
1 1 2 3 5 8 13 21 34
如果模块被导入,不会执行这段代码:
>>> import fibo
>>>
这通常用来为模块提供一个便于测试的用户接口(将模块作为脚本执行测试需求)。
模块的搜索路径
导入一个叫spam
的模块时,解释器先在当前目录中搜索名为spam.py
的文件。如果没有找到的话,接着会到sys.path
变量中给出的目录列表中查找。sys.path
变量的初始值来自如下:
包含输入脚本的目录(没有指定文件的当前目录)
PYTHONPATH 环境(目录名的列表,与 shell 变量路径的语法相同)
installation-dependent 默认。
注意:支持符号链接的文件系统,在符号链接后,包含输入脚本的目录被计算,换句话说包含符号链接的目录不是添加到模块搜索路径
初始化后,Python 程序可以修改sys.path
。包含正在运行的脚本的目录被放置在搜索路径的开始,也就是在标准库路径。在库目录中,这意味着该目录中的脚本将被加载,而不是模块名称相同的被加载。这是一个错误,除非更换是有目的的。有关更多信息,请参见部分标准模块。
“编译的” Python 文件
为了加速加载模块,Python 缓存编译版本中每个模块的__pycache__
目录在名称module.version.pyc
下,那里的版本编译的文件编码格式;它一般包含 Python 的版本号。例如,在当前的版本 3.3 的编译版本将缓存为spam.py __pycache__ / spam.cpython-33.pyc
。这个模块允许 compiled 命名不同的版本,和不同版本的 Python 共存。
Python 检查对编译版本源码的修改日期是否过期,过期需要重新编译。这是一个完全自动化的过程。同时,已编译的模块是平台独立的,所以同一个库可以与不同的结构系统之间的共享。
Python 不检查缓存两种情况。首先,它总是重新编译,不存储结果的模块的加载,直接从命令行。第二,如果没有源模块,它不检查缓存。为了支持一个非源(只编译)分布,编译的模块必须在源目录,并且肯定不是一个源模块。
部分高级技巧:
- 你可以使用
-o
或面向对象的开关上的 Python 命令来减少编译的模块的大小。-O
开关去除 assert 语句,该对象开关消除 Assert 语句和__doc__
字符串。因为某些程序依赖于这些变量的可用性,你应该只在确定无误的场合使用这一选项。“优化”,又一个.pyo
模块而不是一个.pyc
,通常较小。未来的版本可能会改变优化的影响。 - 来自
.pyc
文件或.pyo
文件中的程序不会比来自.py
文件的运行更快;.pyc
或.pyo
文件只是在 它们加载的时候更快一些。 compileall
模块可以为指定目录中的所有模块创建.pyc
文件(或者使用-O
参数创建.pyo
文件)。- 在这个过程中更多的细节,包括一个决策流程图,在 PEP 3147。
标准模块
Python 带有一个标准模块库,并发布有独立的文档,名为 Python 库参考手册(此后称其为“库参考手册”)。有一些模块内置于解释器之中,这些操作的访问接口不是语言内核的一部分,但是已经内置于解释器了。这既是为了提高效率,也是为了给系统调用等操作系统原生访问提供接口。这类模块集合是一个依赖于底层平台的配置选项。例如,winreg模块只提供在 Windows 系统上才有。有一个具体的模块值得注意:sys,这个模块内置于所有的 Python 解释器。变量sys.ps1
和sys.ps
定义了主提示符和辅助提示符字符串:
>>> import sys
>>> sys.ps1
'>>> '
>>> sys.ps2
'... '
>>> sys.ps1 = 'C> '
C> print('Yuck!')
Yuck!
C>
这两个变量只在解释器的交互模式下有意义。
变量sys.path
是解释器模块搜索路径的字符串列表。它由环境变量 PYTHONPATH初始化,如果没有设定PYTHONPATH,就由内置的默认值初始化。你可以用标准的字符串操作修改它:
>>> import sys
>>> sys.path.append('/ufs/guido/lib/python')
函数
内置函数 dir()用于按模块名搜索模块定义,它返回一个字符串类型的存储列表:
>>> import fibo, sys
>>> dir(fibo)
['__name__', 'fib', 'fib2']
>>> dir(sys)
['__displayhook__', '__doc__', '__excepthook__', '__loader__', '__name__',
'__package__', '__stderr__', '__stdin__', '__stdout__',
'_clear_type_cache', '_current_frames', '_debugmallocstats', '_getframe',
'_home', '_mercurial', '_xoptions', 'abiflags', 'api_version', 'argv',
'base_exec_prefix', 'base_prefix', 'builtin_module_names', 'byteorder',
'call_tracing', 'callstats', 'copyright', 'displayhook',
'dont_write_bytecode', 'exc_info', 'excepthook', 'exec_prefix',
'executable', 'exit', 'flags', 'float_info', 'float_repr_style',
'getcheckinterval', 'getdefaultencoding', 'getdlopenflags',
'getfilesystemencoding', 'getobjects', 'getprofile', 'getrecursionlimit',
'getrefcount', 'getsizeof', 'getswitchinterval', 'gettotalrefcount',
'gettrace', 'hash_info', 'hexversion', 'implementation', 'int_info',
'intern', 'maxsize', 'maxunicode', 'meta_path', 'modules', 'path',
'path_hooks', 'path_importer_cache', 'platform', 'prefix', 'ps1',
'setcheckinterval', 'setdlopenflags', 'setprofile', 'setrecursionlimit',
'setswitchinterval', 'settrace', 'stderr', 'stdin', 'stdout',
'thread_info', 'version', 'version_info', 'warnoptions']
无参数调用时,dir()
函数返回当前定义的命名:
>>> a = [1, 2, 3, 4, 5]
>>> import fibo
>>> fib = fibo.fib
>>> dir()
['__builtins__', '__name__', 'a', 'fib', 'fibo', 'sys']
注意该列表列出了所有类型的名称:变量,模块,函数,等等。
dir() 不会列出内置函数和变量名。如果你想列出这些内容,它们在标准模块内置命令:中
>>> import builtins
>>> dir(builtins)
['ArithmeticError','AssertionError','AttributeError','BaseException',
'BlockingIOError', 'BrokenPipeError', 'BufferError', 'BytesWarning', 'ChildProcessError','ConnectionAbortedError','ConnectionError',
'ConnectionRefusedError', 'ConnectionResetError', 'DeprecationWarning',
'EOFError', 'Ellipsis', 'EnvironmentError', 'Exception', 'False',
'FileExistsError', 'FileNotFoundError', 'FloatingPointError',
'FutureWarning','GeneratorExit','IOError','ImportError',
'ImportWarning','IndentationError','IndexError','InterruptedError',
'IsADirectoryError', 'KeyError', 'KeyboardInterrupt', 'LookupError',
'MemoryError','NameError','None','NotADirectoryError','NotImplemented',
'NotImplementedError', 'OSError', 'OverflowError',
'PendingDeprecationWarning', 'PermissionError', 'ProcessLookupError',
'ReferenceError', 'ResourceWarning', 'RuntimeError', 'RuntimeWarning',
'StopIteration', 'SyntaxError', 'SyntaxWarning', 'SystemError',
'SystemExit','TabError', 'TimeoutError', 'True', 'TypeError',
'UnboundLocalError', 'UnicodeDecodeError', 'UnicodeEncodeError',
'UnicodeError', 'UnicodeTranslateError', 'UnicodeWarning', 'UserWarning',
'ValueError', 'Warning', 'ZeroDivisionError', '_', '__build_class__',
'__debug__', '__doc__', '__import__', '__name__', '__package__', 'abs',
'all', 'any', 'ascii', 'bin', 'bool', 'bytearray', 'bytes', 'callable',
'chr', 'classmethod', 'compile', 'complex', 'copyright', 'credits',
'delattr','dict', 'dir', 'divmod', 'enumerate', 'eval', 'exec', 'exit',
'filter', 'float', 'format', 'frozenset', 'getattr', 'globals', 'hasattr',
'hash', 'help', 'hex', 'id', 'input', 'int', 'isinstance', 'issubclass',
'iter', 'len', 'license', 'list', 'locals', 'map', 'max', 'memoryview',
'min', 'next', 'object', 'oct', 'open', 'ord', 'pow', 'print', 'property',
'quit', 'range', 'repr', 'reversed', 'round', 'set', 'setattr', 'slice',
'sorted', 'staticmethod', 'str', 'sum', 'super', 'tuple', 'type', 'vars',
'zip']
包
包通常是使用用“圆点模块名”的结构化模块命名空间。例如,名为 A.B 的模块表示了名为 A 的包中名为 B 的子模块。正如同用模块来保存不同的模块架构可以避免全局变量之间的相互冲突,使用圆点模块名保存像 NumPy 或 Python Imaging Library 之类的不同类库架构可以避免模块之间的命名冲突。
假设你现在想要设计一个模块集(一个“包”)来统一处理声音文件和声音数据。存在几种不同的声音格式(通常由它们的扩展名来标识,例如:.wav
,.aiff
,.au
),于是,为了在不同类型的文件格式之间转换,你需要维护一个不断增长的包集合。可能你还想要对声音数据做很多不同的操作(例如混音,添加回声,应用平衡 功能,创建一个人造效果),所以你要加入一个无限流模块来执行这些操作。你的包可能会是这个样子(通过分级的文件体系来进行分组):
sound/ Top-level package
__init__.py Initialize the sound package
formats/ Subpackage for file format conversions
__init__.py
wavread.py
wavwrite.py
aiffread.py
aiffwrite.py
auread.py
auwrite.py
...
effects/ Subpackage for sound effects
__init__.py
echo.py
surround.py
reverse.py
...
filters/ Subpackage for filters
__init__.py
equalizer.py
vocoder.py
karaoke.py
...
当导入这个包时,Python 通过sys.path
搜索路径查找包含这个包的子目录。
为了让 Python 将目录当做内容包,目录中必须包含__init__.py
文件。 这是为了避免一个含有烂俗名字的目录无意中隐藏了稍后在模块搜索路径中出现的有效模块,比如 string 。 最简单的情况下,只需要一个空的__init__.py
文件即可。 当然它也可以执行包的初始化代码,或者定义稍后介绍的__all__
变量。
用户可以每次只导入包里的特定模块,例如:
import sound.effects.echo
这样就导入了sound.effects.echo
子模块。它必需通过完整的名称来引用。
sound.effects.echo.echofilter(input, output, delay=0.7, atten=4)
导入包时有一个可以选择的方式:
from sound.effects import echo
这样就加载了echo
子模块,并且使得它在没有包前缀的情况下也可以使用,所以它可以如下方式调用
echo.echofilter(input, output, delay=0.7, atten=4)
还有另一种变体用于直接导入函数或变量:
from sound.effects.echo import echofilter
这样就又一次加载了echo
子模块,但这样就可以直接调用它的echofilter() 函数:
echofilter(input, output, delay=0.7, atten=4)
需要注意的是使用from package import item
方式导入包时,这个子项(item)既可以是包中的一个子模块(或一个子包),也可以是包中定义的其它命名,像函数、类或变量。import 语句首先核对是否包中有这个子项,如果没有,它假定这是一个模块,并尝试加载它。如果没有找到它,会引发一个ImportError
异常。
相反,使用类似 import item.subitem.subsubitem
这样的语法时,这些子项必须是包,最后的子项可以是包或模块,但不能是前面子项中定义的类、函数或变量。