进阶
函数
在Python中,定义一个函数要使用def语句,依次写出函数名、括号、括号中的参数和冒号:,然后,在缩进块中编写函数体,函数的返回值用return语句返回。
我们以自定义一个求绝对值的my_abs函数为例:
1 | 复制代码def my_abs(x): |
请注意,函数体内部的语句在执行时,一旦执行到return时,函数就执行完毕,并将结果返回。因此,函数内部通过条件判断和循环可以实现非常复杂的逻辑。
如果没有return语句,函数执行完毕后也会返回结果,只是结果为None。
return None可以简写为return。
python中函数没有返回值类型声明,同时,函数名其实就是指向一个函数对象的引用,完全可以把函数名赋给一个变量,相当于给这个函数起了一个“别名”:
1 | 复制代码>>> a = abs # 变量a指向abs函数 |
位置参数
我们先写一个计算x2的函数:
1 | 复制代码def power(x): |
对于power(x)函数,参数x就是一个位置参数。
当我们调用power函数时,必须传入有且仅有的一个参数x:
默认参数
1 | 复制代码def power(x , y = 2): |
我们调用时既可以这样用power(2,3),也可以这样用power(2),明显的,当我们不传递y这个参数时,方法内部会去y的默认值进行运算,也就是2
默认参数可以简化函数的调用。设置默认参数时,有几点要注意:
- 必选参数在前,默认参数在后,否则Python的解释器会报错(思考一下为什么默认参数不能放在必选参数前面);
- 如何设置默认参数。
当函数有多个参数时,把变化大的参数放前面,变化小的参数放后面。变化小的参数就可以作为默认参数。
使用默认参数有什么好处?最大的好处是能降低调用函数的难度。因为有些参数,可能我们大部分时间传递的是同样的值。
注意事项:
- 定义默认参数要牢记一点:默认参数必须指向不变对象!
- 定义默认参数要牢记一点:默认参数必须指向不变对象!
- 定义默认参数要牢记一点:默认参数必须指向不变对象!
举例说明,先定义一个函数,传入一个list,添加一个END再返回:
1 | 复制代码def add_end(L=[]): |
当你正常调用时,结果似乎不错:
1 | 复制代码>>> add_end([1, 2, 3]) |
当你使用默认参数调用时,一开始结果也是对的:
1 | 复制代码>>> add_end() |
但是,再次调用add_end()时,结果就不对了:
1 | 复制代码>>> add_end() |
很多初学者很疑惑,默认参数是[],但是函数似乎每次都“记住了”上次添加了’END’后的list。
原因解释如下:
Python函数在定义的时候,默认参数L的值就被计算出来了,即[],因为默认参数L也是一个变量,它指向对象[],每次调用该函数,如果改变了L的内容,则下次调用时,默认参数的内容就变了,不再是函数定义时的[]了。
所以,定义默认参数要牢记一点:默认参数必须指向不变对象!
要修改上面的例子,我们可以用None这个不变对象来实现:
1 | 复制代码def add_end(L=None): |
现在,无论调用多少次,都不会有问题:
1 | 复制代码>>> add_end() |
为什么要设计str、None这样的不变对象呢?因为不变对象一旦创建,对象内部的数据就不能修改,这样就减少了由于修改数据导致的错误。此外,由于对象不变,多任务环境下同时读取对象不需要加锁,同时读一点问题都没有。我们在编写程序时,如果可以设计一个不变对象,那就尽量设计成不变对象。
可变参数
定义与java类似,基本使用方法如下:
1 | 复制代码def calc(*numbers): |
对于已经存在的list类型参数,可变参数的使用方法和java略有不同,不能直接传入该变量,需要增加*
1 | 复制代码>>> nums = [1, 2, 3] |
*nums表示把nums这个list的所有元素作为可变参数传进去。这种写法相当有用,而且很常见。
关键字参数
可变参数允许你传入0个或任意个参数,这些可变参数在函数调用时自动组装为一个tuple。而关键字参数允许你传入0个或任意个含参数名的参数,这些关键字参数在函数内部自动组装为一个dict。请看示例:
1 | 复制代码def person(name, age, **kw): |
函数person除了必选参数name和age外,还接受关键字参数kw。在调用该函数时,可以只传入必选参数:
1 | 复制代码>>> person('Michael', 30) |
也可以传入任意个数的关键字参数:
1 | 复制代码>>> person('Bob', 35, city='Beijing') |
和可变参数类似,也可以先组装出一个dict,然后,把该dict转换为关键字参数传进去:
1 | 复制代码>>> extra = {'city': 'Beijing', 'job': 'Engineer'} |
**extra表示把extra这个dict的所有key-value用关键字参数传入到函数的kw参数,kw将获得一个dict,
注意kw获得的dict是extra的一份拷贝,对kw的改动不会影响到函数外的extra。
命名关键字参数
对于关键字参数,函数的调用者可以传入任意不受限制的关键字参数。至于到底传入了哪些,就需要在函数内部检查。
如果要限制关键字参数的名字,就可以用命名关键字参数,例如,只接收city和job作为关键字参数。这种方式定义的函数如下:
1 | 复制代码def person(name, age, *, city, job): |
如果函数定义中已经有了一个可变参数,后面跟着的命名关键字参数就不再需要一个特殊分隔符*了:
1 | 复制代码def person(name, age, *args, city, job): |
命名关键字参数必须传入参数名,这和位置参数不同。如果没有传入参数名,调用将报错:
1 | 复制代码>>> person('Jack', 24, 'Beijing', 'Engineer') |
由于调用时缺少参数名city和job,Python解释器把这4个参数均视为位置参数,但person()函数仅接受2个位置参数。
命名关键字参数可以有缺省值,从而简化调用:
1 | 复制代码def person(name, age, *, city='Beijing', job): |
使用命名关键字参数时,要特别注意,如果没有可变参数,就必须加一个作为特殊分隔符。如果缺少,Python解释器将无法识别位置参数和命名关键字参数:
1 | 复制代码def person(name, age, city, job): |
参数组合
在Python中定义函数,可以用必选参数、默认参数、可变参数、关键字参数和命名关键字参数,这5种参数都可以组合使用。但是请注意,参数定义的顺序必须是:必选参数、默认参数、可变参数、命名关键字参数和关键字参数。
比如定义一个函数,包含上述若干种参数:
1 | 复制代码def f1(a, b, c=0, *args, **kw): |
在函数调用的时候,Python解释器自动按照参数位置和参数名把对应的参数传进去。
递归函数
使用递归函数需要注意防止栈溢出。在计算机中,函数调用是通过栈(stack)这种数据结构实现的,每当进入一个函数调用,栈就会加一层栈帧,每当函数返回,栈就会减一层栈帧。由于栈的大小不是无限的,所以,递归调用的次数过多,会导致栈溢出。
解决递归调用栈溢出的方法是通过尾递归优化,事实上尾递归和循环的效果是一样的,所以,把循环看成是一种特殊的尾递归函数也是可以的。
高级特性
切片
对经常取指定索引范围的操作,用循环十分繁琐,因此,Python提供了切片(Slice)操作符,能大大简化这种操作。
取前3个元素,用一行代码就可以完成切片:
1 | 复制代码>>> L[0:3] |
前开后闭原则。默认从第一个开始取时可以省略不写0.
类似的,Python支持L[-1]取倒数第一个元素,那么它同样支持倒数切片:
1 | 复制代码>>> L[-2:] |
记住倒数第一个元素的索引是-1。
支持间隔取值,比如前10个数,每两个取一个:
1 | 复制代码>>> L[:10:2] |
所有数,每5个取一个:
1 | 复制代码>>> L[::5] |
甚至什么都不写,只写[:]就可以原样复制一个list:
1 | 复制代码>>> L[:] |
tuple也是一种list,唯一区别是tuple不可变。因此,tuple也可以用切片操作,只是操作的结果仍是tuple:
1 | 复制代码>>> (0, 1, 2, 3, 4, 5)[:3] |
字符串’xxx’也可以看成是一种list,每个元素就是一个字符。因此,字符串也可以用切片操作,只是操作结果仍是字符串:
1 | 复制代码>>> 'ABCDEFG'[:3] |
迭代
只要是可迭代对象,无论有无下标,都可以迭代,比如dict就可以迭代:
1 | 复制代码>>> d = {'a': 1, 'b': 2, 'c': 3} |
默认情况下,dict迭代的是key。如果要迭代value,可以用for value in d.values(),如果要同时迭代key和value,可以用for k, v in d.items()。
由于字符串也是可迭代对象,因此,也可以作用于for循环。
那么,如何判断一个对象是可迭代对象呢?方法是通过collections模块的Iterable类型判断:
1 | 复制代码>>> from collections import Iterable |
最后一个小问题,如果要对list实现类似Java那样的下标循环怎么办?Python内置的enumerate函数可以把一个list变成索引-元素对,这样就可以在for循环中同时迭代索引和元素本身:
1 | 复制代码>>> for i, value in enumerate(['A', 'B', 'C']): |
上面的for循环里,同时引用了两个变量,在Python里是很常见的,比如下面的代码:
1 | 复制代码>>> for x, y in [(1, 1), (2, 4), (3, 9)]: |
任何可迭代对象都可以作用于for循环,包括自定义的数据类型,只要符合迭代条件,就可以使用for循环。
列表生成式
如果要生成[1x1, 2x2, 3x3, …, 10x10]怎么做?方法一是循环:
1 | 复制代码>>> L = [] |
但是循环太繁琐,而列表生成式则可以用一行语句代替循环生成上面的list:
1 | 复制代码>>> [x * x for x in range(1, 11)] |
写列表生成式时,把要生成的元素x * x放到前面,后面跟for循环,就可以把list创建出来。
还可以使用两层循环,可以生成全排列:
1 | 复制代码>>> [m + n for m in 'ABC' for n in 'XYZ'] |
鉴于列表生成式的便捷性,过于复杂的逻辑不建议直接使用生成式来写(个人观点)
生成器
通过列表生成式,我们可以直接创建一个列表。但是,受到内存限制,列表容量肯定是有限的。而且,创建一个包含100万个元素的列表,不仅占用很大的存储空间,如果我们仅仅需要访问前面几个元素,那后面绝大多数元素占用的空间都白白浪费了。
所以,如果列表元素可以按照某种算法推算出来,那我们是否可以在循环的过程中不断推算出后续的元素呢?这样就不必创建完整的list,从而节省大量的空间。在Python中,这种一边循环一边计算的机制,称为生成器:generator。
要创建一个generator,有很多种方法。第一种方法很简单,只要把一个列表生成式的[]改成(),就创建了一个generator:
1 | 复制代码>>> L = [x * x for x in range(10)] |
创建L和g的区别仅在于最外层的[]和(),L是一个list,而g是一个generator。
如果要一个一个打印出来,可以通过next()函数获得generator的下一个返回值:
1 | 复制代码>>> next(g) |
我们讲过,generator保存的是算法,每次调用next(g),就计算出g的下一个元素的值,直到计算到最后一个元素,没有更多的元素时,抛出StopIteration的错误。
当然,上面这种不断调用next(g)实在是太变态了,正确的方法是使用for循环,因为generator也是可迭代对象:
1 | 复制代码>>> g = (x * x for x in range(10)) |
定义generator的另一种方法。如果一个函数定义中包含yield关键字,那么这个函数就不再是一个普通函数,而是一个generator:
1 | 复制代码def fib(max): |
这里,最难理解的就是generator和函数的执行流程不一样。函数是顺序执行,遇到return语句或者最后一行函数语句就返回。而变成generator的函数,在每次调用next()的时候执行,遇到yield语句返回,再次执行时从上次返回的yield语句处继续执行。
举个简单的例子,定义一个generator,依次返回数字1,3,5:
1 | 复制代码def odd(): |
调用该generator时,首先要生成一个generator对象,然后用next()函数不断获得下一个返回值:
1 | 复制代码>>> o = odd() |
可以看到,odd不是普通函数,而是generator,在执行过程中,遇到yield就中断,下次又继续执行。执行3次yield后,已经没有yield可以执行了,所以,第4次调用next(o)就报错。
回到fib的例子,我们在循环过程中不断调用yield,就会不断中断。当然要给循环设置一个条件来退出循环,不然就会产生一个无限数列出来。
同样的,把函数改成generator后,我们基本上从来不会用next()来获取下一个返回值,而是直接使用for循环来迭代:
1 | 复制代码>>> for n in fib(6): |
但是用for循环调用generator时,发现拿不到generator的return语句的返回值。如果想要拿到返回值,必须捕获StopIteration错误,返回值包含在StopIteration的value中:
1 | 复制代码>>> g = fib(6) |
迭代器
可以直接作用于for循环的数据类型有以下几种:
一类是集合数据类型,如list、tuple、dict、set、str等;
一类是generator,包括生成器和带yield的generator function。
这些可以直接作用于for循环的对象统称为可迭代对象:Iterable。
可以使用isinstance()判断一个对象是否是Iterable对象:
1 | 复制代码>>> from collections import Iterable |
而生成器不但可以作用于for循环,还可以被next()函数不断调用并返回下一个值,直到最后抛出StopIteration错误表示无法继续返回下一个值了。
可以被next()函数调用并不断返回下一个值的对象称为迭代器:Iterator。
可以使用isinstance()判断一个对象是否是Iterator对象:
1 | 复制代码>>> from collections import Iterator |
生成器都是Iterator对象,但list、dict、str虽然是Iterable,却不是Iterator。
把list、dict、str等Iterable变成Iterator可以使用iter()函数:
1 | 复制代码>>> isinstance(iter([]), Iterator) |
本文转载自: 掘金