关于python：生成器表达式与列表理解

Generator Expressions vs. List Comprehension

什么时候应该使用生成器表达式，什么时候应该在Python中使用列表理解？

1
2
3
4
5

# Generator expression
(x*2 for x in range(256))

# List comprehension
[x*2 for x in range(256)]

约翰的回答是好的(当你想重复几次某件事情时，列表的理解更好)。但是，也值得注意的是，如果您想使用任何列表方法，就应该使用列表。例如，以下代码不起作用：

1
2
3
4
5

def gen():
return (something for something in get_some_stuff())

print gen()[:2] # generators don't support indexing or slicing
print [5,6] + gen() # generators can't be added to lists

基本上，如果您所做的只是迭代一次，那么使用生成器表达式。如果您想存储和使用生成的结果，那么您最好能理解列表。

由于性能是选择一个而不是另一个的最常见原因，我的建议是不要担心它，只选择一个；如果您发现您的程序运行太慢，那么，只有在那时，您才应该回去考虑调整您的代码。

迭代生成器表达式或列表理解也会做同样的事情。但是，列表理解将首先在内存中创建整个列表，而生成器表达式将动态创建这些项，因此您可以将其用于非常大的(也是无限的！)序列。

当结果需要重复多次或速度最重要时，使用列表理解。在范围较大或无穷大的地方使用生成器表达式。

重要的是列表理解创建了一个新的列表。生成器创建一个不可重复的对象，当您使用位时，该对象将动态"过滤"源材料。

假设您有一个名为"hugefile.txt"的2tb日志文件，并且您想要所有以单词"entry"开头的行的内容和长度。

所以你试着从写清单开始理解：

1 2	logfile = open("hugefile.txt","r") entry_lines = [(line,len(line)) for line in logfile if line.startswith("ENTRY")]

这会吞食整个文件，处理每一行，并将匹配的行存储在数组中。因此，此数组最多可以包含2tb的内容。这是一个很大的RAM，可能不适合您的目的。

因此，我们可以使用生成器对内容应用"过滤器"。在开始对结果进行迭代之前，实际上不会读取任何数据。

1 2	logfile = open("hugefile.txt","r") entry_lines = ((line,len(line)) for line in logfile if line.startswith("ENTRY"))

还没有从我们的文件中读取任何一行。事实上，假设我们想要进一步过滤我们的结果：

1	long_entries = ((line,length) for (line,length) in entry_lines if length > 80)

仍然没有任何内容被读取，但是我们现在指定了两个生成器，它们将根据我们的需要对我们的数据进行操作。

让我们把过滤后的行写到另一个文件：

1
2
3

outfile = open("filtered.txt","a")
for entry,length in long_entries:
outfile.write(entry)

现在我们读取输入文件。由于我们的for环路继续请求额外的线路，long_entries发电机需要来自entry_lines发电机的线路，只返回长度大于80个字符的线路。反过来，entry_lines生成器从logfile迭代器请求行(按指示过滤)，后者反过来读取文件。

因此，您没有以完全填充的列表的形式将数据"推送"到输出函数，而是为输出函数提供了一种仅在需要时"拉"数据的方法。这在我们的情况下效率更高，但没有那么灵活。生成器是单向的，一次通过；我们读取的日志文件中的数据会立即被丢弃，因此我们无法返回到前一行。另一方面，我们不必担心一旦完成了数据的保存。

生成器表达式的好处是它使用较少的内存，因为它不会一次构建整个列表。当列表是一个中介时，例如求和结果或从结果中创建dict时，最好使用生成器表达式。

例如：

1
2
3

sum(x*2 for x in xrange(256))

dict( ((k, some_func(k) for k in some_list_of_keys) )

它的优点是列表没有完全生成，因此使用的内存很少(而且应该更快)。

但是，当所需的最终产品是列表时，您应该使用列表理解。您不会使用生成器表达式保存任何内存，因为您需要生成的列表。您还可以使用任何列表功能，如排序或反转。

例如：

1	reversed( [x*2 for x in xrange(256)] )

从可变对象(如列表)创建生成器时，请注意生成器将在使用生成器时(而不是在创建生成器时)根据列表的状态进行评估：

1
2
3
4
5

>>> mylist = ["a","b","c"]
>>> gen = (elem +"1" for elem in mylist)
>>> mylist.clear()
>>> for x in gen: print (x)
# nothing

如果您的列表有可能被修改(或者列表中的可变对象)，但是您需要在创建生成器时的状态，那么您需要使用列表理解。

我正在使用Hadoop肉末模块。我认为这是一个很好的例子：

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18

import mincemeat

def mapfn(k,v):
for w in v:
yield 'sum',w
#yield 'count',1

def reducefn(k,v):
r1=sum(v)
r2=len(v)
print r2
m=r1/r2
std=0
for i in range(r2):
std+=pow(abs(v[i]-m),2)
res=pow((std/r2),0.5)
return r1,r2,res

在这里，生成器从文本文件中获取数字(大到15GB)，并使用Hadoop的map reduce对这些数字应用简单的数学。如果我没有使用yield函数，而是使用一个列表理解，那么计算和和和和平均值将花费更长的时间(更不用说空间复杂性)。

Hadoop是一个很好的例子，可以利用发电机的所有优点。

有时您可以从itertools中摆脱tee函数，它为同一个生成器返回多个迭代器，这些迭代器可以独立使用。

如何使用[(iter中x的exp)]获得两者的好处？生成器理解和列表方法的性能