遍历Perl哈希键的最安全方法是什么？

What's the safest way to iterate through the keys of a Perl hash?

如果我有一个带(键，值)对的Perl哈希，那么遍历所有键的首选方法是什么？我听说使用each可能在某种程度上产生意外的副作用。那么，这是真的吗？以下两种方法之一是最佳方法吗？还是有更好的方法？

1
2
3
4
5
6
7
8
9

# Method 1
while (my ($key, $value) = each(%hash)) {
# Something
}

# Method 2
foreach my $key (keys(%hash)) {
# Something
}

经验法则是使用最适合您需要的功能。

如果您只想要键，并且不打算读取任何值，请使用keys()：

1	foreach my $key (keys %hash) { ... }

如果只需要这些值，请使用values()：

1	foreach my $val (values %hash) { ... }

如果需要键和值，请使用each()：

1 2	keys %hash; # reset the internal iterator so a prior each() doesn't affect the loop while(my($k, $v) = each %hash) { ... }

如果打算以任何方式更改哈希键，但在迭代过程中删除当前键，则不得使用each()。例如，以下代码可以使用keys()来创建一组新的具有双倍值的大写键：

1
2
3
4
5
6

%h = (a => 1, b => 2);

foreach my $k (keys %h)
{
$h{uc $k} = $h{$k} * 2;
}

产生预期的结果哈希：

1	(a => 1, A => 2, b => 2, B => 4)

但是使用each()做同样的事情：

1
2
3
4
5
6
7

%h = (a => 1, b => 2);

keys %h;
while(my($k, $v) = each %h)
{
$h{uc $k} = $h{$k} * 2; # BAD IDEA!
}

以难以预测的方式产生错误的结果。例如：

1	(a => 1, A => 2, b => 2, B => 8)

但是，这是安全的：

1
2
3
4
5
6
7
8

keys %h;
while(my($k, $v) = each %h)
{
if(...)
{
delete $h{$k}; # This is safe
}
}

所有这些都在perl文档中进行了描述：

1 2	% perldoc -f keys % perldoc -f each

使用each时应注意的一件事是
向您的哈希添加"状态"的副作用(哈希必须记住
什么是"下一个"键)。使用上面发布的代码段之类的代码时，
一次性遍历整个哈希，通常不是
问题。但是，您将很难找到问题所在(我从
经验;)，将each与类似以下语句一起使用时
last或return退出while ... each循环之前
已经处理了所有密钥。

在这种情况下，哈希将记住它已经返回了哪些键，并且
下次使用each时(也许是完全不相关的
代码)，它将在此位置继续。

例：

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19

my %hash = ( foo => 1, bar => 2, baz => 3, quux => 4 );

# find key 'baz'
while ( my ($k, $v) = each %hash ) {
print"found key $k\
";
last if $k eq 'baz'; # found it!
}

# later ...

print"the hash contains:\
";

# iterate over all keys:
while ( my ($k, $v) = each %hash ) {
print"$k => $v\
";
}

打印：

1
2
3
4
5

found key bar
found key baz
the hash contains:
quux => 4
foo => 1

" bar"和" baz"键发生了什么？它们仍然存在，但是
第二个each从第一个中断的地方开始，到哈希结束时停止，因此我们在第二个循环中再也看不到它们。

each可能导致您出现问题的地方是它是一个真实的，无作用域的迭代器。举例来说：

1
2
3
4
5
6
7
8
9
10
11
12

while ( my ($key,$val) = each %a_hash ) {
print"$key => $val\
";
last if $val; #exits loop when $val is true
}

# but"each" hasn't reset!!
while ( my ($key,$val) = each %a_hash ) {
# continues where the last loop left off
print"$key => $val\
";
}

如果需要确保each获取所有键和值，则需要确保首先使用keys或values(因为这会重置迭代器)。请参阅每个文档。

使用每种语法将防止立即生成整个键集。如果您要对具有数百万行的数据库使用绑定的哈希，这可能很重要。您不想一次全部生成整个键列表并耗尽您的物理内存。在这种情况下，每个都充当迭代器，而键实际上在循环开始之前就生成了整个数组。

因此，"每个"唯一实际使用的地方是散列很大(与可用内存相比)。只有当哈希本身不存在于内存中时，才可能发生这种情况，除非您正在为手持式数据收集设备或内存较小的设备编程。

如果内存不是问题，则通常映射或键范式更为流行，更易于阅读。

关于此主题的一些其他想法：

任何哈希迭代器本身都没有不安全的地方。不安全的是在迭代哈希时修改哈希键。 (修改值是绝对安全的。)我唯一想到的潜在副作用是values返回别名，这意味着修改它们会修改哈希的内容。这是设计使然，但在某些情况下可能不是您想要的。

John接受的答案很好，但有一个例外：文档清楚地表明，在遍历哈希值时添加键并不安全。它可能适用于某些数据集，但不适用于其他数据集，具体取决于哈希顺序。

如前所述，删除each返回的最后一个密钥是安全的。对于keys，情况并非如此，因为each是迭代器，而keys返回列表。

我也总是使用方法2。使用每种方法的唯一好处是，如果您只是读取(而不是重新分配)哈希条目的值，那么您就不会经常取消引用哈希。

我可能会对此一口咬，但我认为这是个人喜好。我找不到文档中对each()的引用不同于keys()或values()的引用(除了显而易见的"它们返回不同的事物"的答案。事实上，文档声明使用相同的迭代器，并且它们都返回实际的列表值，而不是它们的副本，并且在使用任何调用对其进行迭代时修改哈希值是不好的。

话虽如此，我几乎总是使用keys()，因为对我而言，通常是更多自我记录，可通过散列本身访问键的值。当值是对大型结构的引用且哈希键已存储在结构中时，我有时会使用values()，此时该键是多余的，不需要。我想我在Perl编程的10年中两次使用了each()2次，两次可能都是错误的选择=)

我通常使用keys，并且我无法想到上次使用或阅读each的用法。