python a = [0]*x格式的含义
python使用技巧与爬过的坑
1 dict的使用
2 numpy
3 文件操作
python a = [0]*x格式的含义a为一个含有x个字符串的列表
例如:
import sys
a = "12352523452334"
num = len(a)
k = int(num/3)
print(k)
sub = [0]*k
for i in range(k):
sub[i] = a[i*3:i*3+3]
isString = isinstance(sub,list)
print(isString)
print(sub[i])
print(len(sub))
python使用技巧与爬过的坑 1 dict的使用4
True
123
True
525
True
234
True
523
4
python中的字典应该是许多朋友常用的一种数据结构,其数据结构如下:
{key: value}
这里主要列几个字典使用的技巧。
1.1 dict的删改查
其实对于dict的删改查都需要用到查询,比如改,就是先查询到某个键值对,然后再做更改操作。
可能许多初学者对于字典的访问是如下几种方式:
for k, v in d.items():
balabala
for v in d.values():
balabala
其实这是一种特别浪费性能的操作方式,因为python中的dict是通过Hash方式来查询键的。简单来说就是查询键的时间复杂度是O ( 1 ) O(1)O(1),而查询值的时间复杂度是O ( n ) O(n)O(n)。放在代码里面来说,就是:
for k in d.keys():
这种查询方式是O ( 1 ) O(1)O(1)的时间复杂度,而:
for k, v in d.items():
或者:
for v in d.values():
是O ( n ) O(n)O(n)的时间复杂度。
所以为了节省查询时间,我们如果要对值进行操作,都是如下:
for k in d.keys():
val = d[k]
而python三大数据结构:列表、元组、字典,就只有字典的键的查询是O ( 1 ) O(1)O(1)的时间复杂度,其余的都是O ( n ) O(n)O(n)的时间复杂度。
1.2 dict的键
既然上面已经说到了dict的键是hash查询的,所以dict的键有严格的要求,就是hashable的数据才能作为dict的键。
那么何为hashable?简单来说,就是在运行过程中不可修改的。
就比如列表就是可以修改的,因为列表可以随时进行append等操作,字典也是可以修改的,比如随时可以进行pop等操作。
那么什么是hashable的呢?常用的字符串、数字这些都可以,还有一个数据结构是hashable的,就是元组,因为元组是无法被修改的。所以当你想要存储一组数据作为键值的时候,可以考虑将这组数据转换成元组,毕竟list和dict是可以相互切换的嘛。
2 numpy2.1 array
这是我最近编码过程中遇到的一个坑,就是array的赋值操作。我们通常的赋值操作就是:
a = b
但是对于numpy的ndarray对象,这种赋值不仅会将值赋过去,还会把内存地址赋值过去,比如如下代码:
import numpy as np
a = np.array([1, 2, 3])
print("id(a):", id(a))
b = a
print("id(b):", id(b))
print(id(a) == id(b))
输出结果如下:
id(a): 2721844244768
id(b): 2721844244768
True
也就是说,如果你只是使用a = b这种操作,那么你在对b进行操作的时候也会更改a,但是如果在某个使用场景,你需要对b进行操作,但是不改变a,那么要用如下的代码(b = a.copy()):
import numpy as np
a = np.array([1, 2, 3])
print("id(a):", id(a))
b = a.copy()
print("id(b):", id(b))
print(id(a) == id(b))
输出结果:
3 文件操作id(a): 1549742256336
id(b): 1549742141968
False
3.1 pickle
pickle是大家常用的一个文件,最大的优点在于什么东西存储进去,就可以读取什么东西出来。
pickle是以二进制方式进行存储与读取的,比如下面的栗子:
import pickle
with open(filepath_1, 'rb') as f:
file = pickle.load(f)
with open(filepath_2, 'wb') as f:
pickle.dump(file, f)
但是可能有许多初学者会在写入pickle的时候选择追加方式写入(比如爬虫中断等情况),但是这种方式是不可行的。因为pickle是二进制操作,如果以追加方式写入,那么你在读取的时候只能读取到第一次写入的内容,之后的内容是无法读取的。
那么在这种有可能因为中断等原因需要一直添加内容到pkl里面,我比较推荐分成不同份的文件进行保存,既可以保证文件能够正常的读取,也不用担心因为程序中断而导致需要重新执行的问题。
以上为个人经验,希望能给大家一个参考,也希望大家多多支持易知道(ezd.cc)。