用来组流的网络数据包嗅探器：Streamdump-文件夹嗅探器

前言

在平时需要对数据包进行分析和统计，亦或是进行抓包时，通常会使用 Wireshark 或者 tcpdump 等工具。这两个工具以及 tshark（wireshark 的命令行），基本上已经涵盖了绝大部分的需求场景，但是如果需要大规模地拆分单个流，进行分析、特征提取时，似乎这些工具都没有能够提供很方便的切流解决方案。

更常见的做法是，通过一个比较抽象的过滤规则，将符合该规则的所有数据包通通记录在一个 pcap 包里，接着再编写一个 Python 脚本或者通过 tshark 与 shell 脚本来实现切流的操作。这似乎没有是么难度，而且也已经解决了问题，应该现成的方案也不少。

Wireshark 与 Tshark 切流的方案

在 Wireshark 中，我们通常是在过滤条件中，输入tcp.stream == ?，？表示某个流在整个包中的编号，而 Wireshark 会根据该编号的 packet 的四元组找出所有符合条件的流进行组装。

用来组流的网络数据包嗅探器：Streamdump

但是使用这样需要一个个手动地操作，效率不得不说实在是太低下了，而使用 tshark 来进行切流会快得多，命令：

>tshark -r $LINE -T fields -e tcp.stream|sort -n | uniq -c | awk -F ' ' '{if ($2>=0)print $2 }' >tcp_stream_number.txt

$LINE 代表 pcap 文件名，-T 和 -e 组合使用表示打印 Wireshark 中相应的字段，本例中表示输出 tcp.stream 字段，即流号。因为是针对每一个报文都要输出该报文对应的流号，因此需要做排序，去重的工作。将最后的所有的流号按照大小顺序输入到 tcp_stream_number.txt 文件中。

最后，再将输入的流提取出来：

tshark -r $LINE -Y "tcp.stream == $(($tcpnumber)) " -w $filedic/$streamname.pcap

$LINE 代表pcap文件名，$tcpnumber 表示从 tcp_stream_number.txt 文件中读出的每一行的内容，$(($tcpnumber))转换成数字，$filedic，$streamname 分别表示文件目录和文件名，上述的命令表示从 $LINE 报文中提取流。

如此，就可以进行切流操作了。但是总的来说，虽然 tshark 比起 Wireshark 手动单个操作的方式效率高得多，但是，tshark 是一次性将整个数据包读入内存，分析好后再统一输出的，针对超大文件进行分析时，对资源的需求十分巨大。

换句话说，如果你不是有庞大的内存资源，使用 tshark 来对大文件进行切流操作，是很难进行下去的！另外值得注意的是，当流文件个数过多的时候，由于产生的文件句柄过多，会出现错误，没法继续进行下去。

更重要的一点，切分单个流，我们通常通过四元组进行确定，这只能确定单个方向的流，而更多情况下，我们需要对双向的流进行分析。

StreamDump

所以为了满足前文说的大规模的单个流的组装与分析，本次要介绍的是一个我们小组里一直在使用的一个小工具 —— StreamDump，根据 TCP 流的四元组来将每个 TCP 重新组装还原，并分别保存成一个单独的 pcap 文件。为了运行效率和编译方便，程序使用 Golang 来实现。

程序的几个特点：

支持 BPF 过滤规则，可根据需求来进行自定义过滤

支持捕获双向数据流，保存的文件根据四元组来进行命名：IP[Port]-IP[Port].pcap，在保存双向数据流的情况下，以捕获到的第一个 packet 中的四元组参数进行命名

不仅支持从网卡中实时捕获流量，还支持从 pcap 文件中读取分析，过滤出自己需要的单个的流文件

功能虽然不多，但是却可以做很多的事情！特别当需要解析一个 10G 或者 20G pcap 文件的时候，使用 Python 来解析是效率十分低下的！

分拆出来的 TCP 流有什么用？如果你需要对某个特定的流，或者某组，或者某个特定应用的流进行分析，我想这个工具对你一定十分有用，会让你节省很多时间！

废话少说，下面简单说说如何使用这个小工具：

编译

编译就十分轻松了，go 自带了编译工具，只需要将包里的依赖库取回本地，直接编译就可以了

>go get github.com/google/gopacket
>go build -o streamdump streamdump.go

用例

Usage: streamdump [-hv] [-i interface]
Options:
 -b Capture bidirectional data flow
 -d string
 The domain name of the packet to be captured
 -f string
 BPF filter rules for pcap (default "tcp")
 -h print this help message and exit
 -i string
 Interface to get packets from (default "en0")
 -l int
 SnapLen for pcap packet capture (default 1600)
 -promisc
 Set promiscuous mode (default true)
 -r string
 Filename to read from, overrides -i
 -s string
 Filepath to save pcap files (default "./pcap_s")
 -v Logs every packet in great detail