我有一个巨大的文件,我必须在其中的特定位置插入某些字符。在 C# 中不重新重写整个文件的最简单方法是什么。
文件系统不支持在文件中间"插入"数据。如果您确实需要可以以某种方式写入的文件,我建议您考虑使用嵌入式数据库。
您可能想看看 SQLite 或 BerkeleyDB。
然后,您可能正在使用文本文件或旧的二进制文件。在这种情况下,您唯一的选择是重写文件,至少从插入点到结尾。
我会看看 FileStream 类在 C# 中执行随机 I/O。
您可能需要从插入更改的位置到最后重写文件。您最好始终写入文件末尾并使用诸如排序和 grep 之类的工具以所需的顺序获取数据。我假设您在这里谈论的是文本文件,而不是二进制文件。
没有办法在不重写字符的情况下将字符插入文件。使用 C# 可以使用任何 Stream 类来完成。如果文件很大,我建议您在 C# 代码中使用 GNU Core Utils。他们是最快的。我曾经使用核心工具(大小为 4GB、8GB 或更多等)处理非常大的文本文件。 head、tail、split、csplit、cat、shuf、shred、uniq 等命令在文本操作中确实有很大帮助。
例如,如果您需要将一些字符放入一个 2GB 的文件中,您可以使用 split -b BYTECOUNT,将输出放入文件中,将新文本附加到其中,然后获取其余内容并添加到它。这应该比任何其他方式都快。
希望它有效。试一试。
你可以看看这个项目:
Win 数据检查器
基本上,代码如下:
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29
| // this.Stream is the stream in which you insert data
{
long position = this.Stream.Position;
long length = this.Stream.Length;
MemoryStream ms = new MemoryStream();
this.Stream.Position = 0;
DIUtils.CopyStream(this.Stream, ms, position, progressCallback);
ms.Write(data, 0, data.Length);
this.Stream.Position = position;
DIUtils.CopyStream(this.Stream, ms, this.Stream.Length - position, progressCallback);
this.Stream = ms;
}
#region Delegates
public delegate void ProgressCallback(long position, long total);
#endregion |
DIUtils.cs
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18
| public static void CopyStream(Stream input, Stream output, long length, DataInspector.ProgressCallback callback)
{
long totalsize = input.Length;
long byteswritten = 0;
const int size = 32768;
byte[] buffer = new byte[size];
int read;
int readlen = length size ? (int)length : size;
while (length 0 && (read = input.Read(buffer, 0, readlen)) 0)
{
output.Write(buffer, 0, read);
byteswritten += read;
length -= read;
readlen = length size ? (int)length : size;
if (callback != null)
callback(byteswritten, totalsize);
}
} |
如果您知道要将新数据写入的具体位置,请使用 BinaryWriter 类:
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
| using (BinaryWriter bw = new BinaryWriter (File.Open (strFile, FileMode.Open)))
{
string strNewData ="this is some new data";
byte[] byteNewData = new byte[strNewData.Length];
// copy contents of string to byte array
for (var i = 0; i strNewData.Length; i++)
{
byteNewData[i] = Convert.ToByte (strNewData[i]);
}
// write new data to file
bw.Seek (15, SeekOrigin.Begin); // seek to position 15
bw.Write (byteNewData, 0, byteNewData.Length);
} |
您可以使用随机访问来写入文件的特定位置,但您无法以文本格式执行此操作,您必须直接使用字节。
你为什么不放一个指向文件末尾的指针(字面意思是文件当前大小的四个字节),然后在文件末尾写入插入数据的长度,最后是你的数据想插入自己。例如,如果您在文件中间有一个字符串,并且您想在字符串中间插入几个字符,您可以在字符串中的一些四个字符上写一个指向文件末尾的指针,然后写这四个字符与您首先要插入的字符一起。这都是关于订购数据的。当然,只有你自己编写整个文件才能这样做,我的意思是你没有使用其他编解码器。
你总是需要从插入点重写剩余的字节。如果该点为 0,那么您将重写整个文件。如果是最后一个字节之前的 10 个字节,那么你将重写最后 10 个字节。
无论如何,没有直接支持"插入到文件"的功能。但是下面的代码可以准确的做到。
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31
| var sw = new Stopwatch();
var ab ="0123456789abcdefghijklmnopqrstuvwxyzABCDEFGHIJKLMNOPQRSTUVWXYZ";
// create
var fs = new FileStream(@"d:\\test.txt", FileMode.OpenOrCreate, FileAccess.ReadWrite, FileShare.ReadWrite, 262144, FileOptions.None);
sw.Restart();
fs.Seek(0, SeekOrigin.Begin);
for (var i = 0; i 40000000; i++) fs.Write(ASCIIEncoding.ASCII.GetBytes(ab), 0, ab.Length);
sw.Stop();
Console.WriteLine("{0} ms", sw.Elapsed.TotalMilliseconds);
fs.Dispose();
// insert
fs = new FileStream(@"d:\\test.txt", FileMode.OpenOrCreate, FileAccess.ReadWrite, FileShare.ReadWrite, 262144, FileOptions.None);
sw.Restart();
byte[] b = new byte[262144];
long target = 10, offset = fs.Length - b.Length;
while (offset != 0)
{
if (offset 0)
{
offset = b.Length - target;
b = new byte[offset];
}
fs.Position = offset; fs.Read(b, 0, b.Length);
fs.Position = offset + target; fs.Write(b, 0, b.Length);
offset -= b.Length;
}
fs.Position = target; fs.Write(ASCIIEncoding.ASCII.GetBytes(ab), 0, ab.Length);
sw.Stop();
Console.WriteLine("{0} ms", sw.Elapsed.TotalMilliseconds); |
要获得更好的文件 IO 性能,请使用上面代码中的"神奇的两个幂数"。文件的创建使用了 262144 字节 (256KB) 的缓冲区,这根本没有帮助。如果您运行代码,则插入的相同缓冲区执行"性能作业",您可以从 StopWatch 结果中看到。在我的 PC 上进行的草稿测试给出了以下结果:
创建时间为 13628.8 毫秒,插入时间为 3597.0971 毫秒。
注意插入的目标字节是10,这意味着几乎整个文件都被重写了。
这可能是"可能的",这取决于文件系统如何存储文件以在中间快速插入(即添加额外的)字节。如果远程可行,则可能只能一次执行一个完整块,并且只能通过对文件系统本身进行低级别修改或使用文件系统特定接口来进行。
文件系统通常不是为这种操作而设计的。如果你需要快速插入,你真的需要一个更通用的数据库。
根据您的应用程序,中间立场是将您的插入捆绑在一起,因此您只需重写文件一次而不是二十次。
根据您的项目范围,您可能需要决定将每一行文本与您的文件一起插入到表数据结构中。有点像数据库表,这样您就可以在任何给定时刻插入到特定位置,而不必每次都读入、修改和输出整个文本文件。这是因为您的数据正如您所说的那样"巨大"。您仍会重新创建该文件,但至少您以这种方式创建了一个可扩展的解决方案。