关于序列化:如何将二进制数据转换为Strings并返回Java?

关于序列化:如何将二进制数据转换为Strings并返回Java?

How do you convert binary data to Strings and back in Java?

我的文件中有二进制数据,可以将其读入字节数组,并且可以毫无问题地进行处理。现在,我需要通过网络连接将部分数据作为XML文档中的元素发送。我的问题是,当我将数据从字节数组转换为字符串然后又转换回字节数组时,数据已损坏。我已经在一台机器上对此进行了测试,以将问题隔离到String转换中,因此我现在知道它不会被XML解析器或网络传输损坏。

我现在所拥有的是

1
2
3
4
5
byte[] buffer = ...; // read from file
// a few lines that prove I can process the data successfully
String element = new String(buffer);
byte[] newBuffer = element.getBytes();
// a few lines that try to process newBuffer and fail because it is not the same data anymore

有谁知道如何将二进制转换为String并返回而不会丢失数据?

回答:谢谢山姆。我感觉像个白痴。我昨天回答了这个问题,因为我的SAX解析器在抱怨。由于某种原因,当我遇到这个看似独立的问题时,我并没有想到这是同一问题的新症状。

编辑:为了完整起见,我使用了Apache Commons Codec包中的Base64类来解决此问题。


String(byte [])将数据视为默认字符编码。因此,字节如何从8位值转换为16位Java Unicode字符不仅会在操作系统之间有所不同,甚至在同一台计算机上使用不同代码页的不同用户之间甚至会有所不同!此构造函数仅适用于解码自己的文本文件之一。不要尝试在Java中将任意字节转换为char!

编码为base64是一个很好的解决方案。这就是通过SMTP(电子邮件)发送文件的方式。 (免费的)Apache Commons Codec项目将完成这项工作。

1
2
3
4
5
6
byte[] bytes = loadFile(file);          
//all chars in encoded are guaranteed to be 7-bit ASCII
byte[] encoded = Base64.encodeBase64(bytes);
String printMe = new String(encoded,"US-ASCII");
System.out.println(printMe);
byte[] decoded = Base64.decodeBase64(encoded);

另外,您可以使用Java 6 DatatypeConverter:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
import java.io.*;
import java.nio.channels.*;
import javax.xml.bind.DatatypeConverter;

public class EncodeDecode {    
  public static void main(String[] args) throws Exception {
    File file = new File("/bin/ls");
    byte[] bytes = loadFile(file, new ByteArrayOutputStream()).toByteArray();
    String encoded = DatatypeConverter.printBase64Binary(bytes);
    System.out.println(encoded);
    byte[] decoded = DatatypeConverter.parseBase64Binary(encoded);
    // check
    for (int i = 0; i < bytes.length; i++) {
      assert bytes[i] == decoded[i];
    }
  }

  private static <T extends OutputStream> T loadFile(File file, T out)
                                                       throws IOException {
    FileChannel in = new FileInputStream(file).getChannel();
    try {
      assert in.size() == in.transferTo(0, in.size(), Channels.newChannel(out));
      return out;
    } finally {
      in.close();
    }
  }
}

如果您使用base64对其进行编码,这会将所有数据转换为ASCII安全文本,但是base64编码的数据大于原始数据


看到这个问题,如何将二进制数据嵌入XML?
不用将byte []转换为String而是在某个地方插入XML,而是通过BASE64编码将byte []转换为String(某些XML库提供了一种为您执行此操作的类型)。一旦从XML获得了String,BASE64就会解码。

使用http://commons.apache.org/codec/

由于各种奇怪的字符集限制和非定价字符的存在,您的数据可能会混乱。带有BASE64的棒。


您如何构建XML文档?如果您使用Java的内置XML类,则应该为您处理字符串编码。

看一下javax.xml和org.xml包。这就是我们用于生成XML文档的方法,它可以很好地处理所有字符串编码和解码。

- -编辑:

嗯,我想我误解了这个问题。您不是要编码常规字符串,而是要编码一组任意的二进制数据?在这种情况下,较早的注释中建议的Base64编码可能是解决方法。我相信这是在XML中编码二进制数据的相当标准的方式。


推荐阅读