结构化信息——这种信息可以在关系数据库中找到,多年来一直主导着IT应用。这是关键任务OLTP系统业务所依赖的信息,另外,还可对结构数据库信息进行排序和查询;
半结构化信息——这是IT的第二次浪潮,包括电子邮件,文字处理文件以及大量保存和发布在网络上的信息。半结构化信息是以内容为基础,可以用于搜索,这也是谷歌存在的理由;
非结构化信息——该信息在本质形式上可认为主要是位映射数据。数据必须处于一种可感知的形式中(诸如可在音频、视频和多媒体文件中被听或被看)。许多大数据都是非结构化的,其庞大规模和复杂性需要高级分析工具来创建或利用一种更易于人们感知和交互的结构。
以上转自CSDN.
数据的存储是依靠数据库来完成的。过去以关系数据库为主体,数据的存储形式就是二维化的表形式。空间数据的存储也格式化成了的满足关系数据库格式的结构类型,即结构化信息。但是存储形式并不能代表空间数据的本质。
空间数据可以以场模型方式表达(栅格数据),也可以以对象形式表达(矢量要素),此外还有TIN。栅格数据的数据库存储具有均匀性,无论是关系数据库环境还是NoSQL,尤其是在分布式环境下,都可以得到高效的管理。矢量要素数据则不同,作为一种主流的矢量模型,本质上是对象形式的表达。矢量要素简单的将地理现象抽象为点、线、面三种类型的实体。而在物理世界内,同一种类型实体又具有无数种。同一类型实体的自然的、社会的属性处于一种动态更新之中。因此,一个实体,它的客观表达应该是可动态修改属性的。传统的模式化表格显然不是理想的表达方式,因为实体不可能预先定义全部属性。NoSQL则是比较自然表达方式,它支持横向扩充,支持增加新的属性。比如我们为一块田地、一个房屋、一个人或者其他类别增加新的属性,我们只需要增加对应实体的属性即可,而不必为所有实体增加属性。这一过程正好符合认识进步的过程。因此,值得重视NoSQL这个新兴技术。从这个意义上来讲,地理数据更像是非结构化数据。TIN数据对应的是网络模型,也不是关系模型。TIN的存储似乎需要重新定义模式或非模式。但是值得注意对是TIN的拓扑结构问题,有些类似栅格数据模型。值得思考的一个问题是如何在NoSQL中表达拓扑关系。思考ing……