数据集市,什么是数据集市
数据集市,或者叫做"小数据仓库",是用于公司单独部门或分部的数据仓库,与完善的数据仓库(试图存储公司使用的所有数据并使这些数据可用)相对应。数据集市存储在比较小的数据库中并且面向特定的用途或数据主题,而不是用于整个企业的战略规划。由于完善的数据仓库很难实施,因此很多公司最先使用数据集市,然后过些时候再将这些数据集市合并到数据仓库中。
数据集市可以包含运营数据、总结数据、维数据或元数据。通常,使用维数据模型来构建数据集市。它主要面向部门级业务,并且只是面向某个特定的主题。数据集市可以在一定程度上缓解访问数据仓库的瓶颈。
数据仓库是在企业管理和决策中面向主题的、集成的、与时间相关的、不可修改的数据集合。与其他数据库应用不同的是,数据仓库更像一种过程,对分布在企业内部各处的业务数据的整合、加工和分析的过程,而不是一种可以购买的产品。
数据集市容纳的数据在50~300GByte的范围,而数据仓库将容纳太字节的数据。数据集市是专题的并通常是部门的,而数据仓库则是整个企业的数据存储库。数据集市较容易创建(不到一年),而数据仓库则是需要花费超过一年的时间创建的复杂工程。数据集市的成本在数千美元左右,而数据仓库的成本则要耗费数百万美元。
Appsco Software Ltd.公司声称它的软件使数据集市的建造更加简单。AppsMart是使用最流行的SQL服务器数据库应用程序简化数据集市建造的快速应用程序开发工具。
Data Switches数据交换设备
数据交换设备是一种将终端、计算机和其他计算设备链接到大型计算机上的设备。它们基本上是为很多设备共享有限个端口提供方法的集中器设备。
在早期的广域网中,数据通过通信子网的交换方式分为两类: 线路交换方式、存储转发交换方式。
线路交换方式(电路交换方式)
线路交换(circuit exchanging)方式与电话交换方式的工作过程很类似。两台计算机通过通信子网进行数据交换之前,首先要在通信子网中建立一个实际的物理线路连接。
1.线路交换方式的通信过程
线路交换方式的通信过程分为以下三个阶段:
(1)线路建立阶段
如果主机H1要向主机H2传输数据,首先要通过通信子网在主机H1与主机H2之间建立线路连接。主机H1首先向通信子网中结点A发送"呼叫请求包",其中含有需要建立线路连接的源主机地址与目的主机地址。结点A根据目的主机地址,根据路选算法,如选择下一个结点为B,则向结点B发送"呼叫请求包"。
结点B接到呼叫请求后,同样根据路选算法,如选择下一个结点为结点C,则向结点C发送"呼叫请求包"。结点C接到呼叫请求后,也要根据路选算法,如选择下一个结点为结点D,则向结点D发送"呼叫请求包"。结点D接到呼叫请求后,向与其直接连接的主机H2发送"呼叫请求包"。主机H2如接受主机H1的呼叫连接请求,则通过已经建立的物理线路连接"结点D-结点C-结点B-结点A",向主机A发送"呼叫应答包"。至此,从"主机H1-结点A-结点B-结点C-结点D-主机H2"的专用物理线路连接建立完成。该物理连接为此次主机H1与主机H2的数据交换服务。
(2)数据传输阶段
在主机H1与主机H2通过通信子网的物理线路连接建立以后,主机H1与主机H2就可以通过该连接实时、双向交换数据。
(3)线路释放阶段
在数据传输完成后,就要进入路线释放阶段。一般可以由主机H1向主机H2发出"释放请求包",主机H2同意结束传输并释放线路后,将向结点D发送"释放应答包",然后按照结点C-结点B-结点A-主机H1次序,依次将建立的物理连接释放。这时,此次通信结束。
2.线路交换方式的特点
线路交换方式的特点是:通信子网中的结点是用电子或机电结合的交换设备来完成输入与输出线路的物理连接。交换设备与线路分为模拟通信与数字通信两类。线路连接过程完成后,在两台主机之间已建立的物理线路连接为此次通信专用。通信子网中的结点交换设备不能存储数据,不能改变数据内容,并且不具备差错控制能力。
存储转发交换方式
1.存储转发的基本概念
存储转发交换(store?and?forward exchanging)方式与线路交换方式的主要区别表现在以下两个方面:发送的数据与目的地址、源地址、控制信息按照一定格式组成一个数据单元(报文或报文分组)进入通信子网;通信子网中的结点是通信控制处理机,它负责完成数据单元的接收、差错校验、存储、路选和转发功能。
存储转发方式的优点主要有以下几点:
(1)由于通信子网中的通信控制处理机可以存储报文(或报文分组),因此多个报文(或报文分组)可以共享通信信道,线路利用率高。
(2)通信子网中通信控制处理机具有路选功能,可以动态选择报文(或报文分组)通过通信子网的最佳路径,同时可以平滑通信量,提高系统效率。
(3)报文(或报文分组)在通过通信子网中的每个通信控制处理机时,均要进行差错检查与纠错处理,因此可以减少传输错误,提高系统可靠性。
(4)通过通信控制处理机,可以对不同通信速率的线路进行速率转换,也可以对不同的数据代码格式进行变换。
正是由于存储转发交换方式有以上明显的优点,因此,它在计算机网络中得到了广泛的使用。
2.存储转发的分类
存储转发交换方式可以分为两类:报文交换(message exchanging)与报文分组交换(packet exchanging)。因此,在利用存储转发交换原理传送数据时,被传送的数据单元相应可以分为两类:报文(message)与报文分组(packet)。
如果在发送数据时,不管发送数据的长度是多少,都把它当做一个逻辑单元,那么就可以在发送的数据上加上目的地址、源地址与控制信息,按一定的格式打包后组成一个报文。另一种方法是限制数据的最大长度,典型的最大长度是1000或几千比特。发送站将一个长报文分成多个报文分组,接收站再将多个报文分组按顺序重新组织成一个长报文。报文分组通常也被称为分组。
由于分组长度较短,在传输出错时,检错容易并且重发花费的时间较少,这就有利于提高存储转发结点的存储空间利用率与传输效率,因此成为当今公用数据交换网中主要的交换技术。目前,美国的TELENET、TYMNET以及中国的CHINAPAC都采用了分组交换技术。这类通信子网称为分组交换网。
高速交换技术
随着多媒体应用对网络的带宽与传输的实时性要求越来越高。宽带综合业务服务要求的提出,更进一步暴露出传统的线路交换与分组交换方式的不适应性。一种新的交换技术--异步传输模式(ATM) 引起了人们高度的重视。
1.ATM简要介绍
ATM(异步传输模式)网络是在包交换技术的基础上,经过使用经验的积累,在90年代初改进和发展的一种新型包交换技术。70年代中期,远程数据通信使用X.25传输协议,这种技术是用同轴电缆传输数据帧,由于线路抗电磁干扰性能差,在链路级上要加强纠错措施,一旦发现传输差错,要求发送方重发。因此,数据通信速率低,每个端口为64kb/s,称为慢包技术。
80年代中期,在X.25协议的基础上,又发展了帧中继(Frame Relzy)技术。它用于在光纤介质上传输可变长度的数据帧。由于光纤介质传输品质高,可以大幅度提高通信速率,最高带宽可以达到T3(44.7Mb/s),称为快包技术。但是,帧中继网络技术,是对数据通信优化的,它所使用的长短不等的数据帧不适用于要求低延时、可控制和可预测的实时动态信息的传输。随着对多媒体信息通信应用的需要,又发展了信元中继(Cell Relay)技术。
在ATM交换方式中,文本、语音、视频等所有数据将被分解为长度固定的信元(cell)。信元有一个5字节的信元头(header)与一个48字节的用户数据(user data),信元长度为53字节。信元中继技术使用短的、固定长度的数据包作为传输信息的单位,因此具有高速、可控制,低延时的传输特性。
原先设计ATM网络的目的是用作多媒体通信的远程网络干线。它具有高速的通信能力,而且根据需要,可以提供可扩展的带宽。可以说ATM网络是一种全新的快包技术。
2. ATM网络技术的优点
(1)短的、固定长度的信元适用于高速、多媒体信息的传输。对于多媒体信息,ATM网络提供不同的优先级别,保证要求实时性高的话音、视频信息优先传送,保证低延时,所以ATM网络特别适用于多媒体通信。
(2)可扩展的带宽利用。ATM网络技术的另一个重要优点是带宽可以按需扩展的性能,按照通信末端的需求灵活地分配带宽。
(3)良好的传输品质。ATM网络主要用作面向连接的网络技术。它和无连接的网络技术(如LAN、iP)相比,在传输品质上有很大的提高。面向连接的通信要求在传输信息前,通信的两个端点之间先建立起虚通道(VP)和虚电路(VC)。一般情况下,虚电路是动态地建立和拆除的,称为交换的虚电路(SVC)。建立了虚电路,可以在通信的端点之间磋商服务品质(QOS)和可用的数据速率(ABR)等,避免在通信中发生数据位的丢失。
(4)通信的规范化。不论何种信源,在进入ATM网络时,使用统一的信元格式,就是都要拆成规定大小的信元,即便是网络管理用的信息,也不例外,这样有利于信息的规范化和通信集成。
(5)网络结构简化。使用固定长度的信元,可以简化在网络中末端和中间节点5对信元的校验,使网络的工作和结构得以简化。
3. ATM网络应用举例
由于ATM的优点,许多公司正在自己的网络中采用ATM作为核心技术。其中一个实例是Hannaford Brothers,该公司在从缅因州到南加里福尼亚州的8个州中,拥有150家食品和药品商店及四家仓库。 Hannaford发现,其数据通信流量在短短三年内提高了15倍,该公司现有的卫星网络已经不能处理这一通信流量。Hannaford在主干网中选择了大西洋贝尔的ATM Cell Relay服务,因为它可以承载语音和数据,并具有很高的带宽效率和服务质量功能。大西洋贝尔的ATM CRS网络为该公司提供了可扩充的带宽,其容量较以前的网络提高了80倍。
ATM网络现在已经频繁用于远程教学中,特别是公司培训计划。视频是实时的,在远程教室和教导员之间可以简便地进行交流。由于消除了差旅费用,因此远程教学大大节约了成本,公司则可以提供额外的培训课程。教育机构发现,ATM是一种经济的远程教学技术。 今天,许多医院采用ATM提供影像质量和传输速度,允许手术室中的外科医生在手术过程中以可视的方式咨询外部专家。清晰度和低时延是解释核磁共振成像和其它影像的关键。以电子方式传输医学影像有助于医院缩减成本。在ATM上可以支持无胶片放射应用,如CAT扫描和X射线,通常消除了成本高昂的胶片费用。ATM提供了必要的带宽,允许把这些详细的医学影像传输到中央位置,以供专家评估。 美国西弗吉尼亚州部署了大西洋贝尔ATM网络,在55个县的法庭及10个相应的地区监狱中实现连接。为每个法庭和地区监狱配备ATM连接的视频设备。视频设备使得在审判前,每个新囚犯可以在法庭上先期露面,而不需亲自到庭。根据西弗吉尼亚州地区监狱管理局的权威人士介绍,这将提高公共安全,因为囚犯从未离开监狱。它还降低了在监狱和法庭之间运送囚犯的成本。