分布式文件系统-分布式文件系统

分布式文件系统-分布式文件系统
摘要:本文介绍银行分布式架构中的分布式文件系统部分内容。

在一个分布式系统中,数据量大是必然的,那么对这么多数据,系统是如何存储、计算以及进行读写操作的呢?这里就涉及分布式系统中两个最为人熟知也是最重要的技术:分布式文件系统和分布式计算框架。对于分布式架构来说,分布式文件系统是必不可少的。

分布式文件系统对应的文件数据集的大小一般指的是GB、TB甚至PB级别。类似于这样的“超大文件”存储在一台物理机上显然是不可能的。分布式文件系统指的是管理网络中跨多台计算机存储的文件系统。当数据集的大小超过一台独立物理计算机的存储能力时,就有必要对其进行分区并存储到若干台单独的计算机上。分布式文件系统架构于网络之上,这就意味着系统管理的物理存储资源并不是直接连接在本地节点上的,而是通过计算机网络与节点相连。分布式文件系统将大容量的数据分成大小相等的小数据块,分布存储在各个节点中(提供冗余机制),通过配置信息,在客户端需要进行读写操作时及时快速有序地找到文件所在的节点并完成数据的对应操作。

在一个分布式文件系统中,数据分块存储在各个数据存储节点,每个节点上存储了若干数据块,名字域服务记录了数据存储的各种元数据(metadata)259信息,如副本个数、文件名、节点位置等。当客户端发出对数据的读写操作时,首先由名字域服务查找文件(或者文件副本)所在的节点位置等信息,然后客户端通过这些信息对数据进行相应的操作,如果对数据进行了写操作还会由数据块服务模块返回更新信息给名字域服务模块。以上就是分布式文件系统大致的操作过程。


说明:(1)文中的配图大多来自互联网上授权图片提供商,并已获得免费使用授权,如果文中内容或是图片侵犯到您的权益,请及时告诉我。(2)本文主要内容来自王汉民等著由机械工业出版社出版的《银行信息系统架构》一书,本文主要目的是学习金融行业知识,如果您想了解更多内容,请购买原版图书。如果文中内容侵犯到您的权益,请及时告诉我。

推荐阅读