博客 数据存储知识点大全(一)

数据存储知识点大全(一)

   数栈君   发表于 2023-12-01 09:44  191  0

一、磁盘种类

1、HDD:机械硬盘;容量大、价格低,存储稳定,读取慢

2、SSD:固态硬盘;价格高,寿命不如机械盘,读取快,体积小

3、HHD:混合硬盘;顾名思义,是一种即包涵传统机械硬盘又集成了闪存模块的存储介质,性能处于SSD和HDD之间,目前市场上很少见

4、HSSD:高性能固态存储(又叫高性能闪存盘),理论上来说它也是SSD的一种,但是相比一般的SSD,HSSD的读取速率快,IO性能更强,相对的,成本也更高
二、磁盘接口

1、SATA:也就是使用串口的ATA接口,因抗干扰性强,且传输线比ATA的细得多,支持热插拔等功能,已被广为接受。SATA-I的外部接口速度已达到150MB/s,SATA-II达到300MB/s,SATA-III将达到600MB/s;SATA硬盘采用点对点连接方式,支持热插拔,即插即用。

2、SCSI:历经3代的发展,从SCSI-1、SCSI-2到SCSI-3。工作站级个人计算机及服务器通常采用SCSI硬盘,原因在于SCSI硬盘支持高转速(如,15000RPM),且数据传输时占用较少CPU资源。SCSI硬盘的单价比SATA硬盘贵,且协议兼容性差。

3、SAS:一种高性能磁盘类型,是新一代的SCSI技术,它使用串口的SCSI接口,其传输速度,可达到12Gb/s,SAS是一种点对点、全双工、双端口的接口,专为满足高性能企业需求而设计,实现与SATA的互操作,为企业用户带来前所未有的灵活性和低成本;具有高性能、高可靠性、强大的扩展性能;SAS可以向下兼容SATA,同样采用串行技术,在传输速率、抗干扰性方面强于SCSI,通常用于企业级应用和数据中心。它们具有更快的数据传输速度和更低的功耗,但成本较高,

4、NL-SAS:采用了SAS的接口,SATA的盘体,转速只有7200,性能比SAS差,寻址和读取比SATA快
http://dtstack-static.oss-cn-hangzhou.aliyuncs.com/2021bbs/files_user1/article/d61c6f6ac9da1bbc1d896fcfe883b170..png

5、FC:硬盘采用FC-AL( Fiber Channel Arbitrated Loop)光纤通道仲裁环,一种双端口的串行存储接口,FC-AL支持全双工工作方式;定位于高端存储应用,可靠性和性能高,FC硬盘一般都同时提供两个FC接口,可同时使用或互为备份,具有很好的升级性,可以用非常长的光纤,可超过10公里,而且具备高带宽、高通用性和高可靠性,但相对的价格昂贵;

6、M.2:2013年出现的技术,主要出现在PC磁盘的接口中

7、NVME:一种新型的非易失性存储接口,用于连接服务器和存储设备。同样,它是也可以提供更快的数据传输速度和更高的I/O吞吐量,以满足高性能存储的需求;NVMe与传统的SATA和SAS接口相比,具有更高的数据传输速度和更低的延迟,NVME固态盘象征着高端旗舰存储产品;NVMe标准支持多种数据传输协议,包括PCIe,SATA,SAS,USB,Fibre Channel等。它还支持多种数据传输速率,从2.5Gbps到128Gbps;它还支持多种高级功能,如内存池,写缓冲,快照,数据恢复,数据保护,等等。NVMe标准也支持设备管理,包括电源管理,设备状态管理,以及设备错误报告等功能
三、磁盘阵列

RAID:全称独立磁盘冗余整列,由多个独立的高性能磁盘驱动器组成的磁盘子系统,可以提供比单个磁盘更好的存储性能和数据保护,极大程度提高了磁盘的读写性能和冗余热备能力

RAID又分为硬件RAID和软件RAID,硬件RAID是指服务器中单独有一个硬件提供RAID能力,高性能高成本;软件RAID是指在主板上集成了RAID能力,需要调用CPU和内存资源,配置灵活成本低性能差

1、RAID0:又叫条带化,至少需要一块盘,空间利用率100%,无冗余机制,读取性能最好

2、RAID1:镜像;至少需要两块盘,每写一次数据就会同时生成一份相同的备份数据(镜像数据),空间利用率50%,读写一般,可靠性高,允许坏一块,常用做系统盘
http://dtstack-static.oss-cn-hangzhou.aliyuncs.com/2021bbs/files_user1/article/0ee88fa36781959232d19c628840b9bc..png

3、RAID5:至少需要3块盘,每块盘拿出三分之二的空间来存放数据,三分之一的空间做奇偶校验

允许坏一块盘。RAID5也是实际生产中较为常见的存储数据的磁盘模式。

4、RAID6:至少需要4块盘,循环冗余校验(官方叫法是带有两个独立分布式校验方案的独立数据磁盘),允许坏两块盘,读写速率差,还不如RAID5

5、RAID10:顾名思义,RAID1+RAID0,两两制作成RAID 1磁盘阵列,以保证数据的安全性;然后再对两个RAID 1磁盘阵列实施RAID 0技术,进一步提高硬盘设备的读写速度。这样子从理论上讲,只要坏的不是同一组中的所有硬盘,那么最多可以损坏50%的硬盘设备而不丢失数据。RAID 10技术继承了RAID 0的高读写速度和RAID 1的数据安全性;至少需要4块盘。

6、JBOD:Just a Bundle Of Disks,简称磁盘簇,将多个小容量的磁盘组合成一个大容量的逻辑磁盘
http://dtstack-static.oss-cn-hangzhou.aliyuncs.com/2021bbs/files_user1/article/37aa488be8e6a025a6350818a357057e..png

7、RAID 2.0:华为的集中式存储存储系统采用基于全闪存设计RAID 2.0+底层虚拟化技术,实现硬盘自动负载均衡,将硬盘划分为若干个相同大小的CK,其中一CK做热备块,其余的CK做数据块,硬盘域中每个硬盘出1个CK,组成一个CKG。热备CK组成的就是热备CKG,然后将CKG做RAID,然后划分为Extent或Grain组成LUN供用户使用;当存储系统某一硬盘发生故障时,硬盘域内的所有正常硬盘参与数据重构,而且仅重构业务数据,数据重构速度相对传统RAID提升20倍,极大降低了多盘失效概率。同时,RAID 2.0+支持动态RAID,灵活的数据布局,加快了SSD的重构速率。

(1)、CK:chunk,是存储池内硬盘空间切分成若干固定大小的物理空间,是组成RAID的基本单位

(2)、CKG:Chunk Group是由来自于同一个DG内不同磁盘的CK按照RAID算法组成的逻辑存储单元,是存储池从硬盘域上分配的最小单元

(3)、DG:Disk Group,硬盘组,是由硬盘域内相同类型的多个硬盘组成的集合,硬盘类型包括SSD、SAS、NL-SAS

(4)、LD:逻辑磁盘,是被存储系统所管理的硬盘,和物理硬盘一一对应

(5)、Extent:在CKG基础上划分的固定大小的逻辑存储空间,大小灵活,是热点数据统计和迁移的最小单元,也是存储池中申请和释放空间最小的单位

(6)、Grain:在Tink LUN模式下,Extent按照固定大小被进一步划分为更小的更细的块,这些块称之为Grain;Tink LUN以Grain为粒度进行空间分配,Grain内的LBA是连续的

(7)、Volume:卷,存储系统内部管理对象

(8)、LUN:LUN是可以直接映射给主机读写的存储单元,是Volume对象的对外体现
http://dtstack-static.oss-cn-hangzhou.aliyuncs.com/2021bbs/files_user1/article/4b98f002f007b3f3ec4c2a2fbe6ed2c9..png

8、RAID 2.0+:在RAID2.0的基础上加了SmartTier和SmartMotion特性

9、重构与预拷贝

(1)、重构:当RAID组中某个硬盘故障时,利用其它正常成员盘上的数据,根据镜像或奇偶校验算法重新计算生成故障盘上的所有数据的过程;重构内容包括用户数据和校验数据,最终将这些数据写到热备盘或者替换的新磁盘上

(2)、预拷贝:预拷贝是指系统通过监控发现RAID组中某成员盘即将发生故障时,将即将故障成员盘中的数据提前拷贝到热备盘中
http://dtstack-static.oss-cn-hangzhou.aliyuncs.com/2021bbs/files_user1/article/bd9557137452ed324f19c0ff641bad13..png

10、RAID-TP:华为自研的的一种RAID技术,能容忍三块盘同时损坏失效,与传统RAID相比,性能更佳、可靠性和容量利用率更高,传统RAID仅能允许两块盘同时失效

11、RAID-LUN-LVM-Volume之间的关系

(1)、多个磁盘组成RAID组——基于RAID组可以创建逻辑单元给主机或者虚拟机使用,一个逻辑单元对应一个LUN(逻辑单元号);此处也可以理解为基于RAID组可以创建LUN给主机使用

(2)、LVM:逻辑卷管理器,l是位于操作系统和存储设备之间,将操作系统识别到的磁盘进行组合再分配的软件。LVM屏蔽了存储设备映射给主机的物理磁盘或逻辑磁盘的复杂性,通过将这些磁盘做成卷,以逻辑卷(LV)的方式灵活地呈现给操作系统磁盘管理器。

(3)、LV:逻辑卷,是逻辑卷管理器通过对存储系统映射给主机的LUN、物理磁盘或物理磁盘分区,进行整合再划分出来的一个虚拟磁盘分区

(4)、若干个磁盘组成一个RAID组,从整体上看相当于由多个磁盘组成的一个大的物理卷,物理卷按照指定容量创建一个或多个逻辑单元,一个逻辑单元对应一个LUN,可以映射给主机使用;对于操作系统而言,逻辑卷就像一个物理磁盘,可以像操作本地磁盘分区一样来管理逻辑卷,比如在逻辑卷之上创建一个文件系统,逻辑卷的实际组成对操作系统是透明的;逻辑卷可以由不连续的物理分区组成,也可以跨越多个物理卷。相对于将LUN映射给主机直接安装文件系统进行使用,在逻辑卷上建立文件系统对存储空间进行管理。

需要说明的是,RAID2、3、4这些磁盘技术不说并不是代表没有,只是它们伴随着需求和技术的发展已经被淘汰了而已,市场上不用的东西深究其原理并无任何意义。此外,RAID2.0和RAID2.0+是华为主导的的技术,在其它存储厂商中并不可见。

四、存储协议

1、CIFS:Common Internet File System通用Internet文件系统,是一种网络文件系统访问协议。CIFS是公共或开放的SMB协议版本,它使程序可以访问远程Internet计算机上的文件并要求此计算机提供服务。通过CIFS协议,可实现Windows系统主机之间的网络文件共享;CIFS用于Windows操作环境。

2、NFS:Network File System,即网络文件系统。一种使用于分布式文件系统的协议,通过网络让不同的机器、不同的操作系统能够彼此分享数据。NFS主要用于UNIX的操作环境。
http://dtstack-static.oss-cn-hangzhou.aliyuncs.com/2021bbs/files_user1/article/057ab0fa58584b3ce0d1f92221130be6..png


http://dtstack-static.oss-cn-hangzhou.aliyuncs.com/2021bbs/files_user1/article/bf92a144d35a841e5f82ef6aa2590883..png

3、HTTPS:安全的超文本传输协议,端口号443,常见协议此处不做解释

4、FTP/TFTP/SFTP:文件传输协议/快速文件传输协议/安全的文件传输协议,端口号20、21,常见协议不做解释
五、存储组网

1、DAS:直接连接存储;是一种将存储设备通过电缆直接连接到主机服务器上的一种存储方式。数据存储设备采用SCSI 或FC 协议直接连接在内部总线上,构成整个服务器结构的一部分。

2、NAS:网络附加存储;它基于IP 网络进行数据通信,是一种将分布的、独立的数据进行整合,集中管理数据的存储技术,为不同主机和应用服务器提供文件级存储空间。从使用者的角度,NAS是连接到一个局域网的基于IP的文件共享设备

(1)、NAS通过文件级的数据访问和共享提供存储资源,使客户能够以最小的存储管理开销快速地共享文件,使得NAS成为主流的文件共享存储解决方案; 另外,NAS有助于消除用户访问通用服务器时的性能瓶颈;NAS通常采用TCP/IP数据传输协议和CIFS/NFS远程文件服务协议来完成数据归档和存储功能。

(2)、NAS可作为网络节点,直接接入网络中,理论上NAS可支持各种网络技术,支持多种网络拓扑,但是以太网是目前最普遍的一种网络连接方式。

(3)、NAS能够支持多种协议(如NFS、CIFS、FTP、HTTP等),支持多种操作系统。通过任何一台工作站,采用浏览器就可以对NAS设备进行直观方便的管理。

3、SAN:存储区域网络;是一种面向网络的、以数据存储为中心的存储架构。SAN 采用可扩展的网络拓扑结构连接服务器和存储设备,并将数据的存储和管理集中在相对独立的专用网络中,向服务器提供数据存储服务。以SAN 为核心的网络存储系统具有良好的可用性、可扩展性、可维护性,能保障存储网络业务的高效运行。
http://dtstack-static.oss-cn-hangzhou.aliyuncs.com/2021bbs/files_user1/article/6c2946f615342e298951a53a30620f1c..png

(1)、IP SAN:IP SAN指基于IP协议传输的网络存储系统,其使用标准的TCP/IP协议,可在以太网上进行块数据的传输,无需配置专门的FC网络
http://dtstack-static.oss-cn-hangzhou.aliyuncs.com/2021bbs/files_user1/article/47a7e9c4611d73f773302e529293a1ec..png


http://dtstack-static.oss-cn-hangzhou.aliyuncs.com/2021bbs/files_user1/article/bad3a241dc11b1afa1eaaecad98c7f5c..png

(2)、FC SAN:FC SAN是指使用FC(光纤通道协议)协议的SAN网络。作为SAN网络中第一个成功的千兆位串行传输技术,FC已成为最适合块I/O应用的体系结构;它拥有高速长距离的串行传输;大规模网络应用中的异步通信;较低的传输误码率;较低的数据传输延迟;模块化和层次化结构;传输协议可在HBA上以硬件方式实现,减少对服务器CPU的占用。
http://dtstack-static.oss-cn-hangzhou.aliyuncs.com/2021bbs/files_user1/article/a352f420e60d5860d83068878d269618..png

(3)、FCoE:以太网光纤通道;是以光纤通道FC存储协议为核心的I/O整合方案;FCoE是将FC帧封装到以太网帧中,以实现在以太网基础设施上传输光纤信道信号的功能,是指在增强型以太网基础设施上传输光纤信道信号功能的规范。节约资源,降低成本的同时兼备以太网的扩展性,保留光纤通道的高可靠性。
六、存储类型

1、集中式存储:由一台或多台主计算机组成中心节点,数据集中存储于这个中心节点,并且整个系统的所有业务单元都集中部署在这个中心节点上,系统所有的功能均由其集中处理;集中式存储一般分为控制框和硬盘框,很多厂商为了提高安全可靠性,一般会将控制框分割为A控和B控,当其中一个控制框故障时能确保短时间内业务不受影响。

2、分布式存储

分布式存储顾名思义:就是通过分布式技术,将服务器的存储介质组成大规模的存储资源池;这些资源从底层上屏蔽了 硬件的差异,分布式存储往往具备超大容量、超高扩展性和可靠性等优势,但与之相比的,时延相对较高。

(1)、文件存储:将数据以文件形式保存在存储设备中的一种方式。在计算机系统中,文件是最基本的数据单位,它可以包含多种类型的数据,如文本、图像、音频等。文件存储分为本地存储和远程存储两种方式,通过文件系统对数据进行管理和操作

(2)、对象存储:对象存储是一种以非结构化格式(称为对象)存储和管理数据的技术。现代组织需要创建和分析大量非结构化数据,例如照片、视频、电子邮件、网页、传感器数据和音频文件。云对象存储系统将这些数据分布在多个物理设备上,但允许用户从单个虚拟存储库有效地访问内容。对象存储解决方案非常适合用于构建需要扩展和灵活性的云原生应用程序

(3)、块存储:块存储会将数据拆分成块,并单独存储各个块。每个数据块都有一个唯一标识符,所以存储系统能将较小的数据存放在最方便的位置。这意味着有些数据可以存储在 Linux 环境中,有些则可以存储在 Windows 单元中

3、块存储、对象存储、文件存储的区别

块存储、文件存储和对象存储是分布式存储的三种类型。块存储适合客户端使用,典型使用场景有docker容器、虚拟机远程挂载磁盘存储分配、日志存储等;文件存储适合存储大量小文件,如视频、音频等,典型使用场景有多媒体应用、网盘等;对象存储适合更新变动较少的数据,典型使用场景有备份、归档、大数据等
七、文件系统

本地文件系统

1、Windows:FAT16、FAT32、NTFS等

2、Linux:EXT2、EXT3、EXT4等

(1)、EXT/2/3/4是Linux 系统中标准的文件系统,其具有存取性能好的优点,对于中小型的文件访问具有优势

3、Macintosh:HFS、HFS+等

分布式文件系统(开源)

1、Lustre

2、HDFS:是一个支持数据密集型分布式应用的分布式文件系统。它能够保证应用可以在上千个低成本商用硬件存储节点上处理PB级的数据

(1)、HDFS将文件系统命名空间呈现给客户端,并运行用户数据存放到数据节点上。从内部构造看,每个文件被分成一个或多个数据块,从而这些数据块被存放到一组数据节点上;数据节点会根据命名节点的指示执行数据块创建、删除和复制操作。为了保证数据不丢失,HDFS通过在三个数据节点上复制数据以保证可靠性,即每个数据块存放三份副本。当用户访问文件时,HDFS把离用户最近的副本数据传递给用户使用。
http://dtstack-static.oss-cn-hangzhou.aliyuncs.com/2021bbs/files_user1/article/5146deda20c21a94dd4840955b1381e0..png


————————————————
版权声明:本文为CSDN博主「阿~想」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。
原文链接:https://blog.csdn.net/weixin_48375618/article/details/132517002

免责申明:

本文系转载,版权归原作者所有,如若侵权请联系我们进行删除!

《数据治理行业实践白皮书》下载地址:https://fs80.cn/4w2atu

《数栈V6.0产品白皮书》下载地址:
https://fs80.cn/cw0iw1

想了解或咨询更多有关袋鼠云大数据产品、行业解决方案、客户案例的朋友,浏览袋鼠云官网:
https://www.dtstack.com/?src=bbs

同时,欢迎对大数据开源项目有兴趣的同学加入「袋鼠云开源框架钉钉技术群」,交流最新开源技术信息,群号码:30537511,项目地址:
https://github.com/DTStack



0条评论
社区公告
  • 大数据领域最专业的产品&技术交流社区,专注于探讨与分享大数据领域有趣又火热的信息,专业又专注的数据人园地

最新活动更多
微信扫码获取数字化转型资料
钉钉扫码加入技术交流群