Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

罗然、王一丁、万如苑、云舟编译

为什么说,数据存储的未来属于磁带

虽然已经很少能在黑白电影之外看到磁带的身影了,但这一古老的数据存储方式或许才是数据存储的未来。

你可能会发出疑问:真的吗?磁带? 

1951年,首次被用来存储数据的磁带。

这个想法可能会让你想起一些在老电影中的镜头:在一个巨大的主机旁边,卷轮在断断续续地旋转,像是《电脑风云(Desk Set)》或《奇爱博士(Dr. Strangelove)》。

然而真相是:磁带,从未消失!

1957年上映的电影:电脑风云(Desk set)讲述了工程师与电脑的恋爱, 看完文章有没有像小编一样很像去看着这部电影?

1958年电影《奇爱博士(Dr. Strangelove)图片来自维基百科》

实际上,世界上大部分数据仍然保留在磁带上,包括基础科学数据,如粒子物理和射电天文学,人类遗产和国家档案,重要电影,银行,保险,石油勘探等行业。甚至还有一群人(包括我,在材料科学,工程或物理方面接受过培训),而这些人的工作就是不断改进磁带存储的性能。

磁带的确已经存在很长一段时间了,但即使是这样,这项技术也没有被时间冻结而停止发展。恰恰相反,像硬盘和晶体管一样,磁带在过去几十年中取得了巨大进步。

第一个IBM的商用数字磁带存储系统Model 726可以在一卷磁带上存储大约1.1兆字节。

1972年,IBM首个商用数据存储磁带

时至今日,现代磁带盒可容纳15TB。一个机器人磁带库最多可包含278PB的数据。存储这样的数据量将耗费超过3.97亿个光盘,如果把这些磁盘堆叠则将形成超过476公里的高塔。

磁盘驱动器正在达到极限(明显后劲不足了),但磁带的性能变得越来越强。

大数据分析和人工智能的快速发展为企业提供了强大的激励机制,企业可以利用这些技术来分析其业务方方面面的信息。现在,财务法规要求公司和机构必须保留记录的时间比过去更长。所以各种各样的公司和机构存储的数据都变得越来越冗杂。

研究显示,记录的数据量每年增加30%至40%。但与此同时,广泛用来存储数据的现代硬盘的容量增长率还达不到这一速度的一半。不过幸运的是,大部分信息不需要立即访问。对于这种情况,使用磁带存储数据是完美的解决方案。

确实,磁带不能提供硬盘或半导体存储器的快速访问速度。不过,磁带的优势也有很多。

首先,磁带存储更节能:一旦记录了所有数据,磁带盒就会安静地放在磁带库的插槽中,根本不消耗任何电量;

然后,磁带也非常可靠,错误率比硬盘低四到五个数量级;

最后,磁带非常安全,具有内置的动态加密和介质本身提供的额外安全保障。毕竟,如果磁带未安装在驱动器中,则无法访问或修改数据。鉴于通过网络攻击导致的数据窃取率不断增长,这种“气隙”(暗指磁带优势)具有强大的吸引力。

磁带的离线特性还为有缺陷的软件提供了额外的防线。

例如,在2011年,软件更新中的一个缺陷导致Google意外删除了大约40,000个Gmail帐户中保存的电子邮件。尽管在多个数据中心的硬盘驱动器上存储了多个数据副本,但这样的损失依然发生了。幸运的是,数据同时记录在了磁带上,谷歌最终可以从该磁带备份中恢复所有丢失的数据。

2011年的Gmail事件是云服务提供商使用磁带进行操作的首次公开信息之一。最近,微软也公开了它的Azure归档存储使用IBM磁带存储设备的信息。

尽管如此,公司使用磁带的主要原因通常是因为磁带比较廉价。

磁带存储的成本是磁盘上存储相同数据量所需支付的六分之一,这就是为什么你几乎可以在任何存储大量数据的地方找到磁带系统的原因。但由于磁带现在完全从消费级产品中消失,大多数人都不知道它的存在,更不用说磁带录制技术近年来取得的巨大进步,并将在可预见的未来继续发展。

磁带存在这么久的根本原因在于:它很便宜,而且它一直在变得越来越便宜。

但这是未来的趋势吗?

您可能会认为,如果将更多数据塞入磁盘的能力正在减少,那么对于使用相同存储技术但更老的磁带来说存储能力也应该下降。然而令人惊讶的是,对于磁带而言,这种容量的扩大并没有显示出放缓的迹象。事实上,它应该会以每年约33%的历史速度持续多年,这意味着你可以预期大约每两到三年就会增加一倍的容量。所以可以把它想象成磁带的摩尔定律(类似电脑发展定律)。

对于那些必须应对数据存储预算爆炸性增长的人来说这是个好消息。要了解磁带仍然具有相对于硬盘驱动器的潜力,就要考虑磁带和硬盘驱动器的发展方式。

两者都依赖于相同的基本物理机制来存储数据。它们以磁性材料薄膜中的窄轨道为存储介质,其中磁性在两种极性状态之间切换。该信息被编码为一系列比特,由沿轨道的特定点处的磁极的存在或不存在来表示。自20世纪50年代引入磁带和硬盘驱动器以来,两者的制造商一直受到“更密集,更快,更便宜”的口头禅的驱使。结果,以每千兆字节容量计算的两者的成本已经下降了多个数量级。

这些成本的降低是磁基板每平方毫米上可记录的信息密度呈指数增长的结果,面密度是沿数据轨道的密度和垂直方向上这些轨道的密度的乘积。

早期,磁带和硬盘驱动器的面密度相似。但由于的市场规模和硬盘销售收入的增加,为更大规模的研发工作提供了资金,这使得他们的制造商能够更积极地扩大存储密度。因此,大容量硬盘驱动器的当前面密度约为最新磁带驱动器的100倍。

然而,由于磁带有更大的表面积可用于记录,最先进的磁带系统提供了高达15 tb的本机容量——比市场上最高容量的硬盘驱动器都要大。这是真的,尽管两种设备占用的空间都差不多。

Victor PradoInside 现代线性磁带开放式(LTO)磁带盒由单个卷轴组成。插入盒式磁带后,磁带自动送入驱动机构内置的卷轴。

除容量外,磁带和硬盘驱动器在性能指标上也有很大差异。盒式磁带中的长带 - 通常为数百米 – 对应的平均数据访问时间为50到60秒,而硬盘驱动器的平均数据访问时间仅为5到10毫秒。 

但让人吃惊的是,就数据写入的速度来看,写入磁带的速率是写入磁盘速度的两倍多。

在过去几年中,硬盘上数据面积密度的平均增长速度已从平均每年约40%放缓至10%至15%。之所以有这样的情况,与一些物理原理分不开:要想在给定区域中记录更多数据,就需要为每个比特分配一个较小的区域。 但这样反过来会减少读取时获得的信号。如果你减少的信号太多,它就会消失在噪音中,噪音来自于覆盖在磁盘上的磁性颗粒的颗粒性质。

通过减少这些颗粒可以减少背景噪音。 但是很难做到将磁性颗粒缩小到一定的尺寸又不损害它们以稳定的方式保持磁性状态的能力。“超顺磁极限”是记录磁性颗粒保有其性能要求条件下最小的尺寸。目前,磁盘制造商所制造的产品已经达到了这个水平。

对消费者来说,磁盘容量增长速度的放缓并不明显,因为制造商可以通过为每个单元添加更多的磁头和磁盘来弥补增长速度的不足。但是现在,无论是可用空间,还是增加磁头和磁碟的成本,都限制了驱动制造商所能获得的收益。增长放缓这一情况已经开始变得越来越明显。

包括热辅助磁记录(HAMR)和微波辅助磁记录(MAMR)等正在开发的技术可以使硬盘驱动器的扩展超出当今的超顺磁极限。这些技术能够使用更小的颗粒,从而允许磁盘的更小区域被磁化。但同样的,使用这些技术方法会使成本增加,并且也会带来棘手的工程挑战。 

即使他们成功了,根据制造商的说法,他们提供的规模可能仍然有限。例如,西部数据公司(Western Digital Corp.)最近宣布它将在2019年开始出货MAMR硬盘,预计该技术将使面密度每年仅增加约15%(仍低于之前的年平均40%的增长率)。

相比之下,磁带存储设备目前的区域密度远低于超顺磁极限。 因此,磁带的摩尔定律可以持续十年或更长时间,而不会遇到基础物理学方面的障碍。

磁带是仍然一种棘手的技术。它的可拆卸性,使用薄的聚合物基板而不是刚性盘,并行同时记录多达32个轨道,为设计人员带来了重大障碍。 这就是为什么我在IBM Research-Zurich实验室的研究团队一直在努力寻找能够通过调整硬盘技术或发明全新方法来实现磁带持续扩展方法的重要原因。

2015年,我们和FujiFilm公司的合作伙伴表示,通过使用垂直于胶带的定向超小型钡铁氧体颗粒,可以将数据记录为当今商业技术可达到的密度的12倍以上。 最近,在与索尼存储媒体解决方案部门的合作中,我们展示了以面密度记录数据的可能性,该密度是目前最先进磁带驱动器数值的20倍。 举例来说,如果这项技术成功商业化,那么现在需要十几个磁带盒来存档大预算功能的数字组件的电影工作室将能够将所有这些东西整合到一个磁带之中。

全球首个自动化数据存储资料库(IBM)

为了实现这种程度的扩展,我们必须在技术上实现一系列的进步。 首先,我们提高了读写磁头跟随磁带上的细长磁道的能力,在我们最新的演示中,磁道只有100纳米左右。

我们还必须减小数据读取器的宽度,用于回读记录的数据轨道的磁阻传感器 - 从其当前的微米级尺寸到小于50nm。但结果是我们用这么小的读卡器获取的信号非常嘈杂。所以我们通过增加介质固有的信噪比来补偿,这是磁性颗粒的尺寸和取向、它们的组成、磁带表面的光滑度和光滑度的函数共同决定的功能。 为了进一步提升效果,我们改进了设备所采用的信号处理和纠错方案。

为确保我们的新原型介质能够长久地保留记录数据,我们改变了记录层中磁性颗粒的性质,使其更加稳定。 但是这种改变使得首次记录数据变得更加困难,以至于普通的磁带传感器无法可靠地向新媒体写入数据。因此,我们使用了一种特殊的磁头,写入时可以产生比传统磁头强得多的磁场。

结合这些技术,我们能够在我们的实验室系统中以每英寸818,000位的线性密度读取和写入数据。(由于历史原因,世界各地的磁带工程师以英寸为单位测量数据密度)结合新技术可以处理的每英寸246,200磁道,我们的原型单元的面密度达到了每平方英寸201千兆位。

假设一个盒式磁带可以容纳1,140米的胶带 -考虑到我们使用的新磁带介质的厚度将减小, 这是一个合理的假设- 这种面密度对应于高达330 TB的墨盒容量。 这意味着单个磁带盒可以记录与装满硬盘的手推车一样多的数据。

2015年,包括惠普集团、IBM、甲骨文和Quantum在内的信息存储产业联盟以及一系列学术研究团体发布了“国际磁带存储路线图”。该预测称到2025年,磁带存储的面密度将达到每平方英寸91 Gb。按照此趋势推断,到2028年面密度将超过每平方英寸200 Gb。

该路线图的作者们对磁带存储未来的乐观态度是值得相信的,按照我和我的同事最近进行的实验室实验,每平方英寸200 Gb是完全可能的。 因此,在我看来,使磁带在当前速率上增长至少十年是完全可能的。

实际上,磁带可能是遵循摩尔定律规模扩展的最后几种信息技术之一。 这种持续发展会增加磁带相对于硬盘驱动器和其他存储技术的成本优势。

因此,虽然可能你很少在黑白电影之外看到磁带的身影,但磁带也会在未来几年出现在我们的生活之中。

大数据文摘
大数据文摘

秉承“普及数据思维,传播数据文化,助⼒产业发展”的企业⽂化,我们专注于数据领域的资讯、案例、技术,形成了“媒体+教育+⼈才服务”的良性⽣态,致⼒于打造精准数据科学社区。

产业数据存储
1
相关数据
人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

噪音技术

噪音是一个随机误差或观测变量的方差。在拟合数据的过程中,我们常见的公式$y=f(x)+\epsilon$中$\epsilon$即为噪音。 数据通常包含噪音,错误,例外或不确定性,或者不完整。 错误和噪音可能会混淆数据挖掘过程,从而导致错误模式的衍生。去除噪音是数据挖掘(data mining)或知识发现(Knowledge Discovery in Database,KDD)的一个重要步骤。

大数据技术技术

大数据,又称为巨量资料,指的是传统数据处理应用软件不足以处理它们的大或复杂的数据集的术语。

信号处理技术

信号处理涉及到信号的分析、合成和修改。信号被宽泛地定义为传递“关于某种现象的行为或属性的信息(如声音、图像和生物测量)”的函数。例如,信号处理技术用于提高信号传输的保真度、存储效率和主观质量,并在测量信号中强调或检测感兴趣的组件。我们熟悉的语音、图像都可以看做是一种信号形式。因此,对于语音、图像的增强、降噪、识别等等操作本质上都是信号处理。

摩尔定律技术

摩尔定律是由英特尔创始人之一戈登·摩尔提出来的。其内容为:积体电路上可容纳的电晶体数目,约每隔两年便会增加一倍;经常被引用的“18个月”,是由英特尔首席执行官大卫·豪斯所说:预计18个月会将芯片的性能提高一倍。

堆叠技术

堆叠泛化是一种用于最小化一个或多个泛化器的泛化误差率的方法。它通过推导泛化器相对于所提供的学习集的偏差来发挥其作用。这个推导的过程包括:在第二层中将第一层的原始泛化器对部分学习集的猜测进行泛化,以及尝试对学习集的剩余部分进行猜测,并且输出正确的结果。当与多个泛化器一起使用时,堆叠泛化可以被看作是一个交叉验证的复杂版本,利用比交叉验证更为复杂的策略来组合各个泛化器。当与单个泛化器一起使用时,堆叠泛化是一种用于估计(然后纠正)泛化器的错误的方法,该泛化器已经在特定学习集上进行了训练并被询问了特定问题。

暂无评论
暂无评论~