行业动态

行业动态 | 档案云外包案例:英国政府网页档案馆的云迁移记录

字号+ 作者:admin 来源:中国档案数字化网 2018-05-27 我要评论

在数字环境下,档案数据量增长迅速,档案数据形态复杂,档案利用需求迫切。这些因素都向档案馆的存储和服务能力提出挑战。云服务为解决上述问题提供了一个良好的途径。英国国家档案馆为了能够更好地管理英国政府网页档案馆,大胆采用了云服务,将数据量120TB

在数字环境下,档案数据量增长迅速,档案数据形态复杂,档案利用需求迫切。这些因素都向档案馆的存储和服务能力提出挑战。云服务为解决上述问题提供了一个良好的途径。英国国家档案馆为了能够更好地管理英国政府网页档案馆,大胆采用了云服务,将数据量120TB的网页档案全部迁移到云端,并通过基于云的检索功能设计提供查询利用服务,大大提高了网页档案馆的运营管理效率,同时也减轻了国家档案馆的工作负担,让其能够将精力放在更重要的工作上。下面一起来看看英国国家档案馆是怎样在短时间内完成这次大规模数据迁移的。

如何在两周内将120TB网页档案迁移到云端

建立一个像英国政府网页档案馆一样庞大的资源需要耗费大量的存储空间。英国政务网页档案馆专门用于采集和保存英国政府官方机构及其社交媒体账号发布在网页上的信息,包括推特和发布于推特上的视频,以及网站等。从1996年至今,英国政务网页档案馆已经保存了超过5000个网站。其中,每一年需要采集归档的网站超过2000个,涵盖上百个社交媒体账号。到2018年,网页档案馆的数据占位已经超过120TB。这一数据量远远大于普通消费者的硬盘大小——500GB到1TB之间。

MirrorWeb是英国政府网页档案馆的外包运营商,负责网页档案馆数据的管理和操作。在2016年,英国国家档案馆意识到原本由自己管理网页档案的方式已经太过困难,所以开始探索外包运营的管理模式,当时所考虑到的需求主要有三个方面:

2017年,英国国家档案馆与MirrorWeb签订合同,决定用更加现代化的云服务方式来管理网页档案馆,并向用户提供更加便捷的查询检索服务。这时MirrorWeb的工程师们发现了海量数据带来的挑战。

为了更好地完成网页档案馆向云端的迁移,英国国家档案馆需要采用不同于以往的思考方式,甚至设计自己的工具和流程,从而使整个过程尽可能快速有效。

为什么要使用云服务

首先,为什么MirrorWeb和英国国家档案馆要不厌其烦地将英国政府网页档案馆迁移到云端呢?

原因之一是巨大的数据量本身。随着档案馆规模逐渐扩大,对于像国家档案馆及其采集归档合作对象这样的机构来说,不断持续投资新的基础设施建设来适应这种增长是不现实的。

(注:AWS是Netflix和Airbnb等大规模网络品牌都使用的云平台)

云还可以使基于网页的服务更加快捷、可靠。简单来说,像服务器和硬盘这种物理硬件是有可能会过载或出问题的。但基于云的基础设施具有更高的内置冗余,所以即便一个硬盘、服务器甚至数据中心出现问题,你所需要的服务还是可以在别处得到恢复。

挑战一:数据迁移

通过网络将120TB的数据从一个地方传输到另一个地方可能需要很长时间。 此外,由于有网络成本,这么大规模的迁移可能会很昂贵。而且如果没有适当的安全控制措施,甚至会有潜在的安全风险。

当时网页档案馆存储在巴黎一个数据中心的在72个USB-3硬盘上。 英国国家档案馆决定最佳的迁移策略是使用叫做AWS Snowballs的设备,这个设备可以连接到本地网络,将数据复制并加密到内部硬盘,然后会将数据运送到AWS数据中心,以便最终传输到云端。

为了提高速度,英国国家档案馆还携带了两台定制电脑,从而使数据传输的速度达到同时从16台USB-3硬盘中传出。72个硬盘、两台定制电脑和两个AWS Snowballs设备,让整个迁移过程只花费了两个星期,这个纪录对于二十多年的互联网历史来说也不算太差了。

挑战二:数据索引

数据迁移后的下一个工作就是建立一个面向公众的网站,通过这个网站,访问者可以以原始形式查看网页档案和社交媒体的内容,并能够搜索特定主题的内容。

后者是一个特别的挑战。搜索看起来是最基本的网络技术之一,但实施起来可能很复杂。因为搜索引擎不会逐一扫描整组文档,而是使用索引,这有助于更快地返回有用结果。MirrorWeb的任务是重新设计一个搜索引擎来完全替代网页档案馆原先的检索功能,这意味着要从爬虫开始对14亿份文档建立索引。

再一次地,MirrorWeb结合了自家和现成的技术完成了检索功能的设计。

工程师们尝试找到一个能够满足大规模小文件索引需求的现成工具,于是他们建立了一个叫WarpPipe的工具。这个工具能够在10个小时内为所有英国国家档案馆的馆藏建立索引,这个速度远远超过了某个主流大数据处理工具所预计的六到八周时间。

这个检索功能本身是由Elasticsearch提供的,新的功能设计显著提高了检索速度、适应性和可靠性。目前这个索引的更新频率大概在一个月一次,所以新采集的档案内容也可以很快显示在检索结果里。

成效

对于档案馆的用户来说,这项工作的意义是什么?

这同时也为网页档案馆的未来发展拓展出了很多新的机会。档案数据存储在云端之后,数据的处理也变得更加容易了,也使档案用户能够更好地发掘和理解共同的数字记忆。

未来MirrorWeb和英国国家档案馆的合作将重点加强网页档案的采集,提升档案检索效果和搜索结果显示。

http://blog.nationalarchives.gov.uk/blog/move-120-tb-web-archive-cloud-two-weeks/

转载请注明出处。

1.本站遵循行业规范,任何转载的稿件都会明确标注作者和来源;2.本站的原创文章,请转载时务必注明文章作者和来源,不尊重原创的行为我们将追究责任;3.作者投稿可能会经我们编辑修改或补充。

相关文章
网友点评