作者 | 西西

编辑 | 陈彩娴
毋庸置疑,算法、算力以及数据构成了人工智能(AI)发展的三大支柱,正如吴恩达等顶尖学者所强调的:以数据为核心的AI,或者说数据驱动的AI。
由此可见,近年来呈指数级增长的数据规模是AI技术实现突破性进展的重要推手,数据在AI领域扮演着至关重要的角色。那么,人们口中经常提及的“大数据”,其体量究竟达到了怎样的水平呢?
出于探索的欲望,一位来自意大利的物理学家Luca Clissa对2021年几个知名大数据来源(包括谷歌搜索、Facebook、Netflix、亚马逊等)的规模进行了深入研究,并将这些数据与大型强子对撞机(LHC)的电子设备所采集到的数据进行了对比分析。
资料来源:https://arxiv.org/pdf/2202.07659.pdf
显而易见,LHC产生的数据量极为庞大,达到了40k EB的级别。与此同时,商业公司的数据规模也相当可观,例如亚马逊S3存储的数据量就约为500 EB,这相当于谷歌搜索(62 PB)的7530倍。
此外,流数据在大数据市场中同样占据着重要地位。Netflix以及电子通信等服务所产生的数据流量比单纯的数据生产者高出一到两个数量级。
1
LHC产生的数据规模
根据Luca Clissa的研究,2021年各大知名数据源的体量大致如下:
图注:2021年大数据的规模分布
在右上角(灰色区域)展示了欧洲核子研究组织(CERN)大型强子对撞机(LHC)实验的电子设备采集到的数据,其规模最为庞大。
在上一次运行(2018年)期间,LHC在四个主要实验(ATLAS、ALICE、CMS和LHCb)中的每一个实验里,每秒能够产生大约24亿次粒子碰撞,每次碰撞可以提供约100 MB的数据,因此预计年产原始数据量约为40k EB(即10亿千兆字节)。
然而,根据当前的技术水平和预算,存储40k EB的数据是不可行的。实际上,只有一小部分数据具有研究价值,因此没有必要记录所有数据。记录的数据量也减少到了每天大约1 PB,2018年的最后一次真实数据采集量为160 PB,模拟数据为240 PB。
此外,收集到的数据通过WLCG(全球LHC计算网络)不断传输,2018年的年流量达到了1.9k PB。
尽管如此,欧洲核子研究组织(CERN)正在积极提升LHC的处理能力,进行HL-LHC升级。预计这一过程将导致数据量增加5倍以上,到2026年,每年预计将产生800 PB的新数据。
2
大型企业数据量对比
大型企业的数据量难以精确追踪,且通常不会对外公开。为此,Luca Clissa采用了费米估算法(Fermi estimation),将数据生产过程分解为其基本组成部分,并做出合理的推测。
例如,针对特定数据源,统计在给定时间窗口内产生的内容量。然后通过对这些内容单位大小的合理估计来推断数据总量,如平均邮件或图片大小,1小时视频的平均数据流量等。
他对谷歌搜索、YouTube、Facebook等数据源进行了估算,结果如下:
谷歌搜索:最近的一项分析估计,Google搜索引擎包含30到500亿个网页。根据Web Almanac提供的信息,假设谷歌的年度平均页面大小约为2.15 MB,截至2021年,Google搜索引擎的数据总规模应约为62 PB。
YouTube:根据Backlinko的数据,2021年用户每天在YouTube上上传的视频时长为72万小时。假设平均大小为1 GB(标准清晰度),2021年YouTube的数据大小约为263 PB。
Facebook与Instagram:Domo的Data Never Sleeps 9.0报告估计,2021年Facebook与Instagram每分钟上传的图片数量分别为240k和65k。假设平均大小为2 MB,则总共大约为252 PB和68 PB。
DropBox:虽然Dropbox本身不产生数据,但它提供了云存储解决方案来托管用户的内容。2020年,公司宣布新增用户1亿,其中付费订阅用户达到117万。通过推测免费和付费订阅的占用率分别为75%(2 GB)和25%(2 TB),Dropbox用户在2020年所需的存储量约为733 PB。
电子邮件:根据Statista的数据,从2020年10月到2021年9月,用户大约传送了近131,000亿次电子通信(包含71,000亿封电子邮件和60,000亿封垃圾邮件)。假设标准邮件和垃圾邮件的平均大小分别为75 KB和5 KB,我们可以估计电子邮件的总流量约为5.7k PB。
Netflix:Domo估计,2021年Netflix用户每天消耗1.4亿小时的流媒体播放,假设每小时1 GB(标准定义),总计大约51.1k PB。
亚马逊:亚马逊网络服务(AWS)的首席布道师Jeff Barr称,截至2021年,亚马逊S3(Simple Storage Service)中存储了超过100万亿个对象。假设平均每桶的对象大小为5 MB,那么存储在S3中的文件的总大小则约等于500 EB。
总体而言,科学数据在数量上可以与商业数据源相媲美。
参考链接:
1.https://towardsdatascience.com/how-big-are-big-data-in-2021-6dc09aff5ced
2.https://firstsiteguide.com/google-search-stats/
3.https://backlinko.com/
4.https://mms.businesswire.com/media/20210929005835/en/911394/5/data-never-sleeps-9.0-1200px.jpg?download=1
5.https://backlinko.com/dropbox-users
6.https://www.statista.com/
7.https://aws.amazon.com/cn/blogs/aws/amazon-s3s-15th-birthday-it-is-still-day-1-after-5475-days-100-trillion-objects/
8.https://atlas.cern/
雷峰网雷峰网