首页IT网络行业新闻文章详细

2022年数据湖行业现状及发展前景分析

互联网2022-04-14 10:21:06 196

国内数据湖行业市场前景如何? 数据湖作为新一代大数据基础设施,近年来持续火热。根据有关数据显示,2020年数据湖产品市场规模达72.5亿元,相比2019年的56.4亿元增长了28.5%。

2022年数据湖行业现状及发展前景分析

亚马逊云科技、阿里云、华为云是我国数据湖产品市场份额排名前三的厂商,三者合计占比接近50%。亚马逊云科技作为率先帮助用户走出数据湖价值落地之路的云服务提供商代表,并逐渐得到了市场的认可。

数据湖中数据量庞大,要让数据不被淹没,能随时得到追踪,就需要维护好数据目录,数据湖中的数据目录是元数据的集合。好的数据湖系统,计算引擎在处理数据时,能从元数据中直接获取数据存储位置、数据格式、数据模式、数据分布等信息,然后直接进行数据处理,而无需进行人工/编程干预。更进一步,好的数据湖系统还可以对数据湖中的数据进行访问控制,控制的力度可以做到“库表列行”等不同级别。

数据目录充当可用数据的清单,并提供信息以评估适用数据的预期用途。一个有效的方法是维护中央数据目录,并在各种处理框架(如Hadoop、Spark以及其他可用工具)中使用,这样可以应用简单的数据治理规则来确保元数据的完整性。

根据中研研究院出版的《2022-2027年管理软件行业市场深度分析及发展规划咨询综合研究报告》统计分析显示:

据悉,我国农业银行选择在企业级大数据平台的基础上,围绕“采、建、管、用”四个关键环节进行数据湖建设。从源头上丰富数据种类,在建设中提升海量数据存储计算能力,在管理上加强数据资产线上化和规范化水平,在消费端通过租户管理、资源开放和自助服务,实现数据应用的快速构建。

现已通过立机制、建工具、落实施,实现了海量内外部数据的快速入湖,为全行各业务领域百余个应用场景提供数据支撑。同时正在积极开展数据湖新技术架构的建设落地,通过开源软件和国产商用产品融合的方式,完成了异构存储管理、元数据管理、计算引擎上云及实时数据处理等关键技术攻关和重点场景验证。

近期在数据湖新技术架构的基础上,上线各类新业务场景;中期打通数据湖与现有数仓,实现湖仓架构融合,并推进大数据与云计算的融合,进一步提升资源管理和服务能力;最终,建成云数据湖,实现集团数据一体化管理,形成行业领先的大数据基础架构,全面夯实企业级数据底座,为集团提供更丰富、更及时、更开放、更融合的数据支撑。

目前市面上流行的三大开源数据湖方案分别为:Apache Delta、Apache Iceberg和Apache Hudi。 开源项目的优势包括:头部企业提出的开源项目,技术可行性强;群策群智,发展迅速;商业化版本也比较多,方便选择等。

有关机构预测,到2024年,市场规模将达到201亿美元,预测期内(2019~2024年)的复合年增长率为20.6%。


快审推荐

发表评论

  • * 评论内容:
  •  

精彩评论

  • 无任何评论信息!