什么是数据湖
数据湖(Data Lake)是一个存储各种数据类型数据的大型仓库,实现数据集中式管理,包括HDFS或者对象存储系统S3 都属于这个范畴;除了存储,还包括管理和分析工具,提供数据目录服务以及统一的数据访问。数据湖是一个集中化存储海量的、多个来源,多种类型数据,并可以对数据进行快速加工,分析的平台。
与传统数据仓库的区别
数据仓库,于1990年提出,一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合,用于支持管理决策,传统数仓是集中式的维度表;比起事务型的数据系统,数据仓库能更有效地对业务数据进行统计分析,无论是在提高效率、稳定性还是降低资源成本上都有其优势,所以被广为接受而大行其道。
数据湖,是开放自助式的,提供工具环境供各业务团队使用,主要用于数据分析和机器学习算法。早期有不少公司引入Hadoop,想让自己的数据发挥更大的价值,但并不容易,HDFS这些存储方式都不支持update,HDFS的write操作也不支持并行,这些特性导致其具有一定的局限性,无法支持对现有数据的更新和删除操作。数据湖技术解决这类难题。
数据湖的优势
- 轻松收集数据:比如文本、音频、视频和图像;
- 支持实时数据源:支持对实时和高速数据流执行ETL功能;
- 更快地准备数据:不需要访问多个来源,快速生成可用于数据驱动决策的BI;
- 可扩展性和敏捷性:利用分布式文件系统来存储数据,降低了存储成本;
- 高级分析:快速开发和使用高级分析模型,非常适合使用机器学习和深度学习来执行各种任务。
在“数据驱动业务”、“数字化转型”的时代大背景下,数据中台和数据湖都是由业务诉求催生出的平台架构。数据湖更好地利用了HDFS存储,将批处理和流计算作业整合,已成为新一代大数据技术标准,应用前景广阔。