当前位置: 首页 > >

数据湖架构浅谈

发布时间:


数据湖架构浅谈

一、大数据技术和工具归类:


部分术语翻译:
Administration: 管理*台(此处应指大数据管理*台)
Data Security: 数据安全
Data Governance: 数据管控
Data Computing: 数据计算
Data Collection: 数据采集
Data Storage: 数据存储
BI/DATA Visualization: 商务智能可视化/数据可视化


二、数据湖的概念:

1.数据湖是一个大型数仓和处理环境。
2.数据湖是一种用于分析不同类型数据源的企业级数据管理*台。
???a.首先将一组数据加载到数据湖(例如Hadoop),然后对加载到数据湖中的数据进行 业务分析和数据挖掘。
???b.建立数据湖是进行数据相关业务的第一步。


三、数据湖的功能:

Data Ingestion(获取数据)
Data Storage(数据存储)
Data Auditing(数据审计)
Data Exploration(数据探索)
Data Lineage(数据继承)
Data Discovery(数据挖掘)
Data Governance(数据管理与处理)
Data Security(数据安全)
Data Quality(数据质量评估)


四、数据湖和Hadoop的区别:
数据湖提供一种在系统中存储不同模式和结构的数据集(通常是二进制对象或者文 件)的解决方案。Hadoop是数据湖的一种实现形式。其他实现方式还有Azure Data Lake Store文件系统,其他云计算环境等。
五、数据湖的三大关键属性:
包含一切?一个数据湖可以存储所有数据,不论是永久的原始数据还是已经处理过的数据。无限深入?一个数据湖可以让不同部门的用户根据自己的需求来优化、探索和丰富数据。访问灵活?数据湖支持跨共享基础架构的多种数据访问模式:批处理,交互式,在线,搜索,内存和其他处理引擎。
六、传统企业数据仓库:
    通过收集需求来构建设计方案;通过事实和维度来构建数据模型;ETL:提取、转换、加载数据源中的数据到数仓;使用BI工具构建报表。

七、范式转换:

1.EDW方式(写范式):
i.结构化→提取→分析
ii.单片
iii.结构化的


2.EDL方式(读范式):
i.提取→分析→结构化
ii.分布式
iii.配套工具齐全
iv.数据结构多样化


八、为什么选择EDL,而不是EDW?

1.EDW(Enterprise Data Warehouse)作为商业智能和数据挖掘的基础,拥有以下不足:


与时间不同步可预测范围和能力有限成本高昂无法处理复杂数据
2.EDL优势:低成本存储海量数据具有高速数据的不同数据源超强的数据处理能力数据管控和整合阅读模式-在数据不受结构限制时洞悉其本质。
九、数据湖的层次
数据生命周期管理(ILM)元数据:数据定义、数据继承数据安全
十、数据湖的分层:
Intake Tier(摄入层):数据获取,工具:WebHDFS、Kafka、Flume、Sqoop、Flink等;Data Management Tier(数据管理层):丰富和发布数据,工具:Hive、Spark、Flink等;Consumption Tier(消费层):应用处理后的数据,工具:NoSQL (MongoDB, Casandra, etc.)、Tableau、D3.js



友情链接: