数据发现平台可以解决的问题为什么需要一个数据平台?
数据治理意义重大。传统的数据治理以文档的形式进行管理开源数据治理工具,已经不能满足大数据下的数据治理需求。而适合大数据生态系统的数据治理非常重要。大数据下的数据治理对于很多企业来说都是一个巨大的问题。可以找到的数据解决方案并不多。幸运的是,近年来,许多公司都尝试并开源了它们。本文将对这些进行详细分析。国外数据发现平台的实现方案有十几种。
数据发现平台可以解决的问题
为什么需要数据发现平台?
在数据治理过程中,经常会遇到这些问题:数据在哪里?如何使用这些数据?数据有什么用?数据是如何产生的?数据如何更新?
. . . . .
数据发现平台的目的是解决上述问题,帮助更好地发现、理解和使用数据。
例如,Nemo 使用全文检索技术,可以快速搜索目标数据。
http://tt.ccoox.cn/data/attachment/forum/20220109/1641672039158_0.jpg
用户浏览数据表时,如何快速了解数据?一般的方式是显示列名、数据类型、描述,如果用户有权限可以预览数据。
以下是数据列显示功能。
http://tt.ccoox.cn/data/attachment/forum/20220109/1641672039158_1.jpg
数据ETL是一个大问题天外神坛源码网,尤其是如何显示是非常困难的。实际上,数据的ETL可以用数据流图来表示。很多平台都支持这个功能,比如就有。
与数据调度平台有很好的结合。
数据发现平台比较
这里有五个开源解决方案
()
开源,最初称为 . 经过一段时间的开发开源数据治理工具,于2020年2月开源
//
可以说是一个非常有活力的项目,既有表结构、搜索、数据沿袭等功能,也有用户、群组等功能。
还提供官方文件。开源版本支持 Hive、Kafka 和关系数据库中的元数据。
所以使用率还是很高的。
(来福车)
Lyft 于 2019 年 4 月开发,并于 10 月开源。
/-io/
http://tt.ccoox.cn/data/attachment/forum/20220109/1641672039158_4.jpg
提供搜索和排名功能,帮助更好地查找数据表。
支持的数据源非常丰富,支持hive、druid等15个以上的数据源,还提供了与任务调度的集成以及与其他BI工具的集成。
数据沿袭功能也在开发中。
http://tt.ccoox.cn/data/attachment/forum/20220109/1641672039158_5.jpg
( )
2018 年 6 月开源。
支持 Hive、,、S3 和 RDS 集成。
不过虽然是开源的,但是官方没有提供文档,资料也很少。
()
2018 年 10 月开源
也有很好的支持。
可以看到还在更新中,敬请期待。
http://tt.ccoox.cn/data/attachment/forum/20220109/1641672039158_7.jpg
阿特拉斯()
作为其数据治理计划的一部分,Atlas 于 2015 年 7 月开始孵化。
Atlas 1.0 于 2018 年 6 月发布,当前版本为 2.1。
Atlas 的主要目标是数据治理,支持与 HBase、Hive 和 Kafka 的集成。
http://tt.ccoox.cn/data/attachment/forum/20220109/1641672039158_8.jpg
地址
//图集
http://tt.ccoox.cn/data/attachment/forum/20220109/1641672039158_9.jpg
丰富的文档
http://tt.ccoox.cn/data/attachment/forum/20220109/1641672039158_10.jpg
如何选择
首先说一下作者的选择。虽然对and很感兴趣,最终还是选择了Atlas。
开源、文档丰富、功能都在上表中进行了详细对比。如何选择取决于实际情况。
有五个开源: Atlas
有三个文档: Atlas
强大的搜索功能:
具有数据沿袭能力:Atlas
考虑到项目周期、实施等条件,建议从Atlas入手,开辟数据治理探索之路。
当然,也有公司使用 Atlas 和 Atlas 来处理元数据管理,并使用强大的数据搜索能力进行数据搜索,这也是一个不错的选择。
更多数据治理实践,欢迎关注大数据流 本坛所有服务皆为虚拟服务
页:
[1]