U平台开发者成长训练营之
7天打卡挑战业务分析工具
已报名:0人

聊聊数据中台:元数据建设有哪些坑(一)

7

  元数据一般被称为 " 数据的数据 ",以元数据为关键展开数据治理,能够帮助企业更好地对数据资源进行管理,理清数据之间的关系,实现更精准高效的分析和决策。本文作者从自身工作出发,对元数据的基本功能展开了介绍说明,与大家分享。


4.jpg

 

  元数据功能介绍

  在做元数据之前本人也做了很多的竞品分析(简单的),像这类产品更多还是乙方比较有经验举例几个亚信、普元信息、网达、星环等等。根据我们的需求现状我们确定任何一家成熟的产品都 cover 不住我们的需求,对于乙方习惯于标准化,非标的需求都不太愿意做,所以我们干脆就从 0 到 1 开始建设,不用他们的产品,只用他们的技术能力。

  对于要不要从 0 到 1 建设取决于数据量和数仓建设情况,如果数据量不大直接买一个成熟产品即可或者根本不需要元数据产品,毕竟没有元数据也能建立数仓的(扯远了 ~),每个公司对元数据的需求可能都不太一样,元数据的标准化其实不太好做(对技术要求很高),因为要你能 cover 住大部分用户的需求,cover 不住要么用户妥协、要么你妥协二次开发一些功能给用户使用。

  根据我们的需求我们规划了以下功能(简单的介绍下):


1. 数据地图


数据地图分为数据资产、元数据中心,为用户提供元数据资产统计服务。

1)数据资产统计:用户可以通过数据地图清晰的了解数据的使用情况、分布等对整个数据资产情况有个大概的了解(这种分析统计类的需求是无止尽的,做一部分常用的即可,剩下的入库自己用可视化分析工具展示)

2)元数据中心:这是元数据核心功能之一,整个元数据的输出就是数据地图,用户可以通过元数据中心查看表的元数据信息(技术元数据、业务元数据)、任务信息、血缘关系(表级、字段级)血缘分析、使用信息等等(再多就看自己公司诉求了)

3)元模型:元模型是元数据的核心功能之一,主要实现技术元数据和业务元数据的管理、维护;这里说下子模型的概念,考虑场景的多样性比如运维更关注技术元数据、业务更关注业务元数据,针对不同的库、表可以应用不同的元模型,以满足不同人群的需求。

4)管理中心:管理中心主要针对功能权限、数据权限进行管理包括权限申请、审批、实施等。

5)我的数据:为用户提供查看自身权限、建表等功能。

6)数据管理:数据管理包含元模型、数据源管理等功能,用于元数据的手动、自动采集(生产的元数据采集依赖外部平台,大数据侧元数据采集我们自己做的)

7)元数据质量:主要做元数据治理用的,包含库、表元数据治理功能,分多个维度统计元数据完成情况,并可以做相应通知等。

8)其他:还做了一些其他功能如审计等,这里不细讲了。


2. 产品架构


存储 / 计算:元数据使用 MySQL 进行存储、图数据库,查询使用 clickhouse,缓存分布式 redis

服务层:服务层提供基础的平台服务能力,包括元数据管理、元数据地图、管理中心、用户权限管理等。

通知服务:元数据管理系统中通知类消息目前有三种呈现形式,分别为站内信、短信、邮箱;

元数据采集:kafka、hook 插件、flume、sftp

安全服务:LDAP 认证、kerberos




转载:http://www.myzaker.com/article/5f07dd88b15ec00c5e5e7f2c/

分享到:
深圳总部
广东省深圳市南山区塘岭路1号金骐·智谷大厦1705
珠海分公司
广东省珠海市香洲区银桦路102号优特大厦
技术与服务
优特云学院
关于优特云
粤ICP备19104760号-1               粤公网44030502004418号
Copyright © 2020 All Rights Reserved 广东优特云科技有限公司版权所有
广东优特云科技有限公司
产品
友情链接
宣传合作      :0756-2552466 ,  utyun_market@ut.cn
方案定制      :0756-2552473,  utyun_service@ut.cn