【技术分享】本文将为您揭示一套高效的数据同步策略,通过层级化整合300多项数据同步任务,实现一键定时调度,确保数据流转速度达到分钟级别。
快来关注好数连,获取更多关于定时调度、数据库优化、数仓搭建的实用技巧!
场景实战:300+数据同步任务层级化整合,一键定时调度让数据分钟级流转!
(1)背景
某汽车制造领域有限公司自上世纪70年代起致力于汽车相关零部件的开发、制造、销售和服务。近几年,各产品线综合年产量可近百万,配套客户包括比亚迪等知名汽车企业。
该公司的数字化转型工作自2017年开展,数字化转型已经初见成效。
- 11个支撑系统:ERP 企业资源计划系统、产品生命周期管理、MES-W制造执行系统、MES-P生产执行系统、LES物流执行系统、QMS质量管理系统、EMS设备管理系统、WMS仓储管理系统、DCS分布式控制系统、FCS现场总线控制系统和SCADA 数据采集监控系统
- 数据规模大,覆盖整个供应链:数字化覆盖供应链全链条(设备层、控制层、车间层、企业层、供应商协同层)
(2)数据分析不畅:多系统、大数据量、不同手工文件,让数据处理时间“雪上加霜”
拥抱大数据的同时,公司也发现了数据分析不畅的问题——
- 来源多样、分散的数据难以整合:开发人员须跨多个系统(U8、EICP、MES)及人工填报文件(EXCEL、WORD)整合、梳理数据,跨源数据无法关联分析、数据标准不一致、数据质量难以保障,导致时间成本高昂,阻塞后续数据分析;
- 报表性能慢:使用数据制作分析报表时,由于底层数据量大、数据跨源问题,报表页面加载性能慢。
这套流程下,ETL(指数据经过抽取(extract)、转换(transform)、加载(load)至目的端的过程)过程费时费力,使原本的数据资产价值一落千丈。带来的结果,不仅是供应链部门的多维数据分析进程受阻,只能苦苦等待,IT部门更是一筹莫展、压力满满。
(3)ETL驱动数据治理:从清洗到构建高效数据仓库与多层级分析架构
既要整合来源不一、分散的数据,又要解决报表带来的数据库调用压力,办法就是:
- 自动化数据转换清理:通过ETL工具,自动从多个系统中提取详细数据,经过转换和清理(包括检查合规性、匹配度和去除错误或不干净的数据)
- 报表接入:报表可以直接从数据仓库获取所需信息,显著降低了从不同数据源提取数据的负担。
然而这样,可能还不足以满足供应链部门更高层次、更复杂的多维分析需求。
要知道,维度建模后的数据才是数据分析的数据基础,在数据仓库的基础上构成各种数据报表模型和分析模型,提供给报表查询、报表输出、数据分析挖掘使用。
意识到这一点的IT部门立刻结合FDL改进了方案,将维度建模加入了数仓建设:
使用FDL平台进行数仓各层级数据的抽取、转换和加载。
- ODS层:部分EICP业务系统(企业信息化控制平台)数据受权限限制,和EICP侧人员配合,由其使用ETL工具下发给数仓。
- DWD、DWS、DIM和ADS层:全部建立同步任务定时抽取数据。
- 按供应链部门的分析需求和数据关系,维度建模后的数据需要分层放入ODS、DWD、DWS、DIM和ADS中,保证数据扩展性的同时,也能满足性能要求。
如此庞大精细的数据同步调度工程如何开展,让公司的IT部门犯了难。
FDL团队提出:将300+数据同步做层级化整合,高效管理各任务的定时调度配置。
● 每个层级(ODS层、DIM层、DWD层)单独建立汇总任务,并最终归集至总任务中,定时调度对总任务开启。
● 汇总任务的命名方式为“层级_抽取方式_抽取频率”。
每个汇总任务中,依据数据处理前后关系对任务按顺序排列,依次调度执行。
(4)效果:多层级数仓任务分钟级调度,高品质数据同步快到飞起!
最终,该公司的数仓项目累计部署了323个定时任务,其中每日执行任务52个、每小时执行任务72个、分钟级(3-5min)执行任务21个。
定时调度任务完美配合完成了数仓的多层建设,IT运维一键同步,快速实现数据流转。
供应链部门庞大的数据得以分类、分级、分维度清洗落库,报表再也不用苦苦等待了!
(5)场景价值
借助先进FDL数据同步解决方案与定时调度功能,企业能有效应对「海量数据处理、跨系统数据传输、复杂数据清洗以及报表运行效率低下」等挑战。这不仅显著减轻了员工的重复工作负担,还极大提升了数据分析的精确度,从而为企业的决策分析提供了更为可靠的数据支撑,助力企业实现高效运作与持续增长。
|