InfoMover实时采集同步:实现数据价值最大化,助力企业数字化转型
在这个充满不确定的时代,唯一可以确定的就是企业的数字化转型
数字经济时代,数据生产要素已经明确作为劳动力、资本、技术和土地之后的第五大生产要素,成为推动经济发展的核心力量。数字化转型成为企业高质量发展的重要引擎,促进数字技术与实体经济深度融合也已成为国家“十四五”规划的重要内容。
与此同时,新冠疫情的爆发与蔓延给无数行业带来冲击,让越来越多的行业、企业看到数字化建设、管理、运营的必要性。在这个充满不确定的时代,唯一可以确定的就是企业的数字化转型。
而对于进入数字化转型阶段的企业而言,数据采集同步能力成为桎梏企业通往精益之路的巨大技术阻碍。
拥抱实时数据管理,是数字化转型的必然选择
不论企业数字化转型处于哪一个阶段,数据采集同步都是企业最实际最高频的需求。
一方面,企业的精细化运营对实时数据的需求在不断膨胀,实时数据能够帮助企业以最快速度收集来自传感器(如工业领域的机器转速、温度、压力、流量等)、股票行情、服务器日志、传统数据库甚至是Hadoop系统的数据。以实时或近乎实时的方式挖掘出有价值的信息,对企业快速做出决策有着重大意义。
另一方面,随着生产设备和相关技术的智能化升级,以及全球市场无时无刻都在变化的需求,行业内实时数据的采集与计算相关标准已经提升到了秒级要求,当前的批处理数据架构难以应对,需要构建新一代的实时数据架构体系以实现“换挡加速”。
工具缺乏,自研成本高,企业实时数据采集同步面临严峻挑战
企业在实时数据采集同步过程中面临着以下的挑战:
1.?传统数据采集工具单一(例如OGG)、封闭、兼容性弱、非高可用;传统数据传输工具性能差、稳定性低、响应慢。
2.?缺乏专业数据采集同步工具,数据采集工具自研难度、成本高、易用性不够,配套工具集成难度大、单独采购成本高,且与实时数据同步工具衔接复杂;
3.?缺乏数据采集经验,数据采集覆盖面不全、粒度无法满足自身业务要求;
4.?数据获取实时性不够,数据采集到到业务可用时效不确定,多端数据采集不规范;
5.?缺乏统一的数据管理与数据加密方案,数据维护成本高;
6.?实时开发门槛高,技术人员需要深入学习计算引擎的底层知识,当业务逻辑比较复杂时,还需要了解离线与实时如何结合使用,对开发人员技术能力要求较高。
InfoMover实时采集同步,逐个击破采、传痛点,最大化数据价值释放
InfoMover实时采集同步是睿帆科技基于开源CDC组件Debezium之上,自主研发的国产化实时数据采集分布式数据传输工具。
InfoMover提供数据源/目标端配置、数据采集/同步(注:数据采集表示数据流式采集;数据同步表示同构或异构数据库间数据同步)任务管理、实时监控、数据一致性校验、项目用户权限管理和安全审计等功能,具备可扩展、高并发、低延迟、数据库低消耗、高可用、数据重采、对各类数据库兼容性强等特征,适用于金融、保险、通讯、政府、电商等行业实现数据实时采集、数据迁移/流转、数据治理/数据资产管理、数据库辅助备份等目标,助力于打通各个数据孤岛壁垒,实现数据价值最大化。
基于日志的CDC,保障数据一致性和实时性
Change Data Capture(变更数据捕获)的技术方案非常多,目前业界主流的实现机制可以分为两种:一种是基于查询的 CDC(DataX、Sqoop,kettle),即离线调度查询作业批处理。这种实现机制无法保障数据一致性,查的过程中有可能数据已经发生了多次变更;并且不保障实时性,基于离线调度存在天然的延迟。
而InfoMover实时采集同步采用的正是另一种实现机制:基于日志的 CDC,即实时消费日志流处理。这一机制使得InfoMover与传统数据采集工具相比有以下优势:
1.?确保捕获所有的数据变更。
2.?以极低的延迟生成变更事件,同时避免因为频繁轮询导致 CPU 使用率增加。
3.?不需要更改数据模型,例如 ‘Last Updated’ 列。
4.?可以捕获删除操作。
5.?可以捕获旧记录状态以及其他元数据,例如,事务 ID(具体取决于数据库的功能和配置)。
安装方便、操作简单,大幅降低使用门槛
InfoMover安装简单方便,支持Docker构建发布,即开即用;支持滚动升级,在不影响正常任务的条件下可完成组件升级,做到升级无感知。
页面操作简单易用,指引清晰明确,减少用户使用过程的学习成本。采集过程的数据统一存放在Kafka消息集群中,并接受安全管控,并具备再流转到用户指定的二级Kafka消息集群的能力,助力Flink等工具达到实时计算的目标。
数据同步过程,针对数据库对象(如表)的结构做了DDL做明确指引,即提供自动处理也具备提供用户手动执行等指引。
低功耗、高可用、高安全
系统资源消耗低:经基准测试验证,数据采集过程中InfoMover服务1个核2G内存60Mbps带宽最大可以运行20个采集任务。注:具体情况还需根据客户实际环境做相应验证。
高可用:系统由最少三个节点组成,一或两个节点故障,任务自动跳转至正常的节点上;整体服务故障重启后任务自动从上次断点停服开始继续工作,任务具备自愈能力。支持手动任务数据重采,一旦发生不可预知的情况导致任务失效,可以通过一键“数据重采”恢复任务,从任务级别迅速恢复业务。
高安全:系统提供项目用户及鉴权等管理能力;具备对所有操作行为进行安全审计(记录用户信息、各种行为与操作,帮助安全审计人员回顾审查工作中存在的安全漏洞及隐患)能力;数据采集汇总到Kafka集群保存过程提供鉴权机制包括SASL/PLAIN, SASL/SCRAM等,确保数据只开放给下游合法申请人;后台日志做脱敏处理,防止敏感信息外漏。
系统辅助功能齐全:监控涵盖集群组件状态、任务状态、日志管理、数据质量等,帮助运维尽早尽快发现故障和问题。
更强大的兼容能力,支撑更多实际业务场景
目前,InfoMover 2.4版本可以满足多种数据库不限于Oracle(10g/11g/12c/19c/21c)、MySQL(5.7/8.X)、PostgreSQL(9.5.x/9.6.x/10/11/12/13/14)、TiDB(4.0.10)之间的数据同步,满足推送数据至Kafka(2.8/3.X)等消息集群等能力,并在金融资讯部门、通信运营部门数据流转处理等场景中得到实践。
InfoMover,价值不止于桥梁
对于企业而言,InfoMover不仅是数据间流转的稳定可靠“桥梁”,能够为实时计算提供高效高质量的数据支持,助力企业数字化转型,还具备以下两方面的意义:
1.?实现数据从传统MPP架构升级到大数据平台、湖仓体系的有利支撑。
近两年来,湖仓一体的概念兴起,企业开始逐步关注数据平台架构问题,更强调通过统一的架构,依托一个一站式的多模型数据平台来解决数据湖、数据仓库多样化的数据分析场景。InfoMover实时采集同步是实现数据从传统MPP架构升级到大数据平台、湖仓体系的有利支撑。
2.?保障数据安全,助力国产化替代。
数据已经从资源化到资产化,到现在进入要素化时代。而数据安全是一项基础保障,InfoMover实时采集同步可以构建另类数据备份、容灾和迁移模式,保障数据安全,助力国产化替代。
典型案例
证券行业数据资源较丰富,并且业务发展中对数据的依赖程度也较高。随着业务发展,证券公司逐步意识到大数据在企业战略中的作用和地位,并在大数据应用领域快速布局。作为未来业务发展的重要技术支撑手段,大数据技术、各应用分析模型和算法等将逐渐走进证券公司各项日常运营活动中,凸显“数据驱动业务”的重要地位。
广发证券成立于1991年,是国内首批综合类证券公司,自1994年开始一直稳居全国十大券商行列,是市场上具有较高影响力的证券公司之一。而随着公司业务发展,各部门对实时数据访问及计算的需求日渐增长,如日间客户资产实时查询、客户交易实时提醒、开户流失挽回、反洗钱及异常交易监控等业务场景,均需实时计算能力支持。因此,为了满足Level2行情,委托交易、APP行为埋点等业务的实时分析需求,急需借助实时数据分析技术,及时洞察用户旅程,获取业务经营动态与全貌。
针对广发证券当前现状需求,睿帆科技拟通过建设实时数据平台,基于自主研发的InfoMover为其搭建实时数据采集模块,引入数据实时访问及计算的能力,更好地支持业务发展。实时数据平台建设,以实时数据作业为核心,体系化覆盖数据作业的配置、开发、管控等全流程功能。系统初步分为四个模块,分别是数据实时数据采集模块、实时数仓元数据管理模块、实时作业开发模块、实时作业运维管理模块。
此次通过搭建实时数据平台,帮助广发证券全面提高数据敏捷应用开发能力,快速满足对海量数据的实时统计分析需求,使其在数据资产管理、运营管理、客户服务等方面的效率得到快速提升。