扫一扫分享微信
数据集成是大数据平台的底座,把不同来源、格式、特点性质的数据在逻辑上或物理上有机地集中,从而为政府、企业提供全面的数据共享互通,为决策者、分析人员、业务人员提供有效的数据支撑。
自新型冠状病毒在全球范围暴发后,造成了人们在工作与生活中的诸多不便,在这特殊时期,一种新兴的技术应运而生,迅速应用到疫情排查等多方面防控工作中,那就是大数据技术,其中我们熟知的“健康码”“大数据行程”就是大数据应用的体现,国内各领域、行业、机构、部门纷纷通过大数据技术,加强互联互通,加速了整个社会力量的凝聚与整合,在疫情有效防控上,发挥了不可小觑的作用。
但在疫情数据共享需求不断攀升的情况下,数据采集不及时、传输不实时、信息不完整这几只“拦路虎”,阻挡了疫情数据的有效互通。如何驱散这些“拦路虎”,实现数据按天共享、跃入分级、秒级共享,就要提到“海通号”数据高铁——海通数据流开发平台。
海通数据流开发平台是基于流技术构建的一个分布式的数据流开发平台。可把不同来源、格式、特点性质的数据在逻辑上或物理上有机地集中,提供数据接入、数据分发、数据同步、跨网交换、数据服务、监控、运维等一站式数据集成服务。
“海通号”数据高铁到底跑得有多快,多畅通?让我们一起解密。
“海通号”统一运输,高速直达——统一的数据传输和服务通道,海量数据点对点直达
传统数据集成平台特殊功能定制化,而任务开发周期长,新的传输需求出现时,传统的ETL工具无法支持,比如ES库的数据抽取到oracle库,需耗费几天的时间开发定制小程序,开发周期长且小程序传输能力弱。当面临跨网等特殊需求时,需要用到不同的工具和小程序,一条数据平均要中转六七次,中间环节为保障数据完整性,还需整理、加工再上传,经常延迟1周甚至1个月。
这些中转环节“黑盒子”——不受需求侧管控,又在不断消耗运维成本。“海通号”数据高铁打破了这些“黑盒子”,所有的数据接入、分发、同步、跨网交换、服务都统一在海通上完成,任何一条数据的变更都能被马上感知到,并实现数据点对点直达。
“海通号”专列多线路并行,畅通无阻——分布式可扩展的集群环境,预防单点故障,稳定高效
通过在不同网络中部署集群,构建分布式和可扩展的集群能力,并通过统一的管理平台进行集群和应用的管理,预防集成任务单点故障。数据就像坐在多辆同时发车的“海通号”高铁专列上,通过不同线路直达同一个目的地,畅通无阻,稳定高效。
“海通号”专列可调度,可监控——数据开发任务统一管理监控,保障数据的完整性和一致性
在数据汇集传输过程中,各种产品之间的衔接问题很多,实施难以形成规范,无法形成统一监控。由于汇集传输和共享任务分布在不同的工具中,定位问题要先找到是哪一段传输出了问题,并检查相对应的工具日志等情况。
海通配备完善的应用管理机制,对任务设计、组件、模板、安全策略进行管理,并提供数据对账、监控预警管理,问题实时预警、快速定位,保障数据的完整性、一致性。就像高铁可以统一调度和监控,确保每辆高铁的有序运行,在规定时间到达规定地点,晚点时也能快速找到原因,确定影响范围,快速调整发车方案。
火车跑的快,“海通号”车头带——数据开发者在海通平台上即可实现复合型数据集成任务
数据集成场景中往往为满足不同的场景需求,如不同类型的数据要用不同的工具传输,往往项目上会同时部署多个工具。运维人员需要掌握各种ETL工具和小程序代码,门槛较高。
“海通号”统一运输工具,只需要在可视化编辑器上,通过拖拉拽组件的方式即可实现不同集成任务。就像在高铁上,只需要操作高铁的驾驶系统,就可以完成所有的驾驶操作。
数据高铁“海通号”,让海量数据高效、有序直达!