对话DataPipeline创始人陈诚:让沉睡的数据流转起来

DataPipeline 2021-10-13 17:02:13 大数据

扫一扫分享微信

沉睡的数据是负债,你要花费大量的人力、设备来管理、维护。

流通的数据是资产,能发挥数据的作用,创造不一般的价值。

如何让企业或者政府的数据由“负债”变成“资产”呢?

中国社科院发布的《中国大数据应用发展蓝皮书》指出,中国大数据正快速发展为对数量巨大、来源分散、格式多样的数据进行采集、存储和关联分析,从中发现新知识、创造新价值、提升新能力的新一代信息技术和服务业态。

中国软件网记者近期对DataPipeline创始人&CEO陈诚进行了专访。他表示,在数字经济时代,企业、政府对数据价值的认知正在不断提高,企业要建立数字化企业,政府要成为数字化政府。

再进一步,业务部门对于数据的认识和需求不断提升,科技部门希望用智能化、平台化、柔性化的方式更好地赋能业务,实现数据驱动。然而因数据量过大、变化过快、数据源过多,导致企业内部对现有数据存在不可知、不可取、不可控、不可用的情况。

如何摆脱人工堆砌、重复加工脚本的方式,敏捷地为业务用户提供数据,以切实可行的元数据管理实践推动数据资产管理体系的建设,是众多企业数字化转型面临的最基础的问题之一。

目前,中国企业在大数据流通、交换、利用方面大部分还处于起步阶段,关键原因是没有做好数据集成、数据清洗、数据同步等基础工作。

由此诞生了企业应用数据集成市场。Forrester数据表明,全球2017年数据应用集成市场纯软件规模是320亿美元。Gartner数据也表明,应用数据集成的细分领域iPaaS在2017年首次突破了10亿美元,增长72%。

在数据应用集成领域,既有Oracle、SAP、微软、Informatica等传统的IT大佬,也不乏创新型企业,如中国本土企业DataPipeline等。

DataPipeline正如其名字一样,数据管道,通过提供数据集成、数据清洗、数据同步等服务,帮助企业连接内外部的数据孤岛,实现数据的交换与融合。

陈诚,就读于上海交大,留学于美国密西根大学,前Yelp大数据研发工程师,曾就职于美国Google、Yelp 等。拥有6年多的大数据、计算机算法等实践经验。

陈诚说,AI不能代替人类的创造性思维,但工具可以解决重复低效的体力密集型开发与维护,加快数据的流通。当设备、应用和数据随时随地可获取时,连接将促进价值的裂变。

一、钟情数据应用

记者:您曾就职于Google、Yelp等国际知名公司,在这些公司主要做什么工作?

陈诚:毕业之后,我曾经在谷歌、Yelp等几个公司工作,就是做数据工程师。主要工作是构建大数据应用软件,节省用户使用数据、数据流转方面的成本,提高效率。同时也在数据应用方面有了不少技术积淀,为后来的创业打下了基础。

记者:后来您创立了DataPipeline,当时创立这家公司的初衷是什么?

陈诚:就像我刚才所说的,即便是在大公司里搭建大数据应用平台,也需要耗费巨大的人力、财力等资源。当时我就想,是否能把平台做成相对标准化的解决方案,提供给更多的客户,而不需要自己去搭建,让他们能直接从产品中获得比较成熟的解决方案,赋能客户。

因此,在2016年公司创立时确定的愿景就是:连接一切数据、应用和设备。现在大家常说的万物互联,其实连接的就是数据,实现的就是数据的流转与交换。为了能够帮助更多的公司、企业、个人做到这一点,DataPipeline想提供更好的服务和更好的软件。

二、认知数据应用集成赛道

记者:DataPipeline所在的赛道是数据应用集成,怎么理解这个行业?

陈诚:随着时代的发展,科技的进步,以及甲方需求的不断变化,我认为数据应用集成主要会有三个变化:

第一,比以前更加复杂了。复杂体现在存储形式,原来可能只有一些数据库中的结构化数据,但是现在有结构化、半结构化、非结构化数据,云上、云下、混合云的途径,数据库和数据仓库的对象存储等。在过去的十年里,有太多的复杂度被加入到需求当中来。

第二,时效性更强了。以前的数据流转比较慢,商业整体运转的速度也会慢一些。而现在企业根据数据做决策的速度加快,时效性也随之不断提升。

第三,对于数据或者是业务变化导致数据需求变化,从而导致数据架构变化,变化频率越来越快了。这就意味着用户的IT架构、软件和整体发展战略都需要能适应这种变化。

相对于数据量变多或者是数据源变多了这些老生常谈的问题,这三大变化点——复杂度变高,时效性变快,架构变化的程度更加深,是数据使用面临的三大挑战,与此同时也一定会诞生新的机会。

记者:那么,目前数据应用集成的市场规模和潜力有多大?

陈诚:之所以选择数据应用集成作为创业领域,就是考虑到其蕴含着较大的市场规模和潜力。

首先数据和应用集成是所有大数据项目必不可少的组成部分,数据项目或者数据应用、大数据变现,一定要完成数据的采集、清洗、整合,采用自动化和时实化软件,让数据利用变成一个低成本,高效率的过程,否则就和传统数据应用过程一样效率低,成本高。

其次,随着越来越多的大中型企业开始重视大数据,投入到相关项目或是产品中的资源也相对增加了。

相关数据表明,2017年全球数据应用集成市场纯软件规模是320亿美元,如果包括人工在内,将达到3940亿美元。

三、市场格局远没有定型

记者:数据集成这个赛道,都有哪些竞争对手?市场的格局如何?

陈诚:因为市场足够大,参与市场竞争的企业很多。但在新一代云化、大数据实时化的数据应用集成方面,相对来说新的玩家偏少。

总体而言,在中国数据应用集成企业实际上是比较缺失的。一方面,一些企业偏重数据集成,一些偏重应用集成;也出现了像阿里这样做数据中台的企业,覆盖面会比创新企业广,或多或少都会有一些差异化;而在基础技术创新方面的企业更少。

另一方面,市场上也有一些应用长达十年的工具,都是基于传统的软件架构;而新出现的偏云化,能部署在云上,以分布式架构支持大量数据和实时应用的工具还是比较少。

记者:其实做数据中台的企业最近突然变多。数据中台与咱们的做法不一样吗?

陈诚:其实我们主打的理念叫做DataOps,实际上讲的是养数据,运营数据的概念,主要是做数据的采集、清洗、融合,以及元数据管理、数据质量管理等。

界面图


不同企业关于数据中台的概念和架构多少都有所差异,切入点和功能也不尽相同,但是总体而言比我们范围要大,它可能包括出仓、主题域等。

记者:当前市场的竞争焦点是什么?战胜对手的关键点在哪儿?

陈诚:大家都来抢数据应用集成的蛋糕,但是不同企业所采取的策略和维度是不一样的。有的企业主打实时化,有的企业主打云化,有的企业主打SaaS化。

金融行业经过了十年的积累,在云、大数据和实时性的要求下,已经进入发展阶段,其他行业还处于起步阶段。

四、差异化战略

记者:DataPipeline在数据应用集成赛道参与竞争,采取什么样的差异化发展战略?

陈诚:我们的目标客户主要集中金融、零售、制造,地产、互联网行业。

主要服务的客户具有一些特征:大中型企业、数据价值密度较高、看重数据的时效性。

差异化战略包括:第一,支撑有大数据应用需求的大中型企业;第二,应用可以部署在云上;第三,实时性要求高,与以前批量化的不太一样;第四,能够支撑业务、数据、架构的变化;第五,用户体验方面,更强调自动化、智能化。

记者:当前,DataPipelie公司的差异化竞争战略的效果如何?

陈诚:目前已经成功服务了星巴克、金风科技、龙湖地产、财通证券、叮当快药等大型企业客户。

在技术上,DataPipeline基于Kafka的开源框架,聚焦流式数据处理、高性能同步,快速解决数据融合问题。

在产品上,DataPipeline 是一款实时数据融合产品,无需任何代码,通过可视化图形配置界面在极短时间内便可完成实时数据管道连接,是一款提供数据管道搭建、数据任务管理、数据质量管控、可视化运维管理、错误队列管理、用户管理以及元数据管理等一站式的数据融合平台

产品示意图

五、获得资本支持

记者:最近DataPipeline获得新一轮融资,能否介绍融资情况。融资主要用于哪些方面?

陈诚:DataPipeline公司于2017年年底完成2100万元的A轮融资,由经纬中国领投,峰瑞资本跟投。最近,公司已完成了数千万元的A+轮融资,本轮融资主要由BV百度风投领投,经纬中国、清流资本跟投。本轮融资后,DataPipeline将重点补强销售市场团队、产品技术团队,以及完善客户拓展和客户成功体系。

记者:现在可以说是资本的寒冬,DataPipeline为什么会受到资本的青睐?

陈诚:目前企业服务或是产业互联网发展进入了快车道;应用数据集成市场增长可期,用户需求也比较大;资本愿意投资企业服务细分领域的头部企业;DataPipeline在市场上得到了客户的认可,客户也愿意为我们背书。

记者:未来,公司的发展想法和战略是什么?

陈诚:我们会继续坚持既定的策略,坚持以技术驱动来服务客户。同时会持续投入资源在客户成功上,为客户带来更大的价值。

(原文链接:对话DataPipeline创始人陈诚:让沉睡的数据流转起来 | DataPipeline 数见科技

以上内容由品牌方授权数央网转载。2024年,数央网将陆续举办国际绿色零碳节、第十三届财经峰会、第五届国际科创节、第十四届公益节,合作垂询:010-56139250,或关注公众号:数央网。