中国AI荆棘之路,从荒蛮到繁荣

文:秋水笔弹 2021-08-12 09:40:30 人工智能

扫一扫分享微信

科技之树虽然硕果累累,但它的苹果从来只会眷顾有足够渴望与准备的人。

科技并不是匀速发展,而是在经历缓慢得让人窒息的、压抑的黑铁时代,不断求索之后,大量的积累的技术、经验、数据、认知终于在一个时代迎来共振,这个时代就会成为科技发展的奇点,过了这个奇点,它才会迎来指数级别的快速上扬。

这一次中国正好在奇点正在发生的时候,追上了其他先进国度在AI基础研究领域的脚步。这既是我们的幸运,也是我们不断奋斗的结果。

从在AI领域毫无存在感,到今天成为AI顶会奖项收割机,中国的AI科研之路,由荒蛮走向繁荣,由荆棘走向花团锦簇的今天——也是正在迈向人工智能黄金时代的白银时代。

一、1930-1980年:漫长而艰难的黑铁时代

语言学家诺姆·乔姆斯基(Noam Chomsky)曾经指出,由于孩子们接触到的数据总量较小,他们究竟是如何学会一门语言的,至今仍然是个巨大的谜。

为了让机器学会小孩子可以轻易做到的事情,过去七十多年,无数科学家前赴后继,投入到了“人工智能皇冠上的明珠” 的自然语言处理研究领域,通过构建算法,使计算机可以自动分析、表征人类语言。

尽管人类从1946年就开始努力,但是很长一段时间里,进展缓慢,人类就像出现希腊文明后经历漫长的中世纪一样,在奇点出现之前,在AI研究领域也走过了一段堪称黑铁时代的幽暗之路。

到20世纪30—40年代,发生了两件极其重要的事件:逻辑的数理化和智能可计算性思想(机器能思维),建立了计算与智能之间的理论关系;同时还有两个不世出的天才横空而出,为人工智能提供了完备的理论基础。

被称为“人工智能之父”的图灵,于1936年创立了自动机理论,提出一个理论计算机模型,奠定电子计算机设计基础,后来被人称为“图灵机”。1950 年图灵的论文“机器能思考吗?”,也为即将问世的人工智能提供了科学性和开创性的构思。

1948年,划时代的“通信的一个数学理论”分成两部分陆续发表,香农通过借用热力学中“熵”的概念,引入“信息熵”,证明熵与信息的不确定性有等价关系,奠定了今天大数据与机器智能的基石。

说个题外话,在二次世界大战时,香农与比他大4岁的图灵都是著名的密码破译者,帮助盟军取得了二战的胜利。

令人扼腕的是图灵因为同性恋,1952年被英国政府强行化学阉割,两年后,图灵不堪受辱自杀身亡。可以说是人工智能史上一大挫折。

1956 年夏季香农等10位科学家,举办了一次长达两个月的研讨会,讨论用机器模拟人类智能问题,首次使用“人工智能”这一术语。

20世纪50到70年代,人工智能虽然进展有限,但在西方国家还是得到重视和发展。

过去在AI内部存在两大分支:一是传统AI——基于规则,以符号逻辑为基础的算法系统;另一个则是建立在统计分布规律之上的并行分布式系统,包括对大脑网络的模拟,具有更强的容错能力以及学习能力。

但是在20世纪50年代到70年代,西方国家人工智能研究的主力还是在基于规则的方向空转,加上中国计算机科学当时的停滞,人工智能经历了漫长而艰难的黑铁时代。

e2df3913087c0643af1f8886d053c127_1628664660.jpeg

【英女王2013年特赦计算机科学之父图灵】

二、1980-2010年:曙光渐露的青铜时代

80年代,基于统计分布规律的AI路线开始占据上风,让人工智能研发之路逐渐出现了曙光。

IBM的Fred Jelinek就是一位使用统计方法研究语音识别与合成的著名学者,1988年12月,他在一个NCL会议上尖刻地表示:“每当我解雇一个语言学家,语音识别系统的性能就会改善一些。”把基于规则研究人工智能的路线贬低到了一无是处的程度。

到了1989年,自然语言处理的发展才进入了一个新的纪元,这个新纪元的重要标志是,在基于规则的技术中引入了语料库方法,其中包括统计方法,基于实例的方法,在语料库中训练出自然语言处理的基础组件词表。事实上,装载这些平行语言数据的第一个语料库,是20世纪50年代建立的布朗美国英语语料库。所以很多时候,奇点的出现是各种技术条件涌现融合的结果。

2003年一位德国科学家奥赫,在美国一次机器翻译评比中获得了最好的成绩,他使用统计方法从双语自动地获取语言知识,建立了统计机器翻译的规则,在很短时间之内就构造了阿拉伯语与汉语到英语的若干个翻译系统。

伟大的希腊科学家阿基米德说过:“给我一个支点,我就可以移动地球。”而奥赫说:“只要给我充分的并行语言数据,那么对于任何的两种语言,我就可以在几个小时之内,给你构造出一个机器翻译系统。”

这种建基于大规模文本处理基础上的机器翻译,是机器翻译研究史上的一场革命,将自然语言处理推向了一个崭新的阶段。

也是这一年开始,人们开始看到了机器翻译的曙光。过去三十年间,这颗自然语言处理的种子已经长成了硕果累累的科学之树。

人工智能研究真正取得突破的时候,正好碰上了中国思想大解放的八十年代,中国的人工智能研究也终于摇摇晃晃迈出了蹒跚的步履。

1978年,随着“科学技术是生产力”的提出,中国人工智能也在酝酿着进一步的解冻。著名数学家、中国科学院院士吴文俊提出的利用机器证明与发现几何定理的新方法——几何定理机器证明,获得1978年全国科学大会重大科技成果奖就是一个很好的征兆。

20世纪80年代初期,钱学森开始主张开展人工智能研究,中国的人工智能研究进一步活跃起来。

改革开放后,自1980 年起中国大批派遣留学生赴西方发达国家研究现代科技,其中就包括人工智能学科领域。这些人工智能“海归”专家,已成为中国人工智能研究与应用的学术带头人和中坚力量。

20世纪八九十年代,中国人工智能学会成立,《人工智能学报》创刊,清华大学出版社出版《人工智能及其应用》著作,学界的人工智能研究开始陆续启动。

同时,国内少数高校也开始开设各种人工智能类课程。经过推广与提高,30年前的人工智能星星之火如今已形成燎原之势,数以百计的高校开设了各种层次的人工智能课程。

甚至有些人工智能基础研究已经开始斩获国际奖项,1990年计算机科学与技术专家、中国科学院院士张钹获得ICL欧洲人工智能奖。张钹现在已经任职清华大学人工智能研究院院长。

这只是中国成为国际AI顶会奖项收割机的开篇。

三、2010年至今:显山露水的白银时代

2000年国际AI顶会ACL年会在中国香港举办时,只有微软中国研究院的论文来自中国大陆,到了2005年,来自大陆的论文也只有三篇。

直到2010年,百度引入国际著名人工智能专家王海峰,同年,王海峰一篇论文被 ACL 录用。2013 年,王海峰出任ACL五十年来首位华人主席,并且促成了2015年ACL会议在中国举办。

今年ACL的年会主席是来自中国中科院自动化研究所的宗成庆,程序主席也有两位华人科学家。

华人再一次担任此重要职务,中国人工智能的发展却已经不可同日而语。

在过去十年里,随着中国生产、消费、社会运作的全面数字化与智能化,数据增长、算法革新、算力提升,让人工智能从基础研究到应用都取得了突破性进展,迎来了真正的繁荣时期。

与此同时,华人科学家也从在NLP领域默默无闻,到顶会投稿量全球第一,论文质量也取得了质的飞跃,俨然成为了顶会论文收割机与AI基础研究领域的主力军。

今年3月份,华人学者彭泱获得了2021 年算法顶会 ACM-SIAM 的最佳论文奖,他曾在中国南京大学就读博士学位。

就在一个月前的另一个人工智能顶级学术会议AAAI上,来自中国的学者许晶晶成功入选“学术新星”。许晶晶在2020年从北大博士毕业后加入了字节跳动AI Lab团队。今年8月份,许晶晶更是与AI Lab团队其他成员一起摘得了ACL大会颁布的最佳论文。

字节跳动AI Lab赢得最佳论文,是ACL成立59年以来华人科学家团队第二次赢得最高奖项,此前由中科院计算所主导的研究项目曾被评为ACL 2019“最佳长论文”。

来自港中文、腾讯AI Lab合作的论文也入选了ACL 2021的杰出论文,是六篇杰出论文之一。

ACL大会由国际计算语言学协会主办,是自然语言处理与计算语言学领域最高级别的学术会议。ACL学会成立于1962年,大会每年一届,经过严格的筛选和评审选出来的最佳论文,代表着该领域的最高水平和发展方向。

今年3月,伦敦帝国理工学院NLP学者Marek Rei发布2020年度AI相关的论文统计显示:在发表数量中,来自西湖大学的张岳,2020年一共发表了30篇文章,从2019年排名12,直接跳到了今年的第二位。

Marek Rei的统计数据覆盖了12个2020年AI相关的权威会议和期刊。

在2012年至2020年整体的数量中,曾任职清华大学副教授的周明占据榜首,共发表128篇论文。张岳位列第三。

各个机构的比较中,2020年,清华大学、北京大学、中国科学院,进入了论文数总量前十,分列第六、第八、第十。而在2012-2020期间的论文总量统计中,只有清华、北大进前十。

中国科技公司在AI领域的影响力也在逐渐彰显。

著名咨询公司Gartner 今年7月发布的云AI开发者服务报告中,国内的阿里云、百度云、腾讯云全部入选,其中阿里云与微软、谷歌、IBM、AWS一起跻身远见者象限。

也是在今年7月,由ACL举办的机器翻译大赛上,字节跳动AI Lab研发的“并行翻译”系统,夺得德语到英语方向评比第一名。

在18年前曾让人们看到了AI研究曙光的并行翻译领域,18年后的今天,来自中国的“并行翻译”系统,首次击败了从左向右逐词翻译的传统技术,打破后者在机器翻译领域的绝对统治地位。

值得关注的是,来自Marek Rei 教授的统计展示了美国在 AI 领域 “力压群雄”的主导地位,接近4000篇论文,是排名第二中国的两倍。

但是作为后来者,中国取得今天的成绩,已经很不容易,2010年之前,华人科学家出现在AI顶会优质论文中的身影还寥寥可数,过去十年,中国人、华裔以及来自中国的机构与企业,在国际AI领域的存在已经越来越难以忽视,华人开始在关键AI国际机构重要任职,优质论文作者密集出现,过去三年,华人科学家更是包揽了ACL两年的最佳论文。

人工智能发展的七十多年,其实也是中国AI科研,由荒蛮走向繁荣的七十多年。

中国的人工智能已经走在通向黄金时代的白银时代,用王小波的话来说:“银子是热导最好的物质,在一块银子上,绝不会有一块地方比另一块更热。”这十年,从国家战略、学术机构到科技公司,中国在人工智能领域的努力与收获都是全方位的。

文艺复兴时代诗人但丁曾经写下这样的名句:我们一起攀登,直到我透过一个圆洞看得见一些美丽的东西显现在苍穹。我们于是走出这里,看见了满天繁星。

相信如诗人但丁所言,穿过科研无人区的幽暗圆洞,科学家将会带领我们走向更广阔壮美的星空。

本文转自钛媒体(https://www.tmtpost.com/5560415.html)

以上内容由品牌方授权数央网转载。2024年,数央网将陆续举办国际绿色零碳节、第十三届财经峰会、第五届国际科创节、第十四届公益节,合作垂询:010-56139250,或关注公众号:数央网。