后黄学东在卡内基梅隆大学计算机学院工作,领导包括微软在美国、德国、埃及、以色列的全球团队负责研发微软企业人工智能客服对话解决方案 ,以及cris.ai 和 luis.ai 等认知服务、CNTK 开源深度学习工具等最新人工智能产品和技术。


2016 年 Wired (连线)杂志评选他为全球创造未来商业的 25 位大牛天才之一。2017 年 2 月,黄学东当选微软全球技术院士,进一步奠定了自己在微软的技术领袖地位。


微软全球技术院士(Technical Fellow)代表着微软技术人员的最高荣誉,目前为止,全球仅有约二十位人获得,其中包括图灵奖得主 Butler W Lampson、Charles P. Thacker 等。微软全球技术院士相当于微软的 level-80,与全球资深副总裁同级别。黄学东是首位在微软通过技术路线走到最高层的华人。


在 2015 年推出了Azure Speech,帮助微软将语音技术推向大众市场。他帮助微软把AI技术从深度学习的基础设施拓展到了产品体验方面,还让微软在开放研究任务上实现了多个历史性的 AI 里程碑。

黄学东在AI上的成就还包括不少论文和 170 多项专利。2021 年,他带领Azure AI 获得了InfoWorld年度技术奖。 他于 1992 年获得 Allen Newell 研究卓越奖,1993 年获得 IEEE 语音处理最佳论文。他于 2000 年被国际电气和电子工程师协会授予 IEEE Fellow,并于 2017 年被计算机协会授予 ACM Fellow。


自 2020 年以来,他一直担任VinFuture Prize的奖项委员会成员之一,VinFuture Prize 是越南第一个全球科学技术奖,也是世界上最大的年度科学技术奖之一。


黄永东在离职前,在微软的职位为Azure的AI CTO兼首席科学家。


图片


领导人类水平的语音识别


2016 年 9 月 14 日,由黄学东率领的微软语音团队在产业标准 Switchboard 语音识别基准测试中实现了对话语音识别词错率(word error rate, 简称 WER)低至 6.3% 的突破 ,创造当时该领域内错误率最低纪录。


仅仅一个月后的 10 月 18 日,黄学东团队进一步将词错率降低至 5.9%,首次达成与专业速记员持平而优于绝大多数人的表现。这被认为是人工智能领域 2016 年最大的突破性进展之一。


黄学东表示,“在对话语音识别中,我们已经实现了和人类同等的水平,这是一个历史性的突破,意味着有史以来第一次有计算机能像人类一样识别对话中的每一个单词。”


微软语音团队花了不到一年时间就实现了这个目标,这远远超出大家的期望。黄学东认为,这一里程碑是在整个语音团队的努力以及沈向洋全球执行副总裁领导下取得的,也离不开整个 AI 技术研究领域多年的积累。


值得注意的是,微软宣布的此项研究成果,是基于英文的。那么,中文和英文有着完全不同的语法结构,对它们的语义理解哪个可能最先突破呢?黄学东表示,从语音识别的角度来讲,中文识别更容易,中文只有四百个音节。微软内部用同样的技术分别评测中英文,中文识别率要高一些。在所有语言里面,意大利文、西班牙文、中文,这三种语言,语音识别率比法文、英文之类要高,其中法文是最难的。


语义理解对任何语言都很难,这是最有挑战的课题。


2016 年 10 月 18 日,在微软官方宣布这一消息后,时任百度首席科学家的吴恩达发了一条推特:“我们在 2015 年已经实现了超过人类水平的中文(语音)识别,很高兴看到微软在不到一年之内就在英文上也达到了相同水平。”



图片


“达到人类水平”一直被众多公司用来直观呈现自己的人工智能技术发展水平,具体到语音识别领域。百度在 2015 年就宣布,中文语音识别准确率已经超过人类水平,而 2015 年底,百度的 Deep Speech 短语识别的错误率降到了 3.7%。


针对这一评论,黄学东认为,还是需要澄清短语识别错误率和对话式语音识别错误率的不同,“可以说,这两个指标并没有太多可比性。”


黄学东说:“我们说人工智能达到人的水平,要讲在什么样的任务下可以达到人类水平。简单的任务,容易达到人类水平;困难的任务例如对话识别,整个语音界为此努力了二十多年,在这样难度很高的识别任务中能够达到人类水平,是一个重要的里程碑!”


黄学东认为评测的数据集对其最后结果的解读也会产生不一样的影响。Switchboard 的数据包括了大约 2400 个自然情形下的对话,包含了各种年龄阶段、覆盖了美国主要的一些地方口语。这是一个公认的数据集。在这样的数据集下,计算机做到跟人一样的水平是相当不容易的。

10个不同的神经网络组合,造就“工程的奇迹”


图片


黄学东说:“达到人类水平的对话语音识别,与其说是算法的胜利,不如说是‘工程的奇迹’。”


微软一项著名的技术——深度残差网络,在黄学东团队的语音识别技术中发挥了重要作用。他说,事实上,这个人类水平的对话语音识别系统用到了 10 个不同的神经网络。基本上我们能想到的神经网络,他们都用了。通过 10 个神经网络合力得出最佳结果。所以,这可以称得上是“一场工程的奇迹”。


具体的过程是:首先是用 6 个不同的神经网络组合并行工作,包括了残差网络、LSTM 等,最后的结果再通过 4 个新的神经网络再组合之后输出,最终获得达到了人类水平的对话语音识别结果。


据黄学东介绍,在这个模型中,每个神经网络首先分别用长达 2000 小时的数据单独训练,每个系统具有超过 2 万个 senone。其中 CNN 单独训练的效果最出众。在这些神经网络中,包括了 3 个 CNN 的变种:


第一个是 VGG 网络,相比用于图像识别的 VGG,这个用于语音识别的 VGG 网络更深;


第二个是残差网络,在微软亚洲研究院用残差网络在 ImageNet 上取得好成绩的时候,语音团队也引入了残差网络;


第三个是 LACE,是 TDNN 的变种,每一个高层次是一系列低层次的非线性变换的加权总值。


紧随其后的是 LSTM 的单独表现。黄学东团队发现,超过六层的神经网络不能改善词错率,而对于每一个方向的每一个层,选择 512 个隐藏单位,是对于训练时间和精确度的最佳平衡。


他也提到,整个训练过程主要是监督学习。并且他们最终上线的产品实际训练数据不仅仅是 Switchboard 数据集,训练时间也远远超过 2000 小时。目前该项研究成果已经用在了如小冰、Cortana、Customize Speech Service 等语音产品。


功臣——CNTK


图片


如此复杂的工程,微软在不到一年的时间完成并取得很好效果。黄学东认为 CNTK 功不可没,尤其是,CNTK 在 LSTM 的训练速度是其它主流开源框架的 5 倍到 10 倍。


CNTK 是黄学东团队在研究过程中开发的一个开源深度学习工具包,现在不仅仅是语音团队,图像、自然语言处理、医疗服务等团队都在使用这个工具。


据介绍,CNTK 具有灵活的模型定义,同时能够有效地扩展到多个 GPU 和多个服务器。即使长达 2000 个小时的语料库,CNTK 也能以很高的性能应对这样的训练挑战。同时 CNTK 中既可以使用自定义的函数语言 BrainScript,也可以用 Python。


黄学东说微软的内部工程需要很多数据来训练,做了很多的优化,因此 CNTK 非常快。这也是他们迅速训练出达到人类水平语音识别 AI 的关键因素。


现在 CNTK 已经是最受欢迎的开源框架之一,难免被拿出来跟其它几个开源框架比较,例如 TensorFlow、Caffe、MXNet、Torch 等。大家一提到开源框架,可能更多的人想到 TensorFlow。


黄学东说,关于开源深度学习框框,少有人知的两点事实是:


图片


第一,CNTK 比谷歌的 Tensorflow 更早开源,但是它一开始不是在 GitHub上,所以了解的人也少;CNTK 当初的主要目标是服务微软人工智能的各种大数据的训练任务,他们在开源出来的时候还不知道谷歌也会做同样的事情。


第二,CNTK 的性能可能是最好的。根据香港浸会大学对五大开源框架的性能测试,CNTK 在小型 CNN 上表现一流,对于带 LSTM 的 RNN,CNTK 速度最快,比其他工具好上 5 到 10 倍,可谓全面超越其它工具。多 GPU 卡环境下,CNTK 平台在 FCN 和 AlexNet 上的可扩展性更好。


黄学东说:“TensorFlow 当然也有很多值得我们学习的地方,它的生态系统比我们好。严肃的人工智能是需要大数据来学习的,微软的工具 CNTK 在大数据学习上是超一流的。”


参与建立微软中国研究院


黄学东在1993年加入微软中国研究院,经过几年的成长,微软研究院的规模进步肉眼可见,黄学东也是主要推手之一。大约在1997年前后,微软筹备在世界各地建立研究院,黄学东是中国研究院计划分部的策划者与负责人,作为项目核心参与了招人、选址的重要工作。


其中,黄学东面试了众多院长,最后在众多杰出人选中确定了微软中国研究院(微软亚洲研究院的前身)院长的最佳人选,即他在 CMU 的博士后导师、后来的李开复。也是在黄学东的参与下,研究院最终选址在北京。

结语


黄学东,这位被微软同事戏称的“老男孩”,历经30多年的技术发展沉浮,依然对技术保持着信仰与热爱。


图片


这位在微软工作了 30 年的华人宣布了离职的消息,他的离职为华人在海外的传奇画上了浓厚的一笔,中国人在美国企业没有像印度人那样走向更高的职位。这也许是他的个人选择,也许是其它原因,但更多或是时代的变化所致。


Zoom由来自于Cisco与WebEx的工程师于2011年研发推出,并迅速在全球流行。Zoom以其简单易用、高清画质的视频会议功能受到全球商务人士喜爱。黄学东在语音以及人工智能领域研究多年,一旦加入Zoom产研团队,在人工智能技术上,或者用户体验中,是否会让Zoom放大更多色彩?


作者:场长