Home > Archives > Vista操作系统用了她的语音技术,现在她要帮助更多企业实现智能化 | 专访思必驰 VP 初敏

Vista操作系统用了她的语音技术,现在她要帮助更多企业实现智能化 | 专访思必驰 VP 初敏

Publish:

初敏,思必驰 VP、思必驰北京研发院负责人,中科院声学所博士,智能语音交互领域专家。

初敏在微软亚洲研究院负责研发的双语语音合成系统木兰成功应用在 Vista 操作系统中,之后,她在阿里云和阿里妈妈负责过机器翻译、输入法、用户画像等项目。2017 年 8 月,初敏从阿里 iDST 离职加入思必驰,开始组建思必驰北京研发院,致力于将规模化的人工智能成果带给更多企业。

微软亚洲研究院的木兰妈妈

2000 年,初敏成为微软亚洲研究院的第一位女性研究员,也是第一位 TTS(text-to-speech,文字转语音)研究者。TTS 专家、微软高级研究员 Scott Meredith 在介绍初敏时,总要加上 “She is the mother of Mulan TTS system”(她是 TTS 系统木兰之母)。初敏欣然接受了“木兰妈妈”的称呼。2008 年,微软亚洲研究院成立 10 周年之际,《微软的梦工厂》一书正式出版,其中初敏所写文章的题目就是《木兰妈妈》。2017 年 6 月,初敏受邀到母校西北工业大学做演讲,学校官方新闻稿也采用了这个称呼。

“木兰”到底是什么?又是怎么来的?

“越来越多的中文文章中会杂糅有英文内容……最典型的解决方案就是在后台架起两个系统,一个专门处理中文,一个专门处理英文。遇到中英文混杂的句子,就将中文部分分割出来送给中文系统,英文部分则送给英文系统,然后将两者的输出合并起来返回给用户。这样做的最大缺陷在于分开处理的两种语言缺乏统一的语调、语气,甚至连声音本身都差别很大。结果听上去时断时续,极为不连贯。可懂度(能听懂)和自然度(听起来舒服)都比较差。我们当时花了很多精力去物色一个中英文都比较强的播音员,为我们的语音系统录音,这样就可以保证语音数据库中的双语声音是一致的。另外我们还将中英文的处理能力融合在一个系统中,有统一的韵律控制,这样生成的语句即便包含两种语言,也能有统一的语调和节律,就像一个能讲双语的人讲出来的话。这个双语语音合成系统在可懂度与自然度上都取得了较好的效果。我们将这个系统命名为木兰。”

2003 年,微软亚洲研究院成立五周年的庆祝活动中,木兰名列“十大”成果之一。现任微软亚洲研究院副院长张益肇曾撰文提到一个小插曲,“2001 年,研究院第一年向盖茨汇报中文语音合成技术的成果,语音的自然度和流畅感与传统技术比起来要进步很多。盖茨听了汇报之后感觉一切都还不错,但是他摇摇头非常惋惜地说:‘很可惜,我听不懂中文。’”

别啰嗦,直接解决问题

2009 年,初敏离开微软亚洲研究院,加入阿里巴巴。初敏依旧记得新员工培训的情形。“满屋子都是新员工”,马云亲自进行培训,“他说:‘我请你们来,不是让你们看我身上有多少问题的。我知道我身上有很多问题,那又怎样?我请你们来,是要你告诉我,你能解决哪个问题。’我当时就觉得非常认同,真的,这个理念是我坚信的。”这个信念也体现在初敏之后的行事风格中。

讲到这里,仰靠着沙发的初敏伸手拿起茶几上的矿泉水瓶,说道:“比如这杯水放得不好,你觉得放在哪里合适,你就直接放过去。如果没人阻拦你,你就直接做。如果别人告诉你不对,你就再想一想是不是自己理解得不到位。”然后她把水瓶重新放在了茶几另一端,继续说道,“我们要的不是啰嗦,说什么把水放那里很不好、会有什么问题之类的——停留在说的层面问题还是没有解决,行动力才是关键。这是我现在做事情的观点和态度。”

性格直来直去的初敏,曾在阿里云和阿里妈妈负责机器翻译、输入法、用户画像等项目。离职前,初敏是阿里云 iDST 智能语音交互团队的总监,这个团队是她从头组建的,将近三年的时间已经发展到七八十人的团队,支撑了阿里集团和蚂蚁金服的各种语音需求,同时还将技术通过阿里云平台对外输出。iDST 最早挂在阿里巴巴集团技术委员会主席王坚博士名下,王坚曾任阿里集团 CTO、阿里云总裁、阿里云 CTO 等职。“iDST 要做阿里其他部门不愿做也做不了的事情。”这是王坚对 iDST 的角色定位。

谈到离开阿里巴巴和加入思必驰,初敏表示,当时自己对语音交互的产业化有很多思考和想法,需要有定点深耕的空间。正好有机会和思必驰的创始人高始兴、首席科学家俞凯聊到了一起。初敏和俞凯是老朋友,沟通之后对思必驰的未来规划很感兴趣,觉得跟自己定点深耕的想法很吻合,“我的加入可以帮助思必驰更快地成长”,所以就选择加入思必驰。

从中科院声学所,到微软亚洲研究院,再到阿里巴巴,初敏经历的都是人数多、规模大的单位。大企业的优势在于平台大和资源多:企业本身就是巨大的资源,企业能够提供的资源也相当多。在微软亚洲研究院,初敏曾经“很奢侈地拥有过一个专门的录音室”,可以随心所欲的进行各种实验。这些实验的成果也是木兰高音质的重要保障。

同时,每一个大企业都是一张很大的棋盘,每个人都是棋盘里的棋子——甚至一个团队、一个部门都只是一个棋子。“如果你的心态是,把你放在棋盘什么位置,你就在那干,这样在大企业容易有很好的发展。如果你特别有执念,比如说想按照自己的意愿做成什么事情,在这样的企业会很难。”

初敏就有这样的执念。谈到加入思必驰的初衷,初敏表示“我还是偏爱技术的,愿意做一些技术驱动的产品。”

既然如此,为什么不去创立一家新公司?

初敏哈哈大笑:“我懒嘛。我觉得创业很辛苦,早期创业从 0 到 1 的过程里,技术占的比例太小了,不是我愿意干的。那部分不是我感兴趣的,我感兴趣的是人机交互。我真的相信,人机交互在未来一定会广泛应用起来。剩下的问题就是,谁做出来?”

初敏背靠沙发,坦然说道:“很多人不愿意当那个被摆来摆去的棋子,而是想在一个方向扎进去。”

这种执拗劲头——也可以说是反叛精神,可能源于压抑已久的内心吧。

初敏本科就读于西北工业大学,研究生保送到哈尔滨工程大学。西北工业大学在 1970 年将中国人民解放军军事工程学院空军工程系整体并入,哈尔滨工程大学的前身是中国人民解放军军事工程学院(哈军工),二者现在是归工业和信息化部管辖的七所高校之二,而一般高校大多归教育部管辖。初敏就读博士的中科院声学所始建于 1964 年,属于事业单位。

初敏接受高等教育的三所学校充满强烈的国防军工色彩和体制内意味,“我有好多同学在航天的研究所,航天二院、三院、五院都不少。有一部分出来做企业的研究,留下的现在发展得都很好。”昔日同窗现在身处不同领域,都已经成为各自行业领军人物。

Business 上的成功才是我感兴趣的,而不仅仅是技术的研发

在 2008 年的一段文字中,初敏这样写到,“有一次,他(麻省理工学院教授 Victor Zue,语音专家)来研究院访问时,对我们提过这样一个问题:如果将你在研究中所使用的数据量,乘上一百或者一千倍,同样的问题还能用同样的方法来解决吗?”

而乘上一百或者一千倍,问题就由学术届跨越到工业界了。

乘百和乘千的问题,是初敏现在关注的焦点之一。在交谈中,初敏时不时应用英文单词来描述,频率最高的三个词分别为 scale up(扩大生产)、production(规模化生产)、business(业务)。

初敏坦言,“现在我并不想做单纯的研究。你举办个比赛,大家做些训练——玩一玩是可以的,我也不反对团队参加。但那绝不是能否成就我们事业的决定因素。”要做成业务,一定要能规模化生产。“你能做一个很漂亮的 demo,可是没有办法复制一万份——复制成本很高,那最终就不可能成为 business。今天我很在乎 production 和 scale up,这才是 business,这是我现在的关注点。”

与思必驰的技术优势和目前业务相结合,初敏博士想要把自己在语音方面的成果低成本快速度地复制上万份。

思必驰于 2007 年在英国剑桥高新区成立,2008 年回国落户苏州。思必驰创始人兼 CEO 高始兴毕业于剑桥大学商学院,拥有计算机和管理双硕士学位;联合创始人兼首席科学家俞凯是剑桥大学语音博士。思必驰的传统强项是智能家居、智能车载和机器人 / 玩具。智能音箱天猫精灵 X1 就采用了思必驰环形 6 麦阵列技术,覆盖语音识别、语音合成、算法降噪等,在 2017 天猫双“双 11 ”全球狂欢节畅销 100 万台。

在传统优势之外,思必驰也在寻求转变和扩张。2017 年 9 月,思必驰正式发布全链路智能对话开放平台 DUI,为开发者提供全方位的语音交互技术支持。而初敏负责建立的北京研发院,则是要助力企业搭上人工智能的列车,把业务从个人智能服务扩展到企业智能服务。

人工智能在企业的落地一定是要跟行业紧密结合的,除了语音和对话,更需要知识源和数据源。目前大部分消费级人工智能产品都是签署第三方合作伙伴,比如音乐数据合作伙伴、天气数据合作伙伴。

在无法逆转的这个趋势下,初敏认为,当下最重要的是把语音入口做好,把距离、噪声等对语音质量的影响降低,能够顺利地把语音收进来,将其识别成文字,把对话做起来。

核心还是人才,要研发而不仅是研究

1998 年 11 月微软中国研究院(三年后更名为微软亚洲研究院)在北京宣布成立,李开复任首任院长。从成立之初起,微软亚洲研究院就奉行不打卡不考勤的策略。对此,初敏表示“凡是招来的都是想成事儿的人,不用管理,他们自己就有驱动力去不断追求更高目标和不断挑战自己。我在微软的时候也很努力的。没有人要求加班,可是你会给自己不断地找事。”

这样的人才观也直接体现在初敏负责的招聘中。受命组建思必驰北京研发院的初敏,当前面临的首要问题就是招聘,“我只招聘主动的人。你觉得该加班,你加班;你觉得不需要,你就别加班。招人就要招这样的,不需要看着他,他有做事情的意愿,能够自燃。我也恨考勤什么的——这都不适合搞技术的。搞技术的人对技术工作是有热情的。”

“所以我只需要问他们,你告诉我啥时候做完?没时间点的事都是不会发生的——这是绝对化的。绝对化是要表明我们的观点:所有没有时间点的事情,我都认为是不对的。明天要交货了,你说对不起我做不出来,这永远是错误,无论如何都不对。”

从阿里离职的初敏现在的职位是思必驰副总裁、思必驰北京研发院院长。思必驰成立的北京团队,不是所谓的研究院,而是研发院。对此,初敏表示,“我们不是研究机构,只是包含研究成分。我们肯定会做核心技术,把语音和交互前沿技术做起来,这是为了保证技术领先。但是更重要的是,我们要做产品,支撑行业应用和规模化生产。”

2017 年 8 月,思必驰北京研发院开始筹建,目前有不少语音交互方向的人才加入,一年内预计达到近百人的规模。肩负着思必驰企业智能服务重任的北京研发院,已经在合作伙伴拓展、企业场景对接方面迈出着坚定的步伐。

有多少人工,才有多少智能,这叫人工智能。

人工智能是 2017 年最火热的风口。智能语音行业的老兵初敏对此看得很淡,“就是媒体在炒,根本不是我们技术人员搞成这样的。对我来讲没多大不同。”

风口之下,对人工智能未来的欣喜中夹杂着担忧,比如以埃隆•马斯克为代表的科技大佬一直在宣传警惕人工智能的观点。从业二十多年的初敏对于人工智能威胁论的态度是嗤之以鼻。“我的态度非常鲜明。你准备好数据,它才能学——你不把数据灌进去,他学什么?所谓的深度学习,就算是强化学习,也都是有边界问题,开放问题它学不了。比如下围棋,格子是人画的。什么叫输赢?围棋的规矩是人定的。不是说你丢一堆数据,搞一堆机器,它自己就能造出人工智能。出不来的!我经常开玩笑,有多少人工,才有多少智能,这叫人工智能。人来定义问题,定义规则,甚至要提供可学习的数据,机器(学习算法)能在给定的空间和数据中学习到存在的规律。在学习规律方面,机器早已超过人了。但在理解世界的本质、定义问题方面,还是离不开人的。当然,机器总是在领域专家的指导下学习的,然后把学到的能力用来服务普通大众。这也是我们致力于把人工智能技术产业化的动力。”

而被问到在企业追赶人工智能热潮方面有哪些建议时,初敏表示“对企业而言,要真正理解自己的业务有什么问题,看看人工智能如何帮助解决问题。”

这个问题背后还有一个原因就是,任何一家中小公司都难以依靠单一业务担负研发成本:语音系统很贵,人贵、数据贵、机器贵。“思必驰专注做这个事情,一定要支持很多客户,设备可以重复利用,这样所有的成本才能摊薄。这里的核心是规模化。”

这一切,又回到了前面提到过的 production、business 和 scale up。要做的是可以低成本复制一万份的事业,那就意味着一刀切地拒绝定制化项目——即使后者离钱更近,“比如签个 500 万的单子,我派五个人的团队驻场半年。这种事能挣到钱,但不能规模化生产。我们要从根本上解决这个问题。”规模化生产,这是加入思必驰三个月的初敏要持续面对的难题。

思必驰北京研发院将要从事的企业智能服务,是一条尚未有成功范例的荒芜领地。如何克服重重困难,初敏信心十足:“我在这个方向上思考了很多,具体要怎么做,可能真没多少人比我想得更透彻。我们做到的一定不是市面上随处可以看到的那种水准。随便找个第三方厂家都差不多的水平,对我没有意义,我也犯不上在这里折腾。”

微软亚洲研究院,9 年,木兰系统天下知;阿里巴巴,8 年,拓展研究方向最终回归语音;思必驰的企业智能服务规模化,初敏需要多少年?

此文首发于公众号AI 前线

声明: 本文采用 BY-NC-SA 授权。转载请注明转自: Vista操作系统用了她的语音技术,现在她要帮助更多企业实现智能化 | 专访思必驰 VP 初敏 - 老老老赵赵赵