互联网创业者越来越年轻,90 后创业者声名鹊起、屡见不鲜,00 后创业者都也已经吸引了大量眼球。在此背景下,从 Google 离职并加入国内创业公司奇点机智担任 CTO 的林德康,显得有些“格格不入”。林德康刚刚过完 55 岁生日,再考虑到他的 ACL Fellow 和 Google 搜索问答系统创始人身份,这种对比就会更加强烈。
(一)1985 年 | 清华大学 | 计算机专业
1980 年,林德康开始在清华大学的本科生涯。为什么选择计算机专业?毕竟那还是人人都想当科学家和造原子弹的时代,物理专业应该是最吃香的。林德康低下头说到:“这个是很不好意思的。”稍作停顿之后,他抬起头继续道:“因为我写的汉字实在太难看,”赶紧慌不迭地补充道,“我写的英文也很难看。所以我想找一个离键盘近些的专业。”这句补充让人觉得这位长者十分可爱。这是一种典型的追求实用的精神——绕道而行,“曲线救国”。既然我写字不够好看,那就从事一项不用写字的工作吧。“那时候,其实计算机也比较热门。”
大学生活是有共性的,三十年前流传在大学生中间的一些论调,到现在依旧一届一届地传递着。“我们那时候都觉得,学什么微积分?没什么用。编程的时候都用不着——编程都是离散的。”与现在不同的是,当时林德康在清华学的是《数学分析》,而不是难度略低的《高等数学》;与现在相同的是,最经典的练习册还是俄罗斯的《吉米多维奇数学分析习题集》。
大学生往往都是毕业之后很久,才后悔没有好好学习。只是明白的时候,往往为时已晚。“等到好几十年以后,机器学习火了,数学分析、线性代数都得用上了。”幸好,对于林德康来说,为时不晚——因为他当时学的还不错。
谈起在清华的学习环境,林德康微笑着反问:“你知道什么是纸带吗?”得到肯定的答复之后,林德康继续说到:“我们前一届还用过纸带。我们是头一届不用纸带的。最早上机就像打字机似的,只有一行输入。你就敲 Basic 代码,一回车,这代码就进去了。你就只看得见一行。”逐行敲击的 Basic 代码,是后面诸多事项的开端:开发专业分词工具 MiniPar、向大公司售卖 License、认为自己代码水平相当高、全职加入 Google 才发现自己的编程水平不是最好……
1985 年毕业之后,林德康接受公派,去英国留学。不久,和当时的女朋友——也是现在的太太,同时接到了加拿大阿尔伯塔大学的 offer,异地的两人共赴加拿大。
异地恋为爱奔波的故事,是林德康三十多年前就已经上演过的“壮举”。时隔三十年,为爱奔波的故事依旧在中国留学生中上演着。同样的年轻人,同样的 too young too simple。
之后的故事平凡而真实:完成博士学业、结婚生子、副教授、教授……
直到 2004 年。变故来了。
(二)正教授 | 微软 | Google
打开林德康的领英页面,你会发现,他在 2004 年成为加拿大排名前五的阿尔伯塔大学的正教授,在同一年开始了长达 12 年的 Google 工作生涯,同时他的大学教授职位得以保留到 2008 年——在 Google 全职工作的前四年(2004 年 -2008 年)一直保留。
这是为什么呢?
林德康对于这个问题略感意外,“人生比较偶然嘛。我那个时候升了正教授,学校给了学术假”。按照当时的规定,享受学术假的教授,有一年时间可以不在学校教课,可以到任何地方去做其他的事情,只要是跟专业和学术有关就行,“当然我不能跑到哪个地方卖鞋,对吧?”唯一的要求是,提前 9 个月向学校申请。这时候,林德康开始寻摸着走出去,去更广的地方看看,做些更加实用的东西。
林德康首先通过邮件联系 Google 研究院负责人、Research Director Peter Norvig。两人已经比较熟悉,对方了解到林德康的情况之后,立即回复邮件表示欢迎。林德康没有多想,立马跟学校打了报告,说是要九个月之后去 Google 研究院休学术假。
由于只是一年时间的学术休假,林德康的女儿和太太都不会跟着去美国——否则一年后再搬回来,“动荡太大了”。
日久生变。之后林德康萌生了找个近一些的公司或城市的想法。林德康所在的埃德蒙顿不能直飞三藩市,但是有到西雅图的直达航班。于是,林德康联系了位于西雅图的微软公司。微软很重视,效率也很高,第二天就给出书面 offer。这让林德康十分意外,也十分欣喜。林德康联系 Peter Norway,表示十分不好意思,自己决定去微软研究院。Peter 十分意外,他执意挽留林德康,并诚恳地表示:“别这么着急做决定,要不过来看看吧,把家人也带来 Google 看看。”
正如林德康开头说到的,“偶然”。这一次看看,竟然演变为面试,并成为林德康 12 年 Google 之旅的开始。
到访 Google 当天,林德康和研究院的多位工作人员做了交流,参观了研究院的不同地方,他感到由衷的喜欢。一个上午都在欢乐祥和的气氛中度过。午饭前,Peter 找到林德康,问他有没有兴趣全职加入 Google,以学术假的名义加入 Google 研究院毕竟不是长久之计,相当于“临时工”或实习生。聊到这里,林德康笑着说:“Geoffrey Hinton 头一次去 Google 的时候,实际上拿的也是实习生的牌子。” Geoffrey Hinton 是深度学习的基础——反向传播算法和对比散度算法的发明人之一,被誉为深度学习之父。
当时的情形是,如果以学术假的形式加入 Google 研究院,只需要 Peter Norway 本人同意即可;如果是全职加入 Google ,一定要走面试流程,不是某个人——包括 Google 创始人,说了算的。一上午的时间虽然短暂,但是林德康“已经挺喜欢这个公司,喜欢我看到的人和他们做的事情,然后我就说好”。
午饭过后,林德康得到通知,直接开始面试流程。“那天在 Google 大概从早上 9 点一直待到下午五六点钟。本来我就是去看一下,中间变成面试了,然后就决定去了。”此后,“学校对我还挺好的,给我把教授职位保留四年。一般保留两年已经很不容易,我对学校挺感激的。”
林德康差不多所有的研究生都在 Google 实习过。教授出身的林德康在栽培新人方面轻车熟路,在分享助人方面知无不言。2017 年 7 月,百度宣布全资收购人工智能公司 Kitt.AI。Kitt.AI 创始人姚旭晨于 2013 年夏天在 Google 实习,林德康是其实习期间的导师。姚旭晨在约翰•霍普金斯大学的博士毕业论文中写道:“关于如何解决问题、如何在学术与工业界之间寻找平衡点,林德康重塑了我的观念。他将对我未来的的工作产生长远的影响,一如他的研究工作对整个社区的巨大作用。”
(三)ACL Fellow | Google 搜索问答系统
国内关于林德康的报道,无一不提到 ACL fellow 的身份。华人得此奖项者屈指可数。而这个成果去要追溯到十几年前。
林德康的博士专业方向是 abductive reasoning,中文译为反绎推理。推理分为不同的类型,有演绎推理,由 A 可以推导出 B,那么你知道 A,就可以推导 B;有归纳推理,你同时看见 A 和 B,你推断 A 可以推导出 B;有反绎推理,由 A 可以推导出 B,你看见 B ,要找个最合理的解释。“比如说你看见朋友收拾行李,叫了去机场的车,你就猜他要坐飞机,对吧?这是最合理的解释,但不一定是必然的,也可能是机场附近有个洗衣房之类的。”
反绎推理可以用在不同的方面。之后,追求实用主义的林德康选择了深攻语言方面的应用。很实际的原因是,语言的数据到处都是,比如网上就有各种各样的真实数据。
ACL 官网对于林德康的颁奖词是“对自然语言解析和词汇语义做出重要贡献。”。这两项内容都是林德康过去在学校做教授时完成的。语法分析是把语言学理论真正实现成能够执行的语法分析器。1996 年,林德康完成了语法分析器软件 MiniPar,并将其放到网上,一时引起震动,多人争相下载研究和使用。林德康还曾向一些公司出售过软件的 License。而词汇语义是林德康和博士生一起做的。之前,大部分的词汇语义研究都是针对单个词,林德康等人将其扩展到一个词组,实现了自动查找近义词的语义。完成之后,林德康等人同样将成果放到网上,一直有很多人在用。
林德康于 2013 年获得 ACL Fellow 荣誉。倒退九年,刚刚加入 Google 的林德康,也遇到过不小的考验。
Google 内部牛人汇聚,只招聘最优秀的人也成为 Google 的一种理念。一度认为自己很牛、挺能写程序的林德康,在加入 Google 研究院之后,不得不承认,“才发现自己不是那么牛,这里牛人太多了”。
在学校的时候,因为想做实际的事情,林德康选择自然语言处理方向。加入 Google 之后,林德康做的事情也越来越实际,包括日后成为他成名作之一的自动问答系统。Google 搜索问答系统创始人,这是国内媒体报道林德康时,和 ACL Fellow 并列的身份。
(四)离职回国 | 创业公司 | 奇点机智
近年来,国内互联网巨头在人工智能领域频频出现大手笔,各路大牛都被挖回国来。人们自然会有疑问,林德康为什么没有选择 BAT 这样的巨头?或者去清华做教授也行啊?为什么要去一家名不见经传的初创企业奇点机智?为什么要做语音助手这个方向?
在 Google 的 12 年里,追求实用主义的林德康已经在享受工业界的乐趣。在这个乐趣消失殆尽之前,他是不会返回学术界了。他不要做研究,不要做形而上的东西,他要做的是实实在在的产品,直接给人用,而且是给千万人用的产品。此为其一。
“我对做语音助手这件事情特别有激情。人机交互肯定是往人的方向发展,跟人越来越接近,越来越像人,越来越方便。跟人交互最重要的是语言,现在语音识别已经到了差不多能解决或者说已经解决了问题的阶段。下一步就该我们做自然语言的人把真正对用户有用的产品做出来了。”历史时机已经到来,就等英雄人物上场了。此为其二。
奇点机智的创始人邬霄云有 8 年的谷歌工作经历,他和林德康是老相识。二人之前在美国就曾经深聊过有关语音助手的事情。所以,林德康加入奇点机智,并不意外。奇点机智在 2016 年完成了襄禾资本投资 A 轮融资,目前已经将业务聚焦在语音助手“小不点”和开放平台两个方面。
所有的转折和抉择都会面临未知的困难。当被问到有没有哪些是当初没有预料到的困难时,林德康淡然的回答:“你实际上都不知道将来会有什么东西。你能知道的困难,其实多多少少已经不是太困难了。” 他当初想要的就是未知很多的新环境。这是一个挑战,这也是生活的一部分。“这个挑战本身也是好事。”
谈到创业,林德康也不得不感叹,一个人当多个人用,目前确实还不太习惯。而这应该只是诸多不适应中的一个方面。腾讯视频网站上有林德康在 2016 年 8 月的演讲视频,内容是关于奇点机智的语音助手“小不点”,视频中的林德康有明显的磕巴,对全程的汉语演讲还不够熟悉。2017 年 9 月底,面对采访的林德康已经比视频中说话流利得多。在网上搜索林德康你会发现,回国之前,林德康基本只在纯学术会议中露面;而回国之后,他不得不频繁接受采访和曝光。初创企业在一定程度上要借助创始人团队的个人光环,这可能也是林德康不得不面对的转变之一。
而聊起奇点机智的 VGUI ,林德康更是来了精神。Graphical User Interface 即图形用户接口(也称为图形用户界面),是目前电脑和手机屏幕等都在采用的以图形化界面进行交互的操作方式,简称 GUI。与之类似的,用声音(Voice)代替图形(Graphical),让声音成为交互方式,这就是 VUI。二者结合,以声音控制图形界面的操作,VUI + GUI = VGUI,这就是奇点机智在做的事情。林德康坚信语音交互是未来,是刚需。被问到如何看待直接跳过语音交互而进入脑电波交互或者眼神交互阶段时,林德康表示:“脑电波交互是另一回事。我觉得眼神交互的带宽还是不满足要求,我们对眼睛的控制不够精准,眼神操作屏幕的主要难度在于不好控制精度,能够区分的东西就比较少。如果谁能用眼睛表达一百种东西,那我就非常佩服了。但是一百种东西对于日常使用完全不够。我们日常所有的词汇量和单词组合至少是 10 万。语言的表达带宽比手势和眼神要多得多。眼神作为辅助交流是管用的,但是作为主要工具,我觉得还是挺有限的。霍金博士的眼神操作就很慢,他写好一本书,咱们读他的书,感觉挺好的。平时如果真那样交流,大家会挺着急的。”
和其他的语音助手不一样,奇点机智采用的是全新的方案:基于 Google 为残障人士推出的 Accessibility 功能,采用模拟点击的方式,完全模拟人的操作,而避开调用 API 接口和复杂的商业谈判,简单地实现各个 APP 的深度介入和高度可定制化。目前,奇点机智的语音助手“小不点”已经上线。“小不点”的应用极其简单,打开 APP,直接说出想要的操作,比如“我的微信二维码”“北京到上海的机票”“摩拜扫一扫”,即可自动完成相应操作,并且可以通过屏幕录制的方式,“教”小不点新的动作。
小不点能够解决用户几大痛点,一个是 APP 太多,要滑屏很多次才能找到想要的 APP,甚至根本找不到想要的 APP 在屏幕的什么位置。这时候,可以点击小不点,直接语音开启 APP;二是提高效率,比如搜索北京到上海的机票,需要打开 APP –点击搜索 - 输入起点 - 输入终点 - 点击搜索,然后才能在结果列表中选择,用小不点只需要一句口令即可,“携程搜索北京到上海的机票”;三是对不熟悉手机操作和容易忘记操作的人群,用一句话代替复杂的点击操作。
“小不点”完全基于语音,如何覆盖更广的人群、快速拓展不讲普通话的人群,也成为了奇点机智团队当前的工作重点之一。
小不点是一款 to C 产品,为什么没有建立任何账户体系?因为小不点的功能动作是用户共享的,不同手机实现的软件操作是相同的,目前没有用户个性化的动作。林德康表示,现在更重要的任务是打磨产品,认定语音交互的未来,就先把重要的事情做好。
##(五)马拉松 | 用户习惯 |
AI 公司创始人的技术背景会比较强,拿着 PHD 学位的也更多;同时,AI 公司的技术人才年龄整体偏高。同样是风口行业,却跟直播平台的混战和 VR/AR 厂商的厮杀不太一样,AI 是个有技术门槛的行业,在这个行业里,人才的作用更加凸显,不是资本堆积能够短时间弥补的。
这么来看,林德康和奇点机智是有很大优势的。
不过, 60 岁的人如何跟 30 岁的人拼?提出这个问题的人和听到这个问题的人,第一反应都会是身体素质的拼。而这正是林德康的强项。久居国外的林德康擅长骑行、长跑等耐力型运动,回国后专门购买了跑步机放在家中,平均每天有一个小时的运动量,说完后赶紧补充一句,“可能也没有那么拼”——跟提到汉字写的不好的情节如出一辙。这一方面是谦虚谨慎,另一方面也是学术人才的严谨作风。林德康最快的马拉松成绩是 4 小时 0 分 0 秒,“其实给我发短信通知成绩的时候还是 3 小时 59 分 59 秒,到证书发下来是 4 小时 0 分 0 秒。”说完还不忘加个佐证“我的号码是 C0001”。马拉松选手号码按照历史成绩分组和排序,C 组成员的全马成绩是 4 小时到 4.5 小时,林德康是 C 组历史成绩最好的 4 小时整。
采访结束时,我说加个微信吧,然后掏出手机,指纹解锁—点开首屏的微信—点击微信底部菜单“我”—点击自己头像—点击二维码名片,然后把显示着自己微信二维码的手机向前递过去。
林德康则掏出手机解锁屏幕,点击首屏的小不点,说了一句“微信扫一扫”,直接打开微信扫码功能,方便地添加了我的微信。
我已经把玩了一整天小不点,却还是习惯性地一次次点击屏幕。如何让普通用户第一时间想到语音交互、想到小不点,这条路可能十分漫长。不过,就像林德康老师表现的那样,这种功能一旦用起来,人们估计就“根本停不下来”了。
此文首发于公众号AI 前线。