您当前的位置:泰斗手机网 > 新闻 > 为了让计算机读懂人类情感,全世界都是蛮拼的

为了让计算机读懂人类情感,全世界都是蛮拼的

时间:2017-09-10 02:23:15  阅读:9027+ 来源:新浪科技 作者:王啸坤

  2012年,西班牙政府面临财政危机,全面加税。一家名为 Teatreneu 的巴塞罗那喜剧俱乐部因此流失了三分之一的夜场观众,无奈之下只得接受麦肯广告的建议,门票免费但按照看时的笑容数收费。即使 80 个笑容封顶,客源还是提高了 35%,收入也提升不少。

  负责识别、计数笑容的设备与技术来自一家叫做 Affectiva 的公司,这家公司上月刚刚完成 1400 万美元 D 轮融资。 在 “情感计算”(Affective Computing) 这条赛道上,他们并不孤单,近几年来全球已经涌现出了几十家创业公司。而随着移动终端普及、计算性能提升,素材库不断丰富,或许这条赛道上还会涌现出更多惊艳的产品与公司。连 Google 的前副总裁、卡耐基梅隆大学计算机科学学院院长 Andrew Moore 都表示,2016年 是机器情绪识别的分水岭。

  本文是情感经济系列文章的第一篇,系统梳理了国内外情绪识别领域的进展。如果你也在从事该领域的研究与创业,欢迎与我交流讨论(:2479422239;邮箱:syq@36kr.com)。

  以下为正文。

  

  6月12日,奥兰多枪击案,50 人死亡,53 人受伤,涉及到控枪、种族、同性恋、反恐等敏感话题。在一个摄像头遍布的世界里,我们存储了大量的影响数据,却未加利用。如果机器能帮我们自动阅读这些监控数据,分析出来对这些敏感问题极为反感甚至愤怒的人群,加以、预警,这样的悲剧是否能避免呢?

  仅从技术的角度考虑,这并非天方夜谭、不可实现。让机器懂得人类情绪,已有多年的研究。而自 1997年MIT 媒体实验室的 Rosalind Picard 教授提出 “情感计算” 一词,帮助计算机识别、理解、表达和适应人的情感,赋予机器更高的、全面的智能,还成就了不少初创公司。

  或许几年之后,当我们回放《Lie to Me》这部美剧时,都要吐槽 “为什么还有博士要做这个,让计算机做不就好了么?”

  喜怒不形于色,是中国人追求的境界之一。但这可能仅仅是一种理想状态。心理学家 Paul Ekman(Lie to me 的主人公原型)的研究已经证明,无论人的性别、年龄、文化背景,都具有六种基本的情感,即愤怒、厌恶、恐惧、快乐、悲伤和惊讶,且都会在每个人了脸上无差别的呈现出来。就像《Lie to Me》里演的那样,如果一个人对你笑的时候只牵动了颧大肌,那么这八成是假笑,因为一个真诚的笑容除了颧大肌以外眼轮匝肌也会被牵动。

  致力于解析这些情绪,Ekman 博士将他们分解成 46 个独立动作,汇编了一套面部动作编码系统,就是举世闻名的 FACS 系统。这也奠定了机器表情识别领域研究和应用的基础。Lie to me 里的故事,总是扣人心弦,但真实的世界里,这种 “读心术” 被广泛应用,从商业到安防、医疗。不同的是,这里没有 Dr。 Cal Lightman,只有一台台高速运转的计算机,和一行行已经被验证过的代码。代码的提供方则是在这个领域有所积累的创业公司。

  让计算机像 Dr。 Cal Lightman 一样,通过表情识别用户的情绪,是最常用的一种实现路径。毕竟人类 90%的信息是通过视觉获得。表情识别领域最知名的两家公司非 Affectiva 和 Emotient 两家公司莫属。前者是由情感计算概念的提出者 Rosalind Picard 教授和她的埃及学生 Ranael Kaliouby 一起创办,已经完成 D 轮融资。后者的团队中则有 Paul Ekman 博士本人坐镇,2016年年 初被苹果收购。

  不论是 Affectiva 、Emotient,还是这个领域其他有名的初创公司,诸如 Realeyes 、Eyeris、Nviso 、 Kairos, 都是建立在 Ekman 博士的研究基础之上,实现逻辑基本都是捕捉并识别表情特征,常用的实现方法主要有四种:形变特征提取法(将人脸面部的一些特殊形变信息,如纹理变化或几何形变提取出来)、统计特征提取法(用统计法对人脸表情图像的特点来进行描述)、运动特征提取法(将某些特征区或特征点的运动信息,如特征区的光流变化或特征点的运动距离提取出来)、模型特征提取法(以人脸为基础上,构建二维或三维模型,通过调节模型参数的变化来匹配人脸图像当中的人脸部分确定表情)。

  这一领域的研究自 20 世纪 90年 代就已开始,国外一些著名的研究机构,如麻省理工、卡内基梅隆、ATR 研究所等都异常活跃,但直到最近五六年来才开始逐渐商业化。一是因为人脸数据库的丰富及完善,二是因为市场个性化需求的不断涌现。互联网在其中功不可没,每天有大量的照片上传至网络,提供了可供学习、研究、训练的素材。随着智能手机的普及,拍照效果优质的摄像头更加廉价易得,几乎成了人们的标配。企业对于个性化精准运营的需求,日益强烈。

  相比国外,国内研究起步要晚一些,中科院、清华等院校在 20 世纪 90年 代末开始了相关研究。人脸表情数据库也在逐渐完善和丰富,除了单一表情数据库,也出现了复杂表情数据库。近年来也出现了阅面、Facethink 、海妖等要做情绪识别的创业公司。

  相比于表情,语音是人们表达情感最直接、最有效、最自然的方式,通常包括语义信息(文本)和非语义的的声学信息(语音),在学界、商业领域均有研究与应用,代表性公司 AlchemyAPI(文本)、Beyond Verbal(语音)、EI Technologies(语音)也频频获得资本和大公司青睐。

  声学方面,最早的语音情感研究始于 20 世纪 80年 代,当时已经有学者研究如何使用统计特征法进行情感分类了。90年 代初,MIT 多媒体实验室构建了一个 “情感编辑器”,收集人的语音信号,结合面部表情、生理信号,识别人类情绪。直到进几年来,IEEE 推出专门的期刊,筹办专业竞赛,学界的研究才大幅增加。中文的语音情感研究指导近十年来才开始,比较资深的研究人员主要集中在清华、浙大、东南大学以及中国科学院语言研究所等。

  这一领域的创业公司也要晚于表情识别出现。直到 2012年,全球才出现了第一家这个领域的创业公司——Beyond Verbal 。这家公司于 2013年5月和7月获得两笔投资,2014年9月 再度获得330 万美元融资。目前, 已经有 161 万样本,API 产品可提示 11 个不同情绪组,包括愤怒、孤独感、自制、快乐和兴奋等。这个领域的其他知名公司还包括了英国 EI Technologies、美国 MIT 的 Cogito。

  这些公司语音情感识别的实现路径也是提取特征,这些特征主要包括韵律特征、音质特征(共振峰、频谱能量分布,谐波噪声比等)、谱特征。其中,韵律特征包括基频、语速、发音持续时间等,基本能够体现说话人的大部分情感信息,是最为广泛使用的方法。近年来,也出现了将韵律特征与音质特征结合的识别方法。

  在生理信号情绪识别方面,国内外已经有不少研究。这些信号主要有心电信号ECG、脑电信号EEG、皮肤电信号GSR、呼吸信号RSP、血流量脉冲信号BVP、肌电信号EMG、皮肤温度信号等。近年来,随着可穿戴设备的普及,应用也随之增加。从卖萌的日本 Neocomimi 猫耳朵,到知性的芬兰 “情绪花瓣” Moodmetric 智能手环,从服务企业的 Q Sensor 腕带,到治疗相关疾病的 SHORE 智能眼镜(与 Google Glass 结合),层出不穷。

  不过,对大多数普通人来说,上面这些都还是陌生的术语。事实上,除了少数用于情绪识别的可穿戴设备以外,这个领域的应用,尤其是表情识别应用,大多服务 B 端客户,或帮助商业客户精准了解用户情绪,提升广告投放的效果;或帮助医院客户管理、治愈自闭症;或帮助政府客户进行安全监控。

  情绪识别技术最早被应用于帮助自闭症患者适应社会,所以不少初创公司还有 “情怀” 的一面。Affectiva 就是起源于一个帮助自闭症患者的项目,创业前期创始团队就与前 CEO 因为这一问题发生过争论,最终前 CEO 黯然离场。英国公司Realeyes 不仅热衷于帮助自闭症患者,联手 Google Glass 开发应用,技术团队还表示很希望未来能做出帮助人变快乐的产品。Eyeris等公司,则在研究将情绪识别与自动驾驶技术结合,减少不必要的交通事故。

  “情怀” 之外,这还是一个赚钱的生意。细看 Affectiva 、Emotient、Realeyes 、Nviso 、Kairos、 Sightcorp 、 Imotions等公司的合伙伙伴,已经包括了宝洁联合利华可口可乐等零售大厂。Affectiva 公司更是为 “根据心情推送广告” 申请了专利。情绪影响消费,毋庸置疑。或许在未来,还有哪家 “丧心病狂” 的公司会想法设法识别并影响用户情绪,促进消费吧,就像现在基于情绪识别的自适应游戏和教育应用那样。

  正因为其中巨大的潜力,大公司对情绪识别日益看中。Facebook 早在 2012年 开始就在进行对用户的情绪试验。微软在去年底推出了牛津计划,帮助用户识别照片中的情绪,近期还在新加坡展示了名为 “Magic Mirror”(魔镜) 的产品,“看心情” 推送新闻。IBM 不仅收购了 AlchemyAPI, 还与软银合作赋予 Pepper 机器人 Waston 的能力。在 AI 上进展稍慢的苹果也收购了 Emotient

  这也决定了行业中大多数创业公司的商业轨迹——提升技术、做现金流、被收购。这个领域的创业公司少有拿到大额融资的,即使最知名的 Affectiva D 轮融资也只拿到了 1400 万美元,Emotient 也是因为一直没有能够以合理的价格获得 C 轮融资,才决定接受苹果收购的。 这是因为作为技术提供商,这些公司只要拥有了客户,就差不多能拥有现金流,所以这个领域过 C 轮的公司寥寥无几,大部分公司基本都只融了很少的钱。此外,作为一项敏感技术的提供商,如果主动用来积累用户数据,必须也会遭受道德的质疑,几乎没有做成大平台的可能。 CBInsight 的数据也基本证明了这一点,过去三年,超过 20 家研 AI 公司被行业巨头收购,买房包括 Google、Amazon、Apple、IBM、Yahoo、Facebook、Intel、Salesforce 等,而收购还在加速,仅在 2016年 第一季度就有四次收购。

  相比于国外,国内这个领域的创业都还是处于起步阶段。比如海妖在 2015年 发布了情绪识别的 API,阅面推出了国内第一款情感认知引擎 ReadFace,另一家创业公司 Facethink 也刚刚完成新一轮融资。但起步较晚,不仅要面临国外公司产品的竞争,还要面对诸如微软这些大玩家,或许这些公司还要更好地找到市场痛点,推出更优质的解决方案、服务甚至应用。

 (加入新浪创业社群,直通新浪创业专属活动,对接一线投资机构。号sinavc)