VALSE Webinar | 知面而知心-视觉中的情感计算

情感计算的焦点议题编者按:视觉中的情感计算是近年来计算机视觉领域的热点问题,针对其当前阶段的突出痛点、发展趋势、应用难点、研究方向等问题,北京邮电大学邓伟洪、中科院计算所山世光、中国科学技术大学王上飞、中科院计算所曾加贝(按发言顺序整理)展开深度探讨,共话“知

情感计算的焦点议题

编者按:视觉中的情感计算是近年来计算机视觉领域的热点问题,针对其当前阶段的突出痛点、发展趋势、应用难点、研究方向等问题,北京邮电大学邓伟洪、中科院计算所山世光、中国科学技术大学王上飞、中科院计算所曾加贝(按发言顺序整理)展开深度探讨,共话“知面而知心”的若干焦点议题。本文整理自VALSE Webinar 2019第20 期Panel。

VALSE Webinar
VALSE:Vision And Learning SEminar视觉与学习青年学者研讨会,由山世光、潘纲、刘青山、颜水成、李学龙等学者于2011年发起,旨在为全球计算机视觉、模式识别、机器学习、多媒体技术等相关领域的华人青年学者提供一个平等、自由、深度的学术交流舞台。
VALSE Webinar:VALSE定期举办的在线学术报告会,以经济、便捷的在线形式,将众多青年学者的最新工作和学术思想呈现给世界各地的华人青年学者和研究生。迄今已举办200余场次,每场活动吸引了平均超过300人参加,高峰场次超过2000人,逐渐形成了一个独具特色、经济高效、便捷实用的在线学术平台。
VALSE Webinar历次报告的视频观看地址:
http://www.iqiyi.com/u/2289191062
http://valser.org/webinar

议题1

情感计算的当前研究阶段的突出问题有哪些?是否可以通过A(算法)+B(大数据)+C(算力)就可以完全解决?

邓伟洪:表情识别和人脸识别区别还是挺大的。因为身份和表情是人脸传递的两个最基本的信息,人脸识别可能在一些落地应用上已经取得了巨大成功,数据加上算力可以非常好地解决一些以前不可能解决的难题。

山世光:我认为对于很多的情绪来说,收集groundtruth(准确的标注数据)的标签是一大问题。它的标注是蛮困难的,所以我觉得它真的更需要一些弱监督、半监督、无监督的方法,这是一个蛮好的问题。表情识别恐怕不可能完全像人脸识别依赖于大规模的数据,用上百万、千万人的数据去研究。

王上飞:我觉得第一个问题在于数据的收集上。我们今天讲的主要是表情识别,但是用户的表情不代表用户的情绪。比如我们在跟人交往的时候,微笑并不说明你一定喜欢这个人,它可能只是一种社会性的交互而已。

曾加贝:表情识别如果想要通过A+B+C的方式完全解决的话,我认为首要解决的问题,是给一个客观的标注。如果标注不够的话,我们可以在算法上,用一些弱监督或者无监督的方式来做。一旦我们知道怎么采集客观的数据,就可以在数据上有所作为;当我们采到了一些数据,如果再有算力的话,就可以把它完全解决了。

议题2

人脸识别技术已经进入诸多使用领域,情感计算方面(比如表情识别)近两年是否也会有类似的趋势?如果有,在哪些场景可能最先迈入实用?

山世光:我觉得表情识别不会像人脸识别那样全面铺开式地走向应用,它可能会逐渐地渗透到一些实际的应用领域里面去。


邓伟洪:表情识别如果实际应用的话,应该是一种渗透式的。相当于先在简单的表情分类体系(比如特定场景分类体系)中应用,例如笑脸检测,就是否有笑脸,这两类是很明确的。或者是积极还是消极,就分这两类,应该是一种比较客观的标准。如果是疲劳驾驶检测,只要有合适的数据,应该是可以逐步应用的。


王上飞:情感计算(比如表情识别)会在某些领域中应用,但目前来说,它可能不会那么大规模地去普及。有些特定场景已有应用的实例,比如有这样的一个机器,它可以识别笑脸,如果你笑得很好,它可以奖赏你一个冰淇淋。


曾加贝:在应用方面,我赞同其他几位老师的看法,在问题定义得比较简单清楚、对识别率要求不高的地方应用会比较早。

议题3

不同的种族或者不同的年龄段,对于同一情感状态的表达是否存在不同的特点?

山世光:我觉得这个问题更多的是一个心理学研究范畴的问题。首先不同种族、不同年龄段,对人类情感的表达肯定有不同方式的。“个性化”可能也是待研究的一个问题,有些人就是笑不露齿,而有些人就是开怀大笑,那么每个人的基准状态就非常重要。举一个例子,一个人若特别喜欢笑,他的脸就变成了一个笑脸,它的neutral(中立)状态就是笑脸,所以分析他的情绪变化,就用他的中立状态作为一个基准,那么他在表达某一个情绪的时候,他的表情可能就是要和他的中立状态对比,然后找到其中的差异变化,而不是直接拿他的照片去和通用的表情识别模型作比较。


邓伟洪:这应该是心理学领域也争论不休的问题,就是相当于种族效应达到了如何程度,不同种族之间的脸差别有点大。

曾加贝:我补充一个明确的结论,不同种族之间表达表情的方式是不一样的:西方人更倾向用嘴附近的变化表达情感,东方人更倾向用眼睛附近的变化表达情感。

议题4

情感状态与心理健康有紧密的联系,与心理活动、心理分析也有密切联系。目前是否存在明确的关联或计算范式,将情感计算应用于心理健康检测?

邓伟洪:我在这方面没有特别的经验,我也是只看到一些文件里有应用到抑郁症检测的成功案例记录。


山世光:我对这个问题还没有理解得很透彻。基于视觉来做情感计算可能会有几个不同的层次。第一个层次是和生理相关的。第二个层次是和心理相关的,比如是否无聊或者疲劳。第三个层次是和精神状态相关的,比如是否抑郁、焦虑,甚至狂躁。第四个层次是人格特质,比如这个人是非常亲和、攻击性比较强,还是非常尽职尽责等等。人类在观察人时的“察言观色”也会体现在不同的层次上,甚至一些非常有经验的人,通过观察一个人的脸,就会得知这个人是否自闭、是不是有抑郁倾向等。

议题5

目前情感分析往往基于图像或较短的视频序列,是否有必要研究长期的情感状态分析?

曾加贝:视频能捕捉一些时序变化的特点,这是它相对于图像的一个优势所在。但是从模型或者从数据上来说,视频不如图像丰富,这是它的缺点。


山世光:视频的信息量相对图像会更大一些,比如针对刚才我说的个性化基准的问题,如果拿到一个人的表情图像,再加上一个动态的视频序列,理论上来说它的分析效果应该会更好,只是视频数据量大,标注可能会更难。


邓伟洪:虽然我们做的是图像数据库,但是表情绝对是一个基于视频的问题。我们做图像只是因为没有办法采集到这么多表情的视频序列,因为当时受到资源所限和隐私的问题,相比较而言,图片收集方便很多,所以才做图像数据库。如果以后资源、数据方面隐私不受限的话,表情绝对是一个视频的问题。表情是一个动态的过程,特别是微表情,用图片是很难识别出来的。

议题6

情感计算值得探讨的研究方向都有哪些?未来会有哪些新的研究热点?多模态信息(比如文本、表情、语音等)是不是对情感分析帮助比较大?研究的可能性有多大?

山世光:情感计算领域机会还是非常多的,因为真的还很不成熟。多模态其实在很多场景下可能获得更加一致的结果,包括语音、文本、图像和视频,我觉得这是一个值得研究的方向。


邓伟洪:我们可以对比表情识别和人脸识别之间的区别,导出不一样的科研方向。


曾加贝:我觉得情感计算最后不会局限在表观上的表情识别或分析,而更有可能是多学科的研究,去探索情感表达与衡量上的一些更本质的内容,比如说它是如何去衡量一个人的内心究竟是什么样子的,是通过生理指标呢,还是通过一些其他的手段?然后又如何把这些衡量内心的指标,和表面上表观的现象给联系起来?这个才是我们最想做的事。

观众提问

情感计算值得探讨的研究方向都有哪些?未来会有哪些新的研究热点?多模态信息(比如文本、表情、语音等)是不是对情感分析帮助比较大?研究的可能性有多大?

邓伟洪:我们标注量不是很大,只是曾经尝试过做三万多图像的标注,跟公司相比太小了。

编辑:杨茹茵

该文章属于“深度学习大讲堂”原创,如需要转载,请联系 ruyin712。
深度学习大讲堂是由中科视拓运营的高质量原创内容平台,邀请学术界、工业界一线专家撰稿,致力于推送人工智能与深度学习最新技术、产品和活动信息!
评论