清北顶会学霸：“表情”与“认知”引发的科学思辨

清北顶会学霸：“表情”与“认知”引发的科学思辨 | 清华AI Time PHD

阅读量：4227 次

发布时间：2019-05-26

本文共 2965 字，大约阅读时间需要 9 分钟。

640?wx_fmt=png

来源：AI TIME 论道‍

本文约2100字，建议阅读5分钟。

北京大学博士生陈震鹏和清华大学博士生丁铭两位年轻的学霸，分享他们的人工智能科研道路上的思考与成果。

伯格森言：“思辨是奢侈品。”

能够在飘着轻快音乐的小酒馆，抛却身份地位，纯粹地聊聊科学，哪怕互相争论得面红耳赤，只要思维的火花能触及科学本质的一毫厘，便是人生中极其奢侈的一桩美事。

2019年11月11日的首期AI Time PHD，我们邀请了北京大学博士生

陈震鹏和清华大学博士生

丁铭两位年轻的学霸，分享他们的人工智能科研道路上的思考与成果。陈震鹏同学是北大2019年度唯一一位“微软学者”，其以第一作者身份发表的科研论文获得了2019年国际万维网大会（WWW 2019）的最佳论文奖。清华大学的丁铭同学亦先后在ACL、CIKM、IJCAI、EMNLP等会议上发表多篇论文。

清华大学计算机系

唐杰教授作为本次特邀的神秘嘉宾，更加活跃了现场的氛围。

640?wx_fmt=png

《Emoji赋能的用户理解》

陈震鹏学霸的思维世界里，离不开承载着喜怒哀乐的“表情”。

用户情感分析，能够有效地从文本中发掘用户的情感偏好，在定制化内容推送、在线广告、客户评论跟踪及后续产品和服务改进等实际应用中发挥重要作用。

遗憾的是，现有的情感分析相关研究主要围绕英文文本展开，其他语种的效果远远落后。然而互联网用户中非英语用户却近占比四分之三，这就造成大量人群无法平等地享受基于文本的情感分析技术所使能的高质量服务。

面对非英语语种情感分析落后的问题，很多人将目光投向了机器翻译——如果将目标文本直接翻译成英语，然后利用英语语料训练的情感分类器做预测，不就解决问题了吗？

的确，机器翻译能够跨越语言障碍，将从英语中学习到的情感信息迁移到其他语种中。但由于不同语言的文化差异，只能捕捉普遍的情感知识(general sentiment knowledge)，不能保留语种特定的情感信息(language-specific sentiment knowledge)。比如“湯水のように使う”在日语中形容浪费，是负面表达，翻译成英语是“use it like hot water”，丢失了原来的情感信息。

为了构建跨越语言障碍的桥梁，陈震鹏学霸的课题组引入了生活中无处不在的“流行语”——emoji（绘文字）。由于使用Unicode统一编码并且全球通用，emoji能够承载普遍的情感信息，同时也能体现国别间的特定差异。有了这些可爱又丰富的表情符号，不同语种便可以轻易地连接起来！

具体而言，他们设计了ELSA模型（Emoji-powered representation learning for cross-Lingual Sentiment Analysis）。

首先，为源语言和目标语言构建句子表征模型。对于每种语言，使用大量的tweet语料以无监督的方式学习word embeddings，建立预测emoji的任务得到表征模型，蕴含各自语种的情感信息。然后，通过Google translate将英语的标记文档逐句翻译成目标语言，获取共同的情感信息。最后，将学习到的情感表征进行整合，以便于跨语言情感分类。

结果表明，ELSA的准确度远优于现有模型，并且加入emoji后模型注意力准确定位在了关键词句上！

由此看来，emoji的确产生了轻松横跨多个语种的神奇功效呢！

啊，问题在哪里

问答环节，唐杰教授就emoji背后的传播和逻辑规律等科学本质问题提出了疑问。Emoji本身缺乏语法规范，但是否也可以作为传递信息甚至解密加密文档的工具？陈震鹏亦认为emoji或许能辅助文盲和隐私从业者的线上交流。

有些观众则对一些反常的emoji使用情况举例提出质疑。陈震鹏解释emoji虽然有时候仅仅是调节或者缓和语气的作用，但大多数情况下被用于表达情感，因此观众提出的这个问题所引入的噪声可以容忍。

《认知与结构化知识》

丁铭学霸的分享，则更新了我们关于人类认知过程、文本和结构化知识的思考。

双重加工理论（Dual process theory）指出，我们的大脑加工信息的方式有两种：自动加工和控制加工。

自动加工是一种隐式、无意识、直觉性的过程，称为System 1；

控制加工则是显式、有意识、可控的过程，称为System 2。System 2在工作记忆（working memory）中进行顺序性的逻辑推理，能够更深入地挖掘相关信息，是人类特有的思维能力。

基于人类这种双重加工理论的迭代式认知框架，丁铭同学搭建了认知图谱问答框架（Cognitive Graph QA，简称CogQA)，来实现多跳的阅读理解。

该框架分为System1和System2两个部分，System 1利用BERT从段落中抽取与问题相关的实体，构建成类似于工作记忆的认知图谱。System 2使用图神经网络（GNN）对图谱执行推理过程（计算隐表示），并收集有用的线索以指导System 1抽取下一跳实体。

实验结果是：在HotpotQA 数据集上，丁同学的CogQA模型连续蝉联榜首三个月，并且在跳数更多的问题上表现更好！

另外，以前的黑盒模型不允许我们回溯查找出错原因，但现在通过检查认知图我们就能发现问题，极大地提高了模型的可解释性！

比如下面的例子中，CogQA的算法给出答案是“Marijus Adomaitis”，然而标准答案是“Ten Walls”。查看一下认知图，我们会发现Ten Walls只是Adomaitis的艺名!

在介绍自己的研究成果之外，丁铭同学还梳理了知识图谱的发展历程，并论述了文本所蕴含的巨大检索潜力和信息完整度。将知识图谱变成基于文本的图文本库，从文本层面储存知识，是否具有更强的可扩展性呢？针对每个问题建一个认知图，随问题的复杂程度而加深，就能涉及到更多的领域。

互动起来

在问答环节，观众提出可以引入多模态的问答系统。嘉宾丁铭表示赞同，认为可以同时把视频中的文本和图片对齐来进行预训练，从时间维度进行推理过程。

短短两小时的热烈讨论，带来的是思想的碰撞和无穷的回味！

你是否意犹未尽呢？期待我们的下次再见！

参考文献：

Emoji-Powered Representation Learning for Cross-Lingual Sentiment Classification, Zhenpeng Chen*, Sheng Shen*, Ziniu Hu , Xuan Lu, Qiaozhu Mei, Xuanzhe Liu，WWW 2019, Best Paper Award

Cognitive Graph for Multi-Hop Reading Comprehension at Scale，Ming Ding, Chang Zhou, Qibin Chen, Hongxia Yang, and Jie Tang，in Proceedings of the 57th Annual Meeting of the Association of Computational Linguistics (ACL 2019).

编辑：于腾凯

校对：林亦霖

640?wx_fmt=jpeg