第31卷第3期 中文信息学报 JOURNAI OF CHINESE INFORMATION PROCESSING Vo1.31,No.3 May.,2017 201 7年5月 文章编号:1003—0077(2017)03—0198—07 新浪微博谣言检测研究 祖坤琳,赵铭伟,郭凯,林鸿飞 (大连理工大学计算机科学与技术学院,辽宁大连116024) 摘 要:社会网络信息的可信度问题近年来受到了相当大的关注。谣言的散播可能造成社会恐慌,引发信任危机。 在国内,新浪微博用户量的快速增长,使其成为了谣言传播的温床。及时清理在新浪微博中传播的谣言,对于社会 的和谐发展有着现实的意义。该文以新浪微博为背景,将谣言检测任务作为分类问题,首次提出将微博评论的情 感倾向作为谣言检测分类器的一项特征。实验结果表明,引入评论的评论情感倾向特征后,使得谣言检测的分类 结果得到了可观的提升。 关键词:新浪微博;谣言检测;SVM;情感计算 中图分类号:TP391 文献标识码:A Research on The Detection of Rumor on Sina Weibo ZU Kunlin,ZHAO Mingwei,GU0 Kai,LIN Hongfei (School of Computer Science and Technology,Dalian University of Technology,Dalian,Liaoning 1 1 6024,China) Abstract:The problem of reliability of social network information has received considerable attention in recent years. Malicious rumors may cause social panic,even triggering a crisis of confidence.In China,the rapid growth of Sina We.ho user quantity paves the way for the spread of rumors.It has significant practical meaning for the harmonious society to clean up rumors in Sina Weibo in time.Here we consider the rumor detection task as a classification prob— lem and propose a method by using the emotional tendencies of micro blog comments as a feature.The experimental results show that the comments emotion brings a considerable improvement. Key words:Sina Weibo;rumor detection;SVM;affective computing 引发信任危机,这对国家的发展尤为不利。然而随 l 引言 随着Web2.0标志之一的在线社交网络的迅速 着微博数量的爆炸式增长,单纯依靠人工识别与过 滤已不现实,社交网络上谣言的自动识别研究逐渐 受到关注。 风行,例如,Facebook、Twitter、人人网、新浪微博、 一谣言检测是微博信息的可信度研究的内容之 l1j。微信等,以微博为代表的新兴社交媒体形式以其信 息的交互性、即时性、多元性,以及传播的惊人速度 与广度,引发了一场媒体革命,深刻地影响着人们生 活、社会乃至政治经济的方方面面。同时,社交网络 中充斥的垃圾信息特别是谣言信息成为日益突出的 问题。《韦伯斯特英文大字典》认为,谣言是一种缺 乏真实根据,或未经证实,公众一时难以辨别真伪的 微博谣言检测的研究首先是在Twitter上开 始的。2010年,Ratkiewiez等人[2]设计了“Truthy” 系统,在线收集、分析热门话题的传播,并利用如话 题标签“#”、短链、表情等特征识别Twitter上的政 治性信息的滥用行为。2011年,Qazvinian等人_3J 通过分析Twitter信息的浅层文本内容特征、网络 特征和微博主题特征,构建多个贝叶斯分类器和集 成分类器,以识别微博谣言。 闲话、传闻或舆论。恶意的谣言可能严重侵犯当事 人合法权利,造成社会恐慌,煽动群体性事件,甚至 收稿日期:2Ol5 O6 lO定稿日期:2015-10—23 基金项目:国家自然科学基金(61632011,61572102,61562080) 新浪微博于2010年l1月启动了微博辟谣工 作,针对微博中恶意、有害的不实信息及时进行查证 3期 祖坤琳等:新浪微博谣言检测研究 199 和辟谣。从信息传播的特点和微博用户的心理分析 发现,离奇、耸人听闻的信息更容易传播,这类信息 多半是不实的,或者细节失实,是微博辟谣团队监控 的重点[4]。但新浪微博当前的谣言检测机制主要是 依靠人力。而之前在Twitter上的微博谣言检测研 究虽然有一定的借鉴意义,但新浪微博和Twitter 存在着很大的不同,目前针对于新浪微博的谣言自 动识别方法还比较少,但也已经有一些研究成果。 2012年,Yang等人l_5 首次在新浪微博中进行谣言 检测研究,他们利用新浪微博的官方辟谣账户“@微 博辟谣”所发布的辟谣消息收集谣言样本,避开了人 工标注带来的主观偏差,论文在先前已有的基于内 容、基于注册信息和基于传播信息的基础上引入微 博发布的客户端类型和事件地理位置两个新特征, 明显提升了检测效果。2O13年Sun等人l6 关注新 浪微博和社会事件有关的谣言检测,将事件谣言分 为四类,并针对文本一图片不符型的现象,提出了通 过借助百度图片搜索印证的方法来识别盗用别处图 片进而伪装谣言的思路。 当前微博谣言的自动识别研究仍在起步阶段, 大部分研究都将这一问题作为分类任务来处理,并 取得了一定的成果,在确定分类器之后,工作的重点 在于寻找有力的特征l_5。]。公众相信并传递谣言很 大程度上受情绪因素的驱动,谣言相对于真实事件 而言,一般都更加耸人听闻,容易激发出公众的愤 怒、恐惧、忧虑等情绪,达到迅速扩散的效果,从而引 发带有强烈情绪的、明显情感倾向的评论。谣言微 博下也会存在质疑和批驳谣言的评论,这使得谣言 的情感倾向更为明显。一个著名的事例是2008年 韩国影星崔真实因不堪网上铺天盖地的关于她“放 高利贷逼死另一名艺人”的谣言而自杀。此外,近年 来在各地社会敏感性事件中,总是伴随出现各种直 指公权力的谣言,从中煽动群体愤怒,对整个事态的 扩大起着关键的发酵剂和推波助澜的作用,对社会 法治造成破坏。因此,本文提出将微博评论的情感 倾向作为分类器一项特征,检测在新浪微博上传播 的谣言。实验结果表明,加入评论的情感倾向使得 分类效果得到了可观的提升。 2 相关工作 2.1谣言检测特征选择 将谣言检测任务作为分类任务解决之后,重要 的步骤是特征选择。Qazvinianl3 使用了3组特征, 分别是浅层文本特征、网络特征、特定主题特征。 Castill0l7 使用了四种类型的特征,分别是基于消息 的特征,考虑博客的内容;基于用户的特征,考虑用 户的注册时长、粉丝数、好友数、发布微博数等;基于 主题的特征,通过消息特征和用户特征计算得来;基 于传播的特征,即利用微博的辕发信息构建的传播 树的属性。Yangl5 在内容、注册信息和传播信息特 征的基础上,引入微博发布的客户端类型和事件地 理位置两个新特征,明显提升了检测效果。 目前的研究中,特征的选择集中在显而易见的 微博客观属性上,比如微博转发数、用户粉丝数等。 但值得关注的是,造谣者在炮制谣言时都是刻意为 之,加之谣言在公共参与讨论中必然招致的质疑、批 驳,使得谣言微博的评论总体上比普通微博更倾向 于负面情感。本文首次提出将微博的评论情感倾向 作为一个特征,最终提高了分类效果。下文将分析 如何从评论中挖掘大众对该微博的情感倾向。 2.2情感倾向分析 作为情感计算的一个重要的研究方向,情感倾 向性分析通常被视为一个文本分类问题。它通常把 主观表述性的文本的情感倾向分成正面、负面或中 性三类。 情感词是指带有情感倾向性的词语,比如表示 喜的高兴、欢喜等。作为组成文本的“原子”,情感词 的识别和情感倾向判断是所有更高层次情感倾向分 析的基础,因此这一层次的研究最早受到人们的重 视。情感词的判别研究方法主要可以分为基于在大 规模语料上的统计学习和基于外部情感词典资源的 方法两类。基于大规模语料的统计学习方法是观察 大规模语料上的统计特性,发现一些模式来挖掘情 感词的情感倾向性。Yuen等人l_8 利用Turney[9]的 点互信息,用小规模的语料库来判别词语的情感极 性。Riloff等人l】。。利用启发式方法解决名词性情感 词挖掘中的词性限制。关于基于外部情感词典资源 的方法,英文情感词典的构建主要是基于WordNet 的补充,而中文情感词典有基于知网HowNet_1u及 大连理工大学信息检索实验室发布的情感词汇本体 等。Turney等人_9 对WordNet中的形容词采用点 对互信息分别估计与正面参考词“excellent”、负面 参考词“poor”之间的关联程度,并比较计算出情感 倾向。乔春庚等人口。 提出了从一些种子情感词出 发,根据词语之间的共现信息,扩展已有的情感词 200 中文信息学报 词库。 语句的情感倾向性分类比词语倾向性分类粒度 要粗,语句的情感分类主要任务是对语句的主客观 性的区分、主观句的褒贬性分类判断、语句中情感倾 向的细粒度提取等。Wiebe等人_1 将形容词作为 判别句子的主客观性的主要依据。Yu等人_l 面向 自动问答系统首先抽取观点句,然后再对抽取的观 点句进行情感分类,判断其极性。叶强等人_】 通过 使用卡方特征选择方法来提取中文主特征,这种方 法改进了N—POS语言模型,建立中文主观情感词类 组合模式,该模型能自动地判断中文语句的主观性 程度。 考虑到微博环境下语言自由化的特性,大量新 鲜网络词汇、新用法层出不穷,本文采用监督学习分 类方法进行情感倾向分析。 2.2分类效果评价指标 评价分类器性能的指标一般是分类准确率,其 定义是:对于给定的测试数据集,分类器正确分类 的样本数与总样本数之比,也就是损失函数是0—1 损失时测试数据集上的准确率。对于二分类问题常 用的评价指标是准确率P和召回率R,见式(1)、式 (2),而准确率和召回率的调和均值F1广泛用作评 价分类性能的综合指标,见式(3)。其中,TP表示 将正类预测为正类数;TN表示将正类预测为负类 数;FP表示将负类预测为正类数;FN表示将负类 预测为负类数。本文采用P、R、F1作为衡量 指标。 P一 R一 211一 十 一可>F1一丽 (3) 3 算法设计 本文首先对获取的评论进行预处理,去除和微 博内容本身无关的评论,这里使用logistic模型作 为过滤器。然后获取每条微博的整体评论情感倾 向,通过标注部分评论作为训练集,使用SVM模型 判别训练集之外的其他评论的情感倾向。最后融合 评论的情感倾向及其他特征,使用SVM模型检测 微博中的谣言。其流程如图1所示。 评 垃 论 微 圾 情 博 评 ———论 ———]/ 倾 ———— / 言 感 ———— 谣 过 向 检 滤 挖 测 掘 图1新浪微博谣言检测流程 3.1垃圾评论过滤 在博客垃圾评论识别方面,刁宇峰等提出了基 于LDA模型的博客垃圾评论发现l1引。微博的评 论,特别是热门微博,也容易参杂许多噪声数据,例 如广告评论、超链接评论、与微博内容无关的评论 等。这些垃圾评论会对实验结果产生较大的干扰。 因此,在挖掘评论的总体情感倾向之前,先要对垃圾 评论过滤。 目前常见且效果显著的垃圾过滤方法是把该问 题视为二值分类问题进行处理,本文将运用分类方 法进行垃圾评论的过滤。文献[16]提出了许多有价 值的微博评论特征,这些特征对于构建一个高准确 率的分类器起到了重要作用。因此,本文引人以下 特征作为本数据集的微博评论特征:微博和评论的 相似度、超链接数、评论重复数、评论的被评论数、评 论中的情感词数量。 在确定特征之后,本文选取logistic模型作为 过滤器,过滤器得到的结果为微博评论属于垃圾评 论和非垃圾评论的概率值。 3.2评论情感倾向挖掘 微博的总体评论情感倾向不是现成可得的,需 要先对每条评论的情感极性进行判别。本文将此简 化成一个句子级的三元情感分类任务:即正、负、中 三种极性。2.2节已经提到本文采用有监督的分类 确定评论的总体情感倾向,这里分类器选取SVM。 微博的评论情感倾向获得步骤如下: (1)训练集标注。本文从微博语料集的正例和 负例中分别抽取了500条评论,作为训练集,对评论 的情感进行人工标注。 (2)对所有评论进行分词,本文使用了北京理 工大学张华平博士的NLPIR汉语分词系统①。然 后利用基于TF—IDF值构建每个评论由特征词组成 的权重向量。 3期 祖坤琳等:新浪微博谣言检测研究 201 (3)使用SVM训练器进行训练。本文使用台 湾大学林智仁副教授开发的LIBSVM工具,选用线 性核函数(1inear kerne1)并将参数设置为1。训练 测试采用5倍交叉验证,得到分类的准确率为 67.79%。 (4)将此训练完成的模型对所有评论进行情感 分类,分类后的正向情感评论占评论总数36.4 , 负向情感评论占58.6 ,中性评论占5 .04。 (5)得到所有评论的情感极性后,本文对语料 集中每条微博计算其总体评论正、负情感强度,作为 本文的评论情感特征CommentsSenti,即 CommentsSenti一 (4) 其中, 代表该微博的评论列表中情感极性为 正(负)的评论数,N代表该微博的评论总数。可以 看出该特征值是一个在区间[一1,11中的值,大于0 时,表明该微博所引发的听众总体情感倾向正面,反 之倾向负面。其绝对值越大,表明该微博引发的听 众正(负)面情绪越普遍。 4实验与分析 本文实验语料的正例即谣言来自于新浪微博社 区管理中 的不实举报处理公示上的谣言微博。负 例即非谣言,是在新浪微博上爬取的和正例具有相 同时间跨度的微博,保留字数超过10(保证有一定 陈述)、转发次数超过1 000(保证有一定热度)的原 创微博,又人工从中鉴别检测出26条谣言加入正例 集,剩下非谣言2 295条,构成负例集。最终,整个 语料集包含3 520条微博,其中正例1 225条,负例 2 295条,评论约106万条。 本文获取的语料中包含的特征如表1所示,其 中斜体的是先前研究中用到过的特征。 在引入评论情感特征之前,先对微博语料中现 有的其他属性特征对检测效果的影响进行考察。对 表1中所列特征使用卡方检验()( )进行衡量,选取 表1特征一览表 特征名 描述 基 Created微博发布时间到作者注册间的 After——Reg 间隔 于 消 【 Ls 是否有外链 息 的 Htl¥Pics 是否有图片(音 视频) 特 征 Pos/NegEmotion 内容中正向(负向)情感的表情 数量 续表 特征名 描述 RepostRate 转发频率(转发数/发布到爬取的 基 时间间隔) 传 于 CommentRate 评论频率 播 听众参与度(评论数/(评论数+ 的 Participation 特 转发数)) 征 Fav Rate 被点赞频率(被点赞数/发布到爬 取的时间间隔) Verify—Type 认证类型(一1为未认证) MBRank 会员等级 HasDescription 是否有自述文字 HasHomepage 是否有个人主页 Gender 性别 基 F0ns Rate 粉丝数/注册以来的时间 于 Friends Rate 关注数/注册以来的时间 作 者 声望(粉丝数/(粉丝数+关注 的 Reputation 特 数)) 征 Bi Follow 互粉数 BifollowbyFans 互粉数与粉丝数之比 BifollowbyFriends 互粉数与关注数之比 Post Count 作者已发布的微博数 Activity 活跃度(已发布数/已注册时间) Fav Count 收藏数 最高的前10个特征,如表2所示。利用这1O个 特征分别利用SVM模型进行谣言检测,得到的F1 值如表2所示。但是,随机的SVM模型分类效果 F1—0.537,因此F1低于0.537的三个特征(在表2 中加粗显示)予以丢弃,而且实际中这三个特征的分 类结果中都将所有测试实例分为了负例。所以最终 保留MBRank、Repost Rate、Reputation、Bifollow byFans、Fans—Rate、VerifyType、Participation七 个特征。 在最终保留这七个特征中,Repost Rate、Par— ticipation反映微博传播特性,而另外五个特征都反 映了作者质量,这说明信源可信度和用户反应对谣 言检测的重要意义。此外,在先前研究中验证的 URLs、Has—Pics等特征在实验中的区分度并不高, 2O2 中文信息学报 表2特征选取 下面考察本文提出的评论情感特征,如表4所 Fl O.842 O.571 。值 1 2 特征 MBRank RepostRate 示,CommentsSenti的 和F1都非常高,仅次于 1 791.1 59 7 1 41 4.856 l 表2中的MBRand。 表3P 0.909 未引入评论情感特征的分类结果 R O.9O7 3 1 343.451 8 Reputation 0.667 0.649 Fl o.908 4 0 _ 6 7 8 1 256.758 l 998.875 8 938.O81 5 817.576 784.983 9 BifollowbyFans Fans Rate FriendsRate O.744 表4评论情感特征 0.51 5 。值 Bi Follow F8V Rate 0.515 l 472.647 0.515 特征 commentsSenti F1 0.8O9 9 1O 770.205 8 733.947 2 VerifyType O.735 0.616 图2显示的是语料集中正例和负例在Corn— ments—Participation Senti上的分布,其中深灰色部分代表正例, 浅灰色部分代表负例。图2中可以明显看出,正 说明引用外链和图片等手段现在已经成为谣言和非 谣言都在使用的增强说服力、促进传播的通行做法。 利用前面选定的七个特征得到的谣言检测结果如 表3所示。可以看到目前选择的七个特征已经取得 例集的评论情感倾向都集中在负面,而负例集的 评论情感分布较之正例集更加平衡。这充分印证 了本文的假设,Comments—Senti对谣言有很好的 区分力。 了很好的效果。 330 O.07 图2正例和负例在Comments—Senti上的分布 将Comments—Senti和前文中的七个特征同时 加入到SVM分类器,分类效果见表5。 表5 引入评论情感特征的分类结果 P O.949 容易引起群众情绪反应的特点。本文提出的这一 特征为以后的微博谣言检测研究提供又一点有价 值的参考。 实验过程中对SVM模型的核函数及参数的选 R 0.949 F1 0.949 择也进行了优化。表6是使用线性核、多项式核、 RBF核、sigmoid核四种核函数(默认参数下)训练 的结果对比,可以看出RBF核函数明显更加适合本 文的分类任务。 从表5中可以看到,加入Comments—Senti后 分类器的性能全面得到提升。 实验结果表明,在谣言检测任务中,微博下评 论的情感倾向是一项对谣言有很强区分力的特 征,这是冈为谣言本身具有夸大、造势、煽动性等 确定核函数后,先固定核函数参数y,逐步减小 搜索步长,对误差代价参数cost进行优化选择,如 图3所示,最终确定c0st一5.7。 3期 祖坤琳等:新浪微博谣言检测研究 203 表6 四种核函数的训练结果 P R F1 Linear O.9 0.9 0.9 Polynomia1 O.879 0.858 O.861 RBF 0.939 0.938 0.939 Sigmoid 0.661 0.924 0.661 0.946 0.945 0.944 ./一\ 0.943 厂 、 E 0.942 / 0.941 厂 0.94 / 0.939 / 0.938 O 1 2 3 4 5 6 7 cost 图3参数cost调优 而后用同样方法找出y最优值1.25,如图4 所示。 0.95l O.95 /\0.949 .0.948 / \ 0.947 / \ 0.946 / \ 0.945 / 、 0.944 0 0.5 1 1.5 2 2.5 gamma 图4参数y调优 5 总结 本文提出将微博评论的情感倾向作为分类器一 项特征,检测在新浪微博上传播的谣言。实验结果 表明,加入评论的情感倾向使得分类效果即谣言检 测的结果得到了可观的提升。但是,本文研究还具 有一定的提升空间,首先,本文将评论的情感倾向作 为一项特征,需要谣言具有一定的评论数量,以后的 研究将致力于如何从少量评论中获取群众的情感倾 向,以便能更早更及时的发现新浪微博中的谣言。 再者,本文只使用了SVM作为分类模型,在以后的 工作中可以考虑使用神经网络或者最大熵模型来解 决SVM的适应性问题。 参考文献 [1] 蒋盛益,陈东沂,庞观松,等.微博信息可信度分析 研究综述[J].图书情报工作,2013,57(12):136— 142. [2] Ratkiewicz J,Conover M,Meiss M,et a1.Detecting and tracking the spread of astroturf memes in mierob— log streams[J].arXiv preprint arXiv:1011.3768, 2010. [3] Qazvinian V,Rosengren E,Radev D R,et a1.Rumor has it:identifying misinformation in micr0b1ogs[C]// Proceedings of the Conference on Empirical Methods in Natural Language Processing.Association for Compu— tational Linguistics,2011:1589—1599. [4] 谭超.微博谣言分析及新浪辟谣机制I-J].新闻实践, 2011(9):62-65. E53 Yang F,Liu Y,Yu X,et a1.Automatic detection of rumor on Sina Weibo[c]//Proceedings of the ACM SIGKDD Workshop on Mining Data Semantics.ACM, 2012:13. E6] Sun S,Liu H,He J,et a1.Detecting event rumors on Sina Weibo automatically[c]//Proceedings 0f web Technologies and Applications.Springer Berlin Hei— delberg,2013:12O一131. [7] Castillo C,Mendoza M,Poblete B.Information eredi— bility on twitter[C ̄//Proceedings of the 20th interna— tional conference on World wide web.ACM,2011: 675—684. [8] Yuen R W M,Chan T Y W,Lai T B Y,et a1.Mor— pheme—based derivation of bipolar semantic orientation of Chinese w。rds[c]//Pr0ceedings of the 20th inter— national conference on Computational Linguistics.As— sociation for Computational Linguistics,2004:1008. [9] Turney P D,Littman M L.Measuring praise and criti— eism:inference of semantic orientation from associa— tion[J].ACM Transactions on Information Systems (TOIS),2003,21(4):315-346. [103 Riloff E,Wiebe J.Learning extraction patterns for subjective expressions[c]//Proceedings of the 2003 conference on Empirical Methods in Natural Language Processing.Association for Computational Linguis— tics,2003:105—112. [11] 朱嫣岚,闵锦,周雅倩,等.基于HowNet的词汇语 义倾向计算fJ].中文信息学报,2006,20(1):14— 2O. [12] 乔春庚,孙丽华,吴韶,等.基于模式的中文倾向性 分析研究[c].第一届中文倾向性分析评测研讨会, 2008:21—3l_ 204 中文信息学报 2O17侄 [13]Wiebe J,Wilson T,Bruce R.et a1.I,earning subjec tive language[J].Computational linguistics,2004, 30(3):277—308. Computational Linguistics,2003:l29—1 36. [15] 叶强,张紫琼,罗振雄.面问互联网评论情感分析的 中文主观性自动判别方法研究[J].信息系统学报, 2007(1):79—91. vassiloglou V.Towards answering opin— [14] Yu H,Hatziion questions:Separating facts from opinions and i— [162 宁峰.杨亮,林鸿飞. 于I.DA模型的博客垃圾 dentifying the polarity of opinion sentences[C]//Pro ceedings of the 2003 conference on Empirical Methods in Nat ural Language Processing. Association for 评论发现[J].中文信息学报,2011.25(1):4l-47. [17] 黄铃,李学明.基于AdaBoost的微博垃圾评论识别 方法[J].计算机应用.2O13.33(12):3563—3566. 旦祖坤琳(1 990),硕士。 主要研究领域为文本挖 掘、机器学习。 ut.edu.cn E—mail:zukunlin@matl dl赵铭伟(1972).博士,硕士生导师.主要研究领 域为计算机网络、信息安全。 E—mail:zhaomw@dlut.edu.cn 郭凯(1985),硕士,主要研究领域为数据挖捌、 信息安全。 E—mail:kguo@mail.dlut.edu.cn 代 错牛}倦氍牟{氍 牛}代倦代 & 代 锵* 代代 年亡早}乍圭’譬} 串}牛{代 传牟亡串毒 年亡串鲁早{譬} }{ 性氍雠 串}串} (上接第19O页) [32代六玲,黄河燕,陈肇雄.中文文本分类中特征抽取方 法的比较研究[J].中文信息学报,2004,18(1):26—32. [J].计算机T程与应用,2011,47(13). [4] 姚全珠,宋志理,彭程.基于LDA模型的文本分类研究 嘲 [83 algorithms for the classification re—stricted boltzannma chine[J].The Journal of Machine Learning Research. 2O12,13(1):643—669. Hinton G E.Training products of experts byminimizing [5] Tan S.An effective refinement strategy for K NN text contrastive divergence[J].Neural computation,2002, 14(8):1 771—1800. classifier[J].Expert Systems with Applications。 2006,30(2):290—298. [9] Guthrie D。Allison B,I iu W et a1.A closer 1ook at ee I H,Wan C H,Rajkumar R,et a1.An enhanced [6] Isupport vector machine classification framework by u— skip—gram modelling[C]//Proceedings of the 5th inter— national Conference on Language Resources and Evalu— ation(I REC 2006).2006:1—4. sing Euclidean distance function for text document cat egorization[J].Applied Intelligence,2012,37(1):80— 99. [10] Blei D M,Ng A Y,Jordan M I.I atenl dirichlet allo— cation[J].the Journal of machine I.earning research, 2003,3:993—1022. [7] I arochelle H.Mandel M,Pascanu R。et a1.I earning 孙晓(1980),副教授,主要研究领域为自然语 。高飞(1993),学士,主要研究领域为自然语言 处理与文本分类,机器学爿。 E-mail:GFSX'I、@gmail.corll ’ 处理,情感机器人与人机交互。 E—mail:suntian@gmail.conl 住福继(1959).教授,主要研究领域为信号与 信息处理.情感计算。 E—mail:ren2fuji@gmail.com