新浪微博谣言检测研究

2023-02-20 来源：九壹网

第３１卷第３期　中文信息学报　ＪＯＵＲＮＡＩ　ＯＦ　ＣＨＩＮＥＳＥ　ＩＮＦＯＲＭＡＴＩＯＮ　ＰＲＯＣＥＳＳＩＮＧ　Ｖｏ１．３１，Ｎｏ．３　Ｍａｙ．，２０１７　２０１　７年５月　文章编号：１００３—００７７（２０１７）０３—０１９８—０７　新浪微博谣言检测研究　祖坤琳，赵铭伟，郭凯，林鸿飞　（大连理工大学计算机科学与技术学院，辽宁大连１１６０２４）　摘　要：社会网络信息的可信度问题近年来受到了相当大的关注。谣言的散播可能造成社会恐慌，引发信任危机。　在国内，新浪微博用户量的快速增长，使其成为了谣言传播的温床。及时清理在新浪微博中传播的谣言，对于社会　的和谐发展有着现实的意义。该文以新浪微博为背景，将谣言检测任务作为分类问题，首次提出将微博评论的情　感倾向作为谣言检测分类器的一项特征。实验结果表明，引入评论的评论情感倾向特征后，使得谣言检测的分类　结果得到了可观的提升。　关键词：新浪微博；谣言检测；ＳＶＭ；情感计算　中图分类号：ＴＰ３９１　文献标识码：Ａ　Ｒｅｓｅａｒｃｈ　ｏｎ　Ｔｈｅ　Ｄｅｔｅｃｔｉｏｎ　ｏｆ　Ｒｕｍｏｒ　ｏｎ　Ｓｉｎａ　Ｗｅｉｂｏ　ＺＵ　Ｋｕｎｌｉｎ，ＺＨＡＯ　Ｍｉｎｇｗｅｉ，ＧＵ０　Ｋａｉ，ＬＩＮ　Ｈｏｎｇｆｅｉ　（Ｓｃｈｏｏｌ　ｏｆ　Ｃｏｍｐｕｔｅｒ　Ｓｃｉｅｎｃｅ　ａｎｄ　Ｔｅｃｈｎｏｌｏｇｙ，Ｄａｌｉａｎ　Ｕｎｉｖｅｒｓｉｔｙ　ｏｆ　Ｔｅｃｈｎｏｌｏｇｙ，Ｄａｌｉａｎ，Ｌｉａｏｎｉｎｇ　１　１　６０２４，Ｃｈｉｎａ）　Ａｂｓｔｒａｃｔ：Ｔｈｅ　ｐｒｏｂｌｅｍ　ｏｆ　ｒｅｌｉａｂｉｌｉｔｙ　ｏｆ　ｓｏｃｉａｌ　ｎｅｔｗｏｒｋ　ｉｎｆｏｒｍａｔｉｏｎ　ｈａｓ　ｒｅｃｅｉｖｅｄ　ｃｏｎｓｉｄｅｒａｂｌｅ　ａｔｔｅｎｔｉｏｎ　ｉｎ　ｒｅｃｅｎｔ　ｙｅａｒｓ．　Ｍａｌｉｃｉｏｕｓ　ｒｕｍｏｒｓ　ｍａｙ　ｃａｕｓｅ　ｓｏｃｉａｌ　ｐａｎｉｃ，ｅｖｅｎ　ｔｒｉｇｇｅｒｉｎｇ　ａ　ｃｒｉｓｉｓ　ｏｆ　ｃｏｎｆｉｄｅｎｃｅ．Ｉｎ　Ｃｈｉｎａ，ｔｈｅ　ｒａｐｉｄ　ｇｒｏｗｔｈ　ｏｆ　Ｓｉｎａ　Ｗｅ．ｈｏ　ｕｓｅｒ　ｑｕａｎｔｉｔｙ　ｐａｖｅｓ　ｔｈｅ　ｗａｙ　ｆｏｒ　ｔｈｅ　ｓｐｒｅａｄ　ｏｆ　ｒｕｍｏｒｓ．Ｉｔ　ｈａｓ　ｓｉｇｎｉｆｉｃａｎｔ　ｐｒａｃｔｉｃａｌ　ｍｅａｎｉｎｇ　ｆｏｒ　ｔｈｅ　ｈａｒｍｏｎｉｏｕｓ　ｓｏｃｉｅｔｙ　ｔｏ　ｃｌｅａｎ　ｕｐ　ｒｕｍｏｒｓ　ｉｎ　Ｓｉｎａ　Ｗｅｉｂｏ　ｉｎ　ｔｉｍｅ．Ｈｅｒｅ　ｗｅ　ｃｏｎｓｉｄｅｒ　ｔｈｅ　ｒｕｍｏｒ　ｄｅｔｅｃｔｉｏｎ　ｔａｓｋ　ａｓ　ａ　ｃｌａｓｓｉｆｉｃａｔｉｏｎ　ｐｒｏｂ—　ｌｅｍ　ａｎｄ　ｐｒｏｐｏｓｅ　ａ　ｍｅｔｈｏｄ　ｂｙ　ｕｓｉｎｇ　ｔｈｅ　ｅｍｏｔｉｏｎａｌ　ｔｅｎｄｅｎｃｉｅｓ　ｏｆ　ｍｉｃｒｏ　ｂｌｏｇ　ｃｏｍｍｅｎｔｓ　ａｓ　ａ　ｆｅａｔｕｒｅ．Ｔｈｅ　ｅｘｐｅｒｉｍｅｎｔａｌ　ｒｅｓｕｌｔｓ　ｓｈｏｗ　ｔｈａｔ　ｔｈｅ　ｃｏｍｍｅｎｔｓ　ｅｍｏｔｉｏｎ　ｂｒｉｎｇｓ　ａ　ｃｏｎｓｉｄｅｒａｂｌｅ　ｉｍｐｒｏｖｅｍｅｎｔ．　Ｋｅｙ　ｗｏｒｄｓ：Ｓｉｎａ　Ｗｅｉｂｏ；ｒｕｍｏｒ　ｄｅｔｅｃｔｉｏｎ；ＳＶＭ；ａｆｆｅｃｔｉｖｅ　ｃｏｍｐｕｔｉｎｇ　引发信任危机，这对国家的发展尤为不利。然而随　ｌ　引言　随着Ｗｅｂ２．０标志之一的在线社交网络的迅速　着微博数量的爆炸式增长，单纯依靠人工识别与过　滤已不现实，社交网络上谣言的自动识别研究逐渐　受到关注。　风行，例如，Ｆａｃｅｂｏｏｋ、Ｔｗｉｔｔｅｒ、人人网、新浪微博、　一谣言检测是微博信息的可信度研究的内容之　ｌ１ｊ。微信等，以微博为代表的新兴社交媒体形式以其信　息的交互性、即时性、多元性，以及传播的惊人速度　与广度，引发了一场媒体革命，深刻地影响着人们生　活、社会乃至政治经济的方方面面。同时，社交网络　中充斥的垃圾信息特别是谣言信息成为日益突出的　问题。《韦伯斯特英文大字典》认为，谣言是一种缺　乏真实根据，或未经证实，公众一时难以辨别真伪的　微博谣言检测的研究首先是在Ｔｗｉｔｔｅｒ上开　始的。２０１０年，Ｒａｔｋｉｅｗｉｅｚ等人［２］设计了“Ｔｒｕｔｈｙ”　系统，在线收集、分析热门话题的传播，并利用如话　题标签“＃”、短链、表情等特征识别Ｔｗｉｔｔｅｒ上的政　治性信息的滥用行为。２０１１年，Ｑａｚｖｉｎｉａｎ等人＿３Ｊ　通过分析Ｔｗｉｔｔｅｒ信息的浅层文本内容特征、网络　特征和微博主题特征，构建多个贝叶斯分类器和集　成分类器，以识别微博谣言。　闲话、传闻或舆论。恶意的谣言可能严重侵犯当事　人合法权利，造成社会恐慌，煽动群体性事件，甚至　收稿日期：２Ｏｌ５　Ｏ６　ｌＯ定稿日期：２０１５－１０—２３　基金项目：国家自然科学基金（６１６３２０１１，６１５７２１０２，６１５６２０８０）　新浪微博于２０１０年ｌ１月启动了微博辟谣工　作，针对微博中恶意、有害的不实信息及时进行查证　３期　祖坤琳等：新浪微博谣言检测研究　１９９　和辟谣。从信息传播的特点和微博用户的心理分析　发现，离奇、耸人听闻的信息更容易传播，这类信息　多半是不实的，或者细节失实，是微博辟谣团队监控　的重点［４］。但新浪微博当前的谣言检测机制主要是　依靠人力。而之前在Ｔｗｉｔｔｅｒ上的微博谣言检测研　究虽然有一定的借鉴意义，但新浪微博和Ｔｗｉｔｔｅｒ　存在着很大的不同，目前针对于新浪微博的谣言自　动识别方法还比较少，但也已经有一些研究成果。　２０１２年，Ｙａｎｇ等人ｌ＿５　首次在新浪微博中进行谣言　检测研究，他们利用新浪微博的官方辟谣账户“＠微　博辟谣”所发布的辟谣消息收集谣言样本，避开了人　工标注带来的主观偏差，论文在先前已有的基于内　容、基于注册信息和基于传播信息的基础上引入微　博发布的客户端类型和事件地理位置两个新特征，　明显提升了检测效果。２Ｏ１３年Ｓｕｎ等人ｌ６　关注新　浪微博和社会事件有关的谣言检测，将事件谣言分　为四类，并针对文本一图片不符型的现象，提出了通　过借助百度图片搜索印证的方法来识别盗用别处图　片进而伪装谣言的思路。　当前微博谣言的自动识别研究仍在起步阶段，　大部分研究都将这一问题作为分类任务来处理，并　取得了一定的成果，在确定分类器之后，工作的重点　在于寻找有力的特征ｌ＿５。］。公众相信并传递谣言很　大程度上受情绪因素的驱动，谣言相对于真实事件　而言，一般都更加耸人听闻，容易激发出公众的愤　怒、恐惧、忧虑等情绪，达到迅速扩散的效果，从而引　发带有强烈情绪的、明显情感倾向的评论。谣言微　博下也会存在质疑和批驳谣言的评论，这使得谣言　的情感倾向更为明显。一个著名的事例是２００８年　韩国影星崔真实因不堪网上铺天盖地的关于她“放　高利贷逼死另一名艺人”的谣言而自杀。此外，近年　来在各地社会敏感性事件中，总是伴随出现各种直　指公权力的谣言，从中煽动群体愤怒，对整个事态的　扩大起着关键的发酵剂和推波助澜的作用，对社会　法治造成破坏。因此，本文提出将微博评论的情感　倾向作为分类器一项特征，检测在新浪微博上传播　的谣言。实验结果表明，加入评论的情感倾向使得　分类效果得到了可观的提升。　２　相关工作　２．１谣言检测特征选择　将谣言检测任务作为分类任务解决之后，重要　的步骤是特征选择。Ｑａｚｖｉｎｉａｎｌ３　使用了３组特征，　分别是浅层文本特征、网络特征、特定主题特征。　Ｃａｓｔｉｌｌ０ｌ７　使用了四种类型的特征，分别是基于消息　的特征，考虑博客的内容；基于用户的特征，考虑用　户的注册时长、粉丝数、好友数、发布微博数等；基于　主题的特征，通过消息特征和用户特征计算得来；基　于传播的特征，即利用微博的辕发信息构建的传播　树的属性。Ｙａｎｇｌ５　在内容、注册信息和传播信息特　征的基础上，引入微博发布的客户端类型和事件地　理位置两个新特征，明显提升了检测效果。　目前的研究中，特征的选择集中在显而易见的　微博客观属性上，比如微博转发数、用户粉丝数等。　但值得关注的是，造谣者在炮制谣言时都是刻意为　之，加之谣言在公共参与讨论中必然招致的质疑、批　驳，使得谣言微博的评论总体上比普通微博更倾向　于负面情感。本文首次提出将微博的评论情感倾向　作为一个特征，最终提高了分类效果。下文将分析　如何从评论中挖掘大众对该微博的情感倾向。　２．２情感倾向分析　作为情感计算的一个重要的研究方向，情感倾　向性分析通常被视为一个文本分类问题。它通常把　主观表述性的文本的情感倾向分成正面、负面或中　性三类。　情感词是指带有情感倾向性的词语，比如表示　喜的高兴、欢喜等。作为组成文本的“原子”，情感词　的识别和情感倾向判断是所有更高层次情感倾向分　析的基础，因此这一层次的研究最早受到人们的重　视。情感词的判别研究方法主要可以分为基于在大　规模语料上的统计学习和基于外部情感词典资源的　方法两类。基于大规模语料的统计学习方法是观察　大规模语料上的统计特性，发现一些模式来挖掘情　感词的情感倾向性。Ｙｕｅｎ等人ｌ＿８　利用Ｔｕｒｎｅｙ［９］的　点互信息，用小规模的语料库来判别词语的情感极　性。Ｒｉｌｏｆｆ等人ｌ】。。利用启发式方法解决名词性情感　词挖掘中的词性限制。关于基于外部情感词典资源　的方法，英文情感词典的构建主要是基于ＷｏｒｄＮｅｔ　的补充，而中文情感词典有基于知网ＨｏｗＮｅｔ＿１ｕ及　大连理工大学信息检索实验室发布的情感词汇本体　等。Ｔｕｒｎｅｙ等人＿９　对ＷｏｒｄＮｅｔ中的形容词采用点　对互信息分别估计与正面参考词“ｅｘｃｅｌｌｅｎｔ”、负面　参考词“ｐｏｏｒ”之间的关联程度，并比较计算出情感　倾向。乔春庚等人口。　提出了从一些种子情感词出　发，根据词语之间的共现信息，扩展已有的情感词　２００　中文信息学报　词库。　语句的情感倾向性分类比词语倾向性分类粒度　要粗，语句的情感分类主要任务是对语句的主客观　性的区分、主观句的褒贬性分类判断、语句中情感倾　向的细粒度提取等。Ｗｉｅｂｅ等人＿１　将形容词作为　判别句子的主客观性的主要依据。Ｙｕ等人＿ｌ　面向　自动问答系统首先抽取观点句，然后再对抽取的观　点句进行情感分类，判断其极性。叶强等人＿】　通过　使用卡方特征选择方法来提取中文主特征，这种方　法改进了Ｎ—ＰＯＳ语言模型，建立中文主观情感词类　组合模式，该模型能自动地判断中文语句的主观性　程度。　考虑到微博环境下语言自由化的特性，大量新　鲜网络词汇、新用法层出不穷，本文采用监督学习分　类方法进行情感倾向分析。　２．２分类效果评价指标　评价分类器性能的指标一般是分类准确率，其　定义是：对于给定的测试数据集，分类器正确分类　的样本数与总样本数之比，也就是损失函数是０—１　损失时测试数据集上的准确率。对于二分类问题常　用的评价指标是准确率Ｐ和召回率Ｒ，见式（１）、式　（２），而准确率和召回率的调和均值Ｆ１广泛用作评　价分类性能的综合指标，见式（３）。其中，ＴＰ表示　将正类预测为正类数；ＴＮ表示将正类预测为负类　数；ＦＰ表示将负类预测为正类数；ＦＮ表示将负类　预测为负类数。本文采用Ｐ、Ｒ、Ｆ１作为衡量　指标。　Ｐ一　Ｒ一　２１１一　十　一可＞Ｆ１一丽　（３）　３　算法设计　本文首先对获取的评论进行预处理，去除和微　博内容本身无关的评论，这里使用ｌｏｇｉｓｔｉｃ模型作　为过滤器。然后获取每条微博的整体评论情感倾　向，通过标注部分评论作为训练集，使用ＳＶＭ模型　判别训练集之外的其他评论的情感倾向。最后融合　评论的情感倾向及其他特征，使用ＳＶＭ模型检测　微博中的谣言。其流程如图１所示。　评　垃　论　微　圾　情　博　评　———论　———］／　倾　————　／　言　　感　————　谣　过　向　检　滤　挖　测　掘　图１新浪微博谣言检测流程　３．１垃圾评论过滤　在博客垃圾评论识别方面，刁宇峰等提出了基　于ＬＤＡ模型的博客垃圾评论发现ｌ１引。微博的评　论，特别是热门微博，也容易参杂许多噪声数据，例　如广告评论、超链接评论、与微博内容无关的评论　等。这些垃圾评论会对实验结果产生较大的干扰。　因此，在挖掘评论的总体情感倾向之前，先要对垃圾　评论过滤。　目前常见且效果显著的垃圾过滤方法是把该问　题视为二值分类问题进行处理，本文将运用分类方　法进行垃圾评论的过滤。文献［１６］提出了许多有价　值的微博评论特征，这些特征对于构建一个高准确　率的分类器起到了重要作用。因此，本文引人以下　特征作为本数据集的微博评论特征：微博和评论的　相似度、超链接数、评论重复数、评论的被评论数、评　论中的情感词数量。　在确定特征之后，本文选取ｌｏｇｉｓｔｉｃ模型作为　过滤器，过滤器得到的结果为微博评论属于垃圾评　论和非垃圾评论的概率值。　３．２评论情感倾向挖掘　微博的总体评论情感倾向不是现成可得的，需　要先对每条评论的情感极性进行判别。本文将此简　化成一个句子级的三元情感分类任务：即正、负、中　三种极性。２．２节已经提到本文采用有监督的分类　确定评论的总体情感倾向，这里分类器选取ＳＶＭ。　微博的评论情感倾向获得步骤如下：　（１）训练集标注。本文从微博语料集的正例和　负例中分别抽取了５００条评论，作为训练集，对评论　的情感进行人工标注。　（２）对所有评论进行分词，本文使用了北京理　工大学张华平博士的ＮＬＰＩＲ汉语分词系统①。然　后利用基于ＴＦ—ＩＤＦ值构建每个评论由特征词组成　的权重向量。　３期　祖坤琳等：新浪微博谣言检测研究　２０１　（３）使用ＳＶＭ训练器进行训练。本文使用台　湾大学林智仁副教授开发的ＬＩＢＳＶＭ工具，选用线　性核函数（１ｉｎｅａｒ　ｋｅｒｎｅ１）并将参数设置为１。训练　测试采用５倍交叉验证，得到分类的准确率为　６７．７９％。　（４）将此训练完成的模型对所有评论进行情感　分类，分类后的正向情感评论占评论总数３６．４　，　负向情感评论占５８．６　，中性评论占５　．０４。　（５）得到所有评论的情感极性后，本文对语料　集中每条微博计算其总体评论正、负情感强度，作为　本文的评论情感特征ＣｏｍｍｅｎｔｓＳｅｎｔｉ，即　ＣｏｍｍｅｎｔｓＳｅｎｔｉ一　（４）　其中，　代表该微博的评论列表中情感极性为　正（负）的评论数，Ｎ代表该微博的评论总数。可以　看出该特征值是一个在区间［一１，１１中的值，大于０　时，表明该微博所引发的听众总体情感倾向正面，反　之倾向负面。其绝对值越大，表明该微博引发的听　众正（负）面情绪越普遍。　４实验与分析　本文实验语料的正例即谣言来自于新浪微博社　区管理中　的不实举报处理公示上的谣言微博。负　例即非谣言，是在新浪微博上爬取的和正例具有相　同时间跨度的微博，保留字数超过１０（保证有一定　陈述）、转发次数超过１　０００（保证有一定热度）的原　创微博，又人工从中鉴别检测出２６条谣言加入正例　集，剩下非谣言２　２９５条，构成负例集。最终，整个　语料集包含３　５２０条微博，其中正例１　２２５条，负例　２　２９５条，评论约１０６万条。　本文获取的语料中包含的特征如表１所示，其　中斜体的是先前研究中用到过的特征。　在引入评论情感特征之前，先对微博语料中现　有的其他属性特征对检测效果的影响进行考察。对　表１中所列特征使用卡方检验（）（　）进行衡量，选取　表１特征一览表　特征名　描述　基　Ｃｒｅａｔｅｄ微博发布时间到作者注册间的　Ａｆｔｅｒ——Ｒｅｇ　间隔　于　消　【　Ｌｓ　是否有外链　息　的　Ｈｔｌ￥Ｐｉｃｓ　是否有图片（音　视频）　特　征　Ｐｏｓ／ＮｅｇＥｍｏｔｉｏｎ　内容中正向（负向）情感的表情　数量　续表　特征名　描述　ＲｅｐｏｓｔＲａｔｅ　转发频率（转发数／发布到爬取的　基　时间间隔）　传　于　ＣｏｍｍｅｎｔＲａｔｅ　评论频率　播　听众参与度（评论数／（评论数＋　的　Ｐａｒｔｉｃｉｐａｔｉｏｎ　特　转发数））　征　Ｆａｖ　Ｒａｔｅ　被点赞频率（被点赞数／发布到爬　取的时间间隔）　Ｖｅｒｉｆｙ—Ｔｙｐｅ　认证类型（一１为未认证）　ＭＢＲａｎｋ　会员等级　ＨａｓＤｅｓｃｒｉｐｔｉｏｎ　是否有自述文字　ＨａｓＨｏｍｅｐａｇｅ　是否有个人主页　Ｇｅｎｄｅｒ　性别　基　Ｆ０ｎｓ　Ｒａｔｅ　粉丝数／注册以来的时间　于　Ｆｒｉｅｎｄｓ　Ｒａｔｅ　关注数／注册以来的时间　作　者　声望（粉丝数／（粉丝数＋关注　的　Ｒｅｐｕｔａｔｉｏｎ　特　数））　征　Ｂｉ　Ｆｏｌｌｏｗ　互粉数　ＢｉｆｏｌｌｏｗｂｙＦａｎｓ　互粉数与粉丝数之比　ＢｉｆｏｌｌｏｗｂｙＦｒｉｅｎｄｓ　互粉数与关注数之比　Ｐｏｓｔ　Ｃｏｕｎｔ　作者已发布的微博数　Ａｃｔｉｖｉｔｙ　活跃度（已发布数／已注册时间）　Ｆａｖ　Ｃｏｕｎｔ　收藏数　最高的前１０个特征，如表２所示。利用这１Ｏ个　特征分别利用ＳＶＭ模型进行谣言检测，得到的Ｆ１　值如表２所示。但是，随机的ＳＶＭ模型分类效果　Ｆ１—０．５３７，因此Ｆ１低于０．５３７的三个特征（在表２　中加粗显示）予以丢弃，而且实际中这三个特征的分　类结果中都将所有测试实例分为了负例。所以最终　保留ＭＢＲａｎｋ、Ｒｅｐｏｓｔ　Ｒａｔｅ、Ｒｅｐｕｔａｔｉｏｎ、Ｂｉｆｏｌｌｏｗ　ｂｙＦａｎｓ、Ｆａｎｓ—Ｒａｔｅ、ＶｅｒｉｆｙＴｙｐｅ、Ｐａｒｔｉｃｉｐａｔｉｏｎ七　个特征。　在最终保留这七个特征中，Ｒｅｐｏｓｔ　Ｒａｔｅ、Ｐａｒ—　ｔｉｃｉｐａｔｉｏｎ反映微博传播特性，而另外五个特征都反　映了作者质量，这说明信源可信度和用户反应对谣　言检测的重要意义。此外，在先前研究中验证的　ＵＲＬｓ、Ｈａｓ—Ｐｉｃｓ等特征在实验中的区分度并不高，　２Ｏ２　中文信息学报　表２特征选取　下面考察本文提出的评论情感特征，如表４所　Ｆｌ　Ｏ．８４２　Ｏ．５７１　。值　１　２　特征　ＭＢＲａｎｋ　ＲｅｐｏｓｔＲａｔｅ　示，ＣｏｍｍｅｎｔｓＳｅｎｔｉ的　和Ｆ１都非常高，仅次于　１　７９１．１　５９　７　１　４１　４．８５６　ｌ　表２中的ＭＢＲａｎｄ。　表３Ｐ　０．９０９　未引入评论情感特征的分类结果　Ｒ　Ｏ．９Ｏ７　３　１　３４３．４５１　８　Ｒｅｐｕｔａｔｉｏｎ　０．６６７　０．６４９　Ｆｌ　ｏ．９０８　４　０　＿　６　７　８　１　２５６．７５８　ｌ　９９８．８７５　８　９３８．Ｏ８１　５　８１７．５７６　７８４．９８３　９　ＢｉｆｏｌｌｏｗｂｙＦａｎｓ　Ｆａｎｓ　Ｒａｔｅ　ＦｒｉｅｎｄｓＲａｔｅ　Ｏ．７４４　表４评论情感特征　０．５１　５　。值　Ｂｉ　Ｆｏｌｌｏｗ　Ｆ８Ｖ　Ｒａｔｅ　０．５１５　ｌ　４７２．６４７　０．５１５　特征　ｃｏｍｍｅｎｔｓＳｅｎｔｉ　Ｆ１　０．８Ｏ９　９　１Ｏ　７７０．２０５　８　７３３．９４７　２　ＶｅｒｉｆｙＴｙｐｅ　Ｏ．７３５　０．６１６　图２显示的是语料集中正例和负例在Ｃｏｒｎ—　ｍｅｎｔｓ—Ｐａｒｔｉｃｉｐａｔｉｏｎ　Ｓｅｎｔｉ上的分布，其中深灰色部分代表正例，　浅灰色部分代表负例。图２中可以明显看出，正　说明引用外链和图片等手段现在已经成为谣言和非　谣言都在使用的增强说服力、促进传播的通行做法。　利用前面选定的七个特征得到的谣言检测结果如　表３所示。可以看到目前选择的七个特征已经取得　例集的评论情感倾向都集中在负面，而负例集的　评论情感分布较之正例集更加平衡。这充分印证　了本文的假设，Ｃｏｍｍｅｎｔｓ—Ｓｅｎｔｉ对谣言有很好的　区分力。　了很好的效果。　３３０　Ｏ．０７　图２正例和负例在Ｃｏｍｍｅｎｔｓ—Ｓｅｎｔｉ上的分布　将Ｃｏｍｍｅｎｔｓ—Ｓｅｎｔｉ和前文中的七个特征同时　加入到ＳＶＭ分类器，分类效果见表５。　表５　引入评论情感特征的分类结果　Ｐ　Ｏ．９４９　容易引起群众情绪反应的特点。本文提出的这一　特征为以后的微博谣言检测研究提供又一点有价　值的参考。　实验过程中对ＳＶＭ模型的核函数及参数的选　Ｒ　０．９４９　Ｆ１　０．９４９　择也进行了优化。表６是使用线性核、多项式核、　ＲＢＦ核、ｓｉｇｍｏｉｄ核四种核函数（默认参数下）训练　的结果对比，可以看出ＲＢＦ核函数明显更加适合本　文的分类任务。　从表５中可以看到，加入Ｃｏｍｍｅｎｔｓ—Ｓｅｎｔｉ后　分类器的性能全面得到提升。　实验结果表明，在谣言检测任务中，微博下评　论的情感倾向是一项对谣言有很强区分力的特　征，这是冈为谣言本身具有夸大、造势、煽动性等　确定核函数后，先固定核函数参数ｙ，逐步减小　搜索步长，对误差代价参数ｃｏｓｔ进行优化选择，如　图３所示，最终确定ｃ０ｓｔ一５．７。　３期　祖坤琳等：新浪微博谣言检测研究　２０３　表６　四种核函数的训练结果　Ｐ　Ｒ　Ｆ１　Ｌｉｎｅａｒ　Ｏ．９　０．９　０．９　Ｐｏｌｙｎｏｍｉａ１　Ｏ．８７９　０．８５８　Ｏ．８６１　ＲＢＦ　０．９３９　０．９３８　０．９３９　Ｓｉｇｍｏｉｄ　０．６６１　０．９２４　０．６６１　０．９４６　０．９４５　０．９４４　．／一＼　０．９４３　厂　、　Ｅ　０．９４２　／　０．９４１　厂　０．９４　／　０．９３９　／　０．９３８　Ｏ　１　２　３　４　５　６　７　ｃｏｓｔ　图３参数ｃｏｓｔ调优　而后用同样方法找出ｙ最优值１．２５，如图４　所示。　０．９５ｌ　Ｏ．９５　／＼０．９４９　　．０．９４８　／　＼　０．９４７　／　＼　０．９４６　／　＼　０．９４５　／　、　０．９４４　０　０．５　１　１．５　２　２．５　ｇａｍｍａ　图４参数ｙ调优　５　总结　本文提出将微博评论的情感倾向作为分类器一　项特征，检测在新浪微博上传播的谣言。实验结果　表明，加入评论的情感倾向使得分类效果即谣言检　测的结果得到了可观的提升。但是，本文研究还具　有一定的提升空间，首先，本文将评论的情感倾向作　为一项特征，需要谣言具有一定的评论数量，以后的　研究将致力于如何从少量评论中获取群众的情感倾　向，以便能更早更及时的发现新浪微博中的谣言。　再者，本文只使用了ＳＶＭ作为分类模型，在以后的　工作中可以考虑使用神经网络或者最大熵模型来解　决ＳＶＭ的适应性问题。　参考文献　［１］　蒋盛益，陈东沂，庞观松，等．微博信息可信度分析　研究综述［Ｊ］．图书情报工作，２０１３，５７（１２）：１３６—　１４２．　［２］　Ｒａｔｋｉｅｗｉｃｚ　Ｊ，Ｃｏｎｏｖｅｒ　Ｍ，Ｍｅｉｓｓ　Ｍ，ｅｔ　ａ１．Ｄｅｔｅｃｔｉｎｇ　ａｎｄ　ｔｒａｃｋｉｎｇ　ｔｈｅ　ｓｐｒｅａｄ　ｏｆ　ａｓｔｒｏｔｕｒｆ　ｍｅｍｅｓ　ｉｎ　ｍｉｅｒｏｂ—　ｌｏｇ　ｓｔｒｅａｍｓ［Ｊ］．ａｒＸｉｖ　ｐｒｅｐｒｉｎｔ　ａｒＸｉｖ：１０１１．３７６８，　２０１０．　［３］　Ｑａｚｖｉｎｉａｎ　Ｖ，Ｒｏｓｅｎｇｒｅｎ　Ｅ，Ｒａｄｅｖ　Ｄ　Ｒ，ｅｔ　ａ１．Ｒｕｍｏｒ　ｈａｓ　ｉｔ：ｉｄｅｎｔｉｆｙｉｎｇ　ｍｉｓｉｎｆｏｒｍａｔｉｏｎ　ｉｎ　ｍｉｃｒ０ｂ１ｏｇｓ［Ｃ］／／　Ｐｒｏｃｅｅｄｉｎｇｓ　ｏｆ　ｔｈｅ　Ｃｏｎｆｅｒｅｎｃｅ　ｏｎ　Ｅｍｐｉｒｉｃａｌ　Ｍｅｔｈｏｄｓ　ｉｎ　Ｎａｔｕｒａｌ　Ｌａｎｇｕａｇｅ　Ｐｒｏｃｅｓｓｉｎｇ．Ａｓｓｏｃｉａｔｉｏｎ　ｆｏｒ　Ｃｏｍｐｕ—　ｔａｔｉｏｎａｌ　Ｌｉｎｇｕｉｓｔｉｃｓ，２０１１：１５８９—１５９９．　［４］　谭超．微博谣言分析及新浪辟谣机制Ｉ－Ｊ］．新闻实践，　２０１１（９）：６２－６５．　Ｅ５３　Ｙａｎｇ　Ｆ，Ｌｉｕ　Ｙ，Ｙｕ　Ｘ，ｅｔ　ａ１．Ａｕｔｏｍａｔｉｃ　ｄｅｔｅｃｔｉｏｎ　ｏｆ　ｒｕｍｏｒ　ｏｎ　Ｓｉｎａ　Ｗｅｉｂｏ［ｃ］／／Ｐｒｏｃｅｅｄｉｎｇｓ　ｏｆ　ｔｈｅ　ＡＣＭ　ＳＩＧＫＤＤ　Ｗｏｒｋｓｈｏｐ　ｏｎ　Ｍｉｎｉｎｇ　Ｄａｔａ　Ｓｅｍａｎｔｉｃｓ．ＡＣＭ，　２０１２：１３．　Ｅ６］　Ｓｕｎ　Ｓ，Ｌｉｕ　Ｈ，Ｈｅ　Ｊ，ｅｔ　ａ１．Ｄｅｔｅｃｔｉｎｇ　ｅｖｅｎｔ　ｒｕｍｏｒｓ　ｏｎ　Ｓｉｎａ　Ｗｅｉｂｏ　ａｕｔｏｍａｔｉｃａｌｌｙ［ｃ］／／Ｐｒｏｃｅｅｄｉｎｇｓ　０ｆ　ｗｅｂ　Ｔｅｃｈｎｏｌｏｇｉｅｓ　ａｎｄ　Ａｐｐｌｉｃａｔｉｏｎｓ．Ｓｐｒｉｎｇｅｒ　Ｂｅｒｌｉｎ　Ｈｅｉ—　ｄｅｌｂｅｒｇ，２０１３：１２Ｏ一１３１．　［７］　Ｃａｓｔｉｌｌｏ　Ｃ，Ｍｅｎｄｏｚａ　Ｍ，Ｐｏｂｌｅｔｅ　Ｂ．Ｉｎｆｏｒｍａｔｉｏｎ　ｅｒｅｄｉ—　ｂｉｌｉｔｙ　ｏｎ　ｔｗｉｔｔｅｒ［Ｃ￣／／Ｐｒｏｃｅｅｄｉｎｇｓ　ｏｆ　ｔｈｅ　２０ｔｈ　ｉｎｔｅｒｎａ—　ｔｉｏｎａｌ　ｃｏｎｆｅｒｅｎｃｅ　ｏｎ　Ｗｏｒｌｄ　ｗｉｄｅ　ｗｅｂ．ＡＣＭ，２０１１：　６７５—６８４．　［８］　Ｙｕｅｎ　Ｒ　Ｗ　Ｍ，Ｃｈａｎ　Ｔ　Ｙ　Ｗ，Ｌａｉ　Ｔ　Ｂ　Ｙ，ｅｔ　ａ１．Ｍｏｒ—　ｐｈｅｍｅ—ｂａｓｅｄ　ｄｅｒｉｖａｔｉｏｎ　ｏｆ　ｂｉｐｏｌａｒ　ｓｅｍａｎｔｉｃ　ｏｒｉｅｎｔａｔｉｏｎ　ｏｆ　Ｃｈｉｎｅｓｅ　ｗ。ｒｄｓ［ｃ］／／Ｐｒ０ｃｅｅｄｉｎｇｓ　ｏｆ　ｔｈｅ　２０ｔｈ　ｉｎｔｅｒ—　ｎａｔｉｏｎａｌ　ｃｏｎｆｅｒｅｎｃｅ　ｏｎ　Ｃｏｍｐｕｔａｔｉｏｎａｌ　Ｌｉｎｇｕｉｓｔｉｃｓ．Ａｓ—　ｓｏｃｉａｔｉｏｎ　ｆｏｒ　Ｃｏｍｐｕｔａｔｉｏｎａｌ　Ｌｉｎｇｕｉｓｔｉｃｓ，２００４：１００８．　［９］　Ｔｕｒｎｅｙ　Ｐ　Ｄ，Ｌｉｔｔｍａｎ　Ｍ　Ｌ．Ｍｅａｓｕｒｉｎｇ　ｐｒａｉｓｅ　ａｎｄ　ｃｒｉｔｉ—　ｅｉｓｍ：ｉｎｆｅｒｅｎｃｅ　ｏｆ　ｓｅｍａｎｔｉｃ　ｏｒｉｅｎｔａｔｉｏｎ　ｆｒｏｍ　ａｓｓｏｃｉａ—　ｔｉｏｎ［Ｊ］．ＡＣＭ　Ｔｒａｎｓａｃｔｉｏｎｓ　ｏｎ　Ｉｎｆｏｒｍａｔｉｏｎ　Ｓｙｓｔｅｍｓ　（ＴＯＩＳ），２００３，２１（４）：３１５－３４６．　［１０３　Ｒｉｌｏｆｆ　Ｅ，Ｗｉｅｂｅ　Ｊ．Ｌｅａｒｎｉｎｇ　ｅｘｔｒａｃｔｉｏｎ　ｐａｔｔｅｒｎｓ　ｆｏｒ　ｓｕｂｊｅｃｔｉｖｅ　ｅｘｐｒｅｓｓｉｏｎｓ［ｃ］／／Ｐｒｏｃｅｅｄｉｎｇｓ　ｏｆ　ｔｈｅ　２００３　ｃｏｎｆｅｒｅｎｃｅ　ｏｎ　Ｅｍｐｉｒｉｃａｌ　Ｍｅｔｈｏｄｓ　ｉｎ　Ｎａｔｕｒａｌ　Ｌａｎｇｕａｇｅ　Ｐｒｏｃｅｓｓｉｎｇ．Ａｓｓｏｃｉａｔｉｏｎ　ｆｏｒ　Ｃｏｍｐｕｔａｔｉｏｎａｌ　Ｌｉｎｇｕｉｓ—　ｔｉｃｓ，２００３：１０５—１１２．　［１１］　朱嫣岚，闵锦，周雅倩，等．基于ＨｏｗＮｅｔ的词汇语　义倾向计算ｆＪ］．中文信息学报，２００６，２０（１）：１４—　２Ｏ．　［１２］　乔春庚，孙丽华，吴韶，等．基于模式的中文倾向性　分析研究［ｃ］．第一届中文倾向性分析评测研讨会，　２００８：２１—３ｌ＿　２０４　中文信息学报　２Ｏ１７侄　［１３］Ｗｉｅｂｅ　Ｊ，Ｗｉｌｓｏｎ　Ｔ，Ｂｒｕｃｅ　Ｒ．ｅｔ　ａ１．Ｉ，ｅａｒｎｉｎｇ　ｓｕｂｊｅｃ　ｔｉｖｅ　ｌａｎｇｕａｇｅ［Ｊ］．Ｃｏｍｐｕｔａｔｉｏｎａｌ　ｌｉｎｇｕｉｓｔｉｃｓ，２００４，　３０（３）：２７７—３０８．　Ｃｏｍｐｕｔａｔｉｏｎａｌ　Ｌｉｎｇｕｉｓｔｉｃｓ，２００３：ｌ２９—１　３６．　［１５］　叶强，张紫琼，罗振雄．面问互联网评论情感分析的　中文主观性自动判别方法研究［Ｊ］．信息系统学报，　２００７（１）：７９—９１．　ｖａｓｓｉｌｏｇｌｏｕ　Ｖ．Ｔｏｗａｒｄｓ　ａｎｓｗｅｒｉｎｇ　ｏｐｉｎ—　［１４］　Ｙｕ　Ｈ，Ｈａｔｚｉｉｏｎ　ｑｕｅｓｔｉｏｎｓ：Ｓｅｐａｒａｔｉｎｇ　ｆａｃｔｓ　ｆｒｏｍ　ｏｐｉｎｉｏｎｓ　ａｎｄ　ｉ—　［１６２　宁峰．杨亮，林鸿飞．　于Ｉ．ＤＡ模型的博客垃圾　ｄｅｎｔｉｆｙｉｎｇ　ｔｈｅ　ｐｏｌａｒｉｔｙ　ｏｆ　ｏｐｉｎｉｏｎ　ｓｅｎｔｅｎｃｅｓ［Ｃ］／／Ｐｒｏ　ｃｅｅｄｉｎｇｓ　ｏｆ　ｔｈｅ　２００３　ｃｏｎｆｅｒｅｎｃｅ　ｏｎ　Ｅｍｐｉｒｉｃａｌ　Ｍｅｔｈｏｄｓ　ｉｎ　Ｎａｔ　ｕｒａｌ　Ｌａｎｇｕａｇｅ　Ｐｒｏｃｅｓｓｉｎｇ．　Ａｓｓｏｃｉａｔｉｏｎ　ｆｏｒ　评论发现［Ｊ］．中文信息学报，２０１１．２５（１）：４ｌ－４７．　［１７］　黄铃，李学明．基于ＡｄａＢｏｏｓｔ的微博垃圾评论识别　方法［Ｊ］．计算机应用．２Ｏ１３．３３（１２）：３５６３—３５６６．　旦祖坤琳（１　９９０），硕士。　主要研究领域为文本挖　掘、机器学习。　ｕｔ．ｅｄｕ．ｃｎ　Ｅ—ｍａｉｌ：ｚｕｋｕｎｌｉｎ＠ｍａｔｌ　ｄｌ赵铭伟（１９７２）．博士，硕士生导师．主要研究领　域为计算机网络、信息安全。　Ｅ—ｍａｉｌ：ｚｈａｏｍｗ＠ｄｌｕｔ．ｅｄｕ．ｃｎ　郭凯（１９８５），硕士，主要研究领域为数据挖捌、　信息安全。　Ｅ—ｍａｉｌ：ｋｇｕｏ＠ｍａｉｌ．ｄｌｕｔ．ｅｄｕ．ｃｎ　代　错牛｝倦氍牟｛氍　牛｝代倦代　＆　代　锵＊　代代　年亡早｝乍圭’譬｝　串｝牛｛代　传牟亡串毒　年亡串鲁早｛譬｝　｝｛　性氍雠　串｝串｝　（上接第１９Ｏ页）　［３２代六玲，黄河燕，陈肇雄．中文文本分类中特征抽取方　法的比较研究［Ｊ］．中文信息学报，２００４，１８（１）：２６—３２．　［Ｊ］．计算机Ｔ程与应用，２０１１，４７（１３）．　［４］　姚全珠，宋志理，彭程．基于ＬＤＡ模型的文本分类研究　嘲　［８３　ａｌｇｏｒｉｔｈｍｓ　ｆｏｒ　ｔｈｅ　ｃｌａｓｓｉｆｉｃａｔｉｏｎ　ｒｅ—ｓｔｒｉｃｔｅｄ　ｂｏｌｔｚａｎｎｍａ　ｃｈｉｎｅ［Ｊ］．Ｔｈｅ　Ｊｏｕｒｎａｌ　ｏｆ　Ｍａｃｈｉｎｅ　Ｌｅａｒｎｉｎｇ　Ｒｅｓｅａｒｃｈ．　２Ｏ１２，１３（１）：６４３—６６９．　Ｈｉｎｔｏｎ　Ｇ　Ｅ．Ｔｒａｉｎｉｎｇ　ｐｒｏｄｕｃｔｓ　ｏｆ　ｅｘｐｅｒｔｓ　ｂｙｍｉｎｉｍｉｚｉｎｇ　［５］　Ｔａｎ　Ｓ．Ａｎ　ｅｆｆｅｃｔｉｖｅ　ｒｅｆｉｎｅｍｅｎｔ　ｓｔｒａｔｅｇｙ　ｆｏｒ　Ｋ　ＮＮ　ｔｅｘｔ　ｃｏｎｔｒａｓｔｉｖｅ　ｄｉｖｅｒｇｅｎｃｅ［Ｊ］．Ｎｅｕｒａｌ　ｃｏｍｐｕｔａｔｉｏｎ，２００２，　１４（８）：１　７７１—１８００．　ｃｌａｓｓｉｆｉｅｒ［Ｊ］．Ｅｘｐｅｒｔ　Ｓｙｓｔｅｍｓ　ｗｉｔｈ　Ａｐｐｌｉｃａｔｉｏｎｓ。　２００６，３０（２）：２９０—２９８．　［９］　Ｇｕｔｈｒｉｅ　Ｄ。Ａｌｌｉｓｏｎ　Ｂ，Ｉ　ｉｕ　Ｗ　ｅｔ　ａ１．Ａ　ｃｌｏｓｅｒ　１ｏｏｋ　ａｔ　　ｅｅ　Ｉ　Ｈ，Ｗａｎ　Ｃ　Ｈ，Ｒａｊｋｕｍａｒ　Ｒ，ｅｔ　ａ１．Ａｎ　ｅｎｈａｎｃｅｄ　［６］　Ｉｓｕｐｐｏｒｔ　ｖｅｃｔｏｒ　ｍａｃｈｉｎｅ　ｃｌａｓｓｉｆｉｃａｔｉｏｎ　ｆｒａｍｅｗｏｒｋ　ｂｙ　ｕ—　ｓｋｉｐ—ｇｒａｍ　ｍｏｄｅｌｌｉｎｇ［Ｃ］／／Ｐｒｏｃｅｅｄｉｎｇｓ　ｏｆ　ｔｈｅ　５ｔｈ　ｉｎｔｅｒ—　ｎａｔｉｏｎａｌ　Ｃｏｎｆｅｒｅｎｃｅ　ｏｎ　Ｌａｎｇｕａｇｅ　Ｒｅｓｏｕｒｃｅｓ　ａｎｄ　Ｅｖａｌｕ—　ａｔｉｏｎ（Ｉ　ＲＥＣ　２００６）．２００６：１—４．　ｓｉｎｇ　Ｅｕｃｌｉｄｅａｎ　ｄｉｓｔａｎｃｅ　ｆｕｎｃｔｉｏｎ　ｆｏｒ　ｔｅｘｔ　ｄｏｃｕｍｅｎｔ　ｃａｔ　ｅｇｏｒｉｚａｔｉｏｎ［Ｊ］．Ａｐｐｌｉｅｄ　Ｉｎｔｅｌｌｉｇｅｎｃｅ，２０１２，３７（１）：８０—　９９．　［１０］　Ｂｌｅｉ　Ｄ　Ｍ，Ｎｇ　Ａ　Ｙ，Ｊｏｒｄａｎ　Ｍ　Ｉ．Ｉ　ａｔｅｎｌ　ｄｉｒｉｃｈｌｅｔ　ａｌｌｏ—　ｃａｔｉｏｎ［Ｊ］．ｔｈｅ　Ｊｏｕｒｎａｌ　ｏｆ　ｍａｃｈｉｎｅ　Ｉ．ｅａｒｎｉｎｇ　ｒｅｓｅａｒｃｈ，　２００３，３：９９３—１０２２．　［７］　Ｉ　ａｒｏｃｈｅｌｌｅ　Ｈ．Ｍａｎｄｅｌ　Ｍ，Ｐａｓｃａｎｕ　Ｒ。ｅｔ　ａ１．Ｉ　ｅａｒｎｉｎｇ　孙晓（１９８０），副教授，主要研究领域为自然语　。高飞（１９９３），学士，主要研究领域为自然语言　处理与文本分类，机器学爿。　Ｅ－ｍａｉｌ：ＧＦＳＸ＇Ｉ、＠ｇｍａｉｌ．ｃｏｒｌｌ　’　处理，情感机器人与人机交互。　Ｅ—ｍａｉｌ：ｓｕｎｔｉａｎ＠ｇｍａｉｌ．ｃｏｎｌ　住福继（１９５９）．教授，主要研究领域为信号与　信息处理．情感计算。　Ｅ—ｍａｉｌ：ｒｅｎ２ｆｕｊｉ＠ｇｍａｉｌ．ｃｏｍ　

因篇幅问题不能全部显示，请点此查看更多更全内容

查看全文

全部栏目

新浪微博谣言检测研究