教学文库网 - 权威文档分享云平台
您的当前位置:首页 > 范文大全 > 资料大全 >

基于隐含语义分析的微博话题发现方法

来源:网络收集 时间:2026-04-27
导读: 由邓一贵、马雯雯等人发表在《计算机工程与应用》杂志上的一篇学术论文,阐述了其算法及研究成果 Computer Engineering and Applications 计算机工程与应用 —————————————————————————— 基金支持:重庆市自然科学基金(cstc2011jjA4

由邓一贵、马雯雯等人发表在《计算机工程与应用》杂志上的一篇学术论文,阐述了其算法及研究成果

Computer Engineering and Applications 计算机工程与应用

——————————————————————————

基金支持:重庆市自然科学基金(cstc2011jjA40023)

作者简介:邓一贵(1971-),男,博士,高级工程师,主要研究方向:计算机网络与信息安全,移动代理;马雯雯(1986-),女,硕士,主要研究方向:计算机网络与信息安全,数据挖掘. E-mail:ma-wen1024@http://doc.guandang.net.

基于隐含语义分析的微博话题发现方法

邓一贵1,

2 ,马雯雯2 DEGN Yigui 1,2,MA Wenwen 2

1.重庆大学信息与网络管理中心,重庆 400044

2.重庆大学计算机学院,重庆 400044

1. Center of Information and Network, Chongqing University, Chongqing 400044, China

2. School of Computer Science, Chongqing University, Chongqing 400044, China

DENG Yigui, MA Wenwen. Micro-blog topic detection method based on latent semantic analysis

Abstract: As the large popularity of micro-blog and awareness continues to improve, hot topics of micro-blog detecting has become the current research focuses. For short texts, there exist high-dimension, sparse, synonymy and polysemy problems for Vector Space Model (VSM) text presentation, making it difficult to measure the similarity of the texts accurately. This paper presents a two-stage cluster based on Latent Semantic Analysis (LSA) topic detection approach. Firstly, the concept of hot topic is introduced to select micro-blogs with certain attention, using LSA to model the dataset. Then CURE algorithm of hierarchical clustering is employed to determine the initial centers. Finally, the hot topic clustering results are obtained through K-means clustering. Experimental results on real micro-blog dataset verify the validity of the method.

Key words: latent semantic analysis (LSA); vector space model (VSM); topic detection; micro-blog; two-stage cluster

摘 要:随着微博的大量普及和关注度的不断提高,微博热点话题发现已成为当前研究热点。针对于短文本,向量空间模型(VSM )文本表示方法存在高维度、稀疏,及同义多义问题,导致难以准确度量文本相似度,本文提出一种基于隐含语义分析的两阶段聚类话题发现方法。首先引入话题热度的概念来选取具有一定关注度的微博文本,用隐含语义分析(LSA )对数据集进行建模;然后用层次聚类的CURE 算法确定初始类中心;最后用K-means 聚类得到热点话题的聚类结果。真实微博数据集的实验结果验证了该方法的有效性。 关键词:隐含语义分析;向量空间模型;话题发现;微博;两阶段聚类

文献标识码:A 中图分类号:TP393

1引言 随着互联网技术的发展及其应用的迅猛增长,继web2.0技术之后微博客(简称“微博”)的应用受到了越来越多网民和机构的关注。微博具有内容简单易懂,发布快捷及时,传播速度快,信息源自社会的各个领域,内容时新性强等特点。作为一种新兴的传播载体,微博已成为民众表达舆情的重要窗口[1],对话题发现、信息安全等领域的决策具有重要作用。另外,社会网络上话题发现的数据不局限于文本信息,还可以利用非文本信息,如评论数等。

这些新特点使面向社会网络的话题发现研究得到了重点关注。

然而,微博数据主要由普通用户产生,无论是用词、形式还是具体内容的质量都参差不齐,给话题发现带来很大困难。因此,虽话题发现研究已开展多年,但由于互联网数据来源的多样性与特征抽

取的不确定性,目前话题发现研究主要集中在新闻

由邓一贵、马雯雯等人发表在《计算机工程与应用》杂志上的一篇学术论文,阐述了其算法及研究成果

邓一贵,等:基于隐含语义分析的微博话题发现方法

类数据上,社会网络上(含微博)话题检测的研究相对较少。

国内外一些学者就最早也是最著名的“twitter”

英文微博数据进行了相关研究[2-5]。其中文献[3][5]

在大规模Twitter 数据集上,用文本生成模型LDA 建模来

挖掘话题;杨冠超[4]

提出一个迭代式的语义分析和话题热度预测模型—Topic Rank,通过时间片划分和话题的关键词集合两个概念计算话题影响力。事实上,中文和英文有很大区别:英文重结构,而中文重语义,加之文化差异使Twitter 数据上的成果并不适用

于中文微博。而在中文方面相关文献较少,郑斐然[6]

采用向量空间模型在线检测中文微博消息中的关键字,并对其聚类来找到新闻话题,但常用的基于关

键字的向量空间模型(Vector Space Model,VSM)[7]

将文本嵌入到正交向量空间,便于数学处理, 却忽视了中文的“同义”、“多义”及高维向量问题,因而在微博话题发现过程中,其发现话题的准确率和速

度不尽如人意[6]

。同时,VSM 基于这样的假设:任意词项间是独立的,这不符合现实语言环境。

针对中文微博文本的特点,以及传统VSM 模型匹配特征词的局限性,本文采用隐含语义分析(Latent Semantic Analysis,LSA)对中文微博建模,通过一个两阶段的聚类策略来发现近期社会上受关注较多的话题。这和话题检测与跟踪(Topic Detection Tracking,TDT)领域的研究十分相似,不同的是TDT

研究多采用TREC 会议提供的TDT 语料[8]

,并不能完全反映网络上舆情发展的真实情况,而本文抓取真实的中文微博语料展开研究,更具实用价值。

2理论基础 2.1 LSA 基本思想

传统向量空间模型反映的是简单的词频和分布关系。微博文本由于词条和形式的多样性,其真正的语义信息在一定程度上被掩盖。隐含语义分析在向量空间的基础上进行词条关系处理,试图绕过自然语言理解,运用统计计算的方法来发现词语使用过程中潜在的语义结构,用概念取代关键词,从而削减了词语和文档间的语义模糊度,在一定程度上

缓解了向量空间模型中同义词、多义词的影响,因而更有利于提高话题发现的精度。

隐含语义分析(Latent Semantic Analysis,LSA)模

型最早由S.T.Dumans 等人[9]

提出,基本思想是将原始的向量空间通过奇异值分解投影到低维的正交矩阵,从而转换到潜在的语义空间。不同于VSM,该模型建立在文本中的词语之间是有紧密联系的假设基础上,用一个m ×n 维(m 为文档集中特征词个数,n 为文档集包含的文档数)的特征矩阵A 描述文本中词项的共现性。即:

[]ij m n A a ×= (1)

通过对A 进行奇异值分解,取前k 个最大的奇异值及其对应的奇异矢量构成一个新矩阵k

A 来近

似表示原词条-文档矩阵A 。 2.1.1奇异值分解(SVD)

文本表示成词条矩阵后,通过奇异值分解计算矩阵A 的近似矩阵k A (k <<min (m,n ))。抽取词的概念到概念空间,形成最小的表述文档的概念集合。例如,在A 文档中出现的“书”和在B 文档中出现的“报告”、“手册”、“指南”等会被认为是同一个概念。经奇异值分解后,矩阵A …… 此处隐藏:9319字,全部文档内容请下载后查看。喜欢就下载吧 ……

基于隐含语义分析的微博话题发现方法.doc 将本文的Word文档下载到电脑,方便复制、编辑、收藏和打印
本文链接:https://www.jiaowen.net/fanwen/1814247.html(转载请注明文章来源)
Copyright © 2020-2025 教文网 版权所有
声明 :本网站尊重并保护知识产权,根据《信息网络传播权保护条例》,如果我们转载的作品侵犯了您的权利,请在一个月内通知我们,我们会及时删除。
客服QQ:78024566 邮箱:78024566@qq.com
苏ICP备19068818号-2
Top
× 游客快捷下载通道(下载后可以自由复制和排版)
VIP包月下载
特价:29 元/月 原价:99元
低至 0.3 元/份 每月下载150
全站内容免费自由复制
VIP包月下载
特价:29 元/月 原价:99元
低至 0.3 元/份 每月下载150
全站内容免费自由复制
注:下载文档有可能出现无法下载或内容有问题,请联系客服协助您处理。
× 常见问题(客服时间:周一到周五 9:30-18:00)