基于动态LDA主题模型的内容主题挖掘与演化_胡吉明
第58卷第2期2014年1月
基于动态LDA主题模型的内容主题挖掘与演化
■胡吉明
[摘
陈果
*
要]指出文本内容主题的挖掘和演化研究对于文本建模和分类及推荐效果提升具有重要作用。从
分析基于LDA主题模型的文本内容主题挖掘原理入手,针对当前网络环境下的文本内容特点,构建适用于动态文内容本主题挖掘的LDA模型,并通过改进的Gibbs抽样估计提高主题挖掘的准确性,进而从主题相似度和强度两个方面研究内容主题随时间的演化问题。实验表明,所提方法可行且有效,对后续有关文本语义建模和分类研究等具有重要的实践意义。
[关键词]主题挖掘[分类号]G202
DOI:10.13266/j.issn.0252-3116.2014.02.023
主题演化
动态LDA模型
文本内容挖掘与语义建模是信息推荐和数据挖掘领域的研究热点与核心内容,而文本内容的主题挖掘则是语义建模的重要基础。当前网络环境下,信息内容具有呈动态交互和随时间发展演化等特征,因此要求创新信息内容挖掘方法,提升内容主题挖掘的准确性,动态描述其演化趋势。基于此,本文对传统潜在狄利克雷分布(LDA)主题模型进行动态化改进,运用增量Gibbs抽样估计算法,实现文本内容主题的准确挖掘;在文本时间片划分的基础上,基于主题相似度和强度度量,描述内容主题的时间演化趋势。本文研究对语义层次的信息内容建模以及提高内容描述的准确性具有重要作用
。
有限混合表示的文本,并且通过词汇表中所有词汇的概率分布来表示每个主题,文本内容则根据主题和词汇的混合分布来区分
[6]
。LDA主题模型采用Dirichlet,因此具有很好的先验概率
分布简化了模型的推导过程,避免了LSA和PLSA模型产生的过拟合的问题
[7]
假设,参数数量不会随着文本数量的增长而线性增长,泛化能力强,在算法复杂度和展示效果方面表现优越,广泛应用于文本主题挖掘、文本分类聚类、文本检索、内容主题演化等领域
[8]
。
近年来,网络信息内容主题的挖掘受到国内外研究者和机构的广泛关注,旨在准确捕捉网络信息内容的动态演化特征,跟踪或准确发现其发展变化趋势。如M.Mohd等设计了交互事件跟踪(iEvent)系统,以此发现用户交互所产生的热点内容主题
[9]
。C.Aksoy等
文本内容的主题提取即选择合适的文本内容主题和特征词汇,以此对文本内容进行特征描述和建模。主题模型作为一种文本内容的概率生成模型或产生式
[1]
概率潜在语义分析模型,如潜在语义分析(LSA)、
构建了基于语言模型的新奇新闻检测系统BilNov-
[10]
2005,实现了新奇新闻主题的动态实时挖掘。余传
明等基于LDA模型研究了用户评论内容主题和热点关键词的挖掘方法,实验表明该模型具有较好的热点主题识别效果
[11]
(PLSA)[2]和LDA[3],通过对人类思维过程的模拟,找到产生文本的最佳主题和词汇,能够最大程度地表示文本中所蕴含的含义,信息丢失较少,较好地解决了词汇、主题和文本之间的语义关联问题的文本主题提取方法
[5]
[4]
。刘洪涛等针对内容主题不明确和
热点问题难以跟踪的问题,通过计算文献作者的舆论评价得到每个评价社区的关键词概率描述,实现了社区中评论主题的发现,对文本语义挖掘和共享等具有重要意义
[12]
,是目前最常用
。更重要的是,LDA主题模型。黄颖通过基于LDA和主题词的相关性
基于产生式的三层贝叶斯概率计算得到通过潜在主题新事件监测模型,结合报道发生的时间确定合理的主
“社会网络环境下信息内容主题挖掘与语义分类研究”(项目编号:13YJC870008)和国家自然科*本文系教育部人文社会科学青年基金项目
“社会网络环境下基于用户-资源关联的信息推荐研究(项目编号:71303178)”学青年基金项目研究成果之一。
[作者简介]胡吉明,E-mail:whuhujiming@qq.com;陈果,武汉大学信息资源研究中心讲师,武汉大学信息资源研究中心博士研究生。收稿日期:2013-11-13
修回日期:2014-01-04
本文起止页码:138-142
本文责任编辑:王传清
138
第58卷第2期2014年1月
题数目以探知新事件
[13]
。间片内的文本信息受到上一时间片文本信息的影响)从而建作为当前时间片文本主题提取的先验概率φt,立动态LDA文本主题挖掘模型,如图2所示
:
网络环境下文本信息所具有的短文本结构特征加
[14]
大了文本挖掘和表示的难度,因此,本文在现有
LDA主题挖掘基础上,结合微博、博客、社交网络等社会化网络服务中的交互式信息特点,构建动态LDA主题模型,按时间片划分文本信息,将增量Gibbs抽样算法引入其中,通过参数估计得到时间片文本集中连续的主题-词汇分布和文本-主题分布。2.1
LDA主题模型的动态化改进
首先采用滑动时间窗把文本划分到时间片内,时间片内的文本数根据其主题和词汇分布的不同而不同,且允许不同时间片内存在相同的文本(因文本存组成文本时间片集;然后在主题交叉或相似现象),
采用LDA主题模型对每个时间片文本集进行主题挖
[15]
掘,提取出T个主题,运用增量Gibbs抽样算法得
图2动态演化LDA文本生成模型
图2中,可直接观测变量(词汇)用实心圆表示,隐含的潜在变量(主题)用空心圆表示;图中矩形表示重复过程,大矩形表示从狄利克雷(Dirichlet)分布中为文小矩形本集中的每个文本d反复提取的主题分布θd,则表示从主题分布中反复抽样产生的文本词w2,…,wV}。汇{w1,
根据传统LDA模型的文本生成过程,动态LDA主题模型运算过程如图3所示:
动态演化LDA文本生成过程
首先将文本按照设定好的时间间隔划分为t个时间片文本集,每个时间
t。片文本集内对应一个φt和θdz2,…,zT},选择第一个时间片文本集t对每一个主题zt∈{z1,
={1,2,…,t}
1如果是第一个时间片t=1,则φt~Dir(β1)2否则,计算φt=φt-1W34
抽样计算θt对每一个文本d,d~Dir(α)
对文本中的每一个词汇wi
t4.1从多项式分布θtd中抽样生成主题的概率分布zj:P(zjα)
4.2从多项式分布φt中抽样生成词汇的概率分布wi:P(wizj,βtz)
出文本内容和主题之间的概率分布关系(文本-主题和主题-词汇)。进而对前一个时间片文本集中文本的主题-词汇概率分布关系加权处理(W)后,作为当前时间片文本集中主题-词汇分布的先验概率,求出随时间变化的主题-词汇和文本-主题概率分布,最终得到此文本内容主题的时间演化模式,如图1所示
:
图1基于动态LDA主题模型的文本主题挖掘框架
在基于LDA主题模型进行文本主题提取的过程中,本文改进的重点是基于时间窗口将动态演化的文本按时间窗划分,按照文本内容主题的连续性和差异性,运用增量Gibbs抽样算法进行抽样计算。
d2,…,dl},首先,确立时间t内的文本集合Dt={d1,时间窗大小根据用户需求、具体应用领域和文本分析的粗细粒度设定(Mt)。文本时间片一旦划分,则保证不同时间片内的文本不能交换,而同一时间片内的文本可以交换。其次,根据前一时间的主题-词汇分布VtWU
,V为t时刻的的后验概率φt-1乘上权重W(W=
Vt-1tWU为用户自行设定的权重,词 …… 此处隐藏:9748字,全部文档内容请下载后查看。喜欢就下载吧 ……
相关推荐:
- [文秘资料]班长职务辞职报告
- [文秘资料]完美的辞职报告
- [文秘资料]经典的员工辞职报告
- [文秘资料]医院口腔医生辞职报告
- [文秘资料]总经理辞职报告范文四篇
- [文秘资料]超市职员个人辞职报告
- [文秘资料]村妇联主任的辞职报告
- [文秘资料]辞职报告书格式
- [文秘资料]酒店辞职报告简单范文
- [文秘资料]联通的辞职报告
- [文秘资料]2017最新私企员工辞职报告范文
- [文秘资料]2019年度医院基层党组织书记抓党建述职
- [文秘资料]工作时间长辞职报告
- [文秘资料]辞职报告怎么写出来
- [文秘资料]个人能力原因辞职报告
- [文秘资料]网络工程师辞职报告
- [文秘资料]项目部辞职报告
- [文秘资料]缝纫工辞职报告怎么写
- [文秘资料]XXX州委书记述职报告
- [文秘资料]抓基层党建工作述职报告
- (王虎应老师讲课记录)六爻理象思维
- 八个常见投影机故障排除法
- 质量专业综合知识(中级)第一章质量管理
- 煤矿班组建设实施意见
- 我国快餐业与肯德基经营模式的比较与分
- 汽车保险杠模具标准化模架技术工艺研究
- 汽车二级维护作业团体赛比赛规程
- 装卸搬运工安全操作规程
- 高效的工作方法-刘铁
- 依据《生产安全事故报告和调查处理条例
- 2015专业PS夜景亮化效果图制作教程
- 企业劳动定额定员浅析
- 中枢神经系统医学影像学本科五年制第五
- 长城汽车参观探营第三站:研发试验中心
- 小升初语文专项训练
- 建筑工程质量检测资质分类与等级标准
- 周燕珉-我国养老社区的发展现状与规划
- 《生命里最后的读书会》读后感
- 实验室管理评审报告
- CCNA思科网院教程精华之网络基础知识




