基于概率模型的主题爬虫的研究和实现
【出 处】:《
计算机工程与科学
》
CSCD
2013年第35卷第1期 160-165页,共6页
【作 者】:
白玉昭
;
梁久祯
【摘 要】
在现有多种主题爬虫的基础上,提出了一种基于概率模型的主题爬虫。它综合抓取过程中获得的多方面的特征信息来进行分析,并运用概率模型计算每个URL的优先值,从而对URL进行过滤和排序。基于概率模型的主题爬虫解决了大多数爬虫抓取策略单一这个缺陷,它与以往主题爬虫的不同之处是除了使用主题相关度评价指标外,还使用了历史评价指标和网页质量评价指标,较好地解决了“主题漂移”和“隧道穿越”问题,同时保证了资源的质量。最后通过多组实验验证了其在主题网页召回率和平均主题相关度上的优越性。
相关热词搜索:
上一篇:一类分数阶超混沌系统的同步及其应用
下一篇:基于累积平均密度的聚类方法