行业动态信息采集系统关键问题解决方案Key problems and their solutions for industrial dynamic information collection system
黎柯,蔡永香,干佳林,王居远,杨鼎,胡森勇
摘要(Abstract):
为了解决行业动态信息采集系统中网页定向爬取、网页清洗、信息检索等关键问题,文章提出一套基于Heritrix、Jsoup和Lucene的解决方案,并以测绘地理动态信息系统为例进行验证,结果证明该方法能够较好完成测绘地理信息的定向爬取,实现对不同风格网站网页的清洗,并建立索引提供信息检索机制,给测绘行业人士提供准确可靠的信息服务,为相关研究提供参考。
关键词(KeyWords): Heritrix和Lucene;信息爬取;网页清洗;全文检索
基金项目(Foundation): 国土资源部项目(2014Z1317)
作者(Author): 黎柯,蔡永香,干佳林,王居远,杨鼎,胡森勇
DOI: 10.16251/j.cnki.1009-2307.2016.03.032
参考文献(References):
- [1]高伟锋.基于Heritrix的主题网络爬虫设计与实现[J].南宁职业技术学院学报,2011,16(1):97-100.
- [2]张俊林.这就是搜索引擎:核心技术详解[M].北京市海淀区:电子工业出版社,2012.
- [3]郑如滨,撒力,谢婷.基于Heritrix与Lucene的垂直搜索引擎研究[J].电脑知识与技术,2008,4(2):350-352.
- [4]刘高军,夏景隆.基于Heritrix的网络爬虫研究与应用[J].软件导刊,2013,12(5):123-125.
- [5]张皓,周学广.基于Heritrix的增量式网络爬虫研究[J].软件导刊,2013(11):135-137.
- [6]盛雪丰.Android开发一大神器——Jsoup[J].电脑知识与技术,2015(8):63-65.
- [7]GOSPODNETIC O,Hatcher E.Lucene实战[M].人民邮电出版社,2011:c4-5.
- [8]薛宇星.基于Herixtrix和Lucene的Web站内搜索系统[D].西安电子科技大学,2008:49-50.
- [9]白坤,耿国华.基于Lucene/Heritrix的垂直搜索引擎的研究与应用[J].计算机应用与软件,2009:212-214.
- [10]高玉良,张济强,白瑶.基于Lucene的多索引搜索的研究与应用[J].电脑知识与技术,2012(7):1470-1472.
- [11]罗刚.解密搜索引擎技术实战:Lucene&Java精华版[M].第二版.北京市海定区:电子工业出版社,2014:6-7.
- [12]彭哲.基于Lucene/XML全文检索系统的跨库应用[J].图书情报工作,2008,52(06):110-110.
- [13]潘亭沥.基于Lucene的面向商业应用的搜索引擎研究与实现[D].电子科技大学,2007:39-41.
- [14]周文勤.使用Heritrix和Lucence的全文检索解决方案[J].甘肃联合大学学报:自然科学版,2012,26(4):52-56.
- [15]周锦程,王丹,余泉.基于Lucene的全文检索系统的研究与实现[J].计算机技术与发展,2011,21:67-71.