测绘科学

2016, v.41;No.213(03) 161-166

[打印本页] [关闭]
本期目录(Current Issue) | 过刊浏览(Archive) | 高级检索(Advanced Search)

行业动态信息采集系统关键问题解决方案
Key problems and their solutions for industrial dynamic information collection system

黎柯,蔡永香,干佳林,王居远,杨鼎,胡森勇

摘要(Abstract):

为了解决行业动态信息采集系统中网页定向爬取、网页清洗、信息检索等关键问题,文章提出一套基于Heritrix、Jsoup和Lucene的解决方案,并以测绘地理动态信息系统为例进行验证,结果证明该方法能够较好完成测绘地理信息的定向爬取,实现对不同风格网站网页的清洗,并建立索引提供信息检索机制,给测绘行业人士提供准确可靠的信息服务,为相关研究提供参考。

关键词(KeyWords): Heritrix和Lucene;信息爬取;网页清洗;全文检索

Abstract:

Keywords:

基金项目(Foundation): 国土资源部项目(2014Z1317)

作者(Author): 黎柯,蔡永香,干佳林,王居远,杨鼎,胡森勇

DOI: 10.16251/j.cnki.1009-2307.2016.03.032

参考文献(References):

扩展功能
本文信息
服务与反馈
本文关键词相关文章
本文作者相关文章
中国知网
分享