测绘科学

2019, v.44;No.253(07) 122-127+140

[打印本页] [关闭]
本期目录(Current Issue) | 过刊浏览(Past Issue) | 高级检索(Advanced Search)

网络爬虫的专题机构数据空间信息采集方法
Research on spatial information acquisition method of agency data based on Web crawler

杨宇;孙亚琴;闫志刚;

摘要(Abstract):

针对海量专题机构数据空间信息和属性信息缺失的问题,该文使用专题机构信息网站作为信息源,以深度优先策略网络爬虫作为信息获取方法,提出了一种基于网络爬虫框架的专题机构数据空间信息采集方法。在网络爬虫方法关键功能模块中,设计了一种基于词元的字符串相似度矩阵算法来提高机构检索列表匹配准确度,并提出了一种基于决策树模式的行政区划信息识别和抽取算法用以实现地址字符串中行政区划的准确识别和提取。通过具体实现和实验测试,证明该方法能有效地实现专题机构数据空间信息和属性信息的采集,并具有较高的时间效率和准确率,可作为机构数据空间信息采集的一种有效方法。

关键词(KeyWords): 泛在网络;空间信息采集;网络爬虫;矩阵算法;决策树

Abstract:

Keywords:

基金项目(Foundation): 国家自然科学基金青年科学基金项目(41301433);; 中央高校基本科研业务费专项(2017XKQY019)

作者(Author): 杨宇;孙亚琴;闫志刚;

Email:

DOI: 10.16251/j.cnki.1009-2307.2019.07.019

参考文献(References):

扩展功能
本文信息
服务与反馈
本文关键词相关文章
本文作者相关文章
中国知网
分享