集搜客摘录软件的用途之一:从各级政府发布的工作报告中摘取数字,用于建立经济分析模型。集搜客数据采集团队已经摘录加工了全国所有县市的政府工作报告、预决算报告、统计公报,将其中的数字摘录下来存成结构化的excel表格。 集搜客摘录软件V1和V2版本只是集搜客数据采集团队内部使用的工具,从V3版本开始,陆续把一些重要功能开放出来。目前是V3.0.9版本,下载位置是: V3.0.9版本有一个缺陷:如果网页的html中含有看起来像html命名空间的标签时,摘录的内容要再次复现到网页上就失败了。比如,泉港区政府工作报告的网页中含有这样的看起来像命名空间的标签: 这个st1:chsdate标签包含了“2016”这个年份内容,要摘取下来就得解析这个标签,这个标签看起来像命名空间,但是又不是合法的命名空间,所以导致摘取失败。 在V3.0.13版重点解决了这个问题。 |