我的采集任务是“油气储运检索结果”,采集网址是:http://yqcy.paperonce.org/oa/default.aspx?q=%B9%DC%B5%C0%CD%EA%D5%FB%D0%D4
检索结果是124条,但是只抓取到了60多条,请问怎么解决?
举报 使用道具
| 回复

共 5 个关于本帖的回复 最后回复于 2021-10-27 11:41

沙发
Fuller 管理员 发表于 2021-10-27 10:54:35 | 只看该作者
我加载分析了你的任务,这个规则只采集了一个网页。你的任务是怎么运行的?给这个任务添加很多网址吗?还是利用上级任务输入检索条件?
举报 使用道具
板凳
z417566919 中级会员 发表于 2021-10-27 10:56:12 | 只看该作者
Fuller 发表于 2021-10-27 10:54
我加载分析了你的任务,这个规则只采集了一个网页。你的任务是怎么运行的?给这个任务添加很多网址吗?还是 ...

利用上级的任务输入的搜索关键词
举报 使用道具
地板
Fuller 管理员 发表于 2021-10-27 11:09:09 | 只看该作者
这个网页上,每条内容的结构有些变化,如下图

有的标题是在A节点下面的P节点中,有的就在A中,论文作者字段也是这种情况,所以,要重新做内容映射,不要选下面的节点,用上一级节点,适应性就更强


如上图,用红色箭头指向的节点做内容映射,不要用蓝色箭头指向的节点。在DOM树上,选中这个节点,选择鼠标右键菜单,用内容映射调整这些字段的映射关系
举报 使用道具
5#
z417566919 中级会员 发表于 2021-10-27 11:28:05 | 只看该作者
本帖最后由 z417566919 于 2021-10-27 11:41 编辑
Fuller 发表于 2021-10-27 11:09
这个网页上,每条内容的结构有些变化,如下图

有的标题是在A节点下面的P节点中,有的就在A中,论文作者字 ...

非常感谢!!

123.jpg (185.02 KB, 下载次数: 719)

123.jpg
举报 使用道具
6#
z417566919 中级会员 发表于 2021-10-27 11:41:20 | 只看该作者
已解决!谢谢
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-5-4 14:20