快捷导航
       在获得了文献链接的xml文件之后,已经在规则管理中添加进去了,第四个规则根据链接爬具体论文信息像作者,关键词这样的,怎样一次把所有的作者,关键词等爬下来放在xml的一个单元格里。我这边暂时用的是样例复制,但是样例复制得到的多个作者,多个关键词是在多个单元格里,是列表一样的形式,不知道怎么合并

每个线索爬得的xml

每个线索爬得的xml

规则

规则

规则检测输出

规则检测输出
举报 使用道具
| 回复

共 4 个关于本帖的回复 最后回复于 2019-7-10 12:36

shengchengx 金牌会员 发表于 2017-6-27 17:31:16 | 显示全部楼层
举报 使用道具
wangyong 版主 发表于 2017-6-27 17:50:05 | 显示全部楼层
将包含所有关键词的网页标签节点做映射,参看教程:《如何抓取网页片段完整信息
举报 使用道具
tq_willers 新手上路 发表于 2017-6-27 18:53:19 | 显示全部楼层
wangyong 发表于 2017-6-27 17:50
将包含所有关键词的网页标签节点做映射,参看教程:《如何抓取网页片段完整信息》 ...

这样的方法我之前试过了,这样确实在一起,但是不同的作者,机构之间没有标识符隔开,也就是text节点之间无法用标识符隔开,能不能加上个标识符?

通过父节点爬取

通过父节点爬取
举报 使用道具
Fuller 管理员 发表于 2019-7-10 12:36:35 | 显示全部楼层
集搜客现在有知网快捷采集工具,不需要自己做采集规则了。输入关键词即可采集。
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • 为什么采集速卖通用户评论翻页不了
  • 多级规则执行连续动作而输入动作不在第一级
  • 特征工程入门介绍
  • NLP文本情感分析入门
  • 机器学习算法入门介绍

热门用户

GMT+8, 2019-11-12 08:47