问题描述:要采集前程无忧网站近一个月“审计管培生”招聘情况(https://search.51job.com/list/000000,000000,0000,00,9,99,%25E5%25AE%25A1%25E8%25AE%25A1%25E7%25AE%25A1%25E5%259F%25B9%25E7%2594%259F,2,1.html?lang=c&postchannel=0000&workyear=99&cotype=99°reefrom=99&jobterm=99&companysize=99&ord_field=0&dibiaoid=0&line=&welfare=)。执行任务后,采集出来的数据仅为上述网址第1、2页的内容(原网址内容共8页),且采集数据时不会停止,一直在采集重复内容。
任务名称为:审计管培生第一级003 表名为:审计管培生003
还有其它疑问:请问,层级采集后,第一二级的数据是分开不同文件夹存储的吗?有没有办法让它们在采集成功后就整合在一个文件内?
求大神解答,不胜感激!
举报 使用道具
| 回复

共 1 个关于本帖的回复 最后回复于 2021-2-23 16:11

沙发
内容分析应用 金牌会员 发表于 2021-2-23 16:11:33 | 只看该作者
管理员测试了你的规则, 做了如下2点调整后, 翻页是成功的:
1. 翻页偏好改成“偏好Class"
2. 用@class='next'的节点来映射翻页区


本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • 利用AI阅读和分析文本:扣子COZE记录用户反
  • 在网页片段内直观标注——以B站评论采集为
  • 利用AI阅读和分析文本:使用COZE建设游记文
  • 使用AI工具Kimi生成python代码为文本分析结
  • 苹果mac电脑安装集搜客网络爬虫软件失败的

热门用户

GMT+8, 2024-11-23 18:08