如图、进入样例网址后是企业首页、需要点击“联系我们”才能显示企业的联系方式。样例网址是http://xiduosp.spdl.com/
“联系我们”的href是linkus.html,并不是完整的http://xiduosp.spdl.com/linkus.html
而我要采集的内容在http://xiduosp.spdl.com/linkus.html下

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
举报 使用道具
| 回复

共 2 个关于本帖的回复 最后回复于 2017-1-21 13:56

沙发
Fuller 管理员 发表于 2017-1-21 12:39:42 | 只看该作者
如果使用层级采集方案,采集第一级的时候,得到是相对网址,那么爬虫会自动拼接成完整网址才生成线索。

还有一种方案,不用做层级采集,因为每个店铺的网页都是linkus.html,那么只要知道店铺网址,就可以把联系我们的网址构造出来,直接添加给他的主题即可
举报 使用道具
板凳
15857228289 初级会员 发表于 2017-1-21 13:56:13 | 只看该作者
了解了,谢谢
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • 话题分析(NMF模型和LDA模型)软件的安装和
  • 运行Apple无法验证的程序的方法
  • 文本聚类分析软件的安装和使用方法
  • 利用AI阅读和分析文本:扣子COZE记录用户反
  • 在网页片段内直观标注——以B站评论采集为

热门用户

GMT+8, 2025-1-10 23:26