我想采集的网页时动态刷新的,这样做规则过程中网页结构变了,前面做的内容映射都失效了,求教大神这种动态网页要怎么做规则啊
举报 使用道具
| 回复

共 3 个关于本帖的回复 最后回复于 2018-4-28 10:32

沙发
quyixuan 金牌会员 发表于 2016-11-14 10:09:11 | 只看该作者
这边其实有个教程专门讲动态网页抓取的,你可以看看
http://www.gooseeker.com/doc/thread-945-1-1.html
举报 使用道具
板凳
Fuller 管理员 发表于 2016-11-21 22:21:01 | 只看该作者
楼上说的是那种时时刻刻在变化的网页,要凝固住,才能定义抓取规则。

通常情况下 ,大家提到动态网页这个词是认为网络爬虫难于处理动态网页,其实对于集搜客网络爬虫来说,不管动态还是静态网页,处理方式都是一样的。不像其他网络爬虫,还要解析html,html是静态的,如果内容是javascript动态生成,普通网络爬虫就不行了,但是不影响集搜客网络爬虫的抓取,而且也不用抓包,用消息分析工具去解析每个消息参数,然后再做模拟。集搜客都不用这么麻烦,都是一致的直观标注,自动生成抓取规则。
举报 使用道具
地板
cnhhhh 新手上路 发表于 2018-4-28 10:32:58 | 只看该作者
楼上请看一下我刚刚发表的帖子,动态内容无法显示,也无法抓取了
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • 运行Apple无法验证的程序的方法
  • 文本聚类分析软件的安装和使用方法
  • 利用AI阅读和分析文本:扣子COZE记录用户反
  • 在网页片段内直观标注——以B站评论采集为
  • 利用AI阅读和分析文本:使用COZE建设游记文

热门用户

GMT+8, 2024-12-27 10:39