本帖最后由 beanbing 于 2016-10-28 11:35 编辑

成功抓取的规则是:oliviapalermo
失败的是kendaljennerinstagram
这两个都是一模一样的规则,但是k这个只能够抓取到第一页,没有进行点击也没有进行滚屏,导致失败
为什么呢?试验了几次都是如此?

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
举报 使用道具
| 回复

共 12 个关于本帖的回复 最后回复于 2016-10-29 11:16

沙发
xandy 论坛元老 发表于 2016-10-28 11:40:29 | 只看该作者
执行动作之后的目标主题名有两个?一个是kendaljennerinstagram,一个是oliviapalermo?
举报 使用道具
板凳
beanbing 中级会员 发表于 2016-10-28 11:54:47 | 只看该作者
不是,这两个是不同的,是个体,但是两个的网页结构,规则都是一样的,但是o成功抓取了,但是K没有成功,我都是按照一样的规则设置的呀
举报 使用道具
地板
xandy 论坛元老 发表于 2016-10-28 12:12:43 | 只看该作者
beanbing 发表于 2016-10-28 11:54
不是,这两个是不同的,是个体,但是两个的网页结构,规则都是一样的,但是o成功抓取了,但是K没有成功,我 ...

这是国外的网址吗?估计要连VPN,加载很慢
举报 使用道具
5#
beanbing 中级会员 发表于 2016-10-28 12:52:32 | 只看该作者
有的,那就是没有错,只能多试几次了?或者是将滚屏速度调慢一点?
举报 使用道具
6#
xandy 论坛元老 发表于 2016-10-28 14:38:47 | 只看该作者
beanbing 发表于 2016-10-28 12:52
有的,那就是没有错,只能多试几次了?或者是将滚屏速度调慢一点?

你做的这两个规则的样本网址不一样,但是它们的网页结构是一样的,你没必要分别做两个相同的规则,在一个规则里添加新的线索就可以了。《通过会员中心添加线索
举报 使用道具
7#
Fuller 管理员 发表于 2016-10-28 17:34:40 | 只看该作者
beanbing 发表于 2016-10-28 12:52
有的,那就是没有错,只能多试几次了?或者是将滚屏速度调慢一点?

我有如下建议:

1,如果两个网页结构有些细微的变化,你可以在同一个主题名下定义两个不同的规则,他们的规则编号不一样,DS打数机运行的时候会自动选择。具体可以参看这篇文章《怎么在同一个主题名下建立多个规则

如果网页结构的语义差别很大,就各自定义主题。主题与语义对应

2,以k开头的那个规则,你没有定义翻页抓取,所以只能抓第一页。虽然网页上没有“下一页”,但是有Load more,作用于“下一页”一样,跟定义“下一页”翻页规则一样

举报 使用道具
8#
beanbing 中级会员 发表于 2016-10-28 18:00:48 | 只看该作者
xandy 发表于 2016-10-28 14:38
你做的这两个规则的样本网址不一样,但是它们的网页结构是一样的,你没必要分别做两个相同的规则,在一个 ...

添加之后就会自动抓取吗还是要在DS中单独一个个打开,还是只需要打开以O命名的就可以了(就是最初的规则)
举报 使用道具
9#
beanbing 中级会员 发表于 2016-10-28 18:02:03 | 只看该作者
Fuller 发表于 2016-10-28 17:34
我有如下建议:

1,如果两个网页结构有些细微的变化,你可以在同一个主题名下定义两个不同的规则,他们 ...

1.有关于翻页抓取的,这个网页结构是只需要点击一次loadmore就会无限滚动的了,所以我这里做了模拟点击来处理,有什么区别吗?
举报 使用道具
10#
Fuller 管理员 发表于 2016-10-28 19:16:13 | 只看该作者
beanbing 发表于 2016-10-28 18:02
1.有关于翻页抓取的,这个网页结构是只需要点击一次loadmore就会无限滚动的了,所以我这里做了模拟点击来 ...

我看到了,你是在“连续动作”那里定义的点击动作。没有必要再连续动作这里做,因为你只需点一次,在爬虫路线那里做,就像做翻页规则一样

在“连续动作”这里做的话,有几个不合理的地方需要修改
1)第一个是点击动作,其实网页上只会点击一次,然后loadmore就没有对吧?那么,要设置“高级设置”,不要选必做。以为点击和滚屏的循环是这样的
点击load more-》滚屏-》点击load more(没有了就失败了)-》滚屏-》点击load more(没有了就失败了)-》滚屏-》....,除了第一次点击,后面的都点击失败


其他还在测试,现在电脑要更新,先存一下盘,这个网页特别怪,竟然不滚屏,MS谋数台初始加载也是有定位不到的节点,要用菜单刷新网页结构后在分析页面才能成功

举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • 360或火绒等杀毒软件导致GooSeeker爬虫软件
  • 话题分析(NMF模型和LDA模型)软件的安装和
  • 运行Apple无法验证的程序的方法
  • 文本聚类分析软件的安装和使用方法
  • 利用AI阅读和分析文本:扣子COZE记录用户反

热门用户

GMT+8, 2025-4-28 17:10