主题名:亚马逊图书--gsc

    我想试着抓取亚马逊的图书信息,设置了翻页,现在的情况是在用ds打数机抓取时抓到的都是同一页。仔细看了几遍,都是按照教程来的,没发现问题。
    还有一个情况是在抓完一页之后会自动打开一个新窗口,和打数机的窗口不一样。
举报 使用道具
| 回复

共 14 个关于本帖的回复 最后回复于 2017-4-16 16:37

沙发
shenzhenwan10 金牌会员 发表于 2016-8-29 20:28:19 | 只看该作者
看了你的规则:亚马逊图书--gsc, 这个规则是抓取图书列表页的信息,并且抓取图书网址,用于抓取详细信息。
你的这个规则没有问题。
但是你在爬虫路线里写的下级规则:亚马逊图书--gsc--详情, 这个规则不存在
你需要把这个规则也做好,然后先运行第一级,再运行第二级抓取详情
举报 使用道具
板凳
shenzhenwan10 金牌会员 发表于 2016-8-29 20:38:16 | 只看该作者
翻页有问题,每次翻页都是弹出新的窗口,这个需要再分析下
举报 使用道具
地板
Bukep43 初级会员 发表于 2016-8-29 21:06:39 | 只看该作者
shenzhenwan10 发表于 2016-8-29 20:28
看了你的规则:亚马逊图书--gsc, 这个规则是抓取图书列表页的信息,并且抓取图书网址,用于抓取详细信息。 ...

正在做第二级,现在已经做好了,可以正常用。
谢谢!
举报 使用道具
5#
Bukep43 初级会员 发表于 2016-8-29 21:41:51 | 只看该作者
shenzhenwan10 发表于 2016-8-29 20:38
翻页有问题,每次翻页都是弹出新的窗口,这个需要再分析下

拜托拜托
举报 使用道具
6#
shenzhenwan10 金牌会员 发表于 2016-8-30 09:28:29 | 只看该作者
可以用变通的方法来抓取翻页。
通过分析网址:https://www.amazon.cn/s/ref=lp_6 ... &qid=1472520180
发现网址里的page=2就是指定第几页。
你可以在记事本或excel生成全部的网址,然后把这些网址添加线索到这个规则。
规则里的翻页就取消掉
举报 使用道具
7#
Bukep43 初级会员 发表于 2016-8-30 23:10:40 | 只看该作者
shenzhenwan10 发表于 2016-8-30 09:28
可以用变通的方法来抓取翻页。
通过分析网址:https://www.amazon.cn/s/ref=lp_658810051_pg_2?rh=n%3A6583 ...

点开链接
https://www.amazon.cn/s/ref=lp_6 ... &qid=1472520180
以后是第二页,将..._pg_2...改成..._pg_3...以后,点开链接打开的还是第二页,而不是预期的第三页,但点击下一页翻到第三页以后网址中又确实是..._pg_3...,有点不明白。
或者说,按照您讲的在excel中生成一系列的网址,仅有..._pg_x...不同,然后加到线索中可行吗?仅仅修改一个数字以后打开新的网址并不是期待的下一页啊。。。

刚刚按照这个方法试了一下,复制了八条线索,每条将.._pg_x..中的x改为页数,比如第二条线索是
https://www.amazon.cn/s/ref=lp_6 ... &qid=1472520180
以此类推,结果抓取到的仍然只有第一页。
举报 使用道具
8#
Fuller 管理员 发表于 2016-8-31 08:58:11 | 只看该作者
Bukep43 发表于 2016-8-30 23:10
点开链接
https://www.amazon.cn/s/ref=lp_658810051_pg_2?rh=n%3A658390051%2Cn%3A!658391051%2Cn%3A658 ...

亚马逊的好像不能构造网址,必须要从头翻页,他的网页从第二页开始就是用ajax方式处理的
举报 使用道具
9#
Fuller 管理员 发表于 2016-8-31 09:16:49 | 只看该作者
刚才我测试了一下,用爬虫确实会引起弹出窗口,具体原因还在分析中
举报 使用道具
10#
Bukep43 初级会员 发表于 2016-9-1 20:38:28 | 只看该作者
Fuller 发表于 2016-8-31 09:16
刚才我测试了一下,用爬虫确实会引起弹出窗口,具体原因还在分析中

拜托管理员大大
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-27 13:49