集搜客GooSeeker网络爬虫

标题: href为javascript函数,如何做下级线索? [打印本页]

作者: Luodan    时间: 2016-7-26 15:54
标题: href为javascript函数,如何做下级线索?
我在抓取列表信息的页面发现标题的url是:javascript:void(0);这种情况怎么做下级线索呢?谢谢大家
作者: Luodan    时间: 2016-7-26 15:58
已经找到原因了,因为这个网站比较特殊,是点击产品图片才会进入下一级页面
作者: Fuller    时间: 2016-7-26 16:10
这些没有独立网址的网站,只能用模拟点击或者连续动作,做动作和跳转后即时抓取,不能抓下级线索
作者: ShelleyWu    时间: 2016-9-3 14:50
本帖最后由 ShelleyWu 于 2016-9-3 16:02 编辑
Fuller 发表于 2016-7-26 16:10
这些没有独立网址的网站,只能用模拟点击或者连续动作,做动作和跳转后即时抓取,不能抓下级线索 ...

请问是不是每次的动作跳转都需要映像到当前主题或是指定的主题的整理箱里去采集数据,
有办法做单纯点击的动作吗?
作者: Fuller    时间: 2016-9-3 16:49
ShelleyWu 发表于 2016-9-3 14:50
请问是不是每次的动作跳转都需要映像到当前主题或是指定的主题的整理箱里去采集数据,
有办法做单纯点击的 ...

要抓数据的话,一定要定义主题。如果想连着做几个动作以后再抓数据,就定义连续动作,请看:http://www.gooseeker.com/doc/article-141-1.html
作者: ShelleyWu    时间: 2016-9-3 16:56
Fuller 发表于 2016-9-3 16:49
要抓数据的话,一定要定义主题。如果想连着做几个动作以后再抓数据,就定义连续动作,请看:http://www.g ...

如果连续的几个动作是在不同主题内的能执行吗?

能协助看下这两个主题吗?
第一层: L1_Sim_Click
第二层: L2_Sim_Click
已经做了连续动作, 也设定了xpath
但是页面跳转回第一层的时候, 一直再重复采集一样的, 连续动作的规则不管用阿~~
作者: Fuller    时间: 2016-9-3 17:16
[attach]1436[/attach]
第一级动作规划如上图:

1)要连续点击这些公司名,你的xpath只能定位到一个公司,所以只能点一次。但是你又定义了一个永远滚动的动作,那么这两个动作组合在一起就是永远点第一个。而是应该用这个xpath
  1. //td[@class='board_title02']/a[@class='a1']
复制代码
只需定义一个动作步骤,是点击类型
2)在这一级还应该在爬虫路线工作台上定义一个翻页线索


[attach]1437[/attach]
上图是第二级
1)要用一个动作点击List,返回列表,否则,列表上的连续动作执行不了
2)这个动作的主题名应该指向第一级

这样的动作序列就是:第一级-第二级-第一级-第二级-第一级-.....

作者: ShelleyWu    时间: 2016-9-5 11:27
本帖最后由 ShelleyWu 于 2016-9-6 10:15 编辑
Fuller 发表于 2016-9-3 17:16
第一级动作规划如上图:

1)要连续点击这些公司名,你的xpath只能定位到一个公司,所以只能点一次。但是 ...
这两个主题
第一层: L1_Sim_Click
第二层: L2_Sim_Click
您提到的两个部分, 试过了以后都还是有问题

第一级动作规划的第二点(第一级翻页部分)
   2)在这一级还应该在爬虫路线工作台上定义一个翻页线索

先前试过, 翻页用爬虫规则去执行, 会有断页的问题, 建议使用连续点击
http://www.gooseeker.com/doc/for ... 2410&page=1#pid6760
当时便改为用连续点击去处理这个问题

但是连续点击指向的主题都必须为同一个, 这样我不晓得该只向第几级主题?
也试过了用爬虫(翻页)+连续点击(下级),但是失败了

再者, 第二级部分您说的
   2)这个动作的主题名应该指向第一级
试过以后这个动作会导致返回后永远点第一个, 修改了xpath也一样

他不管是第一级的翻页, 或是第二级的公司下级点击, 都是javascript的跳转, 看教程都是建议使用连续点击的做法。
但是如果连续动作里指向的主题名如果只能有一个,应该如何处理比较好
使用爬虫(翻页)+连续点击(下级)也失败了


这种情况怎么做呢?
谢谢大家


作者: ShelleyWu    时间: 2016-9-6 10:38
Fuller 发表于 2016-9-3 17:16
第一级动作规划如上图:

1)要连续点击这些公司名,你的xpath只能定位到一个公司,所以只能点一次。但是 ...

这两个主题
第一层: L1_Sim_Click
第二层: L2_Sim_Click
您提到的两个部分, 试过了以后都还是有问题

第一级动作规划的第二点(第一级翻页部分)
   2)在这一级还应该在爬虫路线工作台上定义一个翻页线索

先前试过, 翻页用爬虫规则去执行, 会有断页的问题, 建议使用连续点击
http://www.gooseeker.com/doc/for ... 2410&page=1#pid6760
当时便改为用连续点击去处理这个问题

但是连续点击指向的主题都必须为同一个, 这样我不晓得该只向第几级主题?
也试过了用爬虫(翻页)+连续点击(下级),但是失败了

再者, 第二级部分您说的
   2)这个动作的主题名应该指向第一级
试过以后这个动作会导致返回后永远点第一个, 修改了xpath也一样

他不管是第一级的翻页, 或是第二级的公司下级点击, 都是javascript的跳转, 看教程都是建议使用连续点击的做法。
但是如果连续动作里指向的主题名如果只能有一个,应该如何处理比较好
使用爬虫(翻页)+连续点击(下级)也失败了


这种情况怎么做呢?
谢谢大家




欢迎光临 集搜客GooSeeker网络爬虫 (https://www.gooseeker.com/doc/) Powered by Discuz! X3.2