快捷导航
本帖最后由 meiquanjin 于 2018-7-17 20:50 编辑

1.采集阿里巴巴国际站访客详情,一级页和鼠标点击弹框都有分页,分页是公共模板,弹框显示的数据大于5条时可以下一页,采集二级页面分页数据无法下一页,使用id,class,绝对定位都不行,点击一次二级分页按钮之后,后面的数据采集会一直点击一级页面的分页按钮。详情如图,页面数据都是ajax加载的,一级,二级页面分页,鼠标点击,网站都不会变动。
微信截图_20180717204759.png
2.采集的一二级数据没有关联性的字段,怎么合并数据才行一一对应,采集数据如下?
QQ图片20180717204256.png
微信截图_20180717204353.png
需要的格式:
微信截图_20180717204447.png

紧急求助


微信截图_20180717203835.png
举报 使用道具
| 回复

共 151 个关于本帖的回复 最后回复于 2020-6-10 08:52

maohui 中级会员 发表于 2018-7-17 23:11:37 | 显示全部楼层
关于翻页问题,从你的截图看,一级和二级的翻页的样式一模一样。在爬虫路线工作台上,点击“查看规则”按钮,就能看到用于翻页的xpath,估计两级的xpath也是一模一样。

针对第二级规则,可以按照下面的步骤操作:
1,定义好规则,点击 “存规则”按钮,存好规则
2,点击爬虫路线工作台上的“查看规则”按钮,直接修改翻页用的xpath。一定能与第一级的翻页区分开的,指定为翻页区的那个DOM节点往上找他的祖先节点,一定能看到一个跟第一级的不一样的节点,那么就手工修改xpath,把那个不同的节点包含到xpath中。比如,原先翻页用的xpath是   //* [@class='pagination']//a[text()='下一页'],而代表翻页区的节点的祖先节点有个div[@class='detail'],第一级没有这个节点,那么可以手工把翻页xpath改成 //div[@class='detail'] //* [@class='pagination']//a[text()='下一页']
3,点击“保存修改”按钮,不能用“存规则”按钮,否则会用自动生成的规则冲掉了手工修改的
举报 使用道具
Arie-X 中级会员 发表于 2018-7-17 23:17:59 | 显示全部楼层
怎样将两级的数据联系起来,这里有专门一个教程:http://www.jisouke.com/doc/article-404-1.html
在第一级定义动作的时候,在高级设置的内容表达式那里可以写一个xpath表达式,这个xpath是相对于被点击节点,一般使用./开头,.表示被点击的节点。这样就能为每个被点击的节点存一个标志性内容。这个内容会出现在第二级结果文件的actionvalue中。
这样就能把第二级和第一级联系起来了
举报 使用道具
meiquanjin 初级会员 发表于 2018-7-18 09:50:52 | 显示全部楼层
maohui 发表于 2018-7-17 23:11
关于翻页问题,从你的截图看,一级和二级的翻页的样式一模一样。在爬虫路线工作台上,点击“查看规则”按钮 ...

按照这个方法规则没有保存。这是原二级页翻页规则
11.png

二级页翻页页面结构
微信截图_20180718094334.png
更改成:
微信截图_20180718094909.png
点击保存之后打开还是原来的xpath
举报 使用道具
bowieD 金牌会员 发表于 2018-7-18 10:03:34 | 显示全部楼层
meiquanjin 发表于 2018-7-18 09:50
按照这个方法规则没有保存。这是原二级页翻页规则

1,修改数据规则后,只点击保存修改就可以了,如果再次去点击保存规则,就会冲掉之前修改的数据规则。

2,二级的翻页如果和一级的翻页模式一模一样,可以用连续动作去设置二级翻页试试,不用翻页线索去翻页

举报 使用道具
meiquanjin 初级会员 发表于 2018-7-18 10:17:03 | 显示全部楼层
bowieD 发表于 2018-7-18 10:03
1,修改数据规则后,只点击保存修改就可以了,如果再次去点击保存规则,就会冲掉之前修改的数据规则。

2 ...

我点查看规则进去修改xpath之后就是点击的保存修改,然后在进工作台查看规则还是复原了
举报 使用道具
bowieD 金牌会员 发表于 2018-7-18 10:26:10 | 显示全部楼层
本帖最后由 bowieD 于 2018-7-18 10:28 编辑

修改之后有运行测试过吗?你采集的网页需要登录账号,我们无法加载你的规则进行诊断分析,如果用翻页线索不行,你可以把二级翻页改成用连续动作去点击翻页试试

参考《用连续动作实现翻页点击》
举报 使用道具
Fuller 管理员 发表于 2018-7-18 10:26:45 | 显示全部楼层
meiquanjin 发表于 2018-7-18 10:17
我点查看规则进去修改xpath之后就是点击的保存修改,然后在进工作台查看规则还是复原了
...

工作台上看到的是自动生成的规则,看不到手工修改的
举报 使用道具
meiquanjin 初级会员 发表于 2018-7-18 10:38:58 | 显示全部楼层
Fuller 发表于 2018-7-18 10:26
工作台上看到的是自动生成的规则,看不到手工修改的

手动修改的规则点击保存修改之后不能再点存规则是吗?
举报 使用道具
bowieD 金牌会员 发表于 2018-7-18 10:46:31 | 显示全部楼层
meiquanjin 发表于 2018-7-18 10:38
手动修改的规则点击保存修改之后不能再点存规则是吗?

是的
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-3-19 14:29