本人小萌新一枚,想试着爬取58同城二手房的jingjiren dianhua,打开页面后发现dianhua一栏需要鼠标点击一下才能显示dianhua,如图:
点击后:



看教程就想到了用连续动作来实现,设置了点击动作:

按照描述,点击动作完成后才会执行目标主题名,然而我爬数据时会死循环,爬下多个文件:

第一个文件时没有爬取到dianhua的:

后面文件的都可以爬取到,但信息都一样:


我是想仅爬取一次,我是哪里设置错了呢?
求各位请教~~
非常感谢!
笔芯!

举报 使用道具
| 回复

共 10 个关于本帖的回复 最后回复于 2017-6-22 15:16

沙发
章于同学 新手上路 发表于 2017-6-21 09:01:31 | 只看该作者
规则名:五八同城_二手房_二级页面
举报 使用道具
板凳
gz51837844 管理员 发表于 2017-6-21 09:52:24 | 只看该作者
确实会陷入死循环, 需要技术做进一步分析
举报 使用道具
地板
shengchengx 金牌会员 发表于 2017-6-21 09:55:12 | 只看该作者
修改一下高级设置里面的重复次数就好了,把0改成1


举报 使用道具
5#
章于同学 新手上路 发表于 2017-6-22 08:59:23 | 只看该作者
shengchengx 发表于 2017-6-21 09:55
修改一下高级设置里面的重复次数就好了,把0改成1

您好,首先非常感谢您的帮助!
我按照您的方法把参数改成1之后已经不再进入死循环,但是现在还爬取了两次,分别是点击前爬取一次和点击后爬取一次,这是什么问题呢?
还请您多指教~
举报 使用道具
6#
shengchengx 金牌会员 发表于 2017-6-22 09:50:38 | 只看该作者
章于同学 发表于 2017-6-22 08:59
您好,首先非常感谢您的帮助!
我按照您的方法把参数改成1之后已经不再进入死循环,但是现在还爬取了两次 ...

爬取两次是因为点击前抓取了一次,点击后抓取了一次,可以等抓取完数据之后在Excel表格中做一下去重就好了

举报 使用道具
7#
章于同学 新手上路 发表于 2017-6-22 10:12:18 | 只看该作者
shengchengx 发表于 2017-6-22 09:50
爬取两次是因为点击前抓取了一次,点击后抓取了一次,可以等抓取完数据之后在Excel表格中做一下去重就好 ...

主要两次是生成两个文件而不再同一个文件中,我看爬取过程中,线索那里显示第一次是验证规则,第二次就是连续动作。验证规则那个是可以取消的吗?
举报 使用道具
8#
shengchengx 金牌会员 发表于 2017-6-22 10:19:33 | 只看该作者
章于同学 发表于 2017-6-22 10:12
主要两次是生成两个文件而不再同一个文件中,我看爬取过程中,线索那里显示第一次是验证规则,第二次就是 ...

我的意思是等你吧所有数据都抓取完了之后,在Excel用链接那一列做一下去重,链接相同重复的去掉就可以了
举报 使用道具
9#
shenzhenwan10 金牌会员 发表于 2017-6-22 10:19:44 | 只看该作者
可以用2个规则, 点击前和点击后各用一个
1. 第1个规则: 在连续动作里定义点击动作
2. 第2个规则: 抓取内容
你需要的结果就只用看第2个规则的结果
举报 使用道具
10#
章于同学 新手上路 发表于 2017-6-22 15:15:46 | 只看该作者
shengchengx 发表于 2017-6-22 10:19
我的意思是等你吧所有数据都抓取完了之后,在Excel用链接那一列做一下去重,链接相同重复的去掉就可以了
...

哦哦,这样也可以。谢谢您啦~!
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-20 02:43