10 20115

求助~链家租房网页翻页失败

riolaw 于 2018-2-15 00:55 发表 [复制链接]
记号和相对我都试过了,但是无法翻页?爬取只有一页的数据
另外这个多少人看过房爬出来总是租金的字段,但我明明选择的是看过房人数的text呀?
规则:链家广州地铁租房
1.png
2.png
举报 使用道具
| 回复

共 10 个关于本帖的回复 最后回复于 2021-5-26 15:24

wangyong 版主 发表于 2021-5-26 15:24:29 | 显示全部楼层
集搜客快捷采集中有链家租房网的快捷采集,在集搜客数据管家中输入链接就可以采集。1,在数据管家中进入快捷采集选择链家租房列表,输入要采集的链接,点击获取数据
数据管家-链家租房.png
2,在快捷采集管理页面中,看到采集状态为“已采集”时,点击点吧按钮导出Excel数据
快捷采集-后台.png
3,Excel数据展示
租房列表Excel.png
4,如果需要继续采集下一级的数据,可以将采集到的“链接”字段添加到链家租房详情
快捷采集-后台.png

举报 使用道具
Fuller 管理员 发表于 2018-2-15 08:21:57 | 显示全部楼层
看过此房 抓取不对的原因如下图:
租金和看过此房对应的DOM节点都含有@class=num,MS谋数台在生成采集规则的时候尽量采用class和id作为定位标志,如果两个节点的class相同,就会搞混。一种简单的解决方法是在“创建规则”工作台上点击“定位”按钮,设置成只用id,就能避开不合适的class值。还有一种更好的方法,手工做指定定位标志,如下图,选中含有class的那个dom节点,点击鼠标右键,选择定位标志映射,给租金和看过此房分别映射不同的定位标志。
定位标志.png

举报 使用道具
Fuller 管理员 发表于 2018-2-15 08:26:33 | 显示全部楼层
我看你现在用的是相对线索,我测试了没有问题。我估计是你没有打开滚屏。在DS打数机菜单 配置-》滚屏参数,把滚屏次数设置成大于0的数字,比如2,就开始滚屏了,如果不滚屏,可能这个页面是动态的,翻页区就无效,那么就翻不了页
举报 使用道具
riolaw 初级会员 发表于 2018-2-15 11:58:48 | 显示全部楼层
Fuller 发表于 2018-2-15 08:26
我看你现在用的是相对线索,我测试了没有问题。我估计是你没有打开滚屏。在DS打数机菜单 配置-》滚屏参数, ...

谢谢解惑~我试过设置大于0和2,翻页好像也不成功,但是我看到资源里有人做了链家的爬取,应该能爬的
举报 使用道具
Fuller 管理员 发表于 2018-2-15 12:58:55 | 显示全部楼层
riolaw 发表于 2018-2-15 11:58
谢谢解惑~我试过设置大于0和2,翻页好像也不成功,但是我看到资源里有人做了链家的爬取,应该能爬的
...

你的规则我测试过了,能翻页。

链家有现成的采集工具:http://www.gooseeker.com/res/dat ... =%E9%93%BE%E5%AE%B6

这里是用法攻略:http://www.gooseeker.com/doc/thread-6097-1-1.html
举报 使用道具
riolaw 初级会员 发表于 2018-2-15 13:41:54 | 显示全部楼层
Fuller 发表于 2018-2-15 12:58
你的规则我测试过了,能翻页。

链家有现成的采集工具:http://www.gooseeker.com/res/datadiy.html?cate ...

我爬了只有60条数据?
我测试了不能翻页呀?我也是设置了2的。结果只有一页的数据
举报 使用道具
Fuller 管理员 发表于 2018-2-15 14:39:34 | 显示全部楼层
riolaw 发表于 2018-2-15 13:41
我爬了只有60条数据?
我测试了不能翻页呀?我也是设置了2的。结果只有一页的数据
...

刚才我又重新加载了你的规则,翻页没有问题。

你的DS打数机运行的时候,抓取完第一页以后有没有显示什么日志?有没有看到在自动滚屏?

要么就是你曾经修改过什么设置,一些不合适的设置,应该会在DS打数机窗口的下部的日志窗口中显示出来提示。如果难于判断修改过什么,可以直接删除掉.metaseeker文件夹。那么重新运行GS浏览器的时候会再次提示你输入账号和密码,这样就把以前的设置全部恢复成原始设置了。

我看到你很久以前就下载了软件,很可能有什么特别的设置影响了爬虫的运行。
举报 使用道具
riolaw 初级会员 发表于 2018-2-15 16:33:59 | 显示全部楼层
Fuller 发表于 2018-2-15 14:39
刚才我又重新加载了你的规则,翻页没有问题。

你的DS打数机运行的时候,抓取完第一页以后有没有显示什么 ...

就是说搜集到的线索只有一条,没有其他报错信息了,就是只能抓取到第一页的数据。我按你操作找了一下,没有你说的文件夹,我可不可以卸载了集搜客重新安装,这样子行不行呢?谢谢你的回复



3.png
举报 使用道具
Fuller 管理员 发表于 2018-2-15 17:28:15 | 显示全部楼层
riolaw 发表于 2018-2-15 16:33
就是说搜集到的线索只有一条,没有其他报错信息了,就是只能抓取到第一页的数据。我按你操作找了一下,没 ...

我建议你按照这样的步骤做清理
1,卸载GS网络爬虫软件。用Windows操作系统的程序管理做卸载,不要用电脑管家
2,按照这个帖子找到AppData文件夹,把GooSeeker目录删除:http://www.gooseeker.com/doc/thread-1348-1-1.html
3,按照这个帖子,删除配置文件。可以将整个.metaseeker文件夹删除

至此,GS网络爬虫就清理干净了。

重新安装最新版本
举报 使用道具
riolaw 初级会员 发表于 2018-2-16 01:57:54 | 显示全部楼层
Fuller 发表于 2018-2-15 17:28
我建议你按照这样的步骤做清理
1,卸载GS网络爬虫软件。用Windows操作系统的程序管理做卸载,不要用电脑 ...

成功了,谢谢
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-3-29 17:37