安居客小区页面:https://shanghai.anjuke.com/community/
上海地区一共有31093个小区,安居客每一页有30个小区的概览信息,可以收集详细页面链接。

难题:
1、通过翻页收集,发现只能够翻50页,1500条信息;
2、发现地址有规律:https://shanghai.anjuke.com/community/p页数/ ,但是最大只支持100页,也就是说 ……/p1/ 和……/P100/的结果不相同,后续的……/p101/开始,显示内容与P1祥同,即只能搜集到前3000条信息
3、由于网站元素调整等原因,集搜客的数据DIY无法顺利收集数据

因此,无法高效的通过爬虫进行数据采集工作。


目前唯一的思路是 通过地址细分,根据地区将3万多个小区分解成几十个类来进行收集,以来绕开1500/3000条的信息限制,但是无法找到合适的方法来高效实现这一目的。

举报 使用道具
| 回复

共 7 个关于本帖的回复 最后回复于 2017-10-16 09:23

沙发
ali369 初级会员 发表于 2017-10-13 16:12:33 | 只看该作者
本帖最后由 ali369 于 2017-10-13 17:15 编辑

安居客网站翻页有限制,最多只能翻50页,只能通过你说的那种方式分成很多小类去抓取。
似乎所有单个小区的页面信息都小于1500条信息,可以用连续动作抓取所有小区的网址链接,然后再批量添加网址线索的方式抓取。
举报 使用道具
板凳
carloszone 中级会员 发表于 2017-10-13 16:22:58 | 只看该作者
ali369 发表于 2017-10-13 16:12
安居客网站翻页有限制,最多只能翻50页,只能通过你说的那种方式分成很多小类去抓取。
似乎所有单个的小区 ...

分小类有什么便捷的方法吗?

难道需要每个小类做一个爬虫规则吗? 然后汇总几十个爬虫的网址结果再进行后续抓取?
举报 使用道具
地板
yangwenge 金牌会员 发表于 2017-10-13 16:41:10 | 只看该作者
carloszone 发表于 2017-10-13 16:22
分小类有什么便捷的方法吗?

难道需要每个小类做一个爬虫规则吗? 然后汇总几十个爬虫的网址结果再进行 ...

不需要每个小类都做一个规则,可以用连续动作分别点击各个小类实现抓取
举报 使用道具
5#
bowieD 金牌会员 发表于 2017-10-13 17:17:25 | 只看该作者
carloszone 发表于 2017-10-13 16:22
分小类有什么便捷的方法吗?

难道需要每个小类做一个爬虫规则吗? 然后汇总几十个爬虫的网址结果再进行 ...

用连续动作就可以抓取所有小区的网址线索《连续动作介绍》,不需要对每个小区都做一个规则抓取。
举报 使用道具
6#
bowieD 金牌会员 发表于 2017-10-13 17:43:49 | 只看该作者
本帖最后由 bowieD 于 2017-10-13 17:45 编辑

也可以这么做:
1,定义第一级规则,抓取所有大区域的链接,只有十几个,直接复制下来就可以了。
2,定义第二级规则,抓取大区域下的各个小区域链接,直接映射小区域的链接,做样例复制就能把一个大区域中所有小区的链接全部抓下来,因为每个大区域都有独立的网址且结构相同,拿一个页面做样本规则,然后再直接导入其他大区域的链接就可以抓取所有的小区域链接。
3,定义第三级规则去抓取列表信息,把第二级规则抓下来的所有小区域链接全部导入到第三级规则就能实现全部小区的信息抓取。
这种方法更简单,更容易制作规则。
举报 使用道具
7#
carloszone 中级会员 发表于 2017-10-15 17:45:23 | 只看该作者
bowieD 发表于 2017-10-13 17:43
也可以这么做:
1,定义第一级规则,抓取所有大区域的链接,只有十几个,直接复制下来就可以了。
2,定义第 ...

谢谢 我用的这个方法,不过做了4级:第一级:爬行政区
第二级:爬细分区块
第三级:爬网址
第四季:爬详细信息


因为我还是不太会用连续动作,特别是需要点击两次的这种
第一次点击:选择行政区,出现了细分区块
第二次点击:选择细分区块,出现了小区列表

举报 使用道具
8#
umsung 高级会员 发表于 2017-10-16 09:23:47 | 只看该作者
carloszone 发表于 2017-10-15 17:45
谢谢 我用的这个方法,不过做了4级:第一级:爬行政区
第二级:爬细分区块
第三级:爬网址

就用你的第一种方法就可以了,后期我们会在数据DIY加上这条规则。
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-25 21:40