我想请问下如何搜索网页,多少页到多少页   之间的数据?不是教程上从首页开始搜索呢?爬虫新手求解答.....
举报 使用道具
| 回复

共 4 个关于本帖的回复 最后回复于 2019-8-11 23:56

沙发
Fuller 管理员 发表于 2019-8-11 15:01:51 | 只看该作者
如果网址中含有页码,那么直接构造一个那一页的网址给爬虫

如果翻页区可以输入页码,那么做连续动作,输入页码跳转到那一页。

否则就得从头开始翻页
举报 使用道具
板凳
2889257649 新手上路 发表于 2019-8-11 17:04:44 | 只看该作者
Fuller 发表于 2019-8-11 15:01
如果网址中含有页码,那么直接构造一个那一页的网址给爬虫

如果翻页区可以输入页码,那么做连续动作,输入 ...

很感谢回复!!
是我想要开始爬的页数是426,也就是这个网址:https://weibo.com/3082733222/profile?is_search=0&visible=0&is_all=1&is_tag=0&profile_ftype=1&page=426#feedtop
放在集搜客网页识别的时候,自动变成:https://e.weibo.com/v1/eps/dashboard?page_id=1006063082733222&time=1565514000&sign=f92c5acf2a85c3ff75e221bd6939bee7&fs=&flid=&_random=156551467790410  这样的,是另一个页面的网址,没有数据,没办法继续爬下去。。该怎么办呀?要是从第一页开始爬,前面有几百页不需要的数据

举报 使用道具
地板
Fuller 管理员 发表于 2019-8-11 20:56:09 | 只看该作者


选择年月以后,就能看到网址变化,把所有时间段都细分到月,网址可以按照规律构造出来,这样就很容易抓取了。如果不细分成多段,想一口气翻页到底几乎是不可能的,网络是很不稳定的
举报 使用道具
5#
2889257649 新手上路 发表于 2019-8-11 23:56:42 | 只看该作者
Fuller 发表于 2019-8-11 20:56
选择年月以后,就能看到网址变化,把所有时间段都细分到月,网址可以按照规律构造出来,这样就很容易抓取 ...

好的好的!按照您说的方法,问题已解决,太感谢您了~~要不然总是中断,谢谢您~

举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-19 17:15