最近在抓闲鱼的数据。
第一级就是采集下级链接列表和翻页
可是打数机采集完成之后,统计线索为0.
如果直接运行第二级规则,
直接跳转到验证码页面了。
这个怎么处理啊?
举报 使用道具
| 回复

共 6 个关于本帖的回复 最后回复于 2016-8-18 20:58

沙发
Fuller 管理员 发表于 2016-8-12 23:23:14 | 只看该作者
如果想做两级抓取,首先要看抓到的下一级的网址是不是真实网址,如果是javascript代码,或者单独一个#,那样做两级抓取没有意义。必须要当时就做点击抓取,也就是做连续动作规则
举报 使用道具
板凳
redwindy 中级会员 发表于 2016-8-13 12:14:28 | 只看该作者
Fuller 发表于 2016-8-12 23:23
如果想做两级抓取,首先要看抓到的下一级的网址是不是真实网址,如果是javascript代码,或者单独一个#,那 ...

那么如何分辨是不是JavaScript代码呢?没做过这一块……
举报 使用道具
地板
redwindy 中级会员 发表于 2016-8-13 12:17:03 | 只看该作者
Fuller 发表于 2016-8-12 23:23
如果想做两级抓取,首先要看抓到的下一级的网址是不是真实网址,如果是javascript代码,或者单独一个#,那 ...


得到的都是这种形式的地址,应该算是正常地址吧?
但是一旦使用的话,浏览器地址栏就变成好长好长的地址。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
举报 使用道具
5#
Fuller 管理员 发表于 2016-8-13 15:26:03 | 只看该作者
redwindy 发表于 2016-8-13 12:14
那么如何分辨是不是JavaScript代码呢?没做过这一块……

不用看有没有javascript代码,因为这些代码分散在各处,只需看href中有没有网址就行
举报 使用道具
6#
Fuller 管理员 发表于 2016-8-13 15:27:27 | 只看该作者
redwindy 发表于 2016-8-13 12:17
得到的都是这种形式的地址,应该算是正常地址吧?
但是一旦使用的话,浏览器地址栏就变成好长好长的地址 ...

这是正常的网址,先不用关心地址栏会不会是好长好长,而是重点看网页能否显示出来。

地址栏变长有很多原因,比如,自动跳转
举报 使用道具
7#
redwindy 中级会员 发表于 2016-8-18 20:58:23 | 只看该作者
Fuller 发表于 2016-8-13 15:27
这是正常的网址,先不用关心地址栏会不会是好长好长,而是重点看网页能否显示出来。

地址栏变长有很多原 ...

好的,我试试看先。
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • 话题分析(NMF模型和LDA模型)软件的安装和
  • 运行Apple无法验证的程序的方法
  • 文本聚类分析软件的安装和使用方法
  • 利用AI阅读和分析文本:扣子COZE记录用户反
  • 在网页片段内直观标注——以B站评论采集为

热门用户

GMT+8, 2025-3-12 22:09