本帖最后由 shyc126 于 2017-3-16 15:51 编辑

http://www.tianyancha.com/company/4291266
在这个企业详情的页面中,股东信息、对外投资信息等等都有内部分页,如下图


我的规则是这样的



这个时候第一页和第二页都能够正常抓取,但是就是不会停止,一直在抓取第二页的内容,这个问题不知道该怎么解决?
我的规则名是tyc_search_result_detail_gdxx


举报 使用道具
| 回复

共 6 个关于本帖的回复 最后回复于 2017-3-16 20:58

沙发
ym 版主 发表于 2017-3-16 16:25:42 | 只看该作者
重复采集第二页是因为>依然存在网页上,相对线索的点击依然会定位到它,所以就会重复点击和采集。

解决方法:
这个记号>到了最后一页,class就会改变,就能判断到停止点击的情况,所以你改为记号线索就能正常翻页了
举报 使用道具
板凳
shyc126 中级会员 发表于 2017-3-16 16:43:30 | 只看该作者
ym 发表于 2017-3-16 16:25
重复采集第二页是因为>依然存在网页上,相对线索的点击依然会定位到它,所以就会重复点击和采集。

解决方 ...

我对比了一下,截图如下

我把规则改成下图所示

但这样抓取的时候,只会一直不停的去抓第一页,因为标记打在了li标签上,不在a上

举报 使用道具
地板
shyc126 中级会员 发表于 2017-3-16 16:52:13 | 只看该作者
ym 发表于 2017-3-16 16:25
重复采集第二页是因为>依然存在网页上,相对线索的点击依然会定位到它,所以就会重复点击和采集。

解决方 ...

改成这样

也是一直不停的抓取第一页的内容

举报 使用道具
5#
ym 版主 发表于 2017-3-16 17:31:55 | 只看该作者
你这个网页本来翻页就有点问题,我手工点击翻页,还是显示在第一页里,要多点击几次才会加载出第二页的信息
举报 使用道具
6#
ym 版主 发表于 2017-3-16 18:00:13 | 只看该作者
解决方法:
删掉爬虫路线的翻页设置,改为设置连续动作的点击,写xpath要定位到唯一的翻页按钮节点,另外,高级设置里不勾模拟点击,就可以正常翻页采集
  1. //*[@id='nav-main-holderCount']/following-sibling::*[1]//*[@class='pagination-sm pagination ng-isolate-scope ng-valid']//*[@class='pagination-next ng-scope']/a
复制代码

举报 使用道具
7#
shyc126 中级会员 发表于 2017-3-16 20:58:11 | 只看该作者
本帖最后由 shyc126 于 2017-3-17 13:08 编辑
ym 发表于 2017-3-16 18:00
解决方法:
删掉爬虫路线的翻页设置,改为设置连续动作的点击,写xpath要定位到唯一的翻页按钮节点,另外, ...

非常感谢,但这种方式不管在高级设置中的“重复次数”填几都只能抓2页,像下面这个页面
http://www.tianyancha.com/company/29659645
就不能抓全,不知道还有哪儿需要设置才能抓全数据?

举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-5-2 12:48