11#
wangyong 版主 发表于 2016-8-7 18:32:48 | 只看该作者
ray_zhurui 发表于 2016-8-7 16:08
没有规则是不是就不会产生线索?主题tespro规则为空感觉怪怪的

你是想抓营业部里的每个公司吧,现在你的规则里可以正常做到这个,现在遇到的具体问题是什么?
举报 使用道具
12#
Fuller 管理员 发表于 2016-8-7 18:44:43 | 只看该作者
我也刚刚跑了一遍,很正常啊,第一级可以不用定义整理箱
举报 使用道具
13#
ray_zhurui 中级会员 发表于 2016-8-7 20:50:33 | 只看该作者
wangyong 发表于 2016-8-7 18:32
你是想抓营业部里的每个公司吧,现在你的规则里可以正常做到这个,现在遇到的具体问题是什么?
...

查看本地保存的数据发现只看到第一家公司的所有营业部信息。每一个xml文件里面信息都是第一个公司的信息。
举报 使用道具
14#
ray_zhurui 中级会员 发表于 2016-8-7 20:51:47 | 只看该作者
Fuller 发表于 2016-8-7 18:44
我也刚刚跑了一遍,很正常啊,第一级可以不用定义整理箱

查看本地保存的数据发现只看到第一家公司的所有营业部信息。每一个xml文件里面信息都是第一个公司的信息。select的遍历没有工作(主题testpro里的动作2没有给爬虫提供爬取线路)
举报 使用道具
15#
Fuller 管理员 发表于 2016-8-7 21:42:51 | 只看该作者
ray_zhurui 发表于 2016-8-7 20:51
查看本地保存的数据发现只看到第一家公司的所有营业部信息。每一个xml文件里面信息都是第一个公司的信息 ...

因为点击翻页那里总是结束不了,所以,产生很多重复内容,要重复3次才终止,所以有重复的结果文件
举报 使用道具
16#
ray_zhurui 中级会员 发表于 2016-8-7 22:11:40 | 只看该作者
Fuller 发表于 2016-8-7 21:42
因为点击翻页那里总是结束不了,所以,产生很多重复内容,要重复3次才终止,所以有重复的结果文件 ...

testpro2里面的翻页结束不了么?第一家公司的信息少不需要翻页,爬虫没发现?好像没地方设置终止翻页条件
举报 使用道具
17#
Fuller 管理员 发表于 2016-8-7 23:27:44 | 只看该作者
ray_zhurui 发表于 2016-8-7 22:11
testpro2里面的翻页结束不了么?第一家公司的信息少不需要翻页,爬虫没发现?好像没地方设置终止翻页条件 ...

就是因为没设置终止条件,所以需要根据重复内容中断抓取
举报 使用道具
18#
ray_zhurui 中级会员 发表于 2016-8-7 23:47:01 | 只看该作者
本帖最后由 ray_zhurui 于 2016-8-7 23:48 编辑
Fuller 发表于 2016-8-7 23:27
就是因为没设置终止条件,所以需要根据重复内容中断抓取

哪里可以设置?比如我想设置单页显示行数小于50就终止翻页
举报 使用道具
19#
Fuller 管理员 发表于 2016-8-8 09:21:35 | 只看该作者
举报 使用道具
20#
ray_zhurui 中级会员 发表于 2016-8-8 10:50:32 | 只看该作者
本帖最后由 ray_zhurui 于 2016-8-8 10:52 编辑
Fuller 发表于 2016-8-8 09:21
怎样中断看这里:http://www.gooseeker.com/doc/article-148-1.html
在会员中心控制的方法是:http://www.g ...

DS里设置了检测到重复就终止线索,现在testpro里的select2可以开始遍历了,但是感觉不算完美解决问题。抓取的数据有重复的部分要手动删除。修改xpath的方法也不是每个网页的@class都有标识disable类似的字符。还有没更灵活的方法?
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-5-7 00:54