规则测试里面有抓取到的数据,但是打数机抓取不到

QQ截图20151014212717.png (5.74 KB, 下载次数: 584)

QQ截图20151014212717.png

QQ截图20151014212504.png (104.1 KB, 下载次数: 621)

QQ截图20151014212504.png
举报 使用道具
| 回复

共 8 个关于本帖的回复 最后回复于 2015-10-16 21:56

沙发
gooseeker_info 金牌会员 发表于 2015-10-14 22:08:35 | 只看该作者
很有可能没有设置“关键内容”,创建了抓取内容字段以后,把重要的勾上“关键内容”,也就是一定要确保采集到的内容
举报 使用道具
板凳
Wadechosen 初级会员 发表于 2015-10-15 20:21:56 | 只看该作者
gooseeker_info 发表于 2015-10-14 22:08
很有可能没有设置“关键内容”,创建了抓取内容字段以后,把重要的勾上“关键内容”,也就是一定要确保采集 ...

嗯  确实是这样的
还有一个问题想请教一下,怎样设置才能让生成的xml文件尽量大一点。现在每个xml文件中只有6条记录
举报 使用道具
地板
gooseeker_info 金牌会员 发表于 2015-10-15 20:46:43 | 只看该作者
Wadechosen 发表于 2015-10-15 20:21
嗯  确实是这样的
还有一个问题想请教一下,怎样设置才能让生成的xml文件尽量大一点。现在每个xml文件中 ...

一个网页对应一个xml,目前设置不了,可以导入excel时合成一个,这里有个工具:http://www.gooseeker.com/res/tooldetail_1000000003.html
举报 使用道具
5#
Wadechosen 初级会员 发表于 2015-10-15 23:20:16 | 只看该作者
gooseeker_info 发表于 2015-10-15 20:46
一个网页对应一个xml,目前设置不了,可以导入excel时合成一个,这里有个工具:http://www.gooseeker.com ...

一个网页对应一个xml,那就是如果一个网页里面有十条记录,那么对应的xml文件里面也应该有十条记录对吗
举报 使用道具
6#
gooseeker_info 金牌会员 发表于 2015-10-15 23:38:29 | 只看该作者
Wadechosen 发表于 2015-10-15 23:20
一个网页对应一个xml,那就是如果一个网页里面有十条记录,那么对应的xml文件里面也应该有十条记录对吗 ...

是的
举报 使用道具
7#
Wadechosen 初级会员 发表于 2015-10-16 19:09:31 | 只看该作者

那如果我在样例的网页中以第5条评论做规则,那是不是抓取数据的时候就是从每页的第5条开始抓取数据呢
举报 使用道具
8#
gooseeker_info 金牌会员 发表于 2015-10-16 21:13:29 | 只看该作者
Wadechosen 发表于 2015-10-16 19:09
那如果我在样例的网页中以第5条评论做规则,那是不是抓取数据的时候就是从每页的第5条开始抓取数据呢 ...

抓取多实例有多种方式,我们常用的是样例复制,那么从第5条开始做规则,就只能从第5条开始。

还有一种:使用定位标志映射。把代表一个样例的@class或者@id映射给整理箱的容器节点(比如,第一个节点),那么凡是含有这个标志的都会被抓取下来
举报 使用道具
9#
Wadechosen 初级会员 发表于 2015-10-16 21:56:26 | 只看该作者
gooseeker_info 发表于 2015-10-16 21:13
抓取多实例有多种方式,我们常用的是样例复制,那么从第5条开始做规则,就只能从第5条开始。

还有一种: ...

嗯   谢谢
我再试一下
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-20 10:57