快捷导航
规则测试里面有抓取到的数据,但是打数机抓取不到
QQ截图20151014212717.png
QQ截图20151014212504.png
举报 使用道具
| 回复

共 8 个关于本帖的回复 最后回复于 2015-10-16 21:56

gooseeker_info 金牌会员 发表于 2015-10-14 22:08:35 | 显示全部楼层
很有可能没有设置“关键内容”,创建了抓取内容字段以后,把重要的勾上“关键内容”,也就是一定要确保采集到的内容
举报 使用道具
Wadechosen 初级会员 发表于 2015-10-15 20:21:56 | 显示全部楼层
gooseeker_info 发表于 2015-10-14 22:08
很有可能没有设置“关键内容”,创建了抓取内容字段以后,把重要的勾上“关键内容”,也就是一定要确保采集 ...

嗯  确实是这样的
还有一个问题想请教一下,怎样设置才能让生成的xml文件尽量大一点。现在每个xml文件中只有6条记录
举报 使用道具
gooseeker_info 金牌会员 发表于 2015-10-15 20:46:43 | 显示全部楼层
Wadechosen 发表于 2015-10-15 20:21
嗯  确实是这样的
还有一个问题想请教一下,怎样设置才能让生成的xml文件尽量大一点。现在每个xml文件中 ...

一个网页对应一个xml,目前设置不了,可以导入excel时合成一个,这里有个工具:http://www.gooseeker.com/res/tooldetail_1000000003.html
举报 使用道具
Wadechosen 初级会员 发表于 2015-10-15 23:20:16 | 显示全部楼层
gooseeker_info 发表于 2015-10-15 20:46
一个网页对应一个xml,目前设置不了,可以导入excel时合成一个,这里有个工具:http://www.gooseeker.com ...

一个网页对应一个xml,那就是如果一个网页里面有十条记录,那么对应的xml文件里面也应该有十条记录对吗
举报 使用道具
gooseeker_info 金牌会员 发表于 2015-10-15 23:38:29 | 显示全部楼层
Wadechosen 发表于 2015-10-15 23:20
一个网页对应一个xml,那就是如果一个网页里面有十条记录,那么对应的xml文件里面也应该有十条记录对吗 ...

是的
举报 使用道具
Wadechosen 初级会员 发表于 2015-10-16 19:09:31 | 显示全部楼层

那如果我在样例的网页中以第5条评论做规则,那是不是抓取数据的时候就是从每页的第5条开始抓取数据呢
举报 使用道具
gooseeker_info 金牌会员 发表于 2015-10-16 21:13:29 | 显示全部楼层
Wadechosen 发表于 2015-10-16 19:09
那如果我在样例的网页中以第5条评论做规则,那是不是抓取数据的时候就是从每页的第5条开始抓取数据呢 ...

抓取多实例有多种方式,我们常用的是样例复制,那么从第5条开始做规则,就只能从第5条开始。

还有一种:使用定位标志映射。把代表一个样例的@class或者@id映射给整理箱的容器节点(比如,第一个节点),那么凡是含有这个标志的都会被抓取下来
举报 使用道具
Wadechosen 初级会员 发表于 2015-10-16 21:56:26 | 显示全部楼层
gooseeker_info 发表于 2015-10-16 21:13
抓取多实例有多种方式,我们常用的是样例复制,那么从第5条开始做规则,就只能从第5条开始。

还有一种: ...

嗯   谢谢
我再试一下
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Jupyter Notebook使用Python做K近邻(KNN)算
  • 基于层次结构和共现关系的在线评论主题图谱
  • 基于因果机制的用户行为研究及应用
  • 改进的K近邻算法及其在文本分析中的应用
  • Jupyter Notebook使用Gensim库做中文Word2V

热门用户

GMT+8, 2021-9-22 17:11