本帖最后由 ym 于 2015-9-7 12:54 编辑
新手在一开始,多少会犯一点错误,不过没关系,犯错也是学习的必经阶段,毕竟连高手也是无可避免地会犯错,只要吸取经验,就能掌握到方法。下面会列出一些常见错误,虽然不是很全面,但希望大家能一起补充,为新手菜鸟减少学习障碍。
图1说明规则保存失败,原因可能有:
1. 主题名已经被占用,可以点击“命名主题”窗口的“查重“按钮来判断是否被占用,如果是被占用的话,换一个新的主题名就可以保存规则了。
2. 如果是多层级规则,可能是下级规则的主题名被占用了,换一个下级主题名就可以保存了。
3. 服务器连接中断,看看连接状态是否变成了红色,只有绿色才是连接正常,才能保存规则,关于连接中断的解决方法可以参考http://www.gooseeker.com/doc/thread-259-1-1.html
图1 规则保存失败
图2的错误是指线索无效,原因是爬虫路线中的线索没有映射范围,估计是新建了线索但是忘了做映射,做完线索映射就可以了。
图2 线索无效
造成图3的原因是对抓取内容既做内容映射,又做定位标志映射时,选择的网页节点不是在同一个dom树结构,就会提示这样的错误,这种情况就要对抓取内容清除定位标志映射,再找准目标信息对应的网页节点和选择合适的定位标志来重新映射,这样就能用好定位标志了。
图3 内容映射和标志映射不一致
图4的原因是做了定位标志映射,但是没有勾上高级设置,就会报这样的错误;实际上,对抓取内容作定位标志映射都会自动勾上高级设置,并且默认抓取文本内容,这种报错可能是用户因为误操作而取消了高级设置导致的,只要重新勾上高级设置和选择文本内容就可以了。
图4 要做高级设置
|
本帖子中包含更多资源
您需要 登录 才可以下载或查看,没有帐号?立即注册
x
|
|
|
|
共 2 个关于本帖的回复 最后回复于 2015-9-22 09:53