本帖最后由 ym 于 2015-9-7 12:54 编辑

新手在一开始,多少会犯一点错误,不过没关系,犯错也是学习的必经阶段,毕竟连高手也是无可避免地会犯错,只要吸取经验,就能掌握到方法。下面会列出一些常见错误,虽然不是很全面,但希望大家能一起补充,为新手菜鸟减少学习障碍。

图1说明规则保存失败,原因可能有:
1. 主题名已经被占用,可以点击“命名主题”窗口的“查重“按钮来判断是否被占用,如果是被占用的话,换一个新的主题名就可以保存规则了。
2. 如果是多层级规则,可能是下级规则的主题名被占用了,换一个下级主题名就可以保存了。
3. 服务器连接中断,看看连接状态是否变成了红色,只有绿色才是连接正常,才能保存规则,关于连接中断的解决方法可以参考http://www.gooseeker.com/doc/thread-259-1-1.html

图1 规则保存失败

图2的错误是指线索无效,原因是爬虫路线中的线索没有映射范围,估计是新建了线索但是忘了做映射,做完线索映射就可以了。

图2 线索无效

造成图3的原因是对抓取内容既做内容映射,又做定位标志映射时,选择的网页节点不是在同一个dom树结构,就会提示这样的错误,这种情况就要对抓取内容清除定位标志映射,再找准目标信息对应的网页节点和选择合适的定位标志来重新映射,这样就能用好定位标志了。

图3 内容映射和标志映射不一致

图4的原因是做了定位标志映射,但是没有勾上高级设置,就会报这样的错误;实际上,对抓取内容作定位标志映射都会自动勾上高级设置,并且默认抓取文本内容,这种报错可能是用户因为误操作而取消了高级设置导致的,只要重新勾上高级设置和选择文本内容就可以了。

图4 要做高级设置

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
举报 使用道具
| 回复

共 2 个关于本帖的回复 最后回复于 2015-9-22 09:53

沙发
ym 版主 发表于 2015-8-31 12:51:02 | 只看该作者
图5是网页紊乱造成火狐崩溃,出现这个提示会导致火狐窗口关闭。

图5

图6是无法定位到网页节点,原因是有些网页的内容不断动态变化,有些内容会消失了,就出现这个问题。如果出现这种问题,在定义抓取规则前,要先在文件菜单中“冻结页面 ”,再“刷新网页结构”,就可以重新定位了。

图6 无法定位节点

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
举报 使用道具
板凳
ym 版主 发表于 2015-9-22 09:53:42 | 只看该作者
当样本网页改变了,就会报下面的错误

图7 样本网页改变

做规则的时候,网址不能变,样本页面这里要保持绿色;如果内容定位没有勾,点击超链接的时候,网页就变了,就能定义规则了,如果要换样本页面,可以在网址框输入新的网址,再去文件菜单里点击刷新网页结构,然后点击后续分析,就可以用当前规则了。


本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • 运行Apple无法验证的程序的方法
  • 文本聚类分析软件的安装和使用方法
  • 利用AI阅读和分析文本:扣子COZE记录用户反
  • 在网页片段内直观标注——以B站评论采集为
  • 利用AI阅读和分析文本:使用COZE建设游记文

热门用户

GMT+8, 2024-12-19 04:10