1、按教程配置了一下,发现翻页似乎不起作用。又观察了一段时间,发现DS打数机每隔6分钟会存下来一个页面,与此同时不管在界面上点什么,所有弹出框都是秒退。这是说明后台翻页还在继续运行吗?
2、每隔6分钟存下来的页面都是一模一样的,翻页还是不起作用。
3、对于同一个规则添加了多条线索以后,怎么删除其中特定的一条?不会要撤销重新添加吧?
4、抓取失败的线索怎么查看失败原因?有日志吗?
5、退出DS打数机重新进入之后,日志窗口中间的东西都清空了,还能再找到历史执行日志吗?
举报 使用道具
| 回复

共 15 个关于本帖的回复 最后回复于 2015-9-30 16:59

沙发
ym 版主 发表于 2015-9-30 15:32:29 | 只看该作者
说明翻页失败,规则的翻页线索有问题,6分钟是超时时长的缺省值,超时时长是抓取网页的时候,加载目标网页命令发出以后将等待一段时间,以确保网页内容全面下载,这就是超时时长参数,以秒为单位。如果超过这个时间还没有将需要的内容加载到打数机中,就会在打数机底部日志窗口显示一条错误提示。详细说明http://www.gooseeker.com/doc/article-70-1.html, 可以去配置菜单里修改这个参数。

日志在DS打数机底部就有,详细的日志历史要去.metaseeker文件夹里看.metaseeker.log.txt文件
举报 使用道具
板凳
smthsiwei 初级会员 发表于 2015-9-30 15:40:09 | 只看该作者
下载了网站上那个京东的翻页案例。比较了一下线索规则,除了theme和name之外,只有这一行不同:
京东://*[@class='m clearfix']//a[.//text()="下一页"]
我的://*[.//text()="下一页" and @class='div-pager']

按京东的改了一下,改成
//*[@class='div-pager']//a[.//text()="下一页"]

还是不行!

这信息太少,没法调试啊,也不知道错哪了。
举报 使用道具
地板
smthsiwei 初级会员 发表于 2015-9-30 15:40:52 | 只看该作者
试了一下,京东的这个样例倒是确实能跑。
举报 使用道具
5#
smthsiwei 初级会员 发表于 2015-9-30 15:44:59 | 只看该作者
而且,改了线索规则以后保存修改->存规则没有用,退出MS谋数台再进入,还是原先的
//*[.//text()="下一页" and @class='div-pager']

是不是没存上?这地方怎么才能存上?
举报 使用道具
6#
Fuller 管理员 发表于 2015-9-30 16:08:52 | 只看该作者
smthsiwei 发表于 2015-9-30 15:44
而且,改了线索规则以后保存修改->存规则没有用,退出MS谋数台再进入,还是原先的
//*[.//text()="下一页"  ...

直接在MS谋数台的下部窗口“线索规则”上手工修改的?如果在这里修改,请注意,每次点击工具条上的“存规则”就会把手工设置清掉。

所以,一定要注意,手工修改的会被自动生成的清掉。只能在存规则以后,再次手工修改,然后点击“线索规则”窗口的“保存”按钮。

未来版本会修改这个操作问题
举报 使用道具
7#
Fuller 管理员 发表于 2015-9-30 16:09:39 | 只看该作者
smthsiwei 发表于 2015-9-30 15:40
下载了网站上那个京东的翻页案例。比较了一下线索规则,除了theme和name之外,只有这一行不同:
京东://*[ ...

样本网址是什么?你的规则是手工修改的?还是自动生成的?
举报 使用道具
8#
smthsiwei 初级会员 发表于 2015-9-30 16:22:15 | 只看该作者
我看了一下,这个网站的翻页条是一个DIV(class='div-pager')里边套了另一个DIV(class='pager')再套了多个SPAN,其中下一页这个span的class='nu page '
试了下
//*[.//text()="下一页" and @class='div-pager']
//*[.//text()="下一页" and @class='pager']
//*[.//text()="下一页" and @class='nu page ']
都不行,黔驴技穷了  -_-

按@Fuller的说法,先点工具条上的存规则再在线索规则页面"保存修改",然后"爬数据",还是一样,DS打数机滚动完成页面以后就变白页面了,没接着往下翻。不过似乎统计线索归类为成功了,没统计成失败。
举报 使用道具
9#
smthsiwei 初级会员 发表于 2015-9-30 16:22:59 | 只看该作者
举报 使用道具
10#
smthsiwei 初级会员 发表于 2015-9-30 16:24:59 | 只看该作者
不能在工作台->爬虫路线页面点"查看"是吗?
一点这个,刚才手工改过的线索规则也没有了。
这完全就看不出来到底有没有改成功啊。
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-25 08:47