GS账号:wevolution
求大神们速度帮我看看啊

QQ截图20170405110635.png (148.03 KB, 下载次数: 754)

QQ截图20170405110635.png

QQ截图20170405110254.png (89.23 KB, 下载次数: 718)

QQ截图20170405110254.png
举报 使用道具
| 回复

共 29 个关于本帖的回复 最后回复于 2017-4-6 23:04

沙发
wevolution 高级会员 发表于 2017-4-5 11:25:39 | 只看该作者
有时候可以抓,有时候就会跳进二级页面,然后就失败了,这是为什么?
举报 使用道具
板凳
Fuller 管理员 发表于 2017-4-5 12:23:36 | 只看该作者
不用帖出来你的账号,我需要主题名,你的截图刚好把主题名盖住了,你发一下主题名吧
举报 使用道具
地板
wevolution 高级会员 发表于 2017-4-5 13:04:37 | 只看该作者
Fuller 发表于 2017-4-5 12:23
不用帖出来你的账号,我需要主题名,你的截图刚好把主题名盖住了,你发一下主题名吧 ...

之前做了一次可以了,但是为啥有时候就是不行呢


举报 使用道具
5#
Fuller 管理员 发表于 2017-4-5 14:40:33 | 只看该作者
wevolution 发表于 2017-4-5 13:04
之前做了一次可以了,但是为啥有时候就是不行呢

主题名是什么?
举报 使用道具
6#
Fuller 管理员 发表于 2017-4-5 14:56:05 | 只看该作者
跟这个帖子说的是同一个问题吧? http://www.gooseeker.com/doc/thread-7082-1-1.html

我测试了,没有发现什么问题,你说会调到第二级界面,应该你在爬虫路线工作台上没有修改主题名,所以,第二级也用了第一级的主题名。但是,我逐个检查了,一共24个下级线索,名字都对,你改过?
举报 使用道具
7#
wevolution 高级会员 发表于 2017-4-5 16:37:04 | 只看该作者
可能是之前在一级一面的线索里掺杂了二级页面的线索,然后你们后台是根据会员中心里面线索列表来执行线索的,所以我把二级页面的线索删了就好了,谢谢你
举报 使用道具
8#
Fuller 管理员 发表于 2017-4-5 16:42:19 | 只看该作者
wevolution 发表于 2017-4-5 16:37
可能是之前在一级一面的线索里掺杂了二级页面的线索,然后你们后台是根据会员中心里面线索列表来执行线索的 ...

那就是在做一级规则的时候,忘记修改爬虫路线工作台上的二级主题名了,这种事经常发生,尤其你抓取的内容这么多,会有漏的。

我在想,第一级抓取似乎可以用个有更多嵌套的整理箱,就会大大简化。
1,最里面一层样例复制抓取多个小说的标题
2,再外边一层样例复制抓取 总 月 周
3,在外边一层样例复制抓取竖向的几大栏目
举报 使用道具
9#
wevolution 高级会员 发表于 2017-4-6 11:51:48 | 只看该作者
对的啊,我现在就是多层嵌套,但是如果碰到下面(附图1)这种结构,那么抓取结果就会产生这种结果(附图2),另外可以的话,帮我解决一下这个问题,关于没有具体id/class值的定位表达式,我该怎么写。C:\Users\Administrator\Desktop\GS问题截图
举报 使用道具
10#
Fuller 管理员 发表于 2017-4-6 11:58:35 | 只看该作者
wevolution 发表于 2017-4-6 11:51
对的啊,我现在就是多层嵌套,但是如果碰到下面(附图1)这种结构,那么抓取结果就会产生这种结果(附图2) ...

图看不到,要在“高级模式”下发图
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-23 17:49