比如微博页面:
如上图:抓取结果只抓到第一个用户,第二个用户或者第三个用户存在漏抓,请问怎么解决


抓取结果:
<?xml version="1.0" encoding="UTF-8"?>

<shuju>
        <item>
                <昵称>
        Blue巴扎嘿
               
        </昵称>
                <链接>//weibo.com/u/2180641302</链接>
                <微博数量>6786</微博数量>
                <粉丝数量>25万</粉丝数量>
                <关注>164</关注>
                <标签>标签:
               
        美食
                 
               
        时尚
                 
               
        文艺
                 
               
        娱乐
                 
                </标签>
                <简介>简介:
                         一個叫藍意的死肥宅ὢ
                
         </简介>
        </item>
        <item>
                <昵称>
        薇薇欧尼耶
               
        </昵称>
                <链接>//weibo.com/u/3022708703</链接>
                <微博数量>202</微博数量>
                <粉丝数量>86万</粉丝数量>
                <关注>32</关注>
                <标签>标签:
               
        校园生活
                 
                </标签>
                <简介>简介:
                         你我认识从这里开始  ❤
                
         </简介>
        </item>
        <item>
                <昵称>
        生活艺术学
               
        </昵称>
                <链接>//weibo.com/wgbybcom</链接>
                <微博数量>4669</微博数量>
                <粉丝数量>2万</粉丝数量>
                <关注>208</关注>
                <标签>标签:
               
        DIY爱好者
                 
               
        手工
                 
               
        手作达人
                 
               
        居家
                 
               
        木艺
                 
               
        布艺
                 
               
        编织
                 
                </标签>
                <简介>简介:
                         分享生活中的各种艺术,给原本平淡的生活带来意外的惊喜~
                
         </简介>
        </item>
        <item>
                <昵称>
        情言语录
               
        </昵称>
                <链接>//weibo.com/u/2574302242</链接>
                <微博数量>66651</微博数量>
                <粉丝数量>7万</粉丝数量>
                <关注>124</关注>
                <标签>标签:
               
        汽车
                 
                </标签>
                <简介>简介:
                         微信公众号:微奇说 微信ID:vikilife
                
         </简介>
        </item>
        <item>
                <昵称>
        小芥末是卖美瞳的
               
        </昵称>
                <链接>//weibo.com/419930305</链接>
                <微博数量>12005</微博数量>
                <粉丝数量>2万</粉丝数量>
                <关注>1232</关注>
                <标签>标签:
               
        美瞳
                 
               
        Dreamcon
                 
               
        NEO
                 
                </标签>
                <简介>简介:
                         微信ὄ409003731,微博不接受咨询,私信不回复,评论关闭。承诺只售正品。不招代理,无任何分店,仅此一家。相册:http://www.miu777.com
                
         </简介>
        </item>
        <item>
                <昵称>
        全球搞笑经典语录
               
        </昵称>
                <链接>//weibo.com/u/2680369463</链接>
                <微博数量>1725</微博数量>
                <粉丝数量>1万</粉丝数量>
                <关注>1267</关注>
                <标签>教育信息:
               
        北京外国语大学
                 
                </标签>
                <简介>简介:
                         最全的搞笑语录。
                
         </简介>
        </item>
        <item>
                <昵称>
        残桥与路人
               
        </昵称>
                <链接>//weibo.com/234772017</链接>
                <微博数量>770</微博数量>
                <粉丝数量>3万</粉丝数量>
                <关注>134</关注>
                <标签>标签:
               
        人性
                 
               
        情感
                 
               
        音乐
                 
               
        旅游
                 
                </标签>
                <简介>简介:
                         你我不过是一季路人
                
         </简介>
        </item>
        <item>
                <昵称>
        高考冲刺倒计时
               
        </昵称>
                <链接>//weibo.com/526001314</链接>
                <微博数量>1699</微博数量>
                <粉丝数量>1万</粉丝数量>
                <关注>133</关注>
                <标签>标签:
               
        高考直通车
                 
               
        高考倒计时
                 
               
        高考微语录
                 
               
        高考微笑话
                 
               
        高考微资料
                 
               
        广东高考快讯
                 
               
        高考快讯
                 
               
        我要考高分
                 
               
        高考励志馆
                 
               
        高三励志馆
                 
                </标签>
                <简介>简介:
                         微博认证:全博最平易近人,最权威,最励志,最准时的高考倒计时,欢迎考生关注!
                
         </简介>
        </item>
</shuju>


举报 使用道具
| 回复

共 9 个关于本帖的回复 最后回复于 2018-3-2 11:34

沙发
Fuller 管理员 发表于 2018-3-2 09:38:38 | 只看该作者
主题名是什么?没有主题名无法分析你的规则

你可以在“创建规则”工作台上点击“定位”按钮,换成只用class,也许就能解决问题。我估计每条被抓取的内容有唯一性id,所以,要避免这个id被用在规则中,那么就只能抓指定id的了
举报 使用道具
板凳
denglixian 初级会员 发表于 2018-3-2 09:41:51 | 只看该作者
weibo1111123334 这个是主题名
举报 使用道具
地板
denglixian 初级会员 发表于 2018-3-2 09:42:03 | 只看该作者
Fuller 发表于 2018-3-2 09:38
主题名是什么?没有主题名无法分析你的规则

你可以在“创建规则”工作台上点击“定位”按钮,换成只用clas ...

weibo1111123334
举报 使用道具
5#
数据集 高级会员 发表于 2018-3-2 09:43:02 | 只看该作者
样例复制做错了,如果要从第一个用户开始采集,样例复制的节点应该选择第一个样例节点和第二个样例节点
你映射的是第一个样例节点和第五个样例节点了,所以会漏采集

1.png (82.78 KB, 下载次数: 523)

1.png
举报 使用道具
6#
denglixian 初级会员 发表于 2018-3-2 09:46:36 | 只看该作者
Fuller 发表于 2018-3-2 09:38
主题名是什么?没有主题名无法分析你的规则

你可以在“创建规则”工作台上点击“定位”按钮,换成只用clas ...


设置了,结果还是有漏抓
举报 使用道具
7#
denglixian 初级会员 发表于 2018-3-2 09:50:39 | 只看该作者
数据集 发表于 2018-3-2 09:43
样例复制做错了,如果要从第一个用户开始采集,样例复制的节点应该选择第一个样例节点和第二个样例节点
你 ...

感谢回复,但是我这样设置了还是会漏抓
举报 使用道具
8#
数据集 高级会员 发表于 2018-3-2 10:31:16 | 只看该作者
本帖最后由 数据集 于 2018-3-2 10:32 编辑
denglixian 发表于 2018-3-2 09:50
感谢回复,但是我这样设置了还是会漏抓

我加载你的规则看,你还是没有修改过来,修改后要保存规则,修改后应该就没问题了
举报 使用道具
9#
denglixian 初级会员 发表于 2018-3-2 10:37:01 | 只看该作者
数据集 发表于 2018-3-2 10:31
我加载你的规则看,你还是没有修改过来,修改后要保存规则,修改后应该就没问题了
...

为什么你加载的规则和我自己的看到的规则不一样,是因为微博的网页的原因还是软件的原因呀
举报 使用道具
10#
Fuller 管理员 发表于 2018-3-2 11:34:30 | 只看该作者
denglixian 发表于 2018-3-2 10:37
为什么你加载的规则和我自己的看到的规则不一样,是因为微博的网页的原因还是软件的原因呀
...

你的软件版本号是什么?用菜单看版本号  帮助-》关于
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-25 06:28