快捷导航
怎么爬取百度搜索关键词之后的各结果的网址
举报 使用道具
| 回复

共 6 个关于本帖的回复 最后回复于 6 天前

bowieD 中级会员 发表于 7 天前 | 显示全部楼层
用连续点击动作
1,第一规则中定义输入和点击动作,去输入关键词和点击搜索。
2,第二级规则把搜索出来的结果的网址做内容映射和样例复制,就能抓取百度搜索关键词之后的各结果的网址《连续动作:自动搜索关键词采集信息》
举报 使用道具
Lucky嗨嗨 初级会员 发表于 7 天前 | 显示全部楼层
我想问您一下,我在定义二级规则的时候怎么抓取网址?
举报 使用道具
Lucky嗨嗨 初级会员 发表于 7 天前 | 显示全部楼层

求指教

我就是不明白怎么抓取网页的网址!抓取的网址要么与原网址不一致、要么就没有!
举报 使用道具
Fuller 管理员 发表于 7 天前 | 显示全部楼层
百度搜索结果中的网址是百度自己做了编码的,如果你想要原始网址,必须做一个两层抓取,第一层把编了码的网址抓下来,产生第二层线索,抓第二层时,网址会做一次跳转,DS打数机能把跳转前和跳转后的网址都记录下来
举报 使用道具
Lucky嗨嗨 初级会员 发表于 6 天前 | 显示全部楼层
Fuller 发表于 2017-9-14 18:48
百度搜索结果中的网址是百度自己做了编码的,如果你想要原始网址,必须做一个两层抓取,第一层把编了码的网 ...

我试了一下、第二层怎么设置?还是设置抓取网址吗?再抓一次啊?另外为什么我抓取的第一层的网址数量不够?比如百度搜索一个关键词后第一页出来十个结果,但是我只抓到了七个?这是为什么啊?试了很多遍了、也换了关键词!求指教
举报 使用道具
umsung 中级会员 发表于 6 天前 | 显示全部楼层
本帖最后由 umsung 于 2017-9-15 14:30 编辑

你的规则名是什么?
1,二级规则抓取网址直接映射@href值不行吗?
2,抓取不全一般都是定位不到导致的,可以把定位标志改成决定定位试试,如果不行就做定位标志映射。
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • 从淘宝的买家评论中,能挖掘出什么有用的信
  • 连续动作:如何把抓到的信息与动作步骤对应
  • 淘宝开店运营十大攻略
  • 深圳市咨询投诉分析
  • 去资源库下载规则,轻松抓数据

热门用户

集搜客GooSeeker网络爬虫 ( 粤ICP备11065265号-2 )

GMT+8, 2017-9-21 00:33