有困难了 ,遇到这种情况,url抓取不了,怎么办?
详情请看附件中的图片,万分感谢!急用,谢谢啦!

困难-求助!.rar

82.33 KB, 下载次数: 8

举报 使用道具
| 回复

共 20 个关于本帖的回复 最后回复于 2015-10-30 12:34

沙发
ym 版主 发表于 2015-10-21 18:13:47 | 只看该作者
用MS谋数台做规则时,图片的网址就是在@src节点里,就像采集网址那样做内容映射就可以了,参考教程http://www.gooseeker.com/doc/article-132-1.html
举报 使用道具
板凳
gooseeker_info 金牌会员 发表于 2015-10-21 18:45:16 | 只看该作者
ym 发表于 2015-10-21 18:13
用MS谋数台做规则时,图片的网址就是在@src节点里,就像采集网址那样做内容映射就可以了,参考教程http://w ...

补充一下,如果网页很长,比如,京东的商品列表,一开始只是前面的几行图片网址放在src中,一定要打开滚屏抓取,滚屏到下面的时候,后续的@src都会有实际的网址信息,不滚屏抓不到url
举报 使用道具
地板
larklee2015 初级会员 发表于 2015-10-21 21:55:28 | 只看该作者
我要抓的是某网页中列表的超级链接,不是图片网址。
微贷网,首页的列表,帮我看看吧,万分感谢!
举报 使用道具
5#
gooseeker_info 金牌会员 发表于 2015-10-21 22:00:36 | 只看该作者
larklee2015 发表于 2015-10-21 21:55
我要抓的是某网页中列表的超级链接,不是图片网址。
微贷网,首页的列表,帮我看看吧,万分感谢! ...

我建议先看一下入门教程,因为抓网址是最基本的技能:http://www.gooseeker.com/doc/article-143-1.html
举报 使用道具
6#
larklee2015 初级会员 发表于 2015-10-22 21:49:12 | 只看该作者
@href的内容为#,怎么办?抓不到它的地址,求大神帮忙!百度搜“微贷网”,谢谢谢谢!
举报 使用道具
7#
larklee2015 初级会员 发表于 2015-10-22 21:51:44 | 只看该作者
还有,@onclick倒是有个值为“___GoURL('/ind/bidinfo.html?id=295882');return false;”,怎么才能给把网址加全了,有办法吗?
举报 使用道具
8#
Fuller 管理员 发表于 2015-10-22 22:26:45 | 只看该作者
larklee2015 发表于 2015-10-22 21:51
还有,@onclick倒是有个值为“___GoURL('/ind/bidinfo.html?id=295882');return false;”,怎么才能给把网 ...

刚才试了一下,微贷网停机维护,明天再试。

如果@href是#,那么就是用javascript的动作代替了超链接。如果一个网页上只有一个这样要点的链接,就用模拟点击就行了。如果在一个网页上有一片这样的链接要挨个点,刚刚发布的连续动作功能可以试试。但是,能否适用,要看点了以后会是什么样子,如果点了以后出现浮动窗口,那就能连续动作,如果是进入另一个网页,不能用连续动作,那就暂时解决不了了
举报 使用道具
9#
larklee2015 初级会员 发表于 2015-10-23 19:21:50 | 只看该作者
谢谢,大师,明天帮忙试试吧!万分感谢!
举报 使用道具
10#
gooseeker_info 金牌会员 发表于 2015-10-23 21:09:41 | 只看该作者
把___GoURL('/ind/bidinfo.html?id=295882');return false; 这个作为内容采集下来,把里面的/ind/bidinfo.html?id=295882 提取出来,就能构造出下级页面的网址。可以把抓取结果导入excel后,在excel中做这个事情,然后把生成的网址通过DS打数机的“添加”菜单,把网址加入
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-24 19:12