本帖最后由 mz1993 于 2019-1-2 00:07 编辑

我想抓热门微博里的图片,这个是我定义的规则
https://www.gooseeker.com/secure/me/mz1993_preview/share412019.html
主要有2个问题,另外也请大家帮忙看看有没有其他问题
1.抓取下来的是下图那样一张张小的,怎么能抓成上图那样的大图
2.设置了翻页选项,但是想限定页数,怎么设置
谢谢大家


2.PNG (374.69 KB, 下载次数: 652)

2.PNG

捕获.PNG (360.15 KB, 下载次数: 612)

捕获.PNG
举报 使用道具
| 回复

共 5 个关于本帖的回复 最后回复于 2019-1-15 11:19

沙发
Fuller 管理员 发表于 2019-1-2 09:17:02 | 只看该作者
1,关于大图
要抓大图的话,要针对大图的位置做一个抓取内容,用来存大图。进入微博详情页,一组图里面的第一个大图是缺省打开的。在那个位置的图对应一个抓取内容抓下来就可以了。但是你还要做一个连续动作,逐个点击下面的小图,这样才能换图,换图以后再用抓取规则抓大图。

可能还有另外一个方案:大图和小图的网址基本上一样,只是有一点关于图大小的信息用以区分。如果是这样,可以先把小图网址抓下来,用excel把大图网址编辑出来,再导入另一个专门下载图片的规则,下载大图

2,翻页限制只能在爬虫群模式下控制爬虫群模式的教程是:https://www.gooseeker.com/doc/article-197-1.html
在规则管理那里设置调度参数,如下图

举报 使用道具
板凳
mz1993 初级会员 发表于 2019-1-4 16:01:52 | 只看该作者
Fuller 发表于 2019-1-2 09:17
1,关于大图
要抓大图的话,要针对大图的位置做一个抓取内容,用来存大图。进入微博详情页,一组图里面的第 ...

我重新更改了规则
一级规则设置了点击打开每一条微博的链接和翻页https://www.gooseeker.com/secure/me/mz1993_preview/share412712.html
二级规则按您的方法将大图设为抓取内容,并设置了连续点击https://www.gooseeker.com/secure/me/mz1993_preview/share412714.html
然后我运行了一部分,这次是大图了,但是还有一些问题
1.有的图片没有下载下来
2.每一张大图都是一个单个的文件夹,这个是正常的嘛,能不能设置他们在一个文件夹里,方便后续使用
链接是我现在设置的规则,请您再帮看下,非常感谢



捕获.PNG (300.2 KB, 下载次数: 637)

捕获.PNG
举报 使用道具
地板
Fuller 管理员 发表于 2019-1-4 16:23:44 | 只看该作者
mz1993 发表于 2019-1-4 16:01
我重新更改了规则
一级规则设置了点击打开每一条微博的链接和翻页https://www.gooseeker.com/secure/me/m ...

我们是这样规定连续动作的:每做完一轮就产生一个xml结果文件


而每个结果文件都有自己的一个文件夹存图片

这两者结合起来,您的规则就变成了点击一次产生一个文件,放在一个独立的文件夹。根本原因是每轮动作有自己的结果文件。目前这个约定不会改变。

连续动作可以在高级设置里面设置额外延迟,增长一些是否能避免下载到空白图片?如果还有问题,请告诉我两级主题名,最近我们正在升级图片下载功能,看看是不是软件的缺陷
举报 使用道具
5#
mz1993 初级会员 发表于 2019-1-14 16:31:10 | 只看该作者
Fuller 发表于 2019-1-4 16:23
我们是这样规定连续动作的:每做完一轮就产生一个xml结果文件

用您之前的方法成功了,但是抓下来的图片内容不太符合我研究的需要~

我现在想爬一个微博手机端页面上的图片,比如这个网址上的,https://m.weibo.cn/p/2310360009_116.405285_39.904989_8008611000000000000?wm=3333_2001&from=1090093010&sourcetype=weixin&uid=1623970860

目前有两个问题,
1.之前是通过微博发布时间的@href设置下级线索进入微博详情页,但是这个页面我好像没找到,那应该怎么进入详情页呢?
2.我还是想抓原图,但是这个是点击之后另跳出来一个页面是大图,我试了设置连续点击,但是不成功~

请问您这个页面的是不适合抓取,还是我设置规则上哪里有问题?谢谢~

举报 使用道具
6#
shenzhenwan10 金牌会员 发表于 2019-1-15 11:19:24 | 只看该作者
1. 在博主主页的文章列表,或者微博消息搜索结果页面, 每条微博消息都有一个发布时间, 发布时间的@href属性就是详情页链接
2. 你说的抓原图,有没有试做一个规则,如果有可以把主题名贴出来,技术帮你分析下
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-26 12:43