本帖最后由 skykate 于 2016-10-25 13:57 编辑

主题名为:user_information_Mafengwo-TS

使用DS打数机“单搜”功能抓取数据时,有两种情况,如下:

1.网页抓取数量输入为1时,可以看到DS打数机在不停的滚屏,直到网页底部,然后会继续加载新的内容,继续滚屏,直到网页结束,如下图尼泊尔;


2.网页抓取数量>=2时,只能看到第一个网页会自动滚屏抓取所有信息;而后续网页只自动滚屏一次,甚至不滚屏(基本都会滚动一次,如中间图),也就是无法抓取后续新加载的内容;

可以看到上面第一个图加载到了网页底部,之后继续加载了新的内容(滚动条也会变短,网页加载了全部信息);第二个图只翻了一页;最后一个图,没有滚屏就跳过了;

我设置的DS打数机相关参数如下,不知问题出现在什么地方:


另外搜索结果会重复三次,这个之前有观看您这边发布的视频资料,应该是用于检测内容的,重复三次会DS打数机会停止运行。

自动滚屏问题不知道出现在哪儿?希望可以得到大家的建议
举报 使用道具
| 回复

共 8 个关于本帖的回复 最后回复于 2016-10-27 12:55

沙发
scraper 论坛元老 发表于 2016-10-25 14:33:24 | 只看该作者
本帖最后由 scraper 于 2016-10-25 14:34 编辑

你是需要采集什么?流程是什么?


还有 你的连续动作指向的主题名还没有定义?
举报 使用道具
板凳
Fuller 管理员 发表于 2016-10-25 15:54:08 | 只看该作者
是的,你的下级规则没有定义,没有进入到下级抓取,DS打数机会报错的,你把规则修改了?

但是,这种错误一般不会影响第二个线索的滚屏。你描述的现象有些奇怪。我现在无法测试,要不你再贴出几个网址,好让我测试一下线索数>=2的情形
举报 使用道具
地板
skykate 中级会员 发表于 2016-10-25 18:52:40 | 只看该作者
scraper 发表于 2016-10-25 14:33
你是需要采集什么?流程是什么?

我采集的是每个用户的足迹,也就是图片上的地点信息(text),连续动作的确还没有定义,这级规则还有点问题,就还没去定义,谢谢啦,我尝试一下定义下一集规则。
举报 使用道具
5#
skykate 中级会员 发表于 2016-10-25 18:55:21 | 只看该作者
本帖最后由 skykate 于 2016-10-25 18:58 编辑
Fuller 发表于 2016-10-25 15:54
是的,你的下级规则没有定义,没有进入到下级抓取,DS打数机会报错的,你把规则修改了?

但是,这种错误一 ...
下级规则的确没有定义
麻烦您啦。。
http://www.mafengwo.cn/path/1000208.html
http://www.mafengwo.cn/path/100200.html
http://www.mafengwo.cn/path/1002920.html
http://www.mafengwo.cn/path/1002986.html
http://www.mafengwo.cn/path/1004244.html
http://www.mafengwo.cn/path/1004753.html
http://www.mafengwo.cn/path/10048.html
http://www.mafengwo.cn/path/1005923.html
http://www.mafengwo.cn/path/10066.html
http://www.mafengwo.cn/path/10067.html
http://www.mafengwo.cn/path/100672.html
http://www.mafengwo.cn/path/1007255.html
http://www.mafengwo.cn/path/1007477.html
http://www.mafengwo.cn/path/1007483.html
http://www.mafengwo.cn/path/1008636.html




举报 使用道具
6#
Fuller 管理员 发表于 2016-10-26 09:16:02 | 只看该作者
skykate 发表于 2016-10-25 18:55
下级规则的确没有定义
麻烦您啦。。
http://www.mafengwo.cn/path/1000208.htmlht ...

我把这几个线索测试了一遍,有只滚动一次的,因为他们的内容太少,还有足迹是0的。

滚动次数即使设置成10,滚到头以后,还会尝试往下滚,实际上是不动的,因为滚不动的。
举报 使用道具
7#
skykate 中级会员 发表于 2016-10-26 09:29:08 | 只看该作者
Fuller 发表于 2016-10-26 09:16
我把这几个线索测试了一遍,有只滚动一次的,因为他们的内容太少,还有足迹是0的。

滚动次数即使设置成1 ...

恩恩,有的内容多的也存在滚不到底部的问题,会看不到网页滚到所有内容;

后面我又发现新的问题了,好像不是因为打数机的原因,而是网页结构的原因:
新加载出的网页在原来的网页结构中并不存在,需要重新加载网页结构才能出现。
“正在加载更多足迹...”这个后面的内容在网页结构中都不出现。

现在在尝试设置连续动作滚屏,然后还需要加载网页结构。但是“正在加载更多足迹...”并不是按钮可以点,滚屏到这里的时候网页会自动加载,而网页结构没。

我在想能不能用悬浮的方式进行,就是类似微博头像中信息抓取,鼠标悬浮到这里的时候,就加载网页结构?所以应该设置两层规则:第一层悬浮和加载网页,第二层再进行抓取?

但是微博的网页结构加载,应该只需要加载一次,列表中所有用户头像的信息就会出现吧?但是每条线索都需要再加载一次的话,应该按照什么方式进行更合适一些?

现在还想解决的就是网页加载的问题,大神指点一下啊!
举报 使用道具
8#
Fuller 管理员 发表于 2016-10-26 18:17:15 | 只看该作者
skykate 发表于 2016-10-26 09:29
恩恩,有的内容多的也存在滚不到底部的问题,会看不到网页滚到所有内容;

后面我又发现新的问题了,好像 ...

我现在担心这个网站自身速度有问题或者因为网速问题造成加载过程会中断,会长时间停留在“正在加载更多足迹....”,很像微博,我们看微博评论的时候经常遇到翻页往下看就中断了。遇到这种情况,爬虫无能为力,因为数据没有从网站上下载下来。

用悬浮的方式能够加载你需要的信息吗?这个要测试才知道行不行,悬浮功能是支持的。做个悬浮动作,再做个下一级规则,悬浮出来内容以后用下级规则抓取内容

网页想再次加载的话,只需把这条线索再次激活就行了。激活方法有多种,一种是用DS打数机的菜单,一种是在会员中心用激活按钮,还有一种是再次添加这条网址也能激活
举报 使用道具
9#
skykate 中级会员 发表于 2016-10-27 12:55:48 | 只看该作者
Fuller 发表于 2016-10-26 18:17
我现在担心这个网站自身速度有问题或者因为网速问题造成加载过程会中断,会长时间停留在“正在加载更多足 ...

应该不是网速的问题,我发现是“刷新网页结构”的问题,新加载的内容在原来的网页结构中不存在,这个需要怎么解决?我重新发帖一下吧,截图给您看一下,求大神指导
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-25 00:43