评论 qauxjp 2020-3-7 20:52
为什么京东的商品价格爬不下来,只有第一个测试时可以,
<jdbook>
        <item>
                <书名>疯传:让你的产品、思想、行为像病毒一样入侵(樊登博士力荐)</书名>
                <评价数量>5.4万+</评价数量>
                <价格>45.60</价格>
                <卖家>电子工业出版社</卖家>
                <出版信息>[美] 乔纳·伯杰(Jonah Berger) 著 | 电子工业出版社 | 2014-01</出版信息>
        </item>
        <item>
                <书名>流量池</书名>
                <评价数量>13万+</评价数量>
                <价格/>
                <卖家>中信出版社</卖家>
                <出版信息>杨飞 著 | 中信出版社,中信出版集团 | 2018-06</出版信息>
        </item>
        <item>


为甚第2个以后的都是<价格/>  .... ,   我定位用的是:偏好class
评论 Fuller 2019-4-17 15:19
Heart2019: 为什么测试时能够显示出来一页的数据,但是爬取不出来呢?
你在使用交流那里起一个帖子,把主题名贴出来,技术人员帮你诊断:https://www.gooseeker.com/doc/forum-54-1.html
评论 Heart2019 2019-4-17 14:09
为什么测试时能够显示出来一页的数据,但是爬取不出来呢?
评论 Fuller 2018-8-13 10:57
temprani: 你好,这个网址的样例复制映射无效,求解答 <a href="http://scjg.tj.gov.cn/gzfw/zhcx/sphsptjjscxkxxsjcx/index.html" target="_blank">http://scjg.tj.gov.cn/gzfw/zhcx/sphsptjjscxkxxsjcx/index.html</a>
在创建规则工作台上有个“定位”按钮,点开以后,选择偏好class,就能避开唯一性的id,有唯一性的id,样例复制就失效了
评论 temprani 2018-8-13 10:05
你好,这个网址的样例复制映射无效,求解答
http://scjg.tj.gov.cn/gzfw/zhcx/sphsptjjscxkxxsjcx/index.html
评论 太极爬虫 2018-7-24 15:37
Xiao_ze: 抓取失败(超时),抓取规则不合适或者超时时间设置太短,出现这个提示该怎么解决
参考这个教程:怎样解决规则采集失败/遗漏的问题https://www.gooseeker.com/doc/article-272-1.html
评论 Xiao_ze 2018-7-24 15:17
抓取失败(超时),抓取规则不合适或者超时时间设置太短,出现这个提示该怎么解决
评论 bowieD 2017-12-20 11:45
eekeepol: 为什么我出来的结果只有一个呢?
检查一下是否样例复制的节点是否选择正确,选择相邻的两个兄弟区块节点做样例复制,点击测试就能看到全部的列表数据
评论 eekeepol 2017-12-20 11:30
为什么我出来的结果只有一个呢?
评论 umsung 2017-11-27 16:37
ssoonzero: 今天第一次看,感觉不是人用的,完全不符合正常思维啊
刚入门从基础教程开始学起 http://www.gooseeker.com/doc/article-266-1.html
评论 ssoonzero 2017-11-27 16:35
今天第一次看,感觉不是人用的,完全不符合正常思维啊
评论 umsung 2017-11-22 14:04
agreas: 为什么我采集到的列表数据是重复的
是全部重复还是部分重复,是全部重复那就要检查规则是否正确,把定位方式改成绝对定位;部分重复的话,采集列表数据最后一页会有三页重复数据,是正常现象,在excel中去重复。
评论 agreas 2017-11-22 12:22
为什么我采集到的列表数据是重复的
评论 wekrior 2017-11-1 21:59
wekrior: 单个测试的时候是好的。  列表就怕不出数据了。结果都是重复的,求解 样例复制后,爬出来结果如下:  <代码>601668</代码>   <名称>中国建筑</名称>   <最新价> ...
自问自答吧。今天刚开始用的新手。

定位 方式改成绝对定位就OK了。
评论 Fuller 2017-11-1 21:55
wekrior: 单个测试的时候是好的。  列表就怕不出数据了。结果都是重复的,求解 样例复制后,爬出来结果如下:  <代码>601668</代码>   <名称>中国建筑</名称>   <最新价> ...
你到使用交流版块去发,可以发图片,文字,链接,这里是受限的。按照这个帖子的方法,可以解决你的问题:http://www.gooseeker.com/doc/article-232-1.html
评论 wekrior 2017-11-1 21:46
单个测试的时候是好的。

列表就怕不出数据了。结果都是重复的,求解
样例复制后,爬出来结果如下:

<代码>601668</代码>
                <名称>中国建筑</名称>
                <最新价>详情</最新价>
                <今日涨跌幅>详情</今日涨跌幅>
                <主力净流入>详情</主力净流入>
                <主力净占比>详情</主力净占比>
                <超大单净流入>详情</超大单净流入>
                <超大单净占比>详情</超大单净占比>
                <大单净流入>-1.40亿</大单净流入>
                <大单净占比>-1.40亿</大单净占比>
                <中单净流入>-1.40亿</中单净流入>
                <中单净占比>-1.40亿</中单净占比>
                <小单净流入>-1.40亿</小单净流入>
                <小单净占比>-1.40亿</小单净占比>


啊啊为什么发不了评论1111
评论 Fuller 2017-10-17 20:27
laughingduan: 如果是一个下拉列表没有文章,怎么能一直往下拉呢,比如<a href="http://www.meipai.com/square/59?single_column=1" target="_blank">http://www.meipai.com/square/59?single_column=1</a>
我试了试这个网页,在GS浏览器中滚轮就能显示更多内容。你可以先用连续动作中的滚屏动作试试,应该可以。如果不行的话就用滚轮动作。这类采集都归为瀑布流网页采集,教程:http://www.gooseeker.com/doc/article-373-1.html
评论 laughingduan 2017-10-17 19:13
如果是一个下拉列表没有文章,怎么能一直往下拉呢,比如http://www.meipai.com/square/59?single_column=1
评论 wfh8520 2017-8-1 14:43
shenzhenwan10: 可以定义自动翻页, 每翻一页, 就采集一次. 整个过程是自动的
你好,请问如何设置自动翻页呢?我也是一次只能采集到一页的数据。
评论 gz51837844 2017-7-15 13:19
大锅方便面: 请教一下问什么设置好了样例,在浏览器里边的输出规则都能看到网页应该采集的信息,但是运行规则采集的结果文件里边只有一条数据。  这是什么原因造成的呢?谢谢 ...
有可能页面还没有加载完全就执行抓取了,你可以把DS打数机的菜单项:配置-》滚屏参数->滚屏次数 设置成正整数,比如2,再试试抓取
评论 大锅方便面 2017-7-15 12:41
请教一下问什么设置好了样例,在浏览器里边的输出规则都能看到网页应该采集的信息,但是运行规则采集的结果文件里边只有一条数据。  这是什么原因造成的呢?谢谢
评论 何波波 2017-6-28 15:27
潇潇_520: 为什么我的数据好多重复的呢
规则名是什么?到论坛上发个帖子把规则名和问题写上
评论 潇潇_520 2017-6-28 14:51
为什么我的数据好多重复的呢
评论 shenzhenwan10 2017-1-22 21:35
muxi92: 你好,想问一下,这个采集列表数据每次是只能爬一页网页的数据吗
可以定义自动翻页, 每翻一页, 就采集一次. 整个过程是自动的
评论 muxi92 2017-1-22 19:27
你好,想问一下,这个采集列表数据每次是只能爬一页网页的数据吗
12下一页

GMT+8, 2024-5-29 22:31