规则里面对抓取2种数据就出现timeout to load the page.

规则里面对抓取2种数据就出现timeout to load the page.
状态面板显示:VDDPG UPASI
我测试用的2调规则,和以前的用处是一样的:
第一级:cxw_123 抓取商品URL
第二级:cxw_123_11 进入商品详细地址 抓取数据

以前抓取的数据是(名称,价格,销量,同在一个DIV里面)
现在抓取的数据是(店铺ID,名称,价格,销量,评论数,浏览量,宝贝ID) 店铺ID和宝贝ID同属一个DIV 这2个DIV都在BODY里面~~

我按这个顺序抓,出现timeout to load the page.数据能抓几个。
我后来改了一下也不行:店铺ID,list(名称,价格,销量,评论数,浏览量),宝贝ID

不知道抓取的规则哪里出错呢

淘宝宝贝的抓取方法

店铺id和宝贝id所在的DIV与宝贝详细信息所在的div离的太远了。我建议在这个信息结构中另建一个整理箱专门存放店铺id和宝贝id。两个div分别用两个整理箱存储。

另外,店铺id和宝贝id如果不是特别重要的话,不用设置key特性

用了2个整理箱,还是出现timeout to load the page

整理箱table:抓取宝贝的基本信息
整理箱table1:抓取店铺id和宝贝id。

我编辑过程中没设么提示,MAP-测试的时候,是显示出来的

crontab里面写好标题,运行还是出现这个提示timeout to load the page

DataScraper日志的clueid

DataScraper下部的日志窗口中显示timeout提示,有一列显示clueid,记下那个clueid,在MetaStudio中,选择菜单“编辑”-〉“信息结构”-〉“加载”-〉“按线索”,输入这个clueid,MetaStudio会加载并且检查是否符合信息结构。

请告知检查情况

请问在别的电脑上使用已经编的规则抓取数据呢?

我在其他电脑上,安装火狐,安装插件。登陆我的账户。
在本地 只有.datascraper文件夹,没有DataScraperWorks 文件夹。
然后我打开DataScraper 搜索我测试的规则,然后运行,找不到数据。

是不是我要在.datascraper下配置好crontab文件就能抓取数据呢。

MetaSeeker是分布式网络爬虫

MetaSeeker是分布式网络爬虫,可以允许多台DataScraper协同工作,但是,免费在线版对DataScraper的数量有限制,当超过限制,新加一个DataScraper就会将某个现有的DataScraper踢下线。

如果没有超出限制,在新装的DataScraper上配置crontab.xml就可以与其他的DataScraper协同运行。

请问免费版DataScraper最多多少数量呢?

哦,明白了,只要配置好crontab.xml就行(需不需要登陆我的账户呢)

DataScraper配置方法

DataScraper配置方法不变,账号和密码设置方法相同。

因为免费版用大量用户同时在线使用,对连接数的限制比较严格,另外,在线版会定期做抓取线索清理,所以,如果抓取数量很大,建议购买企业版

好强大!

加载之后出现的提示是:
无法定位定容器No.0
无法定位信息属性No.4
太强大了,然后我把这2个 换了free format 就正常了。 谢谢。

整理箱创建多了,会有什么不好的影响吗?(比如创建3个)

整理箱不能删除

目前版本有个缺陷,整理箱只能建立不能删除,创建多了想删除也删除不了。除此之外,没有不好的影响。但是,无论整理箱很多还是单一整理箱很复杂,都容易受网页结构修改的影响。