规则里面对抓取2种数据就出现timeout to load the page.

Tue, 05/28/2013 - 13:57 — lovesmile

规则里面对抓取2种数据就出现timeout to load the page.
状态面板显示：VDDPG UPASI
我测试用的2调规则,和以前的用处是一样的：
第一级:cxw_123 抓取商品URL
第二级：cxw_123_11 进入商品详细地址抓取数据

以前抓取的数据是（名称，价格，销量，同在一个DIV里面）
现在抓取的数据是（店铺ID，名称，价格，销量，评论数，浏览量，宝贝ID）店铺ID和宝贝ID同属一个DIV 这2个DIV都在BODY里面~~

我按这个顺序抓，出现timeout to load the page.数据能抓几个。
我后来改了一下也不行：店铺ID，list（名称，价格，销量，评论数，浏览量），宝贝ID

不知道抓取的规则哪里出错呢

MetaSeeker工具包

Tue, 05/28/2013 - 15:00 — Fuller

淘宝宝贝的抓取方法

店铺id和宝贝id所在的DIV与宝贝详细信息所在的div离的太远了。我建议在这个信息结构中另建一个整理箱专门存放店铺id和宝贝id。两个div分别用两个整理箱存储。

另外，店铺id和宝贝id如果不是特别重要的话，不用设置key特性

Tue, 05/28/2013 - 16:52 — lovesmile

用了2个整理箱，还是出现timeout to load the page

整理箱table：抓取宝贝的基本信息
整理箱table1：抓取店铺id和宝贝id。

我编辑过程中没设么提示，MAP-测试的时候，是显示出来的

crontab里面写好标题，运行还是出现这个提示timeout to load the page

Tue, 05/28/2013 - 17:26 — Fuller

DataScraper日志的clueid

DataScraper下部的日志窗口中显示timeout提示，有一列显示clueid，记下那个clueid，在MetaStudio中，选择菜单“编辑”-〉“信息结构”-〉“加载”-〉“按线索”，输入这个clueid，MetaStudio会加载并且检查是否符合信息结构。

请告知检查情况

Tue, 05/28/2013 - 20:40 — lovesmile

请问在别的电脑上使用已经编的规则抓取数据呢？

我在其他电脑上，安装火狐，安装插件。登陆我的账户。
在本地只有.datascraper文件夹，没有DataScraperWorks 文件夹。
然后我打开DataScraper 搜索我测试的规则，然后运行，找不到数据。

是不是我要在.datascraper下配置好crontab文件就能抓取数据呢。

Tue, 05/28/2013 - 21:38 — Fuller

MetaSeeker是分布式网络爬虫

MetaSeeker是分布式网络爬虫，可以允许多台DataScraper协同工作，但是，免费在线版对DataScraper的数量有限制，当超过限制，新加一个DataScraper就会将某个现有的DataScraper踢下线。

如果没有超出限制，在新装的DataScraper上配置crontab.xml就可以与其他的DataScraper协同运行。

Tue, 05/28/2013 - 22:03 — lovesmile

请问免费版DataScraper最多多少数量呢？

哦，明白了，只要配置好crontab.xml就行（需不需要登陆我的账户呢）

Tue, 05/28/2013 - 22:56 — Fuller

DataScraper配置方法

DataScraper配置方法不变，账号和密码设置方法相同。

因为免费版用大量用户同时在线使用，对连接数的限制比较严格，另外，在线版会定期做抓取线索清理，所以，如果抓取数量很大，建议购买企业版

Tue, 05/28/2013 - 18:42 — lovesmile

好强大！

加载之后出现的提示是：
无法定位定容器No.0
无法定位信息属性No.4
太强大了，然后我把这2个换了free format 就正常了。谢谢。

整理箱创建多了，会有什么不好的影响吗？（比如创建3个）

Tue, 05/28/2013 - 20:39 — Fuller

整理箱不能删除

目前版本有个缺陷，整理箱只能建立不能删除，创建多了想删除也删除不了。除此之外，没有不好的影响。但是，无论整理箱很多还是单一整理箱很复杂，都容易受网页结构修改的影响。

GooSeeker