规则里面对抓取2种数据就出现timeout to load the page.
状态面板显示:VDDPG UPASI
我测试用的2调规则,和以前的用处是一样的:
第一级:cxw_123 抓取商品URL
第二级:cxw_123_11 进入商品详细地址 抓取数据
以前抓取的数据是(名称,价格,销量,同在一个DIV里面)
现在抓取的数据是(店铺ID,名称,价格,销量,评论数,浏览量,宝贝ID) 店铺ID和宝贝ID同属一个DIV 这2个DIV都在BODY里面~~
我按这个顺序抓,出现timeout to load the page.数据能抓几个。
我后来改了一下也不行:店铺ID,list(名称,价格,销量,评论数,浏览量),宝贝ID
不知道抓取的规则哪里出错呢
淘宝宝贝的抓取方法
店铺id和宝贝id所在的DIV与宝贝详细信息所在的div离的太远了。我建议在这个信息结构中另建一个整理箱专门存放店铺id和宝贝id。两个div分别用两个整理箱存储。
另外,店铺id和宝贝id如果不是特别重要的话,不用设置key特性
用了2个整理箱,还是出现timeout to load the page
整理箱table:抓取宝贝的基本信息
整理箱table1:抓取店铺id和宝贝id。
我编辑过程中没设么提示,MAP-测试的时候,是显示出来的
crontab里面写好标题,运行还是出现这个提示timeout to load the page
DataScraper日志的clueid
DataScraper下部的日志窗口中显示timeout提示,有一列显示clueid,记下那个clueid,在MetaStudio中,选择菜单“编辑”-〉“信息结构”-〉“加载”-〉“按线索”,输入这个clueid,MetaStudio会加载并且检查是否符合信息结构。
请告知检查情况
请问在别的电脑上使用已经编的规则抓取数据呢?
我在其他电脑上,安装火狐,安装插件。登陆我的账户。
在本地 只有.datascraper文件夹,没有DataScraperWorks 文件夹。
然后我打开DataScraper 搜索我测试的规则,然后运行,找不到数据。
是不是我要在.datascraper下配置好crontab文件就能抓取数据呢。
MetaSeeker是分布式网络爬虫
MetaSeeker是分布式网络爬虫,可以允许多台DataScraper协同工作,但是,免费在线版对DataScraper的数量有限制,当超过限制,新加一个DataScraper就会将某个现有的DataScraper踢下线。
如果没有超出限制,在新装的DataScraper上配置crontab.xml就可以与其他的DataScraper协同运行。
请问免费版DataScraper最多多少数量呢?
哦,明白了,只要配置好crontab.xml就行(需不需要登陆我的账户呢)
DataScraper配置方法
DataScraper配置方法不变,账号和密码设置方法相同。
因为免费版用大量用户同时在线使用,对连接数的限制比较严格,另外,在线版会定期做抓取线索清理,所以,如果抓取数量很大,建议购买企业版
好强大!
加载之后出现的提示是:
无法定位定容器No.0
无法定位信息属性No.4
太强大了,然后我把这2个 换了free format 就正常了。 谢谢。
整理箱创建多了,会有什么不好的影响吗?(比如创建3个)
整理箱不能删除
目前版本有个缺陷,整理箱只能建立不能删除,创建多了想删除也删除不了。除此之外,没有不好的影响。但是,无论整理箱很多还是单一整理箱很复杂,都容易受网页结构修改的影响。