帮忙看看这个信息结构

电商竞争分析是个很有意思的话题

电商竞争分析、零售分析是我们做的最多的,比如,家喻户晓的商品比价,还有比较不太通俗的库存分析、促销分析、品类分析等等,再结合互联网竞争情报分析,就可以做一个很完整的电商竞争分析系统。最近的京东、苏宁、国美大战也是我们持续关注和分析的目标之一。

所以感觉到你的这个主题很有意思。不知道你遇到了什么问题。但是,我估计这个主题很难抓取到需要的信息。新浪微博上的内容都是用JS管理的动态内容,所以,一定要用AJAX抓取选项,可以看一下MetaSeeker速成手册中的相关章节。

如果刚开始学习使用MetaSeeker,建议先从简单的网站抓取开始,比如,论坛、电商网站这些结构化比较强的网站,抓取规则比较容易定义。

数据抓不了

用DataScraper进行抓取的时候,出现这样的错误 suitable data schema cannot be found for clueid 42435762 in 0st inthread cycle 在相应的文件夹下没有抓下来任何数据,我用的是纵向抓取的方法,抓微博内容然后通过超级链接去抓评论内容

新浪微博抓取要用AJAX抓取选项

否则可能抓不全,如果出现上述提示错误,需要用MetaStudio加载信息结构,看看是否成功加载,如果MetaStudio能够成功加载,那么需要设置AJAX抓取选项。

好像“评论数”映射得不对,做映射时,要选用通一条微博消息

加载超时

我把评论的映射改了,并且设置了延长和积极模式 但DataScrape 抓数据时 页面一直不变 最后 出现了加载超时的错误

验证抓取规则的方法

在MetaStudio的工作台Filter Editor上,点击ViewDSD,在下面的窗口中点击“验证”按钮,你会发现第二个规则没有通过,你在Clue Editor上,给Info类线索设置了key特性,这是不对的,如果要给“时间链接”设置key特性,要在Bucket Editor上设置

不能自动跳转

微博内容可以抓了 但是抓完内容后不会自动跳去抓评论

层级抓取不能自动调转

用另外一个线程抓取另一层