目标页面:
分类列表页:
http://langdeng.tmall.com/search.htm?spm=a1z10.3.7567264-17922714145.3.5...
产品详细页:
http://detail.tmall.com/item.htm?spm=a1z10.3.17-929466461.12.wGqA0R&id=1...
希望达到的效果:
通过分类列表页可以翻页采集每一个宝贝的标题,主图链接以及评价详情
问题:
可采集到列表页的标题以及宝贝链接,但不晓得应该如何设置翻页采集,并且翻页之后应该如何定义采集宝贝的相关信息?
希望得到的帮助:
希望Fuller可以告知一下采集的步骤
并且附上网站内相关可以用来参考的对应链接
万分感谢!
datascraper用不了
你好!我的metastudio能用,datascraper用不了,在用datascraper执行“提取”操作时,显示“Failed:Crawl cannot be initiated from the state of FAILED”,而且datascraper的“状态面板”中“http://www.metacamp.cn/metacamp/”和"http://www.metacamp.cn/datastore/"后面的按钮是红色的,而不是绿色的对号,请问这是什么原因?最近需要一些数据,非常需要这个软件的帮助!
如果是第一次使用
如果是第一次使用,可能输入的帐号和密码不对。将.datascraper.conf文件删除,重新运行DataScraper,就会要求再次输入帐号和密码
淘宝宝贝抓取方法
请参看我定义的抓取规则,主题名是pTB_list_sh,里面有翻页规则。
现在很多网站对翻页进行了限制,针对淘宝网页,做线索映射的时候,用DOM树上最末端A节点,而不是那个代表翻页区域的DIV,这样做主要是为了定位更精确,做线索映射的时候,可以这样尝试选择不同的DOM节点。