帮忙看看这个信息结构为什么不好用

给新浪微博定义抓取规则需要一些技巧，如果初次使用，可以用一些结构化很强的网站做实验，比如，京东商城、苏宁易购、国美商城、一号店之类。

您定义的这个信息结构有好几个明显的问题：
1，在Bucket Editor工作台上，映射给最顶层信息属性的那个HTML节点代表整个微博消息列表，所以，无法实现多实例抓取
2，在Clue Editor工作台上，给翻页抓取线索指定了key特性，这样不好，翻到最后一页因为找不到“下一页”标志就会失败
3，在Clue Editor工作台上，定义了两个inthread特性的线索，这样做虽然不禁止，但是，网络爬虫运行时只用一个线索
4，看样子您想抓取评论信息，那么应该在Bucket Editor上定义Info类线索，在另外一个主题下专门抓取各微博消息的评论
5，在Clue Editor工作台上，点击ViewSCE，发现线索抓取规则的XPath表达式比较长，自动选用的FreeFormat标志不太合理，需要选择菜单“配置”-〉“首选项”，选择第二个tab窗口“线索定位”，选择“偏好class”，可以修改FreeFormat的选择原则

总体来看，您对整个抓取规则定义过程已经掌握了，但是，微博抓取需要一些技巧，可以先在一些结构化很强的网站上摸索熟练了再试微博

GooSeeker

帮忙看看这个信息结构为什么不好用

抓取微博难度最高

切换语言