我要抓新浪微博的内容和评论 主题名为ML 看看为什么不好用
给新浪微博定义抓取规则需要一些技巧,如果初次使用,可以用一些结构化很强的网站做实验,比如,京东商城、苏宁易购、国美商城、一号店之类。
您定义的这个信息结构有好几个明显的问题: 1,在Bucket Editor工作台上,映射给最顶层信息属性的那个HTML节点代表整个微博消息列表,所以,无法实现多实例抓取 2,在Clue Editor工作台上,给翻页抓取线索指定了key特性,这样不好,翻到最后一页因为找不到“下一页”标志就会失败 3,在Clue Editor工作台上,定义了两个inthread特性的线索,这样做虽然不禁止,但是,网络爬虫运行时只用一个线索 4,看样子您想抓取评论信息,那么应该在Bucket Editor上定义Info类线索,在另外一个主题下专门抓取各微博消息的评论 5,在Clue Editor工作台上,点击ViewSCE,发现线索抓取规则的XPath表达式比较长,自动选用的FreeFormat标志不太合理,需要选择菜单“配置”-〉“首选项”,选择第二个tab窗口“线索定位”,选择“偏好class”,可以修改FreeFormat的选择原则
总体来看,您对整个抓取规则定义过程已经掌握了,但是,微博抓取需要一些技巧,可以先在一些结构化很强的网站上摸索熟练了再试微博
抓取微博难度最高
给新浪微博定义抓取规则需要一些技巧,如果初次使用,可以用一些结构化很强的网站做实验,比如,京东商城、苏宁易购、国美商城、一号店之类。
您定义的这个信息结构有好几个明显的问题:
1,在Bucket Editor工作台上,映射给最顶层信息属性的那个HTML节点代表整个微博消息列表,所以,无法实现多实例抓取
2,在Clue Editor工作台上,给翻页抓取线索指定了key特性,这样不好,翻到最后一页因为找不到“下一页”标志就会失败
3,在Clue Editor工作台上,定义了两个inthread特性的线索,这样做虽然不禁止,但是,网络爬虫运行时只用一个线索
4,看样子您想抓取评论信息,那么应该在Bucket Editor上定义Info类线索,在另外一个主题下专门抓取各微博消息的评论
5,在Clue Editor工作台上,点击ViewSCE,发现线索抓取规则的XPath表达式比较长,自动选用的FreeFormat标志不太合理,需要选择菜单“配置”-〉“首选项”,选择第二个tab窗口“线索定位”,选择“偏好class”,可以修改FreeFormat的选择原则
总体来看,您对整个抓取规则定义过程已经掌握了,但是,微博抓取需要一些技巧,可以先在一些结构化很强的网站上摸索熟练了再试微博