比如这个网站http://www.anniekids.org/
我在抓取数据的时候遇到了很大问题,
问题1:有class 和id 标识的节点很少,而且除了书本标题的class属性是guide之外,其余作者,isbn,年龄层,价格等属性的class都被标成了Eng,我发现在大量抓取的时候除了书名和作者信息正确之外,其余都出现了问题:
A Garden Of Whales(名作家Maggie Steincrohn Davis著作) Davis, Maggie SteincrohnDavis, Maggie SteincrohnDavis, Maggie SteincrohnAuthor:
Davis, Maggie SteincrohnAuthor:
Author:
请问我应该怎么手工修改我的规则让正确的信息匹配到正确的条目上?
问题2:这个网站的翻页功能是通过一个下拉菜单来完成的,我应该怎样让线索追踪到相应的post操作上(Keyword=&ser=&cat=&sub=&lev=&tp=&au=&OB=&ShowAll=YES&page=x,x为页码)?
采用绝对定位
在Bucket Editor工作台上,创建一个整理箱,在工作台的整理箱结构顶部有个标识为“FreeFormat”的标签,在此点击鼠标右键,弹出菜单中有一项“首选项”,选中后,可以选择绝对定位,就不会受@class的干扰,就能把各自段分别采集下来。
关于翻页问题,在线版解决不了,需要专门修改一下软件
忘发邮箱了
emcloudeon@gmail.com