只记录自己遇到的问题和已经解决的。 方便以后查找
1.样例复制: 样例复制是最常用的,因为有抓取需求的肯定不会只抓一个页面的内容就行,那样还不如自己复制粘贴。
遇到的问题:样例复制只能复制同一个父,结构不同的就多建一个规则。
2.抓取大块文本:有些要抓取的内容是在一个大的div下面的很多txt,这些txt并不是每个页面都完全一样的,一个更好的办法是找一个最完整的,每个都做一个映射,抓到就留下,没有就留空。 比较省事的则是直接找到他们的父,做一个映射,抓他们的文本,高级设置用自定义xpath要勾一下,有个缺点则是会把这个父下面一些不显示的兄弟节点也抓成文本,可能会出现一些不想要的内容。
3.今天没时间了,想到再加。 |
|
|
|
|
共 3 个关于本帖的回复 最后回复于 2016-5-16 10:04