|
我测试了一下第二级规则,除了样本页面采集成功,其他都采集失败了。
第二级页面上一个class或者id都没有,爬虫规则是绝对定位html节点的,这样,万一网页上的内容顺序有变化,或者数量有增减,就会失败。为了提高适应性,可以用自定义xpath,例如,inventors: xxx ,xpath可以用contains()函数把 "Inventors"作为一个定位标志。
另外,网页上的每个信息块都是一个table,可以把这些table用独立的表进行存储。在定义规则工作台上,有个 +表 按钮,可以创建好几个表,而不是把要采集的内容都放在一个表中 |
|
共 2 个关于本帖的回复 最后回复于 2022-4-26 11:02