亲们,我要通过搜索页面去批量抓取详情页面的URL。
但是URL的位置在不同搜索页的位置不一致。如
//*[@id="web_container"]/div/div/div/div[1]/div[3]/div[1]/div[2]/div[1]/a
//*[@id="web-container"]/div/div/div/div[1]/div[4]/div[1]/div[2]/div[1]/a
就是其中某个DIV节点的位置不一样,导致在抓取的时候部分信息抓取失败。
请问这种情况如何处理?我本来是想设置两种规则的,但是搜索页的网页结构有没有很大的差别。
|
|
|
|
|
共 5 个关于本帖的回复 最后回复于 2018-4-12 16:11