<?xml version="1.0" encoding="UTF-8"?>
<xsl:stylesheet version="1.0" xmlns:xsl="http://www.w3.org/1999/XSL/Transform" >
<xsl:template match="/">
<发发奇列表>
<xsl:apply-templates select="/html/body/div[position()=1]/main/section[position()=1]/div/div[position()=3]/div[position()=2]/div[position()=2]/div/div[position()=1]/ul/div[position()>=1 and count(a/@href)>0]" mode="发发奇列表"/>
</发发奇列表>
</xsl:template>
<xsl:template match="/html/body/div[position()=1]/main/section[position()=1]/div/div[position()=3]/div[position()=2]/div[position()=2]/div/div[position()=1]/ul/div[position()>=1 and count(a/@href)>0]" mode="发发奇列表">
<item>
<货品一>
<xsl:value-of select="a/@href"/>
</货品一>
</item>
</xsl:template>
</xsl:stylesheet>

举报 使用道具
| 回复

共 3 个关于本帖的回复 最后回复于 2021-12-22 12:28

沙发
maomao 论坛元老 发表于 2021-12-22 10:47:32 | 只看该作者
采集Farfetch列表页,我们有个成熟的规则可以下载。下载后,根据你自己下级规则的名字,改下级规则的名字
下载链接:
https://www.gooseeker.com/secure ... ew/share663129.html

举报 使用道具
板凳
Fuller 管理员 发表于 2021-12-22 11:13:33 | 只看该作者
你的规则名字是什么?发出来我帮你检查一下
举报 使用道具
地板
Fuller 管理员 发表于 2021-12-22 12:28:08 | 只看该作者
我发现采集这个网站需要至少两个地方要注意:
1,因为这个规则的翻页那里设置了模拟点击,如果爬虫一打开那个网页显示了一个提示框,模拟点击就没法点击到“下一页”按钮了,所以,要么修改规则,翻页那里不要勾模拟点击,要么在爬虫浏览器中看到提示框就赶快手工关闭一下,关闭一次好像后面就不出现了。
2,这个网页比较高,滚屏数量要足够大,我测试了,设置滚屏次数为20,才能看到翻页区显示了出来。如果翻页区没有显示出来,就点击不到“下一页”
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-24 00:48