样本页面:https://www.ustravel.org/directory
规则名:USTA

想问一下这种每一页的网址都一样的情况下应该怎么样设置规则来抓取所有页面的内容呢?
PS目前我的规则只能抓取到第一页的内容
谢谢~

举报 使用道具
| 回复

共 6 个关于本帖的回复 最后回复于 2018-9-7 09:35

沙发
Fuller 管理员 发表于 2018-9-6 10:23:23 | 只看该作者
把主题名发出来,管理员加载诊断一下。跟是否有独立网址无关,是规则没有做好
举报 使用道具
板凳
ellachen 中级会员 发表于 2018-9-6 10:33:41 | 只看该作者
Fuller 发表于 2018-9-6 10:23
把主题名发出来,管理员加载诊断一下。跟是否有独立网址无关,是规则没有做好 ...

主题名就是USTA
谢谢~

举报 使用道具
地板
ellachen 中级会员 发表于 2018-9-6 15:57:24 | 只看该作者
Fuller 发表于 2018-9-6 10:23
把主题名发出来,管理员加载诊断一下。跟是否有独立网址无关,是规则没有做好 ...

请问问题是什么呢?

举报 使用道具
5#
Fuller 管理员 发表于 2018-9-6 17:39:17 | 只看该作者
ellachen 发表于 2018-9-6 15:57
请问问题是什么呢?

这个网站到第二页,网页结构就变了。我本来打算用上定位标志映射等手段提高规则适应性,但是没有成功。我现在建议做成两个规则,在同一个主题名下做两个规则,他们用不同的规则编号。第一个规则是针对第一页做的,第二个规则是用第二页作为样本页面做的。DS打数机运行的时候,会自动选择一个合适的。
这个方法我还没有测试,你可以先试试。我过会才能测试
举报 使用道具
6#
ellachen 中级会员 发表于 2018-9-7 09:21:10 | 只看该作者
Fuller 发表于 2018-9-6 17:39
这个网站到第二页,网页结构就变了。我本来打算用上定位标志映射等手段提高规则适应性,但是没有成功。我 ...

好的,谢谢,我先试试~


举报 使用道具
7#
ellachen 中级会员 发表于 2018-9-7 09:35:52 | 只看该作者
Fuller 发表于 2018-9-6 17:39
这个网站到第二页,网页结构就变了。我本来打算用上定位标志映射等手段提高规则适应性,但是没有成功。我 ...

以第二个页面为样本做规则的话,现在可以翻页抓取了,蟹蟹~
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-20 02:34