网址是http://www.cssn.net.cn/cssn/cssn/search/search_base.jsp?tab=one
一共四个主题:
CSSN标准抓取
CSSN标准抓取-2
CSSN标准抓取-3
CSSN标准抓取-4

第四个主题中的翻页,只翻了一次,后面就不翻了。

什么原因啊。
举报 使用道具
| 回复

共 11 个关于本帖的回复 最后回复于 2018-6-27 18:41

沙发
数据集 高级会员 发表于 2018-6-27 10:53:22 | 只看该作者
第四个规则的翻页为什么要用连续动作去点击呢?可以直接使用记号线索去翻页

你的第四个规则,点击动作的xpath定位到了尾页,所以运行起来会直接点击尾页按钮从而跳转到最后一页,所以只能翻一次。

把这个点击动作删除,使用记号线索去翻页
举报 使用道具
板凳
henry2144 中级会员 发表于 2018-6-27 11:12:15 | 只看该作者
我当时认为这个是个按钮,不是个链接,所以用了连续动作。但是这个点击动作定位的XPath不是尾页啊。我检查好多遍了。
举报 使用道具
地板
henry2144 中级会员 发表于 2018-6-27 11:30:55 | 只看该作者
刚才我又看了,最后一次抓出的数据,不是尾页的数据啊。
举报 使用道具
5#
henry2144 中级会员 发表于 2018-6-27 11:32:10 | 只看该作者
数据集 发表于 2018-6-27 10:53
第四个规则的翻页为什么要用连续动作去点击呢?可以直接使用记号线索去翻页

你的第四个规则,点击动作的xp ...

最后一次抓出的内容不是尾页的内容,XPath定位不是在尾页啊,这个我检查好多遍了。

这个网页的翻页是按钮式的,不是链接,能用记号线索吗?

举报 使用道具
6#
数据集 高级会员 发表于 2018-6-27 11:44:50 | 只看该作者
henry2144 发表于 2018-6-27 11:32
最后一次抓出的内容不是尾页的内容,XPath定位不是在尾页啊,这个我检查好多遍了。

这个网页的翻页是按 ...

可以用
举报 使用道具
7#
ma522214470 高级会员 发表于 2018-6-27 14:40:47 | 只看该作者
数据集 发表于 2018-6-27 10:53
第四个规则的翻页为什么要用连续动作去点击呢?可以直接使用记号线索去翻页

你的第四个规则,点击动作的xp ...

这个我研究三天了才搞明白,你翻页后“下一页”的按钮XPath定位地址变成了尾页,是网页结构的变化,所以到了尾页。

但是我有个问题,如果只用一个规则 采集后执行一个连续动作点击以后如何再次采集,然后再执行下一个连续动作?我的两次连续动作点击之间不采集好心痛研究了好几天了。
举报 使用道具
8#
ma522214470 高级会员 发表于 2018-6-27 14:43:54 | 只看该作者
还有按钮这个貌似用不了记号 我试了很多次了 因为翻页后的记号都变了 测试了很多次翻不了
举报 使用道具
9#
Fuller 管理员 发表于 2018-6-27 16:03:21 | 只看该作者
ma522214470 发表于 2018-6-27 14:43
还有按钮这个貌似用不了记号 我试了很多次了 因为翻页后的记号都变了 测试了很多次翻不了 ...

我正在逐个实验你的规则,其实就是最有一个,为什么不用记号线索呢?因为这个xpath不可靠
  1. //*[@id='pageHtml']/input[position()=2]
复制代码
“下一页”那个按钮不一定总是position()=2,起码你应该这样写
  1. //*[@id='pageHtml']/input[@value='下一页']
复制代码
这样也是按照“下一页”这个记号来定位按钮

我试试记号线索


举报 使用道具
10#
Fuller 管理员 发表于 2018-6-27 16:33:54 | 只看该作者
接着我上一个帖子,我说xpath不合适,可以用@value='下一页'这样的条件,其实也不行。连续动作的意思是:用一个xpath定位出一组节点来,然后循环在这每个节点上做动作。
那个xpath只能定位到一个节点,所以,只会循环一次。


还是要用记号线索,做如下改动
1,不要CSSN标准抓取-4, CSSN标准抓取-3 做翻页以后还是 CSSN标准抓取-3
2,如下图,作为记号的是INPUT中的@value节点,因为它含有“下一页”,但是这不是一个文本节点,所以,文本记号不能勾上。这个是在 CSSN标准抓取-3中定义的翻页



这样改造以后,就能翻页了。为了提高速度,DS打数机菜单 配置-》定时器触发 要勾上,不然的话,每翻一页要等待很长时间,因为这个网页上的代码运行太久了。

另外,这一轮翻页到底会怎样,我没有测试。正常的话,翻页结束,会再次回到选择时间那个循环中。但是,我看到你设置的选择动作的跨度特别大,其实也就是选择一次
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-19 19:45