本帖最后由 keymanleon 于 2017-4-21 11:45 编辑

我打算抓取以下网页中间的整个表格下来:http://www.srrc.org.cn/WP_Search.aspx主题为——设备核准
看它的结构应该比较简单,我也实现了单页的抓取。
不过等我按照天猫的教程测试翻页抓取的时候却怎么都翻不了页。
求指点!


举报 使用道具
| 回复

共 9 个关于本帖的回复 最后回复于 2017-4-21 12:24

沙发
ym 版主 发表于 2017-4-20 18:23:44 | 只看该作者
测试过你的规则,能正常翻页。
用DS打数机采集时,全屏采集试试
举报 使用道具
板凳
shenzhenwan10 金牌会员 发表于 2017-4-20 18:24:29 | 只看该作者
如果需要技术人员帮助分析你的规则, 你把主题名贴出来
举报 使用道具
地板
keymanleon 新手上路 发表于 2017-4-21 11:36:11 | 只看该作者
shenzhenwan10 发表于 2017-4-20 18:24
如果需要技术人员帮助分析你的规则, 你把主题名贴出来

谢谢你,初次使用。我下次会发出来。
另外,我发现问题了。“爬虫路线”的“目标主题名”和我的“主题名”不一样,后来我改成一样就可以了。

不过这又引申出一个问题:既然“爬虫路线”的“目标主题名”和“主题名”一定要一样,为什么还需要填写呢?是不是有些什么其他的作用??
举报 使用道具
5#
keymanleon 新手上路 发表于 2017-4-21 11:43:55 | 只看该作者
shenzhenwan10 发表于 2017-4-20 18:24
如果需要技术人员帮助分析你的规则, 你把主题名贴出来

还有个想请教下,这个主题叫做【设备核准】,目前我已经可以对该网页翻页完成爬虫了。不过却发现另外一个问题:DS打数机当打到最后一页时不会自动停止。
一直在爬最后一页,请看下图:


我从今天上午8:30开始,爬到11:25左右就应该爬完了,不过到现在还不自动停。。。
是我需要另外设什么东西吗??
求指点!



举报 使用道具
6#
Fuller 管理员 发表于 2017-4-21 11:44:12 | 只看该作者
告诉打数机,翻页之后还按这个主题名下的规则,采集新的一页
举报 使用道具
7#
keymanleon 新手上路 发表于 2017-4-21 11:47:05 | 只看该作者
本帖最后由 keymanleon 于 2017-4-21 11:48 编辑
Fuller 发表于 2017-4-21 11:44
告诉打数机,翻页之后还按这个主题名下的规则,采集新的一页

会中途换规则的吗?
举报 使用道具
8#
keymanleon 新手上路 发表于 2017-4-21 11:51:07 | 只看该作者
Fuller 发表于 2017-4-21 11:44
告诉打数机,翻页之后还按这个主题名下的规则,采集新的一页

Fuller,谢谢你的回复。我在5楼写了有关无法停止爬的问题,请问有无解决方案?

谢谢!

举报 使用道具
9#
Fuller 管理员 发表于 2017-4-21 12:13:29 | 只看该作者
keymanleon 发表于 2017-4-21 11:43
还有个想请教下,这个主题叫做【设备核准】,目前我已经可以对该网页翻页完成爬虫了。不过却发现另外一个 ...

有些网页,到最后了,“下一页”还可以点,就后不断重复,要在DS打数机上用菜单做设置:高级-》终点标志-》重复内容 。这个设置对手工启动的爬虫有效,比如,单搜和集搜。如果是爬虫群运行模式,要在会员中心为规则设置调度参数的时候进行设置
举报 使用道具
10#
keymanleon 新手上路 发表于 2017-4-21 12:24:38 | 只看该作者
Fuller 发表于 2017-4-21 12:13
有些网页,到最后了,“下一页”还可以点,就后不断重复,要在DS打数机上用菜单做设置:高级-》终点标志- ...

果然,一修改了【重复内容】后就停止了。
谢谢!

不过有点和你说的不一样,我留意过它最后一页的【下一页】链接是不存在的,为什么还会继续抓取呢?


举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-25 06:08