有翻页和页面输入框,想跳转到从 30000页开始抓取,因为前面的都抓完了,就中间一段没有抓取,请大神赐教,谢谢!!
举报 使用道具
| 回复

共 16 个关于本帖的回复 最后回复于 2016-11-28 10:56

hejinxian 新手上路 发表于 2016-4-6 17:14:05 | 显示全部楼层
想从指定页面开始抓取
20160406171254.png
举报 使用道具
Fuller 管理员 发表于 2016-4-6 17:24:44 | 显示全部楼层
先看看浏览器的地址输入栏,每个分页有没有独立的网址,如果有网址,那么直接用30000页的网址添加一条线索,就会从这里开始抓取。

如果没有独立网址,需要做一个输入动作,包含两个步骤:
1,输入数字
2,点击Go
具体用法参看连续动作:http://www.gooseeker.com/doc/article-141-1.html
举报 使用道具
hejinxian 新手上路 发表于 2016-4-6 18:00:46 | 显示全部楼层
Fuller 发表于 2016-4-6 17:24
先看看浏览器的地址输入栏,每个分页有没有独立的网址,如果有网址,那么直接用30000页的网址添加一条线索 ...

谢谢,没有独立的网址。
举报 使用道具
Fuller 管理员 发表于 2016-4-6 18:06:35 | 显示全部楼层
hejinxian 发表于 2016-4-6 18:00
谢谢,没有独立的网址。

你可以再研究一下,如果会用浏览器的 F12 功能的话,可能看看这个网页是不是放在iframe中,如果是iframe中,那么可以专门把iframe的网址拿出来放在浏览器中显示,那样就很可能有独立分页网址了
举报 使用道具
hejinxian 新手上路 发表于 2016-4-6 18:27:26 | 显示全部楼层
Fuller 发表于 2016-4-6 18:06
你可以再研究一下,如果会用浏览器的 F12 功能的话,可能看看这个网页是不是放在iframe中,如果是iframe ...

<iframe id="menu" style="z-index:1; visibility:inherit; overflow:auto; width:100%; height:100%;" name="menu" src="admincp.php?module=index&amp;frame=menu" scrolling="yes" frameborder="0"></iframe>
举报 使用道具
Fuller 管理员 发表于 2016-4-6 18:41:15 | 显示全部楼层

把这个网址: admincp.php?module=index&frame=menu  串到当前网址上,看看是个什么网页
举报 使用道具
hejinxian 新手上路 发表于 2016-4-6 18:43:09 | 显示全部楼层
Fuller 发表于 2016-4-6 18:41
把这个网址: admincp.php?module=index&frame=menu  串到当前网址上,看看是个什么网页 ...

我测试了,iframe 的地址都无法访问,显示空白
举报 使用道具
hejinxian 新手上路 发表于 2016-4-6 18:47:09 | 显示全部楼层
Fuller 发表于 2016-4-6 18:41
把这个网址: admincp.php?module=index&frame=menu  串到当前网址上,看看是个什么网页 ...

管理大人,像我们这样的小白,研究出来抓取已经花了很大力气了,学了好几天,就卡在从指定页面开始抓取了
举报 使用道具
Fuller 管理员 发表于 2016-4-6 22:16:26 | 显示全部楼层
hejinxian 发表于 2016-4-6 18:47
管理大人,像我们这样的小白,研究出来抓取已经花了很大力气了,学了好几天,就卡在从指定页面开始抓取了 ...

可以申请定制服务,就是帮你抓数据,是收费服务
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-3-29 19:09