是这样的,我是药学专业的学生,想要采集药监局网站国产药品的信息,了解大致情况。但是遇到特大麻烦就是药监局网站的翻页设置比较奇怪,一直没法翻页。
如下图所示,图片中翻页设置是图片,也没有办法做定位编号映射,有没有大神告诉我怎么翻页?

附药监局网站:http://app1.sfda.gov.cn/datasearch/face3/base.jsp?tableId=25&tableName=TABLE25&title=%E5%9B%BD%E4%BA%A7%E8%8D%AF%E5%93%81&bcId=124356560303886909015737447882

QQ图片20161210192438.png (120.52 KB, 下载次数: 748)

QQ图片20161210192438.png
举报 使用道具
| 回复

共 14 个关于本帖的回复 最后回复于 2016-12-11 18:23

沙发
天堂牧羊人 新手上路 发表于 2016-12-10 19:23:28 | 只看该作者
求大神帮忙
举报 使用道具
板凳
Fuller 管理员 发表于 2016-12-10 19:36:26 | 只看该作者

主题名是什么? 帮你诊断一下
举报 使用道具
地板
天堂牧羊人 新手上路 发表于 2016-12-10 20:55:36 | 只看该作者
Fuller 发表于 2016-12-10 19:36
主题名是什么? 帮你诊断一下

药品信息3,您看看能不能看到我的
举报 使用道具
5#
Fuller 管理员 发表于 2016-12-10 21:40:07 | 只看该作者
天堂牧羊人 发表于 2016-12-10 20:55
药品信息3,您看看能不能看到我的

这个网站的第一页和第二页的网页结构变化了
第一页是这样的
第二页是这样的

第一页多了一层DIV。一种简单的处理方法是在同一个主题名下定义两个规则,用不同规则编号区分,第一个规则针对第一页,第二个规则针对第二页。DS打数机运行的时候,会自动选择
举报 使用道具
6#
天堂牧羊人 新手上路 发表于 2016-12-10 21:48:46 | 只看该作者
Fuller 发表于 2016-12-10 21:40
这个网站的第一页和第二页的网页结构变化了
第一页是这样的
第二页是这样的

第二页以后的东西都一样吗?那我从第二页开始采集是不是就可以解决问题了?
还有一个问题,定位编号这里怎么弄?我还没有懂

举报 使用道具
7#
Fuller 管理员 发表于 2016-12-10 22:26:28 | 只看该作者
天堂牧羊人 发表于 2016-12-10 21:48
第二页以后的东西都一样吗?那我从第二页开始采集是不是就可以解决问题了?
还有一个问题,定位编号这里 ...


你是说这些定位编号吗? 这些编号没有实际的意义,为了查找方便,给DOM节点按照顺序编号,每次重新加载的时候,这些编号会变化,但是不影响抓取规则的有效性。但是,一定要注意提高抓取规则的适应性,一般来说,尽量使用定位标志映射 ,虽然不是必须的,但是可以提高适应性。
举报 使用道具
8#
天堂牧羊人 新手上路 发表于 2016-12-10 22:54:40 | 只看该作者
Fuller 发表于 2016-12-10 22:26
你是说这些定位编号吗? 这些编号没有实际的意义,为了查找方便,给DOM节点按照顺序编号,每次重新加载 ...

线索定位,这个怎么定位?
举报 使用道具
9#
天堂牧羊人 新手上路 发表于 2016-12-10 22:57:11 | 只看该作者
Fuller 发表于 2016-12-10 22:26
你是说这些定位编号吗? 这些编号没有实际的意义,为了查找方便,给DOM节点按照顺序编号,每次重新加载 ...

您可以帮我看看药品信息4这个吗?和3差不多,就是改成第二页开始了,但是一个数据都爬不到了
举报 使用道具
10#
Fuller 管理员 发表于 2016-12-11 11:32:46 | 只看该作者
天堂牧羊人 发表于 2016-12-10 22:54
线索定位,这个怎么定位?

线索的定位映射是划定一个区域,然后进行记号映射,就会在这个区域中根据记号找到点击位置,具体参看《定位映射和记号映射的区别是什么
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-27 12:47