4 11508

中国学术期刊目录采集

xandy 于 2016-8-18 22:18 发表 [复制链接]
本帖最后由 xandy 于 2016-8-18 22:20 编辑

样本网址:http://acad.cnki.net/kns55/oldNa ... F%E7%A0%94%E7%A9%B6
我要采集大标题、小标题、小标题链接、作者和页码
中国知网.png
因为节点分布如图所示,大小标题在同一级,另外dd和dt都没有id和class,采集的结果没办法将大标题和小标题(标题名称、链接、作者和页码)对应起来
中国知网2.png
造成每个大标题都会对应所有的小标题的采集内容了,我希望能一级标题和二级标题对应起来

请问有解决方案吗?


举报 使用道具
| 回复

共 4 个关于本帖的回复 最后回复于 2016-8-19 11:44

Fuller 管理员 发表于 2016-8-18 23:49:25 | 显示全部楼层
这个网页,做内容映射没有什么特殊点,如下图

内容映射.png


跟别的网页不同的地方在于每个样例没有包在一个div下,不过这个不影响,参看下图

平铺的样例复制.png

举报 使用道具
xandy 论坛元老 发表于 2016-8-19 00:10:39 | 显示全部楼层
Fuller 发表于 2016-8-18 23:49
这个网页,做内容映射没有什么特殊点,如下图

不对,虽然这样能够将一级和二级标题进行匹配
但是二级标题不是固定的两个,不能这样设置规则,这样碰到二级标题非2个的时候抓的就不准确了
中国知网3.png

举报 使用道具
Fuller 管理员 发表于 2016-8-19 11:15:05 | 显示全部楼层
xandy 发表于 2016-8-19 00:10
不对,虽然这样能够将一级和二级标题进行匹配
但是二级标题不是固定的两个,不能这样设置规则,这样碰到 ...

二级有多条的话,就得建立嵌套整理箱。为二级标题做一个样例复制映射
举报 使用道具
xandy 论坛元老 发表于 2016-8-19 11:44:28 | 显示全部楼层
Fuller 发表于 2016-8-19 11:15
二级有多条的话,就得建立嵌套整理箱。为二级标题做一个样例复制映射

又回到最开始的问题,我最开始就建立了一个嵌套整理箱了,但是造成每个大标题都会对应所有的小标题,我希望得到的是每个大标题和每个大标题下的小标题进行对应(2个或3个)而不是对应所有小标题(12个)
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-3-29 19:54