采集http://www.jszb.com.cn/jszb/YW_i ... spx?categoryNum=012 网站的信息,二级线索为0,我个人认为可能我一级线索的下级线索处设置问题, 我检查了几次,应该没问题啊,唯一的就是二级目录点开来是一个独立的网址,然后我做标注的,步骤页对,就是不知道哪里出问题了。主题名:省建设工程1,二级规则:省建设工程2,请指教
举报 使用道具
| 回复

共 6 个关于本帖的回复 最后回复于 2017-7-18 14:08

沙发
shenzhenwan10 金牌会员 发表于 2017-7-17 18:29:52 | 只看该作者
你抓取什么内容做为第二级的线索?
如下图:

href属性里没有放真实的网址, onclick里可以拼接出网址
你可以用以下方法中的一种:
1. 用连续动作点击, 采集弹出的窗口中内容
2. 用自定义xpath从onclick里拼出网址, 作为第二级的线索


举报 使用道具
板凳
jiangsuxincheng 初级会员 发表于 2017-7-18 11:36:34 | 只看该作者
请问有没有类似这种的教程案例了
举报 使用道具
地板
shengchengx 金牌会员 发表于 2017-7-18 11:53:46 | 只看该作者
jiangsuxincheng 发表于 2017-7-18 11:36
请问有没有类似这种的教程案例了

onclick网址链接获取问题
可以看下这个,跟你的问题差不多。也可以用连续动作来做的

举报 使用道具
5#
wangyong 版主 发表于 2017-7-18 11:57:44 | 只看该作者
举报 使用道具
6#
jiangsuxincheng 初级会员 发表于 2017-7-18 13:14:48 | 只看该作者
这种的我用连续动作怎么做了,比如我第一级规则省建设工程1,我对采集的标题日期等做了映射,翻页,然后我做了@href 网址的映射,做连续动作的话是直接在这个规则里做个点击的动作吗,然后再做二级规则里面的标注映射吗?   或者说还是直接去掉@href网址的映射,直接在一级规则里面做连续动作点击。
如果这么做的话最终爬虫二级网址的数据也是随着一级规则的采集,自动采集吗
举报 使用道具
7#
shengchengx 金牌会员 发表于 2017-7-18 14:08:18 | 只看该作者
jiangsuxincheng 发表于 2017-7-18 13:14
这种的我用连续动作怎么做了,比如我第一级规则省建设工程1,我对采集的标题日期等做了映射,翻页,然后我 ...

直接在一级规则中连续动作,二级规则会随着一级规则一起运行的。

举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-26 20:37