https://gkcx.eol.cn/special     这个没有href属性  但是他在网站上能点过去  怎么做二级?



我测试看的内容他只获取了tr里面的  没有获取td   但是我要td里面的呀



看了入门视频,但对于这个网站的采集,表示无从下手啊,技术这边有啥建议或者能远程操作演示下吗?   QQ:1339008346   mua! (*╯3╰)





微信截图_20190329111548.png (125.03 KB, 下载次数: 753)

trtd

trtd

3.png (31.63 KB, 下载次数: 701)

测试看到的

测试看到的

2.png (70.07 KB, 下载次数: 700)

2.png

1.png (52.96 KB, 下载次数: 678)

1.png
举报 使用道具
| 回复

共 5 个关于本帖的回复 最后回复于 2019-3-30 10:44

沙发
Fuller 管理员 发表于 2019-3-29 11:36:43 | 只看该作者
我看你已经做了规则,主题名是什么?我可以从后台加载分析一下
举报 使用道具
板凳
ZTFhappy 新手上路 发表于 2019-3-29 11:45:21 | 只看该作者
Fuller 发表于 2019-3-29 11:36
我看你已经做了规则,主题名是什么?我可以从后台加载分析一下

高考报志愿
举报 使用道具
地板
Fuller 管理员 发表于 2019-3-29 12:00:05 | 只看该作者
这个网页其实好难采集

凡是出现专业类别的那行,专业名就变成了第二个td,而第一个td就让给了专业类别。所以,必须要自定义xpath才能适应这种变化。

如果要对专业名做点击,那么点击位置的xpath应该这样写才能适应上面的变化
  1. //td[(position()=1 or position()=2) and @class='hoverschoolname']
复制代码
表示专业名可能出现在第一个td,也可能是第二个td,好在专业名有个class可以进一步区分

做连续点击动作,要参看高级教程《自动点击京东价格条件》。要做两级规则:
第一级:采集这个列表,并且连续点击每个专业名,目标主题指向第二级
第二级:采集详情,然后做一个回退动作,目标主题名指向第一级。

回退动作必须购买旗舰版才有。
举报 使用道具
5#
Fuller 管理员 发表于 2019-3-29 12:04:14 | 只看该作者

我加载了你的规则,是失败的,你似乎定义了两级规则,这个是详情页的。

你在定义详情页规则的时候,没有新建规则,是紧接着第一级规则定义第二级的,那么在第二级里面含有第一级的抓取内容,这是因为没有选择菜单 规则-》新建。所以,第二级一定用不了,第一级规则里面的内容根本在第二级抓取不到
举报 使用道具
6#
ZTFhappy 新手上路 发表于 2019-3-30 10:44:40 | 只看该作者
Fuller 发表于 2019-3-29 12:04
我加载了你的规则,是失败的,你似乎定义了两级规则,这个是详情页的。

你在定义详情页规则的时候,没有 ...

啊  不懂啊
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-20 02:20