主题名:brands_detail


1.png (69.12 KB, 下载次数: 659)

1.png
举报 使用道具
| 回复

共 5 个关于本帖的回复 最后回复于 2018-3-17 12:52

沙发
yangwenge 金牌会员 发表于 2018-3-16 17:17:10 | 只看该作者
本帖最后由 yangwenge 于 2018-3-16 17:22 编辑

1,用连续动作的话直接定位到a节点就可以了;
2,不建议使用连续动作,这个网站可以直接使用层级采集
3,这几个搜索的结果页面结构都不一样(谷歌还需要翻墙),需要做对应的规则适应才可以。可以参考《同一网站的不同网页结构信息

举报 使用道具
板凳
hblemon2008 高级会员 发表于 2018-3-17 08:49:11 | 只看该作者
谢谢,定位到A节点果然是可以打开搜索页面了。这就又带来一个新的问题,这些搜索页面是依次一个一个打开的,很快就会把内存用光,然后一直处于死机状态。请问如何才能把搜索页面打开之后,过几秒再关闭呢?
举报 使用道具
地板
hblemon2008 高级会员 发表于 2018-3-17 09:09:27 | 只看该作者
补充问题:最后是出现XULRunner停止工作,必须关闭爬虫
举报 使用道具
5#
Fuller 管理员 发表于 2018-3-17 09:32:27 | 只看该作者
hblemon2008 发表于 2018-3-17 09:09
补充问题:最后是出现XULRunner停止工作,必须关闭爬虫

a节点的@href属性有没有网址?如果有网址,定义层级采集规则,不要用连续动作。如果非要连续动作,对于这种点击弹窗的网页,需要购买旗舰版,打开飞掠模式,才能把飞出来的窗口管理起来
举报 使用道具
6#
hblemon2008 高级会员 发表于 2018-3-17 12:52:01 | 只看该作者
好的,明白了,再次表示感谢!
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-20 01:57