11#
scraper 论坛元老 发表于 2017-4-21 14:39:57 | 只看该作者
lucky半杯 发表于 2017-4-21 14:38
不骗你,我这边某数台为啥显示是网页!你那边不是,是BUG吗

你能看清楚我说什么再回复我吗
我说的不能选择网页片段要选文本内容
因为我点了文本内容所以我显示的是文本内容

举报 使用道具
12#
lucky半杯 中级会员 发表于 2017-4-21 14:40:20 | 只看该作者
scraper 发表于 2017-4-21 14:38
按照我说的去改规则重新采

我知道你意思,可是我这边显示就是网页,。。。

举报 使用道具
13#
lucky半杯 中级会员 发表于 2017-4-21 14:40:56 | 只看该作者
scraper 发表于 2017-4-21 14:39
你能看清楚我说什么再回复我吗
我说的不能选择网页片段要选文本内容
因为我点了文本内容所以我显示的是文 ...

好,理解。。。我的错。。。。我傻逼

举报 使用道具
14#
scraper 论坛元老 发表于 2017-4-21 14:41:01 | 只看该作者
lucky半杯 发表于 2017-4-21 14:40
我知道你意思,可是我这边显示就是网页,。。。

所以我叫你改

举报 使用道具
15#
lucky半杯 中级会员 发表于 2017-4-21 14:45:46 | 只看该作者

额。我的一级链接怎么爬不被封IP,我二级链接很容易就被封IP,弹验证码。二级我滚屏5次,线索最短时长5s,延迟5s,每轮等待5s,这样还是被弹验证码,我清COOKIES,也不行,有什么好的办法吗。

举报 使用道具
16#
lucky半杯 中级会员 发表于 2017-4-21 14:46:28 | 只看该作者

我是不是还要加长时间,每轮1条线索,等待2s这样搞。。。。

举报 使用道具
17#
scraper 论坛元老 发表于 2017-4-21 14:47:54 | 只看该作者
lucky半杯 发表于 2017-4-21 14:46
我是不是还要加长时间,每轮1条线索,等待2s这样搞。。。。

淘宝封锁很严重
有个用户采集 是一分钟采一个页面的
而且定时换ip清cookie的

所以对淘宝 没什么好的应对方法

举报 使用道具
18#
lucky半杯 中级会员 发表于 2017-4-21 14:50:07 | 只看该作者
scraper 发表于 2017-4-21 14:47
淘宝封锁很严重
有个用户采集 是一分钟采一个页面的
而且定时换ip清cookie的

定时换IP和清COOKIES有什么好的方法或者软件可以推荐。我校园网。。

举报 使用道具
19#
scraper 论坛元老 发表于 2017-4-21 14:57:43 | 只看该作者
lucky半杯 发表于 2017-4-21 14:50
定时换IP和清COOKIES有什么好的方法或者软件可以推荐。我校园网。。

不清楚
举报 使用道具
20#
lucky半杯 中级会员 发表于 2017-4-21 15:01:23 | 只看该作者
哦哦哦。那请教我之前不是文本,也可以采集完成。还有1500条有效数据,,,这个能解释吗
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-5-19 14:59