大家好

我用界面做了一級線索採集美麗街女襯衫列表
二級線索採集商品訊息
用爬蟲群試過有成功

我看到的api例子都是作單層且非大量的測試
請問現在我想要寫個爬蟲程式放在伺服器跑
怎麼可以讓爬蟲使用api且跑兩層線索呢?
還是我要先把商品列表一級線索裡的網址抓出來 再把這個list和二級線索讓程式讀取?
我需要八千筆商品訊息 不知道批量線索可以使用在api上嗎
先謝謝了

举报 使用道具
| 回复

共 2 个关于本帖的回复 最后回复于 2017-3-25 10:47

Fuller 管理员 发表于 2017-3-25 09:17:19 | 显示全部楼层
目前还没有开放线索管理api,也就是说你的爬虫程序无法通过api获得第二级的网址,第一级运行以后,会产生第二级网址,存在服务器上,只有通过线索管理api才能获得这些网址,所以,用一个程序把所有这个过程连通还差一个环节。你只能自己管理线索。

如果你确实需要这个过程,我们可以具体讨论一下,我们看看是否需要把这个api的开发计划提前
举报 使用道具
Fuller 管理员 发表于 2017-3-25 10:47:24 | 显示全部楼层
另外,一旦开放线索管理api,api上的流量可能要比普通用户的大,很可能需要以VIP服务方式提供独享的服务器资源,这个也没有完全想好运营模式
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-3-29 19:47