要采集一个网站的商品信息。(不是淘宝
大概现有商品800W件。
我想做翻页采集但是翻页采集一天采集不完,网站每天更新就有采集到重复的数据。(如何避免)
已知道网页每个商品都有独立链接。如下
www.abc.com/item/10001000.html
www.abc.com/item/10001001.html
.....................
www.abc.com/item/18001234.html
举报 使用道具
| 回复

共 1 个关于本帖的回复 最后回复于 2016-1-31 01:07

沙发
Fuller 管理员 发表于 2016-1-31 01:07:30 | 只看该作者
如果已经有了独立网址,那么把这些网址存入一个excel文件,一行一个网址。那么就一次性导入给这个抓取规则,为其生成抓取线索。导入线索的入口网址:http://www.gooseeker.com/secure/me/rule.html?pageNum=1&home=true

采集之前,等抓取规则做好以后,可以激活云存储的入库设置。可以在规则管理那里激活入库:http://www.gooseeker.com/secure/me/rule.html?pageNum=1&home=true
也可以在数据那里激活入库:http://www.gooseeker.com/mchouse/secure/me/data.html

然后设置爬虫群模式,并且运行爬虫群,参看:http://www.gooseeker.com/doc/article-197-1.html

设置好以后,DS打数机可以成批把抓取结果存入云存储。

这么多数据,通常只能用数据库进行管理,excel无法处理。

请注意:云存储一定使用量下是免费的,否则是收费服务,具体参看:http://www.gooseeker.com/about/charge.html

云存储入库不做重复过滤,需要转移到其它库时进行重复过滤

举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-27 01:51