采集7百万条信息。可以怎么转入数据库？要MYSQL

winjeans

要采集一个网站的商品信息。（不是淘宝
大概现有商品800W件。
我想做翻页采集但是翻页采集一天采集不完，网站每天更新就有采集到重复的数据。（如何避免）
已知道网页每个商品都有独立链接。如下
www.abc.com/item/10001000.html
www.abc.com/item/10001001.html
.....................
www.abc.com/item/18001234.html

Fuller · 发表于 2016-1-31 01:07:30

如果已经有了独立网址，那么把这些网址存入一个excel文件，一行一个网址。那么就一次性导入给这个抓取规则，为其生成抓取线索。导入线索的入口网址：http://www.gooseeker.com/secure/me/rule.html?pageNum=1&home=true

采集之前，等抓取规则做好以后，可以激活云存储的入库设置。可以在规则管理那里激活入库：http://www.gooseeker.com/secure/me/rule.html?pageNum=1&home=true
也可以在数据那里激活入库：http://www.gooseeker.com/mchouse/secure/me/data.html

然后设置爬虫群模式，并且运行爬虫群，参看：http://www.gooseeker.com/doc/article-197-1.html

设置好以后，DS打数机可以成批把抓取结果存入云存储。

这么多数据，通常只能用数据库进行管理，excel无法处理。

请注意：云存储一定使用量下是免费的，否则是收费服务，具体参看：http://www.gooseeker.com/about/charge.html

云存储入库不做重复过滤，需要转移到其它库时进行重复过滤

采集7百万条信息。可以怎么转入数据库？要MYSQL

共 1 个关于本帖的回复最后回复于 2016-1-31 01:07

推荐板块

精彩推荐

热门话题

热门用户

	B Color Image Link Quote Code Smilies 高级模式您需要登录后才可以回帖登录 \| 立即注册回帖并转播回帖后跳转到最后一页

采集7百万条信息。可以怎么转入数据库？要MYSQL

共 1 个关于本帖的回复 最后回复于 2016-1-31 01:07

推荐板块

精彩推荐

热门话题

热门用户

共 1 个关于本帖的回复最后回复于 2016-1-31 01:07