主要有两个问题。请高手指教。先谢谢各位。
问题1: 有一个2级抓取。分别是4000,和20000次抓取。我定义在一个周期性抓取配置文件里,在一个线程下。 现在发现速度很慢,10个小时一级抓取还没完。 想问一下。能不能,同时启动多个线程一起执行同一个主题去抓取。这样速度也能变成1/N。不知道能不能实现。怎么实现?
问题2: 周期性抓取配置文件里配置了多个线程。如何制定线程名,来启动要启动的线程呢?
可以多个线程并行抓取,线程名字随便起,但是不能重名。
目前,在线版共享的服务器用户很多,负载很重,多抓取速度有影响。尤其影响第一级抓取,因为要抓取第二级的线索,目前共享服务器上有将近5千万线索,新生成线索的速度较慢。这台服务器是一台十分老的单CPU 1U服务器,处理能力有限。
共享服务器上线索数每次达到5千万,我们会进行一次清理,以提高速度。
可能您没理解我的意思。我再说的具体一点吧
假设现在有一个主题需要抓取10000次(10000个网页),由于一个线程执行需要10个小时。 我要是把它设置到两个线程中,同时抓取,最后是每个线程抓5000,最后合起来是2*5000=10000么? 我测试了一个小的。好像是每个线程都全部抓取了(并不是每个线程抓取一部分)。对这个例子的话就是两个线程都抓取了10000次!!??
这样的话不但没有节省时间,反而多抓取了很多没有用途的数据。
所以,想知道。像我这种情况,最快就只能是10个小时单线程来抓取了吧??
只要是同一个主题,多个线程抓取不会重复
Fuller,您好!请问要如何配置多线程抓取同一个主题呢?
按照这个说明周期性网页抓取调度文件,crontab.xml中一个thread就是一个线程
多个线程并行抓取网页
可以多个线程并行抓取,线程名字随便起,但是不能重名。
目前,在线版共享的服务器用户很多,负载很重,多抓取速度有影响。尤其影响第一级抓取,因为要抓取第二级的线索,目前共享服务器上有将近5千万线索,新生成线索的速度较慢。这台服务器是一台十分老的单CPU 1U服务器,处理能力有限。
共享服务器上线索数每次达到5千万,我们会进行一次清理,以提高速度。
可能您没理解我的意
可能您没理解我的意思。我再说的具体一点吧
假设现在有一个主题需要抓取10000次(10000个网页),由于一个线程执行需要10个小时。
我要是把它设置到两个线程中,同时抓取,最后是每个线程抓5000,最后合起来是2*5000=10000么?
我测试了一个小的。好像是每个线程都全部抓取了(并不是每个线程抓取一部分)。对这个例子的话就是两个线程都抓取了10000次!!??
这样的话不但没有节省时间,反而多抓取了很多没有用途的数据。
所以,想知道。像我这种情况,最快就只能是10个小时单线程来抓取了吧??
多线程抓取不会重复
只要是同一个主题,多个线程抓取不会重复
如何配置多线程
Fuller,您好!请问要如何配置多线程抓取同一个主题呢?
用crontab.xml配置多线程
按照这个说明周期性网页抓取调度文件,crontab.xml中一个thread就是一个线程