|
DS打数机面板上的线索数是网址的数量,如果一个网页要翻页很多次,网址数还是算作1。另外,如果你一次添加了很多网址,DS打数机是分批运行的,一批可能是数量很少的网址,比如,只有一个网址。
“采集中”状态有可能是两种原因:
1,实际上采集完成了,但是采集完成上报没有准确发到,这时候可以刷新一下微博话题采集工具箱的网页,看看状态是否会变
2,某个话题翻页过程中中断了,没有采集全
翻页采集没有采集全的可能性是有的,因为微博网站很不稳定,即使手工翻看,也会突然说翻页到底了,没有内容了。遇到这种情况,爬虫也会中断了
|
|