tianmao4:天猫耳机页面,收集网页上面每一个耳机的超链接
tianmao2:耳机具体页面,导航到“累计评价”
tianmao3:收集相关信息
crontab.xml: (自动收集参数设计)
<?xml version="1.0" encoding="UTF-8"?>
true
10
10800
false
2
4
tianmao2
30000
3
true
80
10
-1
false
0
true
true
true
3
true
project_design.www.sxsoft.com
http://www.metaseeker.cn/projectsearch/
userName
thePassword
project_design.www.sxsoft.com
http://www.metaseeker.cn/projectsearch/
userName
thePassword
步骤:先在DataScraper中抓取tianmao4,生成几百条tianmao2的线索,然后用周期自动抓取,每个具体的页面抓取10页的评论者星级。
问题:1、有些页面的累计评价无法加载
2、抓取速度太慢,尤其在tianmao4往后翻页的时候,速度太慢。但是,将loadTimeout属性调小后,tainmao2的累计评论页面便很难加载
3、有时候在tianmao4中,不会向后翻页
请问管理员,以后问题该怎么处理?谢谢!
crontab要调整
width不要设置为-1,比如,设置为5,对于天猫数量要少点,同时period设置成10或者某个小数字,这是停歇的秒数,这样就会小批小批的抓。翻页抓取天猫累计评价的时候,天猫网页的内存会占用越来越多,速度越来越慢,所以,要变成小批抓取,强制释放内存
uploadResult和indexHarvest从crontab中删除,否则会影响速度