参数名称 | 参数值范围说明 | 参数作用 |
执行步骤 |
采集数据 | 默认勾选 | 执行采集数据 |
数据自动入库 | 默认勾选 | 采集结果xml文件自动入库 |
任务分配设置 |
批次间休息 | 单位秒,默认0,可填0和正整数 | 休息T秒后再分配任务的下一批网址 |
网址间休息 | 单位秒,默认0,可填0和正整数 | 同一个批次里,休息T秒后再采集下一个网址 |
并发爬虫窗口数 | 单位个,默认2,可填整数:1-20 | 一个任务在单台电脑上可同时分配给多少个爬虫窗口,反爬严重的建议设1个爬虫窗口 |
采集设置 |
一批网址数量 | 单位条,默认20,可填正整数 | 分配给一个爬虫窗口的一批次网址数量 |
超时时长 | 单位秒,默认60,可填正整数 | 采集一个网页允许等待的最长时间,响应时间长的网页采集建议调大此项 |
延迟抓取 | 单位秒,默认5,可填正整数 | 网页加载后要额外等待T秒再采集,适用于JS异步信息采集或响应时间长的网页 |
滚屏采集 | 1、否(默认)
2、是(展开子参数) | 控制网页是否自动滚屏,不滚屏可加快速度,采集JS异步或长网页建议滚屏 |
滚屏次数 | 默认2,可填正整数 | 数值越大滚屏越快 |
滚屏速度 | 默认2,可填除0外的正负整数 | 填1或-1,速度不变,负整数为放慢,正整数为加快 |
控制翻页 | 1、否(默认)
2、是(展开子参数) | 适用于网址里有翻页采集的情况 |
采集页数 | 默认1,可填正整数 | 在不超过允许访问的总页数下,可以输入想要采集的页数 |
增量采集 | 1、否(默认)
2、是(展开子参数) | 控制是否只采新增网址,适用于层级采集,只需对采集下级网址的任务设置此项。 |
页面下级网址重复比例达**%跳出翻页 | 默认80,可输入0-100的整数 | 填100%会翻页到最后,填0-99%页面达到该重复比例即跳出翻页 |
允许加载图片 | 1、否
2、是(默认) | 若网页不加载图片后,不影响信息完整性,可适当提高速度 |
允许加载插件 | 1、否
2、是(默认) | 若网页不加载插件后,不影响信息完整性,可适当提高速度 |
允许加载JS | 1、否
2、是(默认) | 若网页不加载JS后,不影响信息完整性,可适当提高速度 |
自动关闭站点弹窗 | 1、否(默认)
2、是 | 关闭采集站点的广告弹窗或推广弹窗 |
周期设置 |
周期开关 | 1、关闭(默认)
2、开启(展开子参数) | 开启后将在指定时间点,重采一遍该任务下的所有网址,层级采集只需对第一级任务设置此项 |
周期类型 | 1、指定时间(默认)
2、按天
3、按小时
4、按分钟(VIP权限) | 切换类型,可设定不同时间粒度的周期间隔 |
选择日期 | 可选择未来的日期 | 表示在未来某一天执行一次周期采集 |
选择周期 | 1、小时:默认24,可选1-24
2、分钟:默认60,可选1-60
3、天:默认选中周一至周日,周期为每天 | 表示间隔多长时间执行一次周期采集 |
开始时间 | 1、小时:默认00,可选00-23
2、分钟:默认00,可选00-59 | 表示在周期当天**时**分执行周期采集 |
执行方式 | 1、不管是否全部采集完,到时间立刻执行下一轮周期采集(默认)
2、等待全部采完后再执行下一轮周期 | 如果任务采集一遍全部网址所花时间小于所设定的周期间隔,则选默认项即可,否则选第二个选项 |
网站登录设置 |
登录账号 |
| 如需采集过程中自动登录,则填入目标站点的登录账号 |
登录密码 |
| 如需采集过程中自动登录,则填入目标站点的登录密码 |
账号框 |
| 如需采集过程中自动登录,则填入目标站点的账号输入框的xpath定位 |
密码框 |
| 如需采集过程中自动登录,则填入目标站点的密码输入框的xpath定位 |
验证码框 |
| 如需采集过程中自动登录,并且有图片验证码的,则填入目标站点的验证码输入框的xpath定位 |
验证码图片位置 |
| 如需采集过程中自动登录,并且有图片验证码的,则填入目标站点的图片验证码所在位置的xpath定位 |
登录按钮 |
| 如需采集过程中自动登录,则填入目标站点的登录按钮的xpath定位 |
登录成功标志 |
| 如需采集过程中自动登录,则填入目标站点登录成功后的提示信息的xpath定位 |
其它设置 |
由关键内容触发采集 | 1、否
2、是(默认) | 在延迟和滚屏之后,判断网页关键内容出现就执行采集,可适当提高速度 |
跳出重复翻页 | 1、否
2、是(默认) | 适用于翻页情况,连续重复同一页3次即可判断跳出 |
全程模拟点击 | 1、否(默认)
2、是 | 采集网页时模拟鼠标移动 |
高仿真模拟点击 | 1、否(默认)
2、是 | 采集网页时模拟鼠标交互 |
共 0 个关于本帖的回复 最后回复于 2019-5-23 18:46