|
本帖最后由 数据集 于 2018-3-12 10:07 编辑
1,一条线索就是一条网址,如果你的一级规则里有3条线索,在单搜后输入3确定,就会采集这三条线索
2,爬虫每抓一页会生成一个xml,比如一页有10条数据,那么一个xml文件里就有10条数据,翻页到最后会有三条重复的xml文件,把数据转成Excel文件再对数据去重复就行了
3,比如 你的一级规则一共有三条线索(网址),每一条线索有5页数据,每一页有10条数据,那每一条线索会生成50条下级线索,也就是5个xml文件,如果你运行一级规则时输入3,那么一共会有150条下级线索。 不知道这么说清楚吗?
不是每一条网址对应一个xml文件,而是每一条网址里的每一页对应一个xml文件
|
|