21#
yangwenge 金牌会员 发表于 2018-3-9 17:09:09 | 只看该作者
希渺 发表于 2018-3-9 16:48
新的问题又来了。。。
下一页记号值设置好了后保存,打开打数机,一级规则运行,待抓取的是1,我填了3,3 ...

你线索数和xml文件还有数据的条数没有分清楚
举报 使用道具
22#
希渺 初级会员 发表于 2018-3-12 09:03:44 | 只看该作者
yangwenge 发表于 2018-3-9 17:09
你线索数和xml文件还有数据的条数没有分清楚

额,那这几个应该怎么理解?
举报 使用道具
23#
Fuller 管理员 发表于 2018-3-12 09:16:45 | 只看该作者
希渺 发表于 2018-3-12 09:03
额,那这几个应该怎么理解?

一条线索对应一个网址

每抓取一次,会形成一个结果文件,xml文件。一条线索可能生成多个xml文件,比如,翻页,每翻一页就会产生一个结果文件。其实只有一条线索。
又如,连续动作,每做完一轮动作,就能产生一个xml文件,此时也只有一条线索。

在一个xml文件中,可能含有多条数据,比如,采集微博的关键词搜索结果,xml文件对应一面网页,在这个网页上会有40条微博,那么就有40条数据,把xml文件导入会员中心,生成excel的时候,就会变成40条
举报 使用道具
24#
希渺 初级会员 发表于 2018-3-12 09:41:30 | 只看该作者
Fuller 发表于 2018-3-12 09:16
一条线索对应一个网址

每抓取一次,会形成一个结果文件,xml文件。一条线索可能生成多个xml文件,比如, ...

一条线索对应一个网址:一级规则采集3个网址,所以点击单搜后我填了数字3,这个我没理解错吧?


每抓取一次形成一个xml文件:也就是说最后得到的xml文件有可能会出现完全一样的xml文件?我得手动删除重复的吗?


一个xml文件中含有多条数据:正如下级线索,一个标题列表页里有多个下级网址,每一个网址对应一个xml文件,我要采集的每个一级网址里都有30条二级网址,一共3个一级网址,我在运行二级规则点击单搜时数量填写90,这个不对吗?


问题较多,多谢回复!
举报 使用道具
25#
数据集 高级会员 发表于 2018-3-12 10:05:51 | 只看该作者
本帖最后由 数据集 于 2018-3-12 10:07 编辑
希渺 发表于 2018-3-12 09:41
一条线索对应一个网址:一级规则采集3个网址,所以点击单搜后我填了数字3,这个我没理解错吧?

1,一条线索就是一条网址,如果你的一级规则里有3条线索,在单搜后输入3确定,就会采集这三条线索

2,爬虫每抓一页会生成一个xml,比如一页有10条数据,那么一个xml文件里就有10条数据,翻页到最后会有三条重复的xml文件,把数据转成Excel文件再对数据去重复就行了

3,比如 你的一级规则一共有三条线索(网址),每一条线索有5页数据,每一页有10条数据,那每一条线索会生成50条下级线索,也就是5个xml文件,如果你运行一级规则时输入3,那么一共会有150条下级线索。  不知道这么说清楚吗?


不是每一条网址对应一个xml文件,而是每一条网址里的每一页对应一个xml文件
举报 使用道具
26#
希渺 初级会员 发表于 2018-3-12 11:00:38 | 只看该作者
数据集 发表于 2018-3-12 10:05
1,一条线索就是一条网址,如果你的一级规则里有3条线索,在单搜后输入3确定,就会采集这三条线索

2,爬 ...

3,比如 你的一级规则一共有三条线索(网址),每一条线索有5页数据,每一页有10条数据,那每一条线索会生成50条下级线索,也就是5个xml文件,如果你运行一级规则时输入3,那么一共会有150条下级线索。  不知道这么说清楚吗?


这一条没太懂。。。


一级规则有3条线索,每条线索有5页数据,这个5页数据不就是二级网址吗?也就是5个下级线索啊
举报 使用道具
27#
yangwenge 金牌会员 发表于 2018-3-12 11:49:27 | 只看该作者
本帖最后由 yangwenge 于 2018-3-12 11:51 编辑
希渺 发表于 2018-3-12 11:00
3,比如 你的一级规则一共有三条线索(网址),每一条线索有5页数据,每一页有10条数据,那每一条线索会 ...

下级线索是上级规则采集的链接,不是上级规则的采集到的xml文件数,上级有3个线索,每个线索有5页,每页有10条数据(也就是10个链接),
那应该是3*5*10=150(条线索)

举报 使用道具
28#
希渺 初级会员 发表于 2018-3-12 12:36:35 | 只看该作者
yangwenge 发表于 2018-3-12 11:49
下级线索是上级规则采集的链接,不是上级规则的采集到的xml文件数,上级有3个线索,每个线索有5页,每页有 ...

我要采集的上级有3个网页,即3个线索,每个线索只有1页啊,每页都是30条数据(30个链接),就应该是3*30=90(条线索)啊,所以我二级单搜填写的是90。。。
https://bj.lianjia.com/ershoufang/co32/,我说的就是这个,假如采集前3页,每页30条数据,二级不是90吗?
举报 使用道具
29#
yangwenge 金牌会员 发表于 2018-3-12 12:42:07 | 只看该作者
希渺 发表于 2018-3-12 12:36
我要采集的上级有3个网页,即3个线索,每个线索只有1页啊,每页都是30条数据(30个链接),就应该是3*30= ...

你做了翻页了的啊
举报 使用道具
30#
希渺 初级会员 发表于 2018-3-12 12:44:58 | 只看该作者
yangwenge 发表于 2018-3-12 12:42
你做了翻页了的啊

没明白。。。。和采集的线索数有关系吗?翻页了一级要采集的也是3个网页啊
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-20 04:17