比如我要把孔庆东follow的人,然后再扒他follow的人follow的人,如此循环。
于是我根据贵公司的提醒,做了一个hammerlet_follow的schema。他是同名的两层结构,但是辅名不同。
第一层是孔庆东的主页,我在他follow的人数那里引用了url,做了一个clue(info),
第二层是孔庆东的关注名单,我做了一个翻页的clue(marker),还在他follow的人那里引用了url,做了一个clue(info),总共两个。
孔庆东关注了236个人。
当我用datascraper去抓的时候,点击hammerlet_follow这个schema,查看他的线索数是81个。
想请教这个线索数是怎么计算出来的?尤其是这个线索数是什么意思?
谢谢!!
线索数
每个用户看到的都是他自己可以修改和删除的线索数,如果多个用户对同一个网页进行抓取,线索数看到的都是各自的。
start状态表示还没有抓取的线索
fetched状态表示失败了的线索,通常是超时造成的
unknownschema状态表示失败的原因是确定的:信息结构与网页结构不符
其它:通常是成功完成的线索