我刚刚发布了一套采集Yelp网站上的商家信息的抓取规则。有两级规则:
1,第一级下载地址:yelp_search_list

根据搜索关键词在yelp网站上搜索,可以得到一个网址,把这个网址拷贝给这个规则,用于抓取搜索结果中的商家列表,主要是名称和网址,抓取到的网址作为下级规则的爬虫线索。
如果想大批量构造网址,可以在excel中操作,具体参看《怎样使用搜狐新闻搜索列表快捷工具抓取关键词搜索结果

2,第二级下载地址:yelp_search_detail

运行第一级的时候,会为第二级生成爬虫线索,这一级就使用这些线索,把商家的名称、地址、营业时间、联系方式等爬下来。

两级规则是独立运行的,既可以先手工运行第一级,然后运行第二级,也可以在爬虫群模式下,两级同时运行,每级各用自己的爬虫窗口。爬虫群配置和运行方法参看:《如何运行爬虫群
举报 使用道具
| 回复

共 0 个关于本帖的回复 最后回复于 2019-5-6 08:55

您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-25 17:21