http:/www.ciku5.com/bs?pt=2   这里需要登录!
关键词1
关键词2
关键词3
.....翻页的这些关键词等等
关键词1下面又有关键词1a 关键词1b

采集回来的内容用txt文本表示一个关键词一行 这样表示
关键词1
关键词1a
关键词1b
关键词2
关键词3
   

   有的时候关键词1 下面也有翻页的!  
举报 使用道具
| 回复

共 4 个关于本帖的回复 最后回复于 2015-11-22 15:40

gooseeker_info 金牌会员 发表于 2015-11-22 10:20:56 | 显示全部楼层
这个网站很容易构造网址。
比如,
1,搜索“网络科技”的网址:http://www.ciku5.com/s?wd=%E7%BD ... citype=0&sort=0
2,搜索“p2p“的网址:http://www.ciku5.com/s?wd=p2p&citype=0&sort=0

可见,在网址中,参数 wd=xxx,就表示搜索词,把所有网址构造出来,使用GooSeeker的添加线索功能,就能很快准备好爬虫。
举报 使用道具
gooseeker_info 金牌会员 发表于 2015-11-22 10:21:39 | 显示全部楼层
现在会员中心的爬虫管理版块,有很强的线索管理功能:http://www.gooseeker.com/secure/me/crawler.html
举报 使用道具
qazzhoupeng 新手上路 发表于 2015-11-22 12:51:01 | 显示全部楼层
gooseeker_info 发表于 2015-11-22 10:21
现在会员中心的爬虫管理版块,有很强的线索管理功能:http://www.gooseeker.com/secure/me/crawler.html ...

我是想知道怎么来爬取它
举报 使用道具
gooseeker_info 金牌会员 发表于 2015-11-22 15:40:58 | 显示全部楼层
qazzhoupeng 发表于 2015-11-22 12:51
我是想知道怎么来爬取它

如果要自己抓的话,建议从基础教程看起:http://www.gooseeker.com/doc/list-5-1.html
也可以发起一个定制服务任务,找人抓数据,这个网页的右栏有提供定制服务的技术人员:http://www.gooseeker.com/res/resource_home.html
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-3-28 20:19