楼主大四狗,要做毕业设计了,选的题目是做一个带有新闻推荐功能的安卓APP,所以我想要一些新闻数据,我自己就先用Python的Scrapy框架写了几个Demo,但是水平有限,对于像新浪、凤凰之类的网站都是JS动态加载的数据,很难搞,好不容易找到了chinanews.com,里面是静态加载的数据,但是无奈数据较少,且图片信息不好抓取,15年的新闻和14年、13年的图片用的标签都不一致,不好处理,实在不想浪费太多时间在爬虫上,因为我要做的是APP= =!。。。就找到了GooSeeker(就刚刚才找到)。
    想直接请教下大神们,能不能教我抓取新闻源。。。最好能从百度搜索结果开始抓。 具体的话我需要 新闻标题, 新闻正文, 新闻配图, 新闻配图的配文,发布时间,发布社, 图片只要URL也行。 麻烦各位大神了
举报 使用道具
| 回复

共 3 个关于本帖的回复 最后回复于 2015-12-12 17:28

沙发
zylzysl 新手上路 发表于 2015-12-12 16:31:42 | 只看该作者
原谅我没有看教程就直接当伸手党了。。。。我只想在2周后的开题报告开始前把APP大致构架(主要是服务器后端的设计)搞出来
举报 使用道具
板凳
Fuller 管理员 发表于 2015-12-12 17:12:49 | 只看该作者
1,GooSeeker能够抓文字的时候同时下载图,一次性完成
2,新闻抓取类的工作相对简单,很容易就能掌握抓取技巧
3,百度搜索结果抓取有现成的规则,比如
http://www.gooseeker.com/res/detail_103298.html  抓取搜索结果
http://www.gooseeker.com/res/detail_103297.html  改进了一下,可以把相同新闻链接抓下来。因为百度搜索结果中,相同新闻都收缩到一起了,点击那个超链接就能看到所有相同新闻
举报 使用道具
地板
zylzysl 新手上路 发表于 2015-12-12 17:28:25 | 只看该作者
Fuller 发表于 2015-12-12 17:12
1,GooSeeker能够抓文字的时候同时下载图,一次性完成
2,新闻抓取类的工作相对简单,很容易就能掌握抓取技 ...

谢谢,我先看看,不懂再请教
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-20 01:00