我在爬取豆瓣数据的时候,我的复制样例,但是在每一页的影评的最后一个都没有办法爬取,请问是为什么?

QQ截图20170215143657.png (240.44 KB, 下载次数: 708)

QQ截图20170215143657.png

QQ截图20170215143712.png (59.87 KB, 下载次数: 689)

QQ截图20170215143712.png
举报 使用道具
| 回复

共 11 个关于本帖的回复 最后回复于 2017-2-16 15:40

沙发
xandy 论坛元老 发表于 2017-2-15 14:43:48 | 只看该作者
主题名是什么?
举报 使用道具
板凳
changjiangeng 新手上路 发表于 2017-2-15 14:45:11 | 只看该作者
xandy 发表于 2017-2-15 14:43
主题名是什么?

福根儿
举报 使用道具
地板
xandy 论坛元老 发表于 2017-2-15 14:45:31 | 只看该作者
采集豆瓣数据,推荐你用官方的DIY工具进行豆瓣网站的数据采集,不需要自己做规则,只需要将网址或关键词添加进任务,爬虫就可以自动跑起来了。
举报 使用道具
5#
changjiangeng 新手上路 发表于 2017-2-15 14:47:21 | 只看该作者
xandy 发表于 2017-2-15 14:45
采集豆瓣数据,推荐你用官方的DIY工具进行豆瓣网站的数据采集,不需要自己做规则,只需要将网址或关键词添 ...

但是我希望根据用户来爬取,官方的是根据电影名来爬取的
举报 使用道具
6#
HJLing 版主 发表于 2017-2-15 14:53:12 | 只看该作者
changjiangeng 发表于 2017-2-15 14:47
但是我希望根据用户来爬取,官方的是根据电影名来爬取的

你的样例复制找错了
应该是第一个影评和第二个影评做样例复制
你是用了第二个和第三个

举报 使用道具
7#
xandy 论坛元老 发表于 2017-2-15 14:58:38 | 只看该作者
changjiangeng 发表于 2017-2-15 14:47
但是我希望根据用户来爬取,官方的是根据电影名来爬取的

是的,你的样例没做好,如下图所示,找到列表中第一个对应DOM树中的UL节点,将其样例复制给第一个,同理,将第二个UL样例映射给第二个。

另外,你这个规则还有一个问题就是给“评分”加上定位标志映射,这样评分就不会抓漏了。
举报 使用道具
8#
changjiangeng 新手上路 发表于 2017-2-15 20:11:29 | 只看该作者
HJLing 发表于 2017-2-15 14:53
你的样例复制找错了
应该是第一个影评和第二个影评做样例复制
你是用了第二个和第三个

谢谢
举报 使用道具
9#
changjiangeng 新手上路 发表于 2017-2-15 20:14:28 | 只看该作者
xandy 发表于 2017-2-15 14:58
是的,你的样例没做好,如下图所示,找到列表中第一个对应DOM树中的UL节点,将其样例复制给第一个,同理 ...

谢谢
举报 使用道具
10#
changjiangeng 新手上路 发表于 2017-2-15 20:19:48 | 只看该作者
xandy 发表于 2017-2-15 14:58
是的,你的样例没做好,如下图所示,找到列表中第一个对应DOM树中的UL节点,将其样例复制给第一个,同理 ...

请问你这个定位标记映射是怎么做出来的?
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-5-4 20:09