快捷导航
想要京东评论数据,刚好在资源里看到京东评论的规则,下载规则把我的100积分都耗完了,直接运行,看到在抓数据,可是抓来的数据不是我想要的,要怎么做才能变成抓我要的网址评论呢?求大神尽快解答!
举报 使用道具
| 回复

共 7 个关于本帖的回复 最后回复于 2015-8-21 15:37

坦克罐头 初级会员 发表于 2015-8-20 17:54:41 | 显示全部楼层
你下载之前要好好看下规则内容啊
你要具体什么样的数据,描述清楚
举报 使用道具
ym 版主 发表于 2015-8-20 17:55:35 | 显示全部楼层
刚整理了资源的使用方法,等会修改下发你看吧
举报 使用道具
ym 版主 发表于 2015-8-20 18:04:34 | 显示全部楼层
本帖最后由 ym 于 2015-8-21 10:18 编辑

资源库的使用方法如下:
1、  下载规则
去资源库下载规则后,就会提示可以现在运行;如果想以后再运行的话,可以到个人主页“我的资源”->“我的下载”中查看下载的资源,点击运行就可以启动该规则的抓取任务(前提是有等待抓取的线索)。
京东评论.png

2、  运行抓数据
现在运行的话,抓取的数据就是样本网址所在页面的数据,这个一般是给用户测试用的,如果运行正常就说明规则是有效的;
如果不想要这些数据,可以在数据抓取完后,把抓到的数据文件清空(点击“文件”菜单->“存储路径”,查看存储数据的文件夹,也可以修改存储路径);
存储.png

或者是右击主题名,选择“管理线索”->“撤销所有线索”就可以把所有线索的状态改为成功抓取的状态,这样除非重新“添加”线索或“激活所有线索”,否则撤销的线索就不会再使用了;
撤销线索.png

3、添加目标网址
右击主题名,选择“管理线索”->“添加”,输入目标网址并保存,每行一个网址,如果网址很多的话,也可以通过excel批量粘贴网址;
    添加线索2.png

4、输入网址数量后直接抓数据
点击主题名右侧的“单搜”按钮或者“集搜”按钮,输入要抓取的网址数量就可以启动抓取任务。(可以右击主题名,选择“统计线索”统计一下有多少网址数量);
注意:如果抓取数据的时候突然关闭DS打数机,那么正在抓取的网址线索就会被当作是抓取失败的线索,可以通过“管理线索”->”激活失败线索”来激活,然后重新抓取。
线索数量.png


举报 使用道具
丠道 初级会员 发表于 2015-8-20 18:10:03 | 显示全部楼层
ym 发表于 2015-8-20 17:55
刚整理了资源的使用方法,等会修改下发你看吧

终于会用了,辛苦大神,非常感谢!!!
举报 使用道具
丠道 初级会员 发表于 2015-8-20 18:13:53 | 显示全部楼层
这个规则的样本网址有7000多条评论啊,抓了200多页还没抓完,我直接关掉,直接添加网址好了
举报 使用道具
ym 版主 发表于 2015-8-20 18:15:49 | 显示全部楼层
丠道 发表于 2015-8-20 18:13
这个规则的样本网址有7000多条评论啊,抓了200多页还没抓完,我直接关掉,直接添加网址好了 ...

这样也是可以的
举报 使用道具
思秋忆 中级会员 发表于 2015-8-21 15:37:50 | 显示全部楼层
之前我抓关键词搜索出来的微博时也碰到了类似的问题,然后尝试的操作是:加载规则——将样本网址修改为我想要其他网址——保存规则——抓数据。虽然这种方式也可行,不过看了版主的教程,我的方式还真是菜鸟级的
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • 新闻内容分词后在Jupyter Notebook中使用TF
  • Jupyter Notebook使用sklearn的TF-IDF算法
  • 基于TSC 理论的网络社区中知识动员模式研究
  • 网页数据采集使用嵌套整理箱获得有层次的数
  • 我国旅游管理研究的知识来源与结构—基于文

热门用户

GMT+8, 2021-7-31 14:43