目录
- 快捷采集
- 初级教程(新版)
- 初级教程(老版)
- 数据转Excel处理
- 爬虫规则管理
- 高级教程(新版)
- 高级教程(老版)
- 用爬虫群分布式高效采集
- 爬虫关键知识拓展
- 问题集锦
- 实战演练案例
- 爬虫安装说明
- 关于集搜客
集搜客交流群
2000人群:点击加入
假货泛滥的时代,要勇于差评
[font=微软雅黑][size=3]最近看了篇文章,揭露了电商系统如何通过大数据来欺负好脾气用户。size=3][color=#222222]“你在网上买件大牌化妆品,在订单提交→发货之前,系统会查询分析你在全平台的购物数据(大数据内部共享):购买均价,常购品牌,退货率。[/color] [color=#222222]“用户的投诉率,退货率都记录在识别系统里,这些数据将作为电商判断你电商将处理时间设定在耐心临界点,就是为了处理 " 二手货 ",这些尾货全部来源于厂商,供应价低,利润更高用户的投诉率,退货率都记录在识别系统里,这些数据将作为电商判断你
内容分析中确定问题或假设的重要性
内容分析中确定问题或假设的重要性
确定研究问题和假设这一步有没有一些例子?
内容分析法的第一步是:确定研究问题和假设。能否举一些例子,什么是比较好的研究问题和假设
爬取数据时,明明规则对了,会有漏抓列表页,比如,假设一共有20个公司,只抓到5个
[size=16px]规则做对了,在爬数据的时候,发现有些数据抓到了,有些数据没有抓到[/size] [size=16pxc1-k3352-y4/[/url][/size] [size=16px] [/size] [size=16px]数据规则
奇葩海淘排行榜——美国人民最喜欢买中国的假发!
美国人民最喜欢买中国的假发!究竟大伙儿海淘都淘些什么呢?这里全知晓!所以问题来了,哪国人民的生意最好做?
突发公共卫生事件中虚假信息的时滞性扩散与情感关联分析
本篇研究论文范例,以微博数据作为分析内容,研究爬取了新冠疫情期间的虚假信息及疫情相关的微博数据,利用自动文本分析方法分析虚假信息的主题分布;然后结合时间线索和格兰杰因果分析,展示了虚假信息相关主题微博的 ...
内容分析法案例:基于《新闻记者》2001-2019“年度虚假新闻案例”的考察
本文以《新闻记者》杂志2001-2019年评选出的“年度虚假新闻案例”为考察对象,采用内容分析法,探究新媒体环境下虚假新闻生产的新变化,以该197篇案例为研究对象,通过构建类目编码,将文本量化,并进行数据统计分析,探寻虚假新闻生产的新变化,讨论新闻失实的内在动因[b](二)类目设计与编码[/b] 关于虚假新闻的编码类目包括选题类型、内容特征、首发媒体类型、首发媒体属地、失实程度、在熟悉编码工作后,2位编码员按照所设计的类目对197篇虚假新闻案例进行编码。——基于《新闻记者》2001-2019“年度虚假新闻案例”的考察》[/url]
Jupyter Notebook数据探索数据分析:pyecharts做数据展示
后面会尝试不用测试数据, 而直接用[url=http://www.gooseeker.com/pro/gooseeker.htmlwww.gooseeker.com/res/softdetail_13.html]集搜客文本分词和情感分析软件[/url]输出的数据
数据DIY获取不了数据
[attach]5263[/attach] [attach]5264[/attach]
数据列表的数据不一致,采集的数据为空
采集的该列数据 图片后的字段为空
爬数据后得到数据和测试后的数据不匹配
在爬取nba数据时,测试后的到的是正确的数据,但是存完规则爬数据后的到的数据并不是测试时的数据信息,请问问题出在哪里了呢?
【36大数据-数据分析】#集搜客GooSeeker数据集开放目录#
[list] [*]标题:【36大数据-数据分析】#集搜客GooSeeker数据集开放目录# [*]分类:互联网 [*]关键词:36大数据、数据分析 [*]摘要:阅览数据报告、数据挖掘、用户研究和网站分析相关的数据分析文章 [*]链接
我的数据里没有数据怎么办
[attach]2843[/attach] 这里为什么没数据呢?我想把xml弄成Excel
导出的数据比导入的数据多?
我导入的数据有300多条,但是导出来后有1000多条了,这是什么原因?
xml数据出错,数据量超额问题
主题名:新豆瓣电影数据分析-中国大陆 运行规则采集数据之后,进行导入时发现数据量过大无法导出,明明之前做过一次采集豆瓣电影数据不限地区的数据量也没那么大,本次加上中国大陆这一限定之后数据量却有一百多万条。于是就用xml转excel试了下,发现每一个xml文件里的数据都是上一个xml的内容加上新的数据,最后大概十个xml里的内容还都是一样的,之前没有注意,直接把所有的xml打包导入到数据管理那里,导致现在超额入库。请问,出现这种xml数据重复情况是什么原因造成的呀,还有就是怎么样才可以把超额的数据量清除呢?