目录
- 快捷采集
- 初级教程(新版)
- 初级教程(老版)
- 数据转Excel处理
- 爬虫规则管理
- 高级教程(新版)
- 高级教程(老版)
- 用爬虫群分布式高效采集
- 爬虫关键知识拓展
- 问题集锦
- 实战演练案例
- 爬虫安装说明
- 关于集搜客
集搜客交流群
2000人群:点击加入
搜索网页内容的使用方法
MS谋数台从V5.2.0开始,增加了一项功能:搜索,就是从HTML源代码或动态加载的内容中搜索文字、节点、属性等进行定位。请注意,与浏览器的查看源代码不同,MS谋数台的搜索除了搜索HTML源代码以外,还能搜索动态加载的 ...
内容分析法的用途
内容分析法有许多用途。下面列出了一些非常著名的例子: 1,揭示传播内容的国际间差异 2,比较不同媒介或不同的传播“层次” 3,审查传播内容4,对抽样调查中的开放式问题编码 5,确认传播者的意图及其它特征 6,测定个人或群体的心理状态 7,探测宣传意图8,描述对传播的态度和行为上的反应 9,反应群体、机构或社会的文化模式 10,揭示个人、群体、机构或社会的关切点11,描述传播内容的趋势
分布式版本控制工具git的使用方法
[/url],采用开源的方式,相关代码会存放在[url=https://github.com/FullerHua/jisou本人所在的公司之前是使用另一个版本控制工具svn。趁这个机会,学习了一下git的安装和使用,记录下来与大家分享。 [b]一.git的特点[/b] 之前使用的svn,每次保存的是“变化”,checkout的时候是获取"数据快照”。,更多的详细内容请查阅手册。
怎样用内容分析方法研究公共政策文本?
我已经学会了使用集搜客网络爬虫把政策相关文本采集下来,也学会了用集搜客分词和分析软件对文本进行处理。目前正在练习内容分析方法,我看到大量的案例都是社会舆情分析,能否用内容分析法研究公共政策文本?
写毕业论文使用内容分析法的信度检验问题
我看到知乎上有一篇类似的问答《[url=https://www.zhihu.com/question/41178493]做内容分析研究只有一个编码员如何进行信度检验我看到这个回答挺全面的: [i]测量信度主要有三种指标,分别是稳定系数,等值系数和内外一致性系数。如果你一个人的话可以采用稳定系数指标,即跨时间的一致性,也就是前后测试法。[/i] 关于这个问题,大家分享一下自己的做法吧
Gephi社会网络分析-网络图Force Atlas布局使用方法实验
Gephi可以生成各种直观的图来帮助研究者进行基于社会网络的分析。下图是使用Gephi官网提供的素材(小说《悲惨世界》人物关系)生成的一张网络图示例,借助网络图可以更直观和清晰的分析人物直接的关系
网页不同区块的内容无法区分
95%E5%BE%8B%E6%84%8F%E8%A7%81%E4%B9%A6&pageNum=1&p=1]高管情况是会员有法律意见书[/url][/size][/font][/color] 抓取网页 http://gs.amac.org.cn/amac-infodisc237, 236, 236)][font=微软雅黑, 宋体, Arial, Helvetica, sans-serif]法定代表人236)][font=微软雅黑, 宋体, Arial, Helvetica, sans-serif]高管情况 这两个表格的内容分开来抓但是我试了不同整理箱或者不同规则总是无法区分。两个表格的内容总是同时抓下来。 请问有什么解决办法么?
需要采集的网页内容无法显示
需要采集的页面[url]https://s.taobao.com/search?utf8&cps=yes&cat=50354024[/url] [attach]1759[/attach] 需要采集的是这里的的面包屑导航[attach]1760[/attach] 但是用采集的游览器打开,导航不见了
使用爬虫群爬取微博关键词搜索内容线索网页显示不全、数据不完整,请问这是为什么?
因为微博工具箱暂时无法满足项目对于数据的需求,自己做了一个微博关键词爬取的规则,使用相同规则、相同线索,通过新版本客户端(8.6.4)的单搜和旧版本客户端(8.6.0)的爬虫群功能均能实现完整地爬取,但是使用新版本客户端的爬虫群功能爬取时却出现线索页面显示不全、翻页不全的问题,请问这是什么原因造成的?
使用火狐浏览器和GS浏览器,网页内容不显示。
如图,使用360浏览器,页面中的数据内容是可以显示的,但使用火狐浏览器和GS浏览器抓取数据时,因为页面内容不显示,导致数据无法抓取
内容抓取不全有什么方法解决
例如抓取某一件商品的标题内容时,它的text()是分开的好几段,怎么抓到完整的内容?
Python网页信息采集-使用PhantomJS采集淘宝天猫商品内容
采集天猫商品内容,文中自定义了一个DOWNLOADER_MIDDLEWARES,用来采集需要加载js的[/font][font=微软雅黑]动态[/font][font=微软雅黑]网页内容。size=3]selenium和[/size][/font][font=微软雅黑][size=3]PhantomJS写一个网页内容下载器该程序中[backcolor=rgb(247, 247, 247)]parse函数处理scrapy下载器返回的网页内容,采集网页信息的方法可以是,而且不用手工编写转换用的xpath(如何获取内容提取器请参考[/size][/font][/backcolor][font
如何使用xpath,爬取多个二级页面的固定内容呢?
我希望能爬取深圳市房产交易数据,在每个地块的二级页面中,爬取“二、宗地出让条件的全部内容”,这个应该如何使用Xpath函数呢二级页面的网址是https://www.sz68.com/tiaim/web/landDetail?20200828144830594360867834285286&code=0015&goodId=20200828144830581364360278664104 一级页面的网址是
使用xpath,为什么爬取的内容是相同的
attach][attach]13353[/attach][attach]13354[/attach] 规则验证是正确的,使用xpath爬取,结果是错的,每条内容是重复的,并且条数也不对