本帖最后由 wangtie0210 于 2015-8-23 16:07 编辑

我想爬取商标局商标信息
根据公告获取注册码 然后在查询页面进行查询获取商标的具体信息,
查询过程中有个验证码的关要过
本人是新人 求大神帮我定义下规则
举报 使用道具
| 回复

共 9 个关于本帖的回复 最后回复于 2015-8-26 17:50

wangtie0210 新手上路 发表于 2015-8-23 16:04:07 | 显示全部楼层
对了 这里附上原地址http://sbj.saic.gov.cn/
举报 使用道具
ym 版主 发表于 2015-8-24 10:10:21 | 显示全部楼层
刚看了商标网站,浏览网页非常慢,有时还打不开网页,你说的公告,打开的信息是以图片显示的,软件目前还没实现图片文本的转换,所以就无法获取商标注册码,这样就不能用软件实现自动化抓取
举报 使用道具
wangtie0210 新手上路 发表于 2015-8-24 10:11:44 | 显示全部楼层
ym 发表于 2015-8-24 10:10
刚看了商标网站,浏览网页非常慢,有时还打不开网页,你说的公告,打开的信息是以图片显示的,软件目前还没 ...

也就是说 软件是抓去不了这个数据是吗 ?
举报 使用道具
ym 版主 发表于 2015-8-24 10:15:04 | 显示全部楼层
嗯,只能抓到图片
举报 使用道具
wangtie0210 新手上路 发表于 2015-8-24 10:22:03 | 显示全部楼层
ym 发表于 2015-8-24 10:15
嗯,只能抓到图片

那如果我可以拿到那个注册码呢 就是我能提供注册码
举报 使用道具
ym 版主 发表于 2015-8-24 11:00:32 | 显示全部楼层
商标查询那里要输入注册码,这步要想自动化,得自己编写程序实现,集搜客提供开发者工具,可以执行个性化的代码,但这个挺难的,但是观察了商标查询的网址,是比较结构化的,你可以根据注册码构造出这个网址,把 http://sbcx.saic.gov.cn:9080/tmo ... 31243&paiType=0 中的Num=5431243的数字替换成新的注册码就可以构造出网址了,这样就可以直接做这一页面的规则就可以,只是如果你还要详情信息的话,就要设置模拟点击的操作,一个页面目前只能模拟点击一次,但也可以自己编写程序实现点击多次,而验证码的关卡需要自动输入验证码,这个功能集搜客软件是有的,但当前版本尚未还开放,所以你这一步只能手工打码,就是在抓数据的时候,自己输入验证码
举报 使用道具
wangtie0210 新手上路 发表于 2015-8-24 11:04:27 | 显示全部楼层
ym 发表于 2015-8-24 11:00
商标查询那里要输入注册码,这步要想自动化,得自己编写程序实现,集搜客提供开发者工具,可以执行个性化的 ...

明白了 就是集搜客还不能爬取这个网站 ,...
举报 使用道具
ym 版主 发表于 2015-8-24 14:22:11 | 显示全部楼层
网站是可以抓的,只是不能全自动,还要人工辅助
举报 使用道具
gooseeker_info 金牌会员 发表于 2015-8-26 17:50:52 | 显示全部楼层
集搜客入门教程有视频了,在这里观看http://www.gooseeker.com/doc/thread-276-1-1.html
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-3-29 09:21