1. http://www.bgcheck.cn/Index.html####
复制代码
比如说,我在企业信用网输入关键词“万科”,然后会有一个搜索列表出现,网址变成这个:
  1. http://www.bgcheck.cn/MemberCenter/FirmCredit/Search.html?Keywords=%25E4%25B8%2587%25E7%25A7%2591
复制代码
页面显示是这样的:

我要抓取这个列表页面,但是将网址复制到MS谋数台之后又跳转到了初始页面,如下图所示:

我想应该是网址失效了,那这样的话,对搜索列表做规则的样本网址怎么取?

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
举报 使用道具
| 回复

共 2 个关于本帖的回复 最后回复于 2017-1-20 17:09

沙发
xandy 论坛元老 发表于 2017-1-20 17:05:14 | 只看该作者
你要换一种思路,直接针对搜索列表做采集规则是不行的(因为网址很快就失效了)。
所以可以让爬虫模拟人的行为,比如说上面的应用场景,让爬虫在首页页面输入关键词,然后点击搜索,然后抓取搜索列表。
就是说,从搜索动作开始一直到采集,都交给爬虫去实现。
做两个规则:
A:做连续动作,定义输入关键词和点击搜索动作,目标主题名是规则B
B:采集搜索列表上的内容
参看教程:《自动搜索关键词采集信息—以京东为例
举报 使用道具
板凳
xandy 论坛元老 发表于 2017-1-20 17:09:49 | 只看该作者
你可能会问,那么规则B的样本网址是哪个,规则B的样本网址和规则A的一样,都是首页搜索页面所在的网址,只不过你做规则B的时候,先不着急定义,先去掉“内容定位”,然后在MS浏览器窗口里头搜索关键词,点击搜索,出现搜索列表之后,再勾选“内容定位”,然后点击“规则->刷新网页结构”后再定义采集规则。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • 利用AI阅读和分析文本:扣子COZE记录用户反
  • 在网页片段内直观标注——以B站评论采集为
  • 利用AI阅读和分析文本:使用COZE建设游记文
  • 使用AI工具Kimi生成python代码为文本分析结
  • 苹果mac电脑安装集搜客网络爬虫软件失败的

热门用户

GMT+8, 2024-11-23 04:49