网页是 http://bigschedules.com 是一个物流信息更新网,现在想获得json下拉框中的数据,怎么办啊?它的数据不是根据A B C D这样开头设计显示的。在input框中输入字符会自动匹配出含有该字母的地点
举报 使用道具
| 回复

共 3 个关于本帖的回复 最后回复于 2016-10-17 18:26

沙发
quyixuan 金牌会员 发表于 2016-10-17 17:55:21 | 只看该作者
我们把这种抓取称为输入联想的抓取,应用还是很广泛的,比如,分析搜索引擎的联想词。

当输入一个字符或者按了enter键或者焦点移走了,都会发送一些事件,网页上的javascript代码会根据这些事件实现联想词的显示。

最直接的抓取方法是模拟人的输入行为,这样可以避免用抓包工具去解析联想词的展示过程,抓包以后还要模拟,整个过程对技术要求很强,也很费时间。

模拟人的操作就需要网络爬虫具有javascript的解析运行能力,比如,用Python webdriver驱动chrome或者火狐。可以做一些很细的事件模拟,比如,input事件,change事件和焦点事件。有些网页会有很细致的机器人识别,那么就要很细致地模拟真人。
举报 使用道具
板凳
shenzhenwan10 金牌会员 发表于 2016-10-17 18:07:31 | 只看该作者
用连续动作应该可以做
举报 使用道具
地板
Fuller 管理员 发表于 2016-10-17 18:26:01 | 只看该作者
quyixuan 发表于 2016-10-17 17:55
我们把这种抓取称为输入联想的抓取,应用还是很广泛的,比如,分析搜索引擎的联想词。

当输入一个字符或者 ...

如果不想花时间编写Python程序,那么就用现成的GooSeeker爬虫,用连续动作功能,这些动作都能做。具体参看:http://www.gooseeker.com/doc/article-141-1.html
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-5-2 10:23