我该怎么使用别人的规则?比如百度搜索关键词,别人的规则是搜索“马云“,我想搜索”谢娜“该怎么办?
举报 使用道具
| 回复

共 5 个关于本帖的回复 最后回复于 2017-10-12 21:40

Fuller 管理员 发表于 2017-10-12 17:21:31 | 显示全部楼层
别人的规则无法直接使用,因为有权限限制。但是你可以直接使用数据DIY中的关于百度搜索的规则

如果是你自己做的规则,那么只需给规则添加网址就行了。百度搜索的网址可以构造出来,搜索词都是出现在url中的,可以用excel做构造
举报 使用道具
Lucky嗨嗨 初级会员 发表于 2017-10-12 18:54:09 | 显示全部楼层
Fuller 发表于 2017-10-12 17:21
别人的规则无法直接使用,因为有权限限制。但是你可以直接使用数据DIY中的关于百度搜索的规则。

如果是你 ...

数据DIY中的关于百度搜索的规则都是百度新闻搜索,而我要在百度一下里面搜索,另外我要搜的和百度新闻的规则还不太一样

举报 使用道具
ali369 初级会员 发表于 2017-10-12 18:59:13 | 显示全部楼层
Lucky嗨嗨 发表于 2017-10-12 18:54
数据DIY中的关于百度搜索的规则都是百度新闻搜索,而我要在百度一下里面搜索,另外我要搜的和百度新闻的 ...

可以自己制作规则
举报 使用道具
Lucky嗨嗨 初级会员 发表于 2017-10-12 19:03:58 | 显示全部楼层
ali369 发表于 2017-10-12 18:59
可以自己制作规则

就是自己在制作过程中遇到了问题啊,爬取的摘要不全!还有二级网站的文本内容有点乱啊!

举报 使用道具
Fuller 管理员 发表于 2017-10-12 21:40:46 | 显示全部楼层
Lucky嗨嗨 发表于 2017-10-12 19:03
就是自己在制作过程中遇到了问题啊,爬取的摘要不全!还有二级网站的文本内容有点乱啊!

...

二级规则想通用的话,只能采集整个html body,无法精确采集每个字段。

百度网页搜索规则,最大的难度在于首页,其实翻页以后,结构都一样了。首页结构很复杂。所以,先考虑一下有没有必要采集首页。首页上的内容几乎都是不变的
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-3-29 14:23