本帖最后由 wangyong 于 2017-9-1 19:14 编辑

我是想扒1688里面的数据,自己研究了2天 现在是能运行了 但是 里面每个商家的结构不一样 信息对应的网页结构位置不同要怎么能简单的解决呀
我自己实验了两种方式
1是在商户列表页里搜索一级网址作为线索,进入到商户首页,然后在首页里查询抓去信息,但是首页里的要抓取的信息的位置都不同,所以总不匹配
2是在首页导航里在建立规则搜索对应抓取信息的下一级网址作为线索进入下一级页面,再抓取信息,但是在商户首页的导航结构出现的位置也不同的情况
求大神教我如何做
同时,还有个问题就是导出出数据的时候 我压缩了哦个文件,导出后依然不是EXEL格式 而且打开有。文档里只有一条信息(由于后来我改了规则等稍后我实验后在帖子下边在加上图)
规则名字:
洗护测试2
洗护测试2首页
洗护测试2联系方式


举报 使用道具
| 回复

共 4 个关于本帖的回复 最后回复于 2017-9-7 15:26

沙发
a798234780 初级会员 发表于 2017-9-1 15:35:21 | 只看该作者
本帖最后由 a798234780 于 2017-9-1 16:34 编辑


采集的电话,需要点击联系方式才能看到电话的信息,你的第二级规则中是没有这个步骤的。所以是抓取不到电话信息。你可以在第一级和第二规则中再做一个规则用来抓取“联系方式“这里的网址。然后把它作为下级线索指向你的这个“洗护测试2联系方式”规则
举报 使用道具
板凳
nevermove 新手上路 发表于 2017-9-1 15:39:06 | 只看该作者
本帖最后由 nevermove 于 2017-9-1 15:42 编辑
a798234780 发表于 2017-9-1 15:35
采集的电话,需要点击联系方式才能看到电话的信息,你的第二级规则中是没有这个步骤的。所以是抓取不到电 ...

嗯是的 但是在您截图的页面里,要抓去信息是在那个位置,但是在别的商户页面 就不是在这个位置了,这时候怎么办

举报 使用道具
地板
bowieD 金牌会员 发表于 2017-9-1 16:07:42 | 只看该作者
本帖最后由 bowieD 于 2017-9-7 15:38 编辑

只是你二级的规则有问题,
1、你只想采集联系方式下的电话号码,不用做样例复制。如果这样做样例复制,就会把导航栏里面所有的名称和链接都采集下来
2、你的第一级规则定义的下级线索是对应第一个店铺,但你的第二级规则却用的是第二个店铺的页面,第二级规则应该用第一个店铺的网页做样例页面。
3,因为每个店铺的导航栏的信息位置不同,所以第二级规则不能用下级线索这种方式去对应第三级规则,需要用连续点击动作,自定义XPath去定位到“联系方式”这一栏,需要用contains函数,参考《xpath常用函数用法》


举报 使用道具
5#
nevermove 新手上路 发表于 2017-9-7 15:26:01 | 只看该作者
bowieD 发表于 2017-9-1 16:07
只是你二级的规则有问题,
1、你只想采集联系方式下的电话号码,不用做样例复制。如果这样做样例复制,就会 ...

非常感谢~~我试一下~~

举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-27 13:00