本帖最后由 wangyong 于 2017-9-1 19:14 编辑
我是想扒1688里面的数据,自己研究了2天 现在是能运行了 但是 里面每个商家的结构不一样 信息对应的网页结构位置不同要怎么能简单的解决呀
我自己实验了两种方式
1是在商户列表页里搜索一级网址作为线索,进入到商户首页,然后在首页里查询抓去信息,但是首页里的要抓取的信息的位置都不同,所以总不匹配
2是在首页导航里在建立规则搜索对应抓取信息的下一级网址作为线索进入下一级页面,再抓取信息,但是在商户首页的导航结构出现的位置也不同的情况
求大神教我如何做
同时,还有个问题就是导出出数据的时候 我压缩了哦个文件,导出后依然不是EXEL格式 而且打开有。文档里只有一条信息(由于后来我改了规则等稍后我实验后在帖子下边在加上图)
规则名字:
洗护测试2
洗护测试2首页
洗护测试2联系方式
|
|
|
|
|
共 4 个关于本帖的回复 最后回复于 2017-9-7 15:26