本人新手,使用爬虫软件时遇到一个问题,在网页中同一个div标签下有两个p标签
使用简单的定位编号映射制作了采集盒子,但是在采集出来的时候发觉数据有个问题,即本来需要抓取的数据分别位于两个p标签之下,但是爬虫始终采集到的是第一个p标签的内容,始终采集不到同一个div标签下另一个p标签中的内容,求大神知道应该如何明确告诉爬虫分别采集两个p标签下制定内容,谢谢。
网页结构
----DIV
--------P(1)
------------text1
------------text2
--------P(2)
------------text1
------------text2


虽然工作台显示定位编号为1986,但实际爬出来的内容是1975的

曾想用xpath定位,但是如果修改了,则抓取的内容是对的,但是仅仅只是抓取第一条记录的,无法因为样例复制而自动变更
求助
举报 使用道具
| 回复

共 9 个关于本帖的回复 最后回复于 2017-12-22 15:20

沙发
数据集二期 中级会员 发表于 2017-12-20 17:57:21 | 只看该作者
规则名是什么?,映射包含两个p节点的div区块节点,爬虫应该就会采集到div节点下的所有的p节点的内容。
举报 使用道具
板凳
zjjtest 初级会员 发表于 2017-12-21 15:36:33 | 只看该作者
month_58cz_sp_zjjtest 这个是主题名   现在还在修改  请帮忙看看  弄不太明白
举报 使用道具
地板
bowieD 金牌会员 发表于 2017-12-21 16:06:56 | 只看该作者
zjjtest 发表于 2017-12-21 15:36
month_58cz_sp_zjjtest 这个是主题名   现在还在修改  请帮忙看看  弄不太明白

把定位方式改成绝对定位就可以了

0645.jpg (32.81 KB, 下载次数: 934)

0645.jpg
举报 使用道具
5#
zjjtest 初级会员 发表于 2017-12-21 17:03:42 | 只看该作者
好的 我试试~
举报 使用道具
6#
zjjtest 初级会员 发表于 2017-12-21 17:22:04 | 只看该作者
bowieD 发表于 2017-12-21 16:06
把定位方式改成绝对定位就可以了

修改为绝对路径OK了  提示了下“样例XPath路径长度不一”发觉是之前的标签位置没定义对  但是还有个问题就是 一般抓取的xml文件用Excel打开是有表头的 但是偶尔遇到打开没有表头的情况 但是xml文本编辑器打开是有标签的 请问如何解决
举报 使用道具
7#
bowieD 金牌会员 发表于 2017-12-21 17:39:20 | 只看该作者
zjjtest 发表于 2017-12-21 17:22
修改为绝对路径OK了  提示了下“样例XPath路径长度不一”发觉是之前的标签位置没定义对  但是还有个问题 ...

如果xml文本有标签,转成excel就会有标签,可能标签前面有空格,在excel里被表格挡住了,可以点开表格看一下。
举报 使用道具
8#
zjjtest 初级会员 发表于 2017-12-22 14:31:35 | 只看该作者
bowieD 发表于 2017-12-21 17:39
如果xml文本有标签,转成excel就会有标签,可能标签前面有空格,在excel里被表格挡住了,可以点开表格看 ...

<?xml version="1.0" encoding="UTF-8"?><extraction><clueid>448012645</clueid><fullpath><![CDATA[http://jxjump.58.com/service?tar ... uVjHO1K_2&local=541|547&pubid=22541366&apptype=0&psid=108782648198422687525502854&entinfo=32072269376695_0&cookie=|||c5/nn1ndcxFhPqWU 8SzAg==&fzbref=0&key=¶ms=busitime^desc]]></fullpath><realpath><![CDATA[http://km.58.com/hezu/3207226937 ... 87525502854&cookie=|||c5/nn1ndcxFhPqWU%208SzAg==&apptype=0&entinfo=32072269376695_0&fzbref=0&key=&pubid=22541366¶ms=busitime^desc&local=541|547&trackkey=32072269376695_56503748-50cc-4b39-835d-f99cacc5f517_20171221165327_1513846407367&fcinfotype=gz]]></realpath><theme>month_58zf2_zjjtest</theme><middle>规则_1</middle><createdate>2017-12-21 16:53:38</createdate><pageno>0</pageno><actionno></actionno><actionvalue></actionvalue><prestamp>DSEngine-+--+-0</prestamp><currentstamp>DSEngine-+-ds_browser_sample-+-2017930141</currentstamp><baseURI><bucketBaseURI><bucketName>出租房屋信息</bucketName><uri><![CDATA[http://km.58.com/hezu/3207226937 ... 87525502854&cookie=|||c5/nn1ndcxFhPqWU%208SzAg==&apptype=0&entinfo=32072269376695_0&fzbref=0&key=&pubid=22541366¶ms=busitime^desc&local=541|547&trackkey=32072269376695_56503748-50cc-4b39-835d-f99cacc5f517_20171221165327_1513846407367&fcinfotype=gz]]></uri></bucketBaseURI></baseURI>
<出租房屋信息><item><标题>(单间出租)新小区,有女生公寓,家具齐全</标题><月租>600</月租><户型面积>5室1厅1卫                                  15                                平  精装修 </户型面积><朝向楼层>东北  中层/共29层</朝向楼层><小区名>文化空间</小区名><片区>西山</片区><详细地址>
                                环城西路317号                            </详细地址></item></出租房屋信息></extraction>

一上市xml文件内容
下面是两个截图 请帮忙看看是什么地方除了问题 谢谢老鸟



已经是第一行了
举报 使用道具
9#
wangyong 版主 发表于 2017-12-22 14:42:25 | 只看该作者
用官方导入Excel的方式不会出现没表头这个问题,教程http://www.gooseeker.com/doc/article-94-1.html
举报 使用道具
10#
zjjtest 初级会员 发表于 2017-12-22 15:20:54 | 只看该作者
wangyong 发表于 2017-12-22 14:42
用官方导入Excel的方式不会出现没表头这个问题,教程http://www.gooseeker.com/doc/article-94-1.html ...

我知道  你给了方法 但还是没有回答我的问题 囧
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-5-6 13:20