如图:上面是一片文章,下面是四个附件,还有一个日期,但是有的网页有附件和日期,有的网页没有,要爬附件和日期用什么方法啊?
注意~1、附件不再文章的那个DIV里,而且是一条附件一个DIV,需要附件名称和链接,有些文章可能有一个附件,也有可能有两个或者5个。
2、文章里的日期也比较乱,有的是<P>2016</P>;<P>年</P>;<p>8</p>;<p>月</>(不知道写的对不对,就是年月日还有前面的数字是分开的),有的是连在一起的,而且位置也不固定,有的文章在左下,有的在中间,求指导,求建议。
我在一个主题名里用了两个整理箱,但是貌似两个整理箱没什么关联。嵌套整理箱样例复制好像也不适用吧。我在同一个整理箱中想把附件样例复制,测试的时候不是正确的,附件没有重复,其他的内容也不出现了。谢谢大神~
举报 使用道具
| 回复

共 3 个关于本帖的回复 最后回复于 2016-8-31 18:26

沙发
Fuller 管理员 发表于 2016-8-31 18:07:09 | 只看该作者
抓文章一个整理箱,抓附件用另一个整理箱。第二个整理箱中的抓取内容都不用设置关键内容,因为时有时无。

日期格式乱的问题就不要花时间调整规则了,而是把日期抓下来以后,用另外的程序做转换。
举报 使用道具
板凳
有正事的小青年 初级会员 发表于 2016-8-31 18:18:54 | 只看该作者
Fuller 发表于 2016-8-31 18:07
抓文章一个整理箱,抓附件用另一个整理箱。第二个整理箱中的抓取内容都不用设置关键内容,因为时有时无。

...

我是用两个整理箱,他们两个之间不用设置什么联系吧,谢谢亲,回复又快又到位,

14.png (3.71 KB, 下载次数: 438)

14.png
举报 使用道具
地板
Fuller 管理员 发表于 2016-8-31 18:26:44 | 只看该作者
有正事的小青年 发表于 2016-8-31 18:18
我是用两个整理箱,他们两个之间不用设置什么联系吧,谢谢亲,回复又快又到位, ...

不用设置什么,他们放在同一个结果文件中,处理结果文件的时候,只要是同一个文件,就是知道他们关联在一起的
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-24 12:16