Hi,人人网的首页向下滚动的时候,新鲜事自动在下面增加,(类似微博),增加两次之后,再向下滚动就不增加了,出现“更多新鲜事”链接,点击之后,再在下面出现更多的新鲜事,(不像微博是翻页了),这个怎么解决“更多新鲜事”的抓取啊?如果说的不明白,请参见自己的人人网首页。谢谢!
一般发生在首页上,点击查看更多按钮后,当前网页显示的内容会增多,有些微博允许点击很多次,当前网页内容就会越来越长。可以采用模拟用户点击的方法抓取“更多新鲜事”,参看:http://www.gooseeker.com/cn/node/document/metaseeker/cookbookv4/simulateclick.html
另外一种方法也是我们一直采用的方法:不断得抓取首页,比如每个10秒钟,这样就没有必要模拟点击“更多新鲜事”了,通常显示的内容按照时间排序,只要抓取的足够频繁,及时不点击“更多新鲜事”也能不漏。
谢谢你的回答。
对于第一种方法针对人人网首页可能存在一个问题,采用二级抓取后,确实模拟了一次点击“更多新鲜事”,但是第二级抓取的时候,最下方仍然有“更多新鲜事”按钮,还需要模拟点击一次,这样又需要增加第三级,……第四级、第五级………第N级…好像不太好处理。
对于第二种方法,我没有太明白你的意思,是说从某个时间点开始,每隔10秒抓取一次,一直抓取一定长的时间。如果是这样,好像丢失了开始时间点之前的若干数据。其实我们最想抓取的用户某个时间点之前的所有数据,而不是某个时间点之后的数据。
希望你能做进一步指导。
第二种方法主要解决以后新出现的消息的抓取,而那些很早以前的消息,确实难于抓取,用第一种方法定义模拟点击“更多新鲜事”的规则,可以模拟点击N次,这个N次在crontab.xml文件中用depth规定。参看:http://www.gooseeker.com/cn/node/technology/files/pss
在微博上也遇到这种情况
一般发生在首页上,点击查看更多按钮后,当前网页显示的内容会增多,有些微博允许点击很多次,当前网页内容就会越来越长。可以采用模拟用户点击的方法抓取“更多新鲜事”,参看:http://www.gooseeker.com/cn/node/document/metaseeker/cookbookv4/simulateclick.html
另外一种方法也是我们一直采用的方法:不断得抓取首页,比如每个10秒钟,这样就没有必要模拟点击“更多新鲜事”了,通常显示的内容按照时间排序,只要抓取的足够频繁,及时不点击“更多新鲜事”也能不漏。
疑问
谢谢你的回答。
对于第一种方法针对人人网首页可能存在一个问题,采用二级抓取后,确实模拟了一次点击“更多新鲜事”,但是第二级抓取的时候,最下方仍然有“更多新鲜事”按钮,还需要模拟点击一次,这样又需要增加第三级,……第四级、第五级………第N级…好像不太好处理。
对于第二种方法,我没有太明白你的意思,是说从某个时间点开始,每隔10秒抓取一次,一直抓取一定长的时间。如果是这样,好像丢失了开始时间点之前的若干数据。其实我们最想抓取的用户某个时间点之前的所有数据,而不是某个时间点之后的数据。
希望你能做进一步指导。
抓很早以前的数据确实有问题
第二种方法主要解决以后新出现的消息的抓取,而那些很早以前的消息,确实难于抓取,用第一种方法定义模拟点击“更多新鲜事”的规则,可以模拟点击N次,这个N次在crontab.xml文件中用depth规定。参看:http://www.gooseeker.com/cn/node/technology/files/pss