|
1,可以用定位标志映射代替样例复制,参看教程:《定位标志采集列表数据》。
给推特定义规则时,我发现网页上有好多一样的class属性值,如果不限定一下整理箱的最顶层容器节点的定位,就很容易抓取到不想要的内容。所以,我经过几次测试以后,发现用样例复制没法做定位限制,所有就采用了定位标志映射代替样例复制映射。
2,定位标志映射是为了限定网页位置,需要在内容映射基础上做定位标志映射,能更精准地采集数据。 以前版本是允许只做定位标志映射的,现在不提倡这样用了,而是要在内容映射基础上在做定位标志映射。定位标志相当于在网页上划定一个范围,而不是整个网页的范围,这样做可以精准定位
3,我本来是用DS打数机的自动滚屏,发现twitter这个网站比较特殊,滚屏到下面的时候,上面的内容就没有了,所以,用DS打数机的自动滚屏功能,等滚屏完成后再去采集,只会采集到最新显示出来的内容。所以,不能用DS打数机的自动滚屏。而是用连续动作的滚屏,连续动作每做一次都要采集一次,所以,就不怕twitter把老内容清除了。
4,twitter我用的不多,我感觉跟微博一样,用advanced search功能设置好时间,就能得到一个网址,把这个网址添加到规则中就行。设置时间段的时候,不要跨度太大,尤其是一些热门的关键词,不能跨度大了。
关键词搜索结果用这个规则不一定合适,这个规则是采集某个推主发表的tweet的
|
|