参考学习了《怎样抓取中国知网数据》后,遇到了以下问题:1、第二个规则收集到的网址,经过教程指示的修改之后,经复制粘贴无法在正常浏览器中打开。
比如此条网址:http://www.cnki.net/KCMS/detail/detail.aspx?QueryID=0&CurRec=1&FileName=ZGFX201404002&DbName=CJFD2014&DbCode=CJFQ&pr=
在浏览器中粘贴后打开的页面是知网的首页,而不是进入到某篇论文的详情中。这样给第三级规则做线索的时候匹配失败。
2、第三个规则和第四个规则之间属于上下级关系,但当我按照“模拟点击切换到另一标签窗口采数据”教程做的时候,单独执行第三个规则时无法自动执行第四个规则,关于这个问题滚屏次数也调整为大于零了,但仍不可以。输出的结果不包含第四个规则采集的信息。
我的四个规则主题分别为:知网的数据442759129;知网-搜索结果123;知网-文章数据-更多;知网-文章数据2。
请问这两个问题是为什么呢?
当四个规则如果以上问题都解决后,四个规则是如何结合起来运作的呢——我已经知道第二个规则产生的网址可以给第三个规则当线索,那第一个规则如何使用呢?
以上三个问题希望大大能够帮忙解答~小白十分感谢!!!
|
|
|
|
|
共 10 个关于本帖的回复 最后回复于 2018-9-26 16:19