我目前处于爬虫入门水平,搜罗了一堆code,然后试过python链家的code,然后发现最简单的是一个用R来爬的
然而,那个code居然只能爬租房栏目的,我改成二手房或新房栏目的网址,不知道有什么bug,在pagetree就有问题了~so,如果有熟悉R的高手,请指教,谢谢:
library(XML)
# max页数
url<- htmlParse("http://esf.tj.fang.com/house/i31/",encoding='GBK')
# url地址list
urlist <- paste("http://esf.tj.fang.com/house/i3",1:10,sep="")
# 初始化
t_addr <- character()
t_mode <- character()
t_price <- character()
content <- data.frame()
t_content <- data.frame()
# 循环提取页面信息
for(url in urlist){
#下载网址
pagetree <- htmlParse(url,encoding='GBK')
#利用XPATH筛选 (这部分可能是不对的,但是上面的pagetree好像已经有问题了)
t_addr <- xpathSApply (pagetree, "//*/p [@class='gray6 mt20']",xmlValue)
t_mode <- xpathSApply (pagetree, "//*/p [@class='font16 mt20 bold']",xmlValue)
t_price <- xpathSApply (pagetree, "//*/p [@class='mt5 alingC']",xmlValue)
t_mode <- gsub("[\\r\\n\\s]", "", t_mode, perl = TRUE)
t_content <- data.frame(t_addr,t_mode,t_price,stringsAsFactors=FALSE)
content <- rbind(content,t_content)
}
write.csv(content,file="天津租房信息.csv",row.names=F)
|
|
|
|
|
共 2 个关于本帖的回复 最后回复于 2018-3-30 11:18