一、蜘蛛抓取差異
我一直喜歡觀察蜘蛛行蹤,筆者在許多站長(zhǎng)群里面被稱為“蜘蛛俠”,就是來(lái)源于我的這個(gè)習(xí)慣和愛(ài)好。這次上新站這樣的機(jī)會(huì)是肯定不能錯(cuò)過(guò)的。網(wǎng)站內(nèi)容上傳完畢后,首先去幾個(gè)門戶論壇發(fā)帖回復(fù)引蜘蛛,幾個(gè)小時(shí)后訪問(wèn)日志已經(jīng)產(chǎn)生了,百度蜘蛛的速度較快,在谷歌之前來(lái)到了網(wǎng)站。通過(guò)日志查看,谷歌的蜘蛛非常有趣,反復(fù)爬取robots文件10多次以后才小心翼翼的抓取首頁(yè),之后一邊爬取robots一邊抓取網(wǎng)站內(nèi)頁(yè)。而百度蜘蛛則顯得比較著急,我的網(wǎng)站是制作了robots文件的,但是百度并不爬取此文件,直接去抓取網(wǎng)站首頁(yè),而且顯得非常饑餓和瘋狂,在1分鐘內(nèi),反復(fù)爬取首頁(yè)20多次,之后再去抓取內(nèi)頁(yè)。返回狀態(tài)碼200 0 0,表示全部抓取成功。感興趣的朋友可以到我的網(wǎng)站查看昨天的蜘蛛抓取日志,一個(gè)新站的抓取過(guò)程,對(duì)于研究蜘蛛的規(guī)律和性格有非常不錯(cuò)的參考價(jià)值。
從上面的過(guò)程可以看出,谷歌的蜘蛛比較有禮貌和注重禮儀規(guī)矩,會(huì)反復(fù)敲門得到陌生新主人許可后才進(jìn)去,之后的每一個(gè)行為都參照robots規(guī)則來(lái)進(jìn)行內(nèi)頁(yè)的抓取,讓我想起了解放軍的三大紀(jì)律八項(xiàng)注意,在這里贊一個(gè)。而百度蜘蛛忽略robots,進(jìn)門反復(fù)咬首頁(yè)10多口才放手的行為,讓人感覺(jué)很暴力很野蠻,蜘蛛吃完首頁(yè)繼續(xù)吃內(nèi)頁(yè),這個(gè)過(guò)程中百度蜘蛛完全無(wú)視r(shí)obots文件的存在。
二、網(wǎng)站收錄差異
幾小時(shí)后site谷歌,已經(jīng)收錄了新站的2個(gè)頁(yè)面,其次是搜搜在24小時(shí)內(nèi)收錄了首頁(yè)。新站到現(xiàn)在為止已經(jīng)誕生30多小時(shí)了,而百度至今還沒(méi)放出首頁(yè)。由于搜索機(jī)制和規(guī)則不一樣,目前來(lái)說(shuō)新站收錄效率來(lái)講谷歌最給力,百度慢了好幾拍。
以上分享的是筆者的新站在谷歌和百度抓取和收錄過(guò)程中的差異,希望通過(guò)這個(gè)案例,給研究SEO的朋友和需要上新站的朋友一些學(xué)習(xí)參考和靈感,讓你更了解谷歌百度的抓取規(guī)則和收錄流程。