觸屏版
全國服務(wù)熱線:0571-87205688
登錄
注冊
客戶中心
關(guān)注云客
在用Python爬取百度搜索的內(nèi)容時,發(fā)現(xiàn)百度搜索的url非常的長,往往會跟一大段的參數(shù),但其實(shí)很多參數(shù)都是沒有必要的,如同樣是搜索java關(guān)鍵字,可以通過 http://www.baidu.com/s?wd=java 如此簡單的URL來獲取,而下面這個超級復(fù)雜的URL也是同樣進(jìn)行了關(guān)鍵字java的搜索:
http://www.baidu.com/s?wd=java&rsv_spt=1&rsv_iqid=0xd3c8c51900052eb3&issp=1&f=8
&rsv_bp=1&rsv_idx=2&ie=utf-8&tn=baiduhome_pg&rsv_enter=1&oq=python%20org&inputT=801
&rsv_t=8810tNAXi7Yc2PivScHthQ7bBz%2B4eIBHvrdmB59u%2FlLVYrhnyyTg1%2FYJzQM9EAEgSPn5
&rsv_pq=8f0a85f900051202&rsv_sug3=15&rsv_sug2=0&rsv_sug7=000&rsv_sug4=801&rsv_sug=2
那么后面的那么多的參數(shù)有什么用呢?
wd
查詢關(guān)鍵字,就是你要搜索的內(nèi)容。
rn
搜索結(jié)果頁每頁顯示的數(shù)目,默認(rèn)為10,最大可以設(shè)置為50
pn
顯示結(jié)果的頁數(shù),缺省為0,其它頁面需要每頁遞增rn,如當(dāng)rn為默認(rèn)值時,第三頁的pn應(yīng)為20。
ie
查詢關(guān)鍵字的編碼格式,默認(rèn)為gb2312,即為簡體中文
tn
提交的搜索請求的來源,我們經(jīng)??梢钥吹胶芏嗑W(wǎng)站上都有嵌入了百度的搜索框,這個參數(shù)可以確定當(dāng)前的搜索是來自哪個網(wǎng)站的。如下面的URL就是通過www.hao123.com網(wǎng)站首頁的百度搜索框搜索得到的:
https://www.baidu.com/s?word=java&tn=sitehao123&ie=utf-8
注:我們可以看到很多參數(shù)其實(shí)都是縮寫,如wd用word也是可以的
rsv_bp
這是表示了是百度網(wǎng)頁上的哪一個搜索框,如通過百度首頁中間的搜索框進(jìn)行搜索時,該值為0,在搜索結(jié)果頁上面的搜索框進(jìn)行搜索時為1。
rsv_spt
這個參數(shù)具體含義不是很清楚,經(jīng)過測試可以看出來登錄了百度賬號且在首頁進(jìn)行搜索時會有這個參數(shù),且值為1,如果沒有登錄或登錄后在搜索結(jié)果頁搜索時不會出現(xiàn)這個參數(shù)。網(wǎng)上查找了一些資料,感覺比較靠譜的是這表示首頁搜索類型,1表示新版百度首頁搜索(先要登錄百度帳號),2表示百度實(shí)時熱點(diǎn)搜索(先要登錄百度帳號),3表示傳統(tǒng)百度首頁搜索。
cl
這個參數(shù)是提交的搜索類型,如搜索網(wǎng)頁時為3,搜索新聞時為2
oq
這個關(guān)鍵詞網(wǎng)上有些帖子說是搜索下拉欄相關(guān)的,但根據(jù)我的測試,這個參數(shù)現(xiàn)在好像就僅僅代表上次的搜索關(guān)鍵字。
還有很多參數(shù)如rsv_**這些參數(shù)的意義不是很明確,此外上面的參數(shù)測試可能也不是很全面,理解可能也有偏差,如有錯誤,歡迎交流。
評論(0人參與,0條評論)
發(fā)布評論
最新評論