8090午夜福利理论影视,99九九99九九精彩视频,国产成人免费高清激情视频,国产Av一区二区三区无码野战

首頁 超級知識寶庫網(wǎng)絡(luò)評測四虎電影庫房網(wǎng)站duos通過requests BeautifulSoup下載

四虎電影庫房網(wǎng)站duos通過requests BeautifulSoup下載

字數(shù): 839
評論: 0
閱讀: 281849

四虎電影庫房網(wǎng)站duos通過requests BeautifulSoup下載 四虎網(wǎng)站是一個成人網(wǎng)站,里面有很多的資源可以進行下載。



一、獲取圖片網(wǎng)頁的信息


  首先是獲取圖片網(wǎng)頁的鏈接 ,我們在圖片的主頁面上有各個圖片的鏈接和標題,我們可以爬取下載再進行分析!


四虎電影庫房網(wǎng)站duos通過requests BeautifulSoup下載.jpg

  我們首先通過requests.get()的方法把網(wǎng)頁給爬取下來,這時利用requests.get()的content屬性可以把網(wǎng)頁的源代碼給顯示出來,也可以用text來顯示,但content的一個優(yōu)勢就是返回的是二進制數(shù)據(jù),而text返回的是unicode型數(shù)據(jù)。簡單來說,就是content不容易亂碼,而且也可以獲取圖片和文件。

 我們發(fā)現(xiàn)網(wǎng)頁的最后一頁的下一頁沒有,返回的是一個空值,所以我們直接將最后一個網(wǎng)頁作為頁面的異常值拋出.接下來我們直接利用BeautifulSoup類型的find_all找出所有的鏈接。其中有些鏈接不是圖片頁面的鏈接,我們又發(fā)現(xiàn)圖片鏈接的地址長度都是一樣的,我們可以通過將鏈接地址大小進行判斷,取得圖片地址鏈接。

二、獲取各個圖片的鏈接



  我們現(xiàn)在可以通過上面取得網(wǎng)頁的地址來獲取各個圖片的鏈接,我們發(fā)現(xiàn)圖片的地址都是在img的src屬性里,我們可以通過上面的方法來獲得圖片的鏈接

三、下載圖片



  圖片可以通過urllib.urlretrieve(imgurl, path)來保存圖片,但通過這種的方式保存的圖片無法打開,所以還是要通過


f.write(h.content)的方式來保存圖片。


還有將同一個標題下的圖片存在一起,我們通過判斷標題是否一樣,如果一樣就保存在這個文件夾下,

如果不一樣就創(chuàng)建文件夾

四、主函數(shù)



  我們利用下一頁返回是否為空來判斷是否爬取完成。如果返回的不是空,則會永遠執(zhí)行,我們還有一個計時功能,來計算執(zhí)行時間。

文章發(fā)布于: 2020-03-02 05:47:23
發(fā)表評論
?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ????? ?? ?? ?? ?? ?? ??