不管你是待業(yè)還是失業(yè),在這個(gè)被互聯(lián)網(wǎng)圍繞的時(shí)代里,選擇python爬蟲怎么寫,就多了一項(xiàng)技能,還怕找不到工作?,還怕不好找工作?小編就來(lái)告訴你這個(gè)專業(yè)的優(yōu)勢(shì)到底體現(xiàn)在哪里:Python技術(shù)筆記匯總(含語(yǔ)法、工具庫(kù)、數(shù)科、爬蟲等),小白如何入門 Python 爬蟲?,超牛逼!Python爬蟲學(xué)習(xí)的完整路線推薦??。
1.Python技術(shù)筆記匯總(含語(yǔ)法、工具庫(kù)、數(shù)科、爬蟲等)
自去年五月份在知乎發(fā)布Python技術(shù)筆記以來(lái),迄今文章+回答總數(shù)已經(jīng)達(dá)到接近200篇。這些內(nèi)容包括Python基礎(chǔ)語(yǔ)法、數(shù)據(jù)科學(xué)、爬蟲、自動(dòng)化辦公、機(jī)器學(xué)習(xí)、各類工具庫(kù)及小技巧。這里把寫過(guò)的內(nèi)容匯總成目錄,方便查詢檢索。1. 學(xué)習(xí)方法怎么自學(xué)python,大概要多久? 為什么自學(xué)Python看不進(jìn)去? 如何系統(tǒng)地學(xué)習(xí)Python 中 , numpy, scipy, pandas? 哪些 Python 庫(kù)讓你相見恨晚? 有什么關(guān)于python的書值得閱讀? 請(qǐng)問(wèn)自學(xué) Python 有必要買課程嗎? Python學(xué)到什么程度可以面試工作? 用python進(jìn)行辦公自動(dòng)化都需要學(xué)習(xí)什么知識(shí)呢? 你是如何開始能寫 Python 爬蟲? 2. 入門Python初學(xué) Python 需要安裝哪些軟件? 入門python有什么好的書籍推薦? 學(xué)Python的學(xué)生買電腦,該買什么配置的?初學(xué) Python 者自學(xué) Anaconda 的正確姿勢(shì)是什么? 有哪些值得推薦的 Python 開發(fā)工具? Python安裝庫(kù)太慢?配置好這個(gè)速度飛起 3. Python語(yǔ)法一文搞懂Python匿名函數(shù) 一文搞懂Python文件讀寫 一文搞懂python的map、reduce函數(shù) 一文搞懂Python迭代器和生成器 一文搞懂Python循環(huán)小技巧 一文搞懂Python錯(cuò)誤和異常 一文搞懂python日期時(shí)間處理 如何理解Python中的yield用法? 8個(gè)超好用的Python內(nèi)置函數(shù),提升效率必備 python新手必躺的坑 有了這個(gè)Python備忘錄,代碼拿來(lái)即用 50個(gè)關(guān)于IPython的使用技巧,get起來(lái)! 使用IPython有哪些好處?用好模塊,對(duì)李白詩(shī)集進(jìn)行字頻統(tǒng)計(jì) 4. Pandas & Numpy數(shù)據(jù)處理在pandas中使用數(shù)據(jù)透視表 高效的5個(gè)pandas函數(shù),你都用過(guò)嗎? 6個(gè)pandas數(shù)據(jù)處理小技巧,提升效率必備 高效的10個(gè)Pandas函數(shù),你都用過(guò)了嗎? 如何系統(tǒng)地學(xué)習(xí)Python 中 , numpy, scipy, pandas? 用python爬蟲爬去數(shù)據(jù)直接用excel處理就好,為什么還用pandas來(lái)處理?干貨 | 50題帶你玩轉(zhuǎn)numpy Numpy基礎(chǔ)20問(wèn) Numpy進(jìn)階之排序小技巧 5. 數(shù)據(jù)可視化 好看的數(shù)據(jù)可視化的圖片是怎么樣做的? 哪些 Python 庫(kù)讓你相見恨晚? Python中除了外還有哪些數(shù)據(jù)可視化的庫(kù)? 使用pyecharts繪制詞云圖-淘寶商品評(píng)論展示 數(shù)據(jù)可視化,Seaborn畫圖原來(lái)這么好看 seaborn常用的10種數(shù)據(jù)分析圖表 Superset,基于web的開源BI工具,github三萬(wàn)star 教你用pyecharts制作交互式?;鶊D,趕快學(xué)起來(lái)吧! 干貨 | Bokeh交互式數(shù)據(jù)可視化快速入門 6. 空間地理信息聊一聊Python中優(yōu)秀的6個(gè)地圖可視化庫(kù) 24頁(yè)P(yáng)PT | 如何利用python進(jìn)行地圖可視化? geopandas,用python分析地理空間數(shù)據(jù)原來(lái)這么簡(jiǎn)單! 干貨 | 使用pyecharts繪制交互式動(dòng)態(tài)地圖 7. 爬蟲小白如何入門 Python 爬蟲?selenium入門詳細(xì)指南(附淘寶搶購(gòu)案例) 哪吒票房超復(fù)聯(lián)4,100行python代碼抓取豆瓣短評(píng),看看網(wǎng)友怎么說(shuō) 使用requests爬取python崗位招聘數(shù)據(jù) 電影《毒液》豆瓣短評(píng) 爬蟲&分詞&詞云展示 有哪些足不出戶,能用十天左右時(shí)間掌握的新技能?干貨!python爬蟲100個(gè)入門項(xiàng)目 干貨!python爬蟲100個(gè)入門項(xiàng)目 續(xù)8. 自動(dòng)化辦公用python進(jìn)行辦公自動(dòng)化都需要學(xué)習(xí)什么知識(shí)呢?python自動(dòng)化辦公太難?學(xué)這些就夠用了 python讀寫excel等數(shù)據(jù)文件方法匯總 xlwings,讓excel飛起來(lái)! python操作CSV和excel,如何來(lái)做? 請(qǐng)教下 Python 高手,如何用 Python 自動(dòng)化操作 Excel?9. 數(shù)據(jù)科學(xué)使用python進(jìn)行數(shù)據(jù)分析工作,要掌握哪些數(shù)學(xué)知識(shí)?Vaex :突破pandas,快速分析100G大數(shù)據(jù)量 jieba分詞-強(qiáng)大的Python 中文分詞庫(kù) numba,讓python速度提升百倍 最全Python數(shù)據(jù)科學(xué)小抄,趕緊收藏吧! 看圖漲知識(shí),一百天搞定機(jī)器學(xué)習(xí) Python數(shù)據(jù)分析案例 | 臺(tái)風(fēng)最喜歡在我國(guó)哪個(gè)省市登陸 pandas_profiling :教你一行代碼生成數(shù)據(jù)分析報(bào)告 干貨!小白入門Python數(shù)據(jù)科學(xué)全教程 深入了解機(jī)器學(xué)習(xí) ( into ML):線性回歸 機(jī)器學(xué)習(xí)數(shù)學(xué)知識(shí),你必須要掌握! Python機(jī)器學(xué)習(xí)·微教程 Keras中的多變量時(shí)間序列預(yù)測(cè)-LSTMs 一文讀懂隨機(jī)森林的解釋和實(shí)現(xiàn) 機(jī)器學(xué)習(xí)中的數(shù)據(jù)縮放-Python Scikit-Learn實(shí)現(xiàn)方法 如何使用Python scikit-learn機(jī)器學(xué)習(xí)庫(kù)做分類和回歸預(yù)測(cè) 機(jī)器學(xué)習(xí)中的泛化能力10. 數(shù)據(jù)庫(kù)如何使用python連接數(shù)據(jù)庫(kù)?Python sqlite3數(shù)據(jù)庫(kù)模塊使用攻略 如何通過(guò)Python將CSV文件導(dǎo)入MySQL數(shù)據(jù)庫(kù)? python與mysql怎么完成大量的數(shù)據(jù)交互?11. 開發(fā)工具有哪些值得推薦的 Python 開發(fā)工具?這6款Python IDE&代碼編輯器,你都用過(guò)嗎? 初學(xué) Python 者自學(xué) Anaconda 的正確姿勢(shì)是什么?Jupyter Notebook & Lab快捷鍵大全 15個(gè)好用到爆炸的Jupyter Lab插件 泣血整理,Jupyter Notebook最常用的配置技巧 實(shí)用 | PyCharm常用快捷鍵整理 ,極其強(qiáng)大的下一代notebook! 12. 其他你用 Python 寫過(guò)哪些有趣的腳本?使用Python驗(yàn)證常見的50個(gè)正則表達(dá)式利用Python將PDF文檔轉(zhuǎn)為MP3音頻 pdfkit | 利用python實(shí)現(xiàn)html文件轉(zhuǎn)pdf 干貨 | 解放雙手,用Python實(shí)現(xiàn)自動(dòng)發(fā)送郵件 教你使用Python下載b站等各大主流網(wǎng)站音視頻 教你使用Python制作酷炫二維碼 Github上好玩的50個(gè)python項(xiàng)目匯總 (一)Github上好玩的50個(gè)python項(xiàng)目匯總 (二) *推薦幾本不錯(cuò)的Python書。如果大家對(duì)自學(xué)沒有信心,當(dāng)然也可以去看視頻課,跟著老師的節(jié)奏學(xué)習(xí)會(huì)更容易入門。有個(gè)還不錯(cuò)的課程,可以瞅瞅。
2.小白如何入門 Python 爬蟲?
本文針對(duì)初學(xué)者,我會(huì)用最簡(jiǎn)單的案例告訴你如何入門python爬蟲!想要入門Python 爬蟲首先需要解決四個(gè)問(wèn)題熟悉python編程了解HTML了解網(wǎng)絡(luò)爬蟲的基本原理學(xué)習(xí)使用python爬蟲庫(kù)一、你應(yīng)該知道什么是爬蟲?網(wǎng)絡(luò)爬蟲,其實(shí)叫作網(wǎng)絡(luò)數(shù)據(jù)采集更容易理解。就是通過(guò)編程向網(wǎng)絡(luò)服務(wù)器請(qǐng)求數(shù)據(jù)(HTML表單),然后解析HTML,提取出自己想要的數(shù)據(jù)。歸納為四大步:根據(jù)url獲取HTML數(shù)據(jù)解析HTML,獲取目標(biāo)信息存儲(chǔ)數(shù)據(jù)重復(fù)*步這會(huì)涉及到數(shù)據(jù)庫(kù)、網(wǎng)絡(luò)服務(wù)器、HTTP協(xié)議、HTML、數(shù)據(jù)科學(xué)、網(wǎng)絡(luò)安全、圖像處理等非常多的內(nèi)容。但對(duì)于初學(xué)者而言,并不需要掌握這么多。二、python要學(xué)習(xí)到什么程度如果你不懂python,那么需要先學(xué)習(xí)python這門非常easy的語(yǔ)言(相對(duì)其它語(yǔ)言而言)。編程語(yǔ)言基礎(chǔ)語(yǔ)法無(wú)非是數(shù)據(jù)類型、數(shù)據(jù)結(jié)構(gòu)、運(yùn)算符、邏輯結(jié)構(gòu)、函數(shù)、文件IO、錯(cuò)誤處理這些,學(xué)起來(lái)會(huì)顯枯燥但并不難。剛開始入門爬蟲,你甚至不需要去學(xué)習(xí)python的類、多線程、模塊之類的略難內(nèi)容。找一個(gè)面向初學(xué)者的教材或者網(wǎng)絡(luò)教程,花個(gè)十幾天功夫,就能對(duì)python基礎(chǔ)有個(gè)三四分的認(rèn)識(shí)了,這時(shí)候你可以玩玩爬蟲嘍!先說(shuō)下python入門,實(shí)在是太容易了,因?yàn)檎Z(yǔ)法簡(jiǎn)單,思維與人類的思維很相近。入門的時(shí)候,別整天想著看很多資料,網(wǎng)上各種找,*都留在了收藏夾吃灰。其實(shí)對(duì)于剛接觸編程的小白而言,最容易卡在安裝Python環(huán)境和實(shí)操代碼這一步。建議一開始先試試一些學(xué)習(xí)網(wǎng)站的免費(fèi)課程,大概了解下Python的基礎(chǔ)知識(shí),打好扎實(shí)的基礎(chǔ)后再上手學(xué)爬蟲。如果毫無(wú)基礎(chǔ)可言,甚至不知道如何下載Python,那我推薦下面這個(gè)課程↓ 不用安裝環(huán)境,直接在網(wǎng)頁(yè)上學(xué)習(xí)代碼實(shí)操,基礎(chǔ)知識(shí)配實(shí)戰(zhàn),這樣學(xué)起來(lái)更容易: 解析數(shù)據(jù),因?yàn)閿?shù)據(jù)藏在HTML里。學(xué)習(xí)HTML并不難,它并不是編程語(yǔ)言,你只需要熟悉它的標(biāo)記規(guī)則,這里大致講一下。HTML標(biāo)記包含標(biāo)簽(及其屬性)、基于字符的數(shù)據(jù)類型、字符引用和實(shí)體引用等幾個(gè)關(guān)鍵部分。HTML標(biāo)簽是最常見的,通常成對(duì)出現(xiàn),比如
與
。這些成對(duì)出現(xiàn)的標(biāo)簽中,*個(gè)標(biāo)簽是開始標(biāo)簽,第二個(gè)標(biāo)簽是結(jié)束標(biāo)簽。兩個(gè)標(biāo)簽之間為元素的內(nèi)容(文本、圖像等),有些標(biāo)簽沒有內(nèi)容,為空元素,如。以下是一個(gè)經(jīng)典的Hello World程序的例子:Hello world!
HTML文檔由嵌套的HTML元素構(gòu)成。它們用HTML標(biāo)簽表示,包含于尖括號(hào)中,如[56]在一般情況下,一個(gè)元素由一對(duì)標(biāo)簽表示:“開始標(biāo)簽”
與“結(jié)束標(biāo)簽”
。元素如果含有文本內(nèi)容,就被放置在這些標(biāo)簽之間。四、了解python網(wǎng)絡(luò)爬蟲的基本原理在編寫python爬蟲程序時(shí),只需要做以下兩件事:發(fā)送GET請(qǐng)求,獲取HTML解析HTML,獲取數(shù)據(jù)這兩件事,python都有相應(yīng)的庫(kù)幫你去做,你只需要知道如何去用它們就可以了。五、用python庫(kù)爬取百度首頁(yè)標(biāo)題和圖片首先,發(fā)送HTML數(shù)據(jù)請(qǐng)求可以使用python內(nèi)置庫(kù)urllib,該庫(kù)有一個(gè)urlopen函數(shù),可以根據(jù)url獲取HTML文件,這里嘗試獲取百度首頁(yè)“ 導(dǎo)入urllib庫(kù)的urlopen函數(shù) from urllib.request import urlopen # 發(fā)出請(qǐng)求,獲取html html = urlopen(" # 獲取的html內(nèi)容是字節(jié),將其轉(zhuǎn)化為字符串 html_text = bytes.decode(html.read()) # 打印html內(nèi)容 print(html_text)看看效果:輸出html內(nèi)容部分截取我們看一下真正百度首頁(yè)html是什么樣的,如果你用的是谷歌瀏覽器,在百度主頁(yè)打開設(shè)置>更多工具>開發(fā)者工具,點(diǎn)擊element,就可以看到了:在谷歌瀏覽器中查看HTML對(duì)比一下你就會(huì)知道,剛才通過(guò)python程序獲取到的HTML和網(wǎng)頁(yè)中的一樣!獲取了HTML之后,接下就要解析HTML了,因?yàn)槟阆胍奈谋?、圖片、視頻都藏在HTML里,你需要通過(guò)某種手段提取需要的數(shù)據(jù)。python同樣提供了非常多且強(qiáng)大的庫(kù)來(lái)幫助你解析HTML,這里以著名的python庫(kù)為工具來(lái)解析上面已經(jīng)獲取的HTML。是第三方庫(kù),需要安裝使用。在命令行用pip安裝就可以了:pip install 會(huì)將HTML內(nèi)容轉(zhuǎn)換成結(jié)構(gòu)化內(nèi)容,你只要從結(jié)構(gòu)化標(biāo)簽里面提取數(shù)據(jù)就OK了:比如,我想獲取百度首頁(yè)的標(biāo)題“百度一下,我就知道”,怎么辦呢?這個(gè)標(biāo)題是被兩個(gè)標(biāo)簽套住的,一個(gè)是一級(jí)標(biāo)簽,另一個(gè)是二級(jí)標(biāo)簽3.超牛逼!Python爬蟲學(xué)習(xí)的完整路線推薦
數(shù)據(jù)是決策的原材料,高質(zhì)量的數(shù)據(jù)價(jià)值不菲,如何挖掘原材料成為互聯(lián)網(wǎng)時(shí)代的先驅(qū),掌握信息的源頭,就能比別人更快一步。大數(shù)據(jù)時(shí)代,互聯(lián)網(wǎng)成為大量信息的載體,機(jī)械的復(fù)制粘貼不再實(shí)用,不僅耗時(shí)費(fèi)力還極易出錯(cuò),這時(shí)爬蟲的出現(xiàn)解放了大家的雙手,以其高速爬行、定向抓取資源的能力獲得了大家的青睞。爬蟲變得越來(lái)越流行,不僅因?yàn)樗軌蚩焖倥廊『A康臄?shù)據(jù),更因?yàn)橛衟ython這樣簡(jiǎn)單易用的語(yǔ)言使得爬蟲能夠快速上手。對(duì)于小白來(lái)說(shuō),爬蟲可能是一件非常復(fù)雜、技術(shù)門檻很高的事情,但掌握正確的方法,在短時(shí)間內(nèi)做到能夠爬取主流網(wǎng)站的數(shù)據(jù),其實(shí)非常容易實(shí)現(xiàn),但建議你從一開始就要有一個(gè)具體的目標(biāo)。在目標(biāo)的驅(qū)動(dòng)下,你的學(xué)習(xí)才會(huì)更加精準(zhǔn)和高效。那些所有你認(rèn)為必須的前置知識(shí),都是可以在完成目標(biāo)的過(guò)程中學(xué)到的?;趐ython爬蟲,我們整理了一個(gè)完整的學(xué)習(xí)框架:篩選和甄別學(xué)習(xí)哪些知識(shí),在哪里去獲取資源是許多初學(xué)者共同面臨的問(wèn)題。接下來(lái),我們將學(xué)習(xí)框架進(jìn)行拆解,分別對(duì)每個(gè)部分進(jìn)行詳細(xì)介紹和推薦一些相關(guān)資源,告訴你學(xué)什么、怎么學(xué)、在哪里學(xué)。爬蟲簡(jiǎn)介爬蟲是一種按照一定的規(guī)則,自動(dòng)地抓取萬(wàn)維網(wǎng)信息的程序或者腳本。這個(gè)定義看起來(lái)很生硬,我們換一種更好理解的解釋:我們作為用戶獲取網(wǎng)絡(luò)數(shù)據(jù)的方式是瀏覽器提交請(qǐng)求->下載網(wǎng)頁(yè)代碼->解析/渲染成頁(yè)面;而爬蟲的方式是模擬瀏覽器發(fā)送請(qǐng)求->下載網(wǎng)頁(yè)代碼->只提取有用的數(shù)據(jù)->存放于數(shù)據(jù)庫(kù)或文件中。爬蟲與我們的區(qū)別是,爬蟲程序只提取網(wǎng)頁(yè)代碼中對(duì)我們有用的數(shù)據(jù),并且爬蟲抓取速度快,量級(jí)大。隨著數(shù)據(jù)的規(guī)模化,爬蟲獲取數(shù)據(jù)的高效性能越來(lái)越突出,能夠做的事情越來(lái)越多:市場(chǎng)分析:電商分析、商圈分析、一二級(jí)市場(chǎng)分析等市場(chǎng)監(jiān)控:電商、新聞、房源監(jiān)控等商機(jī)發(fā)現(xiàn):招投標(biāo)情報(bào)發(fā)現(xiàn)、客戶資料發(fā)掘、企業(yè)客戶發(fā)現(xiàn)等進(jìn)行爬蟲學(xué)習(xí),首先要懂得是網(wǎng)頁(yè),那些我們?nèi)庋劭梢姷墓怩r亮麗的網(wǎng)頁(yè)是由HTML、css、等網(wǎng)頁(yè)源碼所支撐起來(lái)的。這些源碼被瀏覽器所識(shí)別轉(zhuǎn)換成我們看到的網(wǎng)頁(yè),這些源碼里面必定存在著很多規(guī)律,我們的爬蟲就能按照這樣的規(guī)律來(lái)爬取需要的信息。無(wú)規(guī)矩不成方圓,Robots協(xié)議就是爬蟲中的規(guī)矩,它告訴爬蟲和搜索引擎哪些頁(yè)面可以抓取,哪些不可以抓取。通常是一個(gè)叫作robots.txt的文本文件,放在網(wǎng)站的根目錄下。輕量級(jí)爬蟲“獲取數(shù)據(jù)——解析數(shù)據(jù)——存儲(chǔ)數(shù)據(jù)”是爬蟲的三部曲,大部分爬蟲都是按這樣的流程來(lái)進(jìn)行,這其實(shí)也是模擬了我們使用瀏覽器獲取網(wǎng)頁(yè)信息的過(guò)程。1、獲取數(shù)據(jù)爬蟲*步操作就是模擬瀏覽器向服務(wù)器發(fā)送請(qǐng)求,基于python,你不需要了解從數(shù)據(jù)的實(shí)現(xiàn),HTTP、TCP、IP的網(wǎng)絡(luò)傳輸結(jié)構(gòu),一直到服務(wù)器響應(yīng)和應(yīng)達(dá)的原理,因?yàn)閜ython提供了功能齊全的類庫(kù)來(lái)幫我們完成這些請(qǐng)求。Python自帶的標(biāo)準(zhǔn)庫(kù)urllib2使用的較多,它是python內(nèi)置的HTTP請(qǐng)求庫(kù),如果你只進(jìn)行基本的爬蟲網(wǎng)頁(yè)抓取,那么urllib2足夠用。Requests的slogen是“Requests is the only Non-GMO HTTP library for Python, safe for ”,相對(duì)urllib2,requests使用起來(lái)確實(shí)簡(jiǎn)潔很多,并且自帶json解析器。如果你需要爬取異步加載的動(dòng)態(tài)網(wǎng)站,可以學(xué)習(xí)瀏覽器抓包分析真實(shí)請(qǐng)求或者學(xué)習(xí)Selenium來(lái)實(shí)現(xiàn)自動(dòng)化。對(duì)于爬蟲來(lái)說(shuō),在能夠爬取到數(shù)據(jù)地前提下當(dāng)然是越快越好,顯然傳統(tǒng)地同步代碼不能滿足我們對(duì)速度地需求。(ps:據(jù)國(guó)外數(shù)據(jù)統(tǒng)計(jì):正常情況下我們請(qǐng)求同一個(gè)頁(yè)面 100次的話,最少也得花費(fèi) 30秒,但使用異步請(qǐng)求同一個(gè)頁(yè)面 100次的話,只需要要 3秒左右。)aiohttp是你值得擁有的一個(gè)庫(kù),aiohttp的異步操作借助于async/await關(guān)鍵字的寫法變得更加簡(jiǎn)潔,架構(gòu)更加清晰。使用異步請(qǐng)求庫(kù)進(jìn)行數(shù)據(jù)抓取時(shí),會(huì)大大提高效率。你可以根據(jù)自己的需求選擇合適的請(qǐng)求庫(kù),但建議先從python自帶的urllib開始,當(dāng)然,你可以在學(xué)習(xí)時(shí)嘗試所有的方式,以便更了解這些庫(kù)的使用。推薦請(qǐng)求庫(kù)資源:urllib2文檔: : 、JSON、XML等格式。解析庫(kù)的使用等價(jià)于在HTML中查找需要的信息時(shí)時(shí)使用正則,能夠更加快捷地定位到具體的元素獲取相應(yīng)的信息。Css選擇器是一種快速定位元素的方法。Pyqurrey使用lxml解析器進(jìn)行快速在xml和html文檔上操作,它提供了和jQuery類似的語(yǔ)法來(lái)解析HTML文檔,支持CSS選擇器,使用非常方便。Beautiful Soup是借助網(wǎng)頁(yè)的結(jié)構(gòu)和屬性等特性來(lái)解析網(wǎng)頁(yè)的工具,能自動(dòng)轉(zhuǎn)換編碼。支持Python標(biāo)準(zhǔn)庫(kù)中的HTML解析器,還支持一些第三方的解析器。Xpath最初是用來(lái)搜尋XML文檔的,但是它同樣適用于HTML文檔的搜索。它提供了超過(guò) 100 個(gè)內(nèi)建的函數(shù)。這些函數(shù)用于字符串值、數(shù)值、日期和時(shí)間比較、節(jié)點(diǎn)和 QName 處理、序列處理、邏輯值等等,并且XQuery和XPointer都構(gòu)建于XPath基礎(chǔ)上。Re正則表達(dá)式通常被用來(lái)檢索、替換那些符合某個(gè)模式(規(guī)則)的文本。個(gè)人認(rèn)為前端基礎(chǔ)比較扎實(shí)的,用pyquery是最方便的,也不錯(cuò),re速度比較快,但是寫正則比較麻煩。當(dāng)然了,既然用python,肯定還是自己用著方便*。推薦解析器資源:pyquery 作為關(guān)系型數(shù)據(jù)庫(kù)的代表,擁有較為成熟的體系,成熟度很高,可以很好地去存儲(chǔ)一些數(shù)據(jù),但在在海量數(shù)據(jù)處理的時(shí)候效率會(huì)顯著變慢,已然滿足不了某些大數(shù)據(jù)的處理要求。MongoDB已經(jīng)流行了很長(zhǎng)一段時(shí)間,相對(duì)于MySQL ,MongoDB可以方便你去存儲(chǔ)一些非結(jié)構(gòu)化的數(shù)據(jù),比如各種評(píng)論的文本,圖片的鏈接等等。你也可以利用PyMongo,更方便地在Python中操作MongoDB。因?yàn)檫@里要用到的數(shù)據(jù)庫(kù)知識(shí)其實(shí)非常簡(jiǎn)單,主要是數(shù)據(jù)如何入庫(kù)、如何進(jìn)行提取,在需要的時(shí)候再學(xué)習(xí)就行。Redis是一個(gè)不折不扣的內(nèi)存數(shù)據(jù)庫(kù),Redis 支持的數(shù)據(jù)結(jié)構(gòu)豐富,包括hash、set、list等。數(shù)據(jù)全部存在內(nèi)存,訪問(wèn)速度快,可以存儲(chǔ)大量的數(shù)據(jù),一般應(yīng)用于分布式爬蟲的數(shù)據(jù)存儲(chǔ)當(dāng)中。推薦數(shù)據(jù)庫(kù)資源:mysql文檔 redis文檔 selector 能夠方便地解析 response,然而它最讓人驚喜的還是它超高的性能,讓你可以將爬蟲工程化、模塊化。學(xué)會(huì)scrapy,你可以自己去搭建一些爬蟲框架,你就基本具備爬蟲工程師的思維了。*Pyspider作為人氣飆升的國(guó)內(nèi)大神開發(fā)的框架,滿足了絕大多數(shù)Python爬蟲的需求 —— 定向抓取,結(jié)構(gòu)化化解析。它能在瀏覽器界面上進(jìn)行腳本的編寫,功能的調(diào)度和爬取結(jié)果的實(shí)時(shí)查看,后端使用常用的數(shù)據(jù)庫(kù)進(jìn)行爬取結(jié)果的存儲(chǔ)等。其功能強(qiáng)大到更像一個(gè)產(chǎn)品而不是一個(gè)框架。這是三個(gè)最有代表性的爬蟲框架,它們都有遠(yuǎn)超別人的有點(diǎn),比如Nutch天生的搜索引擎解決方案、Pyspider產(chǎn)品級(jí)的WebUI、Scrapy最靈活的定制化爬取。建議先從最接近爬蟲本質(zhì)的框架scary學(xué)起,再去接觸人性化的Pyspider,為搜索引擎而生的Nutch。推薦爬蟲框架資源:Nutch文檔 scary文檔 pyspider文檔 爬取基本數(shù)據(jù)已經(jīng)沒有問(wèn)題,還能使用框架來(lái)面對(duì)一寫較為復(fù)雜的數(shù)據(jù),此時(shí),就算遇到反爬,你也掌握了一些反反爬技巧。你的瓶頸會(huì)集中到爬取海量數(shù)據(jù)的效率,這個(gè)時(shí)候相信你會(huì)很自然地接觸到一個(gè)很厲害的名字:分布式爬蟲。分布式這個(gè)東西,聽起來(lái)很恐怖,但其實(shí)就是利用多線程的原理將多臺(tái)主機(jī)組合起來(lái),共同完成一個(gè)爬取任務(wù),需要你掌握 Scrapy +Redis+MQ+Celery這些工具。Scrapy 前面我們說(shuō)過(guò)了,用于做基本的頁(yè)面爬取, Redis 則用來(lái)存儲(chǔ)要爬取的網(wǎng)頁(yè)隊(duì)列,也就是任務(wù)隊(duì)列。scarpy-redis就是用來(lái)在scrapy中實(shí)現(xiàn)分布式的組件,通過(guò)它可以快速實(shí)現(xiàn)簡(jiǎn)單分布式爬蟲程序。由于在高并發(fā)環(huán)境下,由于來(lái)不及同步處理,請(qǐng)求往往會(huì)發(fā)生堵塞,通過(guò)使用消息隊(duì)列MQ,我們可以異步處理請(qǐng)求,從而緩解系統(tǒng)的壓力。RabbitMQ本身支持很多的協(xié)議:AMQP,XMPP, SMTP,STOMP,使的它變的非常重量級(jí),更適合于企業(yè)級(jí)的開發(fā)。Scrapy-rabbitmq-link是可以讓你從RabbitMQ 消息隊(duì)列中取到URL并且分發(fā)給Scrapy spiders的組件。Celery是一個(gè)簡(jiǎn)單、靈活且可靠的,處理大量消息的分布式系統(tǒng)。支持 RabbitMQ、Redis 甚至其他數(shù)據(jù)庫(kù)系統(tǒng)作為其消息代理中間件, 在處理異步任務(wù)、任務(wù)調(diào)度、處理定時(shí)任務(wù)、分布式調(diào)度等場(chǎng)景表現(xiàn)良好。所以分布式爬蟲只是聽起來(lái)有些可怕,也不過(guò)如此。當(dāng)你能夠?qū)懛植际降呐老x的時(shí)候,那么你可以去嘗試打造一些基本的爬蟲架構(gòu)了,實(shí)現(xiàn)一些更加自動(dòng)化的數(shù)據(jù)獲取。推薦分布式資源:scrapy-redis文檔
就拿大數(shù)據(jù)說(shuō)話,優(yōu)勢(shì)一目了然,從事IT行業(yè),打開IT行業(yè)的新大門,找到適合自己的培訓(xùn)機(jī)構(gòu),進(jìn)行專業(yè)和系統(tǒng)的學(xué)習(xí)。