python re.match()用法相關(guān)示例
學(xué)習(xí)python爬蟲時(shí)遇到了一個(gè)問題,書上有示例如下:
import reline=’Cats are smarter than dogs’matchObj=re.match(r’(.*)are(.*?).*’,line)if matchObj: print(’matchObj.group():’,matchObj.group()) print(’matchObj.group(1):’, matchObj.group(1)) print(’matchObj.group(2):’, matchObj.group(2))else: print(’No match!n’)
書上的期望輸出是:
matchObj.group(): Cats are smarter than dogsmatchObj.group(1): Cats matchObj.group(2):smarter
但是我在電腦上跑了一遍得到的輸出卻是:
matchObj.group(): Cats are smarter than dogsmatchObj.group(1): Cats matchObj.group(2):
于是開始想辦法徹底搞清楚這個(gè)差別的原因所在。
首先要讀懂這幾行代碼,而這一行代碼的關(guān)鍵在于這一句:
matchObj=re.match(r’(.*)are(.*?).*’,line)
匹配的正則表達(dá)式是
(.*)are(.*?).*前面的r表示的是匹配的字符不進(jìn)行轉(zhuǎn)義,而要匹配的字符串是line,也就是Cats are smarter than dogs后面使用group(num),個(gè)人理解是,按照正則表達(dá)式中的括號數(shù)可以捕獲得到對應(yīng)數(shù)量的捕獲組,而調(diào)用group(num)就可以得到對應(yīng)捕獲組的內(nèi)容,其中g(shù)roup(0)表示的是匹配的整個(gè)表達(dá)式的字符串,在本例中就是‘Cats are smarter than dogs’。參照網(wǎng)上可以搜到的符號的作用:.匹配除換行符以外的任意字符*重復(fù)之前的字符零次或更多次?重復(fù)之前的字符零次或一次那么第一個(gè)括號的內(nèi)容,應(yīng)當(dāng)就是匹配要匹配的字符串中are之前的所有字符(除換行符),而第二個(gè)括號的內(nèi)容應(yīng)當(dāng)是匹配are之后的內(nèi)容,但具體想指代什么卻顯得有些不明確。不明確的點(diǎn)就在于*和?這兩個(gè)符號的連用,根據(jù)優(yōu)先級這兩個(gè)符號是同一優(yōu)先級的,那么應(yīng)當(dāng)按照順序生效,那么如此翻譯的話,這一語句匹配的就是長度為0到無限大的任意字符串,為了探清此時(shí)程序判斷的具體內(nèi)容,我們給匹配字符串末尾的.*也加上括號以提取其內(nèi)容,而后在輸出部分加上對應(yīng)語句:
import reline=’Cats are smarter than dogs’matchObj=re.match(r’(.*)are(.*?)(.*)’,line)if matchObj: print('matchObj.group():',matchObj.group()) print('matchObj.group(1):', matchObj.group(1)) print('matchObj.group(2):', matchObj.group(2)) print('matchObj.group(3):', matchObj.group(3))else: print(’No match!n’)
得到的結(jié)果是:
matchObj.group(): Cats are smarter than dogsmatchObj.group(1): Cats matchObj.group(2): matchObj.group(3): smarter than dogs
可見第二個(gè)括號里的內(nèi)容被默認(rèn)為空了,然后刪去那個(gè)?,可以看到結(jié)果變成:
matchObj.group(): Cats are smarter than dogsmatchObj.group(1): Cats matchObj.group(2): smarter than dogsmatchObj.group(3):
那么這是否就意味著?的默認(rèn)值很可能是0次,那?這個(gè)符號到底有什么用呢
仔細(xì)想來這個(gè)說法并不是很嚴(yán)謹(jǐn)。嘗試使用單獨(dú)的.?組合可以看到這個(gè)組合可以用于提取
單個(gè)不知道是否存在的字符,而如下代碼
import reline=’Cats are smarter than dogs’matchObj=re.match(r’(.*) are(.*)?’,line)if matchObj: print('matchObj.group():',matchObj.group()) print('matchObj.group(1):', matchObj.group(1)) print('matchObj.group(2):', matchObj.group(2))
也能在組別2中正常提取到are之后的字符內(nèi)容,但稍微改動(dòng)一下將?放到第二個(gè)括號內(nèi),
就什么也提取不到,同時(shí)導(dǎo)致group(0)中匹配的字符到Cats are就截止了(也就是第二個(gè)括號匹配失敗)。
令人感到奇怪的是,如果將上面的代碼改成
import reline=’Cats are smarter than dogs’matchObj=re.match(r’(.*) are (.*)+’,line)if matchObj: print('matchObj.group():',matchObj.group()) print('matchObj.group(1):', matchObj.group(1)) print('matchObj.group(2):', matchObj.group(2))
也就是僅僅將?改為+,雖然能成功匹配整個(gè)line但group(2)中沒有內(nèi)容,
如果把+放到第二個(gè)括號中就會產(chǎn)生報(bào)錯(cuò),匹配失敗。
那么是否可以認(rèn)為.*?這三個(gè)符號連用只是一個(gè)不規(guī)范的操作,但由于?的特殊性所以沒有報(bào)錯(cuò)反而匹配成功了呢?
具體的可能要研究代碼本身的機(jī)理了,暫且擱置。還有一個(gè)問題就是如何達(dá)到樣例本身想要的,用第二個(gè)括號提取單個(gè)單詞的目的。
如果單單考慮這個(gè)例子的話,把原本第二個(gè)括號中的?換成r就可以了,也就是如下代碼:
import reline=’Cats are smarter than dogs’matchObj=re.match(r’(.*) are (.*r).*’,line)if matchObj: print('matchObj.group():',matchObj.group()) print('matchObj.group(1):', matchObj.group(1)) print('matchObj.group(2):', matchObj.group(2)) #print('matchObj.group(3):', matchObj.group(3))else: print(’No match!n’)
為了泛用性嘗試了一下把r改成‘ ’但是得到的結(jié)果是‘smarter than ’。于是嘗試把.換成表示任意字母的
[a-zA-Z],成功提取出了單個(gè)smarter,代碼如下:
import reline=’Cats are smarter than dogs’matchObj=re.match(r’(.*) are ([a-zA-Z]* ).*’,line)if matchObj: print('matchObj.group():',matchObj.group()) print('matchObj.group(1):', matchObj.group(1)) print('matchObj.group(2):', matchObj.group(2)) #print('matchObj.group(3):', matchObj.group(3))else: print(’No match!n’)
到此這篇關(guān)于python re.match()用法相關(guān)示例的文章就介紹到這了,更多相關(guān)python re.match()內(nèi)容請搜索好吧啦網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持好吧啦網(wǎng)!
相關(guān)文章:
1. CSS3實(shí)例分享之多重背景的實(shí)現(xiàn)(Multiple backgrounds)2. XML入門的常見問題(三)3. WMLScript腳本程序設(shè)計(jì)第1/9頁4. Vue3獲取DOM節(jié)點(diǎn)的3種方式實(shí)例5. 前端html+css實(shí)現(xiàn)動(dòng)態(tài)生日快樂代碼6. 詳解CSS偽元素的妙用單標(biāo)簽之美7. 利用CSS3新特性創(chuàng)建透明邊框三角8. vue實(shí)現(xiàn)將自己網(wǎng)站(h5鏈接)分享到微信中形成小卡片的超詳細(xì)教程9. 不要在HTML中濫用div10. XML 取得元素的字符數(shù)據(jù)
