PHP擴(kuò)展之文本處理(二)——PCRE正則表達(dá)式語(yǔ)法10——后向引用
在一個(gè)字符類外面, 反斜線緊跟一個(gè)大于 0 (可能還有一位數(shù))的數(shù)字就是一個(gè)到模式中之前出現(xiàn)的某個(gè)捕獲組的后向引用。
如果緊跟反斜線的數(shù)字小于 10, 它總是一個(gè)后向引用, 并且如果在模式中沒有這么多的捕獲組會(huì)引發(fā)一個(gè)錯(cuò)誤。 換一種說(shuō)法, 被引用的括號(hào)不能少于被引用的小于 10 的數(shù)量。 查看上面的”反斜線”部分查看具體的數(shù)字處理方式。
一個(gè)后向引用會(huì)直接匹配被引用捕獲組在目標(biāo)字符串中實(shí)際捕獲到的內(nèi)容, 而不是匹配子組模式的內(nèi)容。因此,模式(sens|respons)e and 1ibility將會(huì)匹配 ”sense and sensibility” 和 ”response and responsibility”, 而不會(huì)匹配 ”sense and responsibility”。 如果在后向引用時(shí)被強(qiáng)制進(jìn)行了大小寫敏感匹配, 比如?((?i)rah)s+1?匹配 ”rah rah”和”RAH RAH”,但是不會(huì)匹配 ”RAH rah”, 即使原始捕獲子組自身是不區(qū)分大小寫的。 譯注: 這里其實(shí)要考慮的是后向引用期望得到的內(nèi)容是和那個(gè)被引用的捕獲子組得到的內(nèi)容是完全一致的(當(dāng)然, 我們可以通過(guò)在后向引用之前設(shè)定內(nèi)部選項(xiàng)使其不區(qū)分大小寫,或者增加模式修飾符, 同樣可以達(dá)到不區(qū)分大小寫的目的,但是, 這種做法實(shí)際上是從外部對(duì)其行為進(jìn)行了控制。)
可能會(huì)有超過(guò)一個(gè)的后向引用引用相同的子組。 一個(gè)子組可能并不會(huì)真正的用于特定的匹配,此時(shí), 任何對(duì)這個(gè)子組的后向引用也都會(huì)失敗。 比如, 模式?(a|(bc))2?總是在匹配 ”a” 開頭而不是 ”bc” 開頭的字符串時(shí)失敗。 因?yàn)榭赡軙?huì)有多達(dá) 99 個(gè)后向引用, 所有緊跟反斜線后的數(shù)字都可能是一個(gè)潛在的后向引用計(jì)數(shù)。 如果模式在后向引用之后緊接著還是一個(gè)數(shù)值字符, 那么必須使用一些分隔符用于終結(jié)后向引用語(yǔ)法。 如果?PCRE_EXTENDED?選項(xiàng)被設(shè)置了, 可以使用空格來(lái)做。其他情況下可以使用一個(gè)空的注釋。
如果一個(gè)后向引用出現(xiàn)在它所引用的子組內(nèi)部, 它的匹配就會(huì)失敗。比如, (a1) 就不會(huì)得到任何匹配。然而這種引用可以用于內(nèi)部的子模式重復(fù)。比如, 模式?(a|b1)+?會(huì)匹配任意數(shù)量的 ”a” 組成的字符串以及 ”aba”, “ababba” 等等(譯注: 因?yàn)樽咏M內(nèi)部有一個(gè)可選路徑,可選路徑中有一條路能夠完成匹配,在匹配完成后, 后向引用就能夠引用到內(nèi)容了)。在每次子模式的迭代過(guò)程中, 后向引用匹配上一次迭代時(shí)這個(gè)子組匹配到的字符串。為了做這種工作, 模式必須滿足這樣一個(gè)條件,模式在第一次迭代的時(shí)候, 必須能夠保證不需要匹配后向引用。 這種條件可以像上面的例子用可選路徑來(lái)實(shí)現(xiàn),也可以通過(guò)使用最小值為 0 的量詞修飾后向引用的方式來(lái)完成。
在 PHP 5.2.2之后,?g?轉(zhuǎn)義序列可以用于子模式的絕對(duì)和相對(duì)引用。 這個(gè)轉(zhuǎn)義序列必須緊跟一個(gè)無(wú)符號(hào)數(shù)字或一個(gè)負(fù)數(shù), 可以選擇性的使用括號(hào)對(duì)數(shù)字進(jìn)行包裹。 序列1,?g1,g{1}?之間是同義詞關(guān)系。 這種用法可以消除使用反斜線緊跟數(shù)值描述反向引用時(shí)候產(chǎn)生的歧義。 這種轉(zhuǎn)義序列有利于區(qū)分后向引用和八進(jìn)制數(shù)字字符, 也使得后向引用后面緊跟一個(gè)原文匹配數(shù)字變的更明了,比如?g{2}1。
g?轉(zhuǎn)義序列緊跟一個(gè)負(fù)數(shù)代表一個(gè)相對(duì)的后向引用。比如:?(foo)(bar)g{-1}?可以匹配字符串 ”foobarbar”,(foo)(bar)g{2}?可以匹配 ”foobarfoo”。 這在長(zhǎng)的模式中作為一個(gè)可選方案, 用來(lái)保持對(duì)之前一個(gè)特定子組的引用的子組序號(hào)的追蹤。
后向引用也支持使用子組名稱的語(yǔ)法方式描述, 比如?(?P=name)?或者 PHP 5.2.2 開始可以實(shí)用k<name>?或?k’name’。 另外在 PHP 5.2.4 中加入了對(duì)k{name}?和?g{name}?的支持。
相關(guān)文章:
1. XML入門的常見問(wèn)題(四)2. html小技巧之td,div標(biāo)簽里內(nèi)容不換行3. ASP動(dòng)態(tài)網(wǎng)頁(yè)制作技術(shù)經(jīng)驗(yàn)分享4. 解決ASP中http狀態(tài)跳轉(zhuǎn)返回錯(cuò)誤頁(yè)的問(wèn)題5. ASP中if語(yǔ)句、select 、while循環(huán)的使用方法6. xml中的空格之完全解說(shuō)7. 無(wú)線標(biāo)記語(yǔ)言(WML)基礎(chǔ)之WMLScript 基礎(chǔ)第1/2頁(yè)8. ASP中解決“對(duì)象關(guān)閉時(shí),不允許操作。”的詭異問(wèn)題……9. msxml3.dll 錯(cuò)誤 800c0019 系統(tǒng)錯(cuò)誤:-2146697191解決方法10. WMLScript的語(yǔ)法基礎(chǔ)
