文章詳情頁

用python實(shí)現(xiàn)前向分詞最大匹配算法的示例代碼

瀏覽：101日期：2022-07-14 18:12:24

理論介紹

分詞是自然語言處理的一個(gè)基本工作，中文分詞和英文不同，字詞之間沒有空格。中文分詞是文本挖掘的基礎(chǔ)，對(duì)于輸入的一段中文，成功的進(jìn)行中文分詞，可以達(dá)到電腦自動(dòng)識(shí)別語句含義的效果。中文分詞技術(shù)屬于自然語言處理技術(shù)范疇，對(duì)于一句話，人可以通過自己的知識(shí)來明白哪些是詞，哪些不是詞，但如何讓計(jì)算機(jī)也能理解？其處理過程就是分詞算法。

可以將中文分詞方法簡單歸納為：

1.基于詞表的分詞方法2.基于統(tǒng)計(jì)的分詞方法3.基于序列標(biāo)記的分詞方法

其中，基于詞表的分詞方法最為簡單，根據(jù)起始匹配位置不同可以分為：

1.前向最大匹配算法2.后向最大匹配算法3.雙向最大匹配算法

三種方法思想都很簡單，今天就用python實(shí)現(xiàn)前向最大匹配算法。

word分詞是一個(gè)Java實(shí)現(xiàn)的分布式的中文分詞組件，提供了多種基于詞典的分詞算法，并利用ngram模型來消除歧義。能準(zhǔn)確識(shí)別英文、數(shù)字，以及日期、時(shí)間等數(shù)量詞，能識(shí)別人名、地名、組織機(jī)構(gòu)名等未登錄詞。能通過自定義配置文件來改變組件行為，能自定義用戶詞庫、自動(dòng)檢測詞庫變化、支持大規(guī)模分布式環(huán)境，能靈活指定多種分詞算法，能使用refine功能靈活控制分詞結(jié)果，還能使用詞性標(biāo)注、同義標(biāo)注、反義標(biāo)注、拼音標(biāo)注等功能。同時(shí)還無縫和Lucene、Solr、ElasticSearch、Luke集成。

前向最大匹配算法

前向最大匹配算法，顧名思義，就是從待分詞句子的左邊向右邊搜索，尋找詞的最大匹配。我們需要規(guī)定一個(gè)詞的最大長度，每次掃描的時(shí)候?qū)ふ耶?dāng)前開始的這個(gè)長度的詞來和字典中的詞匹配，如果沒有找到，就縮短長度繼續(xù)尋找，直到找到字典中的詞或者成為單字。

具體代碼實(shí)現(xiàn)

獲取分詞函數(shù)：getSeg(text)：

def getSeg(text): # 句子為空 if not text: return ’’ # 句子成為一個(gè)詞 if len(text) == 1: return text # 此處寫了一個(gè)遞歸方法 if text in word_dict: return text else: small = len(text) - 1 text = text[0:small] return getSeg(text)

主函數(shù)：main()

def main(): global test_str, word_dict test_str = test_str.strip() # 正向最大匹配分詞測試最大長度5 max_len = max(len(word) for word in word_dict) result_str = [] # 保存分詞結(jié)果 result_len = 0 print(’input :’, test_str) while test_str: tmp_str = test_str[0:max_len] seg_str = getSeg(tmp_str) seg_len = len(seg_str) result_len = result_len + seg_len if seg_str.strip(): result_str.append(seg_str) test_str = test_str[seg_len:] print(’output :’, result_str)

字典：

word_dict = [’混沌’, ’Logistic’, ’算法’, ’圖片’, ’加密’, ’利用’, ’還原’, ’Lena’, ’驗(yàn)證’, ’Baboon’, ’效果’]

測試句子：

test_str = ’’’一種基于混沌Logistic加密算法的圖片加密與還原的方法，并利用Lena圖和Baboon圖來驗(yàn)證這種加密算法的加密效果。’’’

分詞結(jié)果

用python實(shí)現(xiàn)前向分詞最大匹配算法的示例代碼

到此這篇關(guān)于用python實(shí)現(xiàn)前向分詞最大匹配算法的示例代碼的文章就介紹到這了,更多相關(guān)python 前向分詞最大匹配算法內(nèi)容請(qǐng)搜索好吧啦網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持好吧啦網(wǎng)！

Python 編程

上一條：Python學(xué)習(xí)筆記之裝飾器下一條：Python爬蟲防封ip的一些技巧

相關(guān)文章：

1. WML語法大全與相關(guān)介紹第1/3頁2. ASP刪除img標(biāo)簽的style屬性只保留src的正則函數(shù)3. 匹配模式 - XSL教程 - 44. 詳解JS前端使用迭代器和生成器原理及示例5. javascript xml xsl取值及數(shù)據(jù)修改第1/2頁6. 詳解CSS偽元素的妙用單標(biāo)簽之美7. 使用css實(shí)現(xiàn)全兼容tooltip提示框8. ASP中if語句、select 、while循環(huán)的使用方法9. ASP 信息提示函數(shù)并作返回或者轉(zhuǎn)向10. ASP編碼必備的8條原則

排行榜

					
					Java SE 6在Solaris的可觀察性特征分析
詳解docker nginx 容器啟動(dòng)掛載到本地
解決vue頁面刷新，數(shù)據(jù)丟失的問題
Java 跨域問題的處理方式
使用python庫xlsxwriter庫來輸出各種xlsx文件的示例
python開發(fā)一款翻譯工具
Python使用eval函數(shù)執(zhí)行動(dòng)態(tài)標(biāo)表達(dá)式過程詳解
python 獲取字典鍵值對(duì)的實(shí)現(xiàn)
利用Python發(fā)送郵件或發(fā)帶附件的郵件
python 實(shí)現(xiàn)aes256加密
Python實(shí)現(xiàn)七大查找算法的示例代碼