<cite id="rhdl8"><s id="rhdl8"></s></cite>
<video id="rhdl8"><input id="rhdl8"></input></video>
<xmp id="rhdl8"></xmp>
<b id="rhdl8"><sub id="rhdl8"></sub></b>

    <dfn id="rhdl8"></dfn>
  1. <b id="rhdl8"></b>

  2. seo行業資訊

    中文分詞技術的分類和進行分詞的原因

    發布日期:2013-09-26 瀏覽次數:3620
    為什么要進行中文分詞:詞是最小的能夠獨立活動的有意義的語言成分,英文單詞之間是以空格作為自然分界符的,而漢語是以字為基本的書寫單位,詞語之間沒有明顯的區分標記,因此,中文詞語分析是中文信息處理的基礎與關鍵。
      Lucene中對中文的處理是基于自動切分的單字切分,或者二元切分。除此之外,還有最大切分(包括向前、向后、以及前后相結合)、最少切分、全切分等等。
      中文分詞技術的分類:
      我們討論的分詞算法可分為三大類:基于字典、詞庫匹配的分詞方法;基于詞頻度統計的分詞方法和基于知識理解的分詞方法。
      第一類方法應用詞典匹配、漢語詞法或其它漢語語言知識進行分詞,如:最大匹配法、最小分詞方法等。這類方法簡單、分詞效率較高,但漢語語言現象復雜豐富,詞典的完備性、規則的一致性等問題使其難以適應開放的大規模文本的分詞處理。第二類基于統計的分詞方法則基于字和詞的統計信息,如把相鄰字間的信息、詞頻及相應的共現信息等應用于分詞,由于這些信息是通過調查真實語料而取得的,因而基于統計的分詞方法具有較好的實用性。

    相關文章

    ·SEO優化目標的難易程度判斷
    ·為什么很多企業做網站都沒有效果呢?
    ·搜索引擎的“工作守則”是什么樣的呢?
    ·外鏈工作首先考慮的質量其次考慮數量
    ·基于網站信息組織的搜索引擎優化
    ·細說360搜索引擎的最新動態
    ·怎樣才能吸引搜索蜘蛛呢
    ·搜索引擎正在面臨的四大挑戰——之數據存儲及快速索引
    ·淺談信息發布類網站如何優化
    ·搜索引擎正在面臨的四大挑戰——之頁面抓取問題
    免费特级黄毛片,东京热久久综合久久,亚洲色婷婷婷婷五月基地