欧美精品国产一区二区免费,久久久精品一级毛片免费观看,国产精品一区二区熟女不卡,久久精品国产清高在天天线,欧美自拍清纯日韩一区二区三区,高清不卡秀视频一区二区在线观看

亚洲中文字幕乱码无码一区二区,91成人无码看片在线观看,欧美综合在线视频
建站流程 建站意向表 客戶案例 付款方式 聯(lián)系我們 加入收藏
河南鄭州網(wǎng)站建設(shè)銷售咨詢電話:13073728811(24小時(shí)值班)  客服電話0371-60988783
首 頁(yè)網(wǎng)站建設(shè)網(wǎng)站推廣 5107網(wǎng)站伴侶 域名注冊(cè) 虛擬主機(jī) 企業(yè)郵局 關(guān)于我們 合作代理 網(wǎng)上商店 企業(yè)郵箱
征途新聞
公司新聞
行業(yè)新聞
服務(wù)項(xiàng)目
網(wǎng)站建設(shè) 網(wǎng)站推廣
域名注冊(cè) 虛擬主機(jī)
網(wǎng)站伴侶 運(yùn)營(yíng)維護(hù)
聯(lián)系我們

聯(lián)系電話:
0371-60273020       60273015
      60273016
      60273017
傳    真:
0371-60273018

 
當(dāng)前位置:首 頁(yè) > 中文搜索引擎技術(shù)揭密:中
中文搜索引擎技術(shù)揭密:中文分詞
發(fā)布日期:2007-5-25
關(guān)鍵詞:中文搜索引擎技術(shù)揭密


    信息的飛速增長(zhǎng),使搜索引擎成為人們查找信息的首選工具,Google、百度、中國(guó)搜索等大型搜索引擎一直是人們討論的話題。隨著搜索市場(chǎng)價(jià)值的不斷增加,越來(lái)越多的公司開發(fā)出自己的搜索引擎,阿里巴巴的商機(jī)搜索、8848的購(gòu)物搜索等也陸續(xù)面世,自然,搜索引擎技術(shù)也成為技術(shù)人員關(guān)注的熱點(diǎn)。


    搜索引擎技術(shù)的研究,國(guó)外比中國(guó)要早近十年,從最早的Archie,到后來(lái)的Excite,以及altvista、overture、google等搜索引擎面世,搜索引擎發(fā)展至今,已經(jīng)有十幾年的歷史,而國(guó)內(nèi)開始研究搜索引擎是在上世紀(jì)末本世紀(jì)初。在許多領(lǐng)域,都是國(guó)外的產(chǎn)品和技術(shù)一統(tǒng)天下,特別是當(dāng)某種技術(shù)在國(guó)外研究多年而國(guó)內(nèi)才開始的情況下。例如操作系統(tǒng)、字處理軟件、瀏覽器等等,但搜索引擎卻是個(gè)例外。雖然在國(guó)外搜索引擎技術(shù)早就開始研究,但在國(guó)內(nèi)還是陸續(xù)涌現(xiàn)出優(yōu)秀的搜索引擎,像百度(http://www.baidu.com)、中搜(http://www.zhongsou.com)等。目前在中文搜索引擎領(lǐng)域,國(guó)內(nèi)的搜索引擎已經(jīng)和國(guó)外的搜索引擎效果上相差不遠(yuǎn)。之所以能形成這樣的局面,有一個(gè)重要的原因就在于中文和英文兩種語(yǔ)言自身的書寫方式不同,這其中對(duì)于計(jì)算機(jī)涉及的技術(shù)就是中文分詞。


    什么是中文分詞


    眾所周知,英文是以詞為單位的,詞和詞之間是靠空格隔開,而中文是以字為單位,句子中所有的字連起來(lái)才能描述一個(gè)意思。例如,英文句子I am a student,用中文則為:“我是一個(gè)學(xué)生”。計(jì)算機(jī)可以很簡(jiǎn)單通過(guò)空格知道student是一個(gè)單詞,但是不能很容易明白“學(xué)”、“生”兩個(gè)字合起來(lái)才表示一個(gè)詞。把中文的漢字序列切分成有意義的詞,就是中文分詞,有些人也稱為切詞。我是一個(gè)學(xué)生,分詞的結(jié)果是:我 是 一個(gè) 學(xué)生。


    中文分詞和搜索引擎


    中文分詞到底對(duì)搜索引擎有多大影響?對(duì)于搜索引擎來(lái)說(shuō),最重要的并不是找到所有結(jié)果,因?yàn)樵谏习賰|的網(wǎng)頁(yè)中找到所有結(jié)果沒有太多的意義,沒有人能看得完,最重要的是把最相關(guān)的結(jié)果排在最前面,這也稱為相關(guān)度排序。中文分詞的準(zhǔn)確與否,常常直接影響到對(duì)搜索結(jié)果的相關(guān)度排序。筆者最近替朋友找一些關(guān)于日本和服的資料,在搜索引擎上輸入“和服”,得到的結(jié)果就發(fā)現(xiàn)了很多問(wèn)題。下面就以這個(gè)例子來(lái)說(shuō)明分詞對(duì)搜索結(jié)果的影響,在現(xiàn)有三個(gè)中文搜索引擎上做測(cè)試,測(cè)試方法是直接在Google(http://www.google.com)、百度(http://www.baidu.com)、中搜(http://www.zhongsou.com)上以“和服”為關(guān)鍵詞進(jìn)行搜索:


    在Google上輸入“和服”搜索所有中文簡(jiǎn)體網(wǎng)頁(yè),總共結(jié)果507,000條,前20條結(jié)果中有14條與和服一點(diǎn)關(guān)系都沒有。在第一頁(yè)就有以下錯(cuò)誤:


    “通信信息報(bào):瑞星以技術(shù)和服務(wù)開拓網(wǎng)絡(luò)安全市場(chǎng)”


    “使用純HTML的通用數(shù)據(jù)管理和服務(wù)- 開發(fā)者- ZDNet ...”


    “陳慧琳《心口不一》化妝和服裝自己包辦”


    “::外交部:中國(guó)境外領(lǐng)事保護(hù)和服務(wù)指南(2003年版) ...”


    “產(chǎn)品和服務(wù)”


    等等。第一頁(yè)只有三篇是真正在講“和服”的結(jié)果。


    在百度上輸入“和服”搜索網(wǎng)頁(yè),總共結(jié)果為287,000條,前20條結(jié)果中有6條與和服一點(diǎn)關(guān)系都沒有。在第一頁(yè)有以下錯(cuò)誤:


    “福建省晉江市恒和服裝有限公司系獨(dú)資企業(yè)”


    “關(guān)于商品和服務(wù)實(shí)行明碼標(biāo)價(jià)的規(guī)定”


    “青島東和服裝設(shè)備”


    在中搜上輸入“和服”搜索網(wǎng)頁(yè),總共結(jié)果為26,917條,前20條結(jié)果都是與和服相關(guān)的網(wǎng)頁(yè)。


    這次搜索引擎結(jié)果中的錯(cuò)誤,就是由于分詞的不準(zhǔn)確所造成的。通過(guò)筆者的了解,Google的中文分詞技術(shù)采用的是美國(guó)一家名叫Basis Technology(http://www.basistech.com)的公司提供的中文分詞技術(shù),百度使用的是自己公司開發(fā)的分詞技術(shù),中搜使用的是國(guó)內(nèi)海量科技(http://www.hylanda.com)提供的分詞技術(shù)。由此可見,中文分詞的準(zhǔn)確度,對(duì)搜索引擎結(jié)果相關(guān)性和準(zhǔn)確性有相當(dāng)大的關(guān)系。


    中文分詞技術(shù)


    中文分詞技術(shù)屬于自然語(yǔ)言處理技術(shù)范疇,對(duì)于一句話,人可以通過(guò)自己的知識(shí)來(lái)明白哪些是詞,哪些不是詞,但如何讓計(jì)算機(jī)也能理解?其處理過(guò)程就是分詞算法。


    現(xiàn)有的分詞算法可分為三大類:基于字符串匹配的分詞方法、基于理解的分詞方法和基于統(tǒng)計(jì)的分詞方法。


    1、基于字符串匹配的分詞方法


    這種方法又叫做機(jī)械分詞方法,它是按照一定的策略將待分析的漢字串與一個(gè)“充分大的”機(jī)器詞典中的詞條進(jìn)行配,若在詞典中找到某個(gè)字符串,則匹配成功(識(shí)別出一個(gè)詞)。按照掃描方向的不同,串匹配分詞方法可以分為正向匹配和逆向匹配;按照不同長(zhǎng)度優(yōu)先匹配的情況,可以分為最大(最長(zhǎng))匹配和最。ㄗ疃蹋┢ヅ;按照是否與詞性標(biāo)注過(guò)程相結(jié)合,又可以分為單純分詞方法和分詞與標(biāo)注相結(jié)合的一體化方法。常用的幾種機(jī)械分詞方法如下:


    1)正向最大匹配法(由左到右的方向);


    2)逆向最大匹配法(由右到左的方向);


    3)最少切分(使每一句中切出的詞數(shù)最。。


    還可以將上述各種方法相互組合,例如,可以將正向最大匹配方法和逆向最大匹配方法結(jié)合起來(lái)構(gòu)成雙向匹配法。由于漢語(yǔ)單字成詞的特點(diǎn),正向最小匹配和逆向最小匹配一般很少使用。一般說(shuō)來(lái),逆向匹配的切分精度略高于正向匹配,遇到的歧義現(xiàn)象也較少。統(tǒng)計(jì)結(jié)果表明,單純使用正向最大匹配的錯(cuò)誤率為1/169,單純使用逆向最大匹配的錯(cuò)誤率為1/245。但這種精度還遠(yuǎn)遠(yuǎn)不能滿足實(shí)際的需要。實(shí)際使用的分詞系統(tǒng),都是把機(jī)械分詞作為一種初分手段,還需通過(guò)利用各種其它的語(yǔ)言信息來(lái)進(jìn)一步提高切分的準(zhǔn)確率。


    一種方法是改進(jìn)掃描方式,稱為特征掃描或標(biāo)志切分,優(yōu)先在待分析字符串中識(shí)別和切分出一些帶有明顯特征的詞,以這些詞作為斷點(diǎn),可將原字符串分為較小的串再來(lái)進(jìn)機(jī)械分詞,從而減少匹配的錯(cuò)誤率。另一種方法是將分詞和詞類標(biāo)注結(jié)合起來(lái),利用豐富的詞類信息對(duì)分詞決策提供幫助,并且在標(biāo)注過(guò)程中又反過(guò)來(lái)對(duì)分詞結(jié)果進(jìn)行檢驗(yàn)、調(diào)整,從而極大地提高切分的準(zhǔn)確率。


    對(duì)于機(jī)械分詞方法,可以建立一個(gè)一般的模型,在這方面有專業(yè)的學(xué)術(shù)論文,這里不做詳細(xì)論述。


    2、基于理解的分詞方法


    這種分詞方法是通過(guò)讓計(jì)算機(jī)模擬人對(duì)句子的理解,達(dá)到識(shí)別詞的效果。其基本思想就是在分詞的同時(shí)進(jìn)行句法、語(yǔ)義分析,利用句法信息和語(yǔ)義信息來(lái)處理歧義現(xiàn)象。它通常包括三個(gè)部分:分詞子系統(tǒng)、句法語(yǔ)義子系統(tǒng)、總控部分。在總控部分的協(xié)調(diào)下,分詞子系統(tǒng)可以獲得有關(guān)詞、句子等的句法和語(yǔ)義信息來(lái)對(duì)分詞歧義進(jìn)行判斷,即它模擬了人對(duì)句子的理解過(guò)程。這種分詞方法需要使用大量的語(yǔ)言知識(shí)和信息。由于漢語(yǔ)語(yǔ)言知識(shí)的籠統(tǒng)、復(fù)雜性,難以將各種語(yǔ)言信息組織成機(jī)器可直接讀取的形式,因此目前基于理解的分詞系統(tǒng)還處在試驗(yàn)階段。


    3、基于統(tǒng)計(jì)的分詞方法


    從形式上看,詞是穩(wěn)定的字的組合,因此在上下文中,相鄰的字同時(shí)出現(xiàn)的次數(shù)越多,就越有可能構(gòu)成一個(gè)詞。因此字與字相鄰共現(xiàn)的頻率或概率能夠較好的反映成詞的可信度?梢詫(duì)語(yǔ)料中相鄰共現(xiàn)的各個(gè)字的組合的頻度進(jìn)行統(tǒng)計(jì),計(jì)算它們的互現(xiàn)信息。定義兩個(gè)字的互現(xiàn)信息,計(jì)算兩個(gè)漢字X、Y的相鄰共現(xiàn)概率;ガF(xiàn)信息體現(xiàn)了漢字之間結(jié)合關(guān)系的緊密程度。當(dāng)緊密程度高于某一個(gè)閾值時(shí),便可認(rèn)為此字組可能構(gòu)成了一個(gè)詞。這種方法只需對(duì)語(yǔ)料中的字組頻度進(jìn)行統(tǒng)計(jì),不需要切分詞典,因而又叫做無(wú)詞典分詞法或統(tǒng)計(jì)取詞方法。但這種方法也有一定的局限性,會(huì)經(jīng)常抽出一些共現(xiàn)頻度高、但并不是詞的常用字組,例如“這一”、“之一”、“有的”、“我的”、“許多的”等,并且對(duì)常用詞的識(shí)別精度差,時(shí)空開銷大。實(shí)際應(yīng)用的統(tǒng)計(jì)分詞系統(tǒng)都要使用一部基本的分詞詞典(常用詞詞典)進(jìn)行串匹配分詞,同時(shí)使用統(tǒng)計(jì)方法識(shí)別一些新的詞,即將串頻統(tǒng)計(jì)和串匹配結(jié)合起來(lái),既發(fā)揮匹配分詞切分速度快、效率高的特點(diǎn),又利用了無(wú)詞典分詞結(jié)合上下文識(shí)別生詞、自動(dòng)消除歧義的優(yōu)點(diǎn)。


    到底哪種分詞算法的準(zhǔn)確度更高,目前并無(wú)定論。對(duì)于任何一個(gè)成熟的分詞系統(tǒng)來(lái)說(shuō),不可能單獨(dú)依靠某一種算法來(lái)實(shí)現(xiàn),都需要綜合不同的算法。筆者了解,海量科技的分詞算法就采用“復(fù)方分詞法”,所謂復(fù)方,相當(dāng)于用中藥中的復(fù)方概念,即用不同的藥才綜合起來(lái)去醫(yī)治疾病,同樣,對(duì)于中文詞的識(shí)別,需要多種算法來(lái)處理不同的問(wèn)題。


    分詞中的難題


    有了成熟的分詞算法,是否就能容易的解決中文分詞的問(wèn)題呢?事實(shí)遠(yuǎn)非如此。中文是一種十分復(fù)雜的語(yǔ)言,讓計(jì)算機(jī)理解中文語(yǔ)言更是困難。在中文分詞過(guò)程中,有兩大難題一直沒有完全突破。


    1、歧義識(shí)別


    歧義是指同樣的一句話,可能有兩種或者更多的切分方法。例如:表面的,因?yàn)椤氨砻妗焙汀懊娴摹倍际窃~,那么這個(gè)短語(yǔ)就可以分成“表面 的”和“表 面的”。這種稱為交叉歧義。像這種交叉歧義十分常見,前面舉的“和服”的例子,其實(shí)就是因?yàn)榻徊嫫缌x引起的錯(cuò)誤!盎瘖y和服裝”可以分成“化妝 和 服裝”或者“化妝 和服 裝”。由于沒有人的知識(shí)去理解,計(jì)算機(jī)很難知道到底哪個(gè)方案正確。


    交叉歧義相對(duì)組合歧義來(lái)說(shuō)是還算比較容易處理,組合歧義就必需根據(jù)整個(gè)句子來(lái)判斷了。例如,在句子“這個(gè)門把手壞了”中,“把手”是個(gè)詞,但在句子“請(qǐng)把手拿開”中,“把手”就不是一個(gè)詞;在句子“將軍任命了一名中將”中,“中將”是個(gè)詞,但在句子“產(chǎn)量三年中將增長(zhǎng)兩倍”中,“中將”就不再是詞。這些詞計(jì)算機(jī)又如何去識(shí)別?


    如果交叉歧義和組合歧義計(jì)算機(jī)都能解決的話,在歧義中還有一個(gè)難題,是真歧義。真歧義意思是給出一句話,由人去判斷也不知道哪個(gè)應(yīng)該是詞,哪個(gè)應(yīng)該不是詞。例如:“乒乓球拍賣完了”,可以切分成“乒乓 球拍 賣 完 了”、也可切分成“乒乓球 拍賣 完 了”,如果沒有上下文其他的句子,恐怕誰(shuí)也不知道“拍賣”在這里算不算一個(gè)詞。


    2、新詞識(shí)別


    新詞,專業(yè)術(shù)語(yǔ)稱為未登錄詞。也就是那些在字典中都沒有收錄過(guò),但又確實(shí)能稱為詞的那些詞。最典型的是人名,人可以很容易理解句子“王軍虎去廣州了”中,“王軍虎”是個(gè)詞,因?yàn)槭且粋(gè)人的名字,但要是讓計(jì)算機(jī)去識(shí)別就困難了。如果把“王軍虎”做為一個(gè)詞收錄到字典中去,全世界有那么多名字,而且每時(shí)每刻都有新增的人名,收錄這些人名本身就是一項(xiàng)巨大的工程。即使這項(xiàng)工作可以完成,還是會(huì)存在問(wèn)題,例如:在句子“王軍虎頭虎腦的”中,“王軍虎”還能不能算詞?


    新詞中除了人名以外,還有機(jī)構(gòu)名、地名、產(chǎn)品名、商標(biāo)名、簡(jiǎn)稱、省略語(yǔ)等都是很難處理的問(wèn)題,而且這些又正好是人們經(jīng)常使用的詞,因此對(duì)于搜索引擎來(lái)說(shuō),分詞系統(tǒng)中的新詞識(shí)別十分重要。目前新詞識(shí)別準(zhǔn)確率已經(jīng)成為評(píng)價(jià)一個(gè)分詞系統(tǒng)好壞的重要標(biāo)志之一。


    中文分詞的應(yīng)用


    目前在自然語(yǔ)言處理技術(shù)中,中文處理技術(shù)比西文處理技術(shù)要落后很大一段距離,許多西文的處理方法中文不能直接采用,就是因?yàn)橹形谋匦栌蟹衷~這道工序。中文分詞是其他中文信息處理的基礎(chǔ),搜索引擎只是中文分詞的一個(gè)應(yīng)用。其他的比如機(jī)器翻譯(MT)、語(yǔ)音合成、自動(dòng)分類、自動(dòng)摘要、自動(dòng)校對(duì)等等,都需要用到分詞。因?yàn)橹形男枰衷~,可能會(huì)影響一些研究,但同時(shí)也為一些企業(yè)帶來(lái)機(jī)會(huì),因?yàn)閲?guó)外的計(jì)算機(jī)處理技術(shù)要想進(jìn)入中國(guó)市場(chǎng),首先也是要解決中文分詞問(wèn)題。在中文研究方面,相比外國(guó)人來(lái)說(shuō),中國(guó)人有十分明顯的優(yōu)勢(shì)。


    分詞準(zhǔn)確性對(duì)搜索引擎來(lái)說(shuō)十分重要,但如果分詞速度太慢,即使準(zhǔn)確性再高,對(duì)于搜索引擎來(lái)說(shuō)也是不可用的,因?yàn)樗阉饕嫘枰幚頂?shù)以億計(jì)的網(wǎng)頁(yè),如果分詞耗用的時(shí)間過(guò)長(zhǎng),會(huì)嚴(yán)重影響搜索引擎內(nèi)容更新的速度。因此對(duì)于搜索引擎來(lái)說(shuō),分詞的準(zhǔn)確性和速度,二者都需要達(dá)到很高的要求。目前研究中文分詞的大多是科研院校,清華、北大、中科院、北京語(yǔ)言學(xué)院、東北大學(xué)、IBM研究院、微軟中國(guó)研究院等都有自己的研究隊(duì)伍,而真正專業(yè)研究中文分詞的商業(yè)公司除了海量科技以外,幾乎沒有了。科研院校研究的技術(shù),大部分不能很快產(chǎn)品化,而一個(gè)專業(yè)公司的力量畢竟有限,看來(lái)中文分詞技術(shù)要想更好的服務(wù)于更多的產(chǎn)品,還有很長(zhǎng)一段路。

上一條: 互聯(lián)網(wǎng)需要全文檢索
  下一條: 沒有了
征途介紹 | 征途新聞 | 客戶服務(wù) | 版權(quán)聲明 | 友情鏈接 | 聯(lián)系我們 | 網(wǎng)站建設(shè) | 網(wǎng)站推廣
版權(quán)所有:鄭州征途信息技術(shù)有限公司 地址:鄭州市管城區(qū)地鐵2號(hào)線二里崗B口斜對(duì)面中國(guó)郵政鄭州跨境電商產(chǎn)業(yè)園2樓210
聯(lián)系電話:0371-60988783 13073728811 豫ICP備19037742號(hào)-3

本站關(guān)鍵詞:鄭州網(wǎng)站建設(shè)公司 鄭州網(wǎng)站建設(shè) 鄭州電子商務(wù) 鄭州網(wǎng)站設(shè)計(jì) 鄭州網(wǎng)站策劃 河南鄭州網(wǎng)站建設(shè) 鄭州網(wǎng)站制作 鄭州建網(wǎng)站
鄭州網(wǎng)站制作 鄭州做網(wǎng)站的公司 網(wǎng)站托管 鄭州 鄭州網(wǎng)絡(luò)公司 新鄉(xiāng)網(wǎng)絡(luò)公司 河南網(wǎng)絡(luò)公司 洛陽(yáng)網(wǎng)絡(luò)公司 網(wǎng)站建設(shè) 電子商務(wù)網(wǎng)站
建網(wǎng)站 網(wǎng)站設(shè)計(jì) 鄭州虛擬主機(jī) 新鄉(xiāng)網(wǎng)站建設(shè) 鄭州 網(wǎng)站制作 安陽(yáng)網(wǎng)絡(luò)公司 焦作網(wǎng)絡(luò)公司 網(wǎng)頁(yè)設(shè)計(jì) 鄭州網(wǎng)頁(yè)設(shè)計(jì) 鄭州網(wǎng)站制作 在線客服
網(wǎng)頁(yè)制作 網(wǎng)站制作 河南網(wǎng)站建設(shè) 烽火臺(tái) 網(wǎng)絡(luò)推廣 鄭州網(wǎng)站推廣 網(wǎng)站建設(shè)方案 網(wǎng)絡(luò)營(yíng)銷 河南網(wǎng)站建設(shè)公司 鄭州5107網(wǎng)站伴侶