注意:原創(chuàng)文章,無版權(quán),可以任意轉(zhuǎn)載,但必須完整轉(zhuǎn)載全文、url和內(nèi)部解釋性鏈接
WEB結(jié)構(gòu)化信息抽取就是將網(wǎng)頁中的非結(jié)構(gòu)化數(shù)據(jù)按照一定的需求抽取成結(jié)構(gòu)化數(shù)據(jù)。是垂直搜索引擎和通用搜索引擎最大的差別。 如:比較購物搜索那就需要抓取網(wǎng)頁后,對網(wǎng)頁中的商品信息進(jìn)行抽取,抽取出商品名稱、價(jià)格、簡介……甚至可以進(jìn)一步將筆記本簡介細(xì)分成“品牌、型號、CPU、內(nèi)存、硬盤、顯示屏、……” 房產(chǎn)信息搜索那就應(yīng)該抽取出那應(yīng)該抽取出:類型、地域、地址、房型、面積、裝修情況、租金、聯(lián)系人、聯(lián)系電話…… 公司企業(yè)信息搜索那就應(yīng)該抽取出:公司名稱、地址、電話、聯(lián)系人…… ………… 結(jié)構(gòu)化信息抽取有兩種方式可以實(shí)現(xiàn),比較簡單的是模板方式,還有一種是對網(wǎng)頁不依賴的網(wǎng)頁庫級的結(jié)構(gòu)化信息抽取方式。
模板方式是事先對特定的網(wǎng)頁進(jìn)行配置模板,抽取模板中設(shè)置好的需要的信息,可以針對有限個(gè)網(wǎng)站的信息進(jìn)行精確的采集。 特點(diǎn):簡單、精確、技術(shù)難度低、方便快速部署。 缺點(diǎn):需要針對每一個(gè)信息源的網(wǎng)站模板進(jìn)行單獨(dú)的設(shè)定在信息源多樣性的情況下維護(hù)量巨大是不可完成的維護(hù)量。所以這種方式適合少量信息源的信息處理,不是搜索引擎級的應(yīng)用,很難滿足用戶對查全率的需求。
網(wǎng)頁庫結(jié)構(gòu)化信息抽取是采用頁面結(jié)構(gòu)分析與智能節(jié)點(diǎn)分析轉(zhuǎn)換的方法,自動抽取結(jié)構(gòu)化的數(shù)據(jù)。 特點(diǎn):可對任意的正常網(wǎng)頁進(jìn)行抽取,完全自動化,不用對具體網(wǎng)站事先生成模板,對每個(gè)網(wǎng)頁自動實(shí)時(shí)得生成抽取規(guī)則,完全不需要人工干預(yù)。智能抽取準(zhǔn)確率高,不是機(jī)械的匹配,采用智能分析技術(shù),準(zhǔn)確率能達(dá)到98%以上。能保證較快處理速度,由于采用頁面的智能分析技術(shù),先去除了垃圾塊,降低分析的壓力,是處理速度大大提高。通用性較好,易于維護(hù),只需設(shè)定參數(shù)、配置相應(yīng)的特征就能改進(jìn)相應(yīng)的抽取性能;一般的非專業(yè)人員經(jīng)過簡單培訓(xùn)就能維護(hù)。 缺點(diǎn):技術(shù)難度高,前期研發(fā)成本高,周期長。適合網(wǎng)頁庫級別結(jié)構(gòu)化數(shù)據(jù)采集和搜索的高端應(yīng)用。
我們的技術(shù)是對網(wǎng)頁不依賴的web結(jié)構(gòu)化信息抽取技術(shù),適合高端的垂直搜索應(yīng)用或者高端的競爭情報(bào)分析系統(tǒng)。
|