欧美精品国产一区二区免费,久久久精品一级毛片免费观看,国产精品一区二区熟女不卡,久久精品国产清高在天天线,欧美自拍清纯日韩一区二区三区,高清不卡秀视频一区二区在线观看

www.中文字幕,亚洲国产精品99久久久久,亚洲国产欧美另类

建站流程

河南鄭州網(wǎng)站建設(shè)銷售咨詢電話：13073728811(24小時(shí)值班) 客服電話0371-60988783

首頁網(wǎng)站建設(shè)網(wǎng)站推廣 5107網(wǎng)站伴侶域名注冊虛擬主機(jī) 企業(yè)郵局關(guān)于我們合作代理網(wǎng)上商店企業(yè)郵箱

征途新聞

公司新聞

行業(yè)新聞

服務(wù)項(xiàng)目

網(wǎng)站建設(shè)	網(wǎng)站推廣
域名注冊	虛擬主機(jī)
網(wǎng)站伴侶	運(yùn)營維護(hù)

聯(lián)系我們

聯(lián)系電話：
0371－60273020       60273015
      60273016
      60273017
傳    真：
0371－60273018

當(dāng)前位置：首頁 > WEB網(wǎng)頁結(jié)構(gòu)化信息抽取

WEB網(wǎng)頁結(jié)構(gòu)化信息抽取技術(shù)介紹(網(wǎng)頁庫級)

發(fā)布日期：2007-5-25

關(guān)鍵詞：結(jié)構(gòu)化信息抽取，信息抽取

注意：原創(chuàng)文章，無版權(quán)，可以任意轉(zhuǎn)載，但必須完整轉(zhuǎn)載全文、url和內(nèi)部解釋性鏈接

WEB結(jié)構(gòu)化信息抽取就是將網(wǎng)頁中的非結(jié)構(gòu)化數(shù)據(jù)按照一定的需求抽取成結(jié)構(gòu)化數(shù)據(jù)。是垂直搜索引擎和通用搜索引擎最大的差別。
　　如：比較購物搜索那就需要抓取網(wǎng)頁后，對網(wǎng)頁中的商品信息進(jìn)行抽取，抽取出商品名稱、價(jià)格、簡介……甚至可以進(jìn)一步將筆記本簡介細(xì)分成“品牌、型號、CPU、內(nèi)存、硬盤、顯示屏、……”
　　房產(chǎn)信息搜索那就應(yīng)該抽取出那應(yīng)該抽取出：類型、地域、地址、房型、面積、裝修情況、租金、聯(lián)系人、聯(lián)系電話……
　　公司企業(yè)信息搜索那就應(yīng)該抽取出：公司名稱、地址、電話、聯(lián)系人……
　　…………
　　結(jié)構(gòu)化信息抽取有兩種方式可以實(shí)現(xiàn)，比較簡單的是模板方式，還有一種是對網(wǎng)頁不依賴的網(wǎng)頁庫級的結(jié)構(gòu)化信息抽取方式。

　　模板方式是事先對特定的網(wǎng)頁進(jìn)行配置模板，抽取模板中設(shè)置好的需要的信息，可以針對有限個(gè)網(wǎng)站的信息進(jìn)行精確的采集。
　　特點(diǎn)：簡單、精確、技術(shù)難度低、方便快速部署。
　　缺點(diǎn)：需要針對每一個(gè)信息源的網(wǎng)站模板進(jìn)行單獨(dú)的設(shè)定在信息源多樣性的情況下維護(hù)量巨大是不可完成的維護(hù)量。所以這種方式適合少量信息源的信息處理，不是搜索引擎級的應(yīng)用，很難滿足用戶對查全率的需求。

網(wǎng)頁庫結(jié)構(gòu)化信息抽取是采用頁面結(jié)構(gòu)分析與智能節(jié)點(diǎn)分析轉(zhuǎn)換的方法，自動抽取結(jié)構(gòu)化的數(shù)據(jù)。
　　特點(diǎn)：可對任意的正常網(wǎng)頁進(jìn)行抽取，完全自動化，不用對具體網(wǎng)站事先生成模板，對每個(gè)網(wǎng)頁自動實(shí)時(shí)得生成抽取規(guī)則，完全不需要人工干預(yù)。智能抽取準(zhǔn)確率高，不是機(jī)械的匹配，采用智能分析技術(shù)，準(zhǔn)確率能達(dá)到98%以上。能保證較快處理速度，由于采用頁面的智能分析技術(shù)，先去除了垃圾塊，降低分析的壓力，是處理速度大大提高。通用性較好，易于維護(hù)，只需設(shè)定參數(shù)、配置相應(yīng)的特征就能改進(jìn)相應(yīng)的抽取性能；一般的非專業(yè)人員經(jīng)過簡單培訓(xùn)就能維護(hù)。
　　缺點(diǎn)：技術(shù)難度高，前期研發(fā)成本高，周期長。適合網(wǎng)頁庫級別結(jié)構(gòu)化數(shù)據(jù)采集和搜索的高端應(yīng)用。

我們的技術(shù)是對網(wǎng)頁不依賴的web結(jié)構(gòu)化信息抽取技術(shù)，適合高端的垂直搜索應(yīng)用或者高端的競爭情報(bào)分析系統(tǒng)。

上一條: 全套垂直搜索引擎技術(shù)

下一條: 什么是垂直搜索？[原創(chuàng)]

版權(quán)所有：鄭州征途信息技術(shù)有限公司地址：鄭州市管城區(qū)地鐵2號線二里崗B口斜對面中國郵政鄭州跨境電商產(chǎn)業(yè)園2樓210
聯(lián)系電話：0371-60988783 13073728811 豫ICP備19037742號-3

本站關(guān)鍵詞：鄭州網(wǎng)站建設(shè)公司　鄭州網(wǎng)站建設(shè)　鄭州電子商務(wù)　鄭州網(wǎng)站設(shè)計(jì) 鄭州網(wǎng)站策劃　河南鄭州網(wǎng)站建設(shè)　鄭州網(wǎng)站制作　鄭州建網(wǎng)站
鄭州網(wǎng)站制作　鄭州做網(wǎng)站的公司　網(wǎng)站托管　鄭州　鄭州網(wǎng)絡(luò)公司　新鄉(xiāng)網(wǎng)絡(luò)公司　河南網(wǎng)絡(luò)公司　洛陽網(wǎng)絡(luò)公司　網(wǎng)站建設(shè)　電子商務(wù)網(wǎng)站
建網(wǎng)站網(wǎng)站設(shè)計(jì) 鄭州虛擬主機(jī) 新鄉(xiāng)網(wǎng)站建設(shè) 鄭州網(wǎng)站制作安陽網(wǎng)絡(luò)公司焦作網(wǎng)絡(luò)公司網(wǎng)頁設(shè)計(jì) 鄭州網(wǎng)頁設(shè)計(jì) 鄭州網(wǎng)站制作在線客服
網(wǎng)頁制作網(wǎng)站制作河南網(wǎng)站建設(shè) 烽火臺　網(wǎng)絡(luò)推廣鄭州網(wǎng)站推廣　網(wǎng)站建設(shè)方案　網(wǎng)絡(luò)營銷　河南網(wǎng)站建設(shè)公司　鄭州5107網(wǎng)站伴侶