<delect id="nfhhz"></delect>
    <nobr id="nfhhz"><span id="nfhhz"><mark id="nfhhz"></mark></span></nobr>

      <b id="nfhhz"></b>

      <mark id="nfhhz"></mark>

      <cite id="nfhhz"><address id="nfhhz"><del id="nfhhz"></del></address></cite>

        <meter id="nfhhz"></meter>

        日本又大又粗A级视频_免费视频黄片大全_国产1级A片大全精品_av网站污在线观看
        <delect id="nfhhz"></delect>
          <nobr id="nfhhz"><span id="nfhhz"><mark id="nfhhz"></mark></span></nobr>

            <b id="nfhhz"></b>

            <mark id="nfhhz"></mark>

            <cite id="nfhhz"><address id="nfhhz"><del id="nfhhz"></del></address></cite>

              <meter id="nfhhz"></meter>

              大數據文本去重

              所屬類別:大數據挖掘

              系統簡介:

              大數據中不可避免地存在著重復數據,以互聯網新聞網頁為例,大約60%的互聯網新聞網頁都是重復的。所謂重復數據,往往指基本內容一致,但具體字樣往往還存在著少許差異的數據。不同的業務所定義的重復標準也不盡相同。

              靈玖大數據文本去重解決方案能夠識別各種類型的重復數據,有效降低數據冗余。

              主要功能:

              能夠從大數據中快速識別出重復冗余數據;針對不同的業務類型,可以定制不同的重復標準。

              應用案例:

              靈玖大數據特征提取已經集成在多個公司的業務系統中。

              圖1為針對同一機構不同簡寫、別名及筆誤造成的重名問題,可以從大數據業務中自動搜索并檢測出重復的機構數據,對數據進行清洗并整合。

              圖1:大數據去重應用于中國郵政郵政查重系統

              圖2為針對新聞轉載的問題進行自動識別。

              圖2:大數據去重應用于新聞轉載識別

              技術特點:

              1. 速度快:內嵌指紋技術和相似性搜索技術,最大限度提升去重效率;

              2. 處理精準:不同的去重標準可以定制,更貼切地滿足業務需求;

              3. 開放式接口:采用靈活的開發接口,可以方便地融入到用戶的業務系統中,可以支持各種操作系統。

              運行環境:

              操作系統:inux2.6及以上;Windows Server

              硬件配置:PC即可,內存2G以上

              Insert title here