系統簡介:
大數據中不可避免地存在著重復數據,以互聯網新聞網頁為例,大約60%的互聯網新聞網頁都是重復的。所謂重復數據,往往指基本內容一致,但具體字樣往往還存在著少許差異的數據。不同的業務所定義的重復標準也不盡相同。
靈玖大數據文本去重解決方案能夠識別各種類型的重復數據,有效降低數據冗余。
主要功能:
能夠從大數據中快速識別出重復冗余數據;針對不同的業務類型,可以定制不同的重復標準。
應用案例:
靈玖大數據特征提取已經集成在多個公司的業務系統中。
圖1為針對同一機構不同簡寫、別名及筆誤造成的重名問題,可以從大數據業務中自動搜索并檢測出重復的機構數據,對數據進行清洗并整合。
圖1:大數據去重應用于中國郵政郵政查重系統
圖2為針對新聞轉載的問題進行自動識別。
圖2:大數據去重應用于新聞轉載識別
技術特點:
1. 速度快:內嵌指紋技術和相似性搜索技術,最大限度提升去重效率;
2. 處理精準:不同的去重標準可以定制,更貼切地滿足業務需求;
3. 開放式接口:采用靈活的開發接口,可以方便地融入到用戶的業務系統中,可以支持各種操作系統。
運行環境:
操作系統:inux2.6及以上;Windows Server
硬件配置:PC即可,內存2G以上