系統簡介:
大數據體量巨大,數據類型繁多,價值密度低,要求處理速度快,業界將其歸納為4個“V”——Volume,Variety,Value,Velocity。因此,大數據過濾需要快速高效地過濾出有價值的知識與情報,需要達到的性能要求包括:海量處理規模、多字段過濾、智能篩選、高效過濾。靈玖IFCA系統是靈玖中科軟件(北京)有限公司自主研發的大數據信息智能過濾與內容審計系統,可以快速便捷地匹配大量自定義的關鍵字、詞,智能過濾違法國家法律法規以及侵犯用戶權益的內容,達到凈化網絡空間、提取情報的目的,確保國家、社會與個人的信息內容安全。
IFCA系統充分融合了靈玖軟件在自然語言理解、信息檢索等方面多年的技術積累,具有智能、高效、自學習三大特點:
智能主要體現在專家啟發式知識與機器學習的有機融合;
高效體現在本系統在保證準確率的情況下,可以單機每秒處理10MB的文本數據;
自學習是指通過機器學習,自動抽取新的語言知識,以適應新的網絡語言變化,做到因時而變。
IFCA系統可應用于公安、廣播、電視、報刊雜志以及廣泛的網絡信息內容安全服務。并可在IFCA基礎上,提供進一步的數據信息監控等解決方案。
主要功能:
文本關鍵字、詞智能高速匹配:
輸入關鍵字、詞,自動匹配,計算出該有關該字詞的相關信息;用戶定義的關鍵詞數目不限,可以并發支持百萬級別的關鍵詞;
豐富的智能邏輯關系運輸:
支持關鍵字、詞復雜匹配,包括常用的“與、或、非”,同時支持“NEAR“臨近關系的復雜算法;
按照用戶自定義的類別體系分類整理過濾出的信息內容:
用戶可以根據自身業務的特點,自定義內容過濾體系,IFCA系統將按照用戶自定義的類別輸出;
樣本機器學習:
在沒有關鍵詞的時候,機器通過自動學習技能,同樣能夠達到對信息文本的相似類劃分。
應用案例:
靈玖IFCA系統已經廣泛的運用于各大公司和機構。
下面是IFCA為國家廣電總局進行負面信息過濾的部分案例。
案例一:A片的信息過濾
下圖分別給出了簡單關鍵詞匹配方法與IFCA智能過濾方法的對比結果圖:
A片:
圖1:簡單關鍵詞匹配方法的結果準確率不到10%
圖2:靈玖IFCA系統處理后的結果
技術特點:
1.精準的切詞:
使用先進的靈玖LJWS切詞技術,準確高效的對句子切分,避免了歧義的產生;
2. 快速高效:
IFCA系統單線程每秒可處理10MB的文本數據。
3.準確率高:
根據100萬條數據的實際測試,準確率高達99.97%。
4.支持微博客、短信等短文本內容過濾:
支持微博客、短信等內容短小而又不規范的內容過濾。
5.智能學習功能:
IFCA系統的所有的知識庫是通過機器學習,自動抽取新的語言知識,以適應新的網絡語言變化,做到因時而變
6.技術先進:
IFCA系統綜合運用了自然語言理解技術、信息檢索技術、模糊匹配與機器學習技術,技術含量高。
運行環境:
操作系統:Linux2.6及以上;Windows Server
硬件配置:1臺服務器即可