系統簡介:
大數據的特點有體量巨大,而有價值信息的密度低,因此,需要采用大數據文本分類的技術,對海量數據進行分類整理。大數據文本分類技術能夠按照用戶預設的類別體系,將數據進行歸類。實際的業務往往面臨著不同的分類需求,例如新聞分類、簡歷分類、郵件分類、辦公文檔分類、區域分類等,這樣就需要分類系統能夠適應不同的分類標準。 靈玖大數據文本分類采用基于內容的分類和基于規則的分類兩種方式,并支持兩種方式的混合分類,能夠進行多級分類,很好地滿足實際業務要求。
主要功能:
數據樣本訓練分類:
為每個類別人工挑選樣本,機器自動學習樣本特征,對新的數據按照樣本特征進行分類。
規則匹配分類:
為每個類別設置關鍵詞表達式,機器按照精確設置的表達式進行分類;表達式支持“與、或、非、近鄰”等復雜的邏輯符號嵌套。
數據樣本規則混合分類:
將樣本學習和規則匹配相結合進行分類,發揮二者的優勢。
應用案例:
下圖給出了樣本訓練分類方法的結果示例圖:
圖1:樣本訓練分類結果示例
技術特點:
1、支持自動分類和規則的兩種分類方式,而且支持兩種方式的混合分類;
2、速度快,分類速度每秒100篇以上,平均準確率90%以上;
3、能夠進行中英文分類和中英文的混合分類。
運行環境:
操作系統:Linux2.6及以上;Windows Server
硬件配置:1臺服務器即可