系統簡介:
大數據量對應著海量噪雜的信息,不可避免的帶來大數據困惑。如何從大數據中提取關鍵性的代表性特征,可能是某些詞匯,也可能是某些短語、命名實體或流行用語,則成為大數據分析的一把利器。 同時,大數據特征提取脫胎于語言自動分詞技術,又是對分詞技術的有效提升和補充,能夠有效發現關鍵特征和行業術語。靈玖Lingjoin采用基于語義的統計語言模型,所處理的大數據不受行業領域限制,能夠有效地挖掘出新出現的特征詞匯,所輸出的詞匯可以配以權重。
主要功能:
能夠從大數據中分析出特征短語,特征結果具有以下幾個特性:
n 語義上:表意完整、所指明確,在意義上有一定的完整性和專指性。
n 語用上:語用環境靈活,能夠在多種語言環境中出現。
n 結構上:內部結構穩定,具有一定的凝固性。
n 統計上:具有一定流通度,在真實數據中頻繁出現。
應用案例:
靈玖大數據特征提取已經集成在多個公司的業務系統中。
下面是應用于締元信公司用戶標簽管理和新浪微博個性熱詞云的部分案例。
圖1:大數據特征提取應用于締元信公司用戶標簽管理系統
圖2:大數據特征提取應用于微博個性熱詞云
技術特點:
1. 速度快:可以處理海量規模的數據,平均每小時處理至少60萬篇文檔;
2. 處理精準:Top N的分析結果往往能反映出當時的時事流行語和熱點實體;與國際上著名廠商的技術相比,靈玖的各項指標遠遠領先;
3.支持微博客、短信等短文本內容分析:支持微博客、短信等內容短小而又不規范的內容分析;
4. 精準排序:特征詞匯按照影響權重排序,可以輸出權重值;
5. 開放式接口:采用靈活的開發接口,可以方便地融入到用戶的業務系統中,可以支持各種操作系統。
運行環境:
操作系統:Linux2.6及以上;Windows Server
硬件配置:PC即可,內存2G以上