NLPIR語義分析系統
自然語言處理奠基之作
國際、國內測評雙第一
漢語詞法分析中間件能對漢語語言進行拆分處理,是中文信息處理必備的核心部件。靈玖綜合了各家所長,采用條件隨機場(Conditional Random Field,簡稱CRF)模型,分詞準確率接近99%。
文章關鍵詞提取中間件能夠在全面把握文章的中心思想的基礎上,提取出若干個代表文章語義內容的詞匯或短語,相關結果可用于精化閱讀、語義查詢和快速匹配等。
自動文本摘要中間件能夠實現文本內容的精簡提煉,從長篇文章中自動提取關鍵句和關鍵段落,構成摘要內容,方便用戶快速瀏覽文本內容,提高工作效率。
自動識別多種語言編碼,例如Big5、Unicode、UTF-8、GB1830等,并統一轉換為一種編碼;能夠自動識別GBK內部的漢字繁簡體,并統一轉換為漢字簡體。
靈玖IFCA系統是靈玖中科軟件(北京)有限公司自主研發的大數據信息智能過濾與內容審計系統,可以快速便捷地匹配大量自定義的關鍵字、詞。
大數據中不可避免地存在著重復數據,以互聯網新聞網頁為例,大約60%的互聯網新聞網頁都是重復的。所謂重復數據,往往指基本內容一致,但具體字樣往往還存在著少許差異的數據。
大數據的特點有體量巨大,而有價值信息的密度低,因此,需要采用大數據分類的技術,對海量數據進行分類整理。大數據分類技術能夠按照用戶預設的類別體系,將數據進行歸類。
大數據文本聚類能夠對大數據文檔進行自動梳理,歸納熱點趨勢,把內容相近的信息歸為一類,按照熱度進行排名,并自動為該類生成標題和主題詞。適用于自動生成熱點排行、熱門事件識別、熱點趨勢發現等諸多應用。
大數據量對應著海量噪雜的信息,不可避免的帶來大數據困惑。如何從大數據中提取關鍵性的代表性特征,可能是某些詞匯,也可能是某些短語、命名實體或流行用語,則成為大數據分析的一把利器。