完美世界国际版下载,女强穿越玄幻完结小说,绝色狂妃仙魅小说

干貨 | 數據收集和處理工具一覽

1.全文本搜索和挖掘的搜索引擎

包括：搜索方法、技術：全文本搜索，信息檢索，桌面搜索，企業搜索和分面搜索。

開源搜索工具:

■Open Semantic Search：專門用于搜索自己文件的搜索引擎，同樣的還有Open Semantic Desktop Search:可用于搜索單一一臺筆記本電腦或單一用戶的文件資源。
■InvestigateIX: 用于搜索加密外部設備
■Recoll: 適用于Linux系統的桌面搜索引擎
■Fuzzy search with lists：清單搜索、模糊搜索

搜索數據庫和API

■如果你想編程，你可以試用以下強大的搜索引擎：Solr和Elastic Search，支持索引和API搜索，更多全文搜索、實時檢索、數據分析、多格式數據讀取（JSON, SML, CSV或HTTP）等強大功能等你開發。

2.數據庫、數字文檔、數據管理系統、文件管理系統和內容管理系統

■還在為不同格式的腳注、尾注、文中引用和文獻參考大費腦筋嗎？資源整理神器Zotero的標注和引用功能幫你解決難題。它可以在Word，Open Office添加引用，在Google doc和電子郵件中插入文獻參考，或者為數據庫添加標記。
■LibreOffice Calc:開源表格程序
■Document cloud:文檔管理系統，管理紙質文件掃描版本或者PDF 格式文件
■Semantic MediaWiki: MediaWiki(著名開源引擎，可用于構建企業/個人知識庫，維基百科就是使用MediaWiki的成功范例)的免費開源擴展，可供用戶存儲、調用數據
■Drupal CMS:內容管理模塊，可以讓你快速便捷地以用戶界面創制自己的內容格式、數據字段和表格
■想從大量文件中單獨抽取金額來分析？專業的文件管理系統Agorum可以自動從賬單抽取金錢數額，幫你輕松解決。
■想標記圖片中的文字？Pundit幫你辦到，它同時支持文本和圖片標記。
■想在網站加注釋？Annotator.js幫你在任何網頁加注釋，而且可以添加評論、標簽、鏈接、用戶或者更多不同種類的信息，第三方插件還能幫你在難以搞定的PDF、EPUB、視頻、圖片、聲音甚至更多格式的文件上添加標注。
■標注了信息，想收到更新提醒？Hypothesis可供用戶訂閱一系列已標注的活動信息，而且能按照自己的興趣獲取通知，而且還能分享評注、鏈接詞典。程序員還可以獲取有限的網站許可，通過第三方應用創建、更新、刪除、搜索注釋。

3. 文本文件挖掘、分析

■Text mining tutorial: How to analyze large document collections：文本挖掘教程：如何分析大容量文件集（使用Open Semantic Search來挖掘文本）
■Understanding language data: 理解語言數據：可以使用開源NLP（自然語言處理）軟件
■統計詞頻有困難？Overview project可以顯示文本最常用的詞和它們的詞群分布
■想以圖解的方式查看文本檢索結果？文本搜索工具Jigsaw:（非開源軟件，但可免費下載）可統計文本中最重要的人物、地點、組織等實體的出現頻率，并將他們之間的關系以列表、圖表、時間表和關系圖的形式呈現出來，提高文本分析效率。
■Wikipedia list of open source text mining software：維基百科上整合的開源文本挖掘軟件列表
■Tapor: 研究專用的文本分析門戶，提供大量文本分析工具，你可以按照類型或標記找到最適合的一款。