Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 14 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
14
Dung lượng
389,5 KB
Nội dung
MỘT SỐ CÔNG CỤ XỬ LÝ NGÔN NGỮ TỰ NHIÊN Đào Thủy Ngân Nội dung Một số công cụ lấy liệu: Crawler4j, httpClient, Một số cơng cụ phân tích ngữ pháp: htmlParser, Jsoup, CyberNeko, JTidy Một số công cụ xử lý ngôn ngữ tiếng Việt: − JvnTextPro, VnToolkit − Bộ sản phẩm VLSP Một số công cụ khác Nội dung Một số công cụ lấy liệu: Crawler4j, httpClient, Một số cơng cụ phân tích ngữ pháp: htmlParser, Jsoup, Neko, Một số công cụ xử lý ngôn ngữ tiếng Việt: − JvnTextPro, VnToolkit − Bộ sản phẩm VLSP Một số công cụ khác Crawler4j Là công cụ nguồn mở, viết ngôn ngữ Java Cung cấp API đơn giản giúp thực việc lấy liệu Web Download: http://code.google.com/p/crawler4j/downloads/list Code mẫu: http://code.google.com/p/crawler4j/ Hướng dẫn sử dụng: http://code.google.com/p/crawler4j/w/list Thông báo lỗi: http://code.google.com/p/crawler4j/issues/list Mã nguồn: − http://code.google.com/p/crawler4j/source/checkout − https://github.com/yasserg/crawler4j Crawler4j: Một số thuộc tính cài đặt Số luồng: int numberOfCrawlers Độ sâu: setMaxDepthOfCrawling(int depth); Mật độ yêu cầu lấy tin giây: setPolitenessDelay(int politenessDelay); Số trang liệu cần lấy: setMaxPagesToFetch(maxPagesToFetch); Tính tự động chạy tiếp sau bị ngắt: crawlConfig.setResumableCrawling(true); Proxy Nội dung Một số công cụ lấy liệu: Crawler4j, httpClient, Một số công cụ phân tích ngữ pháp: htmlParser, Jsoup, CyberNeko, JTidy Một số công cụ xử lý ngôn ngữ tiếng Việt: − JvnTextPro, VnToolkit − Bộ sản phẩm VLSP Một số công cụ khác JSoup Parser Là thư viện nguồn mở cho Java Cung cấp API đơn giản giúp thực việc trích xuất thao tác liệu, sử dụng cấu trúc DOM, CSS, Download: http://jsoup.org/download Địa tra cứu API: http://jsoup.org/apidocs/ Hướng dẫn sử dụng: http://jsoup.org/cookbook/ Kho mã nguồn: https://github.com/jhy/jsoup/ JSoup Parser: Một số tính Lấy phân tích cú pháp HTML từ địa URL, file string Tìm kiếm trích xuất liệu, sử dụng cấu trúc DOM lọc CSS Thao tác thành phần HTML, thuộc tính text Nội dung Một số công cụ lấy liệu: Crawler4j, httpClient, Một số công cụ phân tích ngữ pháp: htmlParser, Jsoup, CyberNeko, JTidy Một số công cụ xử lý ngôn ngữ tiếng Việt: − JvnTextPro, VnToolkit − Bộ sản phẩm VLSP Một số công cụ khác JVnTextPro Tác giả: chị Nguyễn Cẩm Tú Là công cụ xử lý ngôn ngữ tiếng Việt viết Java Download: http://sourceforge.net/projects/jvntextpro/ Các tính chính: − Tách từ − Tách câu − Gán nhãn từ loại (POS-tagging) Sản phẩm VLSP Một số sản phẩm thuộc nhánh đề tài "Xử lí văn bản" phần đề tài KC01.01/06-10 "Nghiên cứu phát triển số sản phẩm thiết yếu xử lí tiếng nói văn tiếng Việt" (VLSP) Các công cụ: − Hệ tách từ tiếng Việt vnTokenizer − Hệ gán nhãn từ loại tiếng Việt VietTagger − Hệ phân tích cụm từ tiếng Việt VietChunker − Hệ phân tích cú pháp tiếng Việt Download: http://vlsp.vietlp.org:8080/demo/?page=resources Nội dung Một số công cụ lấy liệu: Crawler4j, httpClient, Một số công cụ phân tích ngữ pháp: htmlParser, Jsoup, CyberNeko, JTidy Một số công cụ xử lý ngôn ngữ tiếng Việt: − JvnTextPro, VnToolkit − Bộ sản phẩm VLSP Một số công cụ khác Một số công cụ khác Các ứng dụng xử lý ngôn ngữ tự nhiên Stanford: http://www-nlp.stanford.edu/software/ Word segmentation, part-of-speech tagging, named entity recognition, chunking, parsing, classification and coreference resolution Mallet - công cụ ứng dụng phương pháp học máy: http://mallet.cs.umass.edu/ Statistic, document classification, clustering, topic modeling, information extraction Một số công cụ khác NLTK: http://www.nltk.org/ Open source Python modules, linguistic data and documentation for research and development in natural language processing and text analytics OpenNLP: http://opennlp.apache.org/ Tokenization, sentence segmentation, part-of-speech tagging, named entity extraction, chunking, parsing, and coreference resolution http://www.loria.fr/~lehong/softwares.php ... phẩm VLSP Một số công cụ khác Nội dung Một số công cụ lấy liệu: Crawler4j, httpClient, Một số cơng cụ phân tích ngữ pháp: htmlParser, Jsoup, Neko, Một số công cụ xử lý ngôn ngữ tiếng... Một số cơng cụ phân tích ngữ pháp: htmlParser, Jsoup, CyberNeko, JTidy Một số công cụ xử lý ngôn ngữ tiếng Việt: − JvnTextPro, VnToolkit − Bộ sản phẩm VLSP Một số công cụ khác Một số công cụ. ..Nội dung Một số công cụ lấy liệu: Crawler4j, httpClient, Một số công cụ phân tích ngữ pháp: htmlParser, Jsoup, CyberNeko, JTidy Một số công cụ xử lý ngôn ngữ tiếng Việt: − JvnTextPro,