1. Trang chủ
  2. » Giáo Dục - Đào Tạo

MỘT SỐ CÔNG CỤ XỬ LÝ NGÔN NGỮ TỰ NHIÊN

14 7 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Nội dung

MỘT SỐ CÔNG CỤ XỬ LÝ NGÔN NGỮ TỰ NHIÊN Đào Thủy Ngân Nội dung     Một số công cụ lấy liệu: Crawler4j, httpClient, Một số cơng cụ phân tích ngữ pháp: htmlParser, Jsoup, CyberNeko, JTidy Một số công cụ xử lý ngôn ngữ tiếng Việt: − JvnTextPro, VnToolkit − Bộ sản phẩm VLSP Một số công cụ khác Nội dung     Một số công cụ lấy liệu: Crawler4j, httpClient, Một số cơng cụ phân tích ngữ pháp: htmlParser, Jsoup, Neko, Một số công cụ xử lý ngôn ngữ tiếng Việt: − JvnTextPro, VnToolkit − Bộ sản phẩm VLSP Một số công cụ khác Crawler4j  Là công cụ nguồn mở, viết ngôn ngữ Java  Cung cấp API đơn giản giúp thực việc lấy liệu Web  Download: http://code.google.com/p/crawler4j/downloads/list  Code mẫu: http://code.google.com/p/crawler4j/  Hướng dẫn sử dụng: http://code.google.com/p/crawler4j/w/list  Thông báo lỗi: http://code.google.com/p/crawler4j/issues/list  Mã nguồn: − http://code.google.com/p/crawler4j/source/checkout − https://github.com/yasserg/crawler4j Crawler4j: Một số thuộc tính cài đặt  Số luồng: int numberOfCrawlers  Độ sâu: setMaxDepthOfCrawling(int depth);     Mật độ yêu cầu lấy tin giây: setPolitenessDelay(int politenessDelay); Số trang liệu cần lấy: setMaxPagesToFetch(maxPagesToFetch); Tính tự động chạy tiếp sau bị ngắt: crawlConfig.setResumableCrawling(true); Proxy Nội dung     Một số công cụ lấy liệu: Crawler4j, httpClient, Một số công cụ phân tích ngữ pháp: htmlParser, Jsoup, CyberNeko, JTidy Một số công cụ xử lý ngôn ngữ tiếng Việt: − JvnTextPro, VnToolkit − Bộ sản phẩm VLSP Một số công cụ khác JSoup Parser   Là thư viện nguồn mở cho Java Cung cấp API đơn giản giúp thực việc trích xuất thao tác liệu, sử dụng cấu trúc DOM, CSS,  Download: http://jsoup.org/download  Địa tra cứu API: http://jsoup.org/apidocs/  Hướng dẫn sử dụng: http://jsoup.org/cookbook/  Kho mã nguồn: https://github.com/jhy/jsoup/ JSoup Parser: Một số tính    Lấy phân tích cú pháp HTML từ địa URL, file string Tìm kiếm trích xuất liệu, sử dụng cấu trúc DOM lọc CSS Thao tác thành phần HTML, thuộc tính text Nội dung     Một số công cụ lấy liệu: Crawler4j, httpClient, Một số công cụ phân tích ngữ pháp: htmlParser, Jsoup, CyberNeko, JTidy Một số công cụ xử lý ngôn ngữ tiếng Việt: − JvnTextPro, VnToolkit − Bộ sản phẩm VLSP Một số công cụ khác JVnTextPro  Tác giả: chị Nguyễn Cẩm Tú  Là công cụ xử lý ngôn ngữ tiếng Việt viết Java  Download: http://sourceforge.net/projects/jvntextpro/  Các tính chính: − Tách từ − Tách câu − Gán nhãn từ loại (POS-tagging) Sản phẩm VLSP    Một số sản phẩm thuộc nhánh đề tài "Xử lí văn bản" phần đề tài KC01.01/06-10 "Nghiên cứu phát triển số sản phẩm thiết yếu xử lí tiếng nói văn tiếng Việt" (VLSP) Các công cụ: − Hệ tách từ tiếng Việt vnTokenizer − Hệ gán nhãn từ loại tiếng Việt VietTagger − Hệ phân tích cụm từ tiếng Việt VietChunker − Hệ phân tích cú pháp tiếng Việt Download: http://vlsp.vietlp.org:8080/demo/?page=resources Nội dung     Một số công cụ lấy liệu: Crawler4j, httpClient, Một số công cụ phân tích ngữ pháp: htmlParser, Jsoup, CyberNeko, JTidy Một số công cụ xử lý ngôn ngữ tiếng Việt: − JvnTextPro, VnToolkit − Bộ sản phẩm VLSP Một số công cụ khác Một số công cụ khác  Các ứng dụng xử lý ngôn ngữ tự nhiên Stanford: http://www-nlp.stanford.edu/software/ Word segmentation, part-of-speech tagging, named entity recognition, chunking, parsing, classification and coreference resolution  Mallet - công cụ ứng dụng phương pháp học máy: http://mallet.cs.umass.edu/ Statistic, document classification, clustering, topic modeling, information extraction Một số công cụ khác  NLTK: http://www.nltk.org/ Open source Python modules, linguistic data and documentation for research and development in natural language processing and text analytics  OpenNLP: http://opennlp.apache.org/ Tokenization, sentence segmentation, part-of-speech tagging, named entity extraction, chunking, parsing, and coreference resolution  http://www.loria.fr/~lehong/softwares.php ... phẩm VLSP Một số công cụ khác Nội dung     Một số công cụ lấy liệu: Crawler4j, httpClient, Một số cơng cụ phân tích ngữ pháp: htmlParser, Jsoup, Neko, Một số công cụ xử lý ngôn ngữ tiếng... Một số cơng cụ phân tích ngữ pháp: htmlParser, Jsoup, CyberNeko, JTidy Một số công cụ xử lý ngôn ngữ tiếng Việt: − JvnTextPro, VnToolkit − Bộ sản phẩm VLSP Một số công cụ khác Một số công cụ. ..Nội dung     Một số công cụ lấy liệu: Crawler4j, httpClient, Một số công cụ phân tích ngữ pháp: htmlParser, Jsoup, CyberNeko, JTidy Một số công cụ xử lý ngôn ngữ tiếng Việt: − JvnTextPro,

Ngày đăng: 17/07/2022, 20:37

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w