1. Trang chủ
  2. » Luận Văn - Báo Cáo

042_Phân loại văn bản tiếng Việt

2 801 7
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 2
Dung lượng 151,61 KB

Nội dung

- 16 - PHÂN LOẠI VĂN BẢN TIẾNG VIỆT Họ tên SV: Trần Mai Hạnh MSSV: SV0220102 Email: artoflife_vn@yahoo.com Giáo viên hướng dẫn: T.S Nguyễn Việt Hà Tóm tắt nội dung của khóa luận “Phân loại văn bản Tiếng Việt”. 1. Đặt vấn đề Cùng với sự gia tăng về số lượng văn bản, nhu cầu tìm kiếm văn bản cũng tăng theo. Với số lượng văn bản đồ sộ thì việc phân loại văn bản một cách tự động là một nhu cầu bức thiết. Việc phân loại văn bản sẽ giúp chúng ta tìm kiếm thông tin dễ dàng và nhanh chóng hơn rất nhiều so với việc phải bới tung mọi thứ trong ổ đĩa lưu trữ để tìm kiếm thông tin. Mặc khác, lượng thông tin ngày một tăng lên đáng kể, việc phân loại văn bản tự động sẽ giúp con người tiết kiệm được nhiề u thời gian và công sức. 2. Các phương pháp phân loại văn bản Tiếng Anh Trong những năm gần đây việc phân loại văn bản là một lĩnh vực được chú ý nhất. Để phân loại người ta sử dụng nhiều cách tiếp cận khác nhau như dựa trên từ khóa, dựa trên ngữ nghĩa các từ có số lần xuất hiện cao, mô hình Maximum Entropy, tập thô… Một số lượng lớn các văn bả n đã được áp dụng thành công trên ngôn ngữ này: mô hình hồi quy, phân loại dựa trên láng giềng gần nhất (k-nearest neighbours), phương pháp dựa trên xác xuất Naïve Bayes, cây quyết định, học luật quy nạp, mạng nơron (neural network), học trực tuyến, và máy vector hỗ trợ (SVM – support vector machine). Khi áp dụng với Tiếng Anh chúng cho những hiệu quả rất khác nhau. Việc đánh giá gặp rất nhiều khó khăn do việc thiếu các tập ngữ liệu huấn luyện chuẩn. Ngay cả với tập dữ liệu được sử dụng rộng rãi nhất, Rerter cũng có nhiều phiên bản khác nhau. Hơn nữa, đã có rất nhiều độ đo được sử dụng như recall, precision, accuracy hoặc error, break-even point, F- measure…Phần này giứoi thiệu các thuật toán phân loại được sử dụng rộng rãi nhất đồng thời so sánh giữa các phương pháp sử dụng kết quả của. Trong phần này em đưa ra chi tiết của các phương pháp phân loại văn bản Tiếng Anh bao gồm So sánh văn bản theo phương pháp TF/IDF - 17 - Máy hỗ trợ vector (Support vector Machine – SVM) K – Nearest Neighbor (kNN) Naïve Bayes (NB) Neural Network (Nnet) Linear Least Square Fit (LLSF) Centroid – based vector 3. Các phương pháp tách từ Tiếng Việt hiện nay Trong phần này em đưa ra chi tiết cho các phương pháp tách từ Tiếng Việt hiện nay. - Phương pháp Maximum matching: forwarrd/ backward. - Phương pháp quy hoạch động (dynamic programming). - Phương pháp tách từ Tiếng Việt dựa trên thống kê từ Internet và thuật toán di truyền. - Mô hình tách từ bằng WFST và mạng Neural - Phương pháp giải thuật học cải tiến (Transformation based Learning – TBL) 4. Bài toán phân loại văn bản Tiếng Việt Xét bài toán phân loại văn bản Tiếng Việt, cho một văn bản bất kỹ hãy xác định chủ đề của văn bản đó dựa trên một tập gồm 200 văn bản. 5. Thực Nghiệm Phần này thể hiện những kết quả những đánh giá và so sánh của những cái đạt được tỉ lệ phần trăm đúng. 6. Tổng Kết Sau khi kết thúc khóa luận em đã có những kiến thức về các vấn đề liên quan đến phân loại văn bản như: các phương pháp phân loại văn bản Tiếng Anh, các phương pháp tách từ Tiếng Việt, và cách tiến hành đi vào làm công cụ phân loại văn bản. Trong luận văn có sử dụng một số tài liệu quan trọng liên quan đến vấn đề phân loại văn bản. Rút ra những kinh nghiệm của bản thân [1] Nguyễn Phương Thái, Kiểm lỗi Chính tả Cảm Ngữ cảnh Tiếng Việt, Luận văn thạc sĩ, Khoa Công nghệ, 2003. [12] Le An Ha, 2003. A method for word segmentation Vietnamese. Proceddings of Corpus Linguistics 2003, Lancaster, UK. . TBL) 4. Bài toán phân loại văn bản Tiếng Việt Xét bài toán phân loại văn bản Tiếng Việt, cho một văn bản bất kỹ hãy xác định chủ đề của văn bản đó dựa trên. đến phân loại văn bản như: các phương pháp phân loại văn bản Tiếng Anh, các phương pháp tách từ Tiếng Việt, và cách tiến hành đi vào làm công cụ phân loại

Ngày đăng: 06/10/2013, 19:20

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w