- 16 - PHÂN LOẠIVĂNBẢNTIẾNGVIỆT Họ tên SV: Trần Mai Hạnh MSSV: SV0220102 Email: artoflife_vn@yahoo.com Giáo viên hướng dẫn: T.S Nguyễn Việt Hà Tóm tắt nội dung của khóa luận “Phân loạivănbảnTiếng Việt”. 1. Đặt vấn đề Cùng với sự gia tăng về số lượng văn bản, nhu cầu tìm kiếm vănbản cũng tăng theo. Với số lượng vănbản đồ sộ thì việc phân loạivănbản một cách tự động là một nhu cầu bức thiết. Việc phân loạivănbản sẽ giúp chúng ta tìm kiếm thông tin dễ dàng và nhanh chóng hơn rất nhiều so với việc phải bới tung mọi thứ trong ổ đĩa lưu trữ để tìm kiếm thông tin. Mặc khác, lượng thông tin ngày một tăng lên đáng kể, việc phân loạivănbản tự động sẽ giúp con người tiết kiệm được nhiề u thời gian và công sức. 2. Các phương pháp phân loạivănbảnTiếng Anh Trong những năm gần đây việc phân loạivănbản là một lĩnh vực được chú ý nhất. Để phân loại người ta sử dụng nhiều cách tiếp cận khác nhau như dựa trên từ khóa, dựa trên ngữ nghĩa các từ có số lần xuất hiện cao, mô hình Maximum Entropy, tập thô… Một số lượng lớn các văn bả n đã được áp dụng thành công trên ngôn ngữ này: mô hình hồi quy, phân loại dựa trên láng giềng gần nhất (k-nearest neighbours), phương pháp dựa trên xác xuất Naïve Bayes, cây quyết định, học luật quy nạp, mạng nơron (neural network), học trực tuyến, và máy vector hỗ trợ (SVM – support vector machine). Khi áp dụng với Tiếng Anh chúng cho những hiệu quả rất khác nhau. Việc đánh giá gặp rất nhiều khó khăn do việc thiếu các tập ngữ liệu huấn luyện chuẩn. Ngay cả với tập dữ liệu được sử dụng rộng rãi nhất, Rerter cũng có nhiều phiên bản khác nhau. Hơn nữa, đã có rất nhiều độ đo được sử dụng như recall, precision, accuracy hoặc error, break-even point, F- measure…Phần này giứoi thiệu các thuật toán phân loại được sử dụng rộng rãi nhất đồng thời so sánh giữa các phương pháp sử dụng kết quả của. Trong phần này em đưa ra chi tiết của các phương pháp phân loạivănbản Tiếng Anh bao gồm So sánh vănbản theo phương pháp TF/IDF - 17 - Máy hỗ trợ vector (Support vector Machine – SVM) K – Nearest Neighbor (kNN) Naïve Bayes (NB) Neural Network (Nnet) Linear Least Square Fit (LLSF) Centroid – based vector 3. Các phương pháp tách từ TiếngViệt hiện nay Trong phần này em đưa ra chi tiết cho các phương pháp tách từ TiếngViệt hiện nay. - Phương pháp Maximum matching: forwarrd/ backward. - Phương pháp quy hoạch động (dynamic programming). - Phương pháp tách từ TiếngViệt dựa trên thống kê từ Internet và thuật toán di truyền. - Mô hình tách từ bằng WFST và mạng Neural - Phương pháp giải thuật học cải tiến (Transformation based Learning – TBL) 4. Bài toán phân loạivănbảnTiếngViệt Xét bài toán phân loạivănbảnTiếng Việt, cho một vănbản bất kỹ hãy xác định chủ đề của vănbản đó dựa trên một tập gồm 200 văn bản. 5. Thực Nghiệm Phần này thể hiện những kết quả những đánh giá và so sánh của những cái đạt được tỉ lệ phần trăm đúng. 6. Tổng Kết Sau khi kết thúc khóa luận em đã có những kiến thức về các vấn đề liên quan đến phân loạivănbản như: các phương pháp phân loạivănbản Tiếng Anh, các phương pháp tách từ Tiếng Việt, và cách tiến hành đi vào làm công cụ phân loạivăn bản. Trong luận văn có sử dụng một số tài liệu quan trọng liên quan đến vấn đề phân loạivăn bản. Rút ra những kinh nghiệm của bản thân [1] Nguyễn Phương Thái, Kiểm lỗi Chính tả Cảm Ngữ cảnh Tiếng Việt, Luận văn thạc sĩ, Khoa Công nghệ, 2003. [12] Le An Ha, 2003. A method for word segmentation Vietnamese. Proceddings of Corpus Linguistics 2003, Lancaster, UK. . TBL) 4. Bài toán phân loại văn bản Tiếng Việt Xét bài toán phân loại văn bản Tiếng Việt, cho một văn bản bất kỹ hãy xác định chủ đề của văn bản đó dựa trên. đến phân loại văn bản như: các phương pháp phân loại văn bản Tiếng Anh, các phương pháp tách từ Tiếng Việt, và cách tiến hành đi vào làm công cụ phân loại