Phân loại văn bản cho hệ thống thu thập tin tức tiếng việt

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI …………………………………… LUẬN VĂN THẠC SĨ KHOA HỌC NGÀNH: CÔNG NGHỆ THÔNG TIN PHÂN LOẠI VĂN BẢN CHO HỆ THỐNG THU THẬP TIN TỨC TIẾNG VIỆT BÙI MẠNH HOÀNG Người hướng dẫn khoa học: TS LÊ THANH HƯƠNG HÀ NỘI 2009 BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI …………………………………… BÙI MẠNH HOÀNG LUẬN VĂN THẠC SĨ KHOA HỌC PHÂN LOẠI VĂN BẢN CHO HỆ THỐNG THU THẬP TIN TỨC TIẾNG VIỆT NGÀNH CÔNG NGHỆ THÔNG TIN MÃ SỐ: Người hướng dẫn khoa học: TS LÊ THANH HƯƠNG HÀ NỘI - 2009 Phân loại văn cho hệ thống thu thập tin tức tiếng Việt MỤC LỤC MỤC LỤC DANH MỤC BẢNG DANH MỤC HÌNH MỞ ĐẦU CHƯƠNG I TỔNG QUAN VỀ KHAI PHÁ VĂN BẢN 1.1 Khai phá liệu văn (Text mining) 1.2 Các bước khai phá liệu văn 10 1.2.1 Tiền xử lý văn 10 1.2.2 Khai phá văn bản/dữ liệu 10 1.2.3 Ứng dụng kết khai phá liệu văn thực tiễn 11 1.3 Bài toán phân loại văn (Text categorization) 11 1.3.1 Bài toán phân loại văn 11 Hình 1.1: Các cơng việc phân loại văn 14 1.3.2 Một số phương pháp phân loại văn 16 1.4 Kết chương 18 CHƯƠNG II 19 TÁCH TỪ VÀ BIỂU DIỄN VĂN BẢN TIẾNG VIỆT 19 2.1 Một số phương pháp tách từ văn tiếng Việt 19 2.1.1 Các đặc trưng văn 19 2.1.2 Một số đặc trưng tiếng Việt 20 2.1.3 Một số phương pháp tách từ 26 Hình 2.2 Phương pháp xây dựng ơtơmát âm tiết 28 Hình 2.4: Một tình nhập nhằng 30 Hình 2.6: Một ví dụ đồ thị mơ hình HMM bậc 36 2.2 Phương pháp biểu diễn văn 40 2.2.1 Các kỹ thuật trích chọn đặc trưng văn 41 2.2.2 Một số phương pháp biểu diễn văn mơ hình khơng gian vector 46 Bùi Mạnh Hoàng Luận văn Thạc sĩ Phân loại văn cho hệ thống thu thập tin tức tiếng Việt 2.3 Kết chương 50 CHƯƠNG III 51 MỘT SỐ PHƯƠNG PHÁP 51 PHÂN LOẠI VĂN BẢN TRUYỀN THỐNG 51 3.1 Cây định 51 3.1.1 Thuật toán ID3 54 3.1.2 Cách lựa chọn thuộc tính tốt 55 3.1.3 Hiện tượng vượt ngưỡng 57 3.2 K-láng giềng gần (K-Nearest Neighbor) 58 3.2.1 Gán nhãn văn gần 59 3.2.2 Gán nhãn theo số đông 60 3.2.3 Gán nhãn theo độ phù hợp chủ đề 61 3.3 Kết chương 62 CHƯƠNG IV 64 PHƯƠNG PHÁP PHÂN LOẠI VĂN BẢN 64 SUPPORT VECTOR MACHINES 64 4.1 Lý thuyết học thống kê 64 4.1.1 Chiều VC (Vapnik Chervonenkis dimension) 64 4.1.2 Rủi ro tốn học phân loại có giám sát 65 4.1.3 Rủi ro thực nghiệm 66 4.1.4 Nguyên tắc tối thiểu rủi ro cấu trúc 67 4.1.5 Định lý 4.1 68 4.2 Support Vector Machines 68 4.3 Phương pháp giải toán QP 78 4.3.1 Thuật toán tối ưu 78 4.3.2 Thuật toán khởi tạo biến α i0 81 4.4 Đánh giá : 82 4.5 Kết chương 84 CHƯƠNG V 85 CHƯƠNG TRÌNH VÀ KẾT QUẢ THỰC NGHIỆM 85 5.1 Xây dựng hệ thống tống hợp tin tức tự động 85 5.1.1 Đặt vấn đề 85 Bùi Mạnh Hoàng Luận văn Thạc sĩ Phân loại văn cho hệ thống thu thập tin tức tiếng Việt 5.1.2 Mơ hình hệ thống: 86 5.2 Xây dựng hệ thống 86 5.2.1 Ngôn ngữ cài đặt chương trình 86 5.2.2 Thu thập tin tức từ site: 86 5.2.3 Xây dựng lọc trích rút thơng tin: 88 5.2.4 Chương trình hiển thị 92 5.2.5 Kết xây dựng 92 5.3 Kết thực nghiệm việc phân loại văn 94 5.4 Kết luận 99 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN CỦA LUẬN VĂN 100 6.1 Kết luận 100 6.2 Hướng phát triển luận văn 101 TÀI LIỆU THAM KHẢO 103 Bùi Mạnh Hoàng Luận văn Thạc sĩ Phân loại văn cho hệ thống thu thập tin tức tiếng Việt DANH MỤC BẢNG Bảng 2.1 Thông tin tập huấn luyện mơ hình ………………………… 38 Bảng 2.2 Kết đánh giá độ xác mơ hình Markov ẩn ………… 38 Bảng 2.3 Một số từ dừng văn tiếng Việt …………………………… 42 Bảng 2.4 Một số hàm tính tốn giá trị thơng tin từ phân loại ……46 Bảng 3.1 Biểu diễn văn vector nhị phân …………………………… 54 Bảng 3.2 Ví dụ độ tương tự văn chủ đề …………………… 62 Bảng 3.3 Ví dụ độ tương tự văn chủ đề …………………… 63 Bảng 3.4 Ví dụ độ tương tự văn chủ đề …………………… 63 Bảng 3.5 Ví dụ độ tương tự văn chủ đề …………………… 64 Bùi Mạnh Hoàng Luận văn Thạc sĩ Phân loại văn cho hệ thống thu thập tin tức tiếng Việt DANH MỤC HÌNH Hình 2.1 Sơ đồ chuyển trạng thái ký tự …………………… 29 Hình 2.2 Phương pháp xây dựng ôtômát âm tiết …………………………… 29 Hình 2.3 Phương pháp xây dựng ơtơmát từ ………………………………… 30 Hình 2.4 Một tình nhập nhằng ……………………………………… 31 Hình 2.5 Một ví dụ đồ thị HMM bậc ……… ……………………… 36 Hình 2.6 Một ví dụ đồ thị HMM bặc ……… ……………………… 37 Hình 3.1 Xây dựng định cho tập mẫu dùng để huấn luyện …… 55 Hình 3.2 Quá trình tìm kiếm lời giải định …… …………… 56 Hình 4.1 Minh họa chiều VC tập hàm {f(x)} không gian chiều 67 Hình 4.2 Siêu phẳng phân chia tập mẫu huấn luyện ……… ……………… 71 Hình 4.3 Siêu phẳng phân chia liệu ràng buộc ………………… 72 Hình 4.4 Trường hợp liệu có nhiễu ……… ……………………………… 76 Bùi Mạnh Hoàng Luận văn Thạc sĩ Phân loại văn cho hệ thống thu thập tin tức tiếng Việt MỞ ĐẦU Trong năm gần phân loại văn trở thành kỹ thuật then chốt để tổ chức thơng tin trực tuyến Nó sử dụng để tổ chức sở liệu văn bản, lọc thư điện tử, tìm kiếm thơng tin quan tâm Web, để dẫn người dùng tìm kiếm thơng tin qua siêu văn (hypertext) Mà đó, việc phân loại văn tay thực được, thực với chi phí tốn Do đó, với phát triển thông tin trực tuyến, yêu cầu cấp thiết đặt cần phải xây dựng hệ thống phân loại văn tự động Cho đến nay, có nhiều đề xuất xây dựng tốn phân loại văn tự động Neive Bayes, Bayes net, k-láng giềng gần nhất, định, mạng nơron, Support Vector Machines, … Các phương pháp phân loại này, đạt thành công đáng kể văn tiếng Anh, Pháp, Nhật, Trung Quốc, ứng dụng thực tế hệ tìm tin Yahoo, Altavista, Google, … Trong đó, Support Vector Machines cách tiếp cận cho độ xác phân loại văn cao hẳn phương pháp phân loại khác Ở Việt Nam, có nhiều nghiên cứu lĩnh vực xử lý văn tiếng Việt, đề tài nghiên cứu Máy dịch tự động Anh – Việt (EVTRan) viện nghiên cứu ứng dụng công nghệ; đề tài nhận dạng, xử lý tiếng Việt VnDoc Viện Công nghệ thông tin, nhiều luận văn tốt nghiệp cao học đại học khác Nhưng nghiên cứu phân loại văn tiếng Việt chưa nhiều, kết hạn chế Bởi vậy, luận văn chúng tơi tập trung nghiên cứu tốn phân loại văn tiếng Việt dựa cách tiếp cận Support Vector Machines Bùi Mạnh Hoàng Luận văn Thạc sĩ Phân loại văn cho hệ thống thu thập tin tức tiếng Việt Một vấn đề liên quan mật thiết đến tốc độ xử lý độ xác trình phân loại số chiều vector biểu diễn văn Nếu dùng toàn từ từ điển làm đặc trưng để biểu diễn văn văn tiếng Việt biểu diễn vector có 70 nghìn chiều (tương đương với số từ từ điển tiếng Việt) 70 nghìn số q lớn mà có tới hàng triệu văn cần xử lý trình phân loại Để tăng tốc độ xử lý độ xác kết phân loại văn bản, luận văn chúng tơi trình bày phương pháp lựa chọn từ đặc trưng để biểu diễn văn tiếng Việt Cuối cùng, xây dựng chương trình thực nghiệm nhằm đánh giá hiệu phương pháp Support Vector Machines toán phân loại văn tiếng Việt Nội dung luận văn bao gồm chương: - Chương I: Trình bày tổng quan khai phá liệu văn toán phân loại văn - Chương II: Trình bày vấn đề qúa trình tiền xử lý văn tiếng Việt (tách từ, lựa chọn đặc trưng, biểu diễn văn bản) Và đề xuất phương pháp lựa chọn từ đặc trưng - Chương III: Một số phương pháp phân loại văn truyền thống - Chương IV: Phương pháp phân loại văn dựa cách tiếp cận Support Vector Machines - Chương V: Chương trình kết thực nghiệm - Chương VI: Kết luận hướng phát triển luận văn Bùi Mạnh Hoàng Luận văn Thạc sĩ Phân loại văn cho hệ thống thu thập tin tức tiếng Việt CHƯƠNG I TỔNG QUAN VỀ KHAI PHÁ VĂN BẢN Mục đích chương giới thiệu cách tóm tắt vấn đề khai phá liệu văn bản, toán phân loại văn  Khai phá liệu văn gì?  Các bước để xây dựng toán khai phá liệu văn  Bài toán phân loại văn 1.1 Khai phá liệu văn (Text mining) Văn dạng liệu phổ biến nhất, nay, có mặt khắp nơi thường xuyên bắt gặp hàng ngày Do đó, tốn xử lý văn đặt từ lâu vấn đề hay khai phá liệu văn (text), có tốn đáng ý tìm kiếm văn bản, phân loại văn bản, phân cụm văn bản, dẫn đường văn bản, Các văn tập hợp sở liệu văn chia làm hai loại: - Dạng khơng có cấu trúc (unstructured): Những văn thơng thường mà thường đọc hàng ngày thể dạng ngôn ngữ tự nhiên người khơng có cấu trúc định dạng - Dạng bán cấu trúc (semi-structured): Những văn tổ chức dạng cấu trúc không chặt chẽ thành ghi mà dùng kí hiệu đánh dấu văn thể nội dung văn bản, ví dụ dạng HTML, email, Trong luận văn này, quan tâm xử lý liệu văn dạng phi cấu trúc (biểu diễn dạng tập tin TXT), toán giải theo Bùi Mạnh Hoàng Luận văn Thạc sĩ Phân loại văn cho hệ thống thu thập tin tức tiếng Việt Giao diện TextPipe dùng xây dựng lọc Các phần tin bóc tách sau sử dụng lọc Bùi Mạnh Hoàng 91 Luận văn Thạc sĩ Phân loại văn cho hệ thống thu thập tin tức tiếng Việt 1.1.1 Chương trình quản lý: Chương trình quản lý bao gồm nhiệm vụ lưu trữ tin tức vào sở liệu đồng thời quản lý tiến trình từ thu thập đến lưu vào sở liệu cách tự động, tuần hoàn liên tục Chương trình quản lý sử dụng lời gọi hàm từ dịng lệnh để tự động q trình thu thập xử lý tin tức từ nguồn tin Do hạn chế thời gian, việc phân loại thơng tin chưa thực Giao diện chương trình quản lý trình thu thập xử lý tin tức từ nguồn 5.2.4 Chương trình hiển thị Thực việc hiển thị tin lưu vào sở liệu lên Chương trình xây dựng dạng website để đưa tin tức tới người đọc 5.2.5 Kết xây dựng Hệ thống sử dụng chạy thử để tổng hợp tin tức từ website tin tức tổng hợp chuyên đề lớn Việt Nam như: http://vietnamnet.vn, http://vnexpress.net, Bùi Mạnh Hoàng http://dantri.com.vn, 92 http://www.laodong.com.vn, Luận văn Thạc sĩ Phân loại văn cho hệ thống thu thập tin tức tiếng Việt www.tuoitre.com.vn, www.thanhnien.com.vn, http://quantrimang.com.vn/, http://lanhdao.net Ưu điểm: - Thông tin tổng hợp từ nhiều nguồn khác với định dạng khác - Sử dụng chương trình quản lý hệ thống cho phép thông tin cập nhật liên tục với trang nguồn - Thông tin thu thập lưu trữ dùng cho cho dịch vụ cung cấp phân tích, xử lý thơng tin khác Một số hạn chế: - Chưa có module phân loại thông tin - Các lọc phải cập nhật nguồn tin thay đổi hệ quản trị nội dung Bùi Mạnh Hoàng 93 Luận văn Thạc sĩ Phân loại văn cho hệ thống thu thập tin tức tiếng Việt 5.3 Kết thực nghiệm việc phân loại văn Chúng tơi thực thí nghiệm ứng dụng SVM vào phân loại văn tiếng Việt Tập tài liệu mẫu sử dụng gồm 4162 tài liệu lấy từ trang http://vnexpress.net (bảng 1) Tập tài liệu chia thành hai phần: 50% dùng làm tập tài liệu huấn luyện, 50% dùng làm tập tài liệu kiểm thử Việc lựa chọn văn để kiểm thử thuật toán dựa vào giả thiết sau: − Các tài liệu phân lớp thành phân nhóm tách tế, tài liệu biệt Trên thực Vnexpress.net phân loại khơng xác Các phân lớp tài liệu có giao thoa tài liệu thuộc phân lớp có đặc trưng thuộc phân lớp khác − Sự phân bố tài liệu phân nhóm khơng ảnh hưởng tới phân bố tài liệu phân nhóm khác Giả thiết đặt để chuyển toán phân loại nhiều phân lớp thành toán phân loại hai phân lớp Bộ phân loại SVM huấn luyện tập tài liệu huấn luyện hiệu suất tổng qt hóa (độ xác) đánh giá tập tài liệu kiểm thử (tập tài liệu kiểm thử khơng tham gia vào q trình huấn luyện, cho phép đánh giá khách quan hiệu suất tổng qt hóa) Bùi Mạnh Hồng 94 Luận văn Thạc sĩ Phân loại văn cho hệ thống thu thập tin tức tiếng Việt Bảng Tập tài liệu mẫu dùng thí nghiệmphân loại văn tiếng Việt Loại tài liệu Huấn luyện Kiểm thử Âm nhạc 119 119 Ẩm thực 109 109 Bất động sản 119 119 Gia đình 85 86 Giáo dục 165 166 Hội họa 111 112 Khảo cổ 45 45 Khoa học 119 118 Kinh doanh 193 194 Pháp luật 155 154 Phim ảnh 117 117 Sức khỏe 109 108 Tâm lý 47 46 Thế giới 85 85 Thể thao 257 256 Thời trang 107 106 Vi tính 140 140 Đối với việc tiền xử lý tài liệu, sử dụng từ tiếng Việt gồm 11.210 từ Sở dĩ phải sử dụng từ điển từ đặc điểm khác biệt tiếng Việt so với tiếng Anh phương diện từ vựng Các từ tiếng Anh ngăn cách cách, dấu câu Do việc xác định ranh giới từ câu văn tiếng Anh dựa hồn tồn vào dấu ngắt từ Trong đó, việc xác định ranh giới từ câu tiếng Việt khó khăn không hiểu ngữ nghĩa từ nghữ cảnh ngữ nghĩa câu Ví dụ, từ “phản” từ “động” từ độc lập có ý nghĩa đứng riêng lẻ Tuy chúng đứng cạnh tạo thành từ ghép “phản động” từ độc lập có ý nghĩa khác tùy theo ngữ cảnh Như để tìm ranh giới từ câu tiếng Việt, khơng thể dựa vào dấu ngắt từ nhưn dấu cách thơng thường Để làm đơn giản hóa vấn đề nay, sử dụng từ tiếng Việt để hỗ trợ trình phân tách từ Bước tiền xử lý đếm số lần xuất từ tài liệu Vì từ tiếng Việt bao (như “áo” “áo sơ mi”), từ Bùi Mạnh Hoàng 95 Luận văn Thạc sĩ Phân loại văn cho hệ thống thu thập tin tức tiếng Việt dài (theo số âm tiết) tách trước Những từ không xuất lần (trong tập tài liệu huấn luyện) bị loại bỏ, kết lại 7721 từ Để thử nghiệm với số đặc trưng khác nhau, 100 từ có tần suất cao từ xuất lần bị loại bỏ, thu 5709 từ; sau đó, phương pháp lượng tin tương hỗ sử dụng để chọn 5000, 4000, 3000, 2000 1000 từ Với số đặc trưng chọn, tài liệu biểu diễn dạng vector thưa dùng cách định trọng số từ TFIDF Mỗi vector thưa gồm hai mảng: mảng số nguyên lưu số giá trị khác 0, mảng số thực lưu giá trị khác tương ứng Sở dĩ dùng vector thưa số từ xuất tài liệu nhỏ so với tổng số từ sử dụng; điều mặt tiết kiệm nhớ, mặt khác làm tăng tốc độ tính tốn lên đáng kể Các vector tỷ lệ cho thành phần nằm khoảng [0, 1], qua giúp tránh việc thành phần có giá trị lớn lấn át thành phần có giá trị nhỏ, tránh khó khăn tính tốn với giá trị lớn Để thực phân loại văn phương pháp SVM, sử dụng phần mềm LIBSVM 2.71 với công cụ grid.py cho phép chọn tham số tối ưu cho giải thuật SVM với nhân Gaussian Điều thực cách chia tập tài liệu huấn luyện thành v phần nhau, phần kiểm thử phân loại huấn luyện v – phần lại Độ xác ứng với giá trị tham số (C γ) tính tỷ lệ tài liệu tậptài liệu huấn luyện dự đoán Chú ý hồn tồn khơng có tham gia tài liệu tập tài liệu kiểm thử Sau chọn tham số C γ tối ưu, phân loại SVM huấn luyện toàn tập tài liệu huấn luyện, độ xác đánh giá cách thực phân loại tập tài liệu kiểm thử LIBSVM thực phân loại đa lớp (trong trường hợp báo 17 lớp) theo kiểu “mộtđấu-một” (one-against-one), nghĩa với hai lớp huấn luyện Bùi Mạnh Hồng 96 Luận văn Thạc sĩ Phân loại văn cho hệ thống thu thập tin tức tiếng Việt phân loại, kết có tổng cộng k(k – 1)/2 phân loại, với k số lớp Đối với hai lớp thứ i thứ j, tài liệu chưa biết x phân loại phân loại huấn luyện hai lớp Nếu x xác định thuộc lớp i điểm số cho lớp i tăng lên 1, ngược lại điểm số cho lớp j tăng lên Ta dự đốn x nằm lớp có điểm số cao Trong trường hợp có hai lớp điểm số này, ta đơn giản chọn lớp có số thứ tự nhỏ Trở lại thí nghiệm, tham số tối ưu tìm số 110 giá trị (C, γ) thử nghiệm (với C = 2-5, 2-3, , 215, γ = 23, 21, , 2-15) Kết chọn tham số đưa bảng Từ bảng 2, ta thấy tham số tốt 7721 đặc trưng, C = 215 γ = 2-13 Như vậy, trường hợp thí nghiệm này, phương pháp chọn đặc trưng không đem lại kết mong muốn – chúng làm giảm độ xác Với tham số trên, phân loại SVM huấn luyện toàn tập tài liệu huấn luyện, sau độ xác đánh giá tập tài liệu kiểm thử, cho kết bảng Bảng Các tham số tối ưu tương ứng với số lượng đặc trưng Số đặc trưng 7721 5709 5000 4000 3000 2000 1000 (C, γ) tốt (215, 2-13) (213, 2-11) (211, 2-11) (25, 2-5) (25, 2-5) (2 7, 2-5 ) (23, 2-3) Độ xác (%) 82,90 82,04 80,40 78,58 78,34 73,87 71,57 Bảng Độ xác phân loại lớp toàn tập tài liệu kiểm thử Loại tài liệu Âm nhạc Ẩm thực Bất động sản Gia đình Bùi Mạnh Hồng Độ xác (%) 72,27 93,58 94,12 72,09 97 Luận văn Thạc sĩ Phân loại văn cho hệ thống thu thập tin tức tiếng Việt Giáo dục Hội họa Khảo cổ Khoa học Kinh doanh Pháp luật Phim ảnh Sức khỏe Tâm lý Thế giới Thể thao Thời trang Vi tính Tất 79,52 82,14 51,11 65,25 83,51 94,81 66,67 78,70 39,13 71,76 98,05 76,42 79,29 80,72 Trong bảng 3, độ xác tất lớp tài liệu 80,72% tính tỷ số số tài liệu dự đoán tổng số tài liệu tập tài liệu kiểm thử Hình đồ thị minh họa cho trường hợp phân loại SVM huấn luyện hai lớp tài liệu gia đình giáo dục Hình 2a cho thấy phân bố điểm liệu huấn luyện, cịn hình 2b cho thấy phân bố điểm liệu kiểm thử Ta nhận thấy khơng có lỗi vị trí hình 2a, lại có vài lỗi vị trí hình 2b Trong trường hợp này, máy học SVM học xác tập tài liệu huấn luyện (khả tách tuyến tính) mắc phải vài sai sót dự đoán tài liệu chưa biết (các tài liệu kiểm thử) Những kết thực nghiệm thí nghiệm phân loại văn tiếng Việt phân loại SVM có độ xác chưa cao (khoảng 80,72%) Điều q trình tiền xử lý văn liệu huấn luyện với liệu thử nghiệm phân loại chưa xác Thật liệu thu thập Vnexpress.net không phân loại chuẩn Một văn bản, ví dụ thuộc lĩnh vực “Bất động sản” hồn tồn thuộc lĩnh vực “Kinh doanh” Như phân lớp văn mẫu thực tế không hồn tồn phân tách tuyến tính mà có vùng Bùi Mạnh Hoàng Luận văn Thạc sĩ Phân loại văn cho hệ thống thu thập tin tức tiếng Việt không gian mập mờ Điều ảnh hưởng mạnh đến trình huấn luyện phân loại 5.4 Kết luận Trong chương này, khảo sát hiệu phương pháp phân loại SVM Đây phân loại có khả tự động điều chỉnh tham số để tối ưu hóa hiệu suất phân loại chí khơng gian đặc trưng có số chiều cao Bộ phân loại SVM tỏ phù hợp cho phân loại văn Trong thử nghiệm với toán phân loại văn tiếng Việt, độ xác phân loại 80,72% chấp nhận điều kiện thực tế Hiện tại, tiếp tục nghiên cứu cải tiến khâu tiền xử lý văn bản, xây dựng mẫu huấn luyện tiêu chuẩn điều chỉnh giải thuật SVM để nâng cao Bùi Mạnh Hồng độ xác 99 phân loại Luận văn Thạc sĩ Phân loại văn cho hệ thống thu thập tin tức tiếng Việt CHƯƠNG VI KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN CỦA LUẬN VĂN 6.1 Kết luận Trong luận văn chúng tơi trình bày bước cần thực để xây dựng hệ thống phân loại văn Nghiên cứu phương pháp phân loại văn dựa cách tiếp cận Support Vector Machines Và số đề xuất để cải tiến hiệu phương pháp phân loại văn Xây dựng chương trình phân loại văn tiếng Việt sử dụng phương pháp Support Vector Machines Cụ thể: Chúng tơi trình bày phương pháp tách từ văn tiếng Việt, bước trích chọn đặc trưng để biểu diễn văn bản, làm để lựa chọn từ đặc trưng tốt Với phương pháp Support Vector Machines trình bày chi tiết mơ thuật tốn để xây dựng chương trình phân loại văn Đồng thời đưa số đánh giá phương pháp Support Vector Machines, so sánh độ xác phân loại văn với số phương pháp khác Chúng đề xuất phương pháp lựa chọn từ đặc trưng để biểu diễn văn tiếng Việt nhằm tăng tốc độ xử lý, tăng độ xác thực phân loại văn Kết thực nghiệm cho thấy phương có khả lựa chọn đặc trưng tốt để biểu diễn văn bản, giảm đáng kể số chiều để biểu diễn văn mà không gây mát thơng tin, chí cịn tăng độ xác thực phân loại văn Chúng đưa phương pháp xây dựng hệ thống phân loại văn dựa cách tiếp cận Support Vector Machines Với phương pháp này, thời gian để đưa định phân loại không đáng kể, Bùi Mạnh Hoàng 100 Luận văn Thạc sĩ Phân loại văn cho hệ thống thu thập tin tức tiếng Việt nhiều thời gian để huấn luyện Tuy nhiên, cần huấn luyện lần để đưa tham số huấn luyện, mà thực phân loại nhiều lần với nhiều văn khác Bởi vậy, tối ưu tổng thời gian gian phân loại văn Cuối cùng, chúng tơi xây dựng chương trình thực nghiệm để kiểm nghiệm đánh giá hiệu phương pháp phân loại văn Support Vector Machines văn tiếng Việt Chúng thực thử nghiệm chương trình nhiều lần với nhiều liệu khác Với liệu thực nghiệm gồm 1000 văn (700 văn huấn luyện 300 văn kiểm tra), độ xác chương trình phân loại đạt 90% Kết cho thấy chương trình phân loại văn chúng tơi, có khả phân loại văn với độ xác cao 6.2 Hướng phát triển luận văn Hoàn thiện chương trình phân loại văn chương V để sử dụng vào thực tiễn phân loại văn tự động quan hành nhà nước, tự động phân loại, tổ chức tìm kiếm thông tin tiếng Việt Web, … Trong văn nói chung văn tiếng Việt nói riêng xuất nhiều từ đồng nghĩa từ gần nghĩa, có cách để đánh giá độ tương tự giá trị thông tin từ hiệu phân loại văn cao Bởi vậy, hướng nghiên cứu luận văn nghiên cứu phương pháp đánh giá độ tương tự giá trị thông tin từ đồng nghĩa, từ gần nghĩa để áp dụng cho toán phân loại văn Sử dụng kết phân loại văn để nghiên cứu toán khai phá văn khác như: tóm tắt văn bản, dịch tự động văn bản, … Bùi Mạnh Hoàng 101 Luận văn Thạc sĩ Phân loại văn cho hệ thống thu thập tin tức tiếng Việt Xung quanh toán phân loại văn nói riêng khai phá liệu văn nói chung cịn nhiều vấn đề chưa giải giải chưa triệt để Luận văn bước khởi đầu để tác giả làm quen nghiên cứu toán khai phá liệu văn bản, đặc biệt văn tiếng Việt Tác giả mong muốn cộng tác với người quan tâm lĩnh vực để nghiên cứu giải toán khai phá liệu văn tiếng Việt Bùi Mạnh Hoàng 102 Luận văn Thạc sĩ Phân loại văn cho hệ thống thu thập tin tức tiếng Việt TÀI LIỆU THAM KHẢO [1] Bộ Giáo dục Đào tạo, Tiếng Việt 6, 7, 8, 9, nhà Xuất Giáo dục, 1999 [2] Lê Thanh Hương, Phân tích cú pháp, luận văn thạc sĩ, đại học Bách Khoa Hà Nội, 1999 [3] Đồn Sơn, Luận văn Thạc Sĩ, khoa Cơng nghệ thông tin, đại học Quốc Gia Hà Nội, 2002 [4] Hà Huy Thái, Chuẩn mực hóa cơng thức hóa cấu trúc câu văn, nhà xuất Văn hóa Thơng tin, 2001 [5] Nguyễn Phương Thái, Nguyễn Văn Vinh, Lê Anh Cường, Một phương pháp phân đoạn từ tiếng Việt sử dụng mơ hình Markov ẩn, khoa Cơng Nghệ, đại học Quốc Gia Hà Nội, 2003 [6] Nguyễn Lê Vinh, Tìm hiểu giải số vấn đề xử lý văn tiếng Việt, đồ án tốt nghiệp, đại học Bách Khoa Hà Nội, 2003 [7] Achim Hoffmann, VC learning theory and support vector machines, School of Computer Science and Engineering university of New South Wales Sydney, Australia, 2002 [8] Alexander J.Smola, Peter L.Bartlett, Bernhard Schölkopf, Dale Schurmans, Advances in Large Margin Classifiers, the MIT Press Cambridge, Massachusetts London, England, 2000 [9] Andrew W.More, VC-dimension for characterizing classifiers, school of Computer Science Carnegie Mellon University, 2001 [10] Bernhard Schölkopf, Alex J.Smola, Robert Williamson, Peter Bartlett, New Support Vector Algorithms, Neuro COLT2 Technical Report Series, NC2_TR-1998-031, 1998 Bùi Mạnh Hoàng 103 Luận văn Thạc sĩ Phân loại văn cho hệ thống thu thập tin tức tiếng Việt [11] Chih-Chung Chang, Chih-Jen Lin, Train v-Support Vector Classifiers: Theory and Algorithms, Manuscript Number: 2187 [12] Chih-Chung Chang, Chih-Jen Lin, LIBSVM: a Library for Support Vector Machines, 2004 [13] Chih-Chung Chang, Chih-Jen Lin, Training v-Support Vector Classifiers: Theory and Algorithms, Manuscript Number: 2187 [14] Fabrizio Sebastiani, Machines Learning in Automated Text Categorixation, ACM.Computing Surveys, Vol.34, No.1, 2002 [15] Francisco Borges, Support Vector Machines, Alfa-Informatica-RuG, 2004 [16] Jhorsten Joachims, Text Categorixation with Support Vector Machines: Learning with Many Relevant Features, LS-8 Report 23, 1998 [17] George Forman, An Extensive Emprical Study of Feature Selection Metrics for text classification, Intelligent Enterprise Technology Laboratory, HP Laboratories Palo Alto, HPL-2002-147(R.1), 2002 [18] Hal Duamé III, Support Vector Machines for Natural Language Processin, CSCI 544-Notes to Accompany the Lecture, 2004 [19] Hong-Gunn Chew, implementation of Cheng-Chew training Lim, dual-nu Robert support E.Bogner, vector an machines, Optimization and control with application, 2003 [20] M.O Stitson, J.A.E.Weston, A.Gammerman, V.Vovk, V.Vapnik, Theory of Support Vector Machines, Technical Report CSD-TR-96-17, 1996 [21] Pai-Hsuen Chen, Chih-Jen Lin, Berhard Schölkopf, A Tutorial on vSupport Vector Machines, 2001 Bùi Mạnh Hoàng 104 Luận văn Thạc sĩ Phân loại văn cho hệ thống thu thập tin tức tiếng Việt [22] Stive R.Gunn, Support Vector Machines for classification and Regression, Technical Report Faculty of Engineering Science and Mathematics, School of Electronics and Computer Science, 1998 [23] Vladimir N.Vapnik, Staticstical Learning Theory, the United States of America, 1998 [24] Wei-Chun Kao, Kai-Min Chung, Chia-Liang Sun, Chih-Jen Lin, Decompositon Methods for Linear Support Vector Machines, Manuscript Number: 2752 Bùi Mạnh Hoàng 105 Luận văn Thạc sĩ ... phân loại văn tiếng Việt Bùi Mạnh Hoàng 18 Luận văn Thạc sĩ Phân loại văn cho hệ thống thu thập tin tức tiếng Việt CHƯƠNG II TÁCH TỪ VÀ BIỂU DIỄN VĂN BẢN TIẾNG VIỆT Để máy tính tự động phân loại. .. LUẬN VĂN THẠC SĨ KHOA HỌC PHÂN LOẠI VĂN BẢN CHO HỆ THỐNG THU THẬP TIN TỨC TIẾNG VIỆT NGÀNH CÔNG NGHỆ THÔNG TIN MÃ SỐ: Người hướng dẫn khoa học: TS LÊ THANH HƯƠNG HÀ NỘI - 2009 Phân loại văn cho hệ. .. văn Thạc sĩ Phân loại văn cho hệ thống thu thập tin tức tiếng Việt Trong đó, m số lượng văn bản, hi số văn có chứa thu? ??t ngữ ti Trọng số wij công thức cho ta biết độ quan trọng thu? ??t ngữ ti văn

Định dạng
Số trang	107
Dung lượng	2,08 MB