Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 50 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
50
Dung lượng
843,4 KB
Nội dung
ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Nguyễn Thị Thuỳ Linh PHÂN LỚP TÀI LIỆU WEB ĐỘC LẬP NGƠN NGỮ KHỐ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY Ngành: Cơng nghệ thơng tin Cán hướng dẫn: NCS Phan Xuân Hiếu Cán đồng hướng dẫn: TS Hà Quang Thuỵ HÀ NỘI – 2006 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com LỜI CẢM ƠN Em xin gửi lời cảm ơn chân thành biết ơn sâu sắc tới Tiến sĩ Hà Quang Thuỵ (Trường Đại học Công Nghệ) Nghiên cứu sinh Phan Xuân Hiếu (Japan Advanced Institute of Science and Technology) bảo hướng dẫn tận tình cho tơi suốt trình nghiên cứu Khoa học trình thực khoá luận Em xin gửi lời cảm ơn biết ơn sâu sắc tới thày, cô dạy dỗ em suốt trình học tập trường Đại học Công Nghệ Những kiến thức thày, cô dạy hành trang để vững bước vào đời Em xin chân thành cảm ơn thày, cô, anh, chị Bộ môn Các hệ thống thông tin tạo điều kiện, giúp đỡ động viên tinh thần cho em q trình làm khố luận Tôi xin gửi lời cảm ơn tới bạn sinh viên nhóm seminar “Khai phá liệu khám phá tri thức” ủng hộ khuyến khích tơi q trình nghiên cứu làm khố luận Và cuối cùng, xin gửi lời cảm ơn biết ơn vô hạn tới bố, mẹ, cảm ơn em trai tôi, người thân yêu tôi, nuôi nấng, dạy dỗ động viên, làm chỗ dựa tinh thần cho sống học tập làm việc Xin chân thành cảm ơn! Hà Nội, ngày 25 tháng 05 năm 2006 Sinh viên Nguyễn Thị Thuỳ Linh LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com TÓM TẮT NỘI DUNG Phân lớp văn toán quan trọng lĩnh vực xử lý ngôn ngữ tự nhiên Nó có ứng dụng nhiều tốn thực tế ví dụ như: ứng dụng lọc nội dung văn (lọc thư rác, lọc trang web có nội dung phản động, trang web có nội dung khơng lành mạnh,…), tốn phân lớp văn sau tìm kiếm,… Hiện có nhiều phân lớp đạt độ xác cao (đều xấp xỉ 90%), nhiên phân lớp hầu hết áp dụng cho ngôn ngữ cụ thể Thực tế cho thấy, toán lọc nội dung trang Web vấn đề đặt phải xử lý nhiều ngôn ngữ khác Một hướng nghiên cứu phân lớp văn quan tâm gần phân lớp đa ngơn ngữ [7] Khố luận nghiên cứu đề xuất phương pháp phân lớp nội dung Web độc lập ngôn ngữ Phương pháp cho phép tích hợp thêm ngơn ngữ vào phân lớp giải vấn đề bùng nổ đặc trưng thông qua hướng tiếp cận entropy cực đại sử dụng chiến lược tối ưu hoá hàm nhiều biến hiệu Các kết thực nghiệm cho thấy hướng tiếp cận khoá luận khả quan, cụ thể, huấn luyện riêng biệt ngôn ngữ nhận kết cao (Anh 98%, Việt 91%), cịn có kết hợp hai ngôn ngữ kết đạt khả quan (Anh-Việt xấp xỉ 95%) Đặc biệt cho mơ hình kiểm tra tập liệu hoàn toàn kết khả quan (độ xác Anh-Việt xấp xỉ 84%) Bên cạnh đó, khố luận phân tích vấn đề tốn phân lớp văn độc lập ngơn ngữ nhập nhằng ngơn ngữ bùng nổ đặc trưng, sau đưa phương pháp khắc phục hiệu Một đề xuất mà khố luận đưa mơ hình dựa phân lớp thơng minh Đề xuất có nhiều triển vọng cho ứng dụng nhỏ cần phân loại văn nhận diện ngôn ngữ i LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com MỤC LỤC LỜI CẢM ƠN i TÓM TẮT NỘI DUNG i MỤC LỤC ii BẢNG KÍ HIỆU VIẾT TẮT iv DANH MỤC BẢNG SỐ LIỆU .v DANH MỤC HÌNH ẢNH vi MỞ ĐẦU CHƯƠNG KHÁI QUÁT VỀ PHÂN LỚP VĂN BẢN ĐỘC LẬP NGƠN NGỮ 1.1 Bài tốn phân lớp văn 1.1.1 Tổng quan 1.2 Phân lớp văn độc lập ngôn ngữ .4 1.2.1 Đặt vấn đề 1.2.2 Phân lớp văn độc lập ngôn ngữ 1.2.3 Ý nghĩa ứng dụng .5 CHƯƠNG CÁC MƠ HÌNH VÀ THUẬT TỐN PHÂN LỚP VĂN BẢN .7 2.1 Giới thiệu 2.2 Mơ hình Maximum Entropy 2.2.1 Giới thiệu .7 2.2.2 Xây dựng mơ hình 2.3 Tổng kết chương .16 CHƯƠNG PHÂN LỚP TÀI LIỆU WEB ĐỘC LẬP NGƠN NGỮ VỚI MƠ HÌNH ENTROPY CỰC ĐẠI 17 3.1 Giới thiệu 17 3.2 Bài toán phân lớp văn độc lập ngôn ngữ 17 3.2.1 Vấn đề nhập nhằng ngôn ngữ 17 3.2.2 Vấn đề bùng nổ đặc trưng 18 3.3 Quy trình xây dựng phân lớp 19 3.3.1 Tiền xử lý liệu 19 3.3.2 Xây dựng đặc trưng .20 3.3.3 Lựa chọn đặc trưng 21 3.3.4 Huấn luyện mơ hình 23 3.3.5 Phân lớp văn 23 3.4 Đánh giá độ xác phân lớp 24 ii LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 3.4.1 Các độ đo 24 3.4.2 Áp dụng phương pháp ước lượng chéo k tập 25 3.5 Xây dựng phân lớp phân lớp thông minh .25 3.5.1 Bản chất toán 26 3.5.2 Phân lớp cho văn 26 3.5.3 Thảo luận .27 3.6 Tổng kết chương 27 CHƯƠNG KẾT QUẢ THỬ NGHIỆM VÀ ĐÁNH GIÁ 28 4.1 Môi trường thử nghiệm 28 4.1.1 Môi trường phần cứng 28 4.1.2 Công cụ phần mềm 28 4.2 Dữ liệu kiểm thử .29 4.2.1 Tiền xử lý liệu 29 4.2.2 Cây phân lớp 30 4.3 Kết thử nghiệm 31 4.3.1 Quá trình huấn luyện 31 4.3.2 Lần lặp cho độ xác cao 34 4.3.3 Kết kiểm tra liệu .35 4.4 Tổng kết chương .36 KẾT LUẬN 37 PHỤ LỤC DANH SÁCH STOP-WORD 38 TÀI LIỆU THAM KHẢO .41 iii LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com BẢNG KÍ HIỆU VIẾT TẮT Kí hiệu Diễn giải GIS Generalized Interative Scaling HTML Hyper Text Markup Language IDF Inverse Document Frequency IIS Improved Iterative Scaling kNN K Nearest Neighbours L-BFGS Limited-memory Broyden-Fletcher-Goldfarb-Shannon MaxEnt Maximum Entropy NCR Numeric Character References TF Term Frequency UTF Unicode Transformation Formats iv LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com DANH MỤC BẢNG SỐ LIỆU Bảng Cây phân lớp thông minh tổng quát .26 Bảng Bảng ví dụ cho phân lớp thơng minh 26 Bảng Cấu hình hệ thống chạy thử nghiệm 28 Bảng Danh sách phần mềm sử dụng để thử nghiệm 28 Bảng Danh sách công cụ sử dụng để thử nghiệm .29 Bảng Cây phân lớp thông tin 31 Bảng Tập liệu huấn luyện mô hình 31 Bảng Độ xác 10 lần huấn luyện tiếng Anh .32 Bảng Độ xác 10 lần huấn luyện tiếng Việt .32 Bảng 10 Độ xác 10 lần huấn luyện kết hợp Anh-Việt 32 v LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com DANH MỤC HÌNH ẢNH Hình Tập ràng buộc C .12 Hình Mơ tả bước xây dựng phân lớp .19 Hình Trang tin tức tiếng Việt VnExpress.net 29 Hình Trang tin tức tiếng Anh BBC News 30 Hình Độ xác phân lớp 10 lần huấn luyện 33 Hình Sự phụ thuộc độ xác theo bước lặp mơ hình 34 Hình Kết kiểm tra liệu độc lập Anh-Việt 35 vi LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com MỞ ĐẦU Hiện nay, nhờ khả cho phép mã hố phần lớn ngơn ngữ thơng dụng tồn giới bảng mã Unicode, khoảng cách quốc gia, dân tộc hạn chế ngôn ngữ gây dần xố Theo thống kê [20] có 141 ngôn ngữ sử dụng Internet xu hướng tất yếu ngày xuất thêm nhiều ngôn ngữ Internet Bộ phân lớp văn có dừng mức phân lớp cho văn ngôn ngữ Nếu với 141 ngôn ngữ xây dựng 141 phân lớp thật tốn Hơn trang web thương mại, web có nội dung không lành mạnh thể ẩn náu nhiều hình thức đa dạng (nhiều ngơn ngữ xuất trang web) với mục đích qua lọc máy tìm kiếm, chúng gây nhiều phiền tối cho người dùng Vì vậy, tốn phân lớp văn độc lập ngôn ngữ đặt nhằm mục đích xây dựng phân lớp cho nhiều ngôn ngữ Ý thức vấn đề đó, khóa luận tập trung xây dựng phân lớp tài liệu web độc lập ngôn ngữ dựa việc áp dụng nguyên lý entropy cực đại Đây phương pháp có khả tích hợp mạnh hàng nghìn hàng triệu đặc trưng quan trọng Qua kết thực nghiệm, với tập liệu lên tới 12.000 trang Web bao gồm hai ngôn ngữ Anh Việt, kết cho thấy khả quan Mục tiêu mà khoá luận hướng tới: Xây dựng phân lớp cho nhiều ngơn ngữ dựa mơ hình entropy cực đại Không cần sử dụng phân nhận dạng ngôn ngữ khác Thử nghiệm đánh giá, vạch hướng phát triển Cấu trúc luận văn tổ chức sau: Chương 1: Giới thiệu tóm tắt tốn phân lớp văn bản, đặt vấn đề phát biểu tốn phân lớp văn độc lập ngơn ngữ Chương 2: Trình bày cụ thể toán phân lớp, đề cập đến vấn đề nguyên lý entropy cực đại theo hướng áp dụng vào toán phân lớp văn Chương 3: Phát biểu toán phân lớp văn độc lập ngơn ngữ, phân tích vấn đề cần giải toán bước xây dựng LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com phân lớp sở áp dụng mơ hình entropy cực đại Đưa đề xuất áp dụng ứng dụng vừa nhỏ Chương 4: Trình bày kết đánh giá thử nghiệm khoá luận áp dụng cho toán phân lớp tin tức với hai ngôn ngữ Anh Việt Cuối kết luận lại điểm chính, đóng góp luận văn, đồng thời điểm cần khắc phục vạch hướng cải tiến nhằm hướng tới xây dựng hệ ứng dụng thực môi trường Internet LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Chương KẾT QUẢ THỬ NGHIỆM VÀ ĐÁNH GIÁ 4.1 Môi trường thử nghiệm 4.1.1 Mơi trường phần cứng Bài tốn thử nghiệm máy chủ IBM có cấu sau: Bảng Cấu hình hệ thống chạy thử nghiệm Thành phần Chỉ số CPU Xeon 3.00GHz RAM 4096MB HDD x 36.4 GB OS Debian 3.1 (Sarge) 4.1.2 Công cụ phần mềm Tồn số phần mềm nguồn mở toán phân lớp văn sử dụng MEM FlexME, MaxEnt Chúng chọn lựa công cụ mã mở MaxEnt tác giả Zhang Le Centre for Speech Technology Research, University of Edinburgh http://homepages.inf.ed.ac.uk/s0450736/pmwiki/pmwiki.php Đây công cụ ứng dụng entropy cực đại viết Python C++ Ngồi ra, khố luận sử dụng số công cụ phần mềm hỗ trợ q trình thử nghiệm mơ tả bảng sau: Bảng Danh sách phần mềm sử dụng để thử nghiệm STT Tên phần mềm Nguồn Offline Explorer Enterprise http://www.metaproducts.com/ PHP http://www.php.net Debian 3.1 http://www.debian.org Trong trình chuẩn bị liệu, ngơn ngữ tự nhiên, viết số công cụ chạy Linux thông dịch PHP 28 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Bảng Danh sách công cụ sử dụng để thử nghiệm STT Tên công cụ Mô tả gethtml.php Thu thập file HTML thư mục lưu trang Web phần mềm Explorer Offline html2text.php Công cụ lọc nhiễu chuyển đổi biểu diễn kí tự Unicode (NCR sang UTF-8) Cơng cụ trích phần tiêu đề nội dung báo text2ngram.php Công cụ sinh n-gram từ file text html2text.php sinh Có loại bỏ từ phổ biến maketrain.php Công cụ tạo file train từ file n-gram text2ngram.php sinh có gán nhẵn lớp tương ứng maketest.php Công cụ tạo file kiểm tra trực tiếp từ file html (có loại thẻ HTML chuyển đổi biểu diễn kí tự Unicode) 4.2 Dữ liệu kiểm thử Dữ liệu dùng để huấn luyện mơ hình tin lấy từ trang báo điện tử hai ngôn ngữ Anh Việt Đây hãng tin có uy tín nội dung tin độ tin cậy chuyên mục tin phân chia Tiếng Anh: http://www.bbc.co.uk; Tiếng Việt: http://www.vnexpress.net Trong khoá luận tiến hành thử nghiệm phân lớp đơn ngôn ngữ, phân lớp kết hợp ngơn ngữ 4.2.1 Tiền xử lý liệu Hình Trang tin tức tiếng Việt VnExpress.net 29 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Hình Trang tin tức tiếng Anh BBC News Trong hình hình 4, cần lấy phần “Nội dung cần lấy”, phần lại gọi nhiễu bị loại bỏ q trình tiền xử lý cơng cụ html2text.php Mỗi ngơn ngữ có cơng cụ html2text.php riêng Sau thu file text html2text.php sinh ra, ta tiến hành xây dựng tập liệu huấn luyện theo định dạng mà thư viện MaxEnt hỗ trợ hai công cụ sau: text2ngram.php maketrain.php Khi đó, tệp tin sinh chưa liệu huấn luyện theo định dạng biểu diễn sau: Trên dòng, đầu dòng nhãn văn Tiếp theo tất n-gram sinh văn cơng cụ text2gram.php sinh Cũng công cụ sinh n-gram từ file text (công cụ text2gram.php) tiến hành lọc bỏ n-gram phương pháp loại bỏ stop-word n-gram (giảm ~32% tổng số n-gram) Điều làm giảm đáng kể đặc trưng khơng có ích 4.2.2 Cây phân lớp Quan sát hai hình vẽ trên, ta nhận thấy rõ ràng hai phân lớp không giống nhau, việc để tìm phân lớp chung cho chúng khơng dễ dàng Nói vậy, để khẳng định điều rằng: tìm phân lớp chuẩn cho tốn phân lớp văn độc lập ngơn ngữ gặp nhiều khó khăn 30 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Sau quan sát nghiên cứu trang tin, đưa phân lớp tin tức sau: Bảng Cây phân lớp thông tin STT Tên Nhãn Mô tả Kinh tế bss Các nội dung liên quan đến thị trường, kinh doanh,… Giáo dục edu Các nội dung liên quan đến giáo dục Văn hố / Giải trí ent Các nội dung liên quan đến nghệ thuật, âm nhạc, điện ảnh Sức khoẻ hel Các nội dung liên quan đến sức khoẻ Chính trị / Xã hội plt Các nội dung liên quan đến tình hình trị, xã hội,… Khoa học sci Các nội dung liên quan đến khoa học Thể thao spt Các nội dung liên quan đến thể thao Công nghệ tec Các nội dung liên quan đến công nghệ Ở tập liệu huấn luyện phân lớp cho ngôn ngữ, lớp ta chọn 800 văn Ở tập liệu huấn luyện cho phân lớp hai ba ngôn ngữ kết hợp, ta chọn lớp 600 văn 4.3 Kết thử nghiệm Tiến hành thử nghiệm tập liệu tiếng Anh, tập liệu tiếng Việt tập liệu trộn lẫn hai ngôn ngữ Anh Việt 4.3.1 Quá trình huấn luyện Thơng tin tập thơng tin ngữ cảnh đặc trưng mơ hình: Bảng Tập liệu huấn luyện mơ hình Mơ hình Mệnh đề thơng tin ngữ cảnh Đặc trưng Tiếng Anh 3.127.333 3.709.185 Tiếng Việt 2.806.899 3.686.768 Anh – Việt 4.743.595 5.860.664 Sau 10 lần huấn luyện tập liệu 6207 văn tiếng Anh, 6400 văn tiếng Việt 12607 văn cho hai ngơn ngữ Anh Việt, độ xác cho bảng sau Mỗi lần huấn luyện ta lấy kết lần lặp có độ xác (accuracy) cao 31 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Bảng Độ xác 10 lần huấn luyện tiếng Anh Fold Highest Log-likelihood Accuracy Time (s) -1.447281E-04 98.55% 117.31 -1.435894E-04 98.39% 121.36 -1.450561E-04 98.07% 102.54 -1.433849E-04 98.87% 109.57 -1.425671E-04 98.07% 110.98 -1.455252E-04 99.19% 122.17 -1.444749E-04 97.90% 143.42 -1.450292E-04 99.19% 95.54 -1.417561E-04 97.74% 111.57 -1.440164E-04 97.26% 114.22 Trung bình -1.440127E-04 98.32% 114.87 Bảng Độ xác 10 lần huấn luyện tiếng Việt Fold Highest Log-likelihood Accuracy Time (s) -3.056967E-04 92.19% 154.26 -3.048419E-04 90.31% 157.51 -2.988322E-04 92.03% 160.89 -2.722667E-04 91.25% 148.85 -2.994259E-04 90.63% 146.56 -3.022941E-04 91.25% 147.26 -3.152480E-04 92.03% 157.12 -3.350586E-04 91.88% 150.19 -3.773065E-04 91.56% 153.25 -2.782285E-04 92.50% 154.72 Trung bình -3.089199E-04 91.56% 153.06 Bảng 10 Độ xác 10 lần huấn luyện kết hợp Anh-Việt Fold Highest Log-likelihood Accuracy Time (s) -3.278943E-04 95.21% 193.22 -2.680606E-04 96.04% 197.82 -3.204758E-04 94.27% 221.17 -2.829994E-04 94.06% 183.24 -2.668655E-04 94.17% 187.87 -3.191257E-04 92.92% 187.89 -3.248740E-04 94.90% 184.76 -2.815305E-04 94.38% 187.32 -2.663499E-04 94.79% 172.98 -2.792563E-04 96.25% 195.85 Trung bình -2.937432E-04 94.70% 191.21 32 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Độ xác Tiếng Anh Tiếng Việt Anh - Việt 100.00% 98.00% 96.00% 94.00% 92.00% 90.00% 88.00% 86.00% 84.00% Lần huấn luyện (Fold) Hình Độ xác phân lớp 10 lần huấn luyện Hình biểu đồ biểu diễn độ xác mơ hình: Anh, Việt, Anh-Việt 10 fold Mỗi fold ta chọn độ xác lần lặp cao mơ hình Các bảng số liệu, đồ thị biểu diễn kết thử nghiệm trình bày cho thấy kết thử nghiệm khả quan - Độ xác phân lớp tiếng Anh là: 98.32% - Độ xác phân lớp tiếng Việt là: 91.56% - Độ xác phân lớp tiếng Anh-Việt là: 94.70% Biểu đồ biễu diễn độ xác mơ hình sau 10 lần huấn luyện ta nhận thấy có chênh lệch độ xác mơ hình tiếng Anh mơ hình tiếng Việt, tập liệu tiếng Việt lớn tiếng Anh (6400 văn 6207 văn bản) Sở dĩ vì, tập đặc trưng mơ hình phân lớp tiếng Anh lọc tinh tế tiếng Việt Trong trình xử lý liệu trước đưa vào huấn luyện, sử dụng công cụ text2ngram.php làm giảm 32% tổng số đặc trưng cho mơ hình phân lớp tiếng Anh, giảm 6% tổng số đặc trưng cho mơ hình phân lớp tiếng Việt Vì vậy, từ kết hai phân lớp hai ngôn ngữ Anh Việt có kết luận sau: - Khẳng định tính đắn kết luận lý thuyết đặc trưng chọn lọc tinh tế độ xác tăng - Sử dụng phương pháp lọc bỏ stop word đề xuất phần lý thuyết cho kết tốt Do tiếng Anh xử lý nhiều nên danh sách stop word đầy đủ, việc lọc bỏ dễ dàng đạt hiệu cao Trong khố luận chúng tơi 33 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com đưa thống kê chưa đầy đủ stop word tiếng Việt nên kết có phần hạn chế Cũng hình 5, có so sánh độ xác mơ hình: Anh, Việt Anh-Việt Độ xác mơ hình Anh-Việt ln nằm hai độ xác mơ hình tiếng Anh mơ hình tiếng Việt Rõ ràng nhập nhằng hai ngôn ngữ Anh Việt khơng ảnh hưởng nhiều đến độ xác mơ hình Anh-Việt Và kết mơ hình cho thấy rõ điều đó: 94.70% Quan sát bảng 8, 10, ta dễ dàng nhận thấy thời gian huấn luyện nhanh Trung bình lần huấn luyện phân lớp văn tiếng Anh 114.87 (s) Đến ta khẳng định sức mạnh phương pháp entropy cực đại kết số: tích hợp gần triệu đặc trưng vào mơ hình huấn luyện 32 phút (mơ hình Anh-Việt) 4.3.2 Lần lặp cho độ xác cao Tiếng Anh Tiếng Việt Anh-Việt Độ xác 120.00% 100.00% 80.00% 60.00% 40.00% 20.00% 0.00% 10 15 20 25 30 Bước lặp Hình Sự phụ thuộc độ xác theo bước lặp mơ hình Hình vẽ biểu diễn phụ thuộc độ xác theo bước lặp mơ hình Số liệu dùng để vẽ đồ thị lấy từ thông số lần huấn lun có độ xác cao mơ hình Từ đồ thị ta có nhận xét tốc độ tăng độ xác bước lặp không Điều lý giải tượng overfitting Tức là, tập liệu huấn luyện, đặc trưng xuất phần kiểm tra không xuất tập liệu học phần không nhận biết 34 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 4.3.3 Kết kiểm tra liệu Tập liệu kiểm tra bao gồm 400 văn tiếng Anh, 400 văn tiếng Việt lấy từ nhiều nguồn Number of Predicates: 4743595 Number of Parameters: 5860664 Optimized version iter loglikelihood training accuracy heldout accuracy ================================================================== -2.079442E+00 12.500% 12.500% -1.566180E+00 67.656% 44.250% -9.132070E-01 84.167% 59.750% -7.543474E-01 87.490% 66.625% -5.646942E-01 91.479% 71.875% -4.754881E-01 92.323% 74.500% -3.445148E-01 93.906% 81.250% -2.715653E-01 94.385% 80.875% -1.921838E-01 95.823% 82.750% -1.628873E-01 96.448% 83.125% 10 -1.205699E-01 97.260% 83.625% 11 -9.134130E-02 97.781% 85.500% 12 -7.489992E-02 98.240% 85.750% 13 -5.539846E-02 98.740% 85.625% 14 -2.927394E-02 99.365% 85.250% 15 -1.338378E-02 99.698% 85.625% 16 -6.036523E-03 99.896% 85.250% 17 -4.328826E-03 99.938% 85.250% 18 -1.414540E-03 100.000% 84.875% 19 -9.727452E-04 100.000% 84.875% 20 -7.786723E-04 100.000% 85.000% 21 -5.644801E-04 100.000% 84.500% 22 -4.865722E-04 100.000% 84.375% 23 -4.318329E-04 100.000% 84.125% 24 -4.265314E-04 100.000% 84.125% 25 -4.217743E-04 100.000% 84.125% 26 -4.120439E-04 100.000% 84.125% 27 -3.779965E-04 100.000% 83.875% 27 -3.889546E-04 100.000% 83.625% 28 -3.629248E-04 100.000% 83.750% 29 -3.607414E-04 100.000% 83.875% 30 -3.365570E-04 100.000% 83.875% Maximum numbers of 30 iterations reached in 199.81 seconds Highest log-likelihood: -3.365570E-04 Accuracy: 83.875% Hình Kết kiểm tra liệu độc lập Anh-Việt Đây kết xuất q trình kiểm tra mơ hình Anh-Việt nguồn liệu hoàn toàn Kết nhận là: 83.875% Kết có ý nghĩa, thể sức mạnh thực mơ hình, nói lên khả đốn nhận mơ hình với liệu Cột log likelihood giá trị hàm log likelihood lần lặp Cột training accuracy độ xác huấn luyện tính độ xác (precision) 35 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Trong trình thử nghiệm nhiều tập kiểm tra, kết thực nghiệm cho thấy mơ hình có mạnh hay khơng cịn phụ thuộc vào nguồn liệu huấn luyện Dữ liệu huấn luyện thu thập phong phú, khả đốn nhận mơ hình với liệu tăng Chúng tơi tiến hành thử nghiệm mơ hình tiếng Anh hai tập kiểm tra Một tập lấy từ nguồn tin lạ, trang tin Mỹ (New York Times, Washington Post,…) tập trang tin Anh (Guaridan Unlimited) Kết test tương ứng 52.23% 96.75% Có chênh lệch tập liệu huấn luyện mơ hình tiếng Anh khơng đủ phong phú phép mơ hình đốn nhận liệu “lạ” Vì có kết luận muốn xây dựng phân lớp có khả đốn nhận cách tồn diện phải xây dựng tập liệu huấn luyện đủ lớn, đủ phong phú 4.4 Tổng kết chương Trong chương xem xét kết trình huấn luyện kiểm tra mơ hình phân lớp tài liệu web ứng dụng mơ hình entropy cực đại Tập liệu huấn luyện mơ hình xây dựng cơng phu từ 6207 văn tiếng Anh 6400 văn tiếng Việt Chúng ta xem xét đánh giá kết thực nghiệm đưa kết luận khẳng định mạnh mẽ tính đắn cho nghiên cứu lý thuyết ba chương trước Qua kết thử nghiệm đánh giá nhận thấy với khả đoán nhận lên tới 94.70%, toán phân lớp văn độc lập ngơn ngữ nói chung tốn phân lớp tài liệu web độc lập ngơn ngữ nói riêng có triển vọng áp dụng vào ứng dụng tương lai 36 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com KẾT LUẬN Khố luận tìm hiểu nghiên cứu toán phân lớp văn độc lập ngơn ngữ Các vấn đề tốn trình bày, phân tích đưa hướng giải cụ thể Khoá luận sử dụng tiếp cận entropy cực đại phương pháp phù hợp với tốn có số lượng đặc trưng lớn tốn phân lớp văn nói chung toán phân lớp văn độc lập ngơn ngữ nói riêng Những kết mà khố luận đạt được: - Đề xuất xây dựng phân lớp văn cho nhiều ngôn ngữ mà không cần nhận biết ngôn ngữ sử dụng phương pháp entropy cực đại - Phân tích đưa phương pháp nhằm khắc phục hai vấn đề tốn phân lớp văn độc lâp ngơn ngữ: nhập nhằng ngôn ngữ bùng nổ đặc trưng - Đưa phương pháp lựa chọn đặc trưng cách hiệu - Đề xuất xây dựng phân lớp phân lớp thông minh với khả nhận diện ngôn ngữ phân lớp cho ứng dụng vừa nhỏ - Kiểm thử tập liệu lớn hai ngôn ngữ Anh Việt, cho kết khả quan Kết thực nghiệm tập liệu trộn văn hai ngôn ngữ Anh Việt cho thấy khả quan có nhiều triển vọng ứng dụng thực tế cao với độ xác huấn luyện lên tới xấp xỉ 95% Do khn khổ có hạn thời gian lượng kiến thức có gặp khó khăn q trình thu thập liệu thử nghiệm nên cịn số vấn đề mà khố luận phải tiếp tục hoàn thiện phát triển thời gian tới: - Thử nghiệm tập liệu lớn hồn chỉnh, phong phú ngơn ngữ - Xây dựng phương pháp hiệu việc khắc phục vấn đề bùng nổ đặc trưng: ví dụ trừu tượng hoá liệu số ngày tháng Tích hợp mơ hình vào mơ-đun lọc nội dung mơ-đun phân lớp máy tìm kiếm Vinahoo 37 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Phụ lục DANH SÁCH STOP-WORD Danh sách stop word tiếng Anh có [23]: a's accordingly again allows also amongst anybody anyways appropriate aside available because before below between by can't certain com consider corresponding definitely different don't each else et everybody exactly fifth follows four gets goes greetings has he her herein him how able across against almost although an anyhow anywhere are ask away become beforehand beside beyond c'mon cannot certainly come considering could described done edu elsewhere etc everyone example first for from getting going had hasn't he's here hereupon himself howbeit about actually ain't alone always and anyone apart aren't asking awfully becomes behind besides both c's cant changes comes contain couldn't despite does down eg enough even everything except five former further given gone hadn't have hello here's hers his however above after all along am another anything appear around associated be becoming being best brief came cause clearly concerning containing course did doesn't downwards eight entirely ever everywhere far followed formerly furthermore gives got happens haven't help hereafter herself hither i'd according afterwards allow already among any anyway appreciate as at became been believe better but can causes co consequently contains currently didn't doing during either especially every ex few following forth get go gotten hardly having hence hereby hi hopefully i'll 38 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com i'm immediate indicate instead it itself know later lest likely ltd me more must nd needs next none nothing of okay ones others ourselves own placed probably rather regarding right saying seeing seen serious she so something soon still t's th that theirs there therein they'd third though i've in indicated into it'd just knows latter let little mainly mean moreover my near neither nine noone novel off old only otherwise out particular please provides rd regardless said says seem self seriously should some sometime sorry sub take than that's them there's theres they'll this three ie inasmuch indicates inward it'll keep known latterly let's look many meanwhile most myself nearly never no nor now often on onto ought outside particularly plus que re regards same second seemed selves seven shouldn't somebody sometimes specified such taken thank thats themselves thereafter thereupon they're thorough through if inc inner is it's keeps last least like looking may merely mostly name necessary nevertheless nobody normally nowhere oh once or our over per possible quite really relatively saw secondly seeming sensible several since somehow somewhat specify sup tell thanks the then thereby these they've thoroughly throughout ignored indeed insofar isn't its kept lately less liked looks maybe might much namely need new non not obviously ok one other ours overall perhaps presumably qv reasonably respectively say see seems sent shall six someone somewhere specifying sure tends thanx their thence therefore they think those thru 39 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com thus toward try under unto used value vs way we've weren't whence whereas whether who's why within would you'd yours to towards trying unfortunately up useful various want we welcome what whenever whereby which whoever will without wouldn't you'll yourself together tried twice unless upon uses very wants we'd well what's where wherein while whole willing won't yes you're yourselves too tries two unlikely us using via was we'll went whatever where's whereupon whither whom wish wonder yet you've zero took truly un until use usually viz wasn't we're were when whereafter wherever who whose with would you your Danh sách stop word tiếng Việt thống kê [2]: cịn hay khơng khơng khơng mà cịn nên giá song dầu dù dẫu cho làm mà mà có điều hồ 40 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com TÀI LIỆU THAM KHẢO [1] Nguyễn Việt Cường, Bài toán lọc phân lớp tài liệu Web tiếng Việt với hướng tiếp cận entropy cực đại, Luận văn tốt nghiệp đại học, Trường Đại học Công nghệ, Đại học Quốc gia Hà Nội, 2005 [2] Nguyễn Đức Dân, Lô gich ngữ nghĩa cú pháp, NXB ĐH&TH chuyên nghiệp, Hà Nội, 1987 [3] Nguyễn Cẩm Tú, Nhận biết loại thực thể văn tiếng Việt nhằm hỗ trợ Web ngữ nghĩa tìm kiếm hướng thực thể, Luận văn tốt nghiệp đại học, Trường Đại học Công nghệ, Đại học Quốc gia Hà Nội, 2005 [4] Berger, A., Della Pietra, S., and Della Pietra, V A maximum entropy approach to natural language processing Computational Linguistics, volume 22, number 1, 1996, pages 39-71 [5] Cavnar, W B and Trenkle, J M N-Gram-Based Text Categorization Proceedings of {SDAIR}-94, 3rd Annual Symposium on Document Analysis and Information Retrieval, 1994, pages 161-175 [6] Darroch, J and Ratcliff, D Generalized iterative scaling for log-linear models Annals Mathematical Statistics, volume 43, number 5, 1972, pages 1470–1480 [7] Fuchen, P., Dale, S and Shaojun, W Language and Task independent text categorizationg with simple language models, Proceedings of HLT-NAACL, 2003 [8] Jaynes, E R (1957) Information Theory and Statistical Mechanics Physic Review, volume 106, 1957, pages 620-630 [9] Joachims, T Text Classification with Support Vector Machines: Learning with many relevant features Machine Learning: ECML-98, Tenth European Conference on Machine Learning, 1998, pages 137-142 [10] Liu, D C and Nocedal J On the limited memory BFGS method for large scale optimization Mathematical Programming, volume 45, number 3, 1989, pages 503-528 41 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com [11] Malouf, R A comparison of algorithms for maximum entropy parameter estimation Proceedings of the Sixth Conference on Natural Language Learning (CoNLL-2002), 2002, pages 183-186 [12] Nigam, K., Lafferty, J and McCallum, A Using maximum entropy for text classification IJCAI-99 Workshop on Machine Learning for Information Filtering, 1999, pages 61-67 [13] Nigam K., McCallum, A., Thrun S and Mitchell, T Text Classification from Labeled and Unlabeled Documents using EM Machine Learning, volume 39, number 2/3, 2000, pages 103-134 [14] Ratnaparkhi, A A Maximum Entropy Part-Of-Speech Tagger Proceedings of the Empirical Methods in Natural Language Processing Conference, May 17-18, 1996 [15] Ratnaparkhi, A A simple introduction to maximum entropy models for natural language processing Technical Report 97-08, Institute for Research in Cognitive Science, University of Pennsylvania, 1997 [16] Ratnaparkhi, A Maximum Entropy Models for Natural Language Ambiguity Resolution Ph.D thesis, University of Pennsylvania, Philadelphia, PA, 1998 [17] Rosenfeld, R A maximum entropy approach to adaptive statistical language modeling Computer, Speech, and Language, volume 10, 1996, pages 187-228 [18] Zhang, L., Maximum Entropy Modeling Toolkit for Python and C++, 2004 [19] Website: http://www.wikipedia.org [20] Website: http://www.unicode.org/onlinedat/languages.html [21] Website: http://www.cs.cmu.edu/~schneide/tut5/node42.html [22] Website: http://www.ranks.nl/stopwords/french.html [23] Website: http://dev.mysql.com/doc/refman/5.0/en/fulltext-stopwords.html 42 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com ... phân lớp văn độc lập ngôn ngữ phân lớp thơng minh Q trình xây dựng phân lớp hồn tồn giống với q trình xây dựng phân lớp phần 3.3 Điểm khác nằm phân lớp Giả sử phân lớp chuẩn phân lớp L ngơn ngữ. .. không phụ thuộc ngôn ngữ (độc lập) sử dụng mơ hình entropy cực đại 1.2.2 Phân lớp văn độc lập ngôn ngữ Phân lớp văn độc lập ngơn ngữ tốn phân lớp văn bản, cho phép xếp văn vào lớp mà khơng cần... Vì vậy, tốn phân lớp văn độc lập ngơn ngữ đặt nhằm mục đích xây dựng phân lớp cho nhiều ngôn ngữ Ý thức vấn đề đó, khóa luận tập trung xây dựng phân lớp tài liệu web độc lập ngôn ngữ dựa việc