Phân lớp tài liệu web độc lập ngôn ngữ
ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Nguyễn Thị Thuỳ Linh PHÂN LỚP TÀI LIỆU WEB ĐỘC LẬP NGƠN NGỮ KHỐ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY Ngành: Cơng nghệ thơng tin Cán hướng dẫn: NCS Phan Xuân Hiếu Cán đồng hướng dẫn: TS Hà Quang Thuỵ HÀ NỘI – 2006 LỜI CẢM ƠN Em xin gửi lời cảm ơn chân thành biết ơn sâu sắc tới Tiến sĩ Hà Quang Thuỵ (Trường Đại học Công Nghệ) Nghiên cứu sinh Phan Xuân Hiếu (Japan Advanced Institute of Science and Technology) bảo hướng dẫn tận tình cho tơi suốt trình nghiên cứu Khoa học trình thực khố luận Em xin gửi lời cảm ơn biết ơn sâu sắc tới thày, dạy dỗ em suốt q trình học tập trường Đại học Công Nghệ Những kiến thức thày, cô dạy hành trang để vững bước vào đời Em xin chân thành cảm ơn thày, cô, anh, chị Bộ môn Các hệ thống thông tin tạo điều kiện, giúp đỡ động viên tinh thần cho em trình làm khố luận Tơi xin gửi lời cảm ơn tới bạn sinh viên nhóm seminar “Khai phá liệu khám phá tri thức” ủng hộ khuyến khích tơi q trình nghiên cứu làm khoá luận Và cuối cùng, xin gửi lời cảm ơn biết ơn vô hạn tới bố, mẹ, cảm ơn em trai tôi, người thân yêu tôi, nuôi nấng, dạy dỗ động viên, làm chỗ dựa tinh thần cho sống học tập làm việc Xin chân thành cảm ơn! Hà Nội, ngày 25 tháng 05 năm 2006 Sinh viên Nguyễn Thị Thuỳ Linh TÓM TẮT NỘI DUNG Phân lớp văn toán quan trọng lĩnh vực xử lý ngơn ngữ tự nhiên Nó có ứng dụng nhiều tốn thực tế ví dụ như: ứng dụng lọc nội dung văn (lọc thư rác, lọc trang web có nội dung phản động, trang web có nội dung khơng lành mạnh,…), tốn phân lớp văn sau tìm kiếm,… Hiện có nhiều phân lớp đạt độ xác cao (đều xấp xỉ 90%), nhiên phân lớp hầu hết áp dụng cho ngôn ngữ cụ thể Thực tế cho thấy, toán lọc nội dung trang Web vấn đề đặt phải xử lý nhiều ngôn ngữ khác Một hướng nghiên cứu phân lớp văn quan tâm gần phân lớp đa ngôn ngữ [7] Khoá luận nghiên cứu đề xuất phương pháp phân lớp nội dung Web độc lập ngơn ngữ Phương pháp cho phép tích hợp thêm ngôn ngữ vào phân lớp giải vấn đề bùng nổ đặc trưng thông qua hướng tiếp cận entropy cực đại sử dụng chiến lược tối ưu hoá hàm nhiều biến hiệu Các kết thực nghiệm cho thấy hướng tiếp cận khoá luận khả quan, cụ thể, huấn luyện riêng biệt ngôn ngữ nhận kết cao (Anh 98%, Việt 91%), có kết hợp hai ngơn ngữ kết đạt khả quan (Anh-Việt xấp xỉ 95%) Đặc biệt cho mơ hình kiểm tra tập liệu hoàn toàn kết khả quan (độ xác Anh-Việt xấp xỉ 84%) Bên cạnh đó, khố luận phân tích vấn đề toán phân lớp văn độc lập ngơn ngữ nhập nhằng ngơn ngữ bùng nổ đặc trưng, sau đưa phương pháp khắc phục hiệu Một đề xuất mà khoá luận đưa mơ hình dựa phân lớp thơng minh Đề xuất có nhiều triển vọng cho ứng dụng nhỏ cần phân loại văn nhận diện ngôn ngữ i MỤC LỤC LỜI CẢM ƠN i TÓM TẮT NỘI DUNG i MỤC LỤC ii BẢNG KÍ HIỆU VIẾT TẮT iv DANH MỤC BẢNG SỐ LIỆU .v DANH MỤC HÌNH ẢNH vi MỞ ĐẦU CHƯƠNG KHÁI QUÁT VỀ PHÂN LỚP VĂN BẢN ĐỘC LẬP NGƠN NGỮ 1.1 Bài tốn phân lớp văn 1.1.1 Tổng quan 1.2 Phân lớp văn độc lập ngôn ngữ .4 1.2.1 Đặt vấn đề 1.2.2 Phân lớp văn độc lập ngôn ngữ 1.2.3 Ý nghĩa ứng dụng .5 CHƯƠNG CÁC MÔ HÌNH VÀ THUẬT TỐN PHÂN LỚP VĂN BẢN .7 2.1 Giới thiệu 2.2 Mơ hình Maximum Entropy 2.2.1 Giới thiệu .7 2.2.2 Xây dựng mơ hình 2.3 Tổng kết chương .16 CHƯƠNG PHÂN LỚP TÀI LIỆU WEB ĐỘC LẬP NGƠN NGỮ VỚI MƠ HÌNH ENTROPY CỰC ĐẠI 17 3.1 Giới thiệu 17 3.2 Bài tốn phân lớp văn độc lập ngơn ngữ 17 3.2.1 Vấn đề nhập nhằng ngôn ngữ 17 3.2.2 Vấn đề bùng nổ đặc trưng 18 3.3 Quy trình xây dựng phân lớp 19 3.3.1 Tiền xử lý liệu 19 3.3.2 Xây dựng đặc trưng .20 3.3.3 Lựa chọn đặc trưng 21 3.3.4 Huấn luyện mô hình 23 3.3.5 Phân lớp văn 23 3.4 Đánh giá độ xác phân lớp 24 ii 3.4.1 Các độ đo 24 3.4.2 Áp dụng phương pháp ước lượng chéo k tập 25 3.5 Xây dựng phân lớp phân lớp thông minh .25 3.5.1 Bản chất toán 26 3.5.2 Phân lớp cho văn 26 3.5.3 Thảo luận .27 3.6 Tổng kết chương 27 CHƯƠNG KẾT QUẢ THỬ NGHIỆM VÀ ĐÁNH GIÁ 28 4.1 Môi trường thử nghiệm 28 4.1.1 Môi trường phần cứng 28 4.1.2 Công cụ phần mềm 28 4.2 Dữ liệu kiểm thử .29 4.2.1 Tiền xử lý liệu 29 4.2.2 Cây phân lớp 30 4.3 Kết thử nghiệm 31 4.3.1 Quá trình huấn luyện 31 4.3.2 Lần lặp cho độ xác cao 34 4.3.3 Kết kiểm tra liệu .35 4.4 Tổng kết chương .36 KẾT LUẬN 37 PHỤ LỤC DANH SÁCH STOP-WORD 38 TÀI LIỆU THAM KHẢO .41 iii BẢNG KÍ HIỆU VIẾT TẮT Kí hiệu Diễn giải GIS Generalized Interative Scaling HTML Hyper Text Markup Language IDF Inverse Document Frequency IIS Improved Iterative Scaling kNN K Nearest Neighbours L-BFGS Limited-memory Broyden-Fletcher-Goldfarb-Shannon MaxEnt Maximum Entropy NCR Numeric Character References TF Term Frequency UTF Unicode Transformation Formats iv DANH MỤC BẢNG SỐ LIỆU Bảng Cây phân lớp thông minh tổng quát .26 Bảng Bảng ví dụ cho phân lớp thơng minh 26 Bảng Cấu hình hệ thống chạy thử nghiệm 28 Bảng Danh sách phần mềm sử dụng để thử nghiệm 28 Bảng Danh sách công cụ sử dụng để thử nghiệm .29 Bảng Cây phân lớp thông tin 31 Bảng Tập liệu huấn luyện mơ hình 31 Bảng Độ xác 10 lần huấn luyện tiếng Anh .32 Bảng Độ xác 10 lần huấn luyện tiếng Việt .32 Bảng 10 Độ xác 10 lần huấn luyện kết hợp Anh-Việt 32 v DANH MỤC HÌNH ẢNH Hình Tập ràng buộc C .12 Hình Mơ tả bước xây dựng phân lớp .19 Hình Trang tin tức tiếng Việt VnExpress.net 29 Hình Trang tin tức tiếng Anh BBC News 30 Hình Độ xác phân lớp 10 lần huấn luyện 33 Hình Sự phụ thuộc độ xác theo bước lặp mơ hình 34 Hình Kết kiểm tra liệu độc lập Anh-Việt 35 vi MỞ ĐẦU Hiện nay, nhờ khả cho phép mã hố phần lớn ngơn ngữ thơng dụng toàn giới bảng mã Unicode, khoảng cách quốc gia, dân tộc hạn chế ngôn ngữ gây dần xoá Theo thống kê [20] có 141 ngơn ngữ sử dụng Internet xu hướng tất yếu ngày xuất thêm nhiều ngôn ngữ Internet Bộ phân lớp văn có dừng mức phân lớp cho văn ngôn ngữ Nếu với 141 ngôn ngữ xây dựng 141 phân lớp thật tốn Hơn trang web thương mại, web có nội dung khơng lành mạnh thể ẩn náu nhiều hình thức đa dạng (nhiều ngôn ngữ xuất trang web) với mục đích qua lọc máy tìm kiếm, chúng gây nhiều phiền tối cho người dùng Vì vậy, tốn phân lớp văn độc lập ngơn ngữ đặt nhằm mục đích xây dựng phân lớp cho nhiều ngơn ngữ Ý thức vấn đề đó, khóa luận tập trung xây dựng phân lớp tài liệu web độc lập ngôn ngữ dựa việc áp dụng nguyên lý entropy cực đại Đây phương pháp có khả tích hợp mạnh hàng nghìn hàng triệu đặc trưng quan trọng Qua kết thực nghiệm, với tập liệu lên tới 12.000 trang Web bao gồm hai ngôn ngữ Anh Việt, kết cho thấy khả quan Mục tiêu mà khoá luận hướng tới: Xây dựng phân lớp cho nhiều ngơn ngữ dựa mơ hình entropy cực đại Không cần sử dụng phân nhận dạng ngôn ngữ khác Thử nghiệm đánh giá, vạch hướng phát triển Cấu trúc luận văn tổ chức sau: Chương 1: Giới thiệu tóm tắt tốn phân lớp văn bản, đặt vấn đề phát biểu toán phân lớp văn độc lập ngơn ngữ Chương 2: Trình bày cụ thể toán phân lớp, đề cập đến vấn đề nguyên lý entropy cực đại theo hướng áp dụng vào toán phân lớp văn Chương 3: Phát biểu tốn phân lớp văn độc lập ngơn ngữ, phân tích vấn đề cần giải toán bước xây dựng phân lớp sở áp dụng mơ hình entropy cực đại Đưa đề xuất áp dụng ứng dụng vừa nhỏ Chương 4: Trình bày kết đánh giá thử nghiệm khoá luận áp dụng cho toán phân lớp tin tức với hai ngôn ngữ Anh Việt Cuối kết luận lại điểm chính, đóng góp luận văn, đồng thời điểm cần khắc phục vạch hướng cải tiến nhằm hướng tới xây dựng hệ ứng dụng thực môi trường Internet ... Vì vậy, tốn phân lớp văn độc lập ngôn ngữ đặt nhằm mục đích xây dựng phân lớp cho nhiều ngơn ngữ Ý thức vấn đề đó, khóa luận tập trung xây dựng phân lớp tài liệu web độc lập ngôn ngữ dựa việc... không phụ thuộc ngôn ngữ (độc lập) sử dụng mơ hình entropy cực đại 1.2.2 Phân lớp văn độc lập ngôn ngữ Phân lớp văn độc lập ngơn ngữ tốn phân lớp văn bản, cho phép xếp văn vào lớp mà khơng cần... PHÂN LỚP VĂN BẢN ĐỘC LẬP NGƠN NGỮ 1.1 Bài tốn phân lớp văn 1.1.1 Tổng quan 1.2 Phân lớp văn độc lập ngôn ngữ .4 1.2.1 Đặt vấn đề 1.2.2 Phân lớp văn độc