Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 120 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
120
Dung lượng
1,44 MB
Nội dung
BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI - NGUYỄN HỒNG THÁI TÓM TẮT VĂN BẢN TIẾNG VIỆT THEO CHỦ ĐỀ LUẬN VĂN THẠC SĨ KHOA HỌC CHUYÊN NGÀNH: CÔNG NGHỆ THÔNG TIN NGƯỜI HƯỚNG DẪN KHOA HỌC: TS Lê Thanh Hương Hà Nội - 2008 ĐỒ ÁN TỐT NGHIỆP CAO HỌC ĐỀ TÀI: “TÓM TẮT VĂN BẢN TIẾNG VIỆT THEO CHỦ ĐỀ” LỜI CẢM ƠN Em xin gửi lời cảm ơn chân thành sâu sắc tới cô giáo TS Lê Thanh Hương tận tình hướng dẫn giúp đỡ trình làm đồ án Mặc dù em cố gắng hoàn thành luận văn phạm vi khả cho phép chắn không tránh thiếu sót Chúng em kính mong nhận thông cảm bảo tận tình thầy bạn Sinh viên: Nguyễn Hồng Thái Lớp: Cao học CNTT 2006-2008 Hà Nội 10/2008 Nguyễn Hồng Thái – Lớp cao học CNTT 2006-2008 ĐỒ ÁN TỐT NGHIỆP CAO HỌC ĐỀ TÀI: “TÓM TẮT VĂN BẢN TIẾNG VIỆT THEO CHỦ ĐỀ” LỜI NĨI ĐẦU Trong thời đại bùng nổ thơng tin ngày nay, phát triển vượt bậc công nghệ thông tin làm tăng đáng kể số lượng giao dịch mạng Internet đặc biệt thư viện điện tử, sách báo điện tử…, mà thời gian ln có hạn mà với người, ngày nhiều việc phải làm Và vấn đề để khai thác thông tin cách hiệu hoạt động xử lý thông tin nhiều người dùng tin quan tâm Dĩ nhiên xuất hàng loạt cơng cụ tìm kiếm tương đối thơng minh Google, Altavista, Yahoo…Song vấn đề đặt đọc hết tất thông tin sách báo điện tử hay mà cơng cụ tìm kiếm đem lại Để giải vấn đề đó, người viết luận văn xin đề xuất giải pháp “Tóm tắt văn tiếng Việt theo chủ đề” Mục đích đề tài trích rút nội dung văn tiếng Việt lại, hiển thị cho người đọc từ người sử dụng xem xét nội dung có cần đọc khơng? Nếu có người sử dụng tiến hành đọc chi tiết văn gốc, không người sử dụng dừng lại, không cần phải đọc Hướng tiếp cận người viết luận văn hướng đến lĩnh vực nội dung văn cần tóm tắt Các lĩnh vực cấu trúc nội dung tờ báo điện tử, thư viện điện tử,… Người viết luận văn sử dụng thành đạt xử lý văn tiếng Việt toán phân tách từ, tốn phân nhóm, phân lớp văn bản, tốn tóm tắt văn Nội dung luận văn gồm có chương đó: Chương Trình bầy sở lý thuyết lĩnh vực khai phá liệu văn xử lý ngôn ngữ tự nhiên Đó lý thuyết chung khai phá liệu văn bản, mối liên quan xử lý ngôn ngữ tự nhiên với khai phá liệu văn Đặc biệt người viết luận văn có sâu phân tích đặc điểm ngơn ngữ tiếng Việt Chương Trình bầy thành tựu đạt toán liên quan tới hướng tiếp cận tóm tắt văn tiếng Việt theo chủ đề Đó tốn tách từ, phân nhóm văn bản, phân lớp văn tóm tắt văn Chương Trình bầy mơ hình, giải pháp cho tốn tóm tắt văn theo chủ đề mà người viết luận văn đề xuất Đó mơ hình xây dựng lĩnh vực trước tạo Nguyễn Hồng Thái – Lớp cao học CNTT 2006-2008 ĐỒ ÁN TỐT NGHIỆP CAO HỌC ĐỀ TÀI: “TÓM TẮT VĂN BẢN TIẾNG VIỆT THEO CHỦ ĐỀ” lên chủ đề Từ văn đầu vào trích rút chủ đề nội dung, chủ đề văn bản, chủ đề khái niệm…Dựa vào độ trích rút mà tiến hành đưa kết đầu Chương Trình bầy phân tích thiết kế hệ thống, cài đặc kiểm thử cho giải pháp mà người viết luận văn đề xuất Đó q trình phân tách từ vựng văn Đó trình tìm nội chủ đề, kết trích rút Nguyễn Hồng Thái – Lớp cao học CNTT 2006-2008 ĐỒ ÁN TỐT NGHIỆP CAO HỌC ĐỀ TÀI: “TÓM TẮT VĂN BẢN TIẾNG VIỆT THEO CHỦ ĐỀ” DANH MỤC TỪ VIẾT TẮT STT Từ viết tắt Giải nghĩa KDD Phát tri thức sở liệu TFxIDF Term Frequency times Inverse Document Frequency IR NLP NLG SVM CFG Văn phạm phi ngữ cảnh CSDL Cơ sở liệu POS 10 RST 11 HMM 12 LRMM Knowledge Discovery in Databases Hệ thu thập thông tin Information Retrieval Natural Language Processing Xử lý ngôn ngữ tự nhiên Natural Language Generating Sinh ngôn ngữ tự nhiên Support Vector Machine Mơ hình máy vector hỗ trợ Context Free Grammar Part of Speech Từ loại Rhetorical Structure Theory Lý thuyết cấu trúc tu từ Hidden Markov Model Mơ hình Markov ẩn Left Right Maximum Matching Tách từ dài từ trái qua phải Nguyễn Hồng Thái – Lớp cao học CNTT 2006-2008 ĐỒ ÁN TỐT NGHIỆP CAO HỌC ĐỀ TÀI: “TÓM TẮT VĂN BẢN TIẾNG VIỆT THEO CHỦ ĐỀ” DANH MỤC HÌNH VẼ Hình 1-1:Tiến trình khai phá liệu phát tri thức (KDD) 10 Hình 1-2: Quan hệ Dữ liệu – Thông tin – Tri thức 11 Hình 1-3: Chức dẫn đường văn VNExpress 17 Hình 1-4: Các vector văn khơng gian có thuật ngữ 18 Hình 1-5: Phân tích cú pháp 27 Hình 2-1: Các phương pháp tách từ 36 Hình 2-2: Sơ đồ hệ thống WFST 42 Hình 2-3: Mơ hình hệ thống IGATEC 45 Hình 2-4: Ví dụ mơ tả giải thuật k-means 48 Hình 2-5: Tóm tắt trang tin 58 Hình 2-6: Tóm tắt hoạt động để hiển thị thiết bị cầm tay 58 Hình 2-7: Tóm tắt danh sách tìm kiếm từ Google gợi ý đọc tiếp 59 Hình 2-8: Tóm tắt tài liệu khoa học 59 Hình 2-9: Mơ hình hệ Tóm tắt văn tổng quát 60 Hình 2-10: Mơ hình hệ Trích rút văn 61 Hình 2-11: Quan hệ lẫn đoạn văn 63 Hình 3-1: Tập mẫu chủ đề 77 Hình 3-2: Tính chủ đề cấu đào tạo trường Cao đẳng cơng nghiệp Hà Nội 78 Hình 3-3: Cây chủ đề báo điện tử www.vnexpress.net 79 Hình 3-4: Tính chủ đề mơ hình tóm tắt văn theo chủ đề 85 Hình 3-5: Mơ hình tóm tắt văn theo chủ đề 87 Hình 3-6: Tính chủ đề tịa soạn báo www.vnexpress.net 90 Hình 3-7: Biểu thị việc tìm k khái niệm tập mẫu chủ đề 92 Hình 3-8: Thuật toán Tách từ sử dụng phương pháp LRMM 95 Hình 3-9: Thuật tốn K-Mean 97 Hình 3-10: Minh họa việc khoanh vùng k văn gần với k = 97 Hình 4-1: Các chức hệ thống 103 Hình 4-2: Sơ đồ hệ thống 104 Hình 4-3: Biểu đồ tập mẫu vnexpress.net vietnamnet.vn 107 Hình 4–4: Biểu đồ kết đánh giá trích rút nội dung 111 Hình 4-5: Biểu đồ kết đánh giá trích rút độ trơn 113 Nguyễn Hồng Thái – Lớp cao học CNTT 2006-2008 ĐỒ ÁN TỐT NGHIỆP CAO HỌC ĐỀ TÀI: “TÓM TẮT VĂN BẢN TIẾNG VIỆT THEO CHỦ ĐỀ” DANH MỤC BẢNG Bảng 1-1: Ví dụ biểu diễn văn theo mơ hình vector tần suất 18 Bảng 1-2: So sánh đặc điểm tiếng Việt với đặc điểm tiếng Anh 22 Bảng 2-1: Phương pháp đánh giá 72 Bảng 2–2: Đánh giá nội dung văn trích rút 75 Bảng 2-3: Đánh giá theo độ trơn văn 75 Bảng 3-1: Gán nhãn theo số đông 98 Bảng 3-2: Thí dụ cụ thể 98 Bảng 4-1: Cơ sở liệu cho tập phân tách từ 107 Bảng 4-2: Cơ sở liệu cho tập trích rút văn 108 Bảng 4-3: Bảng chi tiết tập huấn luyện tập kiểm thử 109 Bảng 4-4: Kết đánh giá nội dung trích rút theo người sử dụng 111 Bảng 4-5: Kết đánh giá nội dung trích rút theo pp BLEU 112 Bảng 4-6: Kết đánh giá nội dung trích rút 113 Nguyễn Hồng Thái – Lớp cao học CNTT 2006-2008 ĐỒ ÁN TỐT NGHIỆP CAO HỌC ĐỀ TÀI: “TÓM TẮT VĂN BẢN TIẾNG VIỆT THEO CHỦ ĐỀ” MỤC LỤC LỜI CẢM ƠN LỜI NÓI ĐẦU DANH MỤC TỪ VIẾT TẮT DANH MỤC HÌNH VẼ DANH MỤC BẢNG MỤC LỤC CHƯƠNG 1: CƠ SỞ LÝ THUYẾT 1.1 NHIỆM VỤ CỦA ĐỒ ÁN 1.2 KHAI PHÁ DỮ LIỆU VĂN BẢN 1.2.1 Khái niệm khai phá liệu văn 11 1.2.2.1 Thuật ngữ - Từ khóa – Khái niệm 12 1.2.2.2 Từ dừng 13 1.2.2.3 Trọng số thuật ngữ 14 1.2.3 Các toán xử lý văn 14 1.2.3.1 Tìm kiếm văn (Text Retrieval) 14 1.2.3.2 Phân lớp văn (Text categorization, Text classification) 15 1.2.3.3 Phân nhóm văn (Text clustering) 15 1.2.3.4 Tóm tắt văn (Text summarization) 15 1.2.3.5 Dẫn đường văn (Text rounting) 16 1.2.4 Các phương pháp biểu diễn văn 17 1.2.5 Mô hình độ đo xử lý văn 20 1.3 XỬ LÝ VĂN BẢN GẮN LIỀN VỚI XỬ LÝ NGÔN NGỮ TỰ NHIÊN 21 1.3.1 Tại xử lý văn lại gắn liền với xử lý ngôn ngữ tự nhiên? 21 1.3.2 Một số khái niệm, thuật ngữ ngôn ngữ 23 1.3.2.1 Thuật ngữ bàn ngôn ngữ 23 1.3.2.2 Từ loại 24 1.3.2.3 Ngữ loại 24 1.3.2.4 Các thành phần câu 24 1.3.3 Các tốn ngơn ngữ tự nhiên 25 1.3.3.1 Bài toán phân tách từ vựng 25 1.3.3.2 Bài toán gán nhãn từ loại 26 1.3.3.3 Bài tốn phân tích cú pháp 27 1.3.3.4 Bài tốn phân tích ngữ nghĩa 28 1.3.4 Các đặc trưng ngôn ngữ tiếng Việt 29 1.3.4.1 Một số đơn vị đặc trưng tiếng việt 30 1.3.4.2 Các đặc điểm tả tiếng Việt 30 1.3.4.3 Từ tiếng Việt 31 1.3.4.4 Đánh giá phương pháp xử lý tiếng Việt 32 1.3.4.5 Các chuẩn font tiếng Việt sử dụng 32 Kết luận xử lý ngôn ngữ tự nhiên 33 KẾT CHƯƠNG 34 CHƯƠNG 2: CÁC BÀI TOÁN SỬ DỤNG TRONG ĐỀ TÀI 35 2.1 BÀI TOÁN TÁCH TỪ TIẾNG VIỆT 35 2.1.1 Những khó khăn tách từ tiếng Việt 35 2.1.2 Các phương pháp tách từ 35 2.1.3 Các phương pháp tách từ tiếng Việt 40 2.1.4 So sánh phương pháp tách từ tiếng Việt 46 2.2 BÀI TỐN PHÂN NHĨM VĂN BẢN 47 Nguyễn Hồng Thái – Lớp cao học CNTT 2006-2008 ĐỒ ÁN TỐT NGHIỆP CAO HỌC ĐỀ TÀI: “TÓM TẮT VĂN BẢN TIẾNG VIỆT THEO CHỦ ĐỀ” 2.2.1 Khái niệm 47 2.2.2 Các giải thuật 47 2.2.3 Kết luận tốn phân nhóm 49 2.3 BÀI TOÁN PHÂN LỚP VĂN BẢN 49 2.3.1 Các phương pháp phân loại văn 49 2.3.2 Các phương pháp phân loại văn tiếng Anh hành 50 2.3.3 Kết luận 54 2.4 BÀI TỐN TĨM TẮT VĂN BẢN 55 2.4.1 Giới thiệu tốn tóm tắt văn 55 2.4.2 Khái niệm Tóm tắt văn bản? 57 2.4.3 Mô hình tốn tóm tắt văn 59 2.4.4 Các phương pháp tóm tắt văn 61 2.4.5 Các phương pháp đánh giá 70 2.4.6 Đánh giá 71 2.4.7 Kết luận 75 KẾT CHƯƠNG 76 CHƯƠNG 3: GIẢI PHÁP TÓM TẮT VĂN BẢN THEO CHỦ ĐỀ 77 3.1 GIỚI THIỆU VỀ BÀI TỐN TĨM TẮT VĂN BẢN THEO CHỦ ĐỀ 77 3.1.1 Giới thiệu tính chủ đề tốn 77 3.1.2 Các khái niệm tóm tắt văn theo chủ đề 80 3.1.3 Các đặc trưng tóm tắt văn theo chủ đề chủ đề 81 3.1.3.1 Đặc trưng ngôn ngữ văn 81 3.1.3.2 Đặc trưng hệ thống tóm tắt tóm tắt văn theo chủ đề 84 3.1.4 Bài tốn tóm tắt văn theo chủ đề 85 3.2 MƠ HÌNH TÓM TẮT VĂN BẢN THEO CHỦ ĐỀ 85 3.2.1 Mơ hình tổng thể 85 3.2.2 Phương pháp xây dựng chủ đề 89 3.2.3 Xây dựng đặc trưng từ phương pháp học chủ đề 90 3.2.3.1 Học không giám sát – Phương pháp tìm khái niệm cho cho chủ đề 91 3.2.3.2 Học có giám sát – Phương pháp tìm chủ đề cho văn cần tóm tăt 92 3.2.4 Các thuật toán sử dụng 93 3.2.4.1 Thuật toán tách từ 93 3.2.4.2 Thuật tốn phân nhóm K - Mean 95 3.2.4.3 Thuật toán phân lớp KNN 97 3.2.4.4 Thuật tốn tóm tắt, trích rút 99 KẾT CHƯƠNG 101 CHƯƠNG 4: THIẾT KẾ, CÀI ĐẶT VÀ THỬ NGHIỆP PHẦN MỀM 103 4.1 XÁC ĐỊNH YÊU CẦU 103 4.2 PHÂN TÍCH THIẾT KẾ HỆ THỐNG 103 4.2.1 Thiết kế tổng thể 103 4.2.2 Chức hệ thống 104 4.3 CƠ SỞ DỮ LIỆU THỬ NGHIỆP 107 4.3.1 Tập văn gán nhãn sẵn 107 4.3.2 Tập kiểm thử vnexpress.net vietnamnet.vn 107 4.4 KẾT QUẢ THỬ NGHIỆP 109 4.4.1 Phương pháp đánh giá kết thử nghiệm 109 4.4.2 Tóm tắt văn tiếng Việt theo chủ đề 110 4.5 ĐÁNH GIÁ THỬ NGHIỆM 113 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 114 TÀI LIỆU THAM KHẢO 116 Nguyễn Hồng Thái – Lớp cao học CNTT 2006-2008 ĐỒ ÁN TỐT NGHIỆP CAO HỌC ĐỀ TÀI: “TÓM TẮT VĂN BẢN TIẾNG VIỆT THEO CHỦ ĐỀ” Nguyễn Hồng Thái – Lớp cao học CNTT 2006-2008 ĐỒ ÁN TỐT NGHIỆP CAO HỌC ĐỀ TÀI: “TÓM TẮT VĂN BẢN TIẾNG VIỆT THEO CHỦ ĐỀ” Chức Phân nhóm văn bản: Thực công việc phân tập văn cho trước thành k nhóm cho tài liệu nhóm tương tự Chức Phân lớp văn bản: Thực phân lớp cho văn truy vấn, đưa kết văn thuộc phân lớp tập mẫu Chức Trích rút văn bản: Trích rút ý từ văn gốc độ trích rút đưa vào Đây chức hệ thống 4.2.2 Chức hệ thống Giao diện Người - Máy Kho liệu Vector biểu diễn văn Bộ VÉC TƠ HÓA văn tiếng Việt Văn phân lớp tay (tập mẫu) Bộ PHÂN NHÓM Văn Bộ PHÂN LỚP Văn Văn cần TĨM TẮT PHÍA NGƯỜI DÙNG Phân tích, thống kê Văn Bộ trích rút PHÍA HỆ THỐNG Hình 4-2: Sơ đồ hệ thống Dữ liệu: Dữ liệu đầu vào: Văn cần tóm tắt, Mức độ tóm tắt Dữ liệu đầu ra: kết Tóm tăt văn truy vấn Chức tách từ: Gồm hai phận là: Bộ phân phân tách từ Bộ phận phát tên riêng Nguyễn Hồng Thái – Lớp cao học CNTT 2006-2008 104 ĐỒ ÁN TỐT NGHIỆP CAO HỌC ĐỀ TÀI: “TÓM TẮT VĂN BẢN TIẾNG VIỆT THEO CHỦ ĐỀ” Dữ liệu vào: Một văn tiếng Việt Từ điển tiếng Việt Dữ liệu ra: Phân tách văn tiếng Việt Chức phân nhóm văn bản: Tập mẫu đưa vào phân nhóm Qua vector hóa: Để biến thành vector Sử dụng giải thuật K – Mean đề phân nhóm Chức phân lớp văn bao gồm: Bộ vector hóa văn bản: văn đưa vào, gồm văn truy vấn cần phân lớp tập văn mẫu phân lớp, biểu diễn thành vector TF trước vào phân nhóm văn (đối với tập mẫu) xử lý phân lớp Bộ xử lý phân nhóm: Thực phân nhóm văn sử dụng thuật tốn K Mean Kết đầu nhóm văn mẫu Mỗi phân lớp văn mẫu gồm nhiều phân nhóm Mỗi văn thuộc vào phân nhóm Kho Dữ liệu: Chứa thơng tin nhóm văn mẫu biểu diễn dạng vector Bộ xử lý phân lớp: Thực phép xử lý phân lớp văn sử dụng thuật toán k-NN dựa vector trọng tâm nhóm văn mẫu vector biểu diễn văn truy vấn Chức Trích rút văn bản: Bộ phân tích, thống kê văn đầu vào Sử dụng kết ngữ liệu Bộ Phân nhóm văn Sử dụng kết phân lớp văn Thực đánh giá độ tương tự câu với câu chủ đề (Title) Nguyễn Hồng Thái – Lớp cao học CNTT 2006-2008 105 ĐỒ ÁN TỐT NGHIỆP CAO HỌC ĐỀ TÀI: “TÓM TẮT VĂN BẢN TIẾNG VIỆT THEO CHỦ ĐỀ” Tiến hành trích rút văn tiến hành: o Đánh giá tính chủ đề văn thơng qua q trình phân lớp văn o Đánh giá mức độ tóm tắt đoạn thông qua độ tương tự đoạn với chủ đề o Đánh giá mức độ quan trọng câu với ngữ liệu khái niệm liên quan lớn tới đoạn chủ đề phân lớp ưu tiên mức độ liên quan câu với câu chủ đề o Đưa câu cần trích rút Các bước thực hiện: Huấn luyện tập mẫu – Tạo phân lớp: Thao tác thực người dùng Các văn nhập vào dạng tệp tin txt (trong tương lai hệ thống mở rộng với định dạng file khác) Nhập văn cần tóm tắt: Thao tác thực người dùng, văn nhập vào dạng tệp tin txt Vector hóa văn bản: Đây bước tiền xử lý văn bản, văn thô qua vector hóa văn có nhiệm vụ tiền xử lý văn bản, tách term loại bỏ stopword, chuyển từ văn thô sang dạng dễ xử lý (dạng vector) Phân nhóm văn bản: Thực phân nhóm tập văn mẫu phân lớp sẵn vector hóa Kết lưu trữ kho liệu Đây tập khái niệm chủ đề phân lớp Phân lớp văn bản: Từ văn truy vấn cần phân lớp sau vector hóa, hệ thống sử dụng trọng tâm nhóm văn mẫu kho liệu để tìm phân lớp phù hợp cho văn truy vấn theo thuật tốn k-NN Từ tìm chủ đề văn Trích rút: Từ văn truy vấn đầu vào kết hợp với kết tập ngữ liệu phân nhóm kết phân lớp ta đưa kết trích rút Nguyễn Hồng Thái – Lớp cao học CNTT 2006-2008 106 ĐỒ ÁN TỐT NGHIỆP CAO HỌC ĐỀ TÀI: “TÓM TẮT VĂN BẢN TIẾNG VIỆT THEO CHỦ ĐỀ” 4.3 Cơ sở liệu thử nghiệm 4.3.1 Tập văn gán nhãn sẵn Tên văn STT Số từ Tên/ Nội dung văn bản Kích thước(Kb) Vb1.txt 6682 Những học nơng thơn 66 Vb2.txt 14277 Chuyện tình trước lúc rạng 148 đơng (Phần 1) Vb3.txt 12499 Chuyện tình trước lúc rạng 128 đông (Phần 2) Vb4.txt 1028 Tạp chí khoa học cơng nghệ 13.7 Vb5.txt 15532 Hồng tử bé Saint-Exupéry 150 Vb6.txt 10598 Một nhà khoa học tiếng 119 Vb7.txt 3117 Muối rừng 30.7 Tong.txt 63733 Là tệp tổng hợp từ tất 657 tệp Bảng 4-1: Cơ sở liệu cho tập phân tách từ 4.3.2 Tập kiểm thử vnexpress.net vietnamnet.vn Tập mẫu cho hệ thống: 90 80 70 60 50 40 30 20 10 Số viết Du Lịch Giáo Dục Kinh Ơ tơ - Pháp Doanh Xe m áy Luật Sức Khỏe Thể Thao Vi Tính Hình 4-3: Biểu đồ tập mẫu vnexpress.net vietnamnet.vn Nguyễn Hồng Thái – Lớp cao học CNTT 2006-2008 107 ĐỒ ÁN TỐT NGHIỆP CAO HỌC ĐỀ TÀI: “TÓM TẮT VĂN BẢN TIẾNG VIỆT THEO CHỦ ĐỀ” Dung lượng (Kb) Số lượng văn Du Lịch 335 86 Giáo dục 257 65 Kinh Doanh 263 66 Ơ tơ – Xe máy 226 48 Pháp Luật 247 72 Sức Khỏe 373 76 Thể Thao 310 42 Vi Tính 219 50 Bảng 4-2: Cơ sở liệu cho tập trích rút văn Nguyễn Hồng Thái – Lớp cao học CNTT 2006-2008 108 ĐỒ ÁN TỐT NGHIỆP CAO HỌC ĐỀ TÀI: “TÓM TẮT VĂN BẢN TIẾNG VIỆT THEO CHỦ ĐỀ” Tập mẫu cho phân lớp tập kiểm thử hệ thống: Dung lượng (Kb) Số lượng văn Tập mẫu Kiểm thử Tập mẫu Tập kiểm thừ Du Lịch 245 335 62 24 Giáo dục 185 257 41 24 Kinh Doanh 185 263 42 24 Ơ tơ – Xe máy 122 226 24 24 Pháp Luật 169 247 48 24 Sức Khỏe 267 373 52 24 Thể Thao 184 310 24 18 Vi Tính 107 219 26 24 Bảng 4-3: Bảng chi tiết tập huấn luyện tập kiểm thử 4.4 Kết thử nghiệm 4.4.1 Phương pháp đánh giá kết thử nghiệm Để đánh giá khả tóm tắt văn tiếng Việt theo chủ đề phạm vi đề tài này, em xin giới thiệu vắn tắt phương pháp sử dụng để đánh giá chất lượng văn tóm tắt: phương pháp BLEU Phương pháp dựa sở đánh giá mức độ trùng khớp dãy ký tự có độ dài n (phương pháp n-grams) tóm tắt máy tóm tắt tham khảo để đánh giá BLEU thực chất phương pháp dùng để đánh giá chất lượng dịch đề xuất bới IBM hội nghị ACL Philadelphie vào tháng 7-2001.Ý tưởng phương pháp so sánh kết dịch tự động máy với dịch chuẩn dùng làm đối chiếu Việc so sánh thực thông qua việc thống kê trùng khớp từ hai dịch có tính đến thứ tự chúng câu (phương pháp n-grams theo từ) Phương pháp dựa hệ số tương quan dịch máy dịch xác thực người để đánh giá chất lượng hệ thống dịch Nguyễn Hồng Thái – Lớp cao học CNTT 2006-2008 109 ĐỒ ÁN TỐT NGHIỆP CAO HỌC ĐỀ TÀI: “TÓM TẮT VĂN BẢN TIẾNG VIỆT THEO CHỦ ĐỀ” Việc đánh giá thực kết thống kê mức độ trùng khớp n-grams (dãy ký tự gồm n từ ký tự) từ kho liệu kết dịch kho dịch tham khảo có chất lượng cao Giải thuật IBM đánh giá chất lượng hệ thống dịch qua việc trùng khớp n-grams đồng thời dựa việc so sánh độ dài dịch Công thức đánh giá dựa phương pháp sau: j n − gram(i, j ) = BP * exp∑ wn log(Cn ) n =i Trong wn = với j>=i, j i từ 1- j − i +1 Hệ số BP tính theo cơng thức: BP = , if c ≤ r 1, if c > r 1− r − c e Với |c| chiều dài tóm tắt cần đánh giá, |r| chiều dài tóm tắt tham chiếu Cn = ∑ Count (n − gram) ∑ Count (n − gram) n − gram∈R match n − gram∈R Trong đó: R tóm tắt tham chiếu, Count match (n-gram) số n-gram đồng R tóm tắt cần đánh giá Count(n-gram) tổng số n-gram tóm tắt tham chiếu 4.4.2 Tóm tắt văn tiếng Việt theo chủ đề - Kết đánh giá nhận xét người sử dụng: Thử nghiệp 188 văn lấy từ tập mẫu www.vnexpress.net www.vietnamnet.vn Đánh giá nội dung: Kết trung bình: Số văn không đạt: 26/188 ~ 14 % Số văn đạt: 106/188 ~ 56% Số văn tốt: 56/188 ~ 30% Nguyễn Hồng Thái – Lớp cao học CNTT 2006-2008 110 ĐỒ ÁN TỐT NGHIỆP CAO HỌC ĐỀ TÀI: “TÓM TẮT VĂN BẢN TIẾNG VIỆT THEO CHỦ ĐỀ” Tiêu chí đánh giá Mức độ rút gọn Chưa đạt Đạt Tốt 10% 62 (33%) 97 (52%) 29 (15%) 20% 23 (12%) 102 (54%) 63 (34%) 30% 15 (8%) 107 (57%) 66 (35%) 40% (2%) 118 (63%) 67 (35%) Trung bình ~26 (14%) ~106 (56%) ~56 (30%) Bảng 4-4: Kết đánh giá nội dung trích rút theo người sử dụng 70 60 50 40 Chưa đạt Đạt Tốt 30 20 10 10% 20% 30% 40% Trung bình Hình 4-4: Biểu đồ kết đánh giá trích rút nội dung - Kết đánh giá công thức BLEU (đối tượng so sánh chương trình AutoSummarise MSWord ) Nguyễn Hồng Thái – Lớp cao học CNTT 2006-2008 111 ĐỒ ÁN TỐT NGHIỆP CAO HỌC ĐỀ TÀI: “TÓM TẮT VĂN BẢN TIẾNG VIỆT THEO CHỦ ĐỀ” Độ rút gọn 30% Tên chủ đề (mỗi chủ đề n-gram(1,1) n-gram(1,2) thử nghiệm văn ) AutoSummarise Du lịch 0,485 0,252 MSWord Giáo dục 0,581 0,305 Thể thao 0,620 0,313 Vi tính 0,583 0,297 Chương trình Du lịch 0,623 0,314 VNSUM Giáo dục 0,585 0,301 Thể thao 0,575 0,286 Vi tính 0,678 0,341 Bảng 4-5: Kết đánh giá nội dung trích rút theo pp BLEU Trên liệu thử nghiêm này, chương trình VNSUM cho kết khả quan chương trình AutoSummarise MSWord chủ đề Du lịch, Giáo dục, Vi tính - Đánh giá mức độ trơn văn bản: Kết trung bình: Số văn yếu: 28/188 ~ 15 % Số văn trung bình: 116/188 ~ 62% Số văn chấp nhận được: 44/188 ~ 23% Tiêu chí đánh giá Mức độ rút gọn Yếu Trung bình Chấp nhận 10% (4%) 135 (72%) 46 (24%) 20% 47 (25%) 99 (53%) 42 (22%) 30% 45 (24%) 103 (55%) 40 (21%) 40% 13 (7%) 128 (68%) 47 (25%) Trung bình ~28 (15%) ~116 (62%) 44 (23%) Nguyễn Hồng Thái – Lớp cao học CNTT 2006-2008 112 ĐỒ ÁN TỐT NGHIỆP CAO HỌC ĐỀ TÀI: “TÓM TẮT VĂN BẢN TIẾNG VIỆT THEO CHỦ ĐỀ” Bảng 4-6: Kết đánh giá nội dung trích rút 80 70 60 50 40 30 20 10 Yếu Trung Bình Chấp nhận 10% 20% 30% 40% Trung bình Hình 4-5: Biểu đồ kết đánh giá trích rút độ trơn Nhận xét: Độ trơn ứng dụng trích rút khơng đạt kết cao Lí khơng có giai đoạn hợp giải tham chiếu, biến đổi câu Khi độ trích rút mức nhỏ 10% có câu trích rút nên độ trơn đạt kết cao có 7% yếu Độ trơn đạt kết khơng cao độ trích rút 30%, 40% đạt kết tốt độ trơn 40% Khi số câu đủ nhiều đoạn 4.5 Đánh giá thử nghiệm Dựa kết tách từ, tìm chủ đề, trích rút văn nhận thấy: Kết tách từ, tìm chủ đề đạt kết cao dự kiến Tách từ đạt khoảng 96%, kết tìm chủ đề đạt 95% Kết trích rút đáp ứng yêu cầu người sử dụng dựa phương diện nội dung trích rút độ trơn trích rút Về mức chấp nhận nội dung trích rút đạt khoảng 86%, cịn mức độ trơn văn đạt 72% Kết phản ánh đắn hướng tiếp cận cho toán tóm tắt văn tiếng Việt Nguyễn Hồng Thái – Lớp cao học CNTT 2006-2008 113 ĐỒ ÁN TỐT NGHIỆP CAO HỌC ĐỀ TÀI: “TÓM TẮT VĂN BẢN TIẾNG VIỆT THEO CHỦ ĐỀ” KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN Các kết đạt được: Trong luận văn này, người viết nghiên cứu, đề xuất hướng tiếp cận tốn tóm tắt văn tiếng Việt trình bày kết nghiên cứu thử nghiệm theo hướng tiếp cận tiến hành khoảng thời gian nghiên cứu gần năm vừa qua với Cô giáo, TS Lê Thanh Hương Trong người viết luận văn xây dựng ứng dựng tóm lược dựa vào yếu tố lĩnh vực ứng dụng thực tiễn Văn cần trích rút theo lĩnh vực phù hợp với nội dung Khi đánh giá văn đầu vào không dựa thông tin thu từ phân tích từ văn gốc mà dựa thông tin lĩnh vực thuộc Việc xây dựng đặc trưng để đánh giá nội dung văn cần trích rút chủ yếu dựa vào việc xây dựng ngữ liệu từ tập mẫu phân lớp Xây dựng phân lớp dựa vào kỹ thuật học có giám sát học khơng giám sát Đây trình xây dựng đặc trưng cho tập mẫu phục vụ trực tiếp cho trình trích rút Trong kỹ thuật học có giám sát thực tay đảm bảo nội dung lĩnh vực, chủ đề mơ hình phù hợp với thực tiễn Đây xương sống chủ đề đặc trưng cho chủ đề Kỹ thuật học không giám sát phân tách chủ đề thành thành phần riêng biệt gọi khái niệm chủ đề Đó q trình tự động máy làm Kỹ thuật kết hợp với kỹ thuật học có giám sát đảm bảo hài hịa việc đánh giá nội dung văn cần trích rút hay hài hịa nội dung thực tế với nội dung máy đánh giá quan điểm máy, dựa chủ yếu quan điểm đánh giá đặc trưng thuật ngữ Quá trình mang lại đặc trưng cho thành phần chủ đề Đó khái niệm chủ đề Sau xây dựng xong ngữ liệu dựa vào q trình học khơng giám sát học có giám sát chương trình vào giai đoạn trích rút thông tin dựa văn đầu vào mức độ trích rút Xây dựng q trình trích rút thơng tin dựa vào văn đầu vào, độ trích rút dựa vào tập mẫu vừa tạo Đó trình văn đầu vào xác định chủ đề mà nội dung hướng tới thơng qua q trình phân lớp Đến đây, thu tính chủ đề khái quát văn Tiếp đến đoạn văn Nguyễn Hồng Thái – Lớp cao học CNTT 2006-2008 114 ĐỒ ÁN TỐT NGHIỆP CAO HỌC ĐỀ TÀI: “TÓM TẮT VĂN BẢN TIẾNG VIỆT THEO CHỦ ĐỀ” cần trích rút (tưng ứng với khái niệm văn bản) đối sách với với khái niệm chủ để phân lớp câu chủ đề văn Từ tìm khái niệm tương ứng cần trích rút Hướng phát triển: Xây dựng hoàn chỉnh phân lớp tiếng Việt Giải tốn đồng tham chiếu tóm tắt văn tạo văn tóm tắt trơn chu hơn, dễ hiểu Đi sâu vào nhận dạng tên riêng tiếng Việt tạo thông tin phong phú cho văn cần tóm tắt Nguyễn Hồng Thái – Lớp cao học CNTT 2006-2008 115 ĐỒ ÁN TỐT NGHIỆP CAO HỌC ĐỀ TÀI: “TÓM TẮT VĂN BẢN TIẾNG VIỆT THEO CHỦ ĐỀ” TÀI LIỆU THAM KHẢO [1] Chih – Hao Tsai, A word indentification System for Mandarin Chinese Text base on two Variants of the maximum matching algorithim [2] Dinh Dien - Hoang Kiem - Nguyen Van Toan, Vietnamese Word Segmentation; Faculty of Information Technology National University of HCM City [3] Đinh Điền, Xây dựng khai thác Kho ngữ liệu song ngữ Anh - Việt điện tử, Luận án tiến sĩ ngữ văn, 2004 [4] Hồng Đức Đơng, Tóm tắt văn tiếng Việt, Luận văn Thạc sĩ khoa CNTT [5] D Lewis(1991), Representation and Learning in Information Retrieval, PhD Thesis, Graduate School of the University of Massachusetts [6] Dasarathy, NN pattern classication [7] Eui-Hong (Sam) Han - George Karypis - Vipin Kumar(1999), Text Categorization Using Weight Adjusted k-Nearest Neighbor Classification [8] Eduard Hovy & Daniel Marcu, Automated Text Summarization Tutorial, COLING/ACL ’98 [9] Foo S, Lee h, Chise word segmentation and Its effect on Information retrieval [10] Đinh Điền, Ứng dụng Ngữ liệu song ngữ Anh - Việt điện tử ngành ngôn ngữ học so sánh, tạp chí Ngơn ngữ, Viện ngơn ngữ học, 2002 [11] Đinh Điền, Giáo trình xử lý ngôn ngữ tự nhiên, Trường đại học khoa học tự nhiên TP HCM 12/2004 [12] George Karypis and Eui-Hong (Sam) Han, Concept Indexing A Fast Dimensionality Reduction Algorithm with Applications to Document Retrieval & Categorization, http://www.cs.umn.edu/˜karypis [13] Hồ Tú Bảo(12-2003), Knowledge Discovery anh Data Mining, Viện CNTTViện khoa học công nghệ tiên tiến Nhật Bản JAIST, Bài giảng Đại học Bách Khoa Hà Nội Nguyễn Hồng Thái – Lớp cao học CNTT 2006-2008 116 ĐỒ ÁN TỐT NGHIỆP CAO HỌC ĐỀ TÀI: “TÓM TẮT VĂN BẢN TIẾNG VIỆT THEO CHỦ ĐỀ” [14] Hoàng Phê, Ngữ pháp tiếng Việt, Nhà xuất giáo dục [15] H Nguyễn et al, Internet and genetics algrothim – base Text categorization for document in Vietnammese, RIFT 2005 [16] Inderjeet MANI, Summarization Evaluation: An Overview [17] Jing, H., Sentence reduction for automatic text summarization, Proc Of [18] Knight, K and Marcu, D., Statistics-Based Summarization Step One:Sentence Compression, Proc of AAAI2000, 2000 [19] K Murat Karakaya and H Altay Güvenir, Arg: Atool for Automatic report generation, Bilkent University, Department of Computer Engineering, 06533 Bilkent, Ankara, TURKEY [20] Mani & Maybury, Automatic Summarization, ACL 2001 [21] Nguyễn Tài Cẩn, Ngữ pháp tiếng Việt (Tiếng - Từ ghép - Đoản Ngữ), NXB Đại học Quốc gia Hà Nội, 1998 [22] Nie J.Y et al, On Chinese Text retrieval [23] Partha Lal, Text Summarization, Doctor thesis, 07/2002 [24] Regina Barzilay, Lexical Chains for Summarization, M.Sc Thesis, 11/97 [25] Nguyễn Ngọc Bình, Vũ Ngọc Tiệp, Nguyễn Thanh Phương Trích chọn từ khóa văn tiếng Việt Hội thảo khoa học quốc gia Nghiên cứu phát triển ứng dụng Công nghệ thông tin truyền thông ICT.RDA lần thứ II, Hà nội 24-25/9/2004 Kỷ yếu Hội thảo – Trang 216- 225 [26] R Radev Et All, Evaluation challenges in large-scale document summarization, ACL ’03 [27] R Radev Et All, Evaluation challenges in large-scale document summarization, ACL ’03 [28] Nguyễn Tài Cẩn, Ngữ pháp tiếng Việt (Tiếng - Từ ghép - Đoản Ngữ), NXB Đại học Quốc gia Hà Nội, 1998 [29] R Radev Et All, Evaluation challenges in large-scale document summarization, Nguyễn Hồng Thái – Lớp cao học CNTT 2006-2008 117 ĐỒ ÁN TỐT NGHIỆP CAO HỌC ĐỀ TÀI: “TÓM TẮT VĂN BẢN TIẾNG VIỆT THEO CHỦ ĐỀ” [30] Vapnik, The nature of Statistical Learning theory [31] Chin-Yew Lin, Eduard Hovy Automatic Evaluation of Summaries Using Ngram Co-Occurrence Statistics Nguyễn Hồng Thái – Lớp cao học CNTT 2006-2008 118 ... trưng tóm tắt văn theo chủ đề chủ đề 81 3.1.3.1 Đặc trưng ngôn ngữ văn 81 3.1.3.2 Đặc trưng hệ thống tóm tắt tóm tắt văn theo chủ đề 84 3.1.4 Bài tốn tóm tắt văn theo chủ đề ... GIẢI PHÁP TÓM TẮT VĂN BẢN THEO CHỦ ĐỀ 77 3.1 GIỚI THIỆU VỀ BÀI TỐN TĨM TẮT VĂN BẢN THEO CHỦ ĐỀ 77 3.1.1 Giới thiệu tính chủ đề toán 77 3.1.2 Các khái niệm tóm tắt văn theo chủ đề ... NGHIỆP CAO HỌC ĐỀ TÀI: “TÓM TẮT VĂN BẢN TIẾNG VIỆT THEO CHỦ ĐỀ” Nguyễn Hồng Thái – Lớp cao học CNTT 2006-2008 ĐỒ ÁN TỐT NGHIỆP CAO HỌC ĐỀ TÀI: “TÓM TẮT VĂN BẢN TIẾNG VIỆT THEO CHỦ ĐỀ” CHƯƠNG 1: