Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 57 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
57
Dung lượng
1,83 MB
Nội dung
1 ĐẠI HỌC THÁI NGUYÊN TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THƠNG TIN VÀ TRUYỀN THƠNG NGUYỄN CẢNH TỒN NGHIÊN CỨU VÀ PHÁT TRIỂN PHƢƠNG PHÁP RÚT GỌN CÂU TIẾNG VIỆT DỰA TRÊN PHƢƠNG PHÁP HỌC KHÔNG GIÁM SÁT Chuyên ngành: Khoa học máy tính Mã số: 60.48.01.01 LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH Ngƣời hƣớng dẫn khoa học: TS Nguyễn Thị Thu Hà THÁI NGUYÊN - 2013 Số hóa trung tâm học liệu http://www.lrc-tnu.edu.vn/ i LỜI CẢM ƠN Để hoàn tất luận văn thạc sĩ yêu cầu tập trung, cố gắng độc lập nghiên cứu Bản thân sau năm tháng học tập vất vả nghiên cứu cố gắng để hồn thành luận văn Tơi ln ghi nhận đóng góp giúp đỡ nhiệt tình người bên cạnh mình, ủng hộ, hỗ trợ bố mẹ bạn bè giúp tơi có thêm động lực để hồn thành khóa luận tốt nghiệp, nhân muốn gửi lời cảm ơn tới họ Lời cảm ơn trân trọng muốn dành tới TS Nguyễn Thị Thu Hà, hướng dẫn suốt trình làm luận văn, nhờ định hướng cô giúp tự tin nghiên cứu vấn đề giải toán cách khoa học Tôi xin trân trọng cảm ơn Ban giám hiệu trường đại học công nghệ thông tin, Đại học Thái nguyên, khoa CNTT tạo điều kiện cho chúng tơi học tập làm khóa luận cách thuận lợi Lời cảm ơn sâu sắc muốn gửi tới thầy cô giáo dạy dỗ mở cho thấy chân trời tri thức mới, hướng dẫn cách khám phá làm chủ công nghệ Tôi muốn gửi lời cảm ơn chân thành đến tập thể lớp CHK10D-KHMT qua tháng ngày miệt mài học tập, chia sẻ niềm vui nỗi buồn, động viên qua khó khăn, để tơi vững bước vượt qua vất vả, tâm hoàn thành luận văn Tôi xin trân trọng cảm ơn bố mẹ, người mang tới tất niềm tin, định hướng theo dõi suốt chặng đường đời Nâng đỡ đến bên tơi giây phút khó khăn sống Tuy nhiên thời gian có hạn, nỗ lực cố gắng luận văn khó tránh khỏi thiếu sót Rất mong bảo, góp ý tận tình Q thầy bạn Số hóa trung tâm học liệu http://www.lrc-tnu.edu.vn/ ii MỤC LỤC LỜI CẢM ƠN i MỤC LỤC ii DANH MỤC TỪ VIẾT TẮT iv DANH MỤC HÌNH VẼ v DANH MỤC BẢNG BIỂU vi MỞ ĐẦU Chƣơng 1: TỔNG QUAN VỀ TÓM TẮT VĂN BẢN DỰA TRÊN CÁCH TIẾP CẬN RÚT GỌN CÂU 1.1 Tổng quan tốn tóm tắt văn 1.1.1 Tổng quan 1.1.2 Một số phương pháp tóm tắt văn 1.2 Tóm tắt văn dựa cách tiếp cận rút gọn câu 13 1.2.1 Khái niệm rút gọn câu 13 1.2.2 Một số phương pháp rút gọn câu 15 1.3 Đánh giá tóm tắt 16 1.3.1 Đánh giá theo cách thủ công 16 1.3.2 Phương pháp đánh giá BLEU 16 1.3.3 Phương pháp đánh giá ROUGE 17 1.4 Kết luận chương 17 Chƣơng 2: PHƢƠNG PHÁP RÚT GỌN CÂU TIẾNG VIỆT DỰA TRÊN KỸ THUẬT HỌC KHÔNG GIÁM SÁT 18 2.1 Máy học mơ hình n-grams 18 2.1.1 Khái niệm máy học 18 2.1.2 Mơ hình n-grams 19 2.2 Đặc điểm văn tiếng Việt 22 22 Số hóa trung tâm học liệu http://www.lrc-tnu.edu.vn/ iii 22 23 2.3 Phương pháp rút gọn câu tiếng Việt dựa kỹ thuật học không giám sát 24 2.3.1 Giới thiệu 24 2.3.2 Phương pháp biểu diễn văn 25 2.3.3 Kỹ thuật giảm chiều vector biểu diễn văn tiếng Việt 30 2.3.4 Phương pháp rút gọn câu tiếng Việt dựa kỹ thuật học không giám sát 35 2.4 Kết luận chương 36 Chƣơng 3: XÂY DỰNG ỨNG DỤNG RÚT GỌN CÂU DỰA TRÊN KỸ THUẬT HỌC KHÔNG GIÁM SÁT 37 3.1 Kiến trúc tổng quát hệ thống 37 3.2 Xây dựng tập liệu tập từ điển danh từ 38 3.2.1 Xây dựng tập liệu 38 3.2.2 Tiền xử lý chuẩn hóa liệu 38 3.2.3 Xây dựng từ điển danh từ 39 3.3 Môi trường cài đặt 41 3.3.1 Môi trường cài đặt hệ thống 41 3.3.2 Cơ sở liệu hệ thống 41 3.3.3 Một số giao diện hệ thống 41 3.4 Kết thực nghiệm 44 KẾT LUẬN 46 TÀI LIỆU THAM KHẢO 47 Số hóa trung tâm học liệu http://www.lrc-tnu.edu.vn/ iv DANH MỤC TỪ VIẾT TẮT NLP Natural Language Processing Số hóa trung tâm học liệu Xử lý ngơn ngữ tự nhiên http://www.lrc-tnu.edu.vn/ v DANH MỤC HÌNH VẼ Hình 1.1 Hệ thống tóm tắt trực tuyến Text compactor Hình 1.2 Hệ thống tóm tắt ngoại tuyến Hình 1.3 Cây cấu trúc tu từ 11 Hình 2.1 Mơ hình không gian vector 26 Hình 2.2 Biểu diễn văn theo mơ hình véc tơ 26 Hình 2.3 Biểu diễn văn theo mơ hình Boolean 27 Hình 2.4 Ma trận biểu diễn văn 30 Hình 2.5 Ma trận ví dụ 31 Hình 2.6 Mơ hình giảm chiều véc tơ 31 Hình 2.7 Quan hệ văn thuật ngữ 32 Hình 2.8 Một mơ hình rút gọn đặc trưng văn 33 Hình 2.9 Mơ hình đồ thị lưới 35 Hình 3.1 Sơ đồ chức hệ thống rút gọn câu tiếng Việt 37 Hình 3.2 Biểu đồ Use case tổng quát 38 Hình 3.3 Văn chuẩn hóa 39 Hình 3.4 Hệ thống vlsp 40 Hình 3.5 Cơ sở liệu hệ thống 41 Hình 3.6 Giao diện huấn luyện hệ thống 42 Hình 3.7 Kết rút gọn câu 42 Hình 3.8 Cửa sổ chọn file 43 Hình 3.9 Chức quản lý từ điển 43 Số hóa trung tâm học liệu http://www.lrc-tnu.edu.vn/ vi DANH MỤC BẢNG BIỂU Bảng 2.1 Mô tả tần suất từ 21 Bảng 2.2 Câu tương ứng 21 Bảng 2.3 Xác suất điều kiện 22 Bảng 3.1 Danh sách từ chủ đề kho ngữ liệu 40 Bảng 3.2 Bảng thực nghiệm 44 Số hóa trung tâm học liệu http://www.lrc-tnu.edu.vn/ MỞ ĐẦU Thơng tin đóng vai trị quan trọng xã hội đại Lượng lớn thông tin tạo đưa lên Internet hàng mang lại cho người tiện ích tra cứu thơng tin Các hệ thống tìm kiếm, tra cứu nghiên cứu, đề xuất xây dựng thỏa mãn phần yêu cầu người dùng đặt Tuy nhiên, số lượng thông tin nhiều, kết thường trả hàng triệu tới hàng trăm triệu ghi tương đương với câu truy vấn mà người dùng nhập vào Tóm tắt văn kỹ thuật cho phép máy tính tự động tạo văn tóm tắt từ nhiều văn gốc khác Nhờ tính tóm tắt nội dung tổng hợp nội dung quan trọng từ văn gốc mà tóm tắt văn lĩnh vực nhà nghiên cứu quan tâm từ năm 60 kỷ 20 chủ đề nóng diễn đàn, hội thảo giới Các phương pháp tóm tắt văn truyền thống thường dựa cách tiếp cận trích rút câu Có nghĩa, văn tóm tắt tạo thành từ câu lựa chọn từ văn gốc Do đó, mặt ngữ nghĩa nội dung văn tóm tắt thường rời rạc, dẫn đến văn thiếu độ liền mạch (coherence) súc tích (concise) Một số phương pháp tóm tắt đại thường đề cập tới vấn đề xử lý ngơn ngữ tự nhiên để văn tóm tắt có độ ngôn ngữ (linguistic score) tốt, đồng thời phản ánh liền mạch nội dung văn gốc Một kỹ thuật kỹ thuật rút gọn câu Với kỹ thuật rút gọn câu nay, có sử dụng hai kỹ thuật học giám sát không giám sát Trong cách học giám sát, tác giả thường đề cập tới mơ hình học thống kê yêu cầu xây dựng kho liệu dùng cho huấn luyện tương đối tỉ mỉ theo cách thủ công Để xây dựng kho liệu này, cần nhiều thời gian công sức theo cách thủ công Bên cạnh đó, thuật tốn phương pháp rút gọn câu chủ yếu tìm Số hóa trung tâm học liệu http://www.lrc-tnu.edu.vn/ kiếm câu rút gọn tương đương kho liệu có sẵn, dẫn tới độ phức tạp thuật tốn cao Trong khn khổ đề tài luận văn, sử dụng cách tiếp cận rút gọn câu dựa phương pháp học không giám sát để: - Tiết kiệm tối đa chi phí xây dựng kho ngữ liệu thủ công - Giảm độ phức tạp tính tốn mặt thời gian Luận văn chia thành chương với nội dung sau: Chƣơng 1: Tổng quan tóm tắt văn dựa cách tiếp cận rút gọn câu Chƣơng 2: Phƣơng pháp rút gọn câu dựa phƣơng pháp học không giám sát Chƣơng 3: Xây dựng ứng dụng rút gọn câu dựa phƣơng pháp học khơng giám sát Số hóa trung tâm học liệu http://www.lrc-tnu.edu.vn/ Chƣơng 1: TỔNG QUAN VỀ TÓM TẮT VĂN BẢN DỰA TRÊN CÁCH TIẾP CẬN RÚT GỌN CÂU Trong chương này, tơi trình bày khái niệm, định nghĩa tóm tắt văn bản, tổng quan phương pháp tóm tắt văn Các cách tiếp cận phương pháp đánh giá tóm tắt 1.1 Tổng quan tốn tóm tắt văn 1.1.1 Tổng quan 1.1.1.1 Khái niệm Sự gia tăng nhanh chóng liệu Internet mang lại cho người dùng tiện ích to lớn Tra cứu, tìm kiếm thơng tin, ứng dụng bán hàng, giao dịch trao đổi thơng tin qua Internet Tóm tắt văn thuộc lĩnh vực xử lý ngôn ngữ tự nhiên Trải qua nửa kỷ phát triển tới ngày nay, tóm tắt văn coi chủ đề quan trọng hội thảo, hội nghị nhiều học giả, chuyên gia, nhà nghiên cứu quan tâm Các hội thảo chủ đề xử lý ngôn ngữ tự nhiên thường niên bao gồm chủ đề (track) liên quan đến tóm tắt văn động (WAS 2000, 2001, 2002), nhiều chủ đề đặc biệt hội thảo ACL, COLING, SIGIR tổ chức Chính phủ nhiều nước giới Nhật, Mỹ, Anh, Trung Quốc, đầu tư nhiều kinh phí cho việc phát triển hệ thống tóm tắt văn tự động trực tuyến (online) ngoại tuyến (offline) Số hóa trung tâm học liệu http://www.lrc-tnu.edu.vn/ 36 Từ đồ thị lưới trên, tổng kết bước phương pháp sinh câu rút gọn sau: - Bước 1: Tách từ câu thành tập riêng biệt Tập từ chủ đề tập từ khác - Bước 2: Tính trọng số từ chủ đề theo công thức (2-13) - Bước 3: Thể từ lưới hình 2.10 - Bước 4: Sinh câu rút gọn coi tốn tìm đường từ nút trái bên tới nút bên phải Câu rút gọn sinh dựa hình chiếu từ tính tổng S={S1,S2,…,Sn} theo nguyên tắc sau: o Đi qua từ chủ đề chọn o Đảm bảo các Si 0 o Chọn câu ngắn o Đảm bảo đường dẫn thuộc Si 0 2.4 Kết luận chƣơng Trong chương 2, tơi trình bày phương pháp rút gọn câu tiếng Việt dựa kỹ thuật học không giám sát Trong phương pháp này, tơi tối ưu hóa tìm câu rút gọn tốt cách sử dụng quy hoạch động tìm đường ngắn mà đảm bảo ngữ pháp câu Số hóa trung tâm học liệu http://www.lrc-tnu.edu.vn/ 37 Chƣơng XÂY DỰNG ỨNG DỤNG RÚT GỌN CÂU DỰA TRÊN KỸ THUẬT HỌC KHÔNG GIÁM SÁT Trong chương này, luận văn trình bày phương pháp lựa chọn liệu, lưu trữ xây dựng hệ thống ứng dụng rút gọn câu dựa kỹ thuật học khơng giám sát, đồng thời luận văn có thử nghiệm, đánh giá phương pháp cài đặt với tập liệu văn tiếng Việt 3.1 Kiến trúc tổng quát hệ thống Hệ thống tóm tắt văn dựa cách tiếp cận rút gọn câu chia thành pha chính: Pha huấn luyện pha rút gọn - Pha huấn luyện: Là pha tách từ chủ đề tính giá trị trọng số từ chủ đề kho ngữ liệu lưu vào sở liệu - Pha rút gọn: Pha thực rút gọn câu Chức hệ thống mơ tả hình vẽ 3.1 HỆ THỐNG RÚT GỌN CÂU TIẾNG VIỆT HUẤN LUYỆN RÚT GỌN CÂU Hình 3.1 Sơ đồ chức hệ thống rút gọn câu tiếng Việt Hình 3.2 mô tả biểu đồ ca sử dụng tổng quát hệ thống Trong biểu đồ use case tổng quát Các tác nhân bao gồm có người quản trị hệ thống người dùng Người quản trị có quyền thêm liệu, sửa liệu, xóa liệu, huấn luyện, xem thông tin Tác nhân người dùng quyền nhập liệu văn xem thông tin kết hiển thị hệ thống Số hóa trung tâm học liệu http://www.lrc-tnu.edu.vn/ 38 Thêm liệu Người dùng Sửa liệu «uses» «uses» «uses» Rút gọn câu «uses» «uses» Người quản trị Xóa liệu «uses» Huấn luyện Hình 3.2 Biểu đồ Use case tổng quát 3.2 Xây dựng tập liệu tập từ điển danh từ 3.2.1 Xây dựng tập liệu Tập liệu sử dụng rút gọn câu sử dụng luận văn tập văn tiếng Việt Luận văn xây dựng kho ngữ liệu cách thủ công Nguồn thông tin sử dụng chủ yếu từ trang web: http://thongtincongnghe.com, http://Echip.com, http://vnexpress.net, http://vietnamnet.vn, http://Ngoisao.net, http://Tin247.com,… kho liệu bao gồm 300 văn 3.2.2 Tiền xử lý chuẩn hóa liệu Tập văn đầu vào văn dạng thô, để đơn giản cho việc xử lý liệu, với văn đầu vào, ta thực hiệc qua bước tiền xử lý ký tự để đưa văn dạng xâu chuẩn Ở xâu chuẩn xâu mà khơng Số hóa trung tâm học liệu http://www.lrc-tnu.edu.vn/ 39 có dấu cách liền nhau, có dấu câu kết thúc xâu, trước dấu câu khơng có dấu cách Để có xâu chuẩn, chuẩn bị cho việc tách từ, ta thực qua bước sau: Chuyển hết ký tự chữ hoa thành chữ thường Dùng dấu câu (bao gồm dấu “.” “,” “:”…) để tách văn thành tâp hợp câu Ta tách âm tiết cách dấu câu không thuộc từ Tiến hành chuẩn hố với câu: Khi có >1 dấu cách đứng kề nhau, loại bớt đi, để lại dấu cách loại bỏ dấu cách đầu cuối câu Hình 3.3 mơ tả văn tiền xử lý chuẩn hóa lưu trữ sở liệu hệ thống Hình 3.3 Văn chuẩn hóa 3.2.3 Xây dựng từ điển danh từ Từ tập liệu huấn luyện ban đầu sau q trình chuẩn hóa văn ta xây dựng từ điển bao gồm danh từ Để xây dựng từ điển danh từ này, phải xây dựng cách thủ công dựa hệ thống gán nhãn từ loại lưu vào sở liệu hệ thống Hình 3.4 hệ thống gán nhãn từ loại mà luận văn sử dụng trình xây dựng từ điển danh từ thủ cơng Số hóa trung tâm học liệu http://www.lrc-tnu.edu.vn/ 40 Hình 3.4 Hệ thống vlsp Bảng 3.1 mô tả cấu trúc bảng bao gồm danh từ tách từ tập liệu văn [5] Bảng 3.1 Danh sách từ chủ đề kho ngữ liệu STT 10 11 12 13 14 15 16 17 18 19 20 Từ chủ đề nhớ xử lý cấu hình chat internet Lan Đĩa cứng hệ điều hành Hacker trình duyệt wifi Tín hiệu windows bo mạch chủ vista giao diện Mã nguồn mở Tín hiệu điện thoại hiệu Số hóa trung tâm học liệu Giá trị thông tin 0.057 0.032 0.077 0.045 0.340 0.114 0.008 0.176 0.045 0.032 0.016 0.036 0.012 0.012 0.053 0.081 0.024 0.036 0.303 0.036 http://www.lrc-tnu.edu.vn/ 41 3.3 Môi trƣờng cài đặt 3.3.1 Môi trường cài đặt hệ thống Hệ thống xây dựng web để thuận tiện cho việc tra cứu trực tuyến Hệ thống sử dụng ngôn ngữ C# visual studio 2010 3.3.2 Cơ sở liệu hệ thống Cơ sở liệu hệ thống mô tả thông tin lưu trữ hệ thống sở liệu Bao gồm thông tin văn tập liệu (Text_Instructor), bảng từ điển chứa từ (Vocabulary_Smr), bảng từ dừng (Tbl_stopword), Hình 3.5 mơ tả sở liệu hệ thống rút gọn câu tiếng Việt Hình 3.5 Cơ sở liệu hệ thống 3.3.3 Một số giao diện hệ thống 3.3.3.1 Giao diện Hệ thống rút gọn câu tiếng Việt có hai pha Giao diện mơ tả giao diện pha huấn luyện Các văn học để cập nhật trọng số vào sở liệu hệ thống Số hóa trung tâm học liệu http://www.lrc-tnu.edu.vn/ 42 Hình 3.6 Giao diện huấn luyện hệ thống Hình 3.7 mơ tả giao diện người dùng rút gọn câu Hình 3.7 Kết rút gọn câu Hình 3.8 mơ tả phần quản lý hệ thống Đây phần lưu sở liệu hệ thống hay gọi kho ngữ liệu gồm nhiều văn khác Số hóa trung tâm học liệu http://www.lrc-tnu.edu.vn/ 43 Hình 3.8 Cửa sổ chọn file 3.3.3.2 Quản lý từ điển Hình 3.9 mơ tả chức quản lý từ điển danh từ Các tính quản lý bao gồm: thêm danh từ, sửa danh từ, xóa danh từ, cập nhật danh từ Hình 3.9 Chức quản lý từ điển Số hóa trung tâm học liệu http://www.lrc-tnu.edu.vn/ 44 3.4 Kết thực nghiệm Đối với tóm tắt kiểu trích rút câu, để đánh giá kết thực nghiệm sử dụng độ đo recall precision để đánh giá độ xác hệ thống kết cho người Tuy nhiên, với hệ thống tóm tắt dựa rút gọn câu, ta phải đánh giá dựa phần phương pháp thủ cơng Có độ đo sử dụng đánh giá rút gọn câu: - Độ đo trùng lặp từ trích rút dùng độ đo precision - Độ đo ngữ pháp câu Dựa độ đo trên, việc thực đánh giá cần lưu trữ bảng liệu với thơng số: Độ xác độ ngữ pháp câu Việc thực nghiệm tiến hành 30 văn với 100 câu gốc Đánh giá câu thực độc lập kết hệ thống kết người: - Đánh giá độ xác: 100 câu gốc in phiếu đưa tới nhiều người khác để tiến hành rút gọn thủ công Tiếp theo sử dụng công thức precision để tính độ trùng lặp từ câu lựa chọn hệ thống người Đánh giá độ ngữ pháp: 100 câu gốc rút gọn hệ thống đưa nhiều người đánh giá Độ ngữ pháp câu tính theo điểm trung bình đánh giá Đánh giá với mức: Tốt, Khá, Trung bình, Kém Bảng 3.2 mô yêu cầu thực nghiệm 100 câu gốc Bảng 3.2 Bảng thực nghiệm STT … ID câu 11 112 314 506 … Số hóa trung tâm học liệu Độ xác 0.8 0.73 0.82 0.891 … Độ ngữ pháp 0.8 0.8 0.6 0.8 … http://www.lrc-tnu.edu.vn/ 45 Độ ngữ pháp số hóa từ đánh giá theo tiêu chuẩn: Tốt: 0.8-1, Khá: 0.7-0.8, Trung bình: 0.5-0.6, Kém: