Nghiên cứu và phát triển phương pháp rút gọn câu tiếng việt dựa trên phương pháp học không giám sát

57 416 0
Nghiên cứu và phát triển phương pháp rút gọn câu tiếng việt dựa trên phương pháp học không giám sát

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Số hóa bởi trung tâm học liệu http://www.lrc-tnu.edu.vn/ 1 ĐẠI HỌC THÁI NGUYÊN TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG NGUYỄN CẢNH TOÀN NGHIÊN CỨU VÀ PHÁT TRIỂN PHƢƠNG PHÁP RÚT GỌN CÂU TIẾNG VIỆT DỰA TRÊN PHƢƠNG PHÁP HỌC KHÔNG GIÁM SÁT Chuyên ngành: Khoa học máy tính Mã số: 60.48.01.01 LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH Ngƣời hƣớng dẫn khoa học: TS. Nguyễn Thị Thu Hà THÁI NGUYÊN - 2013 Số hóa bởi trung tâm học liệu http://www.lrc-tnu.edu.vn/ i LỜI CẢM ƠN Để hoàn tất một luận văn thạc sĩ yêu cầu sự tập trung, sự cố gắng và độc lập nghiên cứu. Bản thân tôi sau những năm tháng học tập vất vả và nghiên cứu cũng đã cố gắng để hoàn thành được luận văn này. Tôi luôn ghi nhận những sự đóng góp giúp đỡ nhiệt tình của những người bên cạnh mình, sự ủng hộ, sự hỗ trợ của bố mẹ bạn bè giúp tôi có thêm động lực để hoàn thành khóa luận tốt nghiệp, nhân đây tôi muốn gửi lời cảm ơn nhất tới họ. Lời cảm ơn trân trọng đầu tiên tôi muốn dành tới TS Nguyễn Thị Thu Hà, đã hướng dẫn tôi trong suốt quá trình làm luận văn, nhờ sự định hướng của cô giúp tôi tự tin nghiên cứu những vấn đề mới và giải quyết bài toán một cách khoa học. Tôi xin trân trọng cảm ơn Ban giám hiệu trường đại học công nghệ thông tin, Đại học Thái nguyên, khoa CNTT đã tạo các điều kiện cho chúng tôi được học tập và làm khóa luận một cách thuận lợi. Lời cảm ơn sâu sắc muốn được gửi tới các thầy cô giáo đã dạy dỗ và mở ra cho chúng tôi thấy chân trời tri thức mới, hướng dẫn chúng tôi cách khám phá và làm chủ công nghệ mới. Tôi muốn gửi lời cảm ơn chân thành đến tập thể lớp CHK10D-KHMT đã cùng tôi đi qua những tháng ngày miệt mài học tập, cùng chia sẻ những niềm vui nỗi buồn, động viên tôi đi qua những khó khăn, để tôi vững bước vượt qua những vất vả, quyết tâm hoàn thành luận văn này. Tôi xin trân trọng cảm ơn bố mẹ, người đã mang tới tất cả niềm tin, định hướng và theo dõi tôi suốt chặng đường đời. Nâng đỡ tôi và đến bên tôi những giây phút khó khăn nhất của cuộc sống. Tuy nhiên do thời gian có hạn, mặc dù đã nỗ lực cố gắng hết mình nhưng chắc rằng luận văn khó tránh khỏi những thiếu sót. Rất mong được sự chỉ bảo, góp ý tận tình của Quý thầy cô và các bạn. Số hóa bởi trung tâm học liệu http://www.lrc-tnu.edu.vn/ ii MỤC LỤC LỜI CẢM ƠN i MỤC LỤC ii DANH MỤC TỪ VIẾT TẮT iv DANH MỤC HÌNH VẼ v DANH MỤC BẢNG BIỂU vi MỞ ĐẦU 1 Chƣơng 1: TỔNG QUAN VỀ TÓM TẮT VĂN BẢN DỰA TRÊN CÁCH TIẾP CẬN RÚT GỌN CÂU 3 1.1. Tổng quan bài toán tóm tắt văn bản 3 1.1.1. Tổng quan 3 1.1.2. Một số phương pháp tóm tắt văn bản 7 1.2. Tóm tắt văn bản dựa trên cách tiếp cận rút gọn câu 13 1.2.1. Khái niệm rút gọn câu 13 1.2.2. Một số phương pháp rút gọn câu 15 1.3. Đánh giá tóm tắt 16 1.3.1. Đánh giá theo cách thủ công 16 1.3.2. Phương pháp đánh giá BLEU 16 1.3.3. Phương pháp đánh giá ROUGE 17 1.4. Kết luận chương 1 17 Chƣơng 2: PHƢƠNG PHÁP RÚT GỌN CÂU TIẾNG VIỆT DỰA TRÊN KỸ THUẬT HỌC KHÔNG GIÁM SÁT 18 2.1. Máy học và mô hình n-grams 18 2.1.1. Khái niệm máy học 18 2.1.2. Mô hình n-grams 19 2.2. Đặc điểm của văn bản tiếng Việt 22 22 Số hóa bởi trung tâm học liệu http://www.lrc-tnu.edu.vn/ iii 22 23 2.3. Phương pháp rút gọn câu tiếng Việt dựa trên kỹ thuật học không giám sát 24 2.3.1. Giới thiệu 24 2.3.2. Phương pháp biểu diễn văn bản 25 2.3.3. Kỹ thuật giảm chiều vector biểu diễn trong văn bản tiếng Việt 30 2.3.4. Phương pháp rút gọn câu tiếng Việt dựa trên kỹ thuật học không giám sát 35 2.4. Kết luận chương 2 36 Chƣơng 3: XÂY DỰNG ỨNG DỤNG RÚT GỌN CÂU DỰA TRÊN KỸ THUẬT HỌC KHÔNG GIÁM SÁT 37 3.1. Kiến trúc tổng quát của hệ thống 37 3.2. Xây dựng tập dữ liệu và tập từ điển danh từ 38 3.2.1. Xây dựng tập dữ liệu 38 3.2.2. Tiền xử lý và chuẩn hóa dữ liệu 38 3.2.3. Xây dựng bộ từ điển danh từ 39 3.3. Môi trường cài đặt 41 3.3.1. Môi trường cài đặt của hệ thống 41 3.3.2. Cơ sở dữ liệu của hệ thống 41 3.3.3. Một số giao diện chính của hệ thống 41 3.4. Kết quả thực nghiệm 44 KẾT LUẬN 46 TÀI LIỆU THAM KHẢO 47 Số hóa bởi trung tâm học liệu http://www.lrc-tnu.edu.vn/ iv DANH MỤC TỪ VIẾT TẮT NLP Natural Language Processing Xử lý ngôn ngữ tự nhiên Số hóa bởi trung tâm học liệu http://www.lrc-tnu.edu.vn/ v DANH MỤC HÌNH VẼ Hình 1.1. Hệ thống tóm tắt trực tuyến Text compactor 4 Hình 1.2. Hệ thống tóm tắt ngoại tuyến 4 Hình 1.3. Cây cấu trúc tu từ 11 Hình 2.1. Mô hình không gian vector 26 Hình 2.2. Biểu diễn văn bản theo mô hình véc tơ 26 Hình 2.3. Biểu diễn văn bản theo mô hình Boolean 27 Hình 2.4. Ma trận biểu diễn văn bản 30 Hình 2.5. Ma trận ví dụ 31 Hình 2.6. Mô hình giảm chiều véc tơ 31 Hình 2.7. Quan hệ giữa văn bản và thuật ngữ 32 Hình 2.8. Một mô hình rút gọn đặc trưng văn bản 33 Hình 2.9. Mô hình đồ thị lưới 35 Hình 3.1. Sơ đồ chức năng hệ thống rút gọn câu tiếng Việt 37 Hình 3.2. Biểu đồ Use case tổng quát 38 Hình 3.3. Văn bản đã chuẩn hóa 39 Hình 3.4. Hệ thống vlsp 40 Hình 3.5. Cơ sở dữ liệu của hệ thống 41 Hình 3.6. Giao diện huấn luyện của hệ thống 42 Hình 3.7. Kết quả rút gọn câu 42 Hình 3.8. Cửa sổ chọn file 43 Hình 3.9. Chức năng quản lý từ điển 43 Số hóa bởi trung tâm học liệu http://www.lrc-tnu.edu.vn/ vi DANH MỤC BẢNG BIỂU Bảng 2.1. Mô tả tần suất từ 21 Bảng 2.2. Câu tương ứng 21 Bảng 2.3. Xác suất điều kiện 22 Bảng 3.1. Danh sách từ chủ đề trong kho ngữ liệu 40 Bảng 3.2. Bảng thực nghiệm 44 Số hóa bởi trung tâm học liệu http://www.lrc-tnu.edu.vn/ 1 MỞ ĐẦU Thông tin đã đóng vai trò cực kỳ quan trọng trong xã hội hiện đại. Lượng lớn thông tin được tạo ra và đưa lên Internet hàng này mang lại cho con người những tiện ích tra cứu thông tin. Các hệ thống tìm kiếm, tra cứu được nghiên cứu, đề xuất và xây dựng thỏa mãn phần nào yêu cầu của người dùng đặt ra trong hiện tại. Tuy nhiên, do số lượng thông tin quá nhiều, kết quả thường trả về hàng triệu tới hàng trăm triệu bản ghi tương đương với câu truy vấn mà người dùng nhập vào. Tóm tắt văn bản là kỹ thuật cho phép máy tính tự động tạo ra văn bản tóm tắt từ một hoặc nhiều văn bản gốc khác nhau. Nhờ tính năng tóm tắt nội dung chính và tổng hợp nội dung quan trọng từ các văn bản gốc mà tóm tắt văn bản là một trong những lĩnh vực được các nhà nghiên cứu quan tâm từ những năm 60 của thế kỷ 20 và vẫn là chủ đề nóng của các diễn đàn, hội thảo trên thế giới. Các phương pháp tóm tắt văn bản truyền thống thường dựa trên cách tiếp cận trích rút câu. Có nghĩa, văn bản tóm tắt được tạo thành từ những câu đã được lựa chọn từ trong văn bản gốc. Do đó, về mặt ngữ nghĩa và nội dung của văn bản tóm tắt thường rời rạc, dẫn đến văn bản thiếu độ liền mạch (coherence) và súc tích (concise). Một số các phương pháp tóm tắt hiện đại thường đề cập tới vấn đề xử lý ngôn ngữ tự nhiên để văn bản tóm tắt có độ ngôn ngữ (linguistic score) tốt, đồng thời phản ánh liền mạch nội dung của văn bản gốc. Một trong những kỹ thuật đó là kỹ thuật rút gọn câu. Với kỹ thuật rút gọn câu hiện nay, có sử dụng cả hai kỹ thuật học giám sát và không giám sát. Trong cách học giám sát, các tác giả thường đề cập tới mô hình học thống kê và yêu cầu xây dựng kho dữ liệu dùng cho huấn luyện tương đối tỉ mỉ theo cách thủ công. Để xây dựng được kho dữ liệu này, cần nhiều thời gian và công sức theo cách thủ công. Bên cạnh đó, các thuật toán trong các phương pháp rút gọn câu chủ yếu là tìm Số hóa bởi trung tâm học liệu http://www.lrc-tnu.edu.vn/ 2 kiếm những câu rút gọn tương đương trong kho dữ liệu có sẵn, dẫn tới độ phức tạp thuật toán cao. Trong khuôn khổ đề tài luận văn, tôi sử dụng cách tiếp cận rút gọn câu dựa trên phương pháp học không giám sát để: - Tiết kiệm tối đa chi phí khi xây dựng kho ngữ liệu thủ công. - Giảm độ phức tạp tính toán về mặt thời gian. Luận văn được chia thành 3 chương với các nội dung sau: Chƣơng 1: Tổng quan về tóm tắt văn bản dựa trên cách tiếp cận rút gọn câu Chƣơng 2: Phƣơng pháp rút gọn câu dựa trên phƣơng pháp học không giám sát Chƣơng 3: Xây dựng ứng dụng rút gọn câu dựa trên phƣơng pháp học không giám sát Số hóa bởi trung tâm học liệu http://www.lrc-tnu.edu.vn/ 3 Chƣơng 1: TỔNG QUAN VỀ TÓM TẮT VĂN BẢN DỰA TRÊN CÁCH TIẾP CẬN RÚT GỌN CÂU Trong chương này, tôi trình bày các khái niệm, định nghĩa cơ bản về tóm tắt văn bản, tổng quan về các phương pháp tóm tắt văn bản. Các cách tiếp cận và phương pháp đánh giá của tóm tắt. 1.1. Tổng quan bài toán tóm tắt văn bản 1.1.1. Tổng quan 1.1.1.1. Khái niệm Sự gia tăng nhanh chóng của dữ liệu trên Internet đã mang lại cho người dùng những tiện ích to lớn. Tra cứu, tìm kiếm thông tin, các ứng dụng về bán hàng, giao dịch trao đổi thông tin qua Internet. Tóm tắt văn bản thuộc lĩnh vực xử lý ngôn ngữ tự nhiên. Trải qua hơn nửa thế kỷ phát triển tới ngày nay, tóm tắt văn bản vẫn được coi là một trong những chủ đề quan trọng của các hội thảo, hội nghị được nhiều các học giả, chuyên gia, nhà nghiên cứu quan tâm. Các hội thảo chủ đề xử lý ngôn ngữ tự nhiên thường niên cũng bao gồm các chủ đề (track) liên quan đến tóm tắt văn bản như động (WAS 2000, 2001, 2002), nhiều chủ đề đặc biệt trong các hội thảo ACL, COLING, SIGIR đã được tổ chức. Chính phủ của nhiều nước trên thế giới như Nhật, Mỹ, Anh, Trung Quốc, đã đầu tư rất nhiều kinh phí cho việc phát triển các hệ thống tóm tắt văn bản tự động trực tuyến (online) và ngoại tuyến (offline). [...]... nghiên cứu liên quan tới mô hình Markov ẩn của Jing trong rút gọn câu Phƣơng pháp rút gọn câu dựa trên cây cú pháp Phương pháp rút gọn câu dựa trên cây cú pháp được đề xuất bởi Knight và Marcu, Unno và cộng sự Trevor Cohn và Mirella Lapata đã sử dụng phương pháp đồng bộ phi ngữ cảnh để đánh giá tốt hơn các qui tắc xác suất để áp dụng tốt trong rút gọn câu dựa vào phân tích cây cú pháp Phƣơng pháp rút. .. về máy học, một số đặc điểm của ngôn ngữ tiếng Việt và đề xuất phương pháp rút gọn câu tiếng Việt dựa trên kỹ thuật học không giám sát Tôi sử dụng mô hình đồ thị lưới (Grid Model) để sinh câu rút gọn, đồng thời sử dụng quy hoạch động để tính xác suất n-grams tìm ra câu rút gọn tốt nhất Đánh giá của phương pháp dựa trên đánh giá của con người 2.1 Máy học và mô hình n-grams 2.1.1 Khái niệm máy học Từ... học liệu http://www.lrc-tnu.edu.vn/ 15 1.2.2 Một số phương pháp rút gọn câu Các hệ thống tóm tắt cũ dựa chủ yếu vào trích rút câu, trong khi đó tóm tắt dựa trên rút gọn câu chỉ mới được nghiên cứu từ những năm 2000 Rút gọn câu được ứng dụng trong nhiều lĩnh vực khác nhau như: phục vụ hiển thị văn bản trên nền màn hình PDA , sinh tiêu đề tự động… Nghiên cứu về rút gọn câu của Knight và Marcu Trong nghiên. .. rút gọn câu tiếng Việt dựa trên kỹ thuật học không giám sát 2.3.1 Giới thiệu Các nghiên cứu rút gọn câu chủ yếu tập trung sử dụng kỹ thuật học có giám sát hoặc sử dụng luật từ vựng hoặc sử dụng các kỹ thuật phân tích ngôn ngữ ở mức sâu dựa trên cây cú pháp Các phương pháp này có các đặc điểm sau: - Chi phí cao khi xây dựng kho ngữ liệu phục vụ cho huấn luyện khi dùng tới phương pháp học giám sát hoặc... một phương pháp sử dụng kênh nhiễu (noisy chanel), phương pháp còn lại sử dụng cây quyết định Nghiên cứu rút gọn câu, sử dụng mô hình Markov ẩn Trong công bố của Le Nguyen và Ho năm 2004, có hai thuật toán rút gọn câu được đề xuất Một phương pháp dựa trên học mẫu dịch – thừa kế từ kỹ thuật dịch máy, phương pháp còn lại học các luật biến đổi từ vựng bằng cách xây dựng tập gồm 1,500 cặp (câu, câu rút gọn) ... trong rút gọn câu dựa vào phân tích cây cú pháp Phƣơng pháp rút gọn câu dựa trên học không giám sát Một số các công bố về rút gọn câu dựa trên học không giám sát Trong công bố của Turner và Charniak đã sử dụng mô hình học không giám sát, trong đó dữ liệu huấn luyện được trích rút tự động từ kho ngữ liệu PennTreebank Số hóa bởi trung tâm học liệu http://www.lrc-tnu.edu.vn/ 16 1.3 Đánh giá tóm tắt 1.3.1... như câu, mệnh đề, thuật ngữ, Tóm tắt dựa trên trừu tượng (rút gọn câu) tạo ra một văn bản tóm tắt đảm bảo về mặt cú pháp, ngữ nghĩa, câu được xử lý một cách tinh vi Văn bản tóm tắt dựa trên rút gọn câu mang lại hiệu quả cao về mặt ngôn ngữ Các phương pháp tóm tắt văn bản được đề xuất thường sử dụng tiếp cận tóm tắt theo dựa trên trích rút câu Lý do là cách tiếp cận tóm tắt dựa trên trích rút câu dễ... hơn so với cách tiếp cận tóm tắt dựa trên rút gọn câu Tuy nhiên, sử dụng cách tiếp cận tóm tắt văn bản dựa trên trích rút Số hóa bởi trung tâm học liệu http://www.lrc-tnu.edu.vn/ 7 câu thường cho kết quả là những văn bản tóm tắt với thông tin ít liền mạch hơn theo cách tiếp cận tóm tắt dựa trên rút gọn câu Chính vì điều này, hướng nghiên cứu tóm tắt dựa trên rút gọn câu ngày càng thu hút nhiều sự quan... nghiên cứu của Knight và Marcu, họ đã xây dựng một kho dữ liệu tiêu chuẩn và đề xuất phương pháp đánh giá cho rút gọn câu Họ sử dụng kho dữ liệu của Ziff – Davis với hơn 4000 tài liệu kỹ thuật và trích rút được 1,067 cặp câu gốc- rút gọn Nhiệm vụ được xác định là cho một câu dài l, nén theo phiên bản c và giữ lại nghĩa của câu, ngữ pháp tốt Họ cũng đề xuất hai kỹ thuật học khác nhau để sinh ra câu rút gọn, ... trong tóm tắt văn bản Rút gọn câu được coi như một giải pháp mới nhằm thay thế các hệ thống cũ có chất lượng tóm tắt kém Chương 1 của luận văn cũng đề cập tới một số các kỹ thuật rút gọn câu cơ bản và đưa ra một số lý thuyết về đánh giá tóm tắt Số hóa bởi trung tâm học liệu http://www.lrc-tnu.edu.vn/ 18 Chƣơng 2: PHƢƠNG PHÁP RÚT GỌN CÂU TIẾNG VIỆT DỰA TRÊN KỸ THUẬT HỌC KHÔNG GIÁM SÁT Trong chương này, . dựa trên cách tiếp cận rút gọn câu Chƣơng 2: Phƣơng pháp rút gọn câu dựa trên phƣơng pháp học không giám sát Chƣơng 3: Xây dựng ứng dụng rút gọn câu dựa trên phƣơng pháp học không giám sát. 2.3.4. Phương pháp rút gọn câu tiếng Việt dựa trên kỹ thuật học không giám sát 35 2.4. Kết luận chương 2 36 Chƣơng 3: XÂY DỰNG ỨNG DỤNG RÚT GỌN CÂU DỰA TRÊN KỸ THUẬT HỌC KHÔNG GIÁM SÁT 37 3.1 thuật rút gọn câu. Với kỹ thuật rút gọn câu hiện nay, có sử dụng cả hai kỹ thuật học giám sát và không giám sát. Trong cách học giám sát, các tác giả thường đề cập tới mô hình học thống kê và

Ngày đăng: 18/11/2014, 22:34

Từ khóa liên quan

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan