1. Trang chủ
  2. » Công Nghệ Thông Tin

Nghiên cứu và phát triển phương pháp rút gọn câu tiếng việt dựa trên phương pháp học không giám sátt

56 232 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 56
Dung lượng 1,57 MB

Nội dung

1 ĐẠI HỌC THÁI NGUYÊN TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG NGUYỄN CẢNH TOÀN NGHIÊN CỨU VÀ PHÁT TRIỂN PHƯƠNG PHÁP RÚT GỌN CÂU TIẾNG VIỆT DỰA TRÊN PHƯƠNG PHÁP HỌC KHÔNG GIÁM SÁT Chuyên ngành: Khoa học máy tính Mã số: 60.48.01.01 LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH Người hướng dẫn khoa học: TS Nguyễn Thị Thu Hà THÁI NGUYÊN - 2013 i LỜI CẢM ƠN Để hoàn tất luận văn thạc sĩ yêu cầu tập trung, cố gắng độc lập nghiên cứu Bản thân sau năm tháng học tập vất vả nghiên cứu cố gắng để hoàn thành luận văn Tôi ghi nhận đóng góp giúp đỡ nhiệt tình người bên cạnh mình, ủng hộ, hỗ trợ bố mẹ bạn bè giúp có thêm động lực để hoàn thành khóa luận tốt nghiệp, nhân muốn gửi lời cảm ơn tới họ Lời cảm ơn trân trọng muốn dành tới TS Nguyễn Thị Thu Hà, hướng dẫn suốt trình làm luận văn, nhờ định hướng cô giúp tự tin nghiên cứu vấn đề giải toán cách khoa học Tôi xin trân trọng cảm ơn Ban giám hiệu trường đại học công nghệ thông tin, Đại học Thái nguyên, khoa CNTT tạo điều kiện cho học tập làm khóa luận cách thuận lợi Lời cảm ơn sâu sắc muốn gửi tới thầy cô giáo dạy dỗ mở cho thấy chân trời tri thức mới, hướng dẫn cách khám phá làm chủ công nghệ Tôi muốn gửi lời cảm ơn chân thành đến tập thể lớp CHK10D-KHMT qua tháng ngày miệt mài học tập, chia sẻ niềm vui nỗi buồn, động viên qua khó khăn, để vững bước vượt qua vất vả, tâm hoàn thành luận văn Tôi xin trân trọng cảm ơn bố mẹ, người mang tới tất niềm tin, định hướng theo dõi suốt chặng đường đời Nâng đỡ đến bên giây phút khó khăn sống Tuy nhiên thời gian có hạn, nỗ lực cố gắng luận văn khó tránh khỏi thiếu sót Rất mong bảo, góp ý tận tình Quý thầy cô bạn ii MỤC LỤC iii DANH MỤC TỪ VIẾT TẮT NLP Natural Language Processing Xử lý ngôn ngữ tự nhiên iv DANH MỤC HÌNH VẼ Hình 1.2 Hệ thống tóm tắt ngoại tuyến Bảng 2.1 Mô tả tần suất từ .21 Bảng 2.1 Mô tả tần suất từ .21 Bảng 2.2 Câu tương ứng 21 Bảng 2.2 Câu tương ứng 21 Bảng 2.3 Xác suất điều kiện .21 Bảng 2.3 Xác suất điều kiện .21 v DANH MỤC BẢNG BIỂU Bảng 2.1 Mô tả tần suất từ .21 Bảng 2.2 Câu tương ứng 21 Bảng 2.3 Xác suất điều kiện .21 MỞ ĐẦU Thông tin đóng vai trò quan trọng xã hội đại Lượng lớn thông tin tạo đưa lên Internet hàng mang lại cho người tiện ích tra cứu thông tin Các hệ thống tìm kiếm, tra cứu nghiên cứu, đề xuất xây dựng thỏa mãn phần yêu cầu người dùng đặt Tuy nhiên, số lượng thông tin nhiều, kết thường trả hàng triệu tới hàng trăm triệu ghi tương đương với câu truy vấn mà người dùng nhập vào Tóm tắt văn kỹ thuật cho phép máy tính tự động tạo văn tóm tắt từ nhiều văn gốc khác Nhờ tính tóm tắt nội dung tổng hợp nội dung quan trọng từ văn gốc mà tóm tắt văn lĩnh vực nhà nghiên cứu quan tâm từ năm 60 kỷ 20 chủ đề nóng diễn đàn, hội thảo giới Các phương pháp tóm tắt văn truyền thống thường dựa cách tiếp cận trích rút câu Có nghĩa, văn tóm tắt tạo thành từ câu lựa chọn từ văn gốc Do đó, mặt ngữ nghĩa nội dung văn tóm tắt thường rời rạc, dẫn đến văn thiếu độ liền mạch (coherence) súc tích (concise) Một số phương pháp tóm tắt đại thường đề cập tới vấn đề xử lý ngôn ngữ tự nhiên để văn tóm tắt có độ ngôn ngữ (linguistic score) tốt, đồng thời phản ánh liền mạch nội dung văn gốc Một kỹ thuật kỹ thuật rút gọn câu Với kỹ thuật rút gọn câu nay, có sử dụng hai kỹ thuật học giám sát không giám sát Trong cách học giám sát, tác giả thường đề cập tới mô hình học thống kê yêu cầu xây dựng kho liệu dùng cho huấn luyện tương đối tỉ mỉ theo cách thủ công Để xây dựng kho liệu này, cần nhiều thời gian công sức theo cách thủ công Bên cạnh đó, thuật toán phương pháp rút gọn câu chủ yếu tìm kiếm câu rút gọn tương đương kho liệu có sẵn, dẫn tới độ phức tạp thuật toán cao Trong khuôn khổ đề tài luận văn, sử dụng cách tiếp cận rút gọn câu dựa phương pháp học không giám sát để: - Tiết kiệm tối đa chi phí xây dựng kho ngữ liệu thủ công - Giảm độ phức tạp tính toán mặt thời gian Luận văn chia thành chương với nội dung sau: Chương 1: Tổng quan tóm tắt văn dựa cách tiếp cận rút gọn câu Chương 2: Phương pháp rút gọn câu dựa phương pháp học không giám sát Chương 3: Xây dựng ứng dụng rút gọn câu dựa phương pháp học không giám sát Chương 1: TỔNG QUAN VỀ TÓM TẮT VĂN BẢN DỰA TRÊN CÁCH TIẾP CẬN RÚT GỌN CÂU Trong chương này, trình bày khái niệm, định nghĩa tóm tắt văn bản, tổng quan phương pháp tóm tắt văn Các cách tiếp cận phương pháp đánh giá tóm tắt 1.1 Tổng quan toán tóm tắt văn 1.1.1 Tổng quan 1.1.1.1 Khái niệm Sự gia tăng nhanh chóng liệu Internet mang lại cho người dùng tiện ích to lớn Tra cứu, tìm kiếm thông tin, ứng dụng bán hàng, giao dịch trao đổi thông tin qua Internet Tóm tắt văn thuộc lĩnh vực xử lý ngôn ngữ tự nhiên Trải qua nửa kỷ phát triển tới ngày nay, tóm tắt văn coi chủ đề quan trọng hội thảo, hội nghị nhiều học giả, chuyên gia, nhà nghiên cứu quan tâm Các hội thảo chủ đề xử lý ngôn ngữ tự nhiên thường niên bao gồm chủ đề (track) liên quan đến tóm tắt văn động (WAS 2000, 2001, 2002), nhiều chủ đề đặc biệt hội thảo ACL, COLING, SIGIR tổ chức Chính phủ nhiều nước giới Nhật, Mỹ, Anh, Trung Quốc, đầu tư nhiều kinh phí cho việc phát triển hệ thống tóm tắt văn tự động trực tuyến (online) ngoại tuyến (offline) Hình 1.1 Hệ thống tóm tắt trực tuyến Text compactor Hình 1.1 hình ảnh hệ thống tóm tắt trực tuyến Text Compactor thao tác cách nhập văn lựa chọn tỉ lệ tóm tắt có văn tóm tắt có chiều dài tương ứng với tỉ lệ Tỉ lệ tóm tắt tính công thức (1-1) đây: R= (chiều dài văn tóm tắt/chiều dài văn gốc)*100% (1-1) Hình 1.2 hình ảnh hệ thống tóm tắt ngoại tuyến Gnome Văn tóm tắt câu lựa chọn có màu vàng Hình 1.2 Hệ thống tóm tắt ngoại tuyến 36 Từ đồ thị lưới trên, tổng kết bước phương pháp sinh câu rút gọn sau: - Bước 1: Tách từ câu thành tập riêng biệt Tập từ chủ đề tập từ khác - Bước 2: Tính trọng số từ chủ đề theo công thức (2-13) - Bước 3: Thể từ lưới hình 2.10 - Bước 4: Sinh câu rút gọn coi toán tìm đường từ nút trái bên tới nút bên phải Câu rút gọn sinh dựa hình chiếu từ tính tổng S={S1,S2,…,Sn} theo nguyên tắc sau: o Đi qua từ chủ đề chọn o Đảm bảo các Si 0 o Chọn câu ngắn o Đảm bảo đường dẫn thuộc Si 0 2.4 Kết luận chương Trong chương 2, trình bày phương pháp rút gọn câu tiếng Việt dựa kỹ thuật học không giám sát Trong phương pháp này, tối ưu hóa tìm câu rút gọn tốt cách sử dụng quy hoạch động tìm đường ngắn mà đảm bảo ngữ pháp câu 37 Chương XÂY DỰNG ỨNG DỤNG RÚT GỌN CÂU DỰA TRÊN KỸ THUẬT HỌC KHÔNG GIÁM SÁT Trong chương này, luận văn trình bày phương pháp lựa chọn liệu, lưu trữ xây dựng hệ thống ứng dụng rút gọn câu dựa kỹ thuật học không giám sát, đồng thời luận văn có thử nghiệm, đánh giá phương pháp cài đặt với tập liệu văn tiếng Việt 3.1 Kiến trúc tổng quát hệ thống Hệ thống tóm tắt văn dựa cách tiếp cận rút gọn câu chia thành pha chính: Pha huấn luyện pha rút gọn - Pha huấn luyện: Là pha tách từ chủ đề tính giá trị trọng số từ chủ đề kho ngữ liệu lưu vào sở liệu - Pha rút gọn: Pha thực rút gọn câu Chức hệ thống mô tả hình vẽ 3.1 Hình 3.1 Sơ đồ chức hệ thống rút gọn câu tiếng Việt Hình 3.2 mô tả biểu đồ ca sử dụng tổng quát hệ thống Trong biểu đồ use case tổng quát Các tác nhân bao gồm có người quản trị hệ thống người dùng Người quản trị có quyền thêm liệu, sửa liệu, xóa liệu, huấn luyện, xem thông tin Tác nhân người dùng quyền nhập liệu văn xem thông tin kết hiển thị hệ thống 38 Hình 3.2 Biểu đồ Use case tổng quát 3.2 Xây dựng tập liệu tập từ điển danh từ 3.2.1 Xây dựng tập dữ liệu Tập liệu sử dụng rút gọn câu sử dụng luận văn tập văn tiếng Việt Luận văn xây dựng kho ngữ liệu cách thủ công Nguồn thông tin sử dụng chủ yếu từ trang web: http://thongtincongnghe.com, http://Echip.com, http://vnexpress.net, http://vietnamnet.vn, http://Ngoisao.net, http://Tin247.com,… kho liệu bao gồm 300 văn 3.2.2 Tiền xử lý chuẩn hóa dữ liệu Tập văn đầu vào văn dạng thô, để đơn giản cho việc xử lý liệu, với văn đầu vào, ta thực hiệc qua bước tiền xử lý ký tự để đưa văn dạng xâu chuẩn Ở xâu chuẩn xâu mà không 39 có dấu cách liền nhau, có dấu câu kết thúc xâu, trước dấu câu dấu cách Để có xâu chuẩn, chuẩn bị cho việc tách từ, ta thực qua bước sau: Chuyển hết ký tự chữ hoa thành chữ thường Dùng dấu câu (bao gồm dấu “.” “,” “:”…) để tách văn thành tâp hợp câu Ta tách âm tiết cách dấu câu không thuộc từ Tiến hành chuẩn hoá với câu: Khi có >1 dấu cách đứng kề nhau, loại bớt đi, để lại dấu cách loại bỏ dấu cách đầu cuối câu Hình 3.3 mô tả văn tiền xử lý chuẩn hóa lưu trữ sở liệu hệ thống Hình 3.3 Văn chuẩn hóa 3.2.3 Xây dựng từ điển danh từ Từ tập liệu huấn luyện ban đầu sau trình chuẩn hóa văn ta xây dựng từ điển bao gồm danh từ Để xây dựng từ điển danh từ này, phải xây dựng cách thủ công dựa hệ thống gán nhãn từ loại lưu vào sở liệu hệ thống Hình 3.4 hệ thống gán nhãn từ loại mà luận văn sử dụng trình xây dựng từ điển danh từ thủ công 40 Hình 3.4 Hệ thống vlsp Bảng 3.1 mô tả cấu trúc bảng bao gồm danh từ tách từ tập liệu văn [5] Bảng 3.1 Danh sách từ chủ đề kho ngữ liệu STT 10 11 12 13 14 15 16 17 18 19 20 Từ chủ đề nhớ xử lý cấu hình chat internet Lan Đĩa cứng hệ điều hành Hacker trình duyệt wifi Tín hiệu windows bo mạch chủ vista giao diện Mã nguồn mở Tín hiệu điện thoại hiệu Giá trị thông tin 0.057 0.032 0.077 0.045 0.340 0.114 0.008 0.176 0.045 0.032 0.016 0.036 0.012 0.012 0.053 0.081 0.024 0.036 0.303 0.036 41 3.3 Môi trường cài đặt 3.3.1 Môi trường cài đặt hệ thống Hệ thống xây dựng web để thuận tiện cho việc tra cứu trực tuyến Hệ thống sử dụng ngôn ngữ C# visual studio 2010 3.3.2 Cơ sở dữ liệu hệ thống Cơ sở liệu hệ thống mô tả thông tin lưu trữ hệ thống sở liệu Bao gồm thông tin văn tập liệu (Text_Instructor), bảng từ điển chứa từ (Vocabulary_Smr), bảng từ dừng (Tbl_stopword), Hình 3.5 mô tả sở liệu hệ thống rút gọn câu tiếng Việt Hình 3.5 Cơ sở dữ liệu hệ thống 3.3.3 Một số giao diện hệ thống 3.3.3.1 Giao diện Hệ thống rút gọn câu tiếng Việt có hai pha Giao diện mô tả giao diện pha huấn luyện Các văn học để cập nhật trọng số vào sở liệu hệ thống 42 Hình 3.6 Giao diện huấn luyện hệ thống Hình 3.7 mô tả giao diện người dùng rút gọn câu Hình 3.7 Kết rút gọn câu Hình 3.8 mô tả phần quản lý hệ thống Đây phần lưu sở liệu hệ thống hay gọi kho ngữ liệu gồm nhiều văn khác 43 Hình 3.8 Cửa sổ chọn file 3.3.3.2 Quản lý từ điển Hình 3.9 mô tả chức quản lý từ điển danh từ Các tính quản lý bao gồm: thêm danh từ, sửa danh từ, xóa danh từ, cập nhật danh từ Hình 3.9 Chức quản lý từ điển 44 3.4 Kết thực nghiệm Đối với tóm tắt kiểu trích rút câu, để đánh giá kết thực nghiệm sử dụng độ đo recall precision để đánh giá độ xác hệ thống kết cho người Tuy nhiên, với hệ thống tóm tắt dựa rút gọn câu, ta phải đánh giá dựa phần phương pháp thủ công Có độ đo sử dụng đánh giá rút gọn câu: - Độ đo trùng lặp từ trích rút dùng độ đo precision - Độ đo ngữ pháp câu Dựa độ đo trên, việc thực đánh giá cần lưu trữ bảng liệu với thông số: Độ xác độ ngữ pháp câu Việc thực nghiệm tiến hành 30 văn với 100 câu gốc Đánh giá câu thực độc lập kết hệ thống kết người: - Đánh giá độ xác:  100 câu gốc in phiếu đưa tới nhiều người khác để tiến hành rút gọn thủ công  Tiếp theo sử dụng công thức precision để tính độ trùng lặp từ câu lựa chọn hệ thống người  Đánh giá độ ngữ pháp:  100 câu gốc rút gọn hệ thống đưa nhiều người đánh giá  Độ ngữ pháp câu tính theo điểm trung bình đánh giá  Đánh giá với mức: Tốt, Khá, Trung bình, Kém Bảng 3.2 mô yêu cầu thực nghiệm 100 câu gốc Bảng 3.2 Bảng thực nghiệm STT ID câu Độ xác Độ ngữ pháp 11 0.8 0.8 112 0.73 0.8 314 0.82 0.6 506 0.891 0.8 … … … … Độ ngữ pháp số hóa từ đánh giá theo tiêu chuẩn: Tốt: 0.8-1, 45 Khá: 0.7-0.8, Trung bình: 0.5-0.6, Kém:

Ngày đăng: 16/04/2017, 17:23

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
4. Ha Nguyen Thi Thu, Quynh Nguyen Huu, Cuong Do Duc, “A novel important word based sentence reduction method for Vietnamese text”, Proc. of IEEE on Intellectual Technology in Industrial Practice, pp 401-405, China – Changsha September 2010 Sách, tạp chí
Tiêu đề: A novelimportant word based sentence reduction method for Vietnamesetext
6. Chin-Yew Lin and Eduard Hovy “The Potential and Limitations of Automatic Sentence Extraction for Summarization”. In Proceedings of the HLT-NAACL 2003 Workshop on Automatic Summarization, May 30 to June 1, 2003, Edmonton,Canada Sách, tạp chí
Tiêu đề: The Potential and Limitations ofAutomatic Sentence Extraction for Summarization
7. Hongyan Jing and Kathleen R. McKeown. “Cut and paste based text summarization”. In Proceedings of the 1st Conference of the North American Chapter of the Association for Computational Linguistics (NAACL-2000), pages 178–185, 2000 Sách, tạp chí
Tiêu đề: Cut and paste based textsummarization
8. Thanh Le Ha, Quyet Thang Huynh, Chi Mai Luong, “A Primary Study on Summarization of Documents in Vietnamese”, Proceeding of the First International Congress of the International Federation for Systems Research, Kobe, Japan, Nov 15-17, 2005 Sách, tạp chí
Tiêu đề: A Primary Study onSummarization of Documents in Vietnamese
11. M.L. Nguyen and S. Horiguchi, “A Sentence Reduction Using Syntax Control”, Proc. Of 6th Information Retrieval with Asian Language, pp.139-146, 2003 Sách, tạp chí
Tiêu đề: A Sentence Reduction Using SyntaxControl
30. Tom M. Mitchell, Machine Learning, Mc GrawHill, 1997 (2005), http://www.cs.cmu.edu/~tom/mlbook.html31. Website Link
1. Lương Chi Mai, Nghiên cứu phát triển một số sản phẩm thiết yếu về xử lý tiếng nói và văn bản tiếng Việt, Chương trình KH&CN cấp nhà nước KC01/06-10, Đề tài KC01/06-10, 2009 Khác
2. Đỗ Phúc, Hoàng Kiếm, Rút trích ý chính từ văn bản tiếng Việt hỗ trợ tạo tóm tắt nội dung. Tạp chí bưu chính viễn thông và CNTT Khác
3. Hà Quang Thụy, Giáo trình Khai phá dữ liệu web. Nhà xuất bản giáo dục Việt NamII. Tiếng Anh Khác
5. Dipanjan Das and Andre F.T. Martins (2007). A Survey on Automatic Text Summarization Khác
9. Nguyen, M.L.; Shimazu, A.; Horiguchi, S.; Ho, B.T.; Fukushi, M. (2004).Probabilistic Sentence Reduction Using Support Vector Machines. In the Proceedings of the 20th international conference on Computational Linguistics Khác
10. KNIGHT, K. AND MARCU, D. 2002. Summarization beyond sentence extraction: A probabilistic approach to sentence compression. Artif. Intell.139, 1 , 91-107, 2002 Khác
12. Cohn, T., & Lapata, M. (2008). Sentence compression beyond word deletion. In Proceed-ings of the 22nd International Conference on Computational Linguistics, pp. 137-144,Manchester, UK Khác
13. Galley, M., & McKeown, K. (2007). Lexicalized Markov grammars for sentence compression.In Proceedings of Human Language Technologies 2007: The Conference of the North American Chapter of the Association for Computational Linguistics, pp. 180-187,Rochester, NY Khác
14. Daniel Jurafsky & James, Speech and Language Processing: An introduction to natural language processing, computational linguistics, and speech recognition, 2007 Khác
15. Nguyen, M. L., Horiguchi, S., Shimazu, A., & Ho, B. T. (2004). Example- based sentence reduction using the hidden markov model. ACM Transactions on Asian Language Information Processing, 3 (2), 146-158 Khác
16. Clarke, J., & Lapata, M. (2008). Global inference for sentence compression: An integer linear programming approach. Journal of Articial Intelligence Research, 31, 399-429 Khác
17. Grael J., & Knight, K. (2004). Training tree transducers. In Proceedings of the 2004 Human Language Technology Conference of the North American Chapter of the Association for Computational Linguistics, pp.105-112, Boston, MA Khác
18. C. Hori and S. Furui, A Statistical Approach to Automatic Speech Summarization, EURASIP Journal on Applied Signal Processing 2003, pp 128-139 Khác
19. C.Hori et al., Automatic Speech Summarization Based on Word Significance and Linguistic Likelihood, Proc. ICASSP 2000, vol.III, pp.1579-1582, Istanbul Khác

TỪ KHÓA LIÊN QUAN

TRÍCH ĐOẠN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w