Bài toán đồng tham chiếu danh từ trong văn bản là bài toán xác định các cụm danh từ trong một tài liệu cùng chỉ tới một thực thể xác định trong thế giới thực và gom nhóm các cụm từ này thành các chuỗi đồng tham chiếu. Đây là một vấn đề khó trong lĩnh vực xử lý ngôn ngữ tự nhiên, nhận được nhiều sự quan tâm của các nhà nghiên cứu, các hội nghị lớn trên thế giới như: ACL (Association for Computational Linguistics), IJCAI (International Joint Conference on Artifical intelligence)...Vậy phương pháp nào là tối ưu và đem lại hiệu quả tốt? Ngày nay, việc ứng dụng công nghệ vào xử lý ngôn ngữ cũng hết sức phong phú. Chúng có thể giải quyết các bài toán như xử lý tiếng nói hay xử lý hình ảnh (speech and image processing), xử lý văn bản (text processing), khai phá văn bản hoặc web (text and web mining), xử lý đồng tham chiếu trong văn bản... Tất cả các bài toán đó đều đã được thực hiện bằng máy, tuy nhiên vấn đề đặt ra là làm thế nào để máy có thể xử lý một cách tự động lại là một bài toán khó. Cái khó ở chỗ làm sao cho máy hiểu được ngôn ngữ đa dạng của con người. Là người đi sau trong lĩnh vực xử lí ngôn ngữ tự nhiên, những câu hỏi thắc mắc rằng: phương pháp nào, cách nào mà máy có thể hiểu và xử lý được ngôn ngữ tự nhiên, đặc biệt là đối với một ngôn ngữ rất đa dạng và phong phú như tiếng Việt là lí do để em chọn đề tài “Áp dụng học máy trong xử lý đồng tham chiếu danh từ trong văn bản tiếng Việt” làm đề tài khóa luận tốt nghiệp. Trong phạm vi khóa luận này em sẽ tìm hiểu về một số phương pháp học máy và chọn ra phương pháp phù hợp để cài đặt, giải quyết bài toán đồng tham chiếu danh từ trong văn bản tiếng Việt.
MỤC LỤC DANH MỤC CÁC HÌNH VẼ DANH MỤC CÁC BẢNG BIỂU MỞ ĐẦU Lý chọn đề tài khóa luận Mục tiêu khóa luận Nhiệm vụ nghiên cứu Phương pháp nghiên cứu Đối tượng phạm vi nghiên cứu Ý nghĩa khoa học Bố cục khóa luận CHƯƠNG 1: TỔNG QUAN VỀ ĐỒNG THAM CHIẾU DANH TỪ 10 1.1 Tổng quan tình hình nghiên cứu đồng tham chiếu 10 1.2 Khái niệm đồng tham chiếu 11 1.2.1 Khái niệm 11 1.2.2 Các thành phần quan hệ đồng tham chiếu thường gặp 13 1.3 Phân loại đồng tham chiếu 14 1.3.1 NP-anaphora 14 1.3.2 VP-anaphora 15 1.3.3 S-anaphora 15 1.3.4 “One” anaphora 15 1.4 Đồng tham chiếu danh từ (Np-anaphora) 16 1.5 Cách tiếp cận để xử lý đồng tham chiếu danh từ 16 1.5.1 Xử lý đồng tham chiếu 16 1.5.2 Nguồn kiến thức cần thiết cho xử lý đồng tham chiếu tự động 17 1.5.3 Các yếu tố xử lý đồng tham chiếu 18 CHƯƠNG 2: MỘT SỐ PHƯƠNG PHÁP HỌC MÁY TRONG XỬ LÝ ĐỒNG THAM CHIẾU DANH TỪ 21 2.1 Phương pháp máy vector hỗ trợ (SVM) 21 2.1.1 Định nghĩa sở phương pháp SVM 21 2.1.2 Mơ hình trích chọn quan hệ đồng tham chiếu danh từ văn tiếng Việt 23 2.2 Conditional Random Fields (CRF) 26 2.2.1 Định nghĩa CRF 26 2.2.2 Mơ hình CRF 28 2.3 TiMBL 32 2.3.1 Phương pháp học K láng giềng gần 32 2.3.2 Cách sử dụng TiMBL 34 2.4 Nhận xét đánh giá phương pháp 35 CHƯƠNG 3: ÁP DỤNG PHƯƠNG PHÁP HỌC MÁY SVM TRONG XỬ LÝ ĐỒNG THAM CHIẾU DANH TỪ TRONG VĂN BẢN TIẾNG VIỆT 36 3.1 Mơ hình hóa tốn đồng tham chiếu danh từ 36 3.1.1 Phát biểu toán 36 3.1.2 Hướng giải toán 38 3.1.3 Xử lý liệu đầu vào 48 3.1.4 Hoạt động SVM với mơ hình liệu 51 3.1.5 Các từ điển sử dụng chương trình 55 3.2 Môi trường thực nghiệm 56 3.2.1 Phần cứng 56 3.2.2 Phần mềm 56 3.3 Thực nghiệm 56 3.3.1 Mơ tả cài đặt chương trình 57 3.3.2 Dữ liệu thực nghiệm 64 3.3.3 Kết đánh giá 72 3.4 Hướng phát triển 73 KẾT LUẬN 74 TÀI LIỆU THAM KHẢO 76 DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT Ý nghĩa Các ký hiệu, từ viết tắt Anaphora (danh từ) Từ đồng tham chiếu AR – Anaphora Resolution Xử lý đồng tham chiếu CC (Coordinating conjunction) Liên từ kết hợp (và, nhưng…) CRF (Conditional Random Fields) Là mơ hình dựa xác suất điều kiện, thường sử dụng gán nhãn phân tích liệu ví dụ kí tự, ngơn ngữ tự nhiên E (Preposition) Giới từ (ở, trên, dưới, ….) Factor Nhân tố, phần tử, thuộc tính HMM Mơ hình Markov ẩn K – NN Thuật toán k láng giềng gần Label bias Một vấn đề xảy mơ hình CRF giải - chuyển trạng thái từ trạng thái cho trước tới trạng thái xem xét xác suất dịch chuyển chúng, không xem xét xác suất dịch chuyển khác mơ hình M (Numeral) Số, chữ số (Một, hai, ba…) MEMM Mơ hình Markov cực đại hóa entropy Memory-Based Learner Bộ học dựa nhớ N (Common noun) Danh từ thông dụng (họa sĩ, nhà, ) Nc (Classifier) Từ phân loại (cái, chiếc, .) Np (Proper noun) Danh từ riêng (HàNội, Hương, ) Np– anaphora Xử lý đồng tham chiếu danh từ One – anaphora Xử lý đồng tham chiếu số từ P (Pronoun) Đại từ (chị ấy, bà ta, …) S – anaphora Đồng tham chiếu câu SVM (Support Vector Machine) Phương pháp máy vector hỗ trợ TiMBL Học dựa nhớ kỹ thuật học máy (Nearest Neighbors algorithim) có nguồn gốc từ phương pháp k – láng giềng gần V (Verb) Động từ (mua, bán, học, ) Vp – anaphora Xử lý đồng tham chiếu động từ DANH MỤC CÁC HÌNH VẼ Hình 3.1: Mơ hình tổng qt xử lý tượng đồng tham chiếu danh từ 36 Hình 3.2: Kết file a1a.out 39 Hình 3.3: Ví dụ xác định tập thuộc tính 42 Hình 3.4: Ví dụ chủ ngữ giả 46 Hình 3.5: Ví dụ câu phức 46 Hình 3.6: Ví dụ câu ghép 47 Hình 3.7: Ví dụ đại từ “ông ấy” 49 Hình 3.8: Ví dụ danh từ “bố tôi” 49 Hình 3.9: Ví dụ đại từ “cơ ấy” 50 Hình 3.10: Ví dụ ghép danh từ 50 Hình 3.11: Ghép “tơi” danh từ 51 Hình 3.12: File train 53 Hình 3.13: File test 53 Hình 3.14: File test đầy đủ 52 Hình 3.15: File mơ hình huấn luyện 52 Hình 3.16: Kết phân lớp 52 Hình 3.17: Cấu trúc từ điển danh từ 55 Hình 3.18: Cấu trúc từ điển đại từ 56 Hình 3.19: Biểu đồ 57 Hình 3.20: Biểu đồ trạng thái máy 58 Hình 3.21: Giao diê ̣n chương trình 64 DANH MỤC CÁC BẢNG BIỂU Bảng 3.1: Xác định giá trị thuộc tính 41 Bảng 3.2: Bộ liệu dùng để thiết kế file train 51 Bảng 3.3: Lớp Word 59 Bảng 3.4: Lớp Sentence 59 Bảng 3.5: Lớp NPConnectionXML 60 Bảng 3.6: Lớp Gender 61 Bảng 3.7: Lớp DiscoverNpAnaphora 61 Bảng 3.8: Lớp TaggerClass 62 Bảng 3.9: Lớp NpSolve 63 Bảng 3.10: Kết thử nghiệm với liệu tự tạo 64 Bảng 3.11: Kết thử nghiệm với liệu thuộc lĩnh vực xã hội 66 Bảng 3.12: Kết thử nghiệm với liệu thuộc lĩnh vực văn hóa 67 Bảng 3.13: Kết thử nghiệm với liệu thuộc lĩnh vực thể thao 69 Bảng 3.14: Kết thử nghiệm với liệu thuộc lĩnh vực đời sống 70 Bảng 3.15: Kết thử nghiệm với liệu thuộc lĩnh vực giáo dục 71 MỞ ĐẦU Lý chọn đề tài khóa luận Bài tốn đồng tham chiếu danh từ văn toán xác định cụm danh từ tài liệu tới thực thể xác định giới thực gom nhóm cụm từ thành chuỗi đồng tham chiếu Đây vấn đề khó lĩnh vực xử lý ngôn ngữ tự nhiên, nhận nhiều quan tâm nhà nghiên cứu, hội nghị lớn giới như: ACL (Association for Computational Linguistics), IJCAI (International Joint Conference on Artifical intelligence) Vậy phương pháp tối ưu đem lại hiệu tốt? Ngày nay, việc ứng dụng công nghệ vào xử lý ngôn ngữ phong phú Chúng giải tốn xử lý tiếng nói hay xử lý hình ảnh (speech and image processing), xử lý văn (text processing), khai phá văn web (text and web mining), xử lý đồng tham chiếu văn Tất tốn thực máy, nhiên vấn đề đặt làm để máy xử lý cách tự động lại tốn khó Cái khó chỗ cho máy hiểu ngôn ngữ đa dạng người Là người sau lĩnh vực xử lí ngơn ngữ tự nhiên, câu hỏi thắc mắc rằng: phương pháp nào, cách mà máy hiểu xử lý ngôn ngữ tự nhiên, đặc biệt ngôn ngữ đa dạng phong phú tiếng Việt lí để em chọn đề tài “Áp dụng học máy xử lý đồng tham chiếu danh từ văn tiếng Việt” làm đề tài khóa luận tốt nghiệp Trong phạm vi khóa luận em tìm hiểu số phương pháp học máy chọn phương pháp phù hợp để cài đặt, giải toán đồng tham chiếu danh từ văn tiếng Việt Mục tiêu khóa luận - Nghiên cứu, tìm hiểu toán đồng tham chiếu danh từ văn tiếng Việt, phương pháp tiếp cận để giải toán - Sử dụng phương pháp tiếp cận phù hợp, áp dụng mơ hình vào xây dựng chương trình chun biệt giải tốn đồng tham chiếu danh từ văn tiếng Việt Nhiệm vụ nghiên cứu - Nghiên cứu loại đồng tham chiếu tiếng Việt, sâu giải đồng tham chiếu danh từ - Đưa phương pháp tiếp cận phù hợp chương trình cài đặt giải toán đồng tham chiếu danh từ văn tiếng Việt Phương pháp nghiên cứu • Phương pháp nghiên cứu tự luận: Đọc nghiên cứu tài liệu, giáo trình có liên quan đến tốn đồng tham chiếu danh từ văn tiếng Việt • Phương pháp tổng kết kinh nghiệm: Qua việc nghiên cứu, tham khảo tài liệu, giáo trình từ rút kinh nghiệm để áp dụng vào việc nghiên cứu • Phương pháp lấy ý kiến chuyên gia: Lấy ý kiến giảng viên trực tiếp hướng dẫn, giảng viên khác để hồn thiện mặt nội dung hình thức khóa luận Đối tượng phạm vi nghiên cứu • Đối tượng: - Cấu trúc ngữ pháp tiếng Việt - Một số cách tiếp cận để giải toán đồng tham chiếu danh từ văn tiếng Việt • Phạm vi: - Phương pháp học máy SVM - Ngôn ngữ nghiên cứu văn tiếng Việt Ý nghĩa khoa học Nghiên cứu phương pháp học máy giải thuật thường sử dụng học máy Đã sử dụng thành công phương pháp học máy vector hỗ trợ (SVM) vào toán phân giải đồng tham chiếu danh từ văn tiếng Việt Học máy phương pháp học tốn thời gian đảm bảo tối đa hiệu cơng việc Phương pháp có ứng dụng cao việc trích xuất liệu, phân loại văn bản, nhận dạng ngôn ngữ văn bản, nhận dạng tiếng nói chữ viết, dịch tự động… Đây kỹ thuật chưa nghiên cứu phổ biến Việt Nam điều mở hướng nghiên cứu, ứng dụng tương lai Đây tài liệu tham khảo cho quan tâm đến đề tài Bố cục đề tài Ngoài phần mở đầu, kết luận, tài liệu tham khảo, khóa luận chia thành chương sau: Chương 1: Tổng quan đồng tham chiếu danh từ Chương 2: Một số phương pháp học máy xử lý đồng tham chiếu danh từ Chương 3: Áp dụng phương pháp học máy SVM xử lý đồng tham chiếu danh từ văn tiếng Việt CHƯƠNG TỔNG QUAN VỀ ĐỒNG THAM CHIẾU DANH TỪ 1.1 Tổng quan tình hình nghiên cứu đồng tham chiếu - Ngoài nước: Vấn đề xử lý đồng tham chiếu đề cập nghiên cứu lâu Nhiều cách tiếp cận khác nhiều tác giả thực nhiệm vụ xử lý đồng tham chiếu Hơn nhiều công việc tập trung vào sử dụng học máy năm gần + Hobbs (1978): Cách tiếp cận dựa cú pháp mô tả Hobbs dựa tập quy tắc phức tạp để nghiên cứu kỹ lưỡng cú pháp văn Hệ thống Hobbs tìm kiếm tiền ngữ phân tích cú pháp + Lappin Leass (1994): Cách tiếp cận dựa yếu tố/chỉ số đề Lappin Leass sử dụng tập yếu tố bật (salience factors) để xác định tiền ngữ phù hợp cho từ thay cho trước Một số yếu tố bật gán cho tiền ngữ tiềm năng: độ gần câu, nhấn mạnh chủ thể, đối tượng, nhấn mạnh tồn tại, danh từ đầu + Cách tiếp cận thống kê hay học máy dựa tài liệu huấn luyện Phương pháp chia thành phương pháp giám sát không giám sát tuỳ thuộc vào loại tài liệu huấn luyện mà chúng sử dụng Phương pháp giám sát yêu cầu tài liệu huấn luyện thích thơng tin loại danh mục mà hệ thống xử lý điều không cần thiết cho phương pháp không giám sát - Trong nước: Trong năm gần đây, hệ thống xử lý đồng tham chiếu nhận quan tâm nhà nghiên cứu xử lý ngôn ngữ tự nhiên Các giảng viên sinh viên trường Đại học như: Đại học Bách Khoa, Đại học Công nghệ… có nghiên cứu tượng 10 Word findNounInDictionary(Word w) // Tìm kiếm danh từ từ điển, Trả lại từ mà xác định thuộc tính Class List findNounInSentenceList() // Lấy tất danh từ đoạn văn List findNounInOneSentence(Sentence sentence, int num// Lấy tất danh từ câu Lớp TaggerClass Bảng 3.8: Lớp TaggerClass Lớp làm nhiệm vụ thực tag văn đưa vào thực hậu xử lý void taggerSolve()//Thực việc tagger đoạn văn đưa vào List postProcess0(List sentence) //Ghép từ số lượng với danh từ để thành danh từ để xác định kiểu từ “Plural” hay “Single” List postProcess1(List sentence) //chuyển từ “cô ấy” thành đại từ “P” List postProcess2(List sentence) // Ghép danh từ nằm gần thành danh từ List postProcess3(List sentence) Phương thức //Ghép danh từ đại từ kế bên thành từ List postProcess4(List sentence) // Thực việc sở hữu cách List postProcess5(List sentence) // thực việc xử lý tương ứng mà anaphora từ 62 “chúng tôi, chúng tớ ” List listAllSentences() //Liệt kê tất câu có đoạn văn List getAllSentence(string istrPath) // lấy tất câu đoạn văn,trả danh sách câu qua hậu xử lý vntagger bool checkStringInListWord(Sentence sen, string word) //Kiểm tra xem từ có nằm câu hay khơng Lớp NpSolve Bảng 3.9: Lớp NpSolve Thực xử lý đồng tham chiếu danh từ sử dụng phương pháp học máy SVM string processML(string inputtext) //thực xử lý đồng tham chiếu danh từ sử dụng học máy SVM Inputext: chuỗi văn mà người dùng nhập Phương thức Trả văn qua xử lý đồng tham chiếu động từ bool setValueForML() // lấy giá trị để đưa vào file test ListmakeTestFileDataBy1Anaphora (Word anaphora) //kiểm tra từ anaphora đại từ 63 3.3.1.4 Giao diện chương trình Hình 3.212: Giao diê ̣n chương trình Giao diện chương trình chia làm phần: + Phía trái: Cây phân tích cú pháp - thể câu đoạn văn nhập vào gán nhãn + Phía trên: Textbox cho phép người dùng nhập đoạn văn + Phần dưới: Texbox xuất kết sau hệ thống xử lý xong tượng Np – anaphora 3.3.2 Dữ liệu thực nghiệm Dữ liệu tự tạo Bảng 3.10: Kết thử nghiệm với liệu tự tạo Đoạn văn nhập vào Kết Lan cầm lọ hoa bàn Cô lau Lan cầm lọ loa bàn Lan lau lọ hoa Toản người đa tình, anh yêu Toản người đa tình, Toản yêu Lan Lan lại không quên lại không quên Thúy Thúy Điều làm cho họ cảm thấy Điều làm cho Toản, Lan Thúy 64 khó xử cảm thấy khó xử Đức Giáo Hồng vị chủ chăn Đức Giáo Hoàng vị chủ chăn đáng kính Ơng ln sống đáng kính Đức Giáo Hồng ln người nghèo sống người nghèo Hằng nhìn thấy bơng hoa bên đường Hằng nhìn thấy bơng hoa bên đường Cơ muốn Nam hái cho cô Hằng muốn Nam hái hoa bên đường cho Hằng Lan Tùng đến nhà Nam Lan Tùng đến nhà Nam chơi Họ chơi vui vẻ chơi Lan, Tùng Nam chơi vui vẻ Tôi Chiến bạn thân Tôi không Tôi Chiến bạn thân Tôi không gặp anh nhiều năm gặp Chiến nhiều năm Hương Lâm gặp cách Hương Lâm gặp cách hai năm Đó điểm xuất phát hai năm Đó điểm xuất phát cho tình họ Hương cho tình Hương Lâm người gái đẹp, nết na đạo Hương người gái đẹp, nết hạnh Còn Lâm, anh người na đạo hạnh Còn Lâm, Lâm trai giàu tình cảm, chân thành người trai giàu tình cảm, có trách nhiệm Anh đem chân thành có trách nhiệm Lâm lại cho Hương sống hạnh đem lại cho Hương phúc Song, đời éo le không sống hạnh phúc Song, đời éo le cho họ thành vợ chồng Trước ngày không cho Hương Lâm thành cưới, Hương chết vụ tai vợ chồng Trước ngày cưới, Hương nạn, cô để lại Lâm nỗi chết vụ tai nạn, Hương nhớ nhung vô hạn để lại Lâm nỗi nhớ nhung vô hạn 65 Ngồi liệu tự tạo để thử nghiệm, khóa luận lấy thêm đoạn thơng tin có chứa đồng tham chiếu danh từ, từ trang dantri.com để thử nghiệm, nhằm đánh giá tốt kết chương trình Lĩnh vực: Xã hội Bảng 3.11: Kết thử nghiệm với liệu thuộc lĩnh vực xã hội Đoạn văn nhập vào Kết Võ Nguyên Giáp (25 tháng năm Võ Nguyên Giáp (25 tháng năm 1911 – tháng 10 năm 2013), 1911 – tháng 10 năm 2013), một nhà huy quân nhà huy quân trị gia trị gia Việt Nam Ông Đại Việt Nam Võ Nguyên Giáp Đại tướng đầu tiên, Tổng tư lệnh tướng đầu tiên, Tổng tư lệnh Quân Quân đội Nhân dân Việt Nam Ông đội Nhân dân Việt Nam Võ Nguyên người huy Giáp người huy Quân đội Nhân dân Việt Nam, Quân đội Nhân dân Việt Nam, một người góp cơng người góp cơng thành lập thành lập Việt Nam Dân chủ Cộng Việt Nam Dân chủ Cộng hòa hòa Heather lớn lên khơng khỏe Heather lớn lên không khỏe mạnh, lành lặn bạn bè Cô ta mạnh, lành lặn bạn bè Heather sinh non tháng, bị thiếu chân, sinh non tháng, bị thiếu chân, đôi bàn tay không lành lặn đôi bàn tay không lành lặn Theodore Roosevelt Nhà Theodore Roosevelt Nhà Trắng, ơng thừa nhận Trắng, Theodore Roosevelt thừa ơng khoảng nhận Theodore Roosevelt 75% số lần ơng mức khoảng 75% số lần cao mà ơng mong đợi Theodore Roosevelt mức cao mà ông mong đợi 66 Sau chục năm sống xứ người, Sau chục năm sống xứ người, Liên có vốn tiếng Trung Liên có vốn tiếng Trung nên nên khơng gặp khó khăn giao khơng gặp khó khăn giao tiếp, tiếp, Bước đầu, chị tạm gác ý Bước đầu, Liên tạm gác ý định trở định trở quê hương chấp nhận quê hương chấp nhận cảnh cảnh mai đó, làm nhà mai đó, làm nhà máy len, lúc máy len, lúc phụ giúp quán hàng phụ giúp quán hàng sống qua ngày sống qua ngày Lĩnh vực: Văn hóa Bảng 3.12: Kết thử nghiệm với liệu thuộc lĩnh vực văn hóa Đoạn văn nhập vào Kết Tuấn Hưng ca sĩ tiếng Mới Tuấn Hưng ca sĩ tiếng Mới đây, anh chọn cho đây, Tuấn Hưng chọn cho nàng dâu tuổi teen vơ xinh nàng dâu tuổi teen vô đẹp xinh đẹp Sau kiện ấy, máu ghen tuông Sau kiện ấy, máu ghen tng trong Khối bốc lên dội Khoái bốc lên dội Khoái bắt Anh ta bắt chị Hiền, có điện chị Hiền, có điện thoại thoại gọi đến phải bật loa gọi đến phải bật loa lên lên để nghe Lo sợ, anh để nghe Lo sợ, Khoái cuồng ta cuồng điên làm liều, chị Hiền vội điên làm liều, chị Hiền vội nhờ người nhờ người nhà thuê xe Thái Bình nhà thuê xe Thái Bình đón hai đón hai lên gửi quê chị lên gửi quê chị Tam Dương, Tam Dương, Vĩnh Phúc Khi hay tin Vĩnh Phúc Khi hay tin vợ đón vợ đón đằng ngoại khiến cho đằng ngoại khiến cho Khoái choáng Khoái choáng váng, cho chị váng, cho chị Hiền tuyệt tình 67 Hiền tuyệt tình với nên với Khoái nên muốn cách ly muốn cách ly đứa đứa Trong vỏ bọc mềm mại cỏ, Trong vỏ bọc mềm mại cỏ, người người ngỡ thơ Lê Vi Thủy ngỡ thơ Lê Vi Thủy cũng hiền lành, nhu mì hiền lành, nhu mì Nhưng đọc Nhưng đọc trang viết cô trang viết Lê Vi Thủy thấy thấy ẩn chứa tâm hồn loạn ẩn chứa tâm hồn loạn Sáo nhân vật nữ phim Sáo nhân vật nữ phim Dù sống tần tảo, hết Dù sống tần tảo, Sáo hết lòng u thương chồng có lòng u thương chồng có nghị lực tiềm ẩn nghị lực tiềm ẩn Nhà giáo ưu tú Đỗ Ca Sơn sinh năm Nhà giáo ưu tú Đỗ Ca Sơn sinh năm 1932, quê làng Dục Tú, Đông Anh, 1932, quê làng Dục Tú, Đông Anh, Hà Nội, nguyên cán giảng dạy Hà Nội, nguyên cán giảng dạy Đại học Ngoại ngữ, ĐHQGHN Ông Đại học Ngoại ngữ, ĐHQGHN Đỗ dịch Hai vạn dặm Ca Sơn dịch Hai vạn dặm biển xuất từ năm 1970, biển xuất từ năm Người cá nhiều giáo trình cho 1970, Người cá nhiều giáo trình sinh viên cho sinh viên Đối với Cát Tường, giải Đối với Cát Tường, giải thưởng danh giá báo chí ghi thưởng danh giá báo chí ghi nhận sau thi The Voice Sau nhận sau thi The Voice Sau khi nhận giải, cô thành thật nhận giải, Cát Tường thành thật thân thấy run trình diễn thân thấy run trình diễn Vết mưa, sáng tác Vết mưa, sáng tác thân thân 68 Lĩnh vực: Thể thao Bảng 3.13: Kết thử nghiệm với liệu thuộc lĩnh vực thể thao Đoạn văn nhập vào Kết Huấn luyện viên Nguyễn Văn Phúc Huấn luyện viên Nguyễn Văn Phúc thức chia tay với đội tuyển thức chia tay với đội tuyển Việt Nam Ơng có thời Việt Nam Nguyễn Văn Phúc có gian dẫn dắt đội tuyển Việt Nam thời gian dẫn dắt đội tuyển Việt đạt thành tích đáng kể Nam đạt thành tích đáng kể Kể từ năm 2009, lần Kể từ năm 2009, lần Tiến Minh tham dự giải cầu Tiến Minh tham dự giải cầu lông lông quốc tế mở rộng Hà Nội quốc tế mở rộng Hà Nội Đang Đang tay vợt nằm tốp 10 tay vợt nằm tốp 10 giới, lại giới, lại niềm hy vọng lớn niềm hy vọng lớn cầu lông cầu lông Việt Nam bất Việt Nam giải đấu nào, Tiến giải đấu nào, anh nhận Minh nhận cổ vũ cuồng nhiệt cổ vũ cuồng nhiệt khán giả khán giả thủ đô ngày thủ đô ngày giải cầu giải cầu lông quốc tế Ciputra Hà Nội lông quốc tế Ciputra Hà Nội diễn diễn Nhà thi đấu Cầu Giấy Nhà thi đấu Cầu Giấy Tấn Tài muốn rời Hải Phòng Tấn Tài muốn rời Hải Phòng chuyện anh công khai chuyện Tấn Tài công khai tiết lộ từ đầu mùa giải năm tiết lộ từ đầu mùa giải năm Tấn Tấn Tài không ký tiếp hợp Tài không ký tiếp hợp đồng với đồng với đội bóng đất Cảng, dù đội bóng đất Cảng, dù ngỏ lời ngỏ lời Anh Tấn Tài không xuất không xuất màu áo Hải màu áo Hải Phòng từ đầu Phòng từ đầu mùa mùa 69 Lĩnh vực: Đời sống Bảng 3.14: Kết thử nghiệm với liệu thuộc lĩnh vực đời sống Đoạn văn nhập vào Kết Hồng Nhung (sinh năm 1992), Hồng Nhung (sinh năm 1992), sinh viên năm cuối, trường sinh viên năm cuối, trường ĐH Hùng Vương Ngoài làm người ĐH Hùng Vương Ngoài làm người mẫu ảnh để kiếm thêm thu nhập, cô mẫu ảnh để kiếm thêm thu nhập, làm diễn viên quảng cáo Hồng Nhung làm diễn viên số sản phẩm, thương hiệu lớn quảng cáo số sản phẩm, nước thương hiệu lớn nước Trần Thuý Hằng Nguyễn Thanh Trần Thuý Hằng Nguyễn Thanh Chung hùng biện đầy tự tin trước câu Chung hùng biện đầy tự tin trước câu hỏi việc làm cách để quảng bá hỏi việc làm cách để quảng bá thân, đất nước Họ giành thân, đất nước Trần Thuý Hằng giải thưởng ấn tượng Nguyễn Thanh Chung giành đêm chung kết giải thưởng ấn tượng đêm chung kết Cô gái Nguyễn Thị Minh Lý sinh Cô gái Nguyễn Thị Minh Lý sinh lớn lên làng quê nghèo lớn lên làng quê nghèo Cai Lậy thuộc tỉnh Tiền Giang Bất Cai Lậy thuộc tỉnh Tiền Giang Bất hạnh ập đến vào năm tuổi, Nguyễn hạnh ập đến vào năm tuổi, cô bị Thị Minh Lý bị bại liệt hai chân sau bại liệt hai chân sau sốt dài, sốt dài, sốt tưởng chừng lúc tưởng chừng gục Nguyễn Thị Minh Lý gục ngã, với nghị lực phi thường ngã, với nghị lực phi thường Minh Lý tâm vượt qua số Minh Lý tâm vượt qua số phận khiến nhiều người không khỏi phận khiến nhiều người không khỏi ngạc nhiên ngạc nhiên 70 Lĩnh vực: Giáo dục Bảng 3.15: Kết thử nghiệm với liệu thuộc lĩnh vực giáo dục Đoạn văn nhập vào Kết Nguyễn Hữu Phước Nguyên (sinh Nguyễn Hữu Phước Nguyên (sinh năm năm 1983) học tiến sỹ Mỹ 1983) học tiến sỹ Mỹ chuyên ngành chuyên ngành khoa học Nano, khoa học Nano, nhiều công ty nhiều công ty Mỹ mời đầu Mỹ mời đầu quân Nguyễn quân anh từ chối để Hữu Phước Nguyên từ chối để nước nước với mong muốn phát triển với mong muốn phát triển ứng dụng ứng dụng công nghệ Nano Việt công nghệ Nano Việt Nam Nguyễn Nam Nguyễn Hữu Phước Nguyên Hữu Phước Nguyên cho rằng, bạn cho rằng, bạn trẻ cần có tính trẻ cần có tính chủ động, tích cực để chủ động, tích cực để người trẻ người trẻ thay đổi phát triển thay đổi phát triển tơi sáng tạo sáng tạo Di chứng chất độc da cam khiến Di chứng chất độc da cam khiến Phan Sỹ Tân gần khơng Phan Sỹ Tân gần khơng khả khả vận động Con đường đến vận động Con đường đến trường trường anh gian nan Phan Sỹ Tân gian nan vượt qua tất cả, cậu bé tật vượt qua tất cả, cậu bé tật nguyền xứ Nghệ giành nguyền xứ Nghệ giành nhiều nhiều thành tích đáng nể học thành tích đáng nể học tập tập Trần Tố Uyên, Nhữ Mai Anh Trần Tố Uyên, Nhữ Mai Anh Dương Huỳnh Hồng Minh Dương Huỳnh Hồng Minh những em chuẩn bị hoàn em chuẩn bị hoàn thành dự án thành dự án Phân lập ứng dụng Phân lập ứng dụng chủng nấm 71 chủng nấm sợi, nấm men vi sợi, nấm men vi khuẩn tự khuẩn tự nhiên để xử lý dầu nhiên để xử lý dầu nhớt thải Trần Tố nhớt thải Họ đam mê với đề tài Uyên, Nhữ Mai Anh Dương Huỳnh Hồng Minh đam mê với đề tài này 3.3.3 Kết đánh giá Dựa vào liệu thực nghiệm đưa vào để đánh giá, tương ứng với kết thu cột kết quả, ta thấy: Chương trình đạt kết khả quan với câu văn chứa đồng tham chiếu đơn giản Với câu đơn giản nhập nhằng loại bỏ Với câu phức tạp hơn, xác chương trình mức tương đối Thuật tốn hiệu câu ngắn, có từ hai đến ba đại từ tham chiếu Chương trình chạy tốt cho kết với câu ngắn, tham chiếu Hiệu suất hệ thống phụ thuộc vào: + Tập huấn luyện lớn, hiệu hệ thống học tốt + Tập kiểm thử lớn, việc đánh giá xác Để thực việc đánh giá hiệu suất hệ thống, ta có số kí hiệu sau: + TPi (true positive): số lượng ví dụ thuộc lớp ci phân loại xác vào lớp ci + FPi (false positive): số lượng ví dụ khơng thuộc lớp ci phân loại nhầm vào lớp ci Khi hiệu suất (RCi) hệ thống tính bằng: Tổng số ví dụ thuộc lớp ci phân loại xác chia cho tổng số ví dụ phân loại vào lớp ci TPi Rci = TPi + FPi 72 Từ kết thực nghiệm, với việc đánh giá hiệu suất việc dự đốn mơ hình phân lớp phương pháp học máy SVM, ta thấy việc áp dụng phương pháp học máy SVM vào việc xử lý đồng tham chiếu danh từ đạt hiệu từ 70% đến 80% 3.4 Hướng phát triển Từ kết chương trình đạt được, dựa vào lợi vấn đề gặp phải Nhận thấy hướng phát triển khóa luận sau: + Cải tiến module việc giải nhập nhằng, làm tăng độ xác việc giải đồng tham chiếu danh từ + Kết hợp nghiên cứu phương pháp học máy khác, nhằm so sánh cho thấy hiệu phương pháp + Nghiên cứu áp dụng thêm phương pháp tự động tải liệu về, bóc tách làm liệu học cho hệ thống, giảm bớt thao tác thủ công 73 KẾT LUẬN Sau thời gian nghiên cứu, khóa luận tìm hiểu đề tài xử lý đồng tham chiếu danh từ văn tiếng Việt đạt kết sau: + Trình bày cách tổng quan tượng đồng tham chiếu tiếng Việt + Phân loại tượng đồng tham chiếu tiếng Việt + Đưa số cách tiếp cận tượng đồng tham chiếu danh từ, cụm danh từ giới + Cách phát giải tượng đồng tham chiếu danh từ, cụm danh từ tiếng Việt + Ba phương pháp học máy sử dụng TiMBL, SVM CRF + Mơ hình hóa toán xử lý đồng tham chiếu danh từ văn tiếng Việt + Xây dựng thuộc tính cho liệu dành cho phương pháp học máy SVM + Xây dựng cấu trúc từ điển XML đại từ, danh từ + Thiết kế chương trình + Thử nghiệm đánh giá kết Ưu điểm + Bằng việc áp dụng học máy, phương pháp tiếp cận đề tài tránh việc phải sử dụng tới cấu trúc ngữ pháp – vốn đề tài phức tạp ngôn ngữ tiếng Việt mà cài đặt nhiều nhập nhằng giới hạn + Phát giải hầu hết câu xảy tượng Np – anaphora + Độ xác câu đơn giản cao + Giao diện chương trình đơn giản, dễ sử dụng, dễ thao tác 74 + Bộ từ điển XML cho phép dễ dàng thao tác, thêm từ Tồn + Do phải sử dụng vntagger Lê Hồng Phương nên có nhiều trường hợp tagger bị lỗi ảnh hưởng đến hệ thống xử lý đồng tham chiếu, hiệu suất phụ thuộc vào vntagger, chương trình chạy chậm + Đề tài chưa giải trường hợp câu phức phức tạp: Vì tập đặc trưng em tự nghiên cứu tự đề ra, nữa, cấu trúc cú pháp tiếng Việt phức tạp nên chưa bao quát hết đặc trưng danh từ, phân tích cú pháp đơi gặp nhiều khó khăn + Tập liệu huấn luyện (hơn 200 mẫu), nên chưa đánh giá xác hiệu giải thuật Hướng phát triển + Tiếp tục thử nghiệm chương trình với liệu lớn hơn, phức tạp + Có thể tìm thêm thuộc tính để việc xác định đồng tham chiếu chặt chẽ nữa, để giải trường hợp câu phức phức tạp + Hoàn thiện liệu từ điển + Tìm hiểu lỗi vntagger Lê Hồng Phương gặp phải để khắc phục + Ứng dụng chương trình tốn liên quan: trích rút thơng tin, hệ thống hỏi đáp, hệ thống hội thoại tự động 75 TÀI LIỆU THAM KHẢO Tiếng Việt [1] Lê Trung Hoa (2005), Họ tên người Việt Nam, Nhà xuất Khoa học Xã hội [2] Lê Thanh Hương (10/2007), Một cách tiếp cận việc tự động sinh biểu diễn tương đương đoạn văn bản, Tạp chí Bưu viễn thơng Cơng nghệ thơng tin [3] Hà Quang Thụy (chủ biên), Phan Xuân Hiếu, Đoàn Sơn, Nguyễn Trí Thành, Nguyễn Thu Trang, Nguyễn Cẩm Tú (2009), Giáo trình khai phá liệu Web, Nhà xuất giáo dục Việt Nam Tiếng Anh [4] C Cardie, K Wagstaff (EMNLP 1999), Noun Phrase Coreference as Clustering, Empirical Methods in Natural Language Processing Conference [5] Z Dzunic, S Momcilovic, B Todorovic (2006), Coreference Resolution Using Decision Tree, Neural Network Applications in Electrical Engineering [6] Pascal Denis, Jason Baldridge (IJCAI 2007): A ranking approach to pronoun resolution Proceedings of the 20th International Joint Conference on Artifical intelligence 76 ... chiếu danh từ Chương 2: Một số phương pháp học máy xử lý đồng tham chiếu danh từ Chương 3: Áp dụng phương pháp học máy SVM xử lý đồng tham chiếu danh từ văn tiếng Việt CHƯƠNG TỔNG QUAN VỀ ĐỒNG THAM. .. 525” 1.4 Đồng tham chiếu danh từ (Np-anaphora) Cũng tượng đồng tham chiếu nói chung, đồng tham chiếu danh từ trường hợp tượng đồng tham chiếu văn tiếng Việt Trong đồng tham chiếu danh từ, từ thay... phương pháp học máy giải thuật thường sử dụng học máy Đã sử dụng thành công phương pháp học máy vector hỗ trợ (SVM) vào toán phân giải đồng tham chiếu danh từ văn tiếng Việt Học máy phương pháp học