ông
xem nhà thơ, họa sĩ Trịnh Công Sơn sáng tác khoảng 500 ca khúc, mang đậm phong cách riêng mà gửi gắm nhiều triết lýÔng
lý giải: "Tôi
tên hát rong qua miền đất để hát lên linh cảmmình
giấc mơ đời hư ảo" Hình 7: Ví dụ liệu gán nhãn Nhận xét: Việc gán nhãn tay tập liệu đầu vào pha tiền xử lý có hai ưu điểm • Mô hình nhận dạng toàn cụm từ tiềm tham gia vào quan hệ đồng tham chiếu • Mô hình loại bỏ, không nhận dạng cụm từ không mong muốn b Pha sinh vector đặc trưng • Ghép cặp Từ tập câu thành phần nhận dạng từ pha trên, mô hình đề xuất pha tiến hành ghép cặp thành nhận dạng theo chiến lược đề xuất 3.2.2: • Bước 1: Duyệt danh sách câu ngược từ cuối lên • Bước 2: Tại câu tại, xét với câu trước • Bước 3: Tiến hành ghép cặp thành phần nhận dạng câu thành phần nhận dạng câu trước • Bước 4: Dịch vị trí câu lên câu trước Trở lại bước 37 Đối với mô hình sở, bước tương tự khác bước 3, tiến hành ghép cặp toàn tập văn Nhận xét: • Số cặp sinh PModel số cặp sinh BModel, thời gian xử lý nhanh • Khi số tài liệu đầu vào nhiêu, BModel tạo số cặp lớn • Sinh vector đặc trưng Mỗi cặp tương ứng với quan hệ Mỗi quan hệ biểu diễn vector đặc trưng gồm 22 thuộc tính v = {vi} i = 1, 2, …, 22 đề cập mục 3.3.2 Trong đó: • v1, v2 thể đặc trưng kiểu cụm từ cặp Giá trị thuộc tính 1, 2, tương ứng với kiểu thực thể tên, danh từ đại từ • v3, v4, v5 thể đặc trưng khả kiểu thực thể tên, danh từ, đại từ cặp cụm từ Giá trị thuộc tính 0, Trong tương ứng với việc kiểu thực thể ngược lại • v6, v7, v8 thể đặc trưng khả chủ ngữ câu cụm từ cặp khả chủ ngữ câu Giá trị thuộc tính 0, tương ứng với việc có chủ ngữ câu chủ ngữ, ngược lại • v9, v10 thể đặc trưng khả danh từ nghề nghiệp, chức vụ cụm từ cặp Giá trị thuộc tính 0, tương ứng với việc cụm từ danh từ nghề nghiệp, chức vụ; ngược lại • v11 thể khả hai cụm từ đồng vị ngữ Giá trị thuộc tính hai cụm từ đồng vị ngữ Ngược lại, nhận giá trị • v12, v13 thể đặc trưng trùng khớp toàn phần trùng khớp phận hai cụm từ Thuộc tính nhận giá trị trùng khớp hoàn toàn trùng khớp phận tương ứng Ngược lại nhận giá trị • v14, v15, v16 thể đặc trưng giới tính hai cụm từ đặc trưng khả giống giới tính hai cụm từ Thuộc tính v14, v15 nhận giá trị 1, 0, -1 tương ứng với giới tính nam, nữ, 38 không xác định Thuộc tính v16 nhận giá trị 1, 0, -1 tương ứng với giới tính, khác giới tính, không xác định • v17, v18, v19: thể đặc trưng số lượng hai cụm từ đặc trưng khả số lượng hai cụm từ Thuộc tính v17, v18 nhận giá trị 1, 2, -1 tương ứng với số ít, số nhiều ( nhiều 2) không xác định Thuộc tính v19 nhận giá trị 1, 0, -1 tương ứng với số lượng, khác số lượng không xác định • v20: thể đặc trưng khả số lượng giới tính Thuộc tính nhận giá trị 1, 0, -1 tương ứng với việc số lượng giới tính; hai đặc trưng khác; có đặc trưng không xác định • v21, v22 thể đặc trưng khoảng cách câu hai cụm từ khoảng cách từ hai cụm từ v21 nhận giá trị 0, 1, 2, mô hình đề xuất, 0, 1, 2…, n mô hình sở v22 nhận giá trị -1, 0, 1, 2, …, n tương ứng với việc hai cụm từ khác câu khoảng cách từ hai cụm từ câu < NE > Trương Trí Lâm < /NE > , < NE > Ngô Quân Như < /NE > bạn học đại họcHọ < /P > những sinh viên xuất sắc trường Trương Trí Lâm | Họ 1:3 2:1 3:-1 4:0 5:-1 6:1 7:1 8:1 9:0 10:0 11:0 12:0 13:0 14:-1 15: -1 16:-1 17:1 18:1 19:1 20:-1 21:1 22:-1 Hình 8: Một ví dụ sinh vector đặc trưng Nhận xét: • Thực nghiệm cho thấy giá trị thuộc tính v6, v7, v8 ,v11 nhận giá trị đa số trường hợp cặp cụm từ có quan hệ đồng tham chiếu • Tuy nhiên, có số trường hợp nhập nhằng ngữ nghĩa nên vector đặc trưng tốt quan hệ hai cụm từ, gây khó khăn cho việc gán nhãn lớp pha • Với số liệu thực nghiệm mô hình đề xuất sinh 2500 vector đặc trưng Mô hình sở sinh 3000 vector đặc trưng 39 4.3.3 Xây dựng phân lớp Tập vector đặc trưng sinh phần trước, tiến hành kiểm tra gán nhãn tay Trong đó, vector đặc trưng có nhãn tương ứng với cặp cụm từ tương ứng có quan hệ đồng tham chiếu, ngược lại Sau tập vector gán nhãn tiến hành huấn luyện mô hình kiểm thử sử dụng công cụ libSVM 4.4 Đánh giá, so sánh 4.4.1 Đánh giá hệ thống Hệ thống đánh giá chất lượng thông qua ba độ đo: độ xác (precision), độ hồi tưởng (recall) độ đo F (F-measure) Ba độ đo tính toán theo công thức sau: ݁ݎ = ܿܥݐܿ݁ݎݎ ܿܥݐܿ݁ݎݎ + ݅݊ܿܥݐܿ݁ݎݎ ܿ݁ݎభ = ܿܥݐܿ݁ݎݎଵ ܿܥݐܿ݁ݎݎଵ + ݅݊ܿܥݐܿ݁ݎݎ ܨ = ∗ ݁ݎ ∗ ܿ݁ݎ ܿ݁ݎ + ܿ݁ݎ Trong đó: Giá trị ܿܥݐܿ݁ݎݎ ݅݊ܿܥݐܿ݁ݎݎ ܿܥݐܿ݁ݎݎଵ ݅݊ܿܥݐܿ݁ݎݎଵ Ý nghĩa Số kết phân lớp vào lớp Số kết phân lớp vào lớp sai Số kết phân lớp vào lớp Số kết phân lớp vào lớp sai 4.4.2 Phương pháp đánh giá Tiến hành thực nghiệm phân lớp hai mô hình theo phương pháp đánh giá chéo Theo phương pháp này, liệu học chia thành 10 phần nhau, lấy phần để huấn luyện phần lại để kiểm tra, kết sau 10 lần thực nghiệm ghi lại đánh giá tổng thể Thư viện libSVM sử dụng khóa luận hỗ trợ phương pháp đánh giá này, phần thực nghiệm sử dụng kết sẵn có thư viện 40 Ngoài ra, phần tiến hành thực nghiệm thực tế 10 đoạn văn khác Các đoạn văn gán nhãn thành phần, sau sinh vector đặc trưng gán nhãn lớp tương ứng Kết ghi lại đánh giá tổng thể 4.4.3 Kết thực nghiệm Kết thực nghiệm so sánh hai mô hình: Mô hình đề xuất PModel mô hình sở BModel Bảng 11: Độ xác trung bình hai mô hình theo LibSVM thực nghiệm thực tế 10 văn PModel BModel Độ xác trung bình theo LibSVM 76.51 % 73.79 % Độ xác trung bình theo thực nghiệm thực tế 77, 83 % 71,12 % 100 90 80 70 60 PModel 50 BModel 40 30 20 10 10 Hình 9: Kết độ đo xác hai mô hình thực nghiệm 10 văn 41 80 70 60 50 PModel 40 BModel 30 20 10 10 Hình 10: Kết độ đo hồi tưởng hai mô hình thực nghiệm 10 văn 80 70 60 50 PModel 40 BModel 30 20 10 10 Hình 11: Kết độ đo F1 hai mô hình thực nghiệm 10 văn 4.5 Nhận xét Quá trình thực nghiệm bước đầu mô hình trích chọn quan hệ đồng tham chiếu văn tiếng Việt dựa vào phương pháp máy vector hỗ trợ SVM cho thấy kết tương đối khả quan với độ xác trung bình 76.51%, mô hình sở với đặc trưng tương đương cho độ xác 73.79% Điều thể tính đắn phù hợp mô hình đề xuất với miền liệu tiếng Việt Ngoài ra, kết phần thực nghiệm thực tế với 10 văn khác với độ xác trung bình PModel BModel 77 83%, 71.12% củng cố thêm mô hình đề xuất 42 hoàn toàn khả thi Tuy nhiên, kết độ đo hồi tưởng độ đo F1 phụ thuộc chưa cho kết cao phụ thuộc vào liệu văn kiểm tra có tính nhập nhằng cao; kết độ đo xác với văn chưa đồng miền liệu học chưa bao phủ hết trường hợp Nhưng tác giả tin xây dưng tập liệu huấn luyện đủ lớn, thu thập nguồn liệu chuNn kết hợp thêm đặc trưng, mô hình đạt độ xác cao tương lai 43 Kết luận Từ việc nghiên cứu toán đồng tham chiếu văn bản, khóa luận đề xuất mô hình giải toán đồng tham chiếu văn tiếng Việt, cụ thể mô hình trích chọn quan hệ đồng tham chiếu văn tiếng Việt dựa phương pháp máy vector hỗ trợ (SVM) Qua kết thực nghiệm đạt cho thấy mô hình đề xuất hoàn toàn khả thi áp dụng thực tế Về mặt nội dung, khóa luận đạt kết sau: • Giới thiệu toán đồng tham chiếu văn khái niệm liên quan • Tìm hiểu giới thiệu phương pháp giải toán đồng tham chiếu văn bao gồm hai phương pháp học máy không giám sát hai phương pháp học máy giám sát • Trên sở kế thừa nghiên cứu, khảo sát đặc trưng văn tiếng Việt, khóa luận đề xuất số đặc trưng dựa mô hình học có giám sát SVM sở Từ đó, xây dựng mô hình trích chọn quan hệ đồng tham chiếu văn tiếng Việt đạt kết tương đối khả quan (76.51%) Bên cạnh kết đạt đó, hạn chế mặt thời gian kiến thức nên khóa luận số hạn chế sau: • Chưa đánh giá mô hình giải toán điều kiện liệu đầu vào kết đầu pha nhận dạng thực thể gắn nhãn từ loại • Chưa xây dựng giao diện sử dụng tương tác với người dùng Về định hướng nghiên cứu thời gian tới: • Khảo sát áp dụng số đặc trưng quan hệ ngữ nghĩa tiếng Việt để nâng cao độ xác mô hình • Thử nghiệm, nghiên cứu phương pháp tiếp cận khác toán đồng tham chiếu tiếng Việt • Đóng gói mô đun tích hợp vào hệ thống hỏi đáp thực thể tên người cho tiếng Việt 44 Tài liệu tham khảo Tiếng Việt [1] Hà Quang Thụy, Phan Xuân Hiếu, Đoàn Sơn, Nguyễn Trí Thành, Nguyễn Thu Trang, Nguyễn CNm Tú Giáo trình khai phá liệu Web Nhà xuất giáo dục Việt Nam, 2009 [2] Lê Trung Hoa : Họ tên người Việt Nam, Nhà xuất Khoa học Xã hội, 2005 [3] Lê Thanh Hương: Một cách tiếp cận việc tự động sinh biểu diễn tương đương đoạn văn bản, Tạp chí Bưu viễn thông Công nghệ thông tin, 10/2007 Tiếng Anh [4] C Cardie, K Wagstaff: Noun Phrase Coreference as Clustering, Empirical Methods in Natural Language Processing Conference (EMNLP 1999) [5] Z Dzunic, S Momcilovic, B Todorovic: Coreference Resolution Using Decision Tree, Neural Network Applications in Electrical Engineering, 2006 [6] Pascal Denis, Jason Baldridge: A ranking approach to pronoun resolution Proceedings of the 20th International Joint Conference on Artifical intelligence (IJCAI 2007) [7] T Finley, T Joachims: Supervised clustering with Support Vector Machines, Proceeding of the 22nd International Conference on Machine Learning, Germany 2005 [8] Iris Hendrickx, Su Nam Kim, Zornitsa Kozareva, Preslav Nakov, Diarmuid O Seaghdha,Sebastian Pado, Marco Pennacchiotti, Lorenza Romano and Stan Szpakowicz: Multi-Way Classification of Semantic Relations Between Pairs of Nominals SEW, 2009 [9] V´ronique Hoste: Manual for the Annotation of Coreferences in Dutch Newspaper Texts, 2005 [10] Corina Roxana Girju: Text mining for semantic relations PhD Thesis The University of Texas at Dallas, 2002 [11] Joseph F Mccarthy: A trainable approach to coreference resolution for information extraction, 1996 [12] Ruslan Mitkov: Robust pronoun resolution with limited knowledge The 17th international conference on Computational linguistics, COLING 1998 45 [13] Thomas S Morton: Coreference for NLP applications Proceedings of the 38th Annual Meeting on Association for Computational Linguistics, 2000 [14] Thomas S Mortan: Using coreference for question answering, In Proceedings of the 8th Text Retrieval Conference, 1999 [15] Vincent Ng : Machine Learning for Coreference Resolution: From Local Classification to Global Ranking Proceedings of the 43rd Annual Meeting of the Association for Computational Linguistics (ACL-05), 2005 [16] Vincent Ng: Supervised Noun Phrase Coreference Research: The First Fifteen Years Proceedings of the 48th Annual Meeting of the Association for Computational Linguistics (ACL-10), 2010 [17] Altaf Rahman and Vincent Ng.:Supervised Models for Coreference Resolution Proceedings of the 2009 Conference on Empirical Methods in Natural Language Processing (EMNLP-09), 2009 [18] Josef Steinberger, Massimo Poesio, Mijail A Kabadjov, Karel Jezek: Two Uses of Anaphora Resolution in Summarization, Information Processing and Management: an International Journal , 2007 [19] José Vicedo, Antonio Ferrández: Importance of pronominal anaphora resolution in question answering systems, ACL, 2000 [20] Yannick Versley, Simone Paolo Ponzetto, Massimo Poesio : BART: A Modular Toolkit for Coreference Resolution, LREC 2008 [21] Yang Xiaofeng: A twin-candidate model for learning based coreference resolution, Doctor thesis, NUS, 2005 [22] Jaeyoung Yang, Heekuck Oh, Kyung-Goo Doh and Joongmin Choi A : Knowledge-Based Information Extraction System for Semi-structured Labeled Documents, Proceedings of the Third International Conference on Intelligent Data Engineering and Automated Learning, 2002 46