Phân giải sự đồng tham chiếu các thực thể có tên tiếng việt

CƠNG TRÌNH ĐƯỢC HỒN THÀNH TẠI TRƯỜNG ĐẠI HỌC BÁCH KHOA ĐẠI HỌC QUỐC GIA TP HỒ CHÍ MINH Cán hướng dẫn khoa học: TS Cao Hoàng Trụ Cán chấm nhận xét 1: PGS.TS Phan Thị Tươi Các chấm nhận xét 2: TS Đinh Điền Luận văn thạc sĩ bảo vệ HỘI ĐỒNG CHẤM BẢO VỆ LUẬN VĂN THẠC SĨ TRƯỜNG ĐẠI HỌC BÁCH KHOA, ngày 18 tháng 08 năm 2005 LỜI CẢM ƠN Trước tiên, tơi xin chân thành cảm ơn TS Cao Hồng Trụ nhiệt tình hướng dẫn định hướng để tơi hồn thành luận văn Xin chân thành cảm ơn thành viên nhóm nghiên cứu phát triển hệ thống VNKIM: Vũ Quang Duy, Huỳnh Ngọc Tuyên, Nguyễn Thị Trúc Viên hỗ trợ khoảng thời gian vừa qua Cảm ơn Ba, Mẹ động viên tinh thần khuyến khích tơi hồn thành tốt luận văn Cảm ơn Ths Trần Ngọc Truyền bỏ hàng bàn luận vấn đề liên quan đến luận văn Cảm ơn Anh, Chị mơn Tin học –Tốn trường Cao Đẳng Hoa Sen hỗ trợ nhiều thời gian vừa qua TÓM TẮT Xuất phát từ nhu cầu khai thác cách có hiệu nguồn thơng tin khổng lồ internet thúc đẩy đời ứng dụng rút trích thơng tin tự động, web có ngữ nghĩa Trong ứng dụng này, vấn đề phân giải đồng tham chiếu loại bỏ nhập nhằng hai số vấn đề yếu Do thực thể có tên góp phần quan trọng vào ngữ nghĩa tài liệu, phân giải đồng tham chiếu tên riêng loại bỏ nhập nhằng tên riêng vấn đề có ý nghĩa thực tiễn lớn Đã có nhiều cơng trình nghiên cứu nhiều ngôn ngữ khác vấn đề phân giải đồng tham chiếu tên riêng, chưa có cơng trình nghiên cứu cho tiếng Việt Đối với vấn đề loại bỏ nhập nhằng tên riêng, có số cơng trình nghiên cứu vấn đề này, nhiên, vấn đề thách thức Mục tiêu luận văn đề xuất giải pháp để phân giải đồng tham chiếu tên riêng loại bỏ nhập nhằng tên riêng cho thực thể có tên tiếng Việt Dựa vào đặc thù tên tiếng Việt, luật so trùng tên đề xuất để phân giải đồng chiếu tên riêng Chúng kết hợp tri thức thực thể giới thực, ngữ cảnh tài liệu kết phân giải đồng tham chiếu để loại bỏ nhập nhằng tên riêng So với cơng trình trước, nghiên cứu chúng tơi có hai điểm sau: thứ nhất, đề xuất luật so trùng tên áp dụng cho thực thể có tên tiếng Việt ; thứ hai, đề xuất tiếp cận cho vấn đề loại bỏ nhập nhằng tên riêng Chúng thực kiểm nghiệm giải pháp đề xuất Kết đạt được: Precision/Recall khoảng 97%/95% phân giải đồng tham chiếu tên riêng ; Precision khoảng 91% phần loại bỏ nhập nhằng tên riêng i MỤC LỤC DANH MỤC HÌNH iv CHƯƠNG 1: GIỚI THIỆU 1.1 Tổng quan 1.2 Cấu trúc luận văn CHƯƠNG 2: TỔNG QUAN VỀ CÁC HỆ THỐNG RÚT TRÍCH TRƠNG TIN 10 2.1 Rút trích thơng tin 10 2.2 Chú thích ngữ nghĩa 14 2.3 Ontology 16 2.4 Cơ sở tri thức 16 CHƯƠNG 3: 3.1 PHÂN GIẢI ĐỒNG THAM CHIẾU LOẠI BỎ NHẬP NHẰNG 19 Phân giải đồng tham chiếu 19 3.1.1 Phát biểu vấn đề 19 3.1.2 Phân giải đồng tham chiếu tên riêng .20 3.2 Loại bỏ nhập nhằng .22 3.2.1 Sự nhập nhằng tên riêng 22 3.2.2 Loại bỏ nhập nhằng tên riêng 23 CHƯƠNG 4: CÁC NGHIÊN CỨU LIÊN QUAN 26 4.1 Tổng quan .26 4.2 Các nghiên cứu quan trọng .29 4.2.1 Phân giải đồng tham chiếu dùng luật so trùng 29 4.2.2 Tiếp cận KIM 31 4.2.3 Giải vấn đề đồng tham chiếu áp dụng cho trang web .32 4.3 Hệ thống GATE 33 4.4 Hệ thống KIM .36 CHƯƠNG 5: PHƯƠNG PHÁP GIẢI QUYẾT 38 5.1 Hướng tiếp cận luận văn 38 5.2 Mơ hình 39 5.3 Giải pháp cho vấn đề đồng tham chiếu 41 ii 5.4 Giải pháp loại bỏ nhập nhằng tên riêng 44 5.4.1 Loại bỏ nhập nhằng tên riêng theo ngữ cảnh 46 5.4.2 Loại bỏ nhập nhằng tên riêng sử dụng chuỗi đồng tham chiếu 51 CHƯƠNG 6: 6.1 HIỆN THỰC 53 Hiện thực giải pháp loại bỏ nhập nhằng tên riêng 54 6.1.1 Giải thuật loại bỏ nhập nhằng theo ngữ cảnh 54 6.1.2 Giải thuật loại bỏ nhập nhằng dựa chuỗi đồng tham chiếu 58 6.2 Hiện thực phần phân giải đồng tham chiếu 58 CHƯƠNG 7: 7.1 ĐÁNH GIÁ KẾT QUẢ 61 Các tiêu chuẩn đánh giá 61 7.1.1 Các thang đo cho phần phân giải đồng tham chiếu 61 7.1.2 Thang đo cho phần loại bỏ nhập nhằng 61 7.2 Kết thực nghiệm .61 7.2.1 Kiểm nghiệm phần phân giải đồng tham chiếu 61 7.2.2 Kiểm nghiệm phần loại bỏ nhập nhằng 62 CHƯƠNG 8: KẾT LUẬN HƯỚNG MỞ RỘNG 62 TÀI LIỆU THAM KHẢO 64 iii DANH MỤC HÌNH Hình 2-1: Chú thích ngữ nghĩa 15 Hình 2-2: Một phần phân cấp lớp ontology 16 Hình 2-3: Mơ tả thực thể KB 17 Hình 4-1: Hệ thống ANNIE .34 Hình 4-2: Chú thích GATE 35 Hình 4-3: Các chuỗi đồng tham chiếu GATE 36 Hình 4-4: Hệ thống KIM .37 Hình 5-1: Mơ hình .40 Hình 6-1: Đồ thị thích 54 iv CHƯƠNG 1: GIỚI THIỆU CHƯƠNG 1: 1.1 GIỚI THIỆU Tổng quan Theo nghiên cứu trường đại học Berkeley, [18], tổng số thông tin internet năm khoảng 532,897 terabytes1 Trong đó, World Wide Web (gọi tắt Web) chứa khoảng 170 terabytes thông tin (chưa kể thông tin sở liệu tải động lên trang web – ước chừng khoảng 91,950 terabytes) Như vậy, tính đến năm 2003, internet trở thành bốn kênh truyền tải thông tin lớn giới (ba kênh cịn lại là: điện thoại, radio truyền hình) Các số liệu cho thấy, World Wide Web trở thành kho lưu trữ thông tin khổng lồ nhân loại Đa phần thông tin thể dạng ngôn ngữ tự nhiên, phù hợp cho người đọc hiểu Với 600 triệu người giới truy cập internet vào năm 2003, [18], cho thấy nhu cầu khai thác thông tin internet vơ lớn Do đó, việc nghiên cứu đề xuất giải pháp để máy tính hỗ trợ người khai thác cách có hiệu nguồn thông tin internet (và kho tài liệu điện tử khác) mang lại lợi ích to lớn thiết thực Chính nhu cầu khai thác thơng tin internet cách hiệu thúc đẩy đời ý tưởng rút trích thơng tin (information extraction - IE) tự động, web có ngữ nghĩa (semantic web) Các kiến trúc tảng cho ứng dụng rút trích thơng tin, quản lí tri thức thơng tin kết hợp web có ngữ nghĩa phát triển ngày hoàn thiện Trong ứng dụng dựa kiến trúc này, vấn đề phân giải đồng tham chiếu loại bỏ nhập nhằng vấn đề quan trọng Nghiên cứu đề xuất giải pháp hữu hiệu cho vấn đề giúp nắm ngữ nghĩa tài liệu rút trích cách xác thơng tin cần thiết 1 terabyte = 1012 bytes CHƯƠNG 1:GIỚI THIỆU Trong tài liệu, thực thể có tên2 (named entity- NE) góp phần quan trọng vào ngữ nghĩa tài liệu Do đó, để nắm ngữ nghĩa tài liệu trước hết cần nắm ngữ nghĩa thực thể có tên tài liệu Gần đây, ứng dụng rút trích thơng tin, web có ngữ nghĩa phát triển đạt kết khả quan Các ứng dụng nhận diện thực thể có tên đề cập đến tài liệu, rút trích thơng tin liên quan đến thực thể có tên tạo thích ngữ nghĩa tự động tương ứng với thực thể Các tài liệu có thích ngữ nghĩa cho thực thể có tên giúp cho việc tìm kiếm khai thác thơng tin cách xác hiệu Tuy nhiên, việc xác định ngữ nghĩa thực thể có tên tài liệu khơng phải cơng việc đơn giản, thực thể có nhiều tên thực thể khác trùng tên Ví dụ: với tên ‘Trực’ xuất tài liệu tên nhân vật: Mai Liêm Trực, Mai Ái Trực, Nguyễn Trung Trực, Hồ Biểu Trực, Lê Chánh Trực, , có hàng trăm, chí hàng nghìn nhân vật có tên ‘Trực’ ; với tên viết tắt ‘HP’ xuất tài liệu tên nhân vật: Hồng Phong, Huỳnh Phước, tên thành phố Hải Phịng, tên cơng ty Hewllet Packard, Do đó, câu hỏi đặt là: tên xuất tài liệu tên NE giới thực? tên giống nhiều vị trí khác có phải tên NE hay không? tên khác nhiều vị trí khác có phải tên khác NE hay không? Để trả lời câu hỏi nêu trên, cần thiết phải có giải pháp cho vấn đề phân giải đồng tham chiếu tên riêng loại bỏ nhập nhằng tên riêng Tên riêng danh từ riêng dùng làm tên gọi cho người, vật, riêng biệt Phân giải đồng tham chiếu tên riêng xác định tên riêng tài liệu đề cập đến thực thể Loại bỏ nhập nhằng tên riêng xác định xác tên riêng xuất tài liệu tên thực thể giới thực Các giải pháp hữu hiệu cho vấn đề giúp xác định NE Con người (nam, nữ), Tổ chức (Cơng ty, Chính phủ, Đồn thể, Trường học, Quân đội, Các tổ chức truyền thông, ), Nơi chốn (Thành phố, Tỉnh, Quốc gia, Lục địa, Biển, Hồ, Sông, Núi, Danh lam, Thắng cảnh, Phi trường, Bến cảng, Đường xá, Quận, Huyện, ) đối tượng định danh thông qua tên 1.1 Tổng quan xác ngữ nghĩa thực thể có tên ; đồng thời giúp rút trích cách xác qn thơng tin liên quan đến thực thể có tên đề cập đến tài liệu Nói tóm lại, phân giải đồng tham chiếu loại bỏ nhập nhằng cho thực thể có tên vấn đề quan trọng hệ thống xử lý ngôn ngữ tự nhiên như: rút trích thơng tin, web có ngữ nghĩa, dịch máy (machine translation), tổng hợp văn (text summarization), hỏi đáp (question answering) Do tính chất quan trọng chúng, nên vấn đề phân giải đồng tham chiếu có nhiều nghiên cứu ngôn ngữ khác nhiều hướng tiếp cận (tiếp cận tri thức3, học máy, ) đề xuất Đối với vấn đề loại bỏ nhập nhằng tên riêng, có số cơng trình nghiên cứu, nhiên, vấn đề thách thức Trong luận văn này, đưa giải pháp để giải vấn đề phân giải đồng tham chiếu loại bỏ nhập nhằng cho thực thể có tên tiếng Việt, tập trung chủ yếu vào vấn đề phân giải đồng tham chiếu tên riêng loại bỏ nhập nhằng tên riêng Từ việc khảo sát phương pháp giải vấn đề phân giải đồng tham chiếu tên riêng thực thể có tên cho ngôn ngữ khác (đặc biệt tiếng Anh), phát triển luật so trùng tên tiếng Việt Đối với vấn đề nhập nhằng tên riêng, tiếp cận sử dụng tri thức thực thể giới thực để xác định mối quan hệ NE dự tuyển4 với NE làm rõ ngữ nghĩa đề cập đến tài liệu Bên cạnh đó, tiếp cận sử dụng số heuristic như: xét mối số quan hệ NE dự tuyển với NE làm rõ ngữ nghĩa câu, đoạn, toàn tài liệu đứng trước tài liệu ; xét mối quan hệ cha NE dự tuyển ; xét mối quan hệ gián tiếp (xem phần 5.4.1) Hơn nữa, kết việc phân giải đồng tham chiếu tên riêng sử dụng để loại bỏ nhập nhằng tên riêng Giải pháp cho vấn đề phân giải đồng tham chiếu tên riêng loại bỏ nhập nhằng tên riêng tiếng Việt thực module hệ thống rút trích thông tin VN-KIM5 Giải pháp sử dụng liệu nhập tài liệu chứa tên riêng siêu liệu Các siêu Knowledge poor approach - tiếp cận khơng phân tích sâu cú pháp, khơng sử dụng tri thức giới, mà dựa vào số đặc trưng cú pháp văn phạm NE dự tuyển NE giới thực tương ứng với tên có nhập nhằng xuất tài liệu Hệ thống quản lý tri thức thông tin cho thực thể có tên Việt Nam, phát triển Khoa CNTT trường ĐHBK TPHCM, xem http://www.dit.hcmut.edu.vn/~tru/VN-KIM/index.htm CHƯƠNG 1:GIỚI THIỆU liệu thích ngữ nghĩa (semantic annotation), thích ngữ nghĩa chứa thông tin kiểu tham chiếu đến mơ tả ngữ nghĩa thực thể có tên tương ứng kho ngữ nghĩa Kho ngữ nghĩa bao gồm có ontology sở tri thức (knowledge base – KB) Như vậy, luận văn không thực nhận diện tên riêng không xây dựng kho ngữ nghĩa 1.2 Cấu trúc luận văn Luận văn tổ chức sau: y Phần trình bày tổng quan hệ thống rút trích thơng tin – hệ thống mà loại bỏ nhập nhằng phân giải đồng tham chiếu hai số vấn đề yếu Phần trình bày qui trình rút trích thơng tin ; khái niệm ontology & sở tri thức, thích ngữ nghĩa y Phần trình bày tổng quan đồng tham chiếu, nhập nhằng nguyên nhân gây nhập nhằng Phần phát biểu vấn đề phân giải đồng tham chiếu loại bỏ nhập nhằng, tập trung làm rõ vấn đề phân giải đồng tham chiếu tên riêng loại bỏ nhập nhằng tên riêng y Phần khảo sát nghiên cứu liên quan Phần đề cập đến hệ thống GATE6 KIM7 y Phần trình bày tiếp cận luận văn giải pháp cụ thể cho vấn đề phân giải đồng tham chiếu loại bỏ nhập nhằng tên riêng Các heuristic, luật so trùng tên trình bày phần General Architecture for Text Engineering, http://gate.ac.uk Knowledge Information Management, http://www.ontotext.com/kim/ CHƯƠNG 6: HIỆN THỰC 53 CHƯƠNG 6: HIỆN THỰC Tiếp cận xét liệu vào tài liệu với danh sách thích ngữ nghĩa, thích ngữ nghĩa bao gồm thành phần: y id: dùng để phân biệt thích y type: kiểu thực thể tương ứng y startOffset: vị trí bắt đầu thích tính từ đầu tài liệu y endOffset: vị trí kết thúc thích tính từ đầu tài liệu y features: đặc trưng thích: URI tương ứng với lớp ontology, định danh thực thể tương ứng sở tri thức, chuỗi đồng tham chiếu có chứa id thích Ví dụ: tài liệu có xuất cụm từ ‘Bộ trưởng Bộ GD-ĐT, ông Nguyễn Minh Hiển’, hệ thống thích ngữ nghĩa tạo thích ngữ nghĩa sau: Các token Bộ trưởng Bộ GD-ĐT , ông Nguyễn Minh Hiển StartOffset endOffset 10 12 13 18 18 19 20 23 24 30 36 40 31 35 Các thích ngữ nghĩa id type sart Offset end Offset Tổ_chức_giáo_dục 10 18 Nam 20 40 features Class = http://www.dit.hcmut.edu.vn/vnkim/vnk imo.rdfs#Tổ_chức_giáo_dục id= http://www.dit.hcmut.edu.vn/vnkim/vnk imkb.rdf#Tổ_chức_giáo_dục_1 Class = http://www.dit.hcmut.edu.vn/vnkim/vnk imo.rdfs#Nam id= http://www.dit.hcmut.edu.vn/vnkim/vnk imkb.rdf#Nam_2 CHƯƠNG 6: HIỆN THỰC 54 Có thể xem startOffset endOffset nút (node) thích ngữ nghĩa cung đồ thị thích, Hình 6-1 Giữa hai nút đồ thị có nhiều thích ngữ nghĩa hình ảnh nhập nhằng Hình 6-1: Đồ thị thích Phần 6.1 trình bày giải thuật loại bỏ nhập nhằng tên riêng, phần 6.2 trình bày giải thuật phân giải đồng tham chiếu tên riêng 6.1 Hiện thực giải pháp loại bỏ nhập nhằng tên riêng 6.1.1 Giải thuật loại bỏ nhập nhằng theo ngữ cảnh Với liệu nhập danh sách thích ngữ nghĩa, danh sách xem xét dạng đồ thị thích Do đó, mục tiêu phần loại bỏ nhập nhằng loại bỏ thích khơng phù hợp cho hai nút đồ thị thích có thích ngữ nghĩa Tuy nhiên, mục tiêu lý tưởng, số trường hợp thiếu thơng tin nên khơng thể loại bỏ thích không phù hợp Như đề cập, trường hợp NE khơng có mơ tả ngữ nghĩa kho ngữ nghĩa thực loại bỏ nhập nhằng cấp độ kiểu thực thể, điều thực thông qua phân giải đồng tham chiếu Đối với trường hợp NE có mơ tả ngữ nghĩa kho ngữ vấn đề nhập nhằng xảy tên riêng thực thể xuất tài liệu có hai nhiều thích ngữ nghĩa tương ứng 6.1 Hiện thực giải pháp loại bỏ nhập nhằng tên riêng 55 Phần thực phần loại bỏ nhập nhằng theo ngữ cảnh cho trường hợp NE đề cập tài liệu có mơ tả ngữ nghĩa kho ngữ nghĩa Như đề cập, có nhiều thích tương ứng với tên riêng có nhập nhằng, thích chứa thơng tin thực thể dự tuyển Giải thuật xét ngữ cảnh, ngữ cảnh tiến hành kiểm tra mối quan hệ thực thể dự tuyển xét với thực thể rõ ngữ nghĩa xung quanh cách truy vấn kho ngữ nghĩa thông qua ngôn ngữ SeRQL17 Hai thực thể A, B gọi có quan hệ với A có quan hệ với B ngược lại B có quan hệ với A Mối quan hệ thực thể khơng có tính bắc cầu, nghĩa A quan hệ với B, B có quan hệ với C, khơng suy A có quan hệ với C Để đếm mối quan hệ thực thể dự tuyển (A) với thực thể rõ nghĩa, xét mối quan hệ theo cặp, tức xét mối quan hệ với thực thể rõ ngữ nghĩa B Nếu A có quan hệ với B nguợc lại ghi thêm cho A điểm Cuối chọn thực thể có số điểm cao Nếu xét ngữ cảnh mà không loại bỏ nhập nhằng mở rộng ngữ cảnh Việc loại bỏ nhập nhằng lặp lặp lại dừng hai lần lặp khơng có thay đổi số lượng thích Để dễ hình dung chúng tơi mơ tả qúa trình sau: Đối với tên riêng có nhiều thích tương ứng (nhập nhằng), gọi số lượng thích tương ứng với tên riêng n Khi thích tương ứng với tên riêng đánh số tương ứng là: A1, A2, , An Xét ngữ cảnh câu y Gọi U i ( i =1,n ) tập hợp các NE (đã làm rõ ngữ nghĩa) câu với NE có định danh chứa thích Ai có quan hệ với NE Đặt numRelatedNEinSent = max{U i }i∈1,n Đặt M= {U j }j∈1,n tập tập U có số phần tử với numRelatedNEinSent , loại tất thích có tập U tương ứng có só phần tử nhỏ numRelatedNEinSent 17 Ngơn ngữ dùng để truy vấn kho ngữ nghĩa Sesame CHƯƠNG 6: HIỆN THỰC 56 Nếu M = giữ lại thích A j ( j∈1,n ) tương ứng, xét tên riêng (có nhập nhằng) Xét ngữ cảnh đoạn y Nếu M > , gọi B1, B2, , Bm (m= M ) thích cịn lại Vi ( i =1,m ) tập NE (đã làm rõ ngữ nghĩa) đoạn với NE có định danh chứa thích Bi có quan hệ với NE Đặt numRelatedNEinPar = max {Vi }i∈1,m Đặt S = {Vi }i∈1,m tập tập V có số phần tử numRelatedNEinPar, loại tất thích có tập V tương ứng có số phần tử nhỏ numRelatedNEinPar Nếu S = gữ lại thích B j ( j∈1,m ) tương ứng, xét tên riêng (có nhập nhằng) Xét toàn tài liệu y Nếu S > 1, gọi C1, C2, , Cs (s= S ) thích cịn lại Wi (i =1,s ) tập NE rõ ngữ nghĩa văn có quan hệ với NE có định danh chứa thích Ci Đặt numRelatedNE = max {Wi }i∈1,s Đặt P = W j { } j∈1, s tập tập W có số phần tử numRelatedNE, loại tất thích có tập W tương ứng có số phần tử nhỏ numRelatedNE Xét tên riêng (có nhập nhằng) Sau mã giả giải thuật: 6.1 Hiện thực giải pháp loại bỏ nhập nhằng tên riêng Giải thuật 1:Loại bỏ nhập nhằng stop = false while not stop if danh sách thích khơng đổi then stop = true else N = getPropernameWithAmbiguity() for k = to N U = {tập thích tương ứng với tên riêng thứ k} for i = to (n= U ) Ui = getRelateClearedNEInSent() numRelatedNEInSent = max {U i }i∈1,n M= Φ for j = to n if U j = numRelatedNEInSent then thêm U j vào M else loại thích tương ứng if (m= M ) > then S= Φ for i = to m Vi = getRelateClearedNEInPar() numRelatedNEInPar = max {Vi }i∈1,m for j = to m if V j = numRelatedNEInPar then thêm V j vào S else loại thích tương ứng if (s = S ) > then P= Φ for i = to s Wi = getRelateClearedNE() numRelatedNE = max {Wi }i∈1,s for j = to s if W j = numRelatedNE then thêm W j vào P else loại thích tương ứng 57 CHƯƠNG 6: HIỆN THỰC 58 Giải thuật 2: getRelateClearedNE (Lấy NE đề cập tài liệu làm rõ ngữ nghĩa có quan hệ với NE xét) NE = {tập NE làm rõ ngữ nghĩa} NE0 thực thể xem xét U= Φ for i = to NE if NEi có quan hệ với NE0 ngược lại then thêm NEi vào U return U getRelateClearedNEInSent() getRelateClearedNEInPar() thực tương tự, thay NE chứa tập NE làm rõ ngữ nghĩa tồn tài liệu chứa NE làm rõ ngữ nghĩa câu đoạn với NE xét 6.1.2 Giải thuật loại bỏ nhập nhằng dựa chuỗi đồng tham chiếu Sau phân giải đồng tham chiếu, thực phần loại bỏ nhập nhằng dựa vào chuỗi đồng tham chiếu Giải thuật 3: loại bỏ nhập nhằng dựa vào chuỗi đồng tham chiếu Xét chuỗi đồng tham chiếu Ứng với chuỗi đồng tham chiếu, chọn thích tương ứng với tên khơng có nhập nhằng thực thể tương ứng có kiểu nhỏ Cập nhật lại thích khác theo thích chọn Đối với tên riêng có nhiều thích tương ứng, giữ lại thích 6.2 Hiện thực phần phân giải đồng tham chiếu Như đề cập phần 5.3, NE đề cập tài liệu xác định kiểu (thuộc lớp ontolgy) có kiểu Unknown Đối với NE thuộc kiểu 6.2 Hiện thực phần phân giải đồng tham chiếu 59 Unknown, sau phân giải đồng tham chiếu, cập nhật lại thông tin kiểu định danh thực thể tương ứng tên riêng đồng tham chiếu với tên riêng tài liệu xác định rõ ngữ nghĩa NE tương ứng Trong trình phân giải đồng tham chiếu không xét đồng tham chiếu tên riêng có thích ngữ nghĩa tương ứng chồng lên nhau, mà xét thích rời Kết q trình phân giải đồng tham chiếu danh sách chuỗi đồng tham Như đề cập, thích chứa hai thông tin quan trọng kiểu định danh thực thể tương ứng Tổ hợp hai thông tin ta có ba trường hợp: (i) thích ngữ nghĩa chứa thông tin kiểu thực thể Unknown, (ii) thích ngữ nghĩa chứa thơng tin kiểu thực thể, khơng có định danh, (iii) thích ngữ nghĩa chứa thông tin kiểu thực thể định danh thực thể Trong phần phân giải đồng tham chiếu, xét cặp hai thích Nếu hai thích rơi vào trường hợp (iii) trường hợp dễ hai định danh giống cặp tên tương ứng đồng tham chiếu Còn trường hợp hai thích rơi vào trường hợp (i) việc phân giải đồng tham chiếu khơng có ý nghĩa Như hệ thống luật tập trung vào trường hợp: hai thích rơi vào trường hợp (ii), hai rơi vào trường hợp (i) thích cịn lại rơi vào trường hợp (ii) Xét cặp tên riêng N1 N2, N1 có chiều dài lớn N2, thích tương ứng với N1 chứa kiểu thực thể tương ứng type1 thích tương ứng với N2 chứa kiểu thực thể tương ứng type2 N1 N2 đồng tham chiếu trường hợp sau N1 N2 thỏa mãn luật so trùng tên (trong phần 5.3) điều kiện sau: y type1 type2 giống y type1 type2 có quan hệ cha y type1 xác định type2 không xác định (kiểu Unknown) CHƯƠNG 6: HIỆN THỰC 60 type1 không xác định type2 xác định y Đối với tên riêng xuất tài liệu trước áp dụng luật so trùng, thực chuẩn hóa Việc chuẩn hóa thực chất loại bỏ kí hiệu đặc biệt xuất tên riêng, ví dụ: ‘Bộ GD & ĐT’ chuẩn thành ‘Bộ GD ĐT’, ‘TP Hồ Chí Minh’ chuẩn thành ‘Tp Hồ Chí Minh’, ‘Bộ KH-CN’ chuẩn thành ‘Bộ KH CN’ Đối với tên nhân vật, bên cạnh việc loại bỏ kí hiệu đặc biệt chúng tơi cịn thực việc loại bỏ tiền tố như: TS, PTS, GS, PGS, TSKH, NSND, NSUT, Giám đốc, Chủ tịch, , ví dụ: ‘NSND Lê Khanh’ chuẩn thành ‘Lê Khanh’, ‘BS Trần Bồng Sơn’ chuẩn thành ‘Trần Bồng Sơn’ Giải thuật 4: Phân giải đồng tham chiếu dùng luật so trùng /* thuộc tính feature thích chứa chuỗi đồng tham chiếu*/ listAnnot = {Tập thích ngữ nghĩa} firstAnnot = Phần tử listAnnot processedAnnot = {} // chứa thích xử lý Thêm firstAnnot processedAnnot while listAnnot khác rỗng nextAnnot = getNextAnnot() matched = false while !matched phần tử processedAnnot chưa xét preAnnot = Phần tử processedAnnot chưa xét if annotMatched(preAnnot, nextAnnot) then Cập nhật chuỗi đồng tham chiếu preAnnot nextAnnot matched = true Thêm nextAnnot vào processedAnnot - getNextAnnot(): lấy phần tử listAnnot loại phần tử khỏi listAnnot annotMatched(preAnnot, nextAnnot): áp dụng luật so trùng cho cặp tên tương ứng với preAnnot nextAnnot CHƯƠNG 7: ĐÁNH GIÁ KẾT QUẢ CHƯƠNG 7: 61 ĐÁNH GIÁ KẾT QUẢ 7.1 Các tiêu chuẩn đánh giá 7.1.1 Các thang đo cho phần phân giải đồng tham chiếu y Precision (P) = số cặp đồng tham chiếu máy nhận diện đúng/số cặp đồng tham chiếu máy nhận diện y Recall (R) = số cặp đồng tham chiếu máy nhận diện đúng/số cặp đồng tham chiếu thực có tài liệu y F-Meaure = P*R , β số đánh giá mức độ quan trọng P β * P + (1 − β ) * R R ; β gần P quan trọng hơn, ngược lại, β gần R quan trọng β = 0.5 cho biết số P R ngang nhau, sau công thức sử dụng phổ biến F-Meaure = 7.1.2 2* P* R P+R Thang đo cho phần loại bỏ nhập nhằng y Precision (P) = số tên riêng loại bỏ nhập nhằng xác/số tên riêng có nhập nhằng nhận diện tài liệu 7.2 Kết thực nghiệm 7.2.1 Kiểm nghiệm phần phân giải đồng tham chiếu Chúng thử nghiệm chạy chương trình 200 tin thuộc thể loại khác lấy từ VnExpress thích thủ công với kết sau: Số cặp đồng tham chiếu thực tế Số cặp đồng tham chiếu máy nhận diện Số cặp đồng tham chiếu máy nhận diện Precision Recall F-Meaure 2383 2327 2226 97% 95% 96% CHƯƠNG 8: KẾT LUẬN HƯỚNG MỞ RỘNG 7.2.2 Kiểm nghiệm phần loại bỏ nhập nhằng Chúng thử nghiệm chạy chương trình 50 tin thuộc thể loại khác lấy từ VnExpress thích thủ cơng với kết đạt Precision khoảng 91% CHƯƠNG 8: KẾT LUẬN HƯỚNG MỞ RỘNG Trong đề tài nghiên cứu vấn đề phân giải đồng tham chiếu tên riêng vấn đề loại bỏ nhập nhằng tên riêng Đây hai vấn đề có quan hệ hữu với Một giải pháp hữu hiệu cho vấn đề loại bỏ nhập nhằng tên riêng giúp nâng cao hiệu phân giải đồng tham chiếu tên riêng ngược lại Sau khảo sát nghiên cứu liên quan, đề xuất tiếp cận cho tiếng Việt Tiếp cận kết hợp tri thức thực giới thực số heuristic sau: Đối với vấn đề đồng tham chiếu y Đề xuất luật so trùng tên dựa vào đặt thù tên tiếng Việt Đối với vấn đề nhập nhằng y Xét mối quan hệ thực thể dự tuyển với thực thể làm rõ ngữ nghĩa, kết hợp với ngữ cảnh tài liệu y Loại bỏ nhập nhằng dựa vào kết phân giải đồng tham chiếu Kết đạt cao vấn đề Tuy nhiên, chưa phân tích kết qủa kiểm nghiệm để đánh giá nguyên nhân gây lỗi nhằm mục đích cải tiến giải pháp Bên cạnh đó, cịn số ý tưởng chưa thực kiểm nghiệm Các công việc tiếp theo: y Phát triển tiếp heuristic cho vấn đề loại bỏ nhập nhằng y Phân tích đánh giá kết kiểm nghiệm để đánh giá tần xuất áp dụng luật so trùng tên 62 CHƯƠNG 8: KẾT LUẬN HƯỚNG MỞ RỘNG y Phân tích ngữ cảnh ngơn từ để phân giải đồng tham chiếu 63 TÀI LIỆU THAM KHẢO 64 TÀI LIỆU THAM KHẢO [1] Bontcheva K., Dimitrov M., Maynard D., Tablan V., Cunningham H (2002) Shallow Methods for Named Entity Coreference Resolution Chnes de références et résolveurs d'anaphores, workshop TALN 2002, Nancy, France [2] Bagga, A (May 1998) Evaluation of Coreferences and Coreference Resolution Systems Proceedings of the First Language Resource and Evaluation Conference [3] Barbu, C and Mitkov, R (2001) Evaluation tool for rule-based anaphora resolution methods In Proceedings of ACL’01, Tolouse, France [4] Baldwin, Breck (1997) COGNIAC: High precision coreference with limited knowledge and linguistic resources In Proceedings of ACL Workshop on Operational Factors in Practical, Robust Anaphora Resolution for Unrestricted Texts, pp 38–45 [5] Cunningham H., Maynard D., Bontcheva K and Tablan V (2002) GATE: A Framework and Graphical Development Environment for Robust NLP Tools and Applications In Proceedings Of the 40th Anniversary Meeting of the Association for Computational Linguistics [6] Cunningham, H., Maynard, D., Bontcheva, K., Tablan, V., and Ursu, C (2002) The GATE User Guide http://gate.ac.uk/ [7] Cunningham, H (April, 1999) Information Extraction - a User Guide Research memo CS-99-07, University of Sheffield [8] Cunningham, H., Maynard, D., Tablan, V (2000) JAPE: a Java Annotation Patterns Engine Research memo CS-99-07, University of Sheffield, November, 2000 [9] Dimitrov M., Bontcheva K., Cunningham H., Maynard D (2002) A Light-weight Approach to Coreference Resolution for Named Entities in Text In Proceedings of the Fourth Discourse Anaphora and Anaphor Resolution Colloquium (DAARC), Lisbon, Bulgaria, September, 2002 [10] Dimitrov, M (2002) A Light-weight Approach to Coreference Resolution for Named Entities in Text M.Sc Thesis, Department of Computer Science, Sofia University, February, 2002 [11] Grishman, R (1997) Information Extraction: Techniques and Challenges SpringerVerlag, Lecture Notes in Artificial Intelligence, Rome [12] Hobbs, J (1977) Resolving pronoun references Lingua, 44:311–338 TÀI LIỆU THAM KHẢO 65 [13] Hirschman, L (1997) MUC-7 Coreference Task Definition (v3.0) In Proceedings of Message Understanding Conference, July, 1997 [14] Kiryakov A., Popov B., Ognyanoff D., Manov D., Kirilov A., Goranov M (2003) Semantic Annotation, Indexing, and Retrieval 2nd International Semantic Web Conference (ISWC2003), Florida, USA LNAI Vol 2870, pp 484-499, SpringerVerlag Berlin Heidelberg, 20-23 October, 2003 [15] Kennedy, C., & Boguraev, B (1996) Anaphora for everyone: Pronominal anaphora resolution without a parser In Proceedings of the 16th international conference on computational linguistics (coling'96),Copenhagen, pp.113-118 [16] Kalashnikov, D V and Mehrotra, S (2005) A Probabilistic Model for Entity Disambiguation Using Relationships SIAM International Conference on Data Mining (SDM), Newport Beach, California, 21-23 April, 2005 [17] Lappin, S., & Leass, H (1994) A syntactically based algorithm for pronominal anaphora resolution Computational Linguistics, 20(4), pp.535-556 [18] Lyman, P., Varian, H., Swearigen, K Charles, P., Good, N., Jordan L L., Pal J (2003) How much information? project University of California at Berkeley [19] Matthias Blume (2005) Automatic Entity Disambiguation: Benefits to NER, Relation Extraction, Link Analysis, and Inference In Proceedings of International Conference on Intelligence Analysis, McLean, Vienna, United States, 2-6 May 2005 [20] Marsh, E., Perzanowski, D (1998) MUC-7 Evaluation of IE Technology: Overview of Results Proceedings of the Seventh Message Understanding Conference (MUC7) [21] Mitkov, R (1998) Robust pronoun resolution with limited knowledge In Proceedings of acl'98 and coling'98, Montreal, Canada, pp.869-875 [22] Mitkov, R (1999) Anaphora Resolution: the State of the Art University of Wolverhampton [23] Ng, V and Cardie, C (2002) Combining sample selection and error-driven pruning for machine learning of coreference rules In Proceedings of EMNLP, pp.55–62 [24] Ng, V., Cardie, C (2002) Improving machine learning approaches to coreference resolution In Proceedings of ACL, pp.104-111 [25] Olsson, F (2004) A Survey of Machine Learning for Reference Resolution in Textual Discourse SICS Technical Report T2004:02 [26] Popov B., Kiryakov A., Ognyanoff D., Manov D., Kirilov A., Goranov M (2003) Towards Semantic Web Information Extraction Human Language Technologies TÀI LIỆU THAM KHẢO 66 Workshop at the 2nd International Semantic Web Conference (ISWC2003), Florida, USA, 20 October, 2003 [27] Popov B., Kiryakov A., Ognyanoff D., Manov D., Kirilov A., Goranov M (2003) KIM – Semantic Annotation Platform 2nd International Semantic Web Conference (ISWC2003), Florida, USA LNAI Vol 2870, pp 834-849, Springer-Verlag Berlin Heidelberg, 20-23 October, 2003 [28] Soon, W., Ng, H T., Lim, D (2001) A machine learning approach to coreference resolution of noun phrases Computational Linguistics, 27, pp.521-544 [29] Yang , X., Zhou , G., Su , J., and Tan , C L (2003) Coreference resolution using competition learning approach In Proceedings of the 41th Annual Meeting of the Association for Computational Linguistics, Japan [30] Yang , X., Zhou , G., Su , J., and Tan , C L (2004) Improving Noun Phrase Coreference Resolution by Matching Strings In Proceedings of IJCNLP 2004, Hainan Island, China, p.22-31 [31] Wacholder, N., Ravin, Y., & Choi, M (1997) Disambiguation of Proper Names in Text In Proceedings of the Fifth Conference on Applied Natural Language Processing, Washington DC, pp.202-208 [32] Weaver, N., Wilks, Y (2004) Coreference Resolution of Named Entities and Noun Phrases in Web Pages In Proceedings of HLT/NAACL-2004 TĨM TẮT LÝ LỊCH TRÍCH NGANG Họ Tên: Nguyễn Thanh Hiên Ngày, tháng, năm sinh: 05/08/1979 Nơi sinh: Quảng Ngãi Địa liên lạc: 9/32 Chữ Đồng Tử, F7, QTB, TP HCM QUÁ TRÌNH ĐÀO TẠO 1997-2002: học đại học Khoa CNTT, Đại Học Bách Khoa TP Hồ Chí Minh 2003-2005: học cao học Đại Học Bách Khoa TP Hồ Chí Minh Q TRÌNH CƠNG TÁC 2002: làm việc công ty phần mềm VNS 2003: giảng dạy trường Cao Đẳng GTVT III TP Hồ Chí Minh 2004-2005: giảng dạy khoa CNTT, Cao Đẳng Bán Công Hoa Sen ... giải đồng tham chiếu tên riêng, đồng thời đồng tên với tên riêng Kết toán phân giải đồng tham chiếu thực thể có tên tiếng Việt chuỗi đồng tham chiếu, chuỗi đồng tham chiếu bao gồm tên NE đề cập... trình bày đồng tham chiếu tên riêng vấn đề phân giải đồng tham chiếu tên riêng 3.1.2 Phân giải đồng tham chiếu tên riêng Các thực thể có tên giới thực định danh thông qua tên riêng ; tên riêng... đề đồng tham chiếu Giải pháp cho vấn đề phân giải đồng tham chiếu thực thể có tên tiếng Việt sử dụng luật so trùng tên tiếng Việt Các luật so trùng tên tiếng Việt xây dựng dựa vào đặc thù tên tiếng

Định dạng
Số trang	69
Dung lượng	774,98 KB