Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 76 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
76
Dung lượng
787,32 KB
Nội dung
ĐẠI HỌC QUỐC GIA TP HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC BÁCH KHOA - TRẦN LIÊN THẮNG DỊCH CÂU TRUY VẤN BẰNG NGÔN NGỮ TỰ NHIÊN SANG ĐỒ THỊ Ý NIỆM Chuyên ngành: Khoa học máy tính Mã số ngành: 604801 LUẬN VĂN THẠC SĨ TP Hồ Chí Minh, tháng 07 năm 2007 LỜI CẢM ƠN Trước tiên, xin chân thành cảm ơn thầy Cao Hoàng Trụ nhiệt tình hướng dẫn định hướng để tơi hồn thành luận văn Xin chân thành cảm ơn giám đốc công ty phát triển phầm mềm Trần Nguyễn tạo điều kiện thuận lợi để tơi có thời gian nghiên cứu hoàn thành luận văn Xin chân thành biết ơn tận tình dạy dỗ tất quý thầy cô trường Đại học Bách Khoa, đặc biệt thầy cô khoa công nghệ thông tin Tất kiến thức mà nhà trường quý thầy cô truyền đạt hành trang to lớn để mang theo đường học tập, làm việc nghiên cứu TÓM TẮT Xuất phát từ nhu cầu khai thác cách có hiệu nguồn thông tin khổng lồ internet thúc đẩy đời ứng dụng rút trích thơng tin tự động web có ngữ nghĩa Đồng thời, nhiều nhà nghiên cứu nghiên cứu kỹ thuật để biểu diễn cách có hiệu nguồn thông tin khổng lồ internet, nhằm giúp cho máy tính xử lý nguồn liệu cách hiệu quả, số phương pháp có đồ thị ý niệm Đồ thị ý niệm biểu diễn tri thức dạng quan hệ khái niệm Trong câu truy vấn, quan hệ khái niệm giúp xác định đối tượng cần tìm kiếm Do có nhiều cơng trình nghiên cứu vấn đề chuyển đổi câu sang đồ thị ý niệm Tuy nhiên cơng trình mà tác giả nghiên cứu chủ yếu tập trung vào chuyển đổi câu văn thô sang đồ thị ý niệm Mục tiêu luận văn nghiên cứu vấn đề chuyển đổi câu truy vấn sang đồ thị ý niệm, nhằm tạo đồ thị ý niệm giúp cho q trình tìm kiếm thơng tin Trong đề tài này, chúng tơi nghiên cứu q trình chuyển đổi câu truy vấn sang đồ thị ý niệm dùng phương pháp kết hợp xây dựng tập luật áp dụng phương pháp học máy để giải nhập nhằng Trong q trình xây dựng tập luật, chúng tơi cố gắng phân tích trường hợp riêng nhằm để xây dựng tập luật tổng quát Trong phương pháp giải nhập nhằng học máy, đề phương pháp ứng dụng mạng Bayes để giải nhập nhằng MỤC LỤC DANH MỤC HÌNH vi DANH MỤC BẢNG viii DANH MỤC BẢNG viii CHƯƠNG GIỚI THIỆU .5 U 1.1 Tổng quan 1.2 Mục tiêu phạm vi CHƯƠNG CÁC NGHIÊN CỨU LIÊN QUAN 2.1 Sơ lược đồ thị ý niệm 2.2 Một số phương pháp nhận diện thực thể có tên .9 2.3 Một số phương pháp rút trích quan hệ 10 2.4 GATE .12 2.5 KIM 16 2.6 ANTLR 17 2.7 JavaBayes .20 CHƯƠNG PHƯƠNG PHÁP ĐỀ NGHỊ 23 3.1 Tổng quan 23 3.2 Phương pháp nhận biết thực thể từ quan hệ 24 3.3 Xây dựng văn phạm câu truy vấn 26 3.4 Phương pháp phân rã câu truy vấn 27 3.5 Phương pháp xây dựng tập luật .30 3.6 Phương pháp chuyển đổi câu truy vấn có cấu trúc song song 39 3.7 Phương pháp giải nhập nhằng học máy 39 CHƯƠNG HIỆN THỰC, THỬ NGHIỆM VÀ ĐÁNH GIÁ 46 4.1 Kỹ thuật thực q trình hệ thống .46 4.2 Giao diện lớp hệ thống 48 4.3 Các tiêu chuẩn đánh giá 52 4.4 Kết thực nghiệm 53 CHƯƠNG KẾT LUẬN 54 TÀI LIỆU THAM KHẢO .55 PHỤ LỤC A Văn phạm câu truy vấn 60 PHỤ LỤC B Tập luật chuyển đổi câu truy vấn 61 PHỤ LỤC C Tập câu truy vấn mẫu .69 DANH MỤC HÌNH Hình 2.1 Ví dụ đồ thị ý niệm .8 Hình 2.2 Đồ thị ý niệm mẫu luận văn .9 Hình 2.3 Quá trình xử lý ANNIE 14 Hình 2.4 Ví dụ tập tin danh sách Gazetteer 15 Hình 2.5 Ví dụ tập tin mục 15 Hình 2.6 Quá trình thích ngữ nghĩa KIM .17 Hình 2.7 Ví dụ khái báo phần options chương trình ANTLR 18 Hình 2.8 Khn mẫu chương trình ANTLR 19 Hình 2.9 Ví dụ phần khái báo tokens chương trình ANTLR 20 Hình 2.10 Cú pháp tổng luật chương trình ANTLR 20 Hình 2.11 Ví dụ luật nhận biết số ngun chương trình ANTLR 20 Hình 2.12 Ví dụ định nghĩa đối tượng DiscreteVariable 22 Hình 2.13 Ví dụ định nghĩa đối tượng DiscreteFunction 22 Hình 2.14 Ví dụ q trình tính tốn xác suất phân bổ Ebayes .22 Hình 3.1 Mơ hình giải tốn .24 Hình 3.2 Ví dụ định nghĩa tập tin mục Gazetteer 26 Hình 3.3 Kết đồ thị mong muốn 28 Hình 3.4 Đồ thị ý niệm câu “company located in Yonkers, USA” 29 Hình 3.5 Đồ thị ý niệm câu “person is CEO of Zygo Corporation” .29 Hình 3.6 Đồ thị ý niệm câu “person is CEO of Zygo Corporation in USA” 30 Hình 3.7 Cấu trúc tập phần tử TransformRules rule .33 Hình 3.8 Cấu trúc phần tử điều kiện luật 34 Hình 3.9 Ví dụ phần tử premise .35 Hình 3.10 Cấu trúc phần tử hành động 35 Hình 3.11 Ví dụ luật hoàn chỉnh 37 Hình 3.12 Ví dụ luật đặc biệt 37 Hình 3.13 Cấu trúc từ điền quan hệ 38 Hình 3.14 Ví dụ số phần tử từ điển 38 Hình 3.15 Mơ hình mạng Bayes cho quan hệ born_in .42 Hình 3.16 Mơ hình mạng Bayes cho quan hệ live_in .43 Hình 3.17 Mơ hình mạng Bayes cho quan hệ work_in 44 Hình 3.18 Mơ hình mạng Bayes tổng hợp ba quan hệ 44 Hình 4.1 Quá trình nhận biết thực thể quan hệ 46 Hình 4.2 Quá trình phân rã câu truy vấn .47 Hình 4.3 Quá trình nhận biết quan hệ 47 Hình 4.4 Quá trình chuyển đổi sang đồ thị ý niệm dạng đồ họa 48 DANH MỤC BẢNG Bảng 3.1 Bảng thuộc tính phần tử premise .34 Bảng 3.2 Mô tả thuộc tính phần tử entry 38 Bảng 3.3 Kết đo đạc phần tử cha born_in 42 Bảng 3.4 Kết đo đạc quan hệ born_in 42 Bảng 3.5 Kết đo đạc phần tử cha live_in 43 Bảng 3.6 Kết đo đạc quan hệ live_in 43 Bảng 3.7 Kết đo đạc phần tử cha work_in 44 Bảng 3.8 Kết đo đạc xác suất phần tử cha mạng tổng hợp .45 Bảng 3.9 Kết đo đạc quan hệ work_in .45 Bảng 4.1 Giao diện lớp KIMNER 48 Bảng 4.2 Giao diện lớp AnnieER 49 Bảng 4.3 Giao diện lớp GrammarChecking 49 Bảng 4.4 Giao diện lớp ProcessingQuery .50 Bảng 4.5 Giao diện lớp QueryTriple .51 Bảng 4.6 Giao diện lớp MLRelationExtraction 51 Bảng 4.7 Giao diện lớp QueryOutput .52 Bảng 4.8 Bảng đánh giá kết chương trình học máy 53 Chương 1: Giới thiệu CHƯƠNG GIỚI THIỆU 1.1 Tổng quan Web có ngữ nghĩa Web mà có bổ sung thêm ngữ nghĩa hình thức (siêu liệu, tri thức) vào nội dung trang Web ([4]) Như vậy, mở rộng mơ hình Web truyền thống trước vốn biểu diễn dạng văn thô mà có người đọc hiểu Mục đích Web có ngữ nghĩa cho phép quản lý truy cập thông tin cách dễ dàng hiệu cách giúp cho máy tính đọc hiểu thơng tin Web Nhờ khai thác thơng tin cách dễ dàng trợ giúp quy trình tự động hóa cơng việc Tổ chức W3C nghiên cứu chuẩn kỹ thuật phép liệu Web định nghĩa liên kết theo cách mà sử dụng cách tự động, hợp nhất, hiệu hơn, đồng thời dùng lại nhiều ứng dụng Web đạt tiềm nó, trở thành mơi trường mà liệu chia sẻ xử lý công cụ tự động người Nhiều cộng động nhà nghiên cứu đóng góp nghiên cứu họ nhằm đạt tham vọng Trong nhà nghiên cứu lĩnh vực biểu diễn tri thức nhận vai trò quan trọng phương pháp biểu diễn hình thức, số phương pháp có phương pháp dùng đồ thị ý niệm (Conceptual Graph - CG) ([32]) Do nhiều cơng trình nghiên cứu liên quan đến đồ thị ý niệm đời Cộng đồng nhà nghiên cứu đồ thị ý niệm nghiên cứu hướng khác việc ứng dụng đồ thị ý niệm vào Web có ngữ nghĩa Một số nhà nghiên cứu chọn đồ thị ý niệm cho việc biểu diễn hình thức ontology thích ngữ nghĩa cho Web có ngữ nghĩa WebKB ([23]) Một số khác dựa tương đồng đồ thị ý niệm RDF(S) – ngôn ngữ W3C đề xuất cho việc mô tả tài nguyên Web Đồ thị ý niệm đóng vai trị ngôn ngữ trung gian để chuyển đổi ngôn ngữ tự nhiên Chương 1: Giới thiệu mơ hình xử lý hướng máy tính Như để tạo mơ hình tổng qt biểu diễn tri thức mà máy tính dễ dàng hiểu ta cần xây dựng đồ thị ý niệm Mục tiêu đề tài nghiên cứu cách chuyển câu truy vấn ngôn tự nhiên sang đồ thị ý niệm Đồ thị ý niệm biểu diễn tri thức dạng quan hệ ỳ niệm, câu truy vấn quan hệ ý niệm góp phần xác định đối tượng cần tìm kiếm Việc chuyển đổi câu từ ngôn ngữ tự nhiên sang đồ thị ý niệm nghiên cứu theo nhiều hướng khác Tác giả hệ thống [44] để phương pháp phân tích câu văn phạm liên kết (link grammar) áp dụng học máy để ánh xạ văn phạm thành đồ thị ý niệm Hệ thống [3] đề phương pháp ánh xạ cú pháp thành đồ thị ý niệm cú pháp (syntactic conceptual graph), sau đồ thị ý niệm cú pháp chuyển thành đồ thị ý niệm thực (real conceptual graph), phương pháp áp dụng chủ yếu dựa vào luật ánh xạ Hệ thống [17] dựa vào VerbNet WordNet để xác định vai trò ngữ nghĩa (semantic roles) động từ câu dùng vào để xây dựng đồ thị ý niệm Các phương pháp mà nhà nghiên cứu đề xuất chủ yếu chuyển đổi câu dạng văn thô sang đồ thị ý niệm chuyển đổi câu truy vấn sang đồ thị ý niệm Mục tiêu luận văn nghiên cứu phương pháp chuyển câu truy vấn sang đồ thị ý niệm Chúng không nhận biết khái niệm cách dùng phương pháp phân tích văn phạm hay cú pháp câu tác giả dùng, mà thay vào dùng phương pháp nhận biết thực thể có tên, q trình nhận biết quan hệ trình xác định mối quan hệ ngữ nghĩa thực thể có tên Như chúng tơi tập trung vào hai cơng việc là: nhận biết thực thể có tên câu truy vấn nhận biết mối quan hệ ngữ nghĩa thực thể có tên 1.2 Mục tiêu phạm vi Mục tiêu đề tài chuyển đổi câu truy vấn sang đồ thị ý niệm Đồ thị ý niệm sinh dùng cho trình tìm kiếm Web có ngữ nghĩa Yêu cầu đề tài chuyển đổi câu truy vấn đơn giản câu truy vấn phức tạp có cấu trúc song song đề giải pháp giải nhập nhằng cho câu truy vấn Đề tài giới hạn phạm vi câu truy vấn tiếng Anh miền ontology KIM Tập quan hệ ngữ nghĩa tập quan hệ ontology KIM, có mở rộng thêm ba quan hệ born_in, work_in, live_in nhằm minh họa trình giải Tài liệu tham khảo 58 [33] Specia, L & Motta, E (2006) A hybrid approach for extracting semantic relations from texts 2nd Workshop on Ontology Learning and Population (OLP2) at COLING/ACL 2006, pp 57-64 July 22, Sydney [34] Specia, L & Motta, E (2006) A hybrid approach for relation extraction aimed to semantic annotations In Proceedings of FQAS, pp 564–576 [35] Specia, L., Baldassarre, C & Motta E (2006) Relation Extraction for Semantic Intranet Annotations Technical Report kmi-06-17 Milton Keynes, August, 23p [36] Stevenson, M (2004) An unsupervised WordNet-based algorithm for relation extraction In Proceedings of the Fourth International Conference on Language Resources and Evaluation (LREC) Workshop, Beyond Named Entity Recognition: Se-mantic Labelling for NLP Tasks, Lisbon, Portugal [37] Surdeanu, M (2005) Discussion on Relation Extraction in ACE [Online] Available: http://www.lsi.upc.edu/~surdeanu/seminars/slides_mihai_051005.pdf [38] Terence Parr ANTLG Parser Genarator [Online] Available: http://www.antlr.org [39] Tianyong, H., Qingtian Z & Wenyin, L (2006) Semantic Pattern for UserInteractive Question Answering IEEE Second International Conference on Semantics, Knowledge, and Grid (SKG'06) [40] Tru H Cao (2005) Bayesian Learning [Online] Available http://www.dit.hcmut.edu.vn/~tru/KB-SYSTEMS/bayesian-learning.ppt [41] Tru H Cao, Hai T Do, Bao T.N Pham, Tuyen N Huynh & Duy Q Vu (2005) Conceptual Graphs for Knowledge Querying in VN-KIM ICCS’05 Contributions [42] Vien, N.T.T & Cao, T.H (2005) Named-Entity Class Recognition on Vietnamese Web.ICT.rda’06 [43] WordNet Search - 3.0 [Online] Available: http://wordnet.princeton.edu/perl/webwn Tài liệu tham khảo 59 [44] XML DTD - An Introduction to XML Document Type Definitions [Online] Available: http://www.xmlfiles.com/dtd/ [45] Zhang, L & Yu, Y (2001) Learning to generate CGs from domain specific In The Proceedings of the 9th International Conference on Conceptual Structures, LNAI 2120, July 30-August 3, 2001, Stanford, CA, USA [46] Zhu, F., Uren, V & Motta, E (2005) ESpotter: Adaptive Named Entity Recognition for Web Browsing In Proc of Workshop on IT Tools for Knowledge Management Systems at WM2005 Conference, pp 505-510, Kaiserslautern, Germany, April 1113, 2005 Phụ lục A: Văn phạm câu truy vấn PHỤ LỤC A Văn phạm câu truy vấn Văn phạm câu truy vấn sau: Q → E ⏐ E CQ CQ → E ⏐ RW Q ⏐ CONJ Q ⏐ CONJ RW Q E → UE ⏐ IE Tập ký hiệu kết thúc: • IE: thực thể xác định • UE: thực thể khơng xác định • RW: từ quan hệ • CONJ: liên từ Kí hiệu bắt đầu: Q Văn phạm câu truy vấn viết ANTLR: class QueryGrammarParser extends Parser; options { k = 2; defaultErrorHandler=false; } query : entity | entity querycomp; querycomp : entity | RW query | CONJ query | CONJ RW query; entity : IE | UE ; class QueryGrammarLexer extends Lexer; WS : (' ' | '\t' | '\n' | '\r') { _ttype = Token.SKIP; }; UE: "UE"; IE: "IE"; RW: "RW"; CONJ: "CONJ"; 60 Phụ lục B: Tập luật chuyển đổi câu truy vấn PHỤ LỤC B Tập luật chuyển đổi câu truy vấn X:Y > X:Y > X hasPosition Y > 61 Phụ lục C: Tập câu truy vấn mẫu Y hasPosition X > JobPosition withinOrg Company/Organization > JobPosition withinOrg Company/Org > A subRegionOf B > 62 Phụ lục C: Tập câu truy vấn mẫu location locatedIn location > organization locatedIn location > X locatedIn location > 63 Phụ lục C: Tập câu truy vấn mẫu X hasAddress > X establishmentDate Date > X establishedIn location > 64 Phụ lục C: Tập câu truy vấn mẫu X hasCurrency > X hasWebPage > X hasPresident > Country hasPrimeMinister > 65 Phụ lục C: Tập câu truy vấn mẫu X hasMinister >