1. Trang chủ
  2. » Luận Văn - Báo Cáo

XÂY DỰNG hệ THỐNG tìm KIẾM bài báo KHOA học dựa TRÊN hỏi đáp BẰNG NGÔN NGỮ tự NHIÊN

100 152 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 100
Dung lượng 6,58 MB

Nội dung

ĐẠI HỌC QUỐC GIA TP.HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN KHOA CÔNG NGHỆ PHẦN MỀM - - KHỐ LUẬN TỐT NGHIỆP XÂY DỰNG HỆ THỐNG TÌM KIẾM BÀI BÁO KHOA HỌC DỰA TRÊN HỎI ĐÁP BẰNG NGÔN NGỮ TỰ NHIÊN Giáo viên hướng dẫn: Th.S Huỳnh Ngọc Tín Sinh viên thực hiện: Nguyễn Thanh Hồng MSSV: 06520182 Nguyễn Thuận Hưng MSSV: 06520194 Lớp : CNPM01 Khoá : 2006-2011 TP.Hồ Chí Minh - 21 tháng 3, năm 2011 LỜI MỞ ĐẦU Trong vấn đề tìm kiếm báo khoa học nay, thư viện số hầu hết hỗ trợ người dùng tìm kiếm dựa từ khóa Với cách tìm kiếm thế, thơng thường kết trả nhiều tồn nội dung không phù hợp với ý muốn người dùng Trong đề tài, chúng em mong muốn xây dựng giao diện hỏi đáp nhằm phục vụ tốt vấn đề tìm kiếm thơng tin báo (hay tìm kiếm báo) Có thế, người dùng thỏa mãn phần nhu cầu tìm kiếm đem lại hướng giao tiếp tự nhiên người máy Trong cách tiếp cận nay, nghiên cứu tập trung vào hỏi đáp dựa đồ thị ý niệm Câu hỏi người dùng phân tích thành phần cú pháp tạo thành đồ thị ý niệm đem so sánh với đồ thị ý niệm lưu trữ sẵn để rút ta kết trả lời Đề tài đề xuất phương pháp phụ thuộc vào cú pháp nhằm hạn chế trường hợp câu bị sai cú pháp nhập nhằng cú pháp Phương pháp chủ yếu dựa luật nhãn từ loại từ câu Khóa luận dừng lại mức tạo giao diện hỗ trợ người dùng tìm kiếm báo Đánh giá khóa luận dựa phương pháp đề xuất khả rút mối quan hệ ngữ nghĩa câu hỏi Tuy nhiên, đề tài khơng tránh khỏi sai sót thiếu xác, mong góp ý từ q thầy bạn để chúng em hồn thành tốt đề tài khóa luận LỜI CẢM ƠN Đề tài thực với giúp đỡ nhiệt tình TS Huỳnh Ngọc Tín giảng viên hướng dẫn đề tài Thầy cung cấp tài liệu để bổ sung cho nhóm cung cấp ý tưởng gợi ý cho phương pháp thực Chúng em gửi lời tri ơn sâu sắc đến thầy, nhiệt tình tận tâm thầy nguồn động viên lớn để em hồn thành luận văn Với thành viên nhóm TKORG, họ có hỗ trợ hữu ích trình thực đề tài Trong thời gian qua, thành viên tích cực có niềm vui hoạt động chung Xin gửi lời cám ơn chân thành chúc bạn thực đề tài cách tốt đẹp Ngoài ra, xin cám ơn người cơng xun suốt đề tài Người động viên giúp sức giai đoạn khó khăn Xin cám ơn gia đình điểm tựa vững Gia đình ln nguồn động lực để tiếp tục tiếp đề tài Và cố gắng nhiều chắn nhiều thiếu sót, kính mong nhận góp ý q Thầy Cơ bạn Tp Hồ Chí Minh, 21 tháng năm 2011 Nguyễn Thanh Hoàng Nguyễn Thuận Hưng NHẬN XÉT CỦA GIÁO VIÊN HƯỚNG DẪN Ngày…… tháng……năm 2011 Ký tên NHẬN XÉT CỦA GIÁO VIÊN PHẢN BIỆN Ngày…… tháng……năm 2011 Ký tên MỤC LỤC CHƢƠNG 1: TỔNG QUAN VỀ ĐỀ TÀI .1 1.1 Giới thiệu 1.2 Mục tiêu phạm vi đề tài .2 1.3 Kết dự kiến .3 1.4 Cấu trúc nội dung trình bày CHƢƠNG : KHẢO SÁT CÁC NGHIÊN CỨU LIÊN QUAN 2.1 Cơ sở lý thuyết thuật ngữ liên quan 2.1.1 Giới thiệu hỏi đáp 2.1.2 Nhận diện thực thể có tên 2.1.3 Gán nhãn từ loại .7 2.1.4 Bộ ba quan hệ đồ thị khái niệm 2.1.4.1 Bộ ba quan hệ 2.1.4.2 Đồ thị khái niệm 2.1.5 2.2 Từ điển Wordnet 11 Các nghiên cứu liên quan đến hỏi đáp tìm kiếm 12 2.2.1 Hệ thống hỏi đáp dựa đồ thị ý niệm .12 2.2.2 Tra cứu thƣ viện điện tử ngôn ngữ tự nhiên .17 2.2.3 Nghiên cứu rút trích ba câu 19 2.2.4 Nhận xét 21 CHƢƠNG 3: PHƢƠNG PHÁP ĐỀ XUẤT XỬ LÝ CÂU HỎI 23 3.1 Mở đầu 23 3.2 Tạo tập tin cấu hình ngữ nghĩa cho sở liệu 25 3.3 Các bƣớc xử lý câu hỏi ngƣời dùng .29 GVHD: Th.s Huỳnh Ngọc Tín SVTH: Nguyễn Thanh Hồng & Nguyễn Thuận Hưng 3.3.1 Gán nhãn từ loại .29 3.3.2 Đơn giản hóa danh từ, động từ, cụm động từ 32 3.3.3 Rút ba 34 3.3.4 Nhận diện thực thể 38 3.3.5 Phân loại câu hỏi 47 3.3.6 Sinh câu truy vấn SQL 48 3.3.7 Một số ví dụ 56 CHƢƠNG 4: HIỆN THỰC HỆ THỐNG .64 4.1 Tổng quan hệ thống 64 4.1.1 Mô hình hệ thống 64 4.1.2 Các chức hệ thống 65 4.2 Thiết kế cài đặt hệ thống 67 4.2.1 Cấu trúc lớp .67 4.2.2 Cơ sở liệu DBLP .68 4.2.3 Giao diện chƣơng trình 71 4.2.4 Đánh giá nhận xét 74 CHƢƠNG 5: KẾT LUẬN VÀ HƢỚNG PHÁT TRIỂN .77 5.1 Kết luận 77 5.2 Hƣớng phát triển .77 TÀI LIỆU THAM KHẢO 78 Tiếng Việt 78 Tiếng Anh .78 Trang web .79 Phụ lục A : Tập 102 câu hỏi kiểm thử 82 GVHD: Th.s Huỳnh Ngọc Tín SVTH: Nguyễn Thanh Hồng & Nguyễn Thuận Hưng Phụ lục B : Danh sách nhãn từ loại Penn Treebank .85 Phụ lục C : Tập 18 luật từ loại .86 Phụ lục D : Tập tin cấu hình ngữ nghĩa cho sở liệu BDBLP 87 Phụ lục E: Những ba rút đƣợc từ tập tin cấu hình ngữ nghĩa 91 GVHD: Th.s Huỳnh Ngọc Tín SVTH: Nguyễn Thanh Hoàng & Nguyễn Thuận Hưng [1] CHƢƠNG 1: TỔNG QUAN VỀ ĐỀ TÀI 1.1 Giới thiệu Hiện nay, với phát triển mạnh mẽ công nghệ thơng tin nói chung Internet nói riêng phục vụ nhiều lợi ích cho người Để đáp ứng nhu cầu tìm kiếm người dùng lượng thông tin ngày lớn, hàng loạt cơng cụ tìm kiếm đời Bing, Yahoo!, Google, … Nhưng vấn đề đặt là: cơng cụ tìm kiếm hầu hết thực việc tìm kiếm dựa từ hay cụm từ khóa Kết trả hệ thống thường trang liên kết (hoặc văn bản) có nội dung chứa từ khóa tìm kiếm Vì để có thơng tin xác nhất, người dùng cần tốn thời gian để duyệt nhiều kết trả từ cơng cụ tìm kiếm, đơi kết trả không phù hợp với mục đích người dùng Để khắc phục vấn đề tìm kiếm dựa từ khóa, số nghiên cứu đề xuất hệ thống hỏi đáp [1, 6, 7, 8, 13], mục đích nghiên cứu làm cho hệ thống hiểu ngữ nghĩa câu hỏi mà người dùng đưa vào, hệ thống tìm kiếm đưa câu trả lời xác nhất, thỏa mãn nhu cầu người dùng Hơn nữa, cách thức hỏi đáp làm máy tính trở nên “thơng minh” hơn, tạo hướng giao tiếp thân thiện người máy Trong lĩnh vực khoa học, nhu cầu tìm kiếm thơng tin báo phục vụ cho nghiên cứu tham khảo cần thiết Hiện để tìm kiếm báo, người dùng tìm kiếm thư viện số phổ biến như: CiteSeerX1, IEEE2, ACM3, ScienceDirect4, SSRN5, PaperCube6, Tuy nhiên, thư viện tìm kiếm chủ yếu dựa từ khóa người dùng nhập vào Việc duyệt tìm để có http://citeseer.ist.psu.edu/ http://www.ieee.org/ http://portal.acm.org/ http://www.sciencedirect.com/ http://www.ssrn.com/ http://papercube.peterbergstrom.com/ GVHD: Th.s Huỳnh Ngọc Tín SVTH: Nguyễn Thanh Hoàng & Nguyễn Thuận Hưng [2] báo mong muốn nhiều kết trả phải hao tốn khoảng thời gian, tương tự trường hợp cơng cụ tìm kiếm thơng tin Với nhận định thế, đề tài hướng tới xây dựng hệ thống hỏi đáp phục vụ cho nhu cầu tìm kiếm báo khoa học Nó cung cấp cho người dùng giao diện hỏi đáp để tìm kiếm báo Người dùng nhập vào câu hỏi dạng ngôn ngữ tự nhiên thay cho từ khóa Kết trả thông tin báo tương ứng với nội dung câu hỏi, thõa mãn theo câu hỏi người dùng đặt 1.2 Mục tiêu phạm vi đề tài Đề tài hướng tới xây dựng trang web với mục đích phục vụ tìm kiếm báo khoa học thuộc lĩnh vực công nghệ thông tin Vậy đối tượng người dùng nhà nghiên cứu, kỹ sư, sinh viên công nghệ thông tin, Cách thức tìm kiếm bao gồm :  Tìm kiếm từ khóa thơng thường  Tìm kiếm hình thức đặt câu hỏi cho hệ thống thông qua giao diện hỏi đáp Kết trả lả thông tin báo mà người dùng cần đến Câu hỏi từ khóa người dùng nhập vào dạng ngôn ngữ tiếng Anh Nguồn liệu chứa thông tin báo lấy từ nguồn DBLP (Digital Bibliography & Library Project) Đây kho thư viện điện tử lưu trữ thông tin 1,5 triệu báo Dữ liệu DBLP cập nhật theo định kỳ (mới tính đến 1/2011) Đây kho liệu lớn thích hợp để chúng em thực đề tài Ngoài ra, kho liệu cung cấp miễn phí tải trang chủ DBLP http://dblp.uni-trier.de/xml/ GVHD: Th.s Huỳnh Ngọc Tín SVTH: Nguyễn Thanh Hồng & Nguyễn Thuận Hưng [78] TÀI LIỆU THAM KHẢO Tiếng Việt [1] Lương Q Tịnh Hà, Xây dựng cơng cụ tìm kiếm tài liệu học tập truy vấn ngôn ngữ tự nhiên kho học liệu mở tiếng Việt, luận văn Thạc Sĩ, trường Đại học Công Nghệ Thông Tin, Tp HCM, 2009 [2] Cao Duy Trường, Dịch câu truy vấn có cấu trúc sang đồ thị ý niệm: cách tiếp cận phụ thuộc vào cú pháp, luận văn Thạc Sĩ, trường Đại học Bách Khoa, Tp.HCM, 2008 [3] Đỗ Thị Thanh Tuyền, Xây dựng hệ thống tra cứu thư viên điện tử ngôn ngữ tự nhiên, luận văn Thạc Sĩ Công Nghệ Thông Tin, Tp HCM, 2008 [4] TS.Đinh Điền, Giáo trình Xử lý ngơn ngữ tự nhiên, NXB Đại học quốc gia TP HCM, 2006 [5] Huỳnh Ngọc Tín, Báo cáo chuyên đề rút trích thông tin, Đại Học Công Nghệ Thông Tin, 2010 Tiếng Anh [6] Lorand Dali, Delia Rusu, Blaz Fortuna, Dunja Mladenic and Marko Grobelnik, Question Answering Based on Semantic Grahps, Department of Knowledge Technologies, Jožef Stefan Institute, 2009 [7] Meltem Serhatli and Ferda N Alpaslan, An Ontology based Question Answering System on Software Test Document Domain, World Academy of Science, Engineering and Technology 54 2009 [8] Wael Salloum, A Question Answering System based on Conceptual Graph Formalism, Conference: The 2nd International Symposium on Knowledge Acquisition and Modeling (KAM 2009), IEEE Computer Society Press, 2009 [9] DongHyun Choi and Key-Sun Choi, Automatic Relation Triple extraction by dependency parse tree , Computer Science Department Semantic Web Research Center, KAIST Daejeon, Korea, 2008 [10] Shiyan Ou, Constantin Orasan, Dalila Mekhaldi and Laura Hasler, Automatic Question Pattern Generation for Ontology-based Question In GVHD: Th.s Huỳnh Ngọc Tín SVTH: Nguyễn Thanh Hồng & Nguyễn Thuận Hưng [79] Proceedings of the 21st International Florida Artificial Intelligence Research Society Conference (FLAIRS2008) Menlo Park, CA: AAAI Press., 2008, pp 183 – 188 [11] Delia Rusu, Lorand Dali, Blaz Fortuna, Marko Grobelnik, Dunja Mladenic , Triplet Extraction from Sentences, Department of Knowledge Technologies, Jožef Stefan Institute, 2007 [12] Stephan Bloehdorn, Philipp Cimiano, Alistair Duke, Peter Haase, Jörg Heizmann, Ian Thurlow and Johanna Völker, Ontology-Based Question Answering for Digital Libraries, Lecture Notes in Computer Science , Volume 4675/2007 [13] Kenneth C Litkowski, Question-Answering using Semantic Relation Triples , In Proceedings of the 8th Text Retrieval Conference (TREC-8), 1999 Trang web [14] Digital Bibliography & Library Project http://www.informatik.uni-trier.de/~ley/db/ [15] Wiki Question Types http://en.wikipedia.org/wiki/Question#Types [16] English Club http://www.englishclub.com/grammar/verbs-questions_types.htm [17] Oxford http://oxforddictionaries.com/view/entry/m_en_gb0680290#m_en_gb0680290 [18] Learn English http://www.learnenglish.de/grammar/questiontext.htm [19] Ontology http://www.w3schools.com/RDF/rdf_owl.asp, http://www.phpvn.org/index.php?topic=133.0;wap2 GVHD: Th.s Huỳnh Ngọc Tín SVTH: Nguyễn Thanh Hồng & Nguyễn Thuận Hưng [80] [20] SPARQL http://en.wikipedia.org/wiki/SPARQL [21] Named Entity Recognition (NER) http://en.wikipedia.org/wiki/Named_entity_recognition [22] GATE tool http://gate.ac.uk/ [23] NSIR http://tangra.si.umich.edu/clair/NSIR/html/nsir.cgi [24] The START Natuaral Language Question Answering System http://start.csail.mit.edu [25] Ask.com http://www.ask.com [26] RDF (Resource Description Framework) http://www.xml.com/pub/a/2001/01/24/rdf.html?page=1 [27] Conceptual graph http://en.wikipedia.org/wiki/Conceptual_graph [28] Wordnet http://wordnet.princeton.edu/ [29] Pos tagging http://en.wikipedia.org/wiki/Part-of-speech_tagging [30] Định nghĩa Question answering http://www.wordiq.com/definition/Question_answering GVHD: Th.s Huỳnh Ngọc Tín SVTH: Nguyễn Thanh Hồng & Nguyễn Thuận Hưng [81] [31] Định nghĩa Question answering http://en.wikipedia.org/wiki/Question_answering [32] Triples http://syntopika.wordpress.com/2010/08/02/n-triples-example/ GVHD: Th.s Huỳnh Ngọc Tín SVTH: Nguyễn Thanh Hoàng & Nguyễn Thuận Hưng [82] Phụ lục A : Tập 102 câu hỏi kiểm thử Who is the author of the book "Question Classification using Head Words and their Hypernyms"? Who is the author of "Working Models for Uncertain Data" Who is the author of the paper "Question Classification using Head Words and their Hypernyms"? Who is the composer of the book "Question Classification using Head Words and their Hypernyms"? Who is the creator of the book "Question Classification using Head Words and their Hypernyms"? Who write books in 1999 ? Who composed books in 2010? Who write books from 1999 to 2010 ? Who published books from 1999 to 2000 ? 10 Who published books in 1999 ? 11 Who released books in 2006 ? 12 Who wrote books for Springer in 2010 ? 13 Who wrote papers for ACM from 2009 to 2010 ? 14 Who wrote "Question Classification using Head Words and their Hypernyms"? 15 Who published "Question Classification using Head Words and their Hypernyms"? 16 Who is the publisher of book "Working Models for Uncertain Data"? 17 Who is the distributor of publication "Working Models for Uncertain Data"? 18 Which books were written by Rafiul Ahad and Amelia Carlson in 2010 ? 19 Which books were written by Rafiul Ahad from 1999 to 2010 ? 20 Which papers were written by Amelia Carlson from 1999? 21 Which books were published by O'Reilly or ACM in 1999 ? 22 Which publications were published by O'Reilly or ACM in 1999 ? 23 Which books were published by O'Reilly in 1999 ? 24 Which books were published by Springer from 1999 to 2000? 25 Which publications were published by O'Reilly or ACM from 2009 to 2010? 26 Which books did Richard L Muller or James Brown write in ACM ? 27 Which books did Richard L Muller write in ACM ? 28 Which authors write books for ACM? 29 Which authors wrote books for Springer from 1999? 30 Which authors composed books for O'Reilly ? 31 Which authors composed books in 1999 ? 32 Which authors write books in 2010 ? 33 Which books does Rafiul Ahad wrote with Amelia Carlson? 34 Which publication have source from TREC in 2010? 35 Which papers refer to "Foundations of Databases"? 36 Which publications refer to "Foundations of Databases"? GVHD: Th.s Huỳnh Ngọc Tín SVTH: Nguyễn Thanh Hồng & Nguyễn Thuận Hưng [83] 37 Which documents cited to "Foundations of Databases"? 38 Which books are published in 1999 and written by "Ken Arnold"? 39 Which books are written by "Ken Arnold" and published by IEEE ? 40 Which books are written by "Ken Arnold" and have source from DBPL ? 41 Which papers are composed by "Ken Arnold" and have source from DBPL ? 42 Which publishers released books in 2010 ? 43 Which publishers released book "Data Structures and Algorithms"? 44 Which publishers released book from 2009 to 2010? 45 How many papers were written by Rafiul Ahad ? 46 How many papers were written by Rafiul Ahad in 2010 ? 47 How many publisher did "Philip K Chan" cooperate with? 48 How many publisher did "Philip K Chan" work with? 49 How many papers were written by Raul Rato and Rui Gomes in 2010? 50 How many books have source from TREC ? 51 How many papers derived source from TREC ? 52 How many authors wrote book in 2009 ? 53 How many publisher released book in 2010? 54 How many publications refer to "Foundations of Databases"? 55 How many books cited to "Foundations of Databases"? 56 What are titles of books written by Marcus Thint ? 57 What are headings of books written by Marcus Thint ? 58 What are names of books written by William Kent ? 59 What papers did Jennifer Widom write ? 60 What books did Jennifer Widom write ? 61 What book did Philip K Chan write in 1999 ? 62 What book did Philip K Chan write from 1999 to 2000? 63 What book did James Brown write in 1999 from ACM? 64 What are the titles of the books published by O‟reilly in 1999 ? 65 What composer wrote "Java 2D Graphics" 66 What books has isbn 1-56592-484-3 67 What books has doi 10.1145/360271.360274 68 What composer wrote books from 1999 in ACM? 69 What books were written by "Philip K Chan" from ACM? 70 What books were published by ACM or Springer in 2010? 71 What publications have resulted from TREC in 1999? 72 What books refer to "Foundations of Databases" 73 What publications have resulted from TREC? 74 What year is "Foundations of Databases" written in? 75 What year is "Java 2D Graphics" written in? 76 What references of the book "Foundations of Databases" ? 77 What citations of the book "Foundations of Databases" ? 78 Does Rafiul Ahad write books in 2010 ? 79 Does Rafiul Ahad write books from 2005 to 2010 ? 80 Did you find me some books publish by O'Reilly ? GVHD: Th.s Huỳnh Ngọc Tín SVTH: Nguyễn Thanh Hồng & Nguyễn Thuận Hưng [84] 81 Do you know any books written in 2010 and publish by ACM ? 82 Did IEEE publish books in 2010 ? 83 Did you have any books were publish by ACM ? 84 Are there any books published by IEEE in 2000 ? 85 Are there any books written by Mike Holcombe in 2000 ? 86 Name some books Richard L Muller write for Springer 87 Name all publications were publish in 2010 88 Name papers which were published from 1999 to 2001 in ACM ? 89 Name publications which result from DBPL in 2010 ? 90 List some books which are written by Jennifer Widom from 1999 91 List all books were published by Springer in 2010 92 List some books were published by ACM 93 List authors Who wrote books for Springer in 2010 94 Find books which are composed by Rafiul Ahad and Amelia Carlson 95 Find books are composed by Rafiul Ahad and Amelia Carlson 96 Find authors who wrote books for ACM from 2008 to 2009 97 Find publications have resulted from ACM Annual Conference 98 Show me some books were written by Lorand Dali 99 Show me any books which published in ACM and written by Lorand Dali 100 Alfred V Aho is author of "Data Structures and Algorithms" , isn't it? GVHD: Th.s Huỳnh Ngọc Tín SVTH: Nguyễn Thanh Hoàng & Nguyễn Thuận Hưng [85] Phụ lục B : Danh sách nhãn từ loại Penn Treebank (http://www.ling.upenn.edu/courses/Fall_2003/ling001/penn_treebank_pos.html ) Số TT Nhãn Mô tả 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 CC CD DT EX FW IN JJ JJR JJS LS MD NN NNS NNP NNPS PDT POS PRP PRP$ RB RBR RBS RP SYM TO UH VB VBD VBG VBN VBP 32 VBZ 33 34 35 WDT WP WP$ 36 WRB Liên từ (Coordinating conjunction ) Số từ (Cardinal number) Định từ (Determiner) “có” (Existential there) Từ nước (Foreign word) Giới từ (Preposition or subordinating conjunction) Tính từ (Adjective) Tính từ so sánh (Adjective, comparative) Tính từ so sánh cực cấp (Adjective, superlative) Dấu liệt kê (List item marker) Từ hình thái (Modal) Danh từ số (Noun, singular or mass) Danh từ số nhiều (Noun, plural) Danh từ riêng số (Proper noun, singular) Danh từ riêng số nhiều (Proper noun, plural) Tiền định từ (Predeterminer) Sở hữu cách (Possessive ending) Đại từ nhân xưng (Personal pronoun) Đại từ sở hữu (Possessive pronoun) Trạng từ (Adverb) Trạng từ so sánh (Adverb, comparative) Trạng từ so sánh cực cấp (Adverb, superlative) Tiểu từ (Particle) Ký hiệu (Symbol) Từ to Thán từ (Interjection) Động từ nguyên thể (Verb, base form) Động từ khứ (Verb, past tense) Phân từ (Verb, gerund or present participle) Quá khứ phân từ (Verb, past participle) Động từ khơng phải ngơi ba số (Verb, non-3rd person singular present) Động từ ba số (Verb, 3rd person singular present) Định từ bắt đầu Wh- (Wh-determiner) Đại từ bắt đầu Wh- (Wh-pronoun) Đại từ sở hữu bắt đầu Wh(Possessive wh-pronoun) Trạng từ bắt đầu Wh- (Wh-adverb) GVHD: Th.s Huỳnh Ngọc Tín Ví dụ and, or, but 1, 2, the, a, an there in, on , at big, good, hard bigger, better biggest, best : can, may, might book, sugar, books, children John, Hanoi IBMs, Fords, This, each „s I, you, he mine, yours slow, hardly slower, faster slowest, fastest on,off / to oh ! work, write worked, wrote working, writing written, stolen work,write works, writes which, what, who, where whose, when , where SVTH: Nguyễn Thanh Hoàng & Nguyễn Thuận Hưng [86] Phụ lục C : Tập 18 luật từ loại (NN|NNP)-1 VB-2-have NN-3 IN-4 (NNP|CD)-5-NA > (NN|NNP)-1,VB-2 NN-3 IN-4,(NNP|CD)-5 >DEL (NN|NNP)-1 VB-2-have NN-3 (NNP|CD)-4-NA > (NN|NNP)-1,VB-2 NN3,(NNP|CD)-4 >DEL (NN|NNP)-1 VB-2 NN-3 NNP-4-NA VB-5 > NNP-4-NA,VB5,(NN|NNP)-1 >DEL NN-1 WDT-2 (NN|NNP)-3-NA VB-4 >(NN|NNP)-3-NA,VB-4,NN-1 ->DEL NN-1 WDT-2 VB-3 VB-4 IN-5 (NN|NNP|CD)-6-NA > NN-1,VB-3 VB-4 IN-5,(NN|NNP|CD)-6 >DEL (NN|NNP)-1 VB-2 (NN|NNP)-3-NA VB-4 > (NN|NNP)-3-NA,VB4,(NN|NNP)-1 >DEL (WP|WDT|NNP|NN)-1 VB-2 VB-3 IN-4 (NN)-5 (NNP|CD)-6-NA > (WP|WDT|NNP|NN)-1,VB-2 VB-3 IN-4,(NNP|CD)-6 >DEL (WP|WDT|NNP|NN)-1 VB-2 VB-3 IN-4 (NN|NNP|CD)-5-NA > (WP|WDT|NNP|NN)-1,VB-2 VB-3 IN-4,(NN|NNP|CD)-5 >DEL (WP|WDT|NNP|NN)-1 VBN-2 IN-3 (NN|NNP|CD)-4-NA > (WP|WDT|NNP|NN)-1,VB-2 IN-3,(NN|NNP|CD)-4 >DEL 10 NN-1 NNP-2-NA VB-3 > NNP-2-NA,VB-3,NN-1 >DEL 11 (WP|WDT|NNP|NN)-1 VB-2-result IN-3 NNP-4-NA > (WP|WDT|NNP|NN)-1,VB-2 IN-3,NNP-4 >DEL 12 (WP|WDT|NNP|NN)-1 VB-2 (NN)-3 NNP-4-NA > (WP|WDT|NNP|NN)1,VB-2,NNP-4 13 (WP|WDT|NNP|NN)-1 VB-2 (NN|NNP)-3-NA > (WP|WDT|NNP|NN)1,VB-2,(NN)-3 14 (WP|WDT|NNP|NN)-1 VB-2 IN-3 NN-4 NNP-5-NA > (WP|WDT|NNP|NN)-1,VB-2,NNP-5 15 (WP|WDT|NNP|NN)-1 VB-2 (IN|TO)-3 (NN|NNP)-4-NA > (WP|WDT|NNP|NN)-1,VB-2,(NN|NNP)-4 16 (NNP|NN)-1 IN-2 (NN)-3 (NNP|CD)-4-NA > (WP|WDT|NNP|NN)-1,IN2,(NNP|CD)-4-NA 17 (NNP|NN)-1 (IN|TO)-2 (NN|NNP|CD)-3-NA > (WP|WDT|NNP|NN)1,(IN|TO)-2,(NN|NNP|CD)-3-NA >DEL 18 (WP)-1 NN-2 VB-3 NNP-4 VBN-5 IN-6 > NNP-4,VB-5 IN-6,NN-2->DEL GVHD: Th.s Huỳnh Ngọc Tín SVTH: Nguyễn Thanh Hồng & Nguyễn Thuận Hưng [87] Phụ lục D : Tập tin cấu hình ngữ nghĩa cho sở liệu BDBLP dblp_pub_new have author have writer have composer be write by be compose by author pub_au have title have heading title have publisher be publish by be release by for from in publish have publish release have release publisher have source have source from have source in from in result from GVHD: Th.s Huỳnh Ngọc Tín SVTH: Nguyễn Thanh Hồng & Nguyễn Thuận Hưng [88] source have year from have year in in from to be write in year have isbn isbn have doi doi cite cite to refer to refer pub_ref reference id dblp_author_ref_new GVHD: Th.s Huỳnh Ngọc Tín SVTH: Nguyễn Thanh Hoàng & Nguyễn Thuận Hưng [89] write publication au_pub write for cooperate publication au_pub publisher have name author author dblp_pub_new have title have heading title dblp_key dblp dblp_key id dblp_ref_new id dblp_key dblp_ref_new GVHD: Th.s Huỳnh Ngọc Tín SVTH: Nguyễn Thanh Hồng & Nguyễn Thuận Hưng [90] pub_id author dblp_author_ref_new author pub_id dblp_author_ref_new GVHD: Th.s Huỳnh Ngọc Tín SVTH: Nguyễn Thanh Hoàng & Nguyễn Thuận Hưng [91] Phụ lục E: Những ba rút đƣợc từ tập tin cấu hình ngữ nghĩa Với cách thức cấu hình tập tin XML phụ lục D Mặc định lấy lên thơng tin ta có ba miêu tả mối quan hệ bảng thuộc tính sau: (Publication, have author, Author) (Publication, have writer, Author) (Publication, have composer, Author) (Publication, be write by, Author) (Publication, be compose by, Author) (Publication, have title, title) (Publication, have heading, title) (Publication, have publisher, publisher) (Publication, be publish by, publisher) (Publication, be release by, publisher) (Publication, for, publisher) (Publication, from, publisher) (Publication, in, publisher) (Publication, publish, publisher) (Quan hệ ngược) (Publication, have publish, publisher) (Quan hệ ngược) (Publication, release, publisher) (Quan hệ ngược) (Publication, have release, publisher) (Quan hệ ngược) (Publication, have source, source) (Publication, have source from, source) (Publication, have source in, source) (Publication, from, source) (Publication, in, source) (Publication, result from, source) (Publication, have year from, year) (Publication, have year in, year) GVHD: Th.s Huỳnh Ngọc Tín SVTH: Nguyễn Thanh Hoàng & Nguyễn Thuận Hưng [92] (Publication, in, year) (Publication, from, year) (Publication, to, year) (Publication, be write in, year) (Publication, have isbn, isbn) (Publication, have doi, doi) (Publication, cite, Reference) (Publication, cite to, Reference) (Publication, refer to, Reference) (Publication, refer, Reference) (Author, write, Author.Publication) (Author, write for, Author.publisher) (Author, cooperate, Author.publisher) (Author, have name, Author.name) (Reference, have title, Reference.title) (Reference, have heading, Reference.title) GVHD: Th.s Huỳnh Ngọc Tín SVTH: Nguyễn Thanh Hồng & Nguyễn Thuận Hưng ... cho nhu cầu tìm kiếm báo khoa học Nó cung cấp cho người dùng giao diện hỏi đáp để tìm kiếm báo Người dùng nhập vào câu hỏi dạng ngôn ngữ tự nhiên thay cho từ khóa Kết trả thơng tin báo tương ứng... mong muốn xây dựng giao diện hỏi đáp nhằm phục vụ tốt vấn đề tìm kiếm thơng tin báo (hay tìm kiếm báo) Có thế, người dùng thỏa mãn phần nhu cầu tìm kiếm đem lại hướng giao tiếp tự nhiên người... cứu liên quan đến hỏi đáp tìm kiếm Trong mục này, chúng em trình bày số nghiên cứu liên quan đến hệ thống hỏi đáp sử dụng ngơn ngữ tự nhiên vấn đề tìm kiếm thông tin (hoặc sách báo) Qua khảo sát,

Ngày đăng: 23/12/2018, 06:17

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN