Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 83 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
83
Dung lượng
1 MB
Nội dung
ĐẠI HỌC QUỐC GIA TP HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC BÁCH KHOA PHẠM CÔNG THIỆN GẮN TỪ LOẠI VÀO TỪ VÀ ỨNG DỤNG TRONG HỆ THỐNG HỎI ĐÁP CỦA NGÔN NGỮ TỰ NHIÊN CHUYÊN NGÀNH : MÃ SỐ NGÀNH : CÔNG NGHỆ THÔNG TIN 01.02.10 LUẬN VĂN THẠC SĨ TP HỒ CHÍ MINH, tháng 11 năm 2004 CÔNG TRÌNH ĐƯC HOÀN THÀNH TẠI TRƯỜNG ĐẠI HỌC BÁCH KHOA ĐẠI HỌC QUỐC GIA TP HỒ CHÍ MINH Cán hướng dẫn khoa học : PGS TS Phan Thị Tươi Cán chấm nhận xét : Cán chấm nhận xét : Luận văn thạc só bảo vệ HỘI ĐỒNG CHẤM BẢO VỆ LUẬN VĂN THẠC SĨ TRƯỜNG ĐẠI HỌC BÁCH KHOA, ngày tháng năm TRƯỜNG ĐẠI HỌC BÁCH KHOA PHÒNG ĐÀO TẠO SĐH CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM ĐỘC LẬP – TỰ DO – HẠNH PHÚC Tp HCM, ngày 25 tháng 11 năm 2004 NHIỆM VỤ LUẬN VĂN THẠC SĨ Họ tên học viên : .PHẠM CÔNG THIỆN .Phái : Nam Ngày, tháng, năm sinh : 07 – 06 – 1978 Nơi sinh : Quảng Ngãi Chuyên ngành : .CÔNG NGHỆ THÔNG TIN MSHV : CNTT 13 020…… TÊN ĐỀ TÀI : GẮN TỪ LOẠI VÀO TỪ VÀ ỨNG DỤNG TRONG HỆ THỐNG HỎI ĐÁP CỦA NGÔN NGỮ TỰ NHIÊN II- NHIỆM VỤ VÀ NỘI DUNG : - Đọc tài liệu part-of-speech-tagging cho tiếng Anh - Thông qua gán từ loại cho từ tìm hiểu phương pháp gán ngữ nghóa cho từ - Tìm hiểu phương pháp xây dựng hệ thống liệu phục vụ cho hệ thống hỏi đáp - Tìm hiểu hệ thống hỏi đáp, truy vấn thông tin có, đánh giá hệ thống - Đề xuất mô hình hệ thống hỏi đáp - Xây dựng chương trình cho hệ thống hỏi đáp - Áp dụng hệ thống hỏi đáp cho xử lý ngôn ngữ tự nhiên III- NGÀY GIAO NHIỆM VỤ …………………………………………ngày 01 tháng 02 năm 2004………… IV- NGÀY HOÀN THÀNH NHIỆM VỤ: ngày 25 tháng 11 năm 2004 V- HỌ VÀ TÊN CÁN BỘ HƯỚNG DẪN: .Phó giáo sư, tiến só Phan Thị Tươi CÁN BỘ HƯỚNG DẪN CHỦ NHIỆM NGÀNH Phó giáo sư, tiến só Phan Thị Tươi Tiến só Dương Tuấn Anh BỘ MÔN QUẢN LÝ CHUYÊN NGÀNH Nội dung đề cương luận văn thạc só Hội Đồng Chuyên Ngành thông qua Ngày tháng năm PHÒNG ĐÀO TẠO SĐH KHOA QUẢN LÝ NGÀNH LỜI CẢM ƠN Lời dạy Thầy Cô Giáo, kiến thức, kinh nghiệm học tập nghiên cứu có sau làm xong đề tài tài sản quý giá làm hành trang cho bước đường tới Xin gởi lời cảm ơn sâu sắc đến Cô giáo Tiến Só Phan Thị Tươi, tận tình theo dõi bước đề tài, kịp thời uốn nắn chỉnh sửa đưa nhận xét sâu sắc Xin cảm ơn Thầy Dương Tuấn Anh, hối thúc động viên trình thực Xin cảm ơn Thầy, Cô khoa Công Nghệ Thông Tin đại học Bách Khoa TP Hồ Chí Minh vun đắp kiến thức cho trước chương trình Thạc Só Với thời gian làm việc ngắn ngủi, với khối lượng công việc tương đối nhiều Tôi cố gắng tương đối hoàn thành yêu cầu đề tài đặt ban đầu Xin cám ơn trợ giúp tận tình bảo bạn bè, đặc biệt bạn học viên lớp Cao Học K2002 Cám ơn anh Claudio Scordino (Tiến Só người Italia) nhanh chóng đóng góp ý kiến cặn kẽ cho đề tài Tôi Xin chân thành cảm ơn Ban giám đốc công ty Sunyard Vietnam giúp đỡ, tạo điều kiện thời gian, công việc cho suốt trình học tập làm đề tài Cuối cùng, cảm ơn Ba, Mẹ, Anh, Em người khác gia đình động viên, khuyến khích, tạo điều kiện đễ vững bước tiến lên CHƯƠNG - MỞ ÑAÀU 1.1 Mục đích nghiên cứu đặt trình tìm hiểu đề tài 1.2 Các ràng buộc .2 1.3 Ý nghóa khoa hoïc 1.4 Ý nghóa thực tiễn CHƯƠNG - TỔNG QUAN 2.1 Start – nghiên cứu cuûa Boris Katz 2.2 Máy gắn từ loại Multi-Text 2.3 Boä tagger EngCG (English Constraint Grammar) 2.4 Open-Domain Voice-Activated Question Answering 2.5 Học máy dựa việc phân loại câu hoûi (Learning Question Classifiers)10 2.6 The Effectiveness of Dictionary and Web-Based Answer Reranking 12 2.7 Chuỗi từ vựng liên kết (Lexical Chains) cho hệ thống hỏi đáp 14 2.8 SVM Answer Selection for Open-Domain Question Answering 15 2.9 vnQtag – Bộ tagger tiếng Việt 17 2.10 Phân tích, đánh giá .18 2.11 Những đóng góp đề tài .19 CHƯƠNG - CƠ SỞ LÝ THUYẾT 22 3.1 Gắn từ loại vào từ (Part-of-Speech Tagging) 22 3.2 Phương pháp mạng Markov (Markov assumption) 25 3.2.1 Giải thuật Viterbi cho việc chọn trạng thái phân tích HMM 26 3.2.2 Xác suất từ vựng (Obtaining lexical Probability) …………………………… 28 3.3 Ngữ nghóa thủ tục (Procedural Semantics) hệ thống hỏi đáp………… 31 3.4 Máy học (Learning Module) trả lời câu hỏi (Answering Module) 36 3.5 Gắn ngữ nghóa 39 3.6 Máy học (Learning Module) 40 CHƯƠNG – HIỆN THỰC ĐỀ TÀI VÀ CÁC KẾT QUẢ ĐẠT ĐƯC 41 4.1 Tách gắn từ loại vào từ câu (II, VI) 43 4.2 Gaén ngữ nghóa (III, VII) 44 4.3 Ghi vào sở tri thức (IV) 46 4.4 Lọc lấy cụm từ cần hỏi tìm kiếm câu trả lời (IIX, IX) 47 4.5 Cập nhật sở tri thức không tìm thấy (XI, XII) 48 4.6 Giao diện chương trình 50 4.7 Kết luận mặt thực nghiệm đề tài 57 CHƯƠNG - KẾT LUẬN VÀ KIẾN NGHỊ NHỮNG NGHIÊN CỨU TIẾP THEO .58 5.1 Kết luận .58 5.2 Kiến nghị nghiên cứu 58 5.2.1 Cải tiến lý thuyết: 59 5.2.1.1 Làm mạnh QA cách tăng cường sở tri thức … 59 5.2.1.2 Cấu trúc câu phức tạp, nghiên cứu sâu ngôn ngữ 59 5.2.1.3 Tăng tốc độ tính toán, học hỏi trả lời 59 5.2.1.4 Hỗ trợ khả hiểu nghóa câu tìm câu trả lời theo ngữ nghóa …………………………………………………………………………………………………………………………… 60 5.2.2 Cải tiến thực nghieäm .60 5.2.2.1 Hổ trợ khả giao tiếp âm 60 5.2.2.2 Tăng khả giao tiếp với người sử dụng ……………………………………60 TÀI LIỆU THAM KHAÛO 62 TÓM TẮT LÝ LỊCH TRÍCH NGANG 65 PHUÏ LUÏC 66 Phụ lục thuật ngữ 66 Phụ lục viết tắc từ loại dùng máy tách gắn từ loại vào từ câu….68 TÓM TẮT -oOo Đề tài GẮN TỪ LOẠI VÀO TỪ VÀ ỨNG DỤNG TRONG HỆ THỐNG HỎI ĐÁP CỦA NGÔN NGỮ TỰ NHIÊN giải toán gắn từ loại vào từ câu, tức với câu nhập vào, từ câu gán cho biết danh từ, động từ, tính từ, danh từ riêng, … Sau ứng dụng kết từ loại để phục vụ việc hỏi đáp ngôn ngữ tự nhiên thông qua việc nhận câu hỏi tìm kiếm câu trả lời sở tri thức sẵn có Đề tài dựa sở lýù thuyết số nghiên cứu có sẵn cải tiến để tích hợp thành chương trình hỏi đáp cho tiếng Anh Ứng dụng việc gắn từ loại hỏi đáp hương lónh vực xử lý ngôn ngữ tự nhiên Bên cạnh đó, đề tài thực tự động công việc học tri thức để làm giàu sở tri thức hệ thống hỏi đáp Với lượng câu hỏi lấy ngẫu nhiên từ TREC khoảng 3000 câu, hệ thống cho thấy khả tách gắn từ loại thành công với hầu hết câu không gian liệu thực nghiệm Khả hỏi đáp câu hỏi từ TREC tương đối cao, hầu hết câu tri thức học câu hỏi trả lời thông tin cần thiết ABSTRACT oOo -PART-OF-SPEECH-TAGGING AND APPLICATION IN QUESTION & ANSWERING SYSTEM FOR NATURAL LANGUAGE solves the problem of tagging and part-of-speech for words in a sentence, with a given input, every words would be attached part-of-speech as noun, verb, adjective, adverb, … Later on, output is used in a question & answering system as an input Final result is the answer for above question which has been searched and found in a knowledge base The master thesis relies on a series of available theoretical research and improvements for an English question & answering integration Using part-of-speech tagging for question & answering is a new trend in Natural Language Processing Besides, the thesis provides an automatic learning module to enrich its knowledge base With about 3000 sentences random data from TREC, the system shows ability to tag and attach part-of-speech successfully throughout almost all sentences The ability to answer these questions from TREC is relatively high, almost all sentences can be learned and almost all questions can be answered with correct information Chương - Mở đầu CHƯƠNG - MỞ ĐẦU Máy tính người trang bị sức mạnh để xử lý nhiều công việc phức tạp đòi hỏi khối lượng tính toán lớn Bên cạnh, người muốn máy tính thông minh hơn, hiểu gần gũi Có thể nói, mục đích lớn mà người dày công xây dựng biến máy tính trở thành đối tượng giống người; biết nghe, biết nói, biết học, biết trả lời thắc mắc … Các công trình nghiên cứu lónh vực có bước phát triển vượt bậc Hàng loạt báo, công nghệ mới, diễn đàn phân tích câu, từ (Tagging); học máy (Machine Learning); hệ thống hỏi đáp (Question & Answering System); khai thác liệu quản lý thông tin (Data Mining and Information Retrieval) … đời Với phát triển nhanh khối lượng liệu, khối lượng tri thức lónh vực nhà khoa học, nghiên cứu sinh Công nghệ thông tin quan tâm tìm hiểu Ý tưởøng GẮN TỪ LOẠI VÀO TỪ xuất phát từ việc làm cách để gắn ngữ nghóa vào câu Thông thường từ đóng nhiều vai trò có nhiều nghóa câu khác nhau, nên việc gắn từ loại cho từ có ý nghóa quan trọng việc lấy nghóa từ qua hiểu câu Nếu câu ban đầu câu hỏi khả trả lời câu hỏi cao Kỹ thuật gắn từ loại trang bị môn học Xử lý ngôn ngữ tự nhiên, với kiến thức tổng quan chi tiết khác chương trình đào tạo bậc đại học cao học trường Đại học Bách Khoa TP Hồ Chí Minh cho phép thực đề tài cao học GẮN TỪ LOẠI VÀO TỪ VÀ ỨNG DỤNG TRONG HỆ THỐNG HỎI ĐÁP CỦA NGÔN NGỮ TỰ NHIÊN 1.1 Mục đích nghiên cứu đặt trình tìm hiểu đề tài - Tìm hiểu kỹ thuật xử lý ngôn ngữ tự nhiên chuyên sâu Nghiên cứu kỹ thuật tách gắn từ loại câu (Part of Speech Tagging), so sánh đánh giá kỹ thuật Hiện thực module phần mềm có khả tách từ câu gắn từ loại (Tagger) Kết thu từ Tagger, xây dựng hệ thống hỏi đáp (Question & Answering System) bao gồm yêu cầu o Gắn ngữ nghóa vào câu hỏi nhận Chương - Mở đầu o Trích lấy phần thông tin cần hỏi từ câu hỏi (Required Information) o Tổ chức sở tri thức (Knowledge Base) bao gồm khối lượng thông tin đáng kể cách thức truy xuất, xóa bỏ, cập nhập Cơ sở tri thức tảng thông tin để tìm kiếm câu trả lời cho câu hỏi yêu cầu ban đầu o Lấy thông tin trả lời câu hỏi o Trong trường hợp trả lời thiếu thông tin, hệ thống hỗ trợ khả tương tác với người dùng để học lấy thông tin cần thiết 1.2 Các ràng buộc Để tiến hành công việc với yêu cầu trên, ràng buộc sau đưa để giới hạn khối lượng - - Về ngôn ngữ, hỏi đáp liệu tiếng Anh Về tập mẫu chứa từ vựng cần dùng trình phân tích văn phạm, ngữ nghóa tìm kiếm từ nguồn liệu tin cậy mà thiết lập từ đầu Về hệ thống hỏi đáp trả lời câu hỏi phạm vi định Cụ thể, tập trung khả trả lời câu hỏi TREC 1999 TREC 2002 (TREC – Text REtrieval Conference) khoaûng 3000 câu [8] 1.3 Ý nghóa khoa học Đề tài với khối lượng công việc đề cập ứng dụng cụ thể kiến thức tảng cung cấp môn học xử lý ngôn ngữ tự nhiên Kỹ thuật phân tích gắn từ loại vào từ có ý nghóa quan trọng hầu hết hệ thống xử lý ngôn ngữ Cách tổ chức truy xuất sở tri thức thực cụ thể kiến thức trang bị môn học sở tri thức (Knowledge Base) Hầu hết kỹ thuật, kinh nghiệm trang bị chương trình đại học cao học, với việc đọc tìm hiểu nghiên cứu giải thuật báo, tạp chí chuyên ngành gần vận dụng trình làm đề tài Tóm lại, Luận án sâu nghiên cứu Mục lục - Tương tác bước với ngừơi, đặc câu hỏi để lấy thông tin xử lý, tìm kiếm đồng thời Cách cho thấy thông minh cao hệ thống Và hướng để cải tiến chương trình Mục lục TÀI LIỆU THAM KHẢO [1] Christopher, D Manning, Hinrich Schutze, Foundations of Statiscal Natural Language Processing 2001 [2] James Allen, Natural Language Understanding 1995 [3] Shu-Chuan Tseng, Coling 2002 – Proceedings of the 19th International Conference on Computational Linguistics – Vol [4] Shu-Chuan Tseng, Coling 2002 – Proceedings of the 19th International Conference on Computational Linguistics – Vol [5] Phan Thị Tươi, Trình biên dịch, NXB Đại học Quốc gia TP Hồ Chí Minh 2001 [6] Mary D H., Introduction to Natural Language Processing 1985 [7] Afred V Aho, Ravisethi, Jeffrey D UllMan, Compiler principles, Techniques, and Tools 1986 [8] TREC – Text REtrieval Conference, trang web trực tuyến http://trec.nist.gov/, tiêu chuẩn hệ thống hỏi đáp [9] Boris Katz nhóm nghiên cứu đại học MIT, Start – hệ thống trả lời câu hỏi trực tuyến, trang web http://www.ai.mit.edu/projects/infolab/ailab.html Mục lục [10] Nhóm nghiên cứu ISSCO đại học Geneve, the Multi-Text Tagger, trang web http://issco-www.unige.ch/projects/MULTEXT.html [11] Samuelsson , Christer, A Voutilainen, Comparing a linguistic and a stochastic tagger 1997 [12] S Harabagui, D Moldovan Open-Domain, Voice-Activated Question Answering 2004, trang web www.askjeeves.com, http://www.isip.msstate.edu [13] X, Li, D Roth, Learning Question Classifiers 2001, trang web http://acl.ldc.upenn.edu/C/C02/ [14] Chin-Yew Lin, The Effectiveness of Dictionary and Web-Based Answer Reranking 2003, trang web http://acl.ldc.upenn.edu/C/C02/ [15] D Moldovan, A Novischi, Lexical Chains for Question Answering trang web http://trec.nist.gov/presentations/ [16] J Suzuky, Y Sasaki, Support Vector Machine Answer Selection for OpenDomain Question Answering 1999, trang web http://cs.nyu.edu/cs/projects/proteus/irex/ [17] Nguyen Thi Minh Huyen, vnQtag – Boä tagger tiếng Việt 2003, trang web http://www.inria.fr/rapportsactivite/RA2003/led2003/logiciel17.html [18] C Scordino, Research on Question and Answering System 2002, trang web http://utenti.quipo.it/claudioscordino/ Muïc lục [19] Nguyễn Hoàng Phúc Nguyên, Clustering vấn đề cải tiến mô hình ngôn ngữ lónh vực xử lý văn tiếng Anh 2003 [20] H Schmid, A Stein trang web http://www.ims.unistuttgart.de/projekte/corplex/ tập mẫu tiếng Anh [21] J Pettibone, Penn Treebank II Tags 2002, trang web http://bulba.sdsu.edu/jeanette/thesis/ Mục lục TÓM TẮT LÝ LỊCH TRÍCH NGANG Họ tên : PHẠM CÔNG THIỆN Ngày, tháng, năm sinh : 07/06/1978 Nơi sinh : Quảng Ngãi Địa liên lạc : 285/31B Khu Phố 6, Thị Trấn An Lạc, Quận Bình Tân, TP Hồ Chí Minh Điện thoại: 7522664 – 0908336454 Email: congthienvn@yahoo.com QUÁ TRÌNH ĐÀO TẠO (Bắt đầu từ Đại học đến nay) - 1996 2001 Học tập Khoa Công Nghệ Thông Tin, Trường Đại Học Bách Khoa TP Hồ Chí Minh – Bậc Đại Học - 2002 2004 Học tập Khoa Công Nghệ Thông Tin, Trường Đại Học Bách Khoa TP Hồ Chí Minh – Bậc Cao Học QUÁ TRÌNH CÔNG TÁC (Bắt đầu từ làm đến nay) - Tháng 1/2001 thaùng 4/2001 - Thaùng 4/2001 thaùng 7/2001 - Thaùng 8/2001 đến Làm việc Cty FPT Việt Nam Làm việc Cty Tường Minh Làm việc Cty TNHH Sunyard Việt Nam Mục lục PHỤ LỤC • Phụ lục thuật ngữ Thuật ngữ Giải thích Artificial Intelligence Automatic Speech Recognition Corpus Data Information Retrieval Decision Tree Learning, Boosting Decision Tree Learning Learning Question Classifiers Lexical Chains Trí tuệ nhân tạo Bộ nhận dạng âm tự động Viết tắc (nếu có) AI ASR Tập mẫu Rút trích thông tin ngữ nghóa Một loại giải thuật học máy dạng nâng cao Học máy dựa việc phân loại câu hỏi Chuỗi từ vựng liên kết, tập hợp chuỗi từ vựng có chung tính chất giúp trả lời câu hỏi (2.7) Học máy Giải thuật học máy cực đại Entropy Machine Learning Maximum Entropy National Institute of NIST Standards and Technology Obtaining Lexical Lấy xác suất từ vựng, bước Probability trình tách gắn từ loại vào từ caâu Open Domain Question ODQA Answering Part of speech Tagging Gắn từ loại vào từ câu Tên gọi loại tagger QTAG Mục lục Question & Answering System Search Engine Support Vector Machine Tagger Tagging Text REtrieval Conference Voice Activated Question Answering System Hệ thống hỏi đáp Hệ thống tìm kiếm Máy học có hỗ trợ kỹ thuật vector kỹ thuật cải tiến giải thuật học máy (2.8) Máy gắn từ loại Việc tách gắn từ loại Hội nghị rút trích thông tin từ văn Hệ thống hỏi đáp có tích hợp aâm Q&A System, QA SVM TREC VAQA Muïc luïc • Phụ lục viết tắc từ loại dùng máy tách gắn từ loại vào từ câu - Clause Level o S - simple declarative clause o SBAR - Clause introduced by a (possibly empty) subordinating conjunction o SBARQ - Direct question introduced by a wh-word or a wh-phrase Indirect questions and relative clauses should be bracketed as SBAR, not SBARQ o SINV - Inverted declarative sentence, i.e one in which the subject follows the tensed verb or modal o SQ - Inverted yes/no question, or main clause of a wh-question, following the wh-phrase in SBARQ - Phrase Level o o o o o o o o o o o ADJP - Adjective Phrase ADVP - Adverb Phrase CONJP - Conjunction Phrase FRAG - Fragment INTJ - Interjection Corresponds approximately to the part-of-speech tag UH LST - List marker Includes surrounding punctuation NAC - Not a Constituent; used to show the scope of certain prenominal modifiers within an NP NP - Noun Phrase NX - Used within certain complex NPs to mark the head of the NP Corresponds very roughly to N-bar level but used quite differently PP - Prepositional Phrase PRN - Parenthetical Muïc luïc o PRT - Particle Category for words that should be tagged RP o QP - Quantifier Phrase (i.e complex measure/amount phrase); used within NP o RRC - Reduced Relative Clause o UCP - Unlike Coordinated Phrase o VP - Vereb Phrase o WHADJP - Wh-adjective Phrase Adjectival phrase containing a whadverb, as in how hot o WHAVP - Wh-adverb Phrase Introduces a clause with an NP gap May be null (containing the complementizer) or lexical, containing a wh-adverb such as how or why o WHNP - Wh-noun Phrase Introduces a clause with an NP gap May be null (containing the complementizer) or lexical, containing some wh-word, e.g who, which book, whose daughter, none of which, or how many leopards o WHPP - Wh-prepositional Phrase Prepositional phrase containing a wh-noun phrase (such as of which or by whose authority) that either introduces a PP gap or is contained by a WHNP o X - Unknown, uncertain, or unbracketable X is often used for bracketing typos and in bracketing the the-constructions - Word level o o o o o o o o o o o CC - Coordinating conjunction CD - Cardinal number DT – Determiner EX - Existential there FW - Foreign word IN - Preposition or subordinating conjunction JJ – Adjective JJR - Adjective, comparative JJS - Adjective, superlative LS - List item marker MD – Modal Muïc luïc o o o o o o o o o o o o o o o o o o o o o o o o o - NN - Noun, singular or mass NNS - Noun, plural NNP - Proper noun, singular NNPS - Proper noun, plural PDT – Predeterminer POS - Possessive ending PRP - Personal pronoun PRP$ - Possessive pronoun (prolog version PRP-S) RB – Adverb RBR - Adverb, comparative RBS - Adverb, superlative RP – Particle SYM – Symbol TO – to UH – Interjection VB - Verb, base form VBD - Verb, past tense VBG - Verb, gerund or present participle VBN - Verb, past participle VBP - Verb, non-3rd person singular present VBZ - Verb, 3rd person singular present WDT - Wh-determiner WP - Wh-pronoun WP$ - Possessive wh-pronoun (prolog version WP-S) WRB - Wh-adverb Function tags - Form/function discrepancies o ADV (adverbial) - marks a constituent other than ADVP or PP when it is used adverbially (e.g NPs or free ("headless" relatives) However, constituents that themselves are modifying an ADVP generally not get -ADV If a more specific tag is available (for example, -TMP) then it is used alone and -ADV is implied See the Adverbials section Muïc luïc o NOM (nominal) - marks free ("headless") relatives and gerunds when they act nominally - Function tags - Grammatical role o DTV (dative) - marks the dative object in the unshifted form of the double object construction If the preposition introducing the "dative" object is for, it is considered benefactive (-BNF) -DTV (and -BNF) is only used after verbs that can undergo dative shift o LGS (logical subject) - is used to mark the logical subject in passives It attaches to the NP object of by and not to the PP node itself o PRD (predicate) - marks any predicate that is not VP In the so construction, the so is annotated as a predicate o PUT - marks the locative complement of put o SBJ (surface subject) - marks the structural surface subject of both matrix and embedded clauses, including those with null subjects o TPC ("topicalized") - marks elements that appear before the subject in a declarative sentence, but in two cases only: o VOC (vocative) - marks nouns of address, regardless of their position in the sentence It is not coindexed to the subject and not get -TPC when it is sentence-initial - Function tags - Adverbials Adverbials are generally VP adjuncts o BNF (benefactive) - marks the beneficiary of an action (attaches to NP or PP) This tag is used only when (1) the verb can undergo dative shift and (2) the prepositional variant (with the same meaning) uses for The prepositional objects of dative-shifting verbs with other prepositions than for (such as to or of) are annotated -DTV o DIR (direction) - marks adverbials that answer the questions "from where?" and "to where?" It implies motion, which can be metaphorical as in " rose pts to 57-1/2" or "increased 70% to 5.8 billion yen" - Muïc luïc o o o o o - DIR is most often used with verbs of motion/transit and financial verbs EXT (extent) - marks adverbial phrases that describe the spatial extent of an activity -EXT was incorporated primarily for cases of movement in financial space, but is also used in analogous situations elsewhere Obligatory complements not receive -EXT Words such as fully and completely are absolutes and not receive -EXT LOC (locative) - marks adverbials that indicate place/setting of the event -LOC may also indicate metaphorical location There is likely to be some varation in the use of -LOC due to differing annotator interpretations In cases where the annotator is faced with a choice between -LOC or -TMP, the default is -LOC In cases involving SBAR, SBAR should not receive -LOC -LOC has some uses that are not adverbial, such as with place names that are adjoined to other NPs and NAC-LOC premodifiers of NPs The special tag -PUT is used for the locative argument of put MNR (manner) - marks adverbials that indicate manner, including instrument phrases PRP (purpose or reason) - marks purpose or reason clauses and PPs TMP (temporal) - marks temporal or aspectual adverbials that answer the questions when, how often, or how long It has some uses that are not strictly adverbial, auch as with dates that modify other NPs at S- or VP-level In cases of apposition involving SBAR, the SBAR should not be labeled -TMP Only in "financialspeak," and only when the dominating PP is a PP-DIR, may temporal modifiers be put at PP object level Note that -TMP is not used in possessive phrases Function tags – Miscellaneous o CLR (closely related) - marks constituents that occupy some middle ground between arguments and adjunct of the verb phrase These roughly correspond to "predication adjuncts", prepositional Muïc luïc ditransitives, and some "phrasel verbs" Although constituents marked with -CLR are not strictly speaking complements, they are treated as complements whenever it makes a bracketing difference The precise meaning of -CLR depends somewhat on the category of the phrase o on S or SBAR - These categories are usually arguments, so the -CLR tag indicates that the clause is more adverbial than normal clausal arguments The most common case is the infinitival semi-complement of use, but there are a variety of other cases o on PP, ADVP, SBAR-PRP, etc - On categories that are ordinarily interpreted as (adjunct) adverbials, -CLR indicates a somewhat closer relationship to the verb For example: Prepositional Ditransitives In order to ensure consistency, the Treebank recognizes only a limited class of verbs that take more than one complement (-DTV and -PUT and Small Clauses) Verbs that fall outside these classes (including most of the prepositional ditransitive verbs in class [D2]) are often associated with -CLR § Phrasal verbs Phrasal verbs are also annotated with -CLR or a combination of -PRT and PP-CLR Words that are considered borderline between particle and adverb are often bracketed with ADVPCLR § Predication Adjuncts Many of Quirk's predication adjuncts are annotated with -CLR on NP - To the extent that -CLR is used on NPs, it indicates that the NP is part of some kind of "fixed phrase" or expression, such as take care of Variation is more likely for NPs than for other uses of -CLR CLF (cleft) - marks it-clefts ("true clefts") and may be added to the labels S, SINV, or SQ HLN (headline) - marks headlines and datelines Note that headlines and datelines always constitute a unit of text that is structurally independent from the following sentence § o o o Mục luïc o TTL (title) - is attached to the top node of a title when this title appears inside running text -TTL implies -NOM The internal structure of the title is bracketed as usual Mục lục TP Hồ Chí Minh, Ngày 26/8/2004 Phạm Công Thiện ... tách gắn từ loại vào từ câu….68 TÓM TẮT -oOo Đề tài GẮN TỪ LOẠI VÀO TỪ VÀ ỨNG DỤNG TRONG HỆ THỐNG HỎI ĐÁP CỦA NGÔN NGỮ TỰ NHIÊN giải toán gắn từ loại vào từ câu, tức với câu nhập vào, từ câu... đề tài cao học GẮN TỪ LOẠI VÀO TỪ VÀ ỨNG DỤNG TRONG HỆ THỐNG HỎI ĐÁP CỦA NGÔN NGỮ TỰ NHIÊN 1.1 Mục đích nghiên cứu đặt trình tìm hiểu đề tài - Tìm hiểu kỹ thuật xử lý ngôn ngữ tự nhiên chuyên sâu... Ngãi Chuyên ngành : .CÔNG NGHỆ THÔNG TIN MSHV : CNTT 13 020…… TÊN ĐỀ TÀI : GẮN TỪ LOẠI VÀO TỪ VÀ ỨNG DỤNG TRONG HỆ THỐNG HỎI ĐÁP CỦA NGÔN NGỮ TỰ NHIÊN II- NHIỆM VỤ VÀ NỘI DUNG : - Đọc tài liệu