1. Trang chủ
  2. » Luận Văn - Báo Cáo

Trích chọn tự động quan hệ phương thức từ văn bản tiếng Việt dựa trên thuật toán SVM và thử nghiệm đánh giá

48 364 2

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 48
Dung lượng 372,75 KB

Nội dung

i ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Chu Thị Thủy TRÍCH CHỌN TỰ ĐỘNG QUAN HỆ PHƯƠNG THỨC TỪ VĂN BẢN TIẾNG VIỆT DỰA TRÊN THUẬT TOÁN SVM VÀ THỬ NGHIỆM ĐÁNH GIÁ KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY Ngành: Công nghệ Thông tin Hà Nội - 2011 ii ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Chu Thị Thủy TRÍCH CHỌN TỰ ĐỘNG QUAN HỆ PHƯƠNG THỨC TỪ VĂN BẢN TIẾNG VIỆT DỰA TRÊN THUẬT TOÁN SVM VÀ THỬ NGHIỆM ĐÁNH GIÁ KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY Ngành: Công nghệ Thông tin Cán bộ hướng dẫn: PGS.TS Hà Quang Thuỵ Cán bộ đồng hướng dẫn: ThS. Nguyễn Thu Trang Hà Nội - 2011 i Lời cảm ơn Trước tiên, tôi xin gửi lời cảm ơn và lòng biết ơn sâu sắc nhất tới Phó Giáo sư Tiến sĩ Hà Quang Thụy và Thạc sỹ Nguyễn Thu Trang, người đã tận tình chỉ bảo và hướng dẫn tôi trong suốt quá trình thực hiện khoá luận tốt nghiệp. Tôi chân thành cảm ơn các thầy, cô đã tạo những điều kiện thuận lợi cho tôi học tập, nghiên cứu tại trường Đại Học Công Nghệ và sự hỗ trợ từ đề tài QG.10.38. Tôi cũng xin gửi lời cảm ơn tới các anh chị và các bạn sinh viên trong nhóm “Khai phá dữ liệu” SIS-KTLab đã giúp tôi rất nhiều trong việc hỗ trợ kiến thức chuyên môn để hoàn thành tốt khoá luận. Cuối cùng, tôi muốn gửi lời cảm vô hạn tới gia đình và bạn bè, những người thân yêu luôn bên cạnh và động viên tôi trong suốt quá trình thực hiện khóa luận tốt nghiệp. Tôi xin chân thành cảm ơn! Sinh viên Chu Thị Thủy ii Tóm tắt Trích chọn các mối quan hệ ngữ nghĩa từ văn bản ngày càng trở nên quan trọng đối với các ứng dụng như hệ thống hỏi đáp, trích chọn thông tin, tóm tắt văn bản và hiểu văn bản. Khóa luận này đề xuất một phương pháp để tự động trích chọn quan hệ phương thức từ văn bản dựa trên học máy SVM. Đưa ra một tập các ký hiệu liên quan tới quan hệ phương thức, bao gồm DOMAIN và RANGE. Phân tích sự gắn kết của quan hệ phương thức với những quan hệ khác. Đồng thời, chúng tôi cũng trình bày các mẫu từ vựng – cú pháp cơ bản biểu diễn quan hệ phương thức. Một tập các đặc trưng riêng được trích chọn làm tăng độ chính xác và tính khả thi của mô hình. Thực nghiệm bước đầu trên tập dữ liệu tiếng Việt gồm khoảng 300 câu chứa/không chứa quan hệ phương thức cho thấy phương pháp đề xuất đạt được một kết quả nhất định: độ đo F trong khoảng 60 - 70%. Dựa vào đó, chúng tôi nhận thấy phương pháp trích chọn quan hệ phương thức đã đề xuất và triển khai là khả quan. iii Lời cam đoan Tôi cam đoan trích chọn tự động quan hệ phương thức từ văn bản tiếng Việt dựa trên thuật toán SVM và thử nghiệm đánh giá được trình bày trong khóa luận này do tôi thực hiện dưới sự hướng dẫn của PGS. TS. Hà Quang Thụy và ThS. Nguyễn Thu Trang. Tất cả những tham khảo từ các nghiên cứu liên quan đều được nêu nguồn gốc một cách rõ ràng từ danh mục tài liệu tham khảo trong khóa luận. Trong khóa luận, không có việc sao chép tài liệu, công trình nghiên cứu của người khác mà không chỉ rõ về tài liệu tham khảo. iv Mục lục Tóm tắt ii Lời cam đoan iii Mục lục iv Danh sách các bảng vi Danh sách các hình vẽ vii Danh sách các hình vẽ vii Danh sách các chữ viết tắt viii Danh sách các chữ viết tắt viii Mở đầu 1 CHƯƠNG 1. GIỚI THIỆU BÀI TOÁN TRÍCH CHỌN QUAN HỆ PHƯƠNG THỨC 4 1.1 Khái niệm Quan hệ phương thức 4 1.2 Bài toán Trích chọn quan hệ phương thức 5 1.3 Một số ký hiệu 7 1.4 Sự gắn kết của quan hệ phương thức với những quan hệ khác 9 CHƯƠNG 2. PHƯƠNG PHÁP TRÍCH CHỌN QUAN HỆ PHƯƠNG THỨC 11 2.1 Các mẫu từ vựng – cú pháp biểu diễn quan hệ phương thức 11 2.1.1 Các mẫu từ vựng – cú pháp cơ bản 11 2.1.2 Nhập nhằng trong các mẫu từ vựng – cú pháp 15 2.2 Hướng tiếp cận giải quyết vấn đề 15 2.2.1 Mô hình phân lớp SVM nhị phân 15 2.2.2 Trích chọn đặc trưng 19 2.2.3 Quan hệ phương thức trong tiếng Việt 22 CHƯƠNG 3. MÔ HÌNH GIẢI QUYẾT BÀI TOÁN TRÍCH CHỌN QUAN HỆ PHƯƠNG THỨC TỪ VĂN BẢN TIẾNG VIỆT 24 CHƯƠNG 4. THỰC NGHIỆM VÀ ĐÁNH GIÁ 28 4.1 Mô tả thực nghiệm 28 4.1.1 Môi trường thực nghiệm 28 4.1.2 Chun bị dữ liệu 29 v 4.1.3 Quá trình thực nghiệm 29 4.2 Kết quả thực nghiệm và Đánh giá 30 4.2.1 Kết quả thực nghiệm 30 4.2.2 Phân tích lỗi 32 4.2.3 Kết hợp với trích chọn các quan hệ khác 32 Kết luận 34 Phụ lục: Ví dụ 25 câu thuộc tập dữ liệu huấn luyện 35 Tài liệu tham khảo 37 vi Danh sách các bảng Bảng 1. Phân tích các lớp ngữ nghĩa được sử dụng trong định nghĩa domain(mnr) và range(mnr) 8 Bảng 2. Các mẫu cú pháp biểu diễn quan hệ phương thức trong propbank, số câu xuất hiện và ví dụ (khảo sát với 7852/8037 câu chứa quan hệ phương thức trong propbank). Trong tất cả các ví dụ về mnr(x,y), x đã được in đậm. 12 Bảng 3. Ví dụ về nốt cha thuộc phân cấp trên trong cây cú pháp của những cụm trạng từ và cụm giới từ. Trong tất cả các ví dụ về mnr(x,y), x đã được in đậm. 13 Bảng 4. Các đặc trưng của cụm trạng từ 19 Bảng 5. Các đặc trưng của cụm giới từ 20 Bảng 6. Một số nhãn từ loại trong jvntextpro 26 Bảng 7. Cấu hình phần cứng sử dụng trong thực nghiệm 28 Bảng 8. Một số phần mềm sử dụng 28 Bảng 9. Đặc trưng cụm trạng từ/cụm giới từ 29 vii Danh sách các hình vẽ Hình 1. Quá trình trích chọn các mối quan hệ ngữ nghĩa [4] 6 Hình 2. Kiến trúc cơ bản của bộ phân tích ngữ nghĩa [4] 7 Hình 3. Mô hình máy vector hỗ trợ khả tách tuyến tính 16 Hình 4. Phương pháp lề mềm 18 Hình 5. Mô hình trích chọn quan hệ phương thức từ văn bản tiếng việt 25 viii Danh sách các chữ viết tắt SVM Support Vector Machines POS Part – Of – Speech NE Named Entities ntao Non Temporal Abstract Objects MNR Manner CAU Cause-Effect LOC Location [...]... trình bày mô hình phân lớp SVM và giới thiệu một tập các đặc trưng để trích chọn quan hệ phương thức Chương 3: Mô hình giải quyết bài toán Từ lý thuyết chương 2, chương 3 này đưa ra mô hình đề xuất để giải quyết bài toán trích chọn quan hệ phương thức và các bước tiến hành trích chọn, tập các đầu vào và đầu ra của hệ thống 2 Chương 4: Thực nghiệm và đánh giá Mô tả thực nghiệm từ quá trình chuNn bị dữ... HÌNH GIẢI QUYẾT BÀI TOÁN TRÍCH CHỌN QUAN HỆ PHƯƠNG THỨC TỪ VĂN BẢN TIẾNG VIỆT Qua quá trình khảo sát phương pháp trích chọn quan hệ phương thức của tác giả Eduardo Blanco và Dan Moldovan (2010) [2], Girju và cộng sự (2003) [3], và dựa trên những điều kiện thực tế về tài nguyên ngôn ngữ học, các kĩ thuật học máy xử lý ngôn ngữ tự nhiên cũng như các đặc trưng riêng của ngôn ngữ tiếng Việt Chúng tôi xin... verb-pas:no} và đây là một ví dụ dương 2.2.3 Quan hệ phương thức trong tiếng Việt Cụm trạng từ/ cụm giới từ là các mẫu cơ bản biểu diễn quan hệ phương thức [2] Dưới đây là một số đặc điểm của những cụm từ này trong tiếng Việt: Cụm trạng từ (hay còn gọi là phó từ) là những từ dùng để bổ nghĩa cho động từ, tính từ, một trạng từ khác hay cho cả câu Trạng từ có thể được phân làm nhiều loại tùy vào vị trí và ý nghĩa... bị động không? Xét đặc trưng thứ 3 và 4, đếm số các cụm giới từ ngang hàng trước và sau cụm giới từ đang xét Bởi vì cụm giới từ thường được sắp xếp theo thứ tự quan hệ phương thức, quan hệ địa điểm, quan hệ thời gian [12] Xét đặc trưng thứ 12, cụm giới từ có dấu ngoặc kép có nhiều khả năng biểu diễn quan hệ phương thức hơn, phân đoạn text giữa các dấu ngoặc kép để trích chọn được cụm từ chỉ quan hệ phương. .. như DOMAIN, RANGE; và sự gắn kết của quan hệ phương thức với những quan hệ khác như quan hệ địa điểm (AT-LOCATION), quan hệ thời gian (ATTIME) Chương 2: Phương pháp trích chọn quan hệ phương thức Đây là chương trình bày tất cả các mẫu từ vựng – cú pháp cơ bản nhất để biểu diễn quan hệ phương thức Đồng thời, cũng phân tích sự nhập nhằng trong các mẫu này và một số phương pháp để tránh sự nhập nhằng đó... thời, SVM có khả năng phân lớp dự đoán với sai số ước lượng rất thấp Nội dung của khoá luận được chia thành các chương như sau: Chương 1: Giới thiệu bài toán trích chọn quan hệ phương thức Chương này trình bày khái quát về quan hệ phương thức và bài toán trích chọn quan hệ phương thức Ngoài ra, cũng đề cập tới một số các ký hiệu xuất hiện trong khái niệm về quan hệ phương thức như DOMAIN, RANGE; và sự... vị văn bản đơn giản như là các từ, tới một cấu trúc phức tạp hơn như là một mệnh đề danh từ phức tạp Một số quan hệ ngữ nghĩa quan trọng nhất trong ngôn ngữ tự nhiên là quan hệ tổng quát – cụ thể (IS-A), quan hệ tổng thể – bộ phận (WHOLEPART), quan hệ phương thức (MANNER), quan hệ nguyên nhân – kết quả (CAUSEEFFECT)… 1.1 Khái niệm Quan hệ phương thức Nói một cách chung nhất, quan hệ phương thức biểu... trạng từ/ cụm giới từ chỉ quan hệ phương thức Dữ liệu kiểm tra Extractor Tiền xử lý văn bản Quá trình học Quá trình phân lớp Hình 5 Mô hình trích chọn quan hệ phương thức từ văn bản tiếng Việt 25 - Bước 1: Chu n bị dữ liệu o Dữ liệu khoảng 300 câu chứa/không chứa quan hệ phương thức được dịch từ bộ corpus Brown [14] o Chia dữ liệu theo tỷ lệ 3:1, nghĩa là khoảng 225 câu trong tập dữ liệu huấn luyện và. .. diễn cách thức, nét đặc trưng, phương pháp thực hiện hoặc kiểu cách của một sự vật nào đó đã xảy ra [2] Theo WordNet4, quan hệ phương thức được định nghĩa như phương pháp thực hiện của hành động hoặc hành vi Theo PropBank annotation guidelines5, quan hệ phương thức là quan hệ được dùng để chỉ cách thức thực hiện một hành động và được xác định bằng trạng từ/ cụm trạng từ/ cụm giới từ Quan hệ phương thức nên... mới Đối với bài toán trích chọn quan hệ phương thức, chúng ta chỉ cần phân vào 2 lớp: một lớp là các cụm trạng từ/ cụm giới từ biểu diễn quan hệ phương thức, một lớp là các từ loại khác không biểu diễn quan hệ phương thức a Trường hợp khả tách tuyến tính Hình 3 Mô hình máy vector hỗ trợ khả tách tuyến tính Đầu vào của thuật toán là một tập dữ liệu huấn luyện, mỗi mẫu được đánh dấu rơi vào một trong hai . trình bày mô hình phân lớp SVM và giới thi u một tập các đặc trưng để trích chọn quan hệ phương thức. Chương 3: Mô hình giải quyết bài toán. Từ lý thuy t chương 2, chương 3 này đưa ra mô. Hà Nội - 2011 ii ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Chu Thị Thủy TRÍCH CHỌN TỰ ĐỘNG QUAN HỆ PHƯƠNG THỨC TỪ VĂN BẢN TIẾNG VIỆT DỰA TRÊN THUẬT TOÁN. viên trong nhóm “Khai phá dữ liệu” SIS-KTLab đã giúp tôi rất nhiều trong việc hỗ trợ kiến thức chuyên môn để hoàn thành tốt khoá luận. Cuối cùng, tôi muốn gửi lời cảm vô hạn tới gia đình và

Ngày đăng: 20/08/2014, 09:47

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
[4]. Roxana Girju. Semantic Relation Extraction and its Applications. Course Material. 20 th European Summer School in Logic, Language and Information (ESSLLI 2008), Freie und Hansestadt Hamburg, Germany, 4- 15 August 2008 Sách, tạp chí
Tiêu đề: Course Material. 20"th
[14]. W. N. Francis and H. Kucera (1964). A Standard Corpus of Present-Day Edited American English, for use with Digital Computers. Department of Linguistics, Brown University Providence, Rhode Island, USA.http://www.archive.org/details/BrownCorpus Sách, tạp chí
Tiêu đề: (1964)". A Standard Corpus of Present-Day Edited American English, for use with Digital Computers. "Department of Linguistics, Brown University Providence, Rhode Island, USA
Tác giả: W. N. Francis and H. Kucera
Năm: 1964
[15]. Nguyen Cam Tu. “JVnTextPro: A Java-based Vietnamese Text Processing Toolkit”. (2008) Sách, tạp chí
Tiêu đề: JVnTextPro: A Java-based Vietnamese Text Processing Toolkit”
[16]. Chih-Chung Chang and Chih-Jen Lin. LIBSVM – A library for Support Vector Machines. http://www.csie.ntu.edu.tw/~cjlin/libsvm/ Link
[1]. Chu Thị Thủy, Đào Minh Tùng, Hà Thị Oanh, Trần Phi Dũng (2011). Mô hình trích chọn quan hệ tương tác protein/gen dựa trên kỹ thuật bootstrapping và học máy SVM, Công trình SVNCKH, Trường ĐHCN năm 2011 Khác
[2]. Eduardo Blanco and Dan Moldovan. Automatic Discovery of Manner Relations and its Applications. Proceedings of the 2010 Conference on Empirical Methods in Natural Language Processing, pages 315-324 Khác
[3]. Roxana Girju, Manju Putcha and Dan Moldovan. Discovery of Manner Relations and their Applicability to Question Answering. Proceedings of the ACL 2003 Workshop on Multilingual summarization and question answering – Volume 12 Khác
[5]. M. Hearst. Automated Discovery of WordNet Relations, An Electronic Lexical Database and Some of its Applications. MIT Press, Cambridge MA, 1998 Khác
[6]. Daniel Gildea and Daniel Jurafsky. Automatic Labeling of Semantic Roles, Journal Computational Linguistics, Volume 28 Issue 3, September 2002 Khác
[7]. Ana-Maria Giuglea and Alessandro Moschitti. Semantic Role Labeling via FrameNet, VerbNet and PropBank. Proceeding ACL-44 Proceeding of the 21st International Conference on Computational Linguistics and the 44th annual meeting of the Association for Computational Linguistics Khác
[8]. Eduardo Blanco, Hakki C. Cankaya and Dan Moldovan. Composition of Semantic Relations: Model and Applications. Coling 2010, Poster Volume, pages 72-80, Beijing, August 2010 Khác
[9]. Hermann Helbig. Knowledge Representation and the Semantics of Natural Language. Springer – Verlag New York, Inc. Secaucus, NJ, USA, 2005 Khác
[10]. Corinna Cortes, Vladimir Vapnik (1995). Support-Vector Networks, Machine Learning, 20(3): 273-297 Khác
[12]. John A. Hawkins. The relative order of prepositional phrases in English Khác

HÌNH ẢNH LIÊN QUAN

Hình 1. Quá trình trích chọn các mối quan hệ ngữ nghĩa  [4] - Trích chọn tự động quan hệ phương thức từ văn bản tiếng Việt dựa trên thuật toán SVM và thử nghiệm đánh giá
Hình 1. Quá trình trích chọn các mối quan hệ ngữ nghĩa [4] (Trang 16)
Hình 2. Kiến trúc cơ bản của bộ phân tích ngữ nghĩa  [4] - Trích chọn tự động quan hệ phương thức từ văn bản tiếng Việt dựa trên thuật toán SVM và thử nghiệm đánh giá
Hình 2. Kiến trúc cơ bản của bộ phân tích ngữ nghĩa [4] (Trang 17)
Bảng  1.  Phân  tích  các  lớp  ngữ  nghĩa  được  sử  dụng  trong  định  nghĩa  DOMAIN(MNR) và RANGE(MNR) - Trích chọn tự động quan hệ phương thức từ văn bản tiếng Việt dựa trên thuật toán SVM và thử nghiệm đánh giá
ng 1. Phân tích các lớp ngữ nghĩa được sử dụng trong định nghĩa DOMAIN(MNR) và RANGE(MNR) (Trang 18)
Bảng 3. Ví dụ về nốt cha thuộc phân cấp trên trong cây cú pháp của những cụm  trạng từ và cụm giới từ - Trích chọn tự động quan hệ phương thức từ văn bản tiếng Việt dựa trên thuật toán SVM và thử nghiệm đánh giá
Bảng 3. Ví dụ về nốt cha thuộc phân cấp trên trong cây cú pháp của những cụm trạng từ và cụm giới từ (Trang 23)
Hình 3. Mô hình máy vector hỗ trợ khả tách tuyến tính - Trích chọn tự động quan hệ phương thức từ văn bản tiếng Việt dựa trên thuật toán SVM và thử nghiệm đánh giá
Hình 3. Mô hình máy vector hỗ trợ khả tách tuyến tính (Trang 26)
Hình 4. Phương pháp lề mềm - Trích chọn tự động quan hệ phương thức từ văn bản tiếng Việt dựa trên thuật toán SVM và thử nghiệm đánh giá
Hình 4. Phương pháp lề mềm (Trang 28)
Bảng 4. Các đặc trưng của cụm trạng từ  STT  Đặc trưng  Giá trị  Giải thích - Trích chọn tự động quan hệ phương thức từ văn bản tiếng Việt dựa trên thuật toán SVM và thử nghiệm đánh giá
Bảng 4. Các đặc trưng của cụm trạng từ STT Đặc trưng Giá trị Giải thích (Trang 29)
Bảng 5. Các đặc trưng của cụm giới từ  STT  Đặc trưng  Giá trị  Giải thích - Trích chọn tự động quan hệ phương thức từ văn bản tiếng Việt dựa trên thuật toán SVM và thử nghiệm đánh giá
Bảng 5. Các đặc trưng của cụm giới từ STT Đặc trưng Giá trị Giải thích (Trang 30)
Hình 5. Mô hình trích chọn quan hệ phương thức từ văn bản tiếng Việt - Trích chọn tự động quan hệ phương thức từ văn bản tiếng Việt dựa trên thuật toán SVM và thử nghiệm đánh giá
Hình 5. Mô hình trích chọn quan hệ phương thức từ văn bản tiếng Việt (Trang 35)
Bảng 6. Một số nhãn từ loại trong JVnTextPro - Trích chọn tự động quan hệ phương thức từ văn bản tiếng Việt dựa trên thuật toán SVM và thử nghiệm đánh giá
Bảng 6. Một số nhãn từ loại trong JVnTextPro (Trang 36)
Bảng 8. Một số phần mềm sử dụng  STT  Tên phần - Trích chọn tự động quan hệ phương thức từ văn bản tiếng Việt dựa trên thuật toán SVM và thử nghiệm đánh giá
Bảng 8. Một số phần mềm sử dụng STT Tên phần (Trang 38)
Bảng 7. Cấu hình phần cứng sử dụng trong thực nghiệm - Trích chọn tự động quan hệ phương thức từ văn bản tiếng Việt dựa trên thuật toán SVM và thử nghiệm đánh giá
Bảng 7. Cấu hình phần cứng sử dụng trong thực nghiệm (Trang 38)
Bảng 9. Đặc trưng cụm trạng từ - Trích chọn tự động quan hệ phương thức từ văn bản tiếng Việt dựa trên thuật toán SVM và thử nghiệm đánh giá
Bảng 9. Đặc trưng cụm trạng từ (Trang 39)
Bảng 10. Đặc trưng cụm giới từ  STT  Miêu tả đặc trưng - Trích chọn tự động quan hệ phương thức từ văn bản tiếng Việt dựa trên thuật toán SVM và thử nghiệm đánh giá
Bảng 10. Đặc trưng cụm giới từ STT Miêu tả đặc trưng (Trang 40)
Bảng 11. Kết quả đạt được với 92 câu dữ liệu - Trích chọn tự động quan hệ phương thức từ văn bản tiếng Việt dựa trên thuật toán SVM và thử nghiệm đánh giá
Bảng 11. Kết quả đạt được với 92 câu dữ liệu (Trang 41)

TỪ KHÓA LIÊN QUAN

TRÍCH ĐOẠN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w