1. Trang chủ
  2. » Luận Văn - Báo Cáo

Giải quyết bài toán đồng tham chiếu trong văn bản tiếng Việt dựa vào phương pháp máy hỗ trợ vector SVM

55 663 3

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 55
Dung lượng 486,53 KB

Nội dung

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Lê Đức Trọng GIẢI QUYẾT BÀI TOÁN ĐỒNG THAM CHIẾU TRONG VĂN BẢN TIẾNG VIỆT DỰA VÀO PHƯƠNG PHÁP MÁY VECTOR HỖ TRỢ SVM KHÓA LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY Ngành: Công nghệ thông tin HÀ NỘI – 2011 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Lê Đức Trọng GIẢI QUYẾT BÀI TOÁN ĐỒNG THAM CHIẾU TRONG VĂN BẢN TIẾNG VIỆT DỰA VÀO PHƯƠNG PHÁP MÁY VECTOR HỖ TRỢ SVM KHÓA LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY Ngành: Công nghệ thông tin Cán bộ hướng dẫn: TS. Nguyễn Trí Thành Cán bộ đồng hướng dẫn: ThS. Trần Mai Vũ HÀ NỘI - 2011 Lời cảm ơn Lời đầu tiên, tôi xin gửi lời cảm ơn và lòng biết ơn sâu sắc nhất tới Phó Giáo sư Tiến sĩ Hà Quang Thụy, Tiến sĩ Nguyễn Trí Thành, Thạc sỹ Trần Mai Vũ đã tận tình hướng dẫn, giúp đỡ tôi trong suốt quá trình thực hiện khóa luận tốt nghiệp này. Tôi xin chân thành cảm ơn các thầy, cô đã tạo cho tôi những điều kiện thuận lợi để tôi học tập, rèn luyện và nghiên cứu tại trường Đại học Công nghệ. Tôi cũng xin gửi lời cảm ơn tới các anh chị và các bạn sinh viên tại phòng thí nghiệm KT-Sislab, các bạn trong nhóm nghiên cứu khoa học đã giúp đỡ, hỗ trợ tôi trong quá trình thu thập dữ liệu và thực nghiệm mô hình. Đồng thời tôi xin gửi lời cảm ơn đề tài QG 10.38 đã hỗ trợ tôi trong quá trình hoàn thành khóa luận này. Tôi gửi lời cảm ơn tới các bạn trong lớp K52CA và K52CHTTT đã ủng hộ, khích lệ, giúp đỡ và luôn sát cánh bên tôi trong suốt quá trình học tập, rèn luyện tại trường Và cuối cùng, tôi xin gửi lời cảm ơn vô hạn tới gia đình, người thân và bạn bè – những người luôn ở bên tôi những lúc khó khăn nhất, luôn động viên tôi, khuyến khích tôi trong cuộc sống cũng như học tập, công việc. Tôi xin chân thành cảm ơn ! Sinh viên Lê Đức Trọng Lời cam đoan Tôi xin cam đoan mô hình đề xuất giải quyết bài toán đồng tham chiếu trong văn bản tiếng Việt và thực nghiệm được trình bày trong khóa luận này do tôi thực hiện dưới sự hướng dẫn của Tiến sĩ Nguyễn Trí Thành và Thạc sỹ Trần Mai Vũ. Tất cả những tham khảo từ các nghiên cứu liên quan đều được nêu nguồn gốc một cách rõ ràng từ danh mục tài liệu tham khảo trong khóa luận. Khóa luận không sao chép tài liệu, công trình nghiên cứu của người khác mà không chỉ rõ về mặt tài liệu tham khảo. Các kết quả thực nghiệm của khóa luận đều được tiến hành thực nghiệm và thống kê từ kết quả thực thế. Sinh viên Lê Đức Trọng Tóm tắt Bài toán đồng tham chiếu trong văn bản là bài toán xác định các cụm từ (ngữ danh từ hoặc đại từ) trong một tài liệu cùng chỉ tới một thực thể xác định trong thế giới thực và gom nhóm các cụm từ này thành các chuỗi đồng tham chiếu [6] . Đây là một vấn đề khó của lĩnh vực xử lý ngôn ngữ tự nhiên [16], nhận được sự quan tâm rất lớn từ các nhà nhiên cứu cũng như các hội nghị lớn trên thế giới. Tại Việt Nam, bài toán này vẫn đặt ra nhiều thách thức do tính phức tạp của ngôn ngữ tiếng Việt và sự không đầy đủ các nguồn tài nguyên ngôn ngữ học chuNn. Tuy nhiên, nó là một bài toán có tiềm năng khai thác cho nguồn dữ liệu tiếng Việt, cần được tìm hiểu và nghiên cứu. Dựa trên cơ sở những đặc trưng của miền dữ liệu tiếng Việt, dựa trên tính mới, tính chính xác của các phương pháp tiếp cận giải quyết, khóa luận chọn hướng tiếp cận sử dụng phương pháp máy vector hỗ trợ SVM để giải quyết bài toán đồng tham chiếu trong văn bản tiếng Việt. Ý tưởng của hướng tiếp cận là ghép cặp các cụm từ tiềm năng, mỗi cụm từ thể hiện cho một quan hệ, mỗi quan hệ được biểu diễn bởi một vector đặc trưng. Sau đó được đưa vào bộ phân lớp SVM để xác định tính chất đồng tham chiếu, từ đó gom nhóm các cụm từ đồng tham chiếu với nhau. Khóa luận sử dụng nguồn dữ liệu là nội dung các bài báo được tải tự động và bóc tách nội dung chính từ chuyên mục Văn hóa – xã hội của báo điện tử Vnexpress.net để xây dựng dữ liệu học cho mô hình đề xuất. Kết quả phần thực nghiệm bước đầu trên mô hình đề xuất đạt độ chính xác 76,51 %. Trong khi đó độ chính xác trên mô hình cơ sở là 73.79 % với các đặc trưng tương đương. Điều này khẳng định mô hình là khả thi và có khả năng ứng dụng thực tế. Lời mở đầu 1 Chương 1: Khái quát về bài toán đồng tham chiếu trong văn bản 3 1.1. Quan hệ đồng tham chiếu 3 1.1.1. Khái niệm 3 1.1.2. Các thành phần trong quan hệ đồng tham chiếu thường gặp 3 1.1.3. Phân loại các quan hệ đồng tham chiếu 4 1.2. Bài toán đồng tham chiếu trong văn bản 5 1.3. Ứng dụng 6 1.4. Khó khăn và thách thức 7 Tóm tắt chương một 8 Chương 2: Một số hướng tiếp cận giải quyết bài toán đồng tham chiếu trong văn bản 9 2.1. Phương pháp học không giám sát 9 2.1.1 Phương pháp xếp hạng 9 2.1.2 Phương pháp gom cụm 11 2.2 Phương pháp học giám sát 15 2.2.1 Phương pháp cây quyết định C4.5 15 2.2.2 Phương pháp máy vector hỗ trợ (SVM) 17 2.3. Nhận xét 21 Tóm tắt chương hai 21 Chương 3. Giải quyết bài toán đồng tham chiếu trong văn bản tiếng Việt dựa vào phương pháp máy vector hỗ trợ 22 3.1. Đặc trưng của văn bản tiếng Việt 22 3.1.1. Đặc trưng từ trong tiếng Việt 22 3.1.2. Đặc trưng về tên người trong tiếng Việt 23 3.1.3. Đặc trưng về quan hệ ngữ nghĩa 24 3.2. Phát biểu bài toán đồng tham chiếu trong văn bản tiếng Việt 25 3.2.1. Phát biểu bài toán 25 3.2.2. Ý tưởng giải quyết bài toán 25 3.3. Mô hình trích chọn quan hệ đồng tham chiếu trong văn bản tiếng Việt dựa vào phương pháp máy vector hỗ trợ 26 3.3.1. Xây dựng bộ dữ liệu học 26 3.3.2. Mô hình trích chọn quan hệ đồng tham chiếu trong văn bản tiếng Việt 29 Tóm tắt chương 3 34 Chương 4: Thực nghiệm và đánh giá 35 4.1. Môi trường thực nghiệm 35 4.1.1. Cấu hình sử dụng 35 4.1.2. Công cụ phần mền 35 4.2. Dữ liệu thực nghiệm 36 4.3. Thực nghiệm 36 4.3.1. Mô tả cài đặt chương trình 36 4.3.2. Xây dựng bộ dữ liệu học 36 4.3.3. Xây dựng bộ phân lớp 40 4.4. Đánh giá, so sánh 40 4.4.1. Đánh giá hệ thống 40 4.4.2. Phương pháp đánh giá 40 4.4.3. Kết quả thực nghiệm 41 4.5. Nhận xét 42 Kết luận 44 Tài liệu tham khảo 45 Danh sách các hình vẽ Hình 1: Mô hình chung giải quyết bài toán đồng tham chiếu 6 Hình 2: Một ví dụ về cây quyết định 15 Hình 3: Mô hình thu thập dữ liệu thô cho việc xây dựng bộ dữ liệu học 27 Hình 4: Văn bản tải về dạng html 28 Hình 5 : Mô hình xây dựng bộ dữ liệu học 28 Hình 6: Mô hình trích chọn quan hệ đồng tham chiếu trong văn bản tiếng Việt 29 Hình 7: Ví dụ về dữ liệu gán nhãn 37 Hình 8: Một ví dụ về sinh vector đặc trưng 39 Hình 9: Kết quả độ đo chính xác của hai mô hình thực nghiệm trên 10 văn bản 41 Hình 10: Kết quả độ đo hồi tưởng của hai mô hình thực nghiệm trên 10 văn bản 42 Hình 11: Kết quả độ đo F1 của hai mô hình thực nghiệm trên 10 văn bản 42 Danh sách các bảng Bảng 1: Hàm bất tương hợp (incompatibility) và các trọng số đặc trưng tương ứng trong ma trận khoảng cách 13 Bảng 2: Đặc trưng mô tả ứng viên tiền ngữ 18 Bảng 3: Đặc trưng mô tả cụm từ đang xét 18 Bảng 4: Đặc trưng mô tả mối quan hệ giữa tiền ngữ ứng viên và cụm từ đang xét 18 Bảng 5: Đặc trưng thêm mô tả mối quan hệ giữa tiền ngữ ứng viên và cụm từ đang xét 20 Bảng 6: Bảng đặc trưng của cụm từ NP1 32 Bảng 7: Bảng đặc trưng của cụm từ NP2 32 Bảng 8: Bảng đặc trưng mô tả quan hệ giữa NP1 và NP2 33 Bảng 9: Cấu hình phần cứng 35 Bảng 10: Danh sách các phần mềm sử dụng 35 Bảng 11: Độ chính xác trung bình của hai mô hình theo LibSVM và thực nghiệm thực tế trên 10 văn bản 41 Bảng các kí hiệu viết tắt Từ hoặc cụm từ Kí hiệu viết tắt Vietname semantic web VSW Name entity recognition NER Part-of-speech tagging POS-tagging Support vector machines SVM A library for Support Vector Machines LibSVM 1 Lời mở đầu Bài toán đồng tham chiếu trong văn bản là bài toán xác định các cụm từ (ngữ danh từ hoặc đại từ) trong một tài liệu cùng chỉ tới một thực thể xác định trong thế giới thực và gom nhóm các cụm từ này thành các chuỗi đồng tham chiếu [6]. Đây là một vấn đề khó trong lĩnh vực xử lý ngôn ngữ tự nhiên [16], nhận được nhiều sự quan tâm của các nhà nghiên cứu, các hội nghị lớn trên thế giới như: ACL (Association for Computational Linguistics ), IJCAI (International Joint Conference on Artifical intelligence) Nếu một phương pháp giải quyết được đề xuất cho kết quả tốt thì nhiều bài toán khác như: Hệ thống hỏi đáp, trích chọn quan hệ, nhận dạng thực thể, tóm tắt văn bản [20], tự động sinh các biểu diễn tương đương của đoạn văn bản [4] … sẽ được cải thiện về chất lượng một cách đáng kể. Xuất phát từ lý do đó và mong muốn nâng cao chất lượng đề tài nghiên cứu khoa học sinh viên 2010 – 2011 là “Hệ thống hỏi đáp thực thể tên người cho tiếng Việt”, khóa luận chọn bài toán đồng tham chiếu trong văn bản tiếng Việt làm nội dung tập trung nghiên cứu và xây dựng mô hình giải quyết. Bài toán đồng tham chiếu trong văn bản ra đời từ những năm 60-70 của thế kỉ trước [21], các phương pháp tiếp cận ban đầu chủ yếu dựa trên các phương pháp tiếp cận kinh nghiệm. Cho tới nay có rất nhiều phương pháp tiếp cận khác nhau đã được đề xuất để giải quyết bài toán. Tuy nhiên, nổi bật hơn là các phương pháp dựa trên hướng tiếp cận học máy không giám sát và học máy giám sát. Những công trình này mang tính ứng dụng cao, đang ngày càng được cải tiến cho hiệu quả tốt hơn. Khóa luận này giới thiệu một số phương pháp tiếp cận giải quyết điển hình như: phương pháp xếp hạng, phương pháp gom cụm, phương pháp cây quyết định và phương pháp máy vector hỗ trợ (SVM). Trong những phương pháp đó, phương pháp máy vector hỗ trợ là phương pháp mới (2005) cho kết quả khả quan (độ chính xác đạt 69.2%). Vì vậy chúng tôi sử dụng phương pháp này cho việc giải quyết bài toán đồng tham chiếu trong văn bản tiếng Việt, cụ thể hơn là xây dựng mô hình trích chọn quan hệ đồng tham chiếu trong văn bản tiếng Việt. Kết quả thực nghiệm bước đầu cho thấy mô hình phù hợp với miền dữ liệu tiếng Việt và có khả năng ứng dụng tốt. Nội dung của khóa luận bao gồm có 4 chương: Chương 1: Giới thiệu khái quát về bài toán đồng tham chiếu cũng như các khái niệm liên quan Chương 2: Giới thiệu một số phương pháp tiếp cận giải quyết bài toán đồng tham chiếu bao gồm hai phương pháp học máy không giám sát và hai phương pháp học máy có giám sát. Đây là cơ sở lý thuyết, phương pháp luận quan trọng để khóa [...]... chiếu trong văn bản và hướng tiếp cận giải quyết tương ứng 8 Chương 2: Một số hướng tiếp cận giải quyết bài toán đồng tham chiếu trong văn bản Có nhiều phương pháp giải quyết bài toán đồng tham chiếu trong văn bản Trong chương này, khóa luận giới thiệu một số hướng tiếp cận giải quyết bài toán đồng tham chiếu trong văn bản bao gồm hai phương pháp học máy không giám sát và hai phương pháp học máy có... trưng để giải quyết bài toán này Mô hình trích chọn quan hệ đồng tham chiếu trong văn bản tiếng Việt sẽ được trình bày chi tiết trong chương thứ tư 21 Chương 3 Giải quyết bài toán đồng tham chiếu trong văn bản tiếng Việt dựa vào phương pháp máy vector hỗ trợ Trên cơ sở giới thiệu và phân tích các ưu nhược điểm của các phương pháp giải quyết bài toán đồng tham chiếu, khóa luận đã chọn phương pháp học... áp dụng mô hình học máy để xác định các nhóm đồng tham chiếu 3.3 Mô hình trích chọn quan hệ đồng tham chiếu trong văn bản tiếng Việt dựa vào phương pháp máy vector hỗ trợ Dựa trên ý tưởng trình bày ở phần trước, mô hình trích chọn đồng tham chiếu trong văn bản tiếng Việt dựa vào phương pháp máy vector hỗ trợ sử dụng một bộ phân lớp để nhận dạng các cặp cụm từ có quan hệ đồng tham chiếu Tuy nhiên, để... hệ đồng tham chiếu trong văn bản tiếng Việt ở trong chương 4 Chương 3: Trên cơ sở những phương pháp tiếp cận trình bày ở chương 2 và thông qua khảo sát miền dữ liệu văn bản tiếng Việt, khóa luận đã lựa chọn phương pháp máy vector hỗ trợ (SVM) là cơ sở của việc giải quyết bài toán đồng tham chiếu trong tiếng Việt Nội dung chính của chương này trình bày một số đặc trưng của văn bản tiếng Việt, bài toán. .. chọn phương pháp này để xây dựng mô hình giải quyết bài toán đồng tham chiếu trong văn bản tiếng Việt, cụ thể hơn là mô hình trích chọn quan hệ đồng tham chiếu trong văn bản tiếng Việt ở chương bốn của khóa luận Tóm tắt chương hai Trong chương này đã giới thiệu một số phương pháp giải quyết bài toán đồng tham chiếu trong văn bản điển hình, chỉ ra những ưu nhược điểm và lý do lựa chọn phương pháp dựa. .. nhất, trong chương này khóa luận nghiên cứu, trình bày một số đặc trưng trong văn bản tiếng Việt, phát biểu bài toán đồng tham chiếu trong văn bản tiếng Việt và mô hình trích chọn quan hệ đồng tham chiếu trong văn bản tiếng Việt dựa trên phương pháp máy vector hỗ trợ SVM 3.1 Đặc trưng của văn bản tiếng Việt Văn bản tiếng Việt không chỉ bao gồm những đặc trưng về quan hệ ngữ nghĩa giống thông thường giống... luận Đồng thời đưa ra những hạn chế, những điểm cần khắc phục và đưa ra định hướng nghiên cứu trong thời gian sắp tới 2 Chương 1: Khái quát về bài toán đồng tham chiếu trong văn bản Nội dung chính của khóa luận là đề xuất một mô hình giải quyết bài toán đồng tham chiếu trong văn bản tiếng Việt, cụ thể hơn là mô hình trích chọn quan hệ đồng tham chiếu trong văn bản tiếng Việt dựa vào phương pháp máy vector. .. của quan hệ đồng tham chiếu giữa các cụm từ NPi [9]: - Tính chất bắc cầu: Nếu NP1, NP2 là đồng tham chiếu; NP2, NP3 là đồng tham chiếu thì NP1, NP3 là đồng tham chiếu - 1.2 Tính chất đối xứng: NP1, NP2 là đồng tham chiếu thì NP2, NP1 cũng là đồng tham chiếu Tính chất độc lập: Sự thể hiện của NP1 và NP2 độc lập nhau trong ngữ cảnh tương ứng Bài toán đồng tham chiếu trong văn bản Trong các văn bản, các... tương ứng với một vector đặc trưng • Tiến hành tạo bộ phân lớp nhị phân các quan hệ vào 2 lớp: lớp 1 tương ứng với cặp có quan hệ đồng tham chiếu, lớp 0 tương ứng với cặp không có quan hệ đồng tham chiếu • Nhóm các cặp có quan hệ đồng tham chiếu với nhau vào cùng một nhóm Mô hình giải quyết bài toán đồng tham chiếu, cụ thể là mô hình trích chọn quan hệ đồng tham chiếu trong văn bản tiếng Việt chia làm... hệ ngữ nghĩa trong đó một thực thể biểu diễn số lượng của một thực thể/ sự kiện nào đó Ví dụ: “Nhóm ba sinh viên” 3.2 Phát biểu bài toán đồng tham chiếu trong văn bản tiếng Việt 3.2.1 Phát biểu bài toán Bài toán đồng tham chiếu được Morton [13] và Denis [6] phát biểu ở chương 1, trong trường hợp này được viết lại như sau: Đầu vào: Văn bản tiếng Việt D Đầu ra: Các nhóm cụm từ đồng tham chiếu {NPi} 3.2.2 . thành khóa luận này. Tôi gửi lời cảm ơn tới các bạn trong lớp K52CA và K52CHTTT đã ủng hộ, khích lệ, giúp đỡ và luôn sát cánh bên tôi trong suốt quá trình học tập, rèn luyện tại trường . của NP1 và NP2 độc lập nhau trong ngữ cảnh tương ứng 1.2. Bài toán đồng tham chiếu trong văn bản Trong các văn bản, các cụm từ có quan hệ đồng tham chiếu nằm rải rác trong các câu, tạo nên sự. Tóm tắt Bài toán đồng tham chiếu trong văn bản là bài toán xác định các cụm từ (ngữ danh từ hoặc đại từ) trong một tài liệu cùng chỉ tới một thực thể xác định trong thế giới thực và gom nhóm

Ngày đăng: 20/08/2014, 09:47

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
[1] Hà Quang Thụy, Phan Xuân Hiếu, Đoàn Sơn, Nguyễn Trí Thành, Nguyễn Thu Trang, Nguyễn CNm Tú. Giáo trình khai phá dữ liệu Web. Nhà xuất bản giáo dục Việt Nam, 2009 Sách, tạp chí
Tiêu đề: Giáo trình khai phá dữ liệu Web
Nhà XB: Nhà xuất bản giáo dục Việt Nam
[3] Lê Thanh Hương: Một cách tiếp cận trong việc tự động sinh các biểu diễn tương đương của đoạn văn bản, Tạp chí Bưu chính viễn thông và Công nghệ thông tin, 10/2007Tiếng Anh Sách, tạp chí
Tiêu đề: Một cách tiếp cận trong việc tự động sinh các biểu diễn tương đương của đoạn văn bản
[4] C. Cardie, K. Wagstaff: Noun Phrase Coreference as Clustering, Empirical Methods in Natural Language Processing Conference (EMNLP 1999) Sách, tạp chí
Tiêu đề: Noun Phrase Coreference as Clustering
[5] Z Dzunic, S Momcilovic, B Todorovic: Coreference Resolution Using Decision Tree, Neural Network Applications in Electrical Engineering, 2006 [6] Pascal Denis, Jason Baldridge: A ranking approach to pronoun resolution.Proceedings of the 20th International Joint Conference on Artifical intelligence (IJCAI 2007) Sách, tạp chí
Tiêu đề: Coreference Resolution Using Decision Tree, "Neural Network Applications in Electrical Engineering, 2006 [6] Pascal Denis, Jason Baldridge: "A ranking approach to pronoun resolution
[7] T. Finley, T. Joachims: Supervised clustering with Support Vector Machines, Proceeding of the 22 nd International Conference on Machine Learning, Germany 2005 Sách, tạp chí
Tiêu đề: Supervised clustering with Support Vector Machines
[8] Iris Hendrickx, Su Nam Kim, Zornitsa Kozareva, Preslav Nakov, Diarmuid O Seaghdha,Sebastian Pado, Marco Pennacchiotti, Lorenza Romano and Stan Szpakowicz: Multi-Way Classification of Semantic Relations Between Pairs of Nominals. SEW, 2009 Sách, tạp chí
Tiêu đề: Multi-Way Classification of Semantic Relations Between Pairs of Nominals
[9] V´ronique Hoste: Manual for the Annotation of Coreferences in Dutch Newspaper Texts, 2005 Sách, tạp chí
Tiêu đề: Manual for the Annotation of Coreferences in Dutch Newspaper Texts
[10] Corina Roxana Girju: Text mining for semantic relations. PhD. Thesis. The University of Texas at Dallas, 2002 Sách, tạp chí
Tiêu đề: Text mining for semantic relations
[12] Ruslan Mitkov: Robust pronoun resolution with limited knowledge. The 17th international conference on Computational linguistics, COLING 1998 Sách, tạp chí
Tiêu đề: Robust pronoun resolution with limited knowl
[13] Thomas S. Morton: Coreference for NLP applications. Proceedings of the 38th Annual Meeting on Association for Computational Linguistics, 2000 [14] Thomas S. Mortan: Using coreference for question answering, In Proceedings of the 8th Text Retrieval Conference, 1999 Sách, tạp chí
Tiêu đề: Coreference for NLP applications". Proceedings of the 38th Annual Meeting on Association for Computational Linguistics, 2000 [14] Thomas S. Mortan: "Using coreference for question answering
[15] Vincent Ng. : Machine Learning for Coreference Resolution: From Local Classification to Global Ranking. Proceedings of the 43rd Annual Meeting of the Association for Computational Linguistics (ACL-05), 2005 Sách, tạp chí
Tiêu đề: Machine Learning for Coreference Resolution: From Local Classification to Global Ranking
[16] Vincent Ng: Supervised Noun Phrase Coreference Research: The First Fifteen Years. Proceedings of the 48th Annual Meeting of the Association for Computational Linguistics (ACL-10), 2010 Sách, tạp chí
Tiêu đề: Supervised Noun Phrase Coreference Research: The First Fifteen Years
[17] Altaf Rahman and Vincent Ng.:Supervised Models for Coreference Resolution. Proceedings of the 2009 Conference on Empirical Methods in Natural Language Processing (EMNLP-09), 2009 Sách, tạp chí
Tiêu đề: Supervised Models for Coreference Resolution
[18] Josef Steinberger, Massimo Poesio, Mijail A. Kabadjov, Karel Jezek: Two Uses of Anaphora Resolution in Summarization, Information Processing and Management: an International Journal , 2007 Sách, tạp chí
Tiêu đề: Two Uses of Anaphora Resolution in Summarization
[19] José Vicedo, Antonio Ferrández: Importance of pronominal anaphora resolution in question answering systems, ACL, 2000 Sách, tạp chí
Tiêu đề: Importance of pronominal anaphora resolution in question answering systems
[20] Yannick Versley, Simone Paolo Ponzetto, Massimo Poesio : BART: A Modular Toolkit for Coreference Resolution, LREC 2008 Sách, tạp chí
Tiêu đề: BART: A Modular Toolkit for Coreference Resolution
[21] Yang Xiaofeng: A twin-candidate model for learning based coreference resolution, Doctor thesis, NUS, 2005 Sách, tạp chí
Tiêu đề: A twin-candidate model for learning based coreference resolution
[22] Jaeyoung Yang, Heekuck Oh, Kyung-Goo Doh and Joongmin Choi A : Knowledge-Based Information Extraction System for Semi-structured Labeled Documents, Proceedings of the Third International Conference on Intelligent Data Engineering and Automated Learning, 2002 Sách, tạp chí
Tiêu đề: Knowledge-Based Information Extraction System for Semi-structured Labeled Documents
[11] Joseph F. Mccarthy: A trainable approach to coreference resolution for information extraction, 1996 Khác

HÌNH ẢNH LIÊN QUAN

Bảng các kí hiệu viết tắt - Giải quyết bài toán đồng tham chiếu trong văn bản tiếng Việt dựa vào phương pháp máy hỗ trợ vector SVM
Bảng c ác kí hiệu viết tắt (Trang 9)
Hình 1: Mô hình chung giải quyết bài toán đồng tham chiếu  1.3. Ứng dụng - Giải quyết bài toán đồng tham chiếu trong văn bản tiếng Việt dựa vào phương pháp máy hỗ trợ vector SVM
Hình 1 Mô hình chung giải quyết bài toán đồng tham chiếu 1.3. Ứng dụng (Trang 15)
Bảng 1: Hàm bất tương hợp (incompatibility) và các trọng số đặc  trưng tương ứng trong ma trận khoảng cách - Giải quyết bài toán đồng tham chiếu trong văn bản tiếng Việt dựa vào phương pháp máy hỗ trợ vector SVM
Bảng 1 Hàm bất tương hợp (incompatibility) và các trọng số đặc trưng tương ứng trong ma trận khoảng cách (Trang 22)
Hình 2: Một ví dụ về cây quyết định - Giải quyết bài toán đồng tham chiếu trong văn bản tiếng Việt dựa vào phương pháp máy hỗ trợ vector SVM
Hình 2 Một ví dụ về cây quyết định (Trang 24)
Bảng 2: Đặc trưng mô tả ứng viên tiền ngữ  PRONOUN_1  Y nếu m j  là một đại từ, ngược lại N - Giải quyết bài toán đồng tham chiếu trong văn bản tiếng Việt dựa vào phương pháp máy hỗ trợ vector SVM
Bảng 2 Đặc trưng mô tả ứng viên tiền ngữ PRONOUN_1 Y nếu m j là một đại từ, ngược lại N (Trang 27)
Hình 3: Mô hình thu thập dữ liệu thô cho việc xây dựng bộ dữ liệu học - Giải quyết bài toán đồng tham chiếu trong văn bản tiếng Việt dựa vào phương pháp máy hỗ trợ vector SVM
Hình 3 Mô hình thu thập dữ liệu thô cho việc xây dựng bộ dữ liệu học (Trang 36)
Hình 4: Văn bản tải về dạng html - Giải quyết bài toán đồng tham chiếu trong văn bản tiếng Việt dựa vào phương pháp máy hỗ trợ vector SVM
Hình 4 Văn bản tải về dạng html (Trang 37)
Hình 6: Mô hình trích chọn quan hệ đồng tham chiếu trong văn bản tiếng Việt - Giải quyết bài toán đồng tham chiếu trong văn bản tiếng Việt dựa vào phương pháp máy hỗ trợ vector SVM
Hình 6 Mô hình trích chọn quan hệ đồng tham chiếu trong văn bản tiếng Việt (Trang 38)
Bảng 6: Bảng đặc trưng của cụm từ NP1 - Giải quyết bài toán đồng tham chiếu trong văn bản tiếng Việt dựa vào phương pháp máy hỗ trợ vector SVM
Bảng 6 Bảng đặc trưng của cụm từ NP1 (Trang 41)
Bảng 8: Bảng đặc trưng mô tả quan hệ giữa NP1 và NP2 - Giải quyết bài toán đồng tham chiếu trong văn bản tiếng Việt dựa vào phương pháp máy hỗ trợ vector SVM
Bảng 8 Bảng đặc trưng mô tả quan hệ giữa NP1 và NP2 (Trang 42)
Bảng 9: Cấu hình phần cứng - Giải quyết bài toán đồng tham chiếu trong văn bản tiếng Việt dựa vào phương pháp máy hỗ trợ vector SVM
Bảng 9 Cấu hình phần cứng (Trang 44)
Bảng 10: Danh sách các phần mềm sử dụng - Giải quyết bài toán đồng tham chiếu trong văn bản tiếng Việt dựa vào phương pháp máy hỗ trợ vector SVM
Bảng 10 Danh sách các phần mềm sử dụng (Trang 44)
Bảng 11: Độ chính xác trung bình của hai mô hình theo LibSVM và thực  nghiệm thực tế trên 10 văn bản - Giải quyết bài toán đồng tham chiếu trong văn bản tiếng Việt dựa vào phương pháp máy hỗ trợ vector SVM
Bảng 11 Độ chính xác trung bình của hai mô hình theo LibSVM và thực nghiệm thực tế trên 10 văn bản (Trang 50)
Hình 10: Kết quả độ đo hồi tưởng của hai mô hình thực nghiệm trên 10 văn bản - Giải quyết bài toán đồng tham chiếu trong văn bản tiếng Việt dựa vào phương pháp máy hỗ trợ vector SVM
Hình 10 Kết quả độ đo hồi tưởng của hai mô hình thực nghiệm trên 10 văn bản (Trang 51)
Hình 11: Kết quả độ đo F1 của hai mô hình thực nghiệm trên 10 văn bản  4.5. Nhận xét - Giải quyết bài toán đồng tham chiếu trong văn bản tiếng Việt dựa vào phương pháp máy hỗ trợ vector SVM
Hình 11 Kết quả độ đo F1 của hai mô hình thực nghiệm trên 10 văn bản 4.5. Nhận xét (Trang 51)

TỪ KHÓA LIÊN QUAN

TRÍCH ĐOẠN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w