Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 68 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
68
Dung lượng
1,92 MB
Nội dung
ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Nguyễn Tiến Thanh TRÍCH CHỌN QUAN HỆ THỰC THỂ TRÊN WIKIPEDIA TIẾNG VIỆT DỰA VÀO CÂY PHÂN TÍCH CÚ PHÁP KHỐ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY Ngành: Công nghệ thông tin HÀ NỘI - 2010 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Nguyễn Tiến Thanh TRÍCH CHỌN QUAN HỆ THỰC THỂ TRÊN WIKIPEDIA TIẾNG VIỆT DỰA VÀO CÂY PHÂN TÍCH CÚ PHÁP KHỐ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY Ngành: Cơng nghệ thông tin Cán hướng dẫn: PGS.TS Hà Quang Thụy Cán đồng hướng dẫn: ThS Nguyễn Thu Trang HÀ NỘI - 2010 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com LỜI CẢM ƠN Lời đầu tiên, xin gửi lời cảm ơn lòng biết ơn sâu sắc tới PGS.TS Hà Quang Thụy, ThS Nguyễn Thu Trang, CN Trần Nam Khánh tận tình hướng dẫn tơi suốt q trình thực khố luận tốt nghiệp Tơi chân thành cảm ơn thầy, cô tạo cho điều kiện thuận lợi để học tập nghiên cứu trường Đại học Công Nghệ Tôi xin gửi lời cảm ơn tới ThS Trần Mai Vũ anh chị, bạn sinh viên phịng thí nghiệm KT-Sislab giúp tơi nhiều việc thu thập xử lý liệu Tôi xin gửi lời cảm ơn tới bạn lớp K51CA K51CHTTT ủng hộ khuyến khích tơi suốt q trình học tập trường Cuối cùng, tơi muốn gửi lời cảm ơn vơ hạn tới gia đình bạn bè, người thân yêu bên cạnh động viên tơi suốt q trình thực khóa luận tốt nghiệp Tơi xin chân thành cảm ơn ! Hà Nội, ngày 21 tháng 05 năm 2010 Sinh viên Nguyễn Tiến Thanh i LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Tóm tắt Trích chọn quan hệ ngữ nghĩa xem toán xử lý ngôn ngữ tự nhiên nhận quan tâm lớn từ nhà nghiên cứu, hội nghị lớn giới[1, 8, 40] Tại Việt Nam, toán đặt nhiều thách thức tính phức tạp ngơn ngữ tiếng Việt không đầy đủ tài nguyên ngôn ngữ học Trên sở phân tích ưu nhược điểm phương pháp trích chọn quan hệ, khóa luận áp dụng phương pháp trích chọn quan hệ dựa đặc trưng để giải toán Các đặc trưng biểu thị quan hệ trích chọn dựa phân tích cú pháp tiếng Việt, sau đưa vào phân lớp SVM tìm loại quan hệ tương ứng, từ trích chọn thể quan hệ Hơn nữa, nhằm giảm công sức cho giai đoạn xây dựng tập liệu học, khóa luận khai thác tính giàu cấu trúc liệu Wikipedia tiếng Việt để xây dựng tập liệu học bán tự động Kết thực nghiệm số loại quan hệ ban đầu cho thấy mơ hình trích chọn hệ thống cho độ đo F1 đạt 86,4% Điều khẳng định mơ hình khả quan, có khả ứng dụng thực tế ii LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com MỤC LỤC Lời cảm ơn i Tóm tắt ii Mục lục iii Danh sách bảng v Danh sách hình vẽ vi Danh sách từ viết tắt vii Mở đầu Chương Khái quát tốn trích chọn ngữ nghĩa 1.1 Quan hệ ngữ nghĩa 1.1.1 Khái niệm 1.1.2 Phân loại quan hệ ngữ nghĩa 1.2 Bài tốn trích chọn quan hệ ngữ nghĩa 1.3 Ứng dụng Tóm tắt chương Chương Một số hướng tiếp cận trích chọn quan hệ ngữ nghĩa 10 2.1 Học không giám sát trích chọn quan hệ 10 2.2 Học có giám sát trích chọn quan hệ 13 2.2.1 Link grammar 13 2.2.2 Phương pháp trích chọn dựa đặc trưng 16 2.2.3 Phương pháp trích chọn dựa hàm nhân 22 2.3 Học bán giám sát trích chọn quan hệ 24 2.3.1 DIRPE 24 2.3.2 Snowball 27 2.4 Nhận xét 29 Tóm tắt chương hai 29 Chương Mơ hình trích chọn quan hệ Wikipedia tiếng Việt dựa vào phân tích cú pháp 30 3.1 Đặc trưng Wikipedia 30 3.1.1 Thực thể Wikipedia 30 3.1.2 Infobox 31 3.1.3 Cách phân mục 31 3.2 Cây phân tích cú pháp tiếng Việt 32 3.2.1 Phân tích cú pháp 32 iii LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 3.2.2 Một số thành phần phân tích cú pháp tiếng Việt 32 3.3 Mơ hình trích chọn quan hệ dựa phân tích cú pháp Wikipedia tiếng Việt 33 3.3.1 Phát biểu toán 33 3.3.2 Ý tưởng giải toán 33 3.3.3 Xây dựng tập liệu học 34 3.3.4 Mơ hình hệ thống trích chọn quan hệ 36 Tổng kết chương ba 40 Chương Thực nghiệm đánh giá kết 41 4.1 Môi trường thực nghiệm 41 4.1.1 Câu hình phần cứng 41 4.1.2 Công cụ phần mềm 41 4.2 Dữ liệu thực nghiệm 42 4.3 Thực nghiệm 42 4.3.1 Mơ tả cài đặt chương trình 42 4.3.2 Xây dựng tập liệu học dựa Wikipedia tiếng Việt 42 4.3.3 Sinh vector đặc trưng 45 4.3.4 Phân lớp SVM 47 4.4 Đánh giá 48 4.4.1 Đánh giá hệ thống 48 4.4.2 Phương pháp “10-fold cross validation” 49 4.4.3 Kết kiểm thử 49 4.5 Nhận xét 51 Kết luận 52 Phụ lục 53 Tài liệu tham khảo 56 iv LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Danh sách bảng Bảng 1-1 : 15 quan hệ Wordnet Bảng 1-2: 22 loại quan hệ ngữ nghĩa theo Roxana Girju Bảng 2-1: Đường ngắn 23 Bảng 2-2: Một số đặc trưng thu từ đường phụ thuộc 23 Bảng 3-1: Các thuộc tính vector đặc trưng 39 Bảng 4-1: Cấu hình phần cứng 41 Bảng 4-2: Danh sách phần mềm sử dụng 41 Bảng 4-3 : Các giá trị đánh giá hệ thống phân lớp 49 Bảng 5-1: Bảng nhãn sử dụng phân tích cú pháp 53 v LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Danh sách hình vẽ Hình 1: Ví dụ đường liên kết (1) 14 Hình 2: Ví dụ đường liên kết (2) 14 Hình 3: Ví dụ mẫu 14 Hình 4: Ví dụ cặp thực thể sinh trình khớp mẫu 14 Hình 5: Ví dụ phân tích cú pháp 21 Hình 6: Các đặc trưng thu từ phân tích cú pháp 21 Hình 7: Minh họa đồ thị phụ thuộc 22 Hình 8: Các quan hệ mẫu trích chọn 26 Hình 9: Kiến trúc hệ thống Snowball 27 Hình 10: Ví dụ phân tích cú pháp tiếng Việt 32 Hình 11: Quá trình xây dựng tập liệu học 34 Hình 12: Cấu trúc biểu diễn thơng tin infobox 35 Hình 13: Mơ hình trích chọn quan hệ Wikipedia 36 Hình 14: Cây biểu diễn quan hệ “thành_lập” 38 Hình 15: Ví dụ tìm kiếm Wikipedia 44 Hình 16 : Bảng thống kê liệu học quan hệ “ngày sinh” 48 Hình 17: Kết kiểm thử quan hệ “năm thành lập” 50 Hình 18: Kết kiểm thử quan hệ “hiệu trưởng” 50 Hình 19: Kết kiểm thử quan hệ “ngày sinh” 51 Hình 20: So sánh kết trung bình ba quan hệ 51 vi LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Danh sách từ viết tắt Từ cụm từ Viết tắt A Library for Support Vector Machines Dual Iterative Pattern Relation Expansion LibSVM DIPRE Support vector machine SVM Wikipedia Wiki vii LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Mở đầu Trích chọn quan hệ ngữ nghĩa xem toán xử lý ngôn ngữ tự nhiên, thực nhiệm vụ trích chọn quan hệ khái niệm mặt ngữ nghĩa dựa vào quan hệ xác định trước nhằm tìm kiếm thơng tin phục vụ cho q trình xử lý khác Trích chọn quan hệ ứng dụng nhiều cho toán như: xây dựng Ontology[13, 14, 17, 29], hệ thống hỏi đáp [21,28], phát ảnh qua đoạn văn [10], tìm mối liên hệ bệnh-genes [26],… Vì thế, trích chọn quan hệ nhận quan tâm lớn từ nhà nghiên cứu, hội nghị lớn giới năm gần như: Coling/ACL, Senseval,… mà phần dự án quan trọng mang tầm cỡ quốc tế lĩnh vực khai phá tri thức như: ACE (Automatic Content Extraction), DARPA EELD (Evidence Extraction and Link Discovery), ARDA-AQUAINT (Question Answering for Intelligence), ARDA NIMD (Novel Intelligence from Massive Data) Tại Việt Nam, toán đặt nhiều thách thức tính phức tạp ngơn ngữ tiếng Việt không đầy đủ tài nguyên ngôn ngữ học Trên sở phân tích phương pháp trích chọn quan hệ, khóa luận đưa mơ hình học có giám sát trích chọn quan hệ thực thể dựa vào phân tích cú pháp miền liệu Wikipedia tiếng Việt Kết bước đầu cho thấy mơ hình khả quan có khả ứng dụng tốt Nội dung khóa luận bố cục gồm có chương: Chương 1: Giới thiệu khái qt tốn trích chọn quan hệ ngữ nghĩa khái niệm liên quan Chương 2: Giới thiệu phương pháp tiếp cận giải toán trích chọn quan hệ Với phương pháp học máy: có giám sát, khơng giám sát bán giám sát, khóa luận giới thiệu số mơ hình tiêu biểu Đây sơ phương pháp luận quan trọng để khóa luận đưa mơ hình áp dụng tốn trích chọn quan hệ miền liệu Wikipedia tiếng Việt Chương 3: Trên sở phân tích ưu nhược điểm phương pháp trình bày chương 2, khóa luận lựa chọn phương pháp trích chọn quan hệ dựa đặc trưng theo tiếp cận học có giám sát để giải toán Các đặc trưng quan hệ lấy dựa phân tích cú pháp tiếng Việt, sau đưa vào phân lớp sử dụng thuật tốn SVM Hơn nữa, để giảm cơng sức cho LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Các trang trả thu thập, cho qua bước tiền xử lý (như mục tiếp theo) Các câu trích ba loại sau: o Loại 1: Câu chứa thành phần quan hệ o Loại 2: Câu chứa R E1 R E2 o Loại 3: Câu chứa R Các câu phân tích cú pháp, sinh quan hệ, sinh vector đặc trưng Các vector đặc trưng có từ câu loại gán nhãn tự động Các vector đặc trưng có từ câu loại gán nhãn tay Tiền xử lý Các trang sau thu thập tiến hành tiền xử lý: Loại bỏ thẻ html Tách câu Trích câu chứa R Chuẩn hóa câu Việc loại bỏ thẻ html, tách câu thực công cụ JvnTextPro[42], sau đó, câu chứa R lưu lại Có số ký tự đặc biệt mà phân tích cú pháp khơng xử lý cần loại bỏ thay kí hiệu tương đương Các ký hiệu mở ngoặc “(”, đóng ngoặc “)” thường sử dụng mang ý nghĩa thích nên để khơng làm ý nghĩa, cặp đóng mở ngoặc thay dấu gạch gang “-” tương ứng Ví dụ: câu “Trường Đại học Bách khoa Hà Nội (tiếng Anh: Hanoi University of Technology, viết tắt HUT) trường đại học kỹ thuật đa ngành, thành lập Hà Nội ngày 15 tháng 10 năm 1956.” chuẩn hóa thành “Trường Đại học Bách khoa Hà Nội - tiếng Anh: Hanoi University of Technology, viết tắt HUT trường đại học kỹ thuật đa ngành, thành lập Hà Nội ngày 15 tháng 10 năm 1956.” 4.3.3 Sinh vector đặc trưng a Phân tích cú pháp Tách từ: sử dụng tách từ JvnTextpro[42] Nguyễn Cẩm Tú Đưa câu dạng chuẩn đầu vào vào phân tích cú pháp 45 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Phân tích cú pháp sử dụng phân tích cú pháp coltechparser Nguyễn Phương Thái cộng [37] Nhận xét: Kết thực nghiệm cho thấy kết phân tích cú pháp phụ thuộc lớn vào việc tách từ Phân tích cú pháp câu sau tách từ cho phân tích cú pháp tốt b Trích chọn biểu diễn quan hệ R sinh vector đặc trưng Sử dụng thuật tốn trình bày mục 3.3.4.2 ta sinh có khả biểu diễn quan hệ (gọi tắt con) Các thuộc tính vector đặc trưng v = (v1, v2, v3, v4, v5, v6, v7) thể khả mà biểu diễn quan hệ R, cụ thể xác định sau trình thực nghiệm: Cụm nhãn trung tâm: Khả thể quan hệ R tìm (chứ khơng phải quan hệ R’ khác) Giá trị cao khả lớn Nếu NodeR node biểu diễn R, gọi: o num1 số node NodeR o num2 số node NodeR có giá trị trùng với từ khóa thể R Khi đó: v1 tính theo cơng thức v1 = node NodeR có chứa từ “khơng” num num trường hợp lại Cụm nhãn thể E1, E2: Khả node biểu diễn thực thực thể Giá trị cao khả lớn Nếu NodeEi node biểu diễn Ei, gọi: o num1 số node NodeEi o num2 số node NodeR biểu diễn thực thể Ei (đã xác định trước theo giả thiết tốn) Khi đó: v2 , v3 tính theo cơng thức v num num 46 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Đường dẫn tới nhãn E1, E2: o v4 : số node từ node biểu diễn E1 sang node biểu diễn R o v6 : số node từ node biểu diễn E2 sang node biểu diễn R o v5 wt v4 với wt trọng số node đường từ node biểu diễn E1 sang node biểu diễn R với ý v5=0 v4=0 o v7 wt v6 với wt trọng số node đường từ node biểu diễn E2 sang node biểu diễn R với ý v7=0 v6=0 o wt tính theo mơ tả mục 3.3.4.2 Trong trình thực nghiệm áp dụng, trọng số node gán mang ý nghĩa, từ sử dụng xem tương đương Cây hình 14 có vector đặc trưng v = (0.5; 1.0; 1.0; 3.0;0.0; 2.0;0) Nhận xét: Thực nghiệm cho thấy, giá trị v4, v5, v6, v7 nhỏ thu có khả thể quan hệ Điều phù hợp với thực tế thành phần phân tích cú pháp gần nhau, mức độ quan hệ chúng cao Điều chứng tỏ rằng, cơng thức đưa tính vector đặc trưng hợp lý Tuy nhiên, số nhập nhằng xác định trường hợp cụm nhãn trung tâm chứa từ khóa biểu diễn R lại chứa thêm từ “không” 4.3.4 Phân lớp SVM Sử dụng phần mềm Weka[25] LibSVM[43] để tiến hành huấn luyện mơ hình kiểm thử Một ví dụ thống kê liệu học trường hợp quan hệ “năm thành lập” mơ hình cho hình vẽ: 47 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Hình 16 : Bảng thống kê liệu học quan hệ “ngày sinh” 4.4 Đánh giá 4.4.1 Đánh giá hệ thống Hệ thống đánh giá chất lượng thơng qua ba độ đo: độ xác (precision), độ hồi tưởng (recall) độ đo F (F-messure) Ba độ đo tính tốn theo cơng thức sau: preCi correctCi correctCi incorrectCi recC1 correctC1 correctC1 incorrectC0 recC0 correctC0 correctC0 incorrectC1 FCi 2* preCi * recCi preCi recCi 48 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Ý nghĩa giá trị correctCi, incorrectCi định nghĩa bảng 4-3 4.4.2 Phương pháp “10-fold cross validation” Hệ thống thử nghiệm theo phương pháp “10-fold cross validation” Theo phương pháp này, liệu thực nghiệm chia thành 10 phần nhau, lấy phần để huấn luyện phần lại để kiểm tra, kết sau 10 lần thực nghiệm ghi lại đánh giá tổng thể Bảng 4-3 : Các giá trị đánh giá hệ thống phân lớp C0 C1 C0 correctC0 incorrectC0 C1 incorrectC1 correctC1 Với: Giá trị Ý nghĩa correctC0 Số kết phân lớp vào C0 incorrectC0 Số kết phân lớp vào lớp C0 sai incorrectC1 Số kết phân lớp vào lớp C1 sai correctC1 Số kết phân lớp vào lớp C1 4.4.3 Kết kiểm thử Kết kiểm thử quan hệ “năm thành lập”, “hiệu trưởng” “ngày sinh” cho kết sau: 49 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Hình 17: Kết kiểm thử quan hệ “năm thành lập” Hình 18: Kết kiểm thử quan hệ “hiệu trưởng” 50 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Hình 19: Kết kiểm thử quan hệ “ngày sinh” Hình 20: So sánh kết trung bình ba quan hệ 4.5 Nhận xét Bước đầu thực nghiệm hệ thống trích chọn quan hệ dựa phân tích cú pháp cho kết tương đối khả quan Độ đo F1 trung bình cho quan hệ thử nghiệm “năm thành lập”, “hiệu trưởng”, “ngày sinh” 91,06% , 89,9% 83,08% Tuy cịn nhiều trường hợp nhập nhằng tơi tin xây dựng tập liệu huấn luyện đủ lớn, thu thập nguồn tra cứu dồi kết hợp thêm đặc trưng khác, đưa trọng số node riêng theo quan hệ, hệ thống đạt độ xác cao tương lai 51 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Kết luận Từ việc nghiên cứu toán trích chọn quan hệ, khóa luận đưa mơ hình trích chọn quan hệ thực thể dựa phân tích cú pháp miền liệu Wikipedia tiếng Việt Qua kết thực nghiệm đạt cho thấy mơ hình khả thi áp dụng Về mặt nội dung, khóa luận đạt kết sau: Giới thiệu toán trích chọn quan hệ khái niệm liên quan Tìm hiểu phân tích phương pháp trích chọn quan hệ điển hình, tập trung vào phương pháp có sử dụng phân tích cú pháp Dựa vào đặc trưng Wikipedia tiếng Việt, đưa mơ hình xây dựng tập liệu học bán tự động Áp dụng mơ hình học có giám sát SVM để xây dụng mơ hình trích chọn quan hệ dựa vào phân tích cú pháp miền liệu Wikipedia tiếng Việt đạt kết khả quan Bên cạnh những, hạn chế mặt thời gian kiến thức khóa luận cịn hạn chế sau: Khóa luận chưa xây dựng giao diện người dùng kết thực nghiệm số trường hợp chưa đạt độ xác mong muốn Về định hướng nghiên cứu, việc giải tốn theo tiếp cận có giám sát bước khởi đầu tốt Trong thời gian tới, khóa luận phát triển theo hướng sau: Một là, hoàn thiện bước xây dựng tập liệu học cho thực nhiều quan hệ tiến tới xây dựng phân lớp đa lớp Hai là, thử nghiệm mơ hình học khơng giám sát vector đặc trưng xây dựng Ba là, tích hợp modul vào hệ thống xây dựng tự động ontology cho tiếng Việt miền ứng dụng trường đại học Việt Nam nhằm phục vụ việc tìm kiếm hướng thực thể 52 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com PHỤ LỤC Bảng 5-1: Bảng nhãn sử dụng phân tích cú pháp Kí hiệu nhãn No - Danh từ riêng Phân loại No Kí hiệu nhãn Ví dụ Bùi Thúy Anh, Hà Nội… A – Tính từ Ns – danh từ quần, áo, đơn thể bạn… Nc – danh từ quần áo, bính tổng thể lính, bạn bè… N - Danh từ Na – Danh từ trừu tượng Nu – danh từ đơn vị đo lường Vt – ngoại động từ Ví dụ Ai – Tính từ tính chất Trong vắt, mênh mơng An – Tính từ định lượng P – Đại từ ăn bánh, xây nhà… ngủ, nói, làm việc tày) Pd – Đại từ định Đây, đó, kia… Pn – Đại từ số lượng Bấy, nhiêu, tất Pi – Đại từ nghi vấn Ai, gì, đâu, bao giờ, bao nhiêu… V - Động từ Vi – nội động từ Cao (hai mét), rộng (vài sải Pp – Đại từ xưng hơ giai điệu lít rượu, nắm muối, mẫu đất, phút suy nghĩ… Phân loại R – Phó từ Rd - Phó từ hướng Vào (nhà), xuống (cầu tháng), (sản xuất) 53 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Ve – động từ tồn Còn, mất, hết… Va – Động từ tiếp thụ Bị, phải, được… Rt – Phó từ thời gian C – Giới từ Do, của, với, hay, M – Trợ từ Chinish, chợt, ngay, tất nhiên, à, ừ, hả, Vv – Động từ tình thái Muốn, dám, Vg – động từ tổng hợp mua bán, đánh E – Cảm đập… từ Vz – Động từ “là” Ái chà, ôi chao, dạ, Nl – Loại từ Cái, con, cây, người, tấm… NP – cụm danh từ Tất kẹo Nq – Số từ Một, hai, ba, dăm, VP – cụm động từ Đang ăn cơm, yêu cô ấy, bán cho họ Y – từ viết tắt CHXH, TTCK, CNTT Xinh quá, X – Từ AP – Cụm tính từ RP – Cụm phó từ mỏng cùi, giỏi khơng xác thể thao định SBAR – mệnh đề phụ Vẫn chưa Quyển sách mà anh mượn; khỏe chơi thể 54 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com thao đặn PP – Cụm giới từ QP – cụm từ số lượng SE – Câu cảm thán vào Sài Gòn Năm trăm, 200 Ái chà,… S – Câu trần thuật Tôi học xe đạp SQ – Câu nghi vấn Ai nhà? SC – Câu cầu khiến Không làm ồn, đi em… 55 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com TÀI LIỆU THAM KHẢO Tiếng Việt [1] Hà Quang Thụy, Phan Xuân Hiếu, Đồn Sơn, Nguyễn Trí Thành, Nguyễn Thu Trang, Nguyễn Cẩm Tú “Giáo trình Khai phá liệu Web” Nhà xuất giáo dục Việt Nam, 10-2009 [2] Nguyễn Lê Minh Báo cáo kết sản phẩm: SP4 Hệ phân cụm từ tiếng Việt (quyển 1) Đề tài KC01.01/06-10 "Nghiên cứu phát triển số sản phẩm thiết yếu xử lí tiếng nói văn tiếng Việt" Tiếng Anh [3] Abdulrahman Almuhareb Attributes in lexical acquistion A thesis submitted for the degree of Doctor of Philosophy Department of Computer Science University of Essex June, 2006 [4] Adrian Iftene, Alexandra Balahur-Dobrescu Named Entity Relation Mining using Wikipedia Proceedings of the Sixth International Language Resources and Evaluation LREC08 (2008), Publisher: European Language Resources Association (ELRA), Pages: 2–9517408 [5] Anne-Marie Vercoustre, Jovan Pehcevski, and James A Thom (2008) Using Wikipedia Categories and Links in Entity Ranking - inria-00192489, version - 28 Nov 2007 [6] Brin, S (1998) Extracting patterns and relations from the world wide web WebDB Workshop at 6th International Conference on Extending Database Technology, EDBT ’98 [7] Bunescu, R C., & Mooney, R J (2005a) A shortest path dependency kernel for relation extraction HLT ’05: Proceedings of the conference on Human Language Technology and Empirical Methods in Natural Language Processing (pp 724–731) Vancouver, British Columbia, Canada: Association [8] Chinchor, N and Marsh, E Information extraction task definition (version 5.1) Proceedings of the 7th Message Understanding Conference [9] Corina Roxana Girju (2002) Text mining for semantic relations PhD Thesis, The University of Texas at Dallas, 2002 [10] Coyle, B., and Sproat, R 2001 Wordseye: An automatic text-to-scene conversion system Proceedings of the Siggraph Conference, Los Angeles 56 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com [11] Daniel Sleator & Davy Temperly (1993) Parsing English with a Link Grammar Third International Workshop on Parsing Technologies http://www.cs.cmu.edu/afs/cs.cmu.edu/project/link/pub/www/papers/ps/LGIWPT93.pdf [12] DatP.T.Nguyen, YutakaMatsuo, MitsuruIshizuka Relation Extraction from Wikipedia Using Subtree Mining Proceedings of the 22nd national conference on Artificial intelligence - Volume 2, Vancouver, British Columbia, Canada , Pages: 1414-1420 , Year of Publication: 2007 ISBN:9781-57735-323-2 [13] Eugene Agichtein, Luis Gravano (2000) Snowball: Extracting Relations from Large Plain-Text Collections In proceeding of the ACL Conference, 2000, Department of Computer Science, Columbia University [14] Fabian M Suchanek, Georgiana Ifrim, Gerhard Weikum LEILA: Learning to Extract Information by Linguistic Analysis Workshop On Ontology Learning And Population: Bridging The Gap Between Text And Knowledge year: 2006 [15] Fabian M Suchanek, Gjergji Kasneci , Gerhard Weikum (2008) YAGO: A Large Ontology from Wikipedia and WordNet Web Semantics: Science, Services and Agents on the World Wide We, 6(3): 203-217, Sep 2008 [16] Iris Hendrickx, Su Nam Kim, Zornitsa Kozareva, Preslav Nakov, Diarmuid O Seaghdha,Sebastian Pado, Marco Pennacchiotti, Lorenza Romano and Stan Szpakowicz Multi-Way Classification of Semantic Relations Between Pairs of Nominals in Proceedings of the NAACL-HLT-09 Workshop on Semantic Evaluations: Recent Achievements and Future Directions (SEW-09), Boulder, USA, May 2009 [17] Jinxiu Chen, Donghong Ji, Chew Lim Tan, Zhengyu Niu Unsupervised Feature Selection for Relation Extraction www.aclweb.org/anthology/I/I05/I05-2045.pdf [18] Jonathan Yu, James A Thom and Audrey Tam Ontology evaluation using Wikipedia categories for browsing In Proceedings of 16th ACM Conference on Informationand Knowledge Management (CIKM 2007), pages 223–232, Lisboa, Portugal, 2007 57 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com [19] Kai-Hsiang Yang, Chun-Yu Chen, Hahn-Ming Lee, and Jan-Ming Ho EFS: Expert Finding System Based on Wikipedia Link Pattern Analysis In Proceedings of the 2008 IEEE International Conference on Systems, Man and Cybernetics (SMC 2008), Singapore, October 12-15, 2008, pp 631-635 [20] Kambhatla, N (2004) Combining lexical, syntactic, and semantic features with maximum entropy models for extracting relations Proceedings of the ACL 2004 [21] Kim, S., Lewis, P., Martinez, K and Goodall, S (2004) Question Answering Towards Automatic Augmentations of Ontology Instances The Semantic Web: Research and Applications: First European Semantic Web Symposium, ESWS, May 2004, Greece [22] L.Denoyer and P.Gallinari The Wikipedia XML corpus SIGIRForum , 40(1) : 64–69, 2006 [23] Larry Sanger The Early History of Nupedia and Wikipedia: A Memoir In Open Sources 2.0, ed DiBona, Cooper, and Stone O'Reilly, 2005 Prepublished in slashdot.org, Apr 2005 [24] M Banko, M J Cafarella, S Soderland, M Broadhead, and O Etzioni Open information extraction from the Web In Proc 20th IJCAI, pp 2670–2676, Jan 2007 [25] Mark Hall, Eibe Frank, Geoffrey Holmes, Bernhard Pfahringer, Peter Reutemann, Ian H Witten (2009) The WEKA Data Mining Software: An Update SIGKDD Explorations, Volume 11, Issue [26] Minlie Huang and Xiaoyan Zhu and Yu Hao and Donald G Payan and Kunbin Qu and Ming Li (2004) Discovering patterns to extract proteinprotein interactions from full texts 20 pp 3604–3612 [27] O Etzioni, M Cafarella, D Downey, S Kok, A Popescu, T Shaked, S Soderland, D Weld, and A Yates Web-Scale Information Extraction in KnowItAll In WWW, pages 100–110, New York City, New York, 2004 [28] I Fahmi Thesis: Automatic term and relation extraction for medical question answering system system Proceedings of the Siggraph Conference, Los Angeles [29] Kim, S., Lewis, P., Martinez, K and Goodall, S (2004) Towards Automatic Augmentations of Ontology Instances In: The Semantic Web:Research and 58 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Applications: First European Semantic Web Symposium, ESWS, May 2004, Greece [30] Valpola, H Bayesian Ensemble Learning for Nonlinear Factor Analysis Acta Polytechnica Scandinavica, Mathematics and Computing Series No 108, Espoo 2000, 54 pp Published by the Finnish Academies of Technology ISBN 951-666-552-7 ISSN [31] Zhou GuoDong, Zhang Min Extracting relation information from text documents by exploring various types of knowledge Information Processing and Management 43 (2007) 969–982 [32] http://en.wikipedia.org/wiki/Help:Infobox [33] http://en.wikipedia.org/wiki/Subject_Verb_Object [34] http://en.wikipedia.org/wiki/Dependency_graph [35] http://inex.is.informatik.uni-duisburg.de/ [36] http://static.wikipedia.org/downloads/2008-06/vi/ [37] http://vlsp.vietlp.org:8080/demo/?page=home [38] http://wordnet.princeton.edu/ [39] http://www.abisource.com/projects/link-grammar/ [40] http://www.cs.nyu.edu/cs/faculty/grishman/muc6.html Information about the sixth Message Understanding Conference [41] http://www.db.dk/bh/Lifeboat_KO/CONCEPTS/semantic_relations.htm [42] Nguyen Cam Tu (2008) “JVnTextpro: A Java-based Vietnamese Text Processing Toolkit” [43] http://www.csie.ntu.edu.tw/~cjlin/libsvm/ 59 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com ... hình trích chọn quan hệ Wikipedia tiếng Việt dựa vào phân tích cú pháp Trên sở phân tích ưu nhược điểm phương pháp trích chọn quan hệ, khóa luận lựa chọn phương pháp học có giám sát trích chọn quan. .. dạng cây, thông qua dạng phụ thuộc thành phần trực quan Cây gọi phân tích cú pháp Hình 10: Ví dụ phân tích cú pháp tiếng Việt 3.2.2 Một số thành phần phân tích cú pháp tiếng Việt Cấu trúc cú pháp. .. đặc trưng liệu Wikipedia tiếng Việt sử dụng Nội dung chương trình bày đặc trưng Wikipedia, phân tích cú pháp tiếng Việt mơ hình trích chọn quan hệ dựa phân tích cú pháp Chương 4: Thực nghiệm, kết