1. Trang chủ
  2. » Luận Văn - Báo Cáo

Trích rút thực thể có tên và quan hệ thực thể trong văn bản tiếng Việt

121 5 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 121
Dung lượng 1,77 MB

Nội dung

Trích rút thực thể có tên và quan hệ thực thể trong văn bản tiếng Việt Trích rút thực thể có tên và quan hệ thực thể trong văn bản tiếng Việt Trích rút thực thể có tên và quan hệ thực thể trong văn bản tiếng Việt luận văn tốt nghiệp,luận văn thạc sĩ, luận văn cao học, luận văn đại học, luận án tiến sĩ, đồ án tốt nghiệp luận văn tốt nghiệp,luận văn thạc sĩ, luận văn cao học, luận văn đại học, luận án tiến sĩ, đồ án tốt nghiệp

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI -***** SAM CHANRATHANY TRÍCH RÚT THỰC THỂ CÓ TÊN VÀ QUAN HỆ THỰC THỂ TRONG VĂN BẢN TIẾNG VIỆT LUẬN ÁN TIẾN SĨ CÔNG NGHỆ THÔNG TIN Hà Nội - 2012 BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI - SAM CHANRATHANY TRÍCH RÚT THỰC THỂ CÓ TÊN VÀ QUAN HỆ THỰC THỂ TRONG VĂN BẢN TIẾNG VIỆT Chuyên ngành: Hệ thống Thông tin Mã số : 62.48.05.01 LUẬN ÁN TIẾN SĨ CÔNG NGHỆ THÔNG TIN NGƯỜI HƯỚNG DẪN KHOA HỌC: GS.TS Nguyễn Thanh Thủy PGS.TS Lê Thanh Hương HÀ NỘI - 2012 LỜI CẢM ƠN Luận án hoàn thành trường Đại học Bách khoa Hà Nội Để hoàn thành luận án này, tác giả nhận bảo tận tình, yêu cầu nghiêm khắc GS TS Nguyễn Thanh Thủy, PGS.TS Lê Thanh Hương Thầy, Cơ truyền đạt nhiều kiến thức q báu kinh nghiệm nghiên cứu khoa học suốt thời gian tác giả làm nghiên cứu sinh Lời đầu tiên, tác giả xin bày tỏ lịng kính trọng biết ơn sâu sắc tới Thầy Cô Tác giả xin chân thành gửi lời biết ơn đến: Ban lãnh đạo Viện Công nghệ thông tin Truyền thông, Bộ môn Hệ thống Thông tin, Viện Đào tạo Sau đại học, Trung tâm Tính tốn Hiệu cao, thuộc trường Đại học Bách khoa Hà Nội tạo điều kiện thuận lợi trình học tập, nghiên cứu hoàn thành luận án Tác giả cảm ơn Thầy giáo, Cô giáo Bộ môn Hệ thống Thông tin-Viện Công nghệ Thông tin Truyền thông, trường Đại học Bách khoa Hà Nội động viên trao đổi kinh nghiệm để tác giả hồn thiện luận án Tác giả cảm ơn TS Nguyễn Hữu Đức cán anh chị em Trung tâm Tính tốn Hiệu cao, tạo điều kiện, nhiệt tình giúp đỡ trao đổi học hỏi trình làm luận án Sự quan tâm, mong mỏi thành viên gia đình động để tác giả nỗ lực học tập, nghiên cứu Luận án quà tinh thần, xin đáp lại niềm quan tâm, mong mỏi Cuối cùng, tác giả xin bày tỏ lòng biết ơn tới người thân bạn bè ưu ái, giúp đỡ, động viên, khích lệ để tác giả hồn thành luận án LỜI CAM ĐOAN Tôi xin cam đoan cơng trình nghiên cứu riêng Các kết viết chung với tác giả khác đồng ý đồng tác giả trước đưa vào luận án Các kết luận án trung thực chưa cơng bố cơng trình khác Tác giả luận án Sam Chanrathany MỤC LỤC Trang bìa phụ Lời cảm ơn i ii Lời cam đoan iii Mục lục v Danh mục chữ viết tắt x Danh mục bảng xi Danh mục hình xii CHƯƠNG MỞ ĐẦU .1 1.1 Động nghiên cứu luận án 1.2 Mục tiêu phạm vi nghiên cứu luận án 1.2.1 Mục tiêu nghiên cứu 1.2.2 Phạm vi nghiên cứu 1.3 Đóng góp luận án 1.4 Cấu trúc luận án 1.5 Các thuật ngữ sử dụng luận án CHƯƠNG CÁC NGHIÊN CỨU LIÊN QUAN 10 2.1 Bài tốn trích rút thông tin 10 2.2 Bài tốn trích rút thực thể 12 2.2.1 Các đặc trưng sử dụng toán NER 13 2.2.2 Tình hình nghiên cứu ngồi nước tốn NER sử dụng học máy 14 2.2.3 Tình hình nghiên cứu nước toán NER 17 2.3 Bài tốn trích rút mối quan hệ thực thể (RE) 18 2.3.1 Các đặc trưng sử dụng toán RE 18 2.3.2 Tình hình nghiên cứu ngồi nước tốn RE 19 2.3.3 Tình hình nghiên cứu nước toán RE 23 2.4 Một số phương pháp học bán giám sát khác 25 2.5 Các phương pháp đánh giá kết trích rút 26 2.5.1 Cách đánh giá dựa độ trùng khớp 27 2.5.2 Cách đánh giá MUC 28 2.6 Kết luận chương 28 CHƯƠNG CÁC PHƯƠNG PHÁP HỌC MÁY DÙNG TRONG LUẬN ÁN .29 3.1 Mơ hình trường ngẫu nhiên có điều kiện 29 3.1.1 Khái niệm mô hình trường ngẫu nhiên có điều kiện CRF 29 3.1.2 Huấn luyện CRF 31 3.1.3 Gán nhãn cho liệu dạng chuỗi 33 3.2 Mơ hình máy vectơ hỗ trợ 33 3.3 Mơ hình Dirichlet ẩn 37 3.4 Các phương pháp học bán giám sát 40 3.4.1 Phương pháp lan truyền nhãn 40 3.4.2 Phương pháp bootstrapping 42 3.5 Kết luận chương 43 CHƯƠNG TRÍCH RÚT THỰC THỂ TỪ VĂN BẢN TIẾNG VIỆT 45 4.1 Một số đặc điểm tiếng Việt ảnh hưởng đến việc trích rút thực thể 45 4.2 Trích rút thực thể sử dụng trường ngẫu nhiên có điều kiện 50 4.2.1 Mơ hình học bán giám sát dựa kết hợp luật đồng tham chiếu tên với CRF 50 4.2.2 Mơ hình học bán giám sát sử dụng CRF theo dạng Bagging 56 4.3 Trích rút thực thể sử dụng phương pháp lan truyền nhãn 57 4.3.1 Phương pháp đo mức độ tương đồng từ 58 4.3.2 Điểm yếu giải thuật lan truyền nhãn cách cải tiến 61 4.4 Thử nghiệm đánh giá 61 4.4.1 Tập liệu phương pháp thử nghiệm 61 4.4.2 Kết thực nghiệm 62 4.5 Kết luận chương 65 CHƯƠNG TRÍCH RÚT MỐI QUAN HỆ TỪ VĂN BẢN TIẾNG VIỆT 67 5.1 Tính chất quan hệ thực thể văn tiếng Việt 67 5.2 Trích rút mối quan hệ dựa máy vectơ hỗ trợ SVM 69 5.2.1 Mơ hình học có giám sát dựa phương pháp ngôn ngữ mức nông 70 5.2.2 Mơ hình học bán giám sát dựa phương pháp ngôn ngữ mức nông theo kiểu Bagging Bootstrapping 73 5.3 Trích rút mối quan hệ dựa phương pháp lan truyền nhãn 74 5.3.1 Đo độ tương đồng hai câu dựa phương pháp so trùng thuộc tính từ 75 5.3.2 Đo độ tương đồng hai câu dựa phương pháp LDA 79 5.4 Thử nghiệm đánh giá 80 5.4.1 Tập liệu phương pháp thử nghiệm 80 5.4.2 Kết thực nghiệm 82 5.5 Kết luận chương 84 CHƯƠNG KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 86 6.1 Các kết đạt được…………………………………………………… 86 6.1.1 Kết thuật giải……………………………………………………….86 6.1.2 Kết thử nghiệm……………………………………………………… 87 6.2 Hướng phát triển…………………………………………………………… 88 TÀI LIỆU THAM KHẢO………………………………………………………………90 CÁC CƠNG TRÌNH KHOA HỌC CỦA TÁC GIẢ……………………………… 99 PHỤ LỤC Phụ lục TẬP D LIỆU……………………………………………… .100 Phụ lục GIAO DIỆN CHƯƠNG TRÌNH HỖ TRỢ GÁN NHÃN………… 109 DANH MỤC CH VIẾT TẮT ACE Automatic Context Extraction BIO Begin Inside Outside CRFs Conditional Random Fields CONLL Computational Natural Language Learning EM Expectation Maximization GLK Global Context Kernel HMM Hidden Markov Model IE Information Extraction JSRE Java Simple Relation Extraction MEMM Maximum Entropy Markov Model NP Noun Phrase LCK Local Context Kernel LDA Latent Direchlet Alocattion MUC Message Understanding Conference NER Named Entity Regconition RE Relaiton Extraction SLK Shallow Linguistic Kernel SVM Support Vector Machine DANH MỤC CÁC BẢNG Bảng 2.1 Định dạng từ 13 Bảng 2.2 Đặc trưng từ điển 14 Bảng 2.3 Bảng so sánh nhãn hệ thống so với nhãn gán tay, kèm theo mô tả lỗi tương ứng 27 Bảng 4.1 Định dạng tên thực thể 45 Bảng 4.2 Nhóm luật nhận dạng thực thể (Nhóm luật ) 47 Bảng 4.3 Kết thực nghiệm hệ thống NER sử dụng phương pháp học bán giám sát 63 Bảng 4.4 So sánh kết lần lặp thứ phương pháp nói 63 Bảng 4.5 So sánh kết trích rút thực thể CRF có giám sát với lan truyền nhãn 64 Bảng 5.1 So sánh hệ thống RE có giám sát hàm nhân ngữ cảnh tổng hợp .82 Bảng 5.2 So sánh kết hệ thống bán giám sát với hệ thống có giám sát .82 Bảng 5.3 So sánh kết chưa chuẩn hoá sau chuẩn hoá ma trận 83 Bảng 5.4 So sánh kết phương pháp so trùng thuộc tính từ với LDA 83 Bảng 5.5 So sánh độ đo F ba phương pháp lan truyền nhãn sử dụng so trùng thuộc tính từ, SVM, SVM kết hợp Bootstrapping………………………………………….84 ... thực thể văn Ví dụ, có quan hệ sống hai thực thể “ tên người” ? ?tên địa điểm”, quan hệ họ hàng hai thực thể ? ?tên người” ? ?tên người” Bài toán trích rút mối quan hệ thực thể khác với tốn trích rút. .. tốn trích rút mối quan hệ thực thể tốn trích rút mối quan hệ thực thể không gán nhãn cho chuỗi từ mà quan tâm đến xác định mối quan hệ thực thể, cụ thể xác định xem câu có thuộc mối quan hệ xét... Kết thực nghiệm 62 4.5 Kết luận chương 65 CHƯƠNG TRÍCH RÚT MỐI QUAN HỆ TỪ VĂN BẢN TIẾNG VIỆT 67 5.1 Tính chất quan hệ thực thể văn tiếng Việt 67 5.2 Trích rút mối quan hệ

Ngày đăng: 30/04/2021, 11:28

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w