ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ PHẠM THỊ THU TRANG NHẬN DẠNG THỰC THỂ ĐỊNH DANH TỪ VĂN BẢN NGẮN TIẾNG VIỆT VÀ ĐÁNH GIÁ THỰC NGHIỆM LUẬN VĂN THẠC SĨ HỆ THỐNG THÔNG TIN ( Hà Nội 2018 )[.]
ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ PHẠM THỊ THU TRANG NHẬN DẠNG THỰC THỂ ĐỊNH DANH TỪ VĂN BẢN NGẮN TIẾNG VIỆT VÀ ĐÁNH GIÁ THỰC NGHIỆM LUẬN VĂN THẠC SĨ HỆ THỐNG THÔNG TIN Hà Nội - 2018 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ PHẠM THỊ THU TRANG NHẬN DẠNG THỰC THỂ ĐỊNH DANH TỪ VĂN BẢN NGẮN TIẾNG VIỆT VÀ ĐÁNH GIÁ THỰC NGHIỆM Ngành: Công nghệ thông tin Chuyên ngành: Hệ thống thông tin Mã số: 60480104 LUẬN VĂN THẠC SĨ HỆ THỐNG THÔNG TIN NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS.TS Hà Quang Thụy Hà Nội – LỜI CẢM ƠN Lời đầu tiên, em xin gửi lời cảm ơn sâu sắc tới thầy giáo PGS.TS Hà Quang Thụy tận tình giúp đỡ, bảo hướng dẫn em suốt trình thực luận văn Em xin bày tỏ lời cảm ơn trân thành đến thầy nhiệt tình tâm huyết giảng dạy em suốt hai năm qua, giúp em trang bị kiến thức để vững bước tương lai Em muốn gửi lời cảm ơn tới anh chị bạn phịng thí nghiệm Khoa học liệu Cơng nghệ Tri thức chia sẻ cho em nhiều kiến thức bổ ích giúp đỡ em lúc khó khăn thực khóa luận Lời cuối cùng, em muốn gửi lời cảm ơn đến cha mẹ chị người tin tưởng ủng hộ em đường em chọn, ln che chở giúp đỡ em để em vượt qua khó khăn sống Hà Nội, ngày 16 tháng 11 năm 2018 Học viên Phạm Thị Thu Trang LỜI CAM ĐOAN Em xin cam đoan nhận dạng thực thể định danh từ văn ngắn tiếng Việt đánh giá thực nghiệm trình bày luận văn em thực hướng dẫn PGS.TS Hà Quang Thụy Tất tham khảo từ nghiên cứu liên quan nêu nguồn gốc cách rõ ràng từ danh mục tài liệu tham khảo khóa luận Trong khóa luận, khơng có việc chép tài liệu, cơng trình nghiên cứu người khác mà không rõ tài liệu tham khảo Hà Nội, ngày 16 tháng 11 năm 2018 Học viên Phạm Thị Thu Trang MỤC LỤC Mở đầu Chương Bài toán nhận dạng thực thể cho văn ngắn Tiếng Việt 1.1 Bài toán nhận dạng thực thể 1.1.1 Bài toán 1.1.2 Khó khăn tốn nhận dạng thực thể văn ngắn Tiếng Việt .5 1.2 Các nghiên cứu có liên quan 1.2.1 Các nghiên cứu nhận dạng thực thể Tiếng Anh 1.2.2 Các nghiên cứu nhận dạng thực thể Tiếng Việt Chương Học suốt đời mơ hình trường ngẫu nhiên có điều kiện 2.1 Mơ hình trường ngẫu nhiên có điều kiện áp dụng cho toán nhận dạng thực thể 2.1.1 Khái niệm mơ hình trường ngẫu nhiên có điều kiện 2.1.2 Ước lượng tham số cho mơ hình .11 2.1.3 Tìm chuỗi nhãn phù hợp 12 2.2 Thuộc tính phụ thuộc tổng quát (G) .12 2.3 Định nghĩa học suốt đời .14 2.4 Kiến trúc hệ thống học suốt đời 16 2.5 Phương pháp đánh giá 18 2.6 Học giám sát suốt đời 20 2.7 Áp dụng học suốt đời vào mơ hình trường ngẫu nhiên có điều kiện 20 Chương Mơ hình học suốt đời áp dụng vào toán nhận dạng thực thể 22 3.1 Mẫu phụ thuộc .22 3.2 Thuật toán L-CRF 23 Chương Thực nghiệm kết 27 4.1 Môi trường công cụ sử dụng .27 4.1.1 Cấu hình phần cứng .27 4.1.2 Các phần mềm thư viện 27 4.2 Dữ liệu thực nghiệm .28 4.3 Mô tả thực nghiệm .28 4.4 Đánh giá .29 4.5 Kết thực nghiệm 30 4.5.1 Kết đánh giá nội miền .30 4.5.2 Kết đánh giá chéo miền 31 4.5.3 Kết đánh giá chéo miền có liệu miền đích 33 4.5.4 Kết đánh giá chéo miền lấy liệu miền gần 33 Nhận xét: 35 Kết luận 36 Tài liệu tham khảo 37 Tiếng Việt .37 Tiếng Anh .37 Trang web .39 DANH SÁCH HÌNH VẼ Hình 1.1 Quy trình nhận dạng thực thể định danh[2] Hình 1.2 Ví dụ hệ thống nhận dạng thực thể Tiếng Anh .7 Hình 1.3 Ví dụ hệ thống nhận dạng thực thể Tiếng Việt .8 Hình 2.1 Đồ thị biểu diễn mơ hình CRFs 10 Hình 2.2 Kiến trúc hệ thống học suốt đời 16 Hình 3.1 Mơ hình hệ thống NER văn Tiếng Việt áp dụng học suốt đời 25 Hình 4.1 Kết thực nghiệm đánh giá nội miền 31 Hình 4.2 Kết thực nghiệm đánh giá chéo miền 32 DANH SÁCH BẢNG BIỂU Bảng 1.1 Danh sách loại thực thể Bảng 4.1 Môi trường thực nghiệm 27 Bảng 4.2 Các phần mềm sử dụng .27 Bảng 4.3 Các thư viện sử dụng 28 Bảng 4.4 Dữ liệu thực nghiệm 28 Bảng 4.5 Ma trận nhầm lẫn 29 Bảng 4.6 Kết thực nghiệm đánh giá nội miền 30 Bảng 4.7 Kết thực nghiệm đánh giá chéo miền 32 Bảng 4.8 Kết thực nghiệm đánh giá chéo miền có liệu miền đích .33 Bảng 4.9 Kết đo độ “gần” miền mức từ vựng 34 Bảng 4.10 Kết thực nghiệm sử dụng liệu từ miền "gần" 34 Mở đầu Nhận dạng thực thể định danh cầu nối quan trọng việc kết nối liệu có cấu trúc liệu phi cấu trúc Nó có nhiều ứng dụng như: xây dựng máy tìm kiếm thực thể, tóm tắt văn bản, tự động đánh số cho sách, bước tiền xử lí làm đơn giản hóa tốn dịch máy,… Bên cạnh đó, việc bùng nổ mạng xã hội Facebook, Twitter, hệ thống hỏi đáp mang lại lượng thông tin khổng lồ Đặc điểm liệu thường văn ngắn, từ ngữ sử dụng thường văn nói liên quan đến nhiều miền liệu khác Chính đặc điểm mang lại nhiều khó khăn thực toán nhận dạng thực thể định danh Khi gặp phải vấn đề mới, thường giải dựa vào tri thức, kinh nghiệm có trước Ví dụ như: giải tốn ta thường liên hệ để đưa chúng dạng trước làm tìm tương đồng chúng Việc áp dụng tri thức thường làm tăng tốc độ chất lượng việc học Nhận xét không liên quan đến việc học người mà liên quan đến học máy Việc học nhiệm vụ cải thiện việc sử tri thức lưu lại từ nhiệm vụ học trước Nói cách khác ta sử dụng tri thức có nhằm nâng cao hiệu việc học cho nhiệm vụ Ý thức tầm quan trọng toán nhận dạng thực thể ý nghĩa học suốt đời, em chọn đề tài nhận dạng thực thể định danh từ văn ngắn tiếng Việt đánh giá thực nghiệm Đối với luận văn này, em tìm hiểu áp dụng thực nghiệm nhận dạng thực thể văn ngắn Tiếng Việt với mơ hình CRFs áp dụng học suốt đời Cụ thể, em tiến hành nghiên cứu áp dụng tri thức lưu lại từ việc học miền khứ nhằm nâng cao hiệu suất toán nhận dạng thực thể định danh nhiệm vụ học Luận văn tổ chức thành chương sau: Chương giới thiệu tổng quan toán nhận dạng thực thể văn Tiếng Việt, khó khăn gặp phải thực toán cho văn ngắn Tiếng Việt nghiên cứu có liên quan áp dụng cho Tiếng Anh, Tiếng Việt Chương định nghĩa học suốt đời, kiến trúc mơ hình học suốt đời, đặc điểm học suốt đời phương pháp áp dụng học suốt đời vào mơ hình trường ngẫu nhiên có điều kiện Chương trình bày thuật tốn L-CRFs nhằm tăng hiệu mơ hình trường ngẫu nhiên có điều kiện áp dụng cho toán nhận dạng thực thể định danh văn ngắn Tiếng Việt Chương trình bày đánh giá thực nghiệm hai trường hợp: miền liệu, đánh giá chéo miền không áp dụng học suốt đời áp dụng học suốt đời với kịch liệu huấn luyện khác