1. Trang chủ
  2. » Giáo Dục - Đào Tạo

(LUẬN văn THẠC sĩ) nhận dạng thực thể định danh từ văn bản ngắn tiếng việt và đánh giá thực nghiệm luận văn ths máy tính 84801

47 3 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 47
Dung lượng 1,36 MB

Nội dung

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ PHẠM THỊ THU TRANG NHẬN DẠNG THỰC THỂ ĐỊNH DANH TỪ VĂN BẢN NGẮN TIẾNG VIỆT VÀ ĐÁNH GIÁ THỰC NGHIỆM LUẬN VĂN THẠC SĨ HỆ THỐNG THÔNG TIN Hà Nội - 2018 TIEU LUAN MOI download : skknchat@gmail.com ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ PHẠM THỊ THU TRANG NHẬN DẠNG THỰC THỂ ĐỊNH DANH TỪ VĂN BẢN NGẮN TIẾNG VIỆT VÀ ĐÁNH GIÁ THỰC NGHIỆM Ngành: Công nghệ thông tin Chuyên ngành: Hệ thống thông tin Mã số: 60480104 LUẬN VĂN THẠC SĨ HỆ THỐNG THÔNG TIN NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS.TS Hà Quang Thụy Hà Nội – 2018 TIEU LUAN MOI download : skknchat@gmail.com LỜI CẢM ƠN Lời đầu tiên, em xin gửi lời cảm ơn sâu sắc tới thầy giáo PGS.TS Hà Quang Thụy tận tình giúp đỡ, bảo hướng dẫn em suốt trình thực luận văn Em xin bày tỏ lời cảm ơn trân thành đến thầy nhiệt tình tâm huyết giảng dạy em suốt hai năm qua, giúp em trang bị kiến thức để vững bước tương lai Em muốn gửi lời cảm ơn tới anh chị bạn phịng thí nghiệm Khoa học liệu Công nghệ Tri thức chia sẻ cho em nhiều kiến thức bổ ích giúp đỡ em lúc khó khăn thực khóa luận Lời cuối cùng, em muốn gửi lời cảm ơn đến cha mẹ chị người tin tưởng ủng hộ em đường em chọn, che chở giúp đỡ em để em vượt qua khó khăn sống Hà Nội, ngày 16 tháng 11 năm 2018 Học viên Phạm Thị Thu Trang TIEU LUAN MOI download : skknchat@gmail.com LỜI CAM ĐOAN Em xin cam đoan nhận dạng thực thể định danh từ văn ngắn tiếng Việt đánh giá thực nghiệm trình bày luận văn em thực hướng dẫn PGS.TS Hà Quang Thụy Tất tham khảo từ nghiên cứu liên quan nêu nguồn gốc cách rõ ràng từ danh mục tài liệu tham khảo khóa luận Trong khóa luận, khơng có việc chép tài liệu, cơng trình nghiên cứu người khác mà không rõ tài liệu tham khảo Hà Nội, ngày 16 tháng 11 năm 2018 Học viên Phạm Thị Thu Trang TIEU LUAN MOI download : skknchat@gmail.com MỤC LỤC Mở đầu Chương Bài toán nhận dạng thực thể cho văn ngắn Tiếng Việt 1.1 Bài toán nhận dạng thực thể 1.1.1 Bài toán 1.1.2 Khó khăn tốn nhận dạng thực thể văn ngắn Tiếng Việt 1.2 Các nghiên cứu có liên quan 1.2.1 Các nghiên cứu nhận dạng thực thể Tiếng Anh 1.2.2 Các nghiên cứu nhận dạng thực thể Tiếng Việt Chương Học suốt đời mơ hình trường ngẫu nhiên có điều kiện 2.1 Mơ hình trường ngẫu nhiên có điều kiện áp dụng cho toán nhận dạng thực thể 2.1.1 Khái niệm mơ hình trường ngẫu nhiên có điều kiện 2.1.2 Ước lượng tham số cho mơ hình 11 2.1.3 Tìm chuỗi nhãn phù hợp 12 2.2 Thuộc tính phụ thuộc tổng quát (G) 12 2.3 Định nghĩa học suốt đời 14 2.4 Kiến trúc hệ thống học suốt đời 16 2.5 Phương pháp đánh giá 18 2.6 Học giám sát suốt đời 20 2.7 Áp dụng học suốt đời vào mơ hình trường ngẫu nhiên có điều kiện 20 Chương Mơ hình học suốt đời áp dụng vào toán nhận dạng thực thể 22 3.1 Mẫu phụ thuộc 22 3.2 Thuật toán L-CRF 23 Chương Thực nghiệm kết 27 4.1 Môi trường công cụ sử dụng 27 4.1.1 Cấu hình phần cứng 27 4.1.2 Các phần mềm thư viện 27 4.2 Dữ liệu thực nghiệm 28 TIEU LUAN MOI download : skknchat@gmail.com 4.3 Mô tả thực nghiệm 28 4.4 Đánh giá 29 4.5 Kết thực nghiệm 30 4.5.1 Kết đánh giá nội miền 30 4.5.2 Kết đánh giá chéo miền 31 4.5.3 Kết đánh giá chéo miền có liệu miền đích 33 4.5.4 Kết đánh giá chéo miền lấy liệu miền gần 33 Nhận xét: 35 Kết luận 36 Tài liệu tham khảo 37 Tiếng Việt 37 Tiếng Anh 37 Trang web 39 TIEU LUAN MOI download : skknchat@gmail.com DANH SÁCH HÌNH VẼ Hình 1.1 Quy trình nhận dạng thực thể định danh[2] Hình 1.2 Ví dụ hệ thống nhận dạng thực thể Tiếng Anh Hình 1.3 Ví dụ hệ thống nhận dạng thực thể Tiếng Việt Hình 2.1 Đồ thị biểu diễn mơ hình CRFs 10 Hình 2.2 Kiến trúc hệ thống học suốt đời 16 Hình 3.1 Mơ hình hệ thống NER văn Tiếng Việt áp dụng học suốt đời 25 Hình 4.1 Kết thực nghiệm đánh giá nội miền 31 Hình 4.2 Kết thực nghiệm đánh giá chéo miền 32 TIEU LUAN MOI download : skknchat@gmail.com DANH SÁCH BẢNG BIỂU Bảng 1.1 Danh sách loại thực thể Bảng 4.1 Môi trường thực nghiệm 27 Bảng 4.2 Các phần mềm sử dụng 27 Bảng 4.3 Các thư viện sử dụng 28 Bảng 4.4 Dữ liệu thực nghiệm 28 Bảng 4.5 Ma trận nhầm lẫn 29 Bảng 4.6 Kết thực nghiệm đánh giá nội miền 30 Bảng 4.7 Kết thực nghiệm đánh giá chéo miền 32 Bảng 4.8 Kết thực nghiệm đánh giá chéo miền có liệu miền đích 33 Bảng 4.9 Kết đo độ “gần” miền mức từ vựng 34 Bảng 4.10 Kết thực nghiệm sử dụng liệu từ miền "gần" 34 TIEU LUAN MOI download : skknchat@gmail.com Mở đầu Nhận dạng thực thể định danh cầu nối quan trọng việc kết nối liệu có cấu trúc liệu phi cấu trúc Nó có nhiều ứng dụng như: xây dựng máy tìm kiếm thực thể, tóm tắt văn bản, tự động đánh số cho sách, bước tiền xử lí làm đơn giản hóa tốn dịch máy,… Bên cạnh đó, việc bùng nổ mạng xã hội Facebook, Twitter, hệ thống hỏi đáp mang lại lượng thông tin khổng lồ Đặc điểm liệu thường văn ngắn, từ ngữ sử dụng thường văn nói liên quan đến nhiều miền liệu khác Chính đặc điểm mang lại nhiều khó khăn thực toán nhận dạng thực thể định danh Khi gặp phải vấn đề mới, thường giải dựa vào tri thức, kinh nghiệm có trước Ví dụ như: giải toán ta thường liên hệ để đưa chúng dạng trước làm tìm tương đồng chúng Việc áp dụng tri thức thường làm tăng tốc độ chất lượng việc học Nhận xét không liên quan đến việc học người mà liên quan đến học máy Việc học nhiệm vụ cải thiện việc sử tri thức lưu lại từ nhiệm vụ học trước Nói cách khác ta sử dụng tri thức có nhằm nâng cao hiệu việc học cho nhiệm vụ Ý thức tầm quan trọng toán nhận dạng thực thể ý nghĩa học suốt đời, em chọn đề tài nhận dạng thực thể định danh từ văn ngắn tiếng Việt đánh giá thực nghiệm Đối với luận văn này, em tìm hiểu áp dụng thực nghiệm nhận dạng thực thể văn ngắn Tiếng Việt với mô hình CRFs áp dụng học suốt đời Cụ thể, em tiến hành nghiên cứu áp dụng tri thức lưu lại từ việc học miền khứ nhằm nâng cao hiệu suất toán nhận dạng thực thể định danh nhiệm vụ học Luận văn tổ chức thành chương sau:  Chương giới thiệu tổng quan toán nhận dạng thực thể văn Tiếng Việt, khó khăn gặp phải thực toán cho văn ngắn Tiếng Việt nghiên cứu có liên quan áp dụng cho Tiếng Anh, Tiếng Việt TIEU LUAN MOI download : skknchat@gmail.com  Chương định nghĩa học suốt đời, kiến trúc mô hình học suốt đời, đặc điểm học suốt đời phương pháp áp dụng học suốt đời vào mơ hình trường ngẫu nhiên có điều kiện  Chương trình bày thuật tốn L-CRFs nhằm tăng hiệu mơ hình trường ngẫu nhiên có điều kiện áp dụng cho toán nhận dạng thực thể định danh văn ngắn Tiếng Việt  Chương trình bày đánh giá thực nghiệm hai trường hợp: miền liệu, đánh giá chéo miền không áp dụng học suốt đời áp dụng học suốt đời với kịch liệu huấn luyện khác TIEU LUAN MOI download : skknchat@gmail.com Pha học suốt đời: thuật toán thực tập liệu lặp lặp lại Thực khởi tạo thuộc tính (F) liệu (dịng 3) áp dụng mơ hình CRFs M (dịng 4) F để trích xuất tập thực thể thêm vào S (lưu thực thể khai thác khứ) Từ S, khai thác loạt khía cạnh thường xuyên Ngưỡng tần số λ Nếu giống với lần lặp trước, thuật tốn dừng khơng tìm thấy thực thể Chúng ta lặp lặp lại quy trình lần trích xuất mang lại kết mới, làm tăng kích thước K, khía cạnh đáng tin cậy khứ kiến thức khứ K tăng tạo mẫu phụ thuộc nhiều hơn, cho phép nhiều thực thể Ngược lại: số khía cạnh đáng tin cậy bổ sung tìm thấy M trích xuất khía cạnh bổ sung lần lặp Các dòng 10 11 cập nhật hai tập cho lần lặp Mơ hình hệ thống NER văn Tiếng Việt áp dụng học suốt đời thể hình 3.2 đây: Hình 3.1 Mơ hình hệ thống NER văn Tiếng Việt áp dụng học suốt đời Các thành phần mơ hình: 25 TIEU LUAN MOI download : skknchat@gmail.com  Bộ quản lý toán: Quản lý toán thực hay N miền áp dụng mơ hình M vào để nhận dạng thực thể, cung cấp liệu cho sinh đặc trưng áp dụng mơ hình M cho miền N+1  Cơ sở tri thức: Chứa thực thể nhận dạng áp dụng mơ hình N miền khứ  Bộ sinh đặc trưng: nhiệm vụ trích xuất mẫu quan hệ từ liệu miền thứ N+1 kết hợp với liệu sở tri thức với nhãn tri thức “A” “O” Đầu đầu vào học dựa tri thức, chìa khóa giúp tăng hiệu mơ hình áp dụng cho miền liệu  Bộ học dựa tri thức: Sử dụng mẫu quan hệ có từ sinh đặc trưng để nhận dạng thực thể cho miền sử dụng mơ hình CRFs  Mơ hình CRFs: Mơ hình huấn luyện áp dụng N miền Tổng kết chương Chương trình bày phương pháp nhận dạng thực thể văn Tiếng Việt áp dụng học suốt đời Đồng thời, chương trình bày chi tiết thuật toán để tăng cường sử dụng kiến thức học khứ nhằm tăng hiệu việc học miền 26 TIEU LUAN MOI download : skknchat@gmail.com Chương Thực nghiệm kết Như trình bày phần trên, luận văn tiến hành thực nghiệm đánh giá phương pháp nhận dạng thực thể văn ngắn Tiếng Việt áp dụng học suốt đời so sánh với phương pháp truyền thốn Chương mô tả chi tiết trình tiến hành thực nghiệm kết thực nghiệm 4.1 Môi trường công cụ sử dụng 4.1.1 Cấu hình phần cứng Thành phần CPU Chỉ số Intel(R) Core(TM) i5-4210U CPU @ 2.40 GHz RAM 8.00 GB (7.87 GB usable) Operating System Windows Ultimate SP1 64-bit HDD 500 GB Bảng 4.1 Môi trường thực nghiệm 4.1.2 Các phần mềm thư viện Các phần mềm sử dụng STT Tên phần mềm Eclipse Oxygen.2 Release (4.7.2) Nguồn http://www.eclipse.org/downloads Bảng 4.2 Các phần mềm sử dụng Các thư viện sử dụng STT Tên thư viện JvnTexpro.jar stanford-ner.jar Nguồn http://jvntextpro.sourceforge.net/ https://nlp.stanford.edu/software/CRFNER.shtml 27 TIEU LUAN MOI download : skknchat@gmail.com dependensee3.7.0.jar https://nlp.stanford.edu/software/lexparser.shtml Bảng 4.0.3 Các thư viện sử dụng 4.2 Dữ liệu thực nghiệm Dữ liệu bao gồm miền với 675 câu, chi tiết thể bảng đây: Miền Số câu Pháp luật 144 câu Kinh tế 124 câu Công nghệ thông tin 147 câu Giáo dục 80 câu Xã hội 98 câu Thể thao 82 câu Bảng 4.4 Dữ liệu thực nghiệm Dữ liệu tiền xử lý (tách câu, tách từ, gán nhãn từ loại gán nhãn thực thể) từ biểu diễn dòng hai câu cách dòng trống 4.3 Mô tả thực nghiệm Thực nghiệm tiến hành theo bước sau đây:  Bước 1: Thu thập liệu từ số hệ thống hỏi đáp (diễn đàn tin học, mục hỏi đáp trang luật Dương gia …), phân tích tiền xử lí liệu (loại bỏ từ dừng, từ xuất nhiều ít)  Bước 2: Sử dụng công cụ Jvn Textpro để tách từ gán nhãn từ loại gán nhãn thực thể Sau tiến hành kiểm tra gán lại nhãn thủ công cho trường hợp sai nhằm tăng độ xác huấn luyện mơ hình  Bước 3: Sử dụng công cụ Standford CoreNLP tiến hành trích xuất quan hệ phụ thuộc huấn luyện mơ hình CRFs dựa liệu gán nhãn thuộc tính trích xuất được(tương ứng với pha huấn luyện mơ trình bày trên)  Bước 4: Áp dụng mơ hình học suốt đời tiến hành đánh giá thực nghiệm miền với kịch sau: 28 TIEU LUAN MOI download : skknchat@gmail.com  Đánh giá nội miền: Thực thực nghiệm miền chia liệu miền thành phần: 50% liệu huấn luyện 50% liệu kiểm tra  Đánh giá chéo miền: Thực đánh giá chéo miền với kịch sau đây:  Dữ liệu kiểm tra lại (khác liệu huấn luyện liệu miền )  Dữ liệu kiểm tra 1/2 , tập liệu huấn luyện gồm hai thành phần:  Thành phần liệu từ miền khác  Dữ liệu từ với số lượng tăng dần: 1/6  Dữ liệu kiểm tra 1/2 , 1/4 1/2 , liệu huấn luyện liệu từ miền gần với dựa theo độ đo trình bày 4.4 Đánh giá Như trình bày luận văn sử dụng ba độ đo để đánh giá thực nghiệm Mục đích việc sử dụng ba độ đo giúp ước lượng tính đáng tin cậy mơ hình nhận dạng thực thể văn ngắn Tiếng Việt áp dụng mơ hình học suốt đời Sau luận văn trình bày chi tiết ba độ đo Ta có ma trận nhầm lẫn trình bày bảng đây[1]: Lớp dự đốn Lớp = P Lớp = N Lớp = P TP FN Lớp = N FP TN Lớp thực Bảng 4.5 Ma trận nhầm lẫn Bảng thể ma trận nhầm lẫn cho phân lớp nhị phân Tuy toán nhận dạng thực thể phân lớp đa nhãn, ta áp dụng cách coi việc phân lớp cho nhãn phân lớp nhị phân để đánh giá hay nói cách khác ta giải thích giá trị cách sau:  TP số ví dụ có nhãn l gán nhãn l (T) 29 TIEU LUAN MOI download : skknchat@gmail.com  TN số ví dụ có nhãn khác l gán nhãn khác l (T)  FP số ví dụ có nhãn khác l lại gán nhãn l (F)  FN số ví dụ có nhãn l lại gán nhãn khác l (F) Ba độ đo tính theo cơng thức sau[2]:  Độ đo hồi tưởng:  Độ đo xác: 2  Độ đo f1: f1    4.5 Kết thực nghiệm 4.5.1 Kết đánh giá nội miền Kết thực nghiệm kết trung bình loại thực thể: tên người, tên địa danh tên tổ chức Kết đánh giá nội miền trình bày bảng sau: CRFs L-CRFs Miền Độ hồi tưởng Độ xác Độ đo f1 Độ hồi tưởng Độ xác Độ đo f1 CNTT 0.427 0.898 0.579 0.51 0.849 0.637 KT 0.2 0.95 0.332 0.33 0.9 0.483 PL 0.248 0.666 0.362 0.304 0.622 0.409 XH 0.149 0.5 0.229 0.434 0.566 0.491 TT 0.364 0.582 0.448 0.419 0.555 0.478 GD 0.306 0.482 0.374 0.492 0.799 0.609 TB 0.282 0.68 0.387 0.415 0.715 0.518 Bảng 4.6 Kết thực nghiệm đánh giá nội miền 30 TIEU LUAN MOI download : skknchat@gmail.com Để so sánh đánh giá kết xác dễ dàng hơn, luận văn thể kết trung bình độ đo với hai phương pháp tiếp cận dạng biểu đồ sau : 0.8 0.7 0.6 0.5 CRFs 0.4 L-CRFs 0.3 0.2 0.1 Độ hồi tưởng Độ đo f1 Độ xác Hình 4.1 Kết thực nghiệm đánh giá nội miền L-CRFs cho kết tốt với phương pháp CRFs truyền thống, cụ thể độ đo f1 cao 0.131 Như nhận rằng, tri thức học từ miền khứ có ảnh hưởng đáng kể tới kết học miền 4.5.2 Kết đánh giá chéo miền CRFs Miền L-CRFs Độ hồi tưởng Độ xác Độ đo f1 Độ hồi tưởng Độ xác Độ đo f1 CNTT 0.512 0.801 0.624 0.532 0.787 0.635 KT 0.618 0.756 0.68 0.655 0.795 0.718 PL 0.266 0.642 0.376 0.286 0.655 0.398 XH 0.62 0.669 0.644 0.806 0.757 0.781 31 TIEU LUAN MOI download : skknchat@gmail.com TT 0.522 0.647 0.578 0.555 0.65 0.599 GD 0.568 0.857 0.683 0.626 0.84 0.717 TB 0.518 0.728 0.597 0.577 0.747 0.641 Bảng 4.7 Kết thực nghiệm đánh giá chéo miền Để so sánh đánh giá kết xác dễ dàng hơn, luận văn thể kết trung bình độ đo với hai phương pháp tiếp cận dạng biểu đồ sau : 0.8 0.7 0.6 0.5 CRFs 0.4 L-CRFs 0.3 0.2 0.1 Độ hồi tưởng Độ xác Độ đo f1 Hình 4.2 Kết thực nghiệm đánh giá chéo miền Trong kịch thực nghiệm này, kết L-CRFs cao CRFs truyền thống, nhiêu cao không đáng kể (f1 tăng 0.044) Chúng ta dễ dàng lí giải cho tượng Với việc liệu huấn luyện kết hợp tất miền, tập liệu huấn luyện đa dạng, dẫn đến kết nhận khả quan so với trường hợp đánh giá nội miền Bên cạnh đó, liệu miền khác sử dụng trình huấn luyện nên tác dụng L-CRFs khơng đáng kể 32 TIEU LUAN MOI download : skknchat@gmail.com 4.5.3 Kết đánh giá chéo miền có liệu miền đích Bảng thể kết thực nghiệm với liệu miền đích tập huấn luyện tăng dần sử dụng độ đo F1 thực với CRFs L-CRFs: CRFs L-CRFs Miền 1/2 1/4 1/6 1/2 1/4 1/6 CNTT 0.67 0.646 0.631 0.672 0.647 0.635 KT 0.731 0.725 0.7227 0.7492 0.7329 0.728 PL 0.433 0.405 0.394 0.458 0.434 0.422 XH 0.774 0.758 0.744 0.792 0.764 0.748 TT 0.608 0.590 0.582 0.659 0.63 0.624 GD 0.738 0.723 0.719 0.741 0.735 0.73 Bảng 4.8 Kết thực nghiệm đánh giá chéo miền có liệu miền đích Trong q trình học, vai trị liệu miền đích tập huấn luyện vơ quan trọng Qua kịch thực nghiệm này, ta dễ dàng nhận thấy liệu miền đích tập huấn luyện nhiều kết nhận có độ xác cao Việc áp dụng hóc suốt đời thơng qua thuật tốn L-CRFs cho kết tốt không đáng kể 4.5.4 Kết đánh giá chéo miền lấy liệu miền gần Để kiểm tra miền có “gần” hay không, luận văn thực đánh giá mức độ tương đồng hai miền mức độ từ vựng, với công thức sau[8]: | | | | | Trong đó: | | | | tập từ vựng thuộc miền cho biết mức độ | | | tập từ vựng thuộc miền 33 TIEU LUAN MOI download : skknchat@gmail.com Ta có bảng kết sau: CNTT KT XH PL TT GD CNTT - 0.672 0.933 0.616 0.8 0.721 KT 0.672 - 0.764 0.696 0.665 0.659 XH 0.933 0.764 - 0.645 0.928 0.548 PL 0.616 0.696 0.645 - 0.645 0.675 TT 0.8 0.665 0.928 0.645 - 0.631 GD 0.721 0.659 0.548 0.675 0.631 - Bảng 4.9 Kết đo độ “gần” miền mức từ vựng Từ kết trên, luận văn thực thực nghiệm đánh giá với phương pháp LCRFs có kết sau: L-CRFs Miền Độ xác Độ hồi tưởng Độ đo F1 Miền “gần” CNTT 0.5197 0.7913 0.6273 XH KT 0.7014 0.7183 0.7097 XH PL 0.337 0.669 0.448 KT XH 0.765 0.733 0.749 CNTT TT 0.5427 0.6609 0.596 XH GD 0.5057 0.7113 0.5911 CNTT Bảng 4.10 Kết thực nghiệm sử dụng liệu từ miền "gần" 34 TIEU LUAN MOI download : skknchat@gmail.com Nhận xét: Kết thực nghiệm chứng minh tính khả thi ưu điểm áp dụng phương pháp học suốt đời cho toán nhận dạng thực thể định danh văn Tiếng Việt Bên cạnh kết thực nghiệm làm bật lên khó khăn việc nhận dạng thực thể định danh văn ngắn tiếng Việt Cụ thể sau:  Khi ta thực thực nghiệm miền, không gian đặc trưng phân bố liệu huấn luyện kiểm tra Tuy nhiên đặc điểm văn ngắn nên kết nhận không khả quan, đạt độ đo f1 0.387 Khi áp dụng học suốt đời, ta nhận kết f1 0.518 tăng 0.131 so với phương pháp truyền thống  Trong thực nghiệm đánh giá chéo miền, không gian đặc trưng phân bố liệu miền khác nhau, kết CRFs trường hợp đạt f1 = 0.597 L-CRFs cho kết f1 = 0.641 nhờ tận dụng liệu học khứ Tuy nhiên trường hợp kết tăng 0.044 so với phương pháp truyền thống, tập liệu huấn luyện kết hợp với liệu miền khác nên việc tận dụng tri thức miền đem lại hiệu không đáng kể  Một câu hỏi đặt có mặt liệu miền đích tập liệu huấn luyện ảnh hưởng nhiều hay tới kết thực nghiệm? Để trả lời cho câu hỏi trên, luận văn tiến hành thực nghiệm trường hợp thứ ba Như kết thực nghiệm ta dễ dàng nhận thấy nhiều liệu miền đích tập huấn luyện cho kết cao  Trong thực nghiệm thứ 4, ta sử dụng tri thức có từ miền “gần” với miền xét, kết nhận tốt so với việc sử dụng tri thức từ tất miền Tuy nhiên thời gian chạy trường hợp thấp nhiều ta cần xem xét liệu nhỏ nhiều 35 TIEU LUAN MOI download : skknchat@gmail.com Kết luận Luận văn đạt được:  Tìm hiểu tốn nhận dạng thực thể văn Tiếng Việt cách tiếp cận phương pháp học máy sử dụng mơ hình trường ngẫu nhiên( Conditional Random Fields)  Tìm hiểu kiến thức học suốt đời (định nghĩa, phân loại, cách đánh giá… ) áp dụng học suốt đời  Tìm hiểu việc áp dụng học suốt đời cho mơ hình CRFs nhằm cải tiến phương pháp nhận dạng thực thể văn ngắn để khắc phục khó khăn gặp phải đặc điểm văn ngắn Những đóng góp luận văn:  Xây dựng mơ hình CRFs để nhận dạng thực thể văn Tiếng Việt áp dụng học suốt đời  Tiến hành đánh giá thực nghiệm để so sánh nhiều trường hợp, từ chứng minh áp dụng học suốt đời làm tăng hiệu suất việc học vai trò quan trọng cảu liệu có thơng qua toán học khứ cho việc nhận dạng thực thể định danh toán học 36 TIEU LUAN MOI download : skknchat@gmail.com Tài liệu tham khảo Tiếng Việt Thụy, H Q., Hiếu, P X., & Sơn, Đ Nguyễn Trí Thành, Nguyễn Thu Trang, Nguyễn Cẩm Tú (2009) Giáo trình Khai phá liệu Web Tiếng Anh Abdallah, Z S., Carman, M., & Haffari, G (2017) Multi-domain evaluation framework for named entity recognition tools Computer Speech & Language, 43, 34-55 Chen, M., Jin, X., & Shen, D (2011, July) Short text classification improved by learning multi-granularity topics In IJCAI (pp 1776-1781) De Marneffe, M C., & Manning, C D (2008) Stanford typed dependencies manual (pp 338-345) Technical report, Stanford University Farmakiotou, D., Karkaletsis, V., Koutsias, J., Sigletos, G., Spyropoulos, C D., & Stamatopoulos, P (2000, September) Rule-based named entity recognition for Greek financial texts In Proceedings of the Workshop on Computational lexicography and Multimedia Dictionaries (COMLEX 2000) (pp 75-78) Ferreira, E., Balsa, J., & Branco, A (2007) Combining rule-based and statistical methods for named entity recognition in Portuguese In Actas da 5a Workshop em Tecnologias da Informaỗao e da Linguagem Humana Fei, G., Wang, S., & Liu, B (2016, August) Learning cumulatively to become more knowledgeable In Proceedings of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining (pp 1565-1574) ACM Ha, Q T., Pham, T N., Nguyen, V Q., Nguyen, T C., Vuong, T H., Tran, M T., & Nguyen, T T (2018, March) A New Lifelong Topic Modeling Method and Its Application to Vietnamese Text Multi-label Classification In Asian Conference on Intelligent Information and Database Systems (pp 200-210) Springer, Cham Jakob, N., & Gurevych, I (2010, October) Extracting opinion targets in a single-and cross-domain setting with conditional random fields In Proceedings of the 2010 conference on empirical methods in natural language processing (pp 1035-1045) Association for Computational Linguistics 37 TIEU LUAN MOI download : skknchat@gmail.com 10 Kumar, A., & Daume III, H (2012) Learning task grouping and overlap in multi- task learning arXiv preprint arXiv:1206.6417 11 Lafferty, J., McCallum, A., & Pereira, F C (2001) Conditional random fields: Probabilistic models for segmenting and labeling sequence data 12 McCallum, A., Freitag, D., & Pereira, F C (2000, June) Maximum Entropy Markov Models for Information Extraction and Segmentation In ICML (Vol 17, pp 591-598) 13 McCallum, A., & Li, W (2003, May) Early results for named entity recognition with conditional random fields, feature induction and web-enhanced lexicons In Proceedings of the seventh conference on Natural language learning at HLT-NAACL 2003-Volume (pp 188- 191) Association for Computational Linguistics 14 Mitchell, T., Cohen, W., Hruschka, E., Talukdar, P., Yang, B., Betteridge, J., & Krishnamurthy, J (2018) Never-ending learning Communications of the ACM, 61(5), 103-115 15 Silver, D L., Mason, G., & Eljabu, L (2015, June) Consolidation Using Sweep Task Rehearsal: Overcoming the Stability-Plasticity Problem In Canadian Conference on Artificial Intelligence (pp 307-322) Springer, Cham 16 Shu, L., Xu, H., & Liu, B (2017) Lifelong learning crf for supervised aspect extraction arXiv preprint arXiv:1705.00251 17 Thrun, S., Mitchell, T.M.: Lifelong robot learning Robot Auton Syst 15(1–2), 25– 46(1995) 18 Thrun, S.: Explanation-Based Neural Network Learning: A Lifelong Learning Approach.Springer, US (1996) 19 Tran, Q T., Pham, T T., Ngo, Q H., Dinh, D., & Collier, N (2007) Named entity recognition in Vietnamese documents Progress in Informatics Journal,5, 14-17 20 Tu, N C., Oanh, T T., Hieu, P X., & Thuy, H Q (2005) Named entity recognition in vietnamese free-text and web documents using conditional random fields In The 8th Conference on Some selection problems of Information Technology and Telecommunication 38 TIEU LUAN MOI download : skknchat@gmail.com 21 Zhiyuan Chen and Bing Liu Lifelong Machine Learning Morgan & Claypool Publishers, November 2016 22 Zhou, G., & Su, J (2002, July) Named entity recognition using an HMM-based chunk tagger In proceedings of the 40th Annual Meeting on Association for Computational Linguistics (pp 473-480) Association for Computational Linguistics Trang web 22 http://cs.nyu.edu/cs/projects/proteus 39 TIEU LUAN MOI download : skknchat@gmail.com ... toán nhận dạng thực thể cho văn ngắn Tiếng Việt Đề tài luận văn nhận dạng thực thể định danh văn ngắn Tiếng Việt Chương giới thiệu toán nhận dạng thực thể văn Tiếng Việt khó khăn gặp phải thực. .. toán nhận dạng thực thể ý nghĩa học suốt đời, em chọn đề tài nhận dạng thực thể định danh từ văn ngắn tiếng Việt đánh giá thực nghiệm Đối với luận văn này, em tìm hiểu áp dụng thực nghiệm nhận dạng. .. cho toán nhận dạng thực thể định danh văn Tiếng Việt Bên cạnh kết thực nghiệm làm bật lên khó khăn việc nhận dạng thực thể định danh văn ngắn tiếng Việt Cụ thể sau:  Khi ta thực thực nghiệm miền,

Ngày đăng: 27/06/2022, 09:14

HÌNH ẢNH LIÊN QUAN

Hình 1.1 Quy trình nhận dạng thực thể định danh[2] - (LUẬN văn THẠC sĩ) nhận dạng thực thể định danh từ văn bản ngắn tiếng việt và đánh giá thực nghiệm   luận văn ths  máy tính 84801
Hình 1.1 Quy trình nhận dạng thực thể định danh[2] (Trang 11)
 Mơ hình trích xuất: Thành phần quan trọng nhất dùng để phân loại các - (LUẬN văn THẠC sĩ) nhận dạng thực thể định danh từ văn bản ngắn tiếng việt và đánh giá thực nghiệm   luận văn ths  máy tính 84801
h ình trích xuất: Thành phần quan trọng nhất dùng để phân loại các (Trang 12)
Bảng 1.1 Danh sách các loại thực thể - (LUẬN văn THẠC sĩ) nhận dạng thực thể định danh từ văn bản ngắn tiếng việt và đánh giá thực nghiệm   luận văn ths  máy tính 84801
Bảng 1.1 Danh sách các loại thực thể (Trang 13)
Hình 1.2 Ví dụ về hệ thống nhận dạng thực thể Tiếng Anh - (LUẬN văn THẠC sĩ) nhận dạng thực thể định danh từ văn bản ngắn tiếng việt và đánh giá thực nghiệm   luận văn ths  máy tính 84801
Hình 1.2 Ví dụ về hệ thống nhận dạng thực thể Tiếng Anh (Trang 15)
Hình 2.1 Đồ thị biểu diễn mơ hình CRFs - (LUẬN văn THẠC sĩ) nhận dạng thực thể định danh từ văn bản ngắn tiếng việt và đánh giá thực nghiệm   luận văn ths  máy tính 84801
Hình 2.1 Đồ thị biểu diễn mơ hình CRFs (Trang 18)
Hình 2.2 Kiến trúc hệ thống học suốt đời - (LUẬN văn THẠC sĩ) nhận dạng thực thể định danh từ văn bản ngắn tiếng việt và đánh giá thực nghiệm   luận văn ths  máy tính 84801
Hình 2.2 Kiến trúc hệ thống học suốt đời (Trang 24)
Chương 3. Mơ hình học suốt đời áp dụng vào bài tốn nhận dạng thực thể  - (LUẬN văn THẠC sĩ) nhận dạng thực thể định danh từ văn bản ngắn tiếng việt và đánh giá thực nghiệm   luận văn ths  máy tính 84801
h ương 3. Mơ hình học suốt đời áp dụng vào bài tốn nhận dạng thực thể (Trang 30)
mơ hình CRFs M (dịng 4) trê nF để trích xuất ra một tập các thực thể 2.      được thêm vào S (lưu các thực thể đã được khai thác trong quá khứ) - (LUẬN văn THẠC sĩ) nhận dạng thực thể định danh từ văn bản ngắn tiếng việt và đánh giá thực nghiệm   luận văn ths  máy tính 84801
m ơ hình CRFs M (dịng 4) trê nF để trích xuất ra một tập các thực thể 2. được thêm vào S (lưu các thực thể đã được khai thác trong quá khứ) (Trang 33)
Chương 4. Thực nghiệm và kết quả - (LUẬN văn THẠC sĩ) nhận dạng thực thể định danh từ văn bản ngắn tiếng việt và đánh giá thực nghiệm   luận văn ths  máy tính 84801
h ương 4. Thực nghiệm và kết quả (Trang 35)
Bảng 4.1 Mơi trường thực nghiệm - (LUẬN văn THẠC sĩ) nhận dạng thực thể định danh từ văn bản ngắn tiếng việt và đánh giá thực nghiệm   luận văn ths  máy tính 84801
Bảng 4.1 Mơi trường thực nghiệm (Trang 35)
Bảng 4.0.3 Các thư viện sử dụng - (LUẬN văn THẠC sĩ) nhận dạng thực thể định danh từ văn bản ngắn tiếng việt và đánh giá thực nghiệm   luận văn ths  máy tính 84801
Bảng 4.0.3 Các thư viện sử dụng (Trang 36)
Ta cĩ ma trận nhầm lẫn được trình bày như bảng dưới đây[1]: - (LUẬN văn THẠC sĩ) nhận dạng thực thể định danh từ văn bản ngắn tiếng việt và đánh giá thực nghiệm   luận văn ths  máy tính 84801
a cĩ ma trận nhầm lẫn được trình bày như bảng dưới đây[1]: (Trang 37)
Kết quả đánh giá nội miền được trình bày trong bảng sau: - (LUẬN văn THẠC sĩ) nhận dạng thực thể định danh từ văn bản ngắn tiếng việt và đánh giá thực nghiệm   luận văn ths  máy tính 84801
t quả đánh giá nội miền được trình bày trong bảng sau: (Trang 38)
Hình 4.1 Kết quả thực nghiệm đánh giá nội miền - (LUẬN văn THẠC sĩ) nhận dạng thực thể định danh từ văn bản ngắn tiếng việt và đánh giá thực nghiệm   luận văn ths  máy tính 84801
Hình 4.1 Kết quả thực nghiệm đánh giá nội miền (Trang 39)
4.5.2 Kết quả đánh giá chéo miền - (LUẬN văn THẠC sĩ) nhận dạng thực thể định danh từ văn bản ngắn tiếng việt và đánh giá thực nghiệm   luận văn ths  máy tính 84801
4.5.2 Kết quả đánh giá chéo miền (Trang 39)
Hình 4.2 Kết quả thực nghiệm đánh giá chéo miền - (LUẬN văn THẠC sĩ) nhận dạng thực thể định danh từ văn bản ngắn tiếng việt và đánh giá thực nghiệm   luận văn ths  máy tính 84801
Hình 4.2 Kết quả thực nghiệm đánh giá chéo miền (Trang 40)
Bảng 4.7 Kết quả thực nghiệm đánh giá chéo miền - (LUẬN văn THẠC sĩ) nhận dạng thực thể định danh từ văn bản ngắn tiếng việt và đánh giá thực nghiệm   luận văn ths  máy tính 84801
Bảng 4.7 Kết quả thực nghiệm đánh giá chéo miền (Trang 40)
Bảng 4.8 Kết quả thực nghiệm đánh giá chéo miền cĩ dữ liệu miền đích - (LUẬN văn THẠC sĩ) nhận dạng thực thể định danh từ văn bản ngắn tiếng việt và đánh giá thực nghiệm   luận văn ths  máy tính 84801
Bảng 4.8 Kết quả thực nghiệm đánh giá chéo miền cĩ dữ liệu miền đích (Trang 41)
Ta cĩ bảng kết quả như sau: - (LUẬN văn THẠC sĩ) nhận dạng thực thể định danh từ văn bản ngắn tiếng việt và đánh giá thực nghiệm   luận văn ths  máy tính 84801
a cĩ bảng kết quả như sau: (Trang 42)

TRÍCH ĐOẠN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN