Nhận dạng thực thể định danh từ văn bản ngắn tiếng Việt và đánh giá thực nghiệm : Luận văn ThS. Máy tính: 84801

47 17 0
Nhận dạng thực thể định danh từ văn bản ngắn tiếng Việt và đánh giá thực nghiệm :  Luận văn ThS. Máy tính: 84801

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ PHẠM THỊ THU TRANG NHẬN DẠNG THỰC THỂ ĐỊNH DANH TỪ VĂN BẢN NGẮN TIẾNG VIỆT VÀ ĐÁNH GIÁ THỰC NGHIỆM LUẬN VĂN THẠC SĨ HỆ THỐNG THÔNG TIN Hà Nội - 2018 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ PHẠM THỊ THU TRANG NHẬN DẠNG THỰC THỂ ĐỊNH DANH TỪ VĂN BẢN NGẮN TIẾNG VIỆT VÀ ĐÁNH GIÁ THỰC NGHIỆM Ngành: Công nghệ thông tin Chuyên ngành: Hệ thống thông tin Mã số: 60480104 LUẬN VĂN THẠC SĨ HỆ THỐNG THÔNG TIN NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS.TS Hà Quang Thụy Hà Nội – 2018 LỜI CẢM ƠN Lời đầu tiên, em xin gửi lời cảm ơn sâu sắc tới thầy giáo PGS.TS Hà Quang Thụy tận tình giúp đỡ, bảo hướng dẫn em suốt trình thực luận văn Em xin bày tỏ lời cảm ơn trân thành đến thầy nhiệt tình tâm huyết giảng dạy em suốt hai năm qua, giúp em trang bị kiến thức để vững bước tương lai Em muốn gửi lời cảm ơn tới anh chị bạn phịng thí nghiệm Khoa học liệu Công nghệ Tri thức chia sẻ cho em nhiều kiến thức bổ ích giúp đỡ em lúc khó khăn thực khóa luận Lời cuối cùng, em muốn gửi lời cảm ơn đến cha mẹ chị người tin tưởng ủng hộ em đường em chọn, che chở giúp đỡ em để em vượt qua khó khăn sống Hà Nội, ngày 16 tháng 11 năm 2018 Học viên Phạm Thị Thu Trang LỜI CAM ĐOAN Em xin cam đoan nhận dạng thực thể định danh từ văn ngắn tiếng Việt đánh giá thực nghiệm trình bày luận văn em thực hướng dẫn PGS.TS Hà Quang Thụy Tất tham khảo từ nghiên cứu liên quan nêu nguồn gốc cách rõ ràng từ danh mục tài liệu tham khảo khóa luận Trong khóa luận, khơng có việc chép tài liệu, cơng trình nghiên cứu người khác mà khơng rõ tài liệu tham khảo Hà Nội, ngày 16 tháng 11 năm 2018 Học viên Phạm Thị Thu Trang MỤC LỤC Mở đầu Chương Bài toán nhận dạng thực thể cho văn ngắn Tiếng Việt 1.1 Bài toán nhận dạng thực thể 1.1.1 Bài toán 1.1.2 Khó khăn toán nhận dạng thực thể văn ngắn Tiếng Việt 1.2 Các nghiên cứu có liên quan 1.2.1 Các nghiên cứu nhận dạng thực thể Tiếng Anh 1.2.2 Các nghiên cứu nhận dạng thực thể Tiếng Việt Chương Học suốt đời mơ hình trường ngẫu nhiên có điều kiện 2.1 Mơ hình trường ngẫu nhiên có điều kiện áp dụng cho tốn nhận dạng thực thể 2.1.1 Khái niệm mơ hình trường ngẫu nhiên có điều kiện 2.1.2 Ước lượng tham số cho mơ hình 11 2.1.3 Tìm chuỗi nhãn phù hợp 12 2.2 Thuộc tính phụ thuộc tổng quát (G) 12 2.3 Định nghĩa học suốt đời 14 2.4 Kiến trúc hệ thống học suốt đời 16 2.5 Phương pháp đánh giá 18 2.6 Học giám sát suốt đời 20 2.7 Áp dụng học suốt đời vào mơ hình trường ngẫu nhiên có điều kiện 20 Chương Mơ hình học suốt đời áp dụng vào tốn nhận dạng thực thể 22 3.1 Mẫu phụ thuộc 22 3.2 Thuật toán L-CRF 23 Chương Thực nghiệm kết 27 4.1 Môi trường công cụ sử dụng 27 4.1.1 Cấu hình phần cứng 27 4.1.2 Các phần mềm thư viện 27 4.2 Dữ liệu thực nghiệm 28 4.3 Mô tả thực nghiệm 28 4.4 Đánh giá 29 4.5 Kết thực nghiệm 30 4.5.1 Kết đánh giá nội miền 30 4.5.2 Kết đánh giá chéo miền 31 4.5.3 Kết đánh giá chéo miền có liệu miền đích 33 4.5.4 Kết đánh giá chéo miền lấy liệu miền gần 33 Nhận xét: 35 Kết luận 36 Tài liệu tham khảo 37 Tiếng Việt 37 Tiếng Anh 37 Trang web 39 DANH SÁCH HÌNH VẼ Hình 1.1 Quy trình nhận dạng thực thể định danh[2] Hình 1.2 Ví dụ hệ thống nhận dạng thực thể Tiếng Anh Hình 1.3 Ví dụ hệ thống nhận dạng thực thể Tiếng Việt Hình 2.1 Đồ thị biểu diễn mơ hình CRFs 10 Hình 2.2 Kiến trúc hệ thống học suốt đời 16 Hình 3.1 Mơ hình hệ thống NER văn Tiếng Việt áp dụng học suốt đời 25 Hình 4.1 Kết thực nghiệm đánh giá nội miền 31 Hình 4.2 Kết thực nghiệm đánh giá chéo miền 32 DANH SÁCH BẢNG BIỂU Bảng 1.1 Danh sách loại thực thể Bảng 4.1 Môi trường thực nghiệm 27 Bảng 4.2 Các phần mềm sử dụng 27 Bảng 4.3 Các thư viện sử dụng 28 Bảng 4.4 Dữ liệu thực nghiệm 28 Bảng 4.5 Ma trận nhầm lẫn 29 Bảng 4.6 Kết thực nghiệm đánh giá nội miền 30 Bảng 4.7 Kết thực nghiệm đánh giá chéo miền 32 Bảng 4.8 Kết thực nghiệm đánh giá chéo miền có liệu miền đích 33 Bảng 4.9 Kết đo độ “gần” miền mức từ vựng 34 Bảng 4.10 Kết thực nghiệm sử dụng liệu từ miền "gần" 34 Mở đầu Nhận dạng thực thể định danh cầu nối quan trọng việc kết nối liệu có cấu trúc liệu phi cấu trúc Nó có nhiều ứng dụng như: xây dựng máy tìm kiếm thực thể, tóm tắt văn bản, tự động đánh số cho sách, bước tiền xử lí làm đơn giản hóa tốn dịch máy,… Bên cạnh đó, việc bùng nổ mạng xã hội Facebook, Twitter, hệ thống hỏi đáp mang lại lượng thông tin khổng lồ Đặc điểm liệu thường văn ngắn, từ ngữ sử dụng thường văn nói liên quan đến nhiều miền liệu khác Chính đặc điểm mang lại nhiều khó khăn thực tốn nhận dạng thực thể định danh Khi gặp phải vấn đề mới, thường giải dựa vào tri thức, kinh nghiệm có trước Ví dụ như: giải toán ta thường liên hệ để đưa chúng dạng trước làm tìm tương đồng chúng Việc áp dụng tri thức thường làm tăng tốc độ chất lượng việc học Nhận xét không liên quan đến việc học người mà liên quan đến học máy Việc học nhiệm vụ cải thiện việc sử tri thức lưu lại từ nhiệm vụ học trước Nói cách khác ta sử dụng tri thức có nhằm nâng cao hiệu việc học cho nhiệm vụ Ý thức tầm quan trọng toán nhận dạng thực thể ý nghĩa học suốt đời, em chọn đề tài nhận dạng thực thể định danh từ văn ngắn tiếng Việt đánh giá thực nghiệm Đối với luận văn này, em tìm hiểu áp dụng thực nghiệm nhận dạng thực thể văn ngắn Tiếng Việt với mơ hình CRFs áp dụng học suốt đời Cụ thể, em tiến hành nghiên cứu áp dụng tri thức lưu lại từ việc học miền khứ nhằm nâng cao hiệu suất toán nhận dạng thực thể định danh nhiệm vụ học Luận văn tổ chức thành chương sau:  Chương giới thiệu tổng quan toán nhận dạng thực thể văn Tiếng Việt, khó khăn gặp phải thực toán cho văn ngắn Tiếng Việt nghiên cứu có liên quan áp dụng cho Tiếng Anh, Tiếng Việt  Chương định nghĩa học suốt đời, kiến trúc mơ hình học suốt đời, đặc điểm học suốt đời phương pháp áp dụng học suốt đời vào mơ hình trường ngẫu nhiên có điều kiện  Chương trình bày thuật tốn L-CRFs nhằm tăng hiệu mơ hình trường ngẫu nhiên có điều kiện áp dụng cho tốn nhận dạng thực thể định danh văn ngắn Tiếng Việt  Chương trình bày đánh giá thực nghiệm hai trường hợp: miền liệu, đánh giá chéo miền không áp dụng học suốt đời áp dụng học suốt đời với kịch liệu huấn luyện khác Pha học suốt đời: thuật toán thực tập liệu lặp lặp lại Thực khởi tạo thuộc tính (F) liệu (dịng 3) áp dụng mơ hình CRFs M (dịng 4) F để trích xuất tập thực thể thêm vào S (lưu thực thể khai thác khứ) Từ S, khai thác loạt khía cạnh thường xuyên Ngưỡng tần số λ Nếu giống với lần lặp trước, thuật tốn dừng khơng tìm thấy thực thể Chúng ta lặp lặp lại quy trình lần trích xuất mang lại kết mới, làm tăng kích thước K, khía cạnh đáng tin cậy khứ kiến thức khứ K tăng tạo mẫu phụ thuộc nhiều hơn, cho phép nhiều thực thể Ngược lại: số khía cạnh đáng tin cậy bổ sung tìm thấy M trích xuất khía cạnh bổ sung lần lặp Các dòng 10 11 cập nhật hai tập cho lần lặp Mơ hình hệ thống NER văn Tiếng Việt áp dụng học suốt đời thể hình 3.2 đây: Hình 3.1 Mơ hình hệ thống NER văn Tiếng Việt áp dụng học suốt đời Các thành phần mơ hình: 25  Bộ quản lý tốn: Quản lý toán thực hay N miền áp dụng mơ hình M vào để nhận dạng thực thể, cung cấp liệu cho sinh đặc trưng áp dụng mơ hình M cho miền N+1  Cơ sở tri thức: Chứa thực thể nhận dạng áp dụng mô hình N miền khứ  Bộ sinh đặc trưng: nhiệm vụ trích xuất mẫu quan hệ từ liệu miền thứ N+1 kết hợp với liệu sở tri thức với nhãn tri thức “A” “O” Đầu đầu vào học dựa tri thức, chìa khóa giúp tăng hiệu mơ hình áp dụng cho miền liệu  Bộ học dựa tri thức: Sử dụng mẫu quan hệ có từ sinh đặc trưng để nhận dạng thực thể cho miền sử dụng mơ hình CRFs  Mơ hình CRFs: Mơ hình huấn luyện áp dụng N miền Tổng kết chương Chương trình bày phương pháp nhận dạng thực thể văn Tiếng Việt áp dụng học suốt đời Đồng thời, chương trình bày chi tiết thuật toán để tăng cường sử dụng kiến thức học khứ nhằm tăng hiệu việc học miền 26 Chương Thực nghiệm kết Như trình bày phần trên, luận văn tiến hành thực nghiệm đánh giá phương pháp nhận dạng thực thể văn ngắn Tiếng Việt áp dụng học suốt đời so sánh với phương pháp truyền thốn Chương mơ tả chi tiết q trình tiến hành thực nghiệm kết thực nghiệm 4.1 Môi trường công cụ sử dụng 4.1.1 Cấu hình phần cứng Thành phần CPU Chỉ số Intel(R) Core(TM) i5-4210U CPU @ 2.40 GHz RAM 8.00 GB (7.87 GB usable) Operating System Windows Ultimate SP1 64-bit HDD 500 GB Bảng 4.1 Môi trường thực nghiệm 4.1.2 Các phần mềm thư viện Các phần mềm sử dụng STT Tên phần mềm Eclipse Oxygen.2 Release (4.7.2) Nguồn http://www.eclipse.org/downloads Bảng 4.2 Các phần mềm sử dụng Các thư viện sử dụng STT Tên thư viện JvnTexpro.jar stanford-ner.jar Nguồn http://jvntextpro.sourceforge.net/ https://nlp.stanford.edu/software/CRFNER.shtml 27 dependensee3.7.0.jar https://nlp.stanford.edu/software/lexparser.shtml Bảng 4.0.3 Các thư viện sử dụng 4.2 Dữ liệu thực nghiệm Dữ liệu bao gồm miền với 675 câu, chi tiết thể bảng đây: Miền Số câu Pháp luật 144 câu Kinh tế 124 câu Công nghệ thông tin 147 câu Giáo dục 80 câu Xã hội 98 câu Thể thao 82 câu Bảng 4.4 Dữ liệu thực nghiệm Dữ liệu tiền xử lý (tách câu, tách từ, gán nhãn từ loại gán nhãn thực thể) từ biểu diễn dòng hai câu cách dòng trống 4.3 Mô tả thực nghiệm Thực nghiệm tiến hành theo bước sau đây:  Bước 1: Thu thập liệu từ số hệ thống hỏi đáp (diễn đàn tin học, mục hỏi đáp trang luật Dương gia …), phân tích tiền xử lí liệu (loại bỏ từ dừng, từ xuất nhiều q ít)  Bước 2: Sử dụng cơng cụ Jvn Textpro để tách từ gán nhãn từ loại gán nhãn thực thể Sau tiến hành kiểm tra gán lại nhãn thủ công cho trường hợp sai nhằm tăng độ xác huấn luyện mơ hình  Bước 3: Sử dụng cơng cụ Standford CoreNLP tiến hành trích xuất quan hệ phụ thuộc huấn luyện mơ hình CRFs dựa liệu gán nhãn thuộc tính trích xuất được(tương ứng với pha huấn luyện mơ trình bày trên)  Bước 4: Áp dụng mơ hình học suốt đời tiến hành đánh giá thực nghiệm miền với kịch sau: 28  Đánh giá nội miền: Thực thực nghiệm miền chia liệu miền thành phần: 50% liệu huấn luyện 50% liệu kiểm tra  Đánh giá chéo miền: Thực đánh giá chéo miền với kịch sau đây:  Dữ liệu kiểm tra lại (khác liệu huấn luyện liệu miền )  Dữ liệu kiểm tra 1/2 , tập liệu huấn luyện gồm hai thành phần:  Thành phần liệu từ miền khác  Dữ liệu từ với số lượng tăng dần: 1/6  Dữ liệu kiểm tra 1/2 , 1/4 1/2 , liệu huấn luyện liệu từ miền gần với dựa theo độ đo trình bày 4.4 Đánh giá Như trình bày luận văn sử dụng ba độ đo để đánh giá thực nghiệm Mục đích việc sử dụng ba độ đo giúp ước lượng tính đáng tin cậy mơ hình nhận dạng thực thể văn ngắn Tiếng Việt áp dụng mơ hình học suốt đời Sau luận văn trình bày chi tiết ba độ đo Ta có ma trận nhầm lẫn trình bày bảng đây[1]: Lớp dự đoán Lớp = P Lớp = N Lớp = P TP FN Lớp = N FP TN Lớp thực Bảng 4.5 Ma trận nhầm lẫn Bảng thể ma trận nhầm lẫn cho phân lớp nhị phân Tuy toán nhận dạng thực thể phân lớp đa nhãn, ta áp dụng cách coi việc phân lớp cho nhãn phân lớp nhị phân để đánh giá hay nói cách khác ta giải thích giá trị cách sau:  TP số ví dụ có nhãn l gán nhãn l (T) 29  TN số ví dụ có nhãn khác l gán nhãn khác l (T)  FP số ví dụ có nhãn khác l lại gán nhãn l (F)  FN số ví dụ có nhãn l lại gán nhãn khác l (F) Ba độ đo tính theo cơng thức sau[2]:  Độ đo hồi tưởng:  Độ đo xác: 2  Độ đo f1: f1    4.5 Kết thực nghiệm 4.5.1 Kết đánh giá nội miền Kết thực nghiệm kết trung bình loại thực thể: tên người, tên địa danh tên tổ chức Kết đánh giá nội miền trình bày bảng sau: CRFs L-CRFs Miền Độ hồi tưởng Độ xác Độ đo f1 Độ hồi tưởng Độ xác Độ đo f1 CNTT 0.427 0.898 0.579 0.51 0.849 0.637 KT 0.2 0.95 0.332 0.33 0.9 0.483 PL 0.248 0.666 0.362 0.304 0.622 0.409 XH 0.149 0.5 0.229 0.434 0.566 0.491 TT 0.364 0.582 0.448 0.419 0.555 0.478 GD 0.306 0.482 0.374 0.492 0.799 0.609 TB 0.282 0.68 0.387 0.415 0.715 0.518 Bảng 4.6 Kết thực nghiệm đánh giá nội miền 30 Để so sánh đánh giá kết xác dễ dàng hơn, luận văn thể kết trung bình độ đo với hai phương pháp tiếp cận dạng biểu đồ sau : 0.8 0.7 0.6 0.5 CRFs 0.4 L-CRFs 0.3 0.2 0.1 Độ hồi tưởng Độ đo f1 Độ xác Hình 4.1 Kết thực nghiệm đánh giá nội miền L-CRFs cho kết tốt với phương pháp CRFs truyền thống, cụ thể độ đo f1 cao 0.131 Như nhận rằng, tri thức học từ miền khứ có ảnh hưởng đáng kể tới kết học miền 4.5.2 Kết đánh giá chéo miền CRFs Miền L-CRFs Độ hồi tưởng Độ xác Độ đo f1 Độ hồi tưởng Độ xác Độ đo f1 CNTT 0.512 0.801 0.624 0.532 0.787 0.635 KT 0.618 0.756 0.68 0.655 0.795 0.718 PL 0.266 0.642 0.376 0.286 0.655 0.398 XH 0.62 0.669 0.644 0.806 0.757 0.781 31 TT 0.522 0.647 0.578 0.555 0.65 0.599 GD 0.568 0.857 0.683 0.626 0.84 0.717 TB 0.518 0.728 0.597 0.577 0.747 0.641 Bảng 4.7 Kết thực nghiệm đánh giá chéo miền Để so sánh đánh giá kết xác dễ dàng hơn, luận văn thể kết trung bình độ đo với hai phương pháp tiếp cận dạng biểu đồ sau : 0.8 0.7 0.6 0.5 CRFs 0.4 L-CRFs 0.3 0.2 0.1 Độ hồi tưởng Độ xác Độ đo f1 Hình 4.2 Kết thực nghiệm đánh giá chéo miền Trong kịch thực nghiệm này, kết L-CRFs cao CRFs truyền thống, nhiêu cao không đáng kể (f1 tăng 0.044) Chúng ta dễ dàng lí giải cho tượng Với việc liệu huấn luyện kết hợp tất miền, tập liệu huấn luyện đa dạng, dẫn đến kết nhận khả quan so với trường hợp đánh giá nội miền Bên cạnh đó, liệu miền khác sử dụng trình huấn luyện nên tác dụng L-CRFs không đáng kể 32 4.5.3 Kết đánh giá chéo miền có liệu miền đích Bảng thể kết thực nghiệm với liệu miền đích tập huấn luyện tăng dần sử dụng độ đo F1 thực với CRFs L-CRFs: CRFs L-CRFs Miền 1/2 1/4 1/6 1/2 1/4 1/6 CNTT 0.67 0.646 0.631 0.672 0.647 0.635 KT 0.731 0.725 0.7227 0.7492 0.7329 0.728 PL 0.433 0.405 0.394 0.458 0.434 0.422 XH 0.774 0.758 0.744 0.792 0.764 0.748 TT 0.608 0.590 0.582 0.659 0.63 0.624 GD 0.738 0.723 0.719 0.741 0.735 0.73 Bảng 4.8 Kết thực nghiệm đánh giá chéo miền có liệu miền đích Trong q trình học, vai trị liệu miền đích tập huấn luyện vơ quan trọng Qua kịch thực nghiệm này, ta dễ dàng nhận thấy liệu miền đích tập huấn luyện nhiều kết nhận có độ xác cao Việc áp dụng hóc suốt đời thơng qua thuật tốn L-CRFs cho kết tốt không đáng kể 4.5.4 Kết đánh giá chéo miền lấy liệu miền gần Để kiểm tra miền có “gần” hay không, luận văn thực đánh giá mức độ tương đồng hai miền mức độ từ vựng, với công thức sau[8]: | | | | | Trong đó: | | | | tập từ vựng thuộc miền cho biết mức độ | | | 33 tập từ vựng thuộc miền Ta có bảng kết sau: CNTT KT XH PL TT GD CNTT - 0.672 0.933 0.616 0.8 0.721 KT 0.672 - 0.764 0.696 0.665 0.659 XH 0.933 0.764 - 0.645 0.928 0.548 PL 0.616 0.696 0.645 - 0.645 0.675 TT 0.8 0.665 0.928 0.645 - 0.631 GD 0.721 0.659 0.548 0.675 0.631 - Bảng 4.9 Kết đo độ “gần” miền mức từ vựng Từ kết trên, luận văn thực thực nghiệm đánh giá với phương pháp LCRFs có kết sau: L-CRFs Miền Độ xác Độ hồi tưởng Độ đo F1 Miền “gần” CNTT 0.5197 0.7913 0.6273 XH KT 0.7014 0.7183 0.7097 XH PL 0.337 0.669 0.448 KT XH 0.765 0.733 0.749 CNTT TT 0.5427 0.6609 0.596 XH GD 0.5057 0.7113 0.5911 CNTT Bảng 4.10 Kết thực nghiệm sử dụng liệu từ miền "gần" 34 Nhận xét: Kết thực nghiệm chứng minh tính khả thi ưu điểm áp dụng phương pháp học suốt đời cho toán nhận dạng thực thể định danh văn Tiếng Việt Bên cạnh kết thực nghiệm làm bật lên khó khăn việc nhận dạng thực thể định danh văn ngắn tiếng Việt Cụ thể sau:  Khi ta thực thực nghiệm miền, không gian đặc trưng phân bố liệu huấn luyện kiểm tra Tuy nhiên đặc điểm văn ngắn nên kết nhận không khả quan, đạt độ đo f1 0.387 Khi áp dụng học suốt đời, ta nhận kết f1 0.518 tăng 0.131 so với phương pháp truyền thống  Trong thực nghiệm đánh giá chéo miền, không gian đặc trưng phân bố liệu miền khác nhau, kết CRFs trường hợp đạt f1 = 0.597 L-CRFs cho kết f1 = 0.641 nhờ tận dụng liệu học khứ Tuy nhiên trường hợp kết tăng 0.044 so với phương pháp truyền thống, tập liệu huấn luyện kết hợp với liệu miền khác nên việc tận dụng tri thức miền đem lại hiệu không đáng kể  Một câu hỏi đặt có mặt liệu miền đích tập liệu huấn luyện ảnh hưởng nhiều hay tới kết thực nghiệm? Để trả lời cho câu hỏi trên, luận văn tiến hành thực nghiệm trường hợp thứ ba Như kết thực nghiệm ta dễ dàng nhận thấy nhiều liệu miền đích tập huấn luyện cho kết cao  Trong thực nghiệm thứ 4, ta sử dụng tri thức có từ miền “gần” với miền xét, kết nhận tốt so với việc sử dụng tri thức từ tất miền Tuy nhiên thời gian chạy trường hợp thấp nhiều ta cần xem xét liệu nhỏ nhiều 35 Kết luận Luận văn đạt được:  Tìm hiểu tốn nhận dạng thực thể văn Tiếng Việt cách tiếp cận phương pháp học máy sử dụng mơ hình trường ngẫu nhiên( Conditional Random Fields)  Tìm hiểu kiến thức học suốt đời (định nghĩa, phân loại, cách đánh giá… ) áp dụng học suốt đời  Tìm hiểu việc áp dụng học suốt đời cho mơ hình CRFs nhằm cải tiến phương pháp nhận dạng thực thể văn ngắn để khắc phục khó khăn gặp phải đặc điểm văn ngắn Những đóng góp luận văn:  Xây dựng mơ hình CRFs để nhận dạng thực thể văn Tiếng Việt áp dụng học suốt đời  Tiến hành đánh giá thực nghiệm để so sánh nhiều trường hợp, từ chứng minh áp dụng học suốt đời làm tăng hiệu suất việc học vai trị quan trọng cảu liệu có thơng qua tốn học q khứ cho việc nhận dạng thực thể định danh toán học 36 Tài liệu tham khảo Tiếng Việt Thụy, H Q., Hiếu, P X., & Sơn, Đ Nguyễn Trí Thành, Nguyễn Thu Trang, Nguyễn Cẩm Tú (2009) Giáo trình Khai phá liệu Web Tiếng Anh Abdallah, Z S., Carman, M., & Haffari, G (2017) Multi-domain evaluation framework for named entity recognition tools Computer Speech & Language, 43, 34-55 Chen, M., Jin, X., & Shen, D (2011, July) Short text classification improved by learning multi-granularity topics In IJCAI (pp 1776-1781) De Marneffe, M C., & Manning, C D (2008) Stanford typed dependencies manual (pp 338-345) Technical report, Stanford University Farmakiotou, D., Karkaletsis, V., Koutsias, J., Sigletos, G., Spyropoulos, C D., & Stamatopoulos, P (2000, September) Rule-based named entity recognition for Greek financial texts In Proceedings of the Workshop on Computational lexicography and Multimedia Dictionaries (COMLEX 2000) (pp 75-78) Ferreira, E., Balsa, J., & Branco, A (2007) Combining rule-based and statistical methods for named entity recognition in Portuguese In Actas da 5a Workshop em Tecnologias da Informaỗao e da Linguagem Humana Fei, G., Wang, S., & Liu, B (2016, August) Learning cumulatively to become more knowledgeable In Proceedings of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining (pp 1565-1574) ACM Ha, Q T., Pham, T N., Nguyen, V Q., Nguyen, T C., Vuong, T H., Tran, M T., & Nguyen, T T (2018, March) A New Lifelong Topic Modeling Method and Its Application to Vietnamese Text Multi-label Classification In Asian Conference on Intelligent Information and Database Systems (pp 200-210) Springer, Cham Jakob, N., & Gurevych, I (2010, October) Extracting opinion targets in a single-and cross-domain setting with conditional random fields In Proceedings of the 2010 conference on empirical methods in natural language processing (pp 1035-1045) Association for Computational Linguistics 37 10 Kumar, A., & Daume III, H (2012) Learning task grouping and overlap in multi- task learning arXiv preprint arXiv:1206.6417 11 Lafferty, J., McCallum, A., & Pereira, F C (2001) Conditional random fields: Probabilistic models for segmenting and labeling sequence data 12 McCallum, A., Freitag, D., & Pereira, F C (2000, June) Maximum Entropy Markov Models for Information Extraction and Segmentation In ICML (Vol 17, pp 591-598) 13 McCallum, A., & Li, W (2003, May) Early results for named entity recognition with conditional random fields, feature induction and web-enhanced lexicons In Proceedings of the seventh conference on Natural language learning at HLT-NAACL 2003-Volume (pp 188- 191) Association for Computational Linguistics 14 Mitchell, T., Cohen, W., Hruschka, E., Talukdar, P., Yang, B., Betteridge, J., & Krishnamurthy, J (2018) Never-ending learning Communications of the ACM, 61(5), 103-115 15 Silver, D L., Mason, G., & Eljabu, L (2015, June) Consolidation Using Sweep Task Rehearsal: Overcoming the Stability-Plasticity Problem In Canadian Conference on Artificial Intelligence (pp 307-322) Springer, Cham 16 Shu, L., Xu, H., & Liu, B (2017) Lifelong learning crf for supervised aspect extraction arXiv preprint arXiv:1705.00251 17 Thrun, S., Mitchell, T.M.: Lifelong robot learning Robot Auton Syst 15(1–2), 25– 46(1995) 18 Thrun, S.: Explanation-Based Neural Network Learning: A Lifelong Learning Approach.Springer, US (1996) 19 Tran, Q T., Pham, T T., Ngo, Q H., Dinh, D., & Collier, N (2007) Named entity recognition in Vietnamese documents Progress in Informatics Journal,5, 14-17 20 Tu, N C., Oanh, T T., Hieu, P X., & Thuy, H Q (2005) Named entity recognition in vietnamese free-text and web documents using conditional random fields In The 8th Conference on Some selection problems of Information Technology and Telecommunication 38 21 Zhiyuan Chen and Bing Liu Lifelong Machine Learning Morgan & Claypool Publishers, November 2016 22 Zhou, G., & Su, J (2002, July) Named entity recognition using an HMM-based chunk tagger In proceedings of the 40th Annual Meeting on Association for Computational Linguistics (pp 473-480) Association for Computational Linguistics Trang web 22 http://cs.nyu.edu/cs/projects/proteus 39

Ngày đăng: 23/09/2020, 21:07

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan