Một số mô hình học sâu trong xử lý ngôn ngữ tự nhiên

81 12 0
Một số mô hình học sâu trong xử lý ngôn ngữ tự nhiên

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Một số mô hình học sâu trong xử lý ngôn ngữ tự nhiên Một số mô hình học sâu trong xử lý ngôn ngữ tự nhiên Một số mô hình học sâu trong xử lý ngôn ngữ tự nhiên luận văn tốt nghiệp,luận văn thạc sĩ, luận văn cao học, luận văn đại học, luận án tiến sĩ, đồ án tốt nghiệp luận văn tốt nghiệp,luận văn thạc sĩ, luận văn cao học, luận văn đại học, luận án tiến sĩ, đồ án tốt nghiệp

TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI -- - LUẬN VĂN THẠC SĨ 2019A - TỐN TIN MỘT SỐ MƠ HÌNH HỌC SÂU TRONG XỬ LÝ NGÔN NGỮ TỰ NHIÊN VÕ THỊ QUỲNH TRANG VÕ THỊ QUỲNH TRANG trang.vtqca190267@sis.hust.edu.vn Chuyên ngành Toán Tin CA190267 Giảng viên hướng dẫn: TS Nguyễn Thị Thanh Huyền Viện: Toán ứng dụng Tin học HÀ NỘI, 2020 TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI LUẬN VĂN THẠC SĨ MỘT SỐ MƠ HÌNH HỌC SÂU TRONG XỬ LÝ NGÔN NGỮ TỰ NHIÊN VÕ THỊ QUỲNH TRANG trang.vtqca190267@sis.hust.edu.vn Chuyên ngành Toán Tin Giảng viên hướng dẫn: TS Nguyễn Thị Thanh Huyền Viện: Toán ứng dụng Tin học Chữ ký GVHD HÀ NỘI, 09/2020 CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM Độc lập – Tự – Hạnh phúc BẢN XÁC NHẬN CHỈNH SỬA LUẬN VĂN THẠC SĨ Họ tên tác giả luận văn : Võ Thị Quỳnh Trang Đề tài luận văn: Một số mơ hình học sâu xử lý ngơn ngữ tự nhiên Chuyên ngành: Toán Tin Mã số SV: CA190267 Tác giả, Người hướng dẫn khoa học Hội đồng chấm luận văn xác nhận tác giả sửa chữa, bổ sung luận văn theo biên họp Hội đồng ngày 23/09/2020 với nội dung sau: • Khơng sửa chữa Ngày 24 tháng 09 năm 2020 Giáo viên hướng dẫn Tác giả luận văn TS Nguyễn Thị Thanh Huyền Võ Thị Quỳnh Trang CHỦ TỊCH HỘI ĐỒNG TS Lê Chí Ngọc Lời cảm ơn Để hồn thành luận văn này, xin trân trọng cảm ơn thầy cô hướng dẫn TS Nguyễn Thị Thanh Huyền TS Lê Chí Ngọc tận tình bảo, hướng dẫn tơi suốt q trình hồn thiện luận văn Xin chân thành cảm ơn thầy, cô thuộc viện Toán ứng dụng Tin học trường Đại học Bách khoa Hà Nội nhiệt tình giảng dạy cho thời gian học tập Tôi xin gửi lời cảm ơn tới anh Bùi Trung Ngọc, anh Đào Mạnh Tuấn tập thể phòng Nghiên cứu Phát triển, công ty Cổ phần Truyền thông Công nghệ iCOMM Việt Nam giúp tơi thực hóa nghiên cứu Cuối cùng, kiến thức khả diễn giải thân cịn nhiều thiếu sót hạn chế, mong nhận dẫn đóng góp thầy để luận văn tơi hồn thiện Tơi xin chân thành cảm ơn! Hà Nội, ngày 14 tháng 09 năm 2020 Võ Thị Quỳnh Trang Tóm tắt nội dung Hiện nay, xử lý ngơn ngữ tự nhiên nói chung, tốn phân loại văn nói riêng có ý nghĩa quan trọng kinh tế Việc phân loại văn giúp doanh nghiệp tổ chức khai thác thông tin cách nhanh chóng hiệu quả, từ đưa chiến lược phát triển phù hợp với yêu cầu thị trường Tuy nhiên số lượng liệu lớn, tốc độ lan truyền nhanh nên đòi hỏi hệ thống phân loại tự động thời gian thực Trong luận văn này, giới thiệu hai mơ hình phân loại văn bản: mơ hình phân loại chủ đề văn mơ hình phân loại sắc thái văn Các mơ hình xây dựng dựa thuật toán học sâu nhằm giải vấn đề nhập nhằng ngôn ngữ tự nhiên mà khơng địi hỏi kiến thức chun mơn ngơn ngữ Kết hai mơ hình tương đối tốt, có tính khả thi cao độ xác hiệu để triển khai thực tiễn Mã nguồn mơ hình viết ngơn ngữ lập trình Python, với hỗ trợ giúp đỡ từ nhóm Nghiên cứu Phát triển công ty Công nghệ Truyền thông iCOMM Việt Nam Kết mô hình thể giao diện web cho người dùng dễ theo dõi, nâng cao tính thực tiễn cho kết nghiên cứu Mục lục Mở đầu Cơ sở lý thuyết 1.1 Máy học 1.1.1 Một số khái niệm 1.1.2 Học sâu 11 1.1.3 Đánh giá mơ hình máy học 22 Xử lý ngôn ngữ tự nhiên 25 1.2.1 Giới thiệu chung 25 1.2.2 Bài toán phân loại văn 28 1.2 Bài tốn phân tích sắc thái văn 31 2.1 Phát biểu toán 33 2.2 Mơ hình đề xuất 34 2.2.1 Xác định đối tượng phân tách nội dung 34 2.2.2 Xác định sắc thái 38 Cài đặt thực nghiệm 43 2.3.1 Thu thập tiền xử lý liệu 43 2.3.2 Kết thử nghiệm 45 2.3 LUẬN VĂN THẠC SỸ Võ Thị Quỳnh Trang Bài toán phân loại chủ đề văn 52 3.1 Phát biểu toán 52 3.2 Mơ hình đề xuất 53 3.2.1 Biểu diễn văn 53 3.2.2 Mơ hình phân loại chủ đề văn 56 Cài đặt thực nghiệm 58 3.3.1 Thu thập tiền xử lý liệu 58 3.3.2 Kết thử nghiệm 59 3.3 Kết luận chung 66 Tài liệu tham khảo 69 Danh sách hình vẽ 1.1 Kiến trúc perceptron 14 1.2 Mặt phẳng định tạo perceptron với đầu vào hai chiều 15 1.3 Kiến trúc mạng nơ-ron nhiều lớp 15 1.4 Kiến trúc mạng nơ-ron hồi tiếp [8] 18 1.5 Kiến trúc ô nhớ mạng LSTM [36] 20 1.6 Trường hợp khớp, tối ưu khớp mơ hình 22 1.7 Ma trận confusion cho toán phân lớp nhị phân 24 1.8 Quá trình xử lý ngôn ngữ tự nhiên 26 1.9 Các lớp, liệu huấn luyện liệu kiểm thử phân loại văn 29 1.10 Q trình xây dựng mơ hình phân loại văn 30 2.1 Kiến trúc mạng nhớ dài ngắn-hạn hai chiều (BiLSTM) [5] 39 2.2 Quá trình học chuyển tiếp (transfer learning) [34] 41 2.3 Kiến trúc mạng tự động mã hóa câu 42 2.4 Độ xác mơ hình tập liệu huấn luyện liệu thử 46 2.5 Giá trị mát tập liệu huấn luyện liệu thử 47 2.6 Kết tập liệu kiểm thử hai mơ hình sử dụng khơng sử dụng tham số huấn luyện trước 47 LUẬN VĂN THẠC SỸ 2.7 Võ Thị Quỳnh Trang Kết độ xác hàm mát hai mơ hình huấn luyện tập liệu nhỏ 48 2.8 Kết thử nghiệm mơ hình dự đoán sắc thái câu 48 2.9 Demo tách phân tích sắc thái đối tượng văn 50 2.10 Demo tách phân tích sắc thái đối tượng văn 50 2.11 Kết tổng hợp sắc thái đối tượng viết 51 3.1 Số lần xuất từ vựng văn 54 3.2 Kiến trúc mạng nơ-ron nhiều lớp ẩn cho toán phân loại chủ đề văn 57 3.3 Biểu đồ số lượng liệu chủ đề 58 3.4 Độ xác huấn luyện tập liệu huấn luyện kiểm tra tập liệu thử 60 3.5 Bảng kết độ xác mơ hình 61 3.6 Giá trị mát ba mơ hình một, ba sáu lớp ẩn qua vòng lặp 61 3.7 Bảng giá trị hàm mát qua vòng lặp 62 3.8 Phân bố liệu chủ đề tập liệu kiểm thử 62 3.9 Kết ba mơ hình liệu kiểm thử 63 3.10 Giá trị recall, precision lớp mơ hình lớp ẩn ba lớp ẩn 64 3.11 Kết so sánh thuật toán toán phân loại chủ để văn 65 Danh sách thuật toán Thuật tốn bóc tách đối tượng văn 36 ...TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI LUẬN VĂN THẠC SĨ MỘT SỐ MƠ HÌNH HỌC SÂU TRONG XỬ LÝ NGÔN NGỮ TỰ NHIÊN VÕ THỊ QUỲNH TRANG trang.vtqca190267@sis.hust.edu.vn... Võ Thị Quỳnh Trang Đề tài luận văn: Một số mô hình học sâu xử lý ngơn ngữ tự nhiên Chuyên ngành: Toán Tin Mã số SV: CA190267 Tác giả, Người hướng dẫn khoa học Hội đồng chấm luận văn xác nhận... sở lý thuyết 1.1 Máy học 1.1.1 Một số khái niệm 1.1.2 Học sâu 11 1.1.3 Đánh giá mơ hình máy học 22 Xử lý ngôn ngữ

Ngày đăng: 27/04/2021, 16:35

Mục lục

    Tóm tắt nội dung

    Các hướng nghiên cứu tiếp

    Tài liệu tham khảo

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan