Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 84 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
84
Dung lượng
6,87 MB
Nội dung
ĐẠI HỌC QUỐC GIA TP HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN KHOA CÔNG NGHỆ PHẦN MỀM NGUYỄN THỊ MỸ LINH KHÓA LUẬN TỐT NGHIỆP SỬA LỖI CHÍNH TẢ TRONG TIẾNG VIỆT DỰA TRÊN TIẾP CẬN HỌC SÂU Vietnamese Spelling Correction Using Deep Learning Approach KỸ SƯ NGÀNH KỸ THUẬT PHẦN MỀM TP HỒ CHÍ MINH, 2021 ĐẠI HỌC QUỐC GIA TP HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN KHOA CÔNG NGHỆ PHẦN MỀM NGUYỄN THỊ MỸ LINH – 17520688 KHÓA LUẬN TỐT NGHIỆP SỬA LỖI CHÍNH TẢ TRONG TIẾNG VIỆT DỰA TRÊN TIẾP CẬN HỌC SÂU Vietnamese Spelling Correction Using Deep Learning Approach KỸ SƯ NGÀNH KỸ THUẬT PHẦN MỀM GIẢNG VIÊN HƯỚNG DẪN TS HUỲNH NGỌC TÍN TP HỒ CHÍ MINH, 2021 DANH SÁCH HỘI ĐỒNG BẢO VỆ KHÓA LUẬN Hội đồng chấm khóa luận tốt nghiệp, thành lập theo Quyết định số …………………… ngày ………………… Hiệu trưởng Trường Đại học Công nghệ Thông tin ………………………………………… – Chủ tịch ………………………………………… – Thư ký ………………………………………… – Ủy viên ………………………………………… – Ủy viên ĐẠI HỌC QUỐC GIA TP HỒ CHÍ MINH CỘNG HỊA XÃ HỘI CHỦ NGHĨA VIỆT NAM TRƯỜNG ĐẠI HỌC Độc Lập - Tự Do - Hạnh Phúc CÔNG NGHỆ THÔNG TIN TP HCM, ngày tháng năm 20 NHẬN XÉT KHÓA LUẬN TỐT NGHIỆP (CỦA CÁN BỘ HƯỚNG DẪN) Tên khóa luận: SỬA LỖI CHÍNH TẢ TRONG TIẾNG VIỆT DỰA TRÊN TIẾP CẬN HỌC SÂU SV thực hiện: Cán hướng dẫn: Nguyễn Thị Mỹ Linh 17520688 TS Huỳnh Ngọc Tín Đánh giá Khóa luận Về báo cáo: Số trang 65 Số chương Số bảng số liệu Số hình vẽ 37 Số tài liệu tham khảo 21 Sản phẩm Một số nhận xét hình thức báo cáo: - Về nội dung nghiên cứu: Về chương trình ứng dụng: Về thái độ làm việc sinh viên: Đánh giá chung: Điểm sinh viên: Nguyễn Thị Mỹ Linh: ……… /10 Người nhận xét (Ký tên ghi rõ họ tên) ĐẠI HỌC QUỐC GIA TP HỒ CHÍ MINH CỘNG HỊA XÃ HỘI CHỦ NGHĨA VIỆT NAM TRƯỜNG ĐẠI HỌC Độc Lập - Tự Do - Hạnh Phúc CÔNG NGHỆ THÔNG TIN TP HCM, ngày tháng năm 20 NHẬN XÉT KHÓA LUẬN TỐT NGHIỆP (CỦA CÁN BỘ PHẢN BIỆN) Tên khóa luận: SỬA LỖI CHÍNH TẢ DỰA TRÊN TIẾP CẬN HỌC SÂU SV thực hiện: Cán phản biện: Nguyễn Thị Mỹ Linh 17520688 Đánh giá Khóa luận Về báo cáo: Số trang 65 Số chương Số bảng số liệu Số hình vẽ 37 Số tài liệu tham khảo 21 Sản phẩm Một số nhận xét hình thức báo cáo: - Về nội dung nghiên cứu: Về chương trình ứng dụng: Về thái độ làm việc sinh viên: Đánh giá chung: Điểm sinh viên: Nguyễn Thị Mỹ Linh: ……… /10 Người nhận xét (Ký tên ghi rõ họ tên) LỜI CẢM ƠN Khoảng thời gian thực khóa luận khoảng thời gian đầy thử thách em Để hồn thành khóa luận này, em xin gửi lời cảm ơn sâu sắc đến TS Huỳnh Ngọc Tín anh chị team AdTech công ty VCCorp tận tình giúp đỡ tài liệu chun mơn lẫn lời khun góp ý kịp thời để tạo nhiều điều kiện để em hồn thành khóa luận cách tốt Ngồi ra, em xin chân thành cảm ơn đến tất thầy cô trường Đại học Công nghệ Thông tin nói chung thầy khoa Cơng nghệ Phần mềm nói riêng dạy dỗ truyền đạt cho em kiến thức kinh nghiệm suốt q trình em học tập trường để em vận dụng vào việc thực khóa luận Một lần em xin chân thành cảm ơn chúc quý thầy cô anh chị sức khỏe thành cơng sống Tp Hồ Chí Minh, ngày tháng năm 20 Sinh viên thực đề tài Nguyễn Thị Mỹ Linh ĐẠI HỌC QUỐC GIA TP HỒ CHÍ MINH CỘNG HỊA XÃ HỘI CHỦ NGHĨA VIỆT NAM TRƯỜNG ĐẠI HỌC Độc Lập - Tự Do - Hạnh Phúc CÔNG NGHỆ THÔNG TIN ĐỀ CƯƠNG CHI TIẾT TÊN ĐỀ TÀI: Sửa lỗi tả Tiếng Việt dựa tiếp cận học sâu Cán hướng dẫn: TS Huỳnh Ngọc Tín Thời gian thực hiện: Từ ngày 15/03/2021 đến ngày 25/06/2021 Sinh viên thực hiện: Nguyễn Thị Mỹ Linh - 17520688 Nội dung đề tài Mục tiêu: Xây dựng model NLP dựa phương pháp học sâu có khả sửa lỗi tả cho văn báo chí Tiếng Việt ứng dụng mơ hình Word2Vec pre-trained fastText Phương pháp thực hiện: - Phân tích đề tài. - Nghiên cứu, tìm hiểu báo trước kiến thức liên quan - Nghiên cứu công nghệ, thư viện để áp dụng. - Phát triển hoàn thiện sản phẩm. Kết mong đợi: Hoàn thiện mơ hình hoạt động tốt với độ xác cao đồng thời tối ưu tốc độ phần mềm Kế hoạch thực hiện: STT Công việc thực Thời gian thực 51 52 53 PHỤ LỤC 2: WORD EMBEDDING Trong phạm vi toán này, phương pháp word embedding áp dụng Word2Vec, đồng thời sử dụng thư viện fastText Word2Vec phương pháp học máy, biểu diễn từ vựng thành vector không gian vector Sử dụng Word2Vec để biểu diễn từ nội dung câu thành vector Word2vec phát triển nhóm nghiên cứu Tomas Mikolov Google vào năm 2013 [14] Ba ý tưởng phương pháp : từ đồng nghĩa thường xuất ngữ cảnh, hai từ gần nghĩa góc hai vector đại diện cho từ khơng gian vector nhỏ, cần nhiều liệu để huấn luyện model Word2Vec Để thực việc biểu diễn trên, sử dụng mơ hình Word2Vec học trước để ánh xạ one-hot vector từ thành vector số không gian Mà khơng gian này, từ có ngữ cảnh tương tự xuất gần Word2Vec có hai model Skip-Gram CBOW Với hai model training với tập corpus vô lớn Các từ corpus phải encode thành one-hot vector Trong q training, đầu vào mơ hình Word2vec one-hot vector từ, đầu one-hot vector từ “target” Với trình sử dụng mạng neural network để học, sử dụng “lan truyền ngược” để tối ưu ma trận trọng số mơ hình Word2Vec Tầng hidden layer ma trận trọng số, dùng để biểu diễn word vector Với mơ hình có ưu điểm nhược điểm khác 54 Hình 8.1 Mơ hình mạng tổng quát Word2Vec [20] Skip-Gram hai mô hình Word2Vec Ý tưởng mơ hình dự đoán từ “context” dựa vào từ “target” window slide Ví dụ text = "I love you so much" Khi dùng window có size ta thu được: [(i,you),love] , [(love,so),you] , [(you,much),so] Nhiệm vụ cho từ “target” ví dụ love phải predict từ context” i, you Ưu điểm mơ hình hiểu hai ngữ nghĩa cho từ, ví dụ “apple” trái táo, hãng cơng nghệ tiếng 55 Hình 8.2 Ý tưởng thực mơ hình Skip-Gram 56 Hình 8.3 Mơ hình mạng Skip-Gram [20] 57 CBOW (Continuous Bag of words) mơ hình có cách hoạt động hồn tồn trái ngược với Skip-Gram Mơ hình dựa vào từ “target” để dự đốn từ “context” CBOW có tốc độ training nhanh hơn, tiêu tốn tài nguyên training so với Skip-Gram, độ xác lại thấp Hình 8.4 Ý tưởng thực mơ hình CBOW 58 Hình 8.5 Mơ hình mạng CBOW [20] Sau nhóm trình bày ví dụ chi tiết cách thức hoạt động Word2Vec, với liệu nhỏ “đi đến mai tới nơi” Bước đầu tiên, tiến hành khởi tạo one-hot vector (có giá trị 0), độ dài vector với số từ liệu.Với ví dụ sử dụng hidden layer có node Ta có one-hot vector: 59 Hình 8.6 One-hot vector [21] Với CBOW, q trình training để có model trình bày chi tiết hình Đầu vào one-hot vector từ "đi" "đến" Đưa qua tầng hidden layer với node, học cho one-hot vector dự đốn Sau so sánh với vector đầu với vector target (vector target one-hot vector từ "nay") tiến hành cập nhật lại trọng số để model ma trận trọng số 60 Hình 8.7 Ví dụ cách hoạt động mơ hình CBOW Với Skip-Gram, q trình training để có model trình bày chi tiết hình Đầu vào one-hot vector từ "nay" Đưa qua tầng hidden layer với node, học cho hai one-hot vector dự đốn Sau so sánh với vector đầu với vector target (one-hot vector từ "đi" "đến") tiến hành cập 61 nhật lại trọng số để model ma trận trọng số Hình 8.8 Ví dụ cách hoạt động mơ hình Skip-Gram Với cách thực hiện, sau trình training hồn tất, ta có model word2vec ma trận trọng số Ma trận có kích thước W3X5 (trong số dịng số node hidden layer, số cột số từ liệu train) Và nhân one-hot vector V5X1 từ từ, với ma trận trọng số W3X5 ta có vector trọng số tương ứng với từ có kích thước V3X1 62 Hình 8.9 Ma trận trọng số sau training Hình 8.10 Tính vector từ ma trận trọng số FastText thư viện phát triển dựa Word2Vec Khi áp dụng phương pháp Word2Vec, văn xuất số từ khơng có từ điển mơ hình dẫn đến việc xảy lỗi biểu diễn từ ngữ không gian vector FastText sinh nhằm giải vấn đề FastText hỗ trợ Word2Vec cách bổ sung thêm mơ hình gọi Subword bên cạnh mơ hình Word2Vec để biểu diễn từ khơng có từ điển Word2Vec Với FastText, từ tách thành ký tự n-grams Ví dụ với từ eating, để tách thành ký tự n-grams có độ dài 3, từ eating trước tiên gắn tiền tố, hậu tố "": Sau 63 tách thành n-grams có độ dài 3: , giá trị vector n-grams khởi tạo ngẫu nhiên lúc đầu sau thông qua trình huấn luyện trước vector kéo gần với từ khơng gian vector Có thể gọi vector từ 𝑣, vector từ Word2Vec tạo 𝑣𝑤và vector ký tự n-grams 𝑣𝑠và |𝑛 − 𝑔𝑟𝑎𝑚𝑠| độ dài ký tự n-grams Nếu từ xét có xuất từ điển Word2Vec là: Trong đó: 𝑣: vector từ 𝑣𝑤: vector từ di Word2Vec tạo 𝑣𝑠: vector thành phần từ |𝑛 − 𝑔𝑟𝑎𝑚𝑠|: độ dài ký tự n-gram Trong trường hợp từ khơng có từ điển Word2Vec, vector từ biểu diễn vector ký tự n-gram tách từ nó, điểm đặc biệt FastText, giúp hỗ trợ Word2Vec biểu diễn tử tốt Vector từ không xuất từ điển Word2Vec: 64 Trong đó: 𝑣: vector từ 𝑣𝑠: vector thành phần từ |𝑛 − 𝑔𝑟𝑎𝑚𝑠|: độ dài ký tự n-gram 65 ... Volker Finke Cologne ông Volker Volker Finke lên lên tiếng bác bỏ tin đồn Finke lên tiếng bác bỏ fiếng bác bỏ tin cho Arsenal đưa lời tin đồn cho đồn yho Arsenal đề nghị chiêu mộ tiền đạo Arsenal... nghiệp, thành lập theo Quyết định số …………………… ngày ………………… Hiệu trưởng Trường Đại học Công nghệ Thông tin ………………………………………… – Chủ tịch ………………………………………… – Thư ký ………………………………………… – Ủy viên …………………………………………... MINH CỘNG HỊA XÃ HỘI CHỦ NGHĨA VIỆT NAM TRƯỜNG ĐẠI HỌC Độc Lập - Tự Do - Hạnh Phúc CÔNG NGHỆ THÔNG TIN TP HCM, ngày tháng năm 20 NHẬN XÉT KHÓA LUẬN TỐT NGHIỆP (CỦA CÁN BỘ HƯỚNG DẪN) Tên khóa luận: