NGHIÊN CỨU PHƯƠNG PHÁP CHUẨN HOÁ VĂN BẢN VÀ NHẬN DẠNG THỰC THỂ ĐỊNH DANH TRONG NHẬN DẠNG TIẾNG NÓI TIẾNG VIỆT tt

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang	27
Dung lượng	775,27 KB

Nội dung

MỞ ĐẦU BỘ GIÁO DỤC VÀ ĐÀO TẠO VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM HỌC VIỆN KHOA HỌC VÀ CÔNG NGHỆ NGUYỄN THỊ THU HIỀN NGHIÊN CỨU PHƯƠNG PHÁP CHUẨN HOÁ VĂN BẢN VÀ NHẬN DẠNG THỰC THỂ ĐỊNH DANH TR[.]

BỘ GIÁO DỤC VÀ ĐÀO TẠO VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM HỌC VIỆN KHOA HỌC VÀ CÔNG NGHỆ NGUYỄN THỊ THU HIỀN NGHIÊN CỨU PHƯƠNG PHÁP CHUẨN HOÁ VĂN BẢN VÀ NHẬN DẠNG THỰC THỂ ĐỊNH DANH TRONG NHẬN DẠNG TIẾNG NÓI TIẾNG VIỆT Chuyên ngành: Hệ thống thông tin Mã số: 48 01 04 TÓM TẮT LUẬN ÁN TIẾN SỸ NGÀNH HỆ THỐNG THƠ NG TIN Hà Nội – 2023 Cơng trình hồn thành tại: Học viện Khoa học Cơng nghệ Viện Hàn lâm Khoa học Công nghệ Việt Nam Người hướng dẫn khoa học 1: PGS.TS Lương Chi Mai Người hướng dẫn khoa học 2: TS Nguyễn Thị Minh Huyền Phản biện 1: PGS.TS Ngô Xuân Bách Phản biện 2: TS Đỗ Văn Hải Phản biện 3: PGS.TS Nguyễn Phương Thái Luận án bảo vệ trước Hội đồng chấm luận án tiến sĩ, họp Học viện Khoa học Công nghệ - Viện Hàn lâm Khoa học Công nghệ Việt Nam vào hồi … ….’, ngày … tháng … năm 2023 Có thể tìm hiểu luận án tại: - Thư viện Học viện Khoa học Công nghệ - Thư viện Quốc gia Việt Nam MỞ ĐẦU Xử lý ngôn ngữ tự nhiên (XLNNTN) lĩnh vực khoa học máy tính kết hợp trí tuệ nhân tạo ngơn ngữ học tính toán, nhằm xử lý tương tác người máy tính cho máy tính hiểu hay bắt chước ngôn ngữ người XLNNTN bao gồm hai nhánh lớn xử lý tiếng nói xử lý văn Một toán quan trọng hiểu ngữ nghĩa văn viết hay nói nhận dạng thực thể định danh (Named Entity Recognition - NER) Đây toán tiền đề cho hệ thống hiểu ngôn ngữ hay khai phá văn trích xuất kiện, hỏi đáp tự động hay tìm kiếm ngữ nghĩa Đã có nhiều nghiên cứu đạt kết khả quan cho tốn NER với liệu văn viết thơng thường nhiều ngôn ngữ giới tiếng Việt Trong đó, nghiên cứu nhận dạng thực thể định danh cho văn đầu nhận dạng tiếng nói (Automatic Speech Recognition - ASR) có khó khăn riêng so với văn viết, chưa có cơng trình cho tiếng Việt Nhận dạng tiếng nói q trình chuyển đổi tín hiệu tiếng nói ngơn ngữ cụ thể thành chuỗi từ có nội dung tương ứng định dạng văn Văn đầu ASR thường khơng có cấu trúc, chẳng hạn khơng có dấu câu, khơng viết hoa chữ đầu câu tên riêng, tên địa danh, Điều dẫn đến khó khăn q trình hiểu hạn chế khả khai thác văn đầu ASR hầu hết ứng dụng Việc nhận dạng thực thể định danh từ văn đầu nhận dạng tiếng nói tự động có đặc trưng khác biệt ln chứa nhiều lỗi nhận dạng, đặc biệt thực thể định danh nhiều nằm từ điển Các lỗi ASR thường xảy từ cấu thành nên thực thể định danh ngữ cảnh từ đó, làm ảnh hưởng trực tiếp đến hiệu suất NER Ngoài ra, hệ thống NER phải đối mặt với vấn đề thiếu hụt số dấu hiệu quan trọng chữ viết hoa, dấu chấm câu Bên cạnh đó, để cải thiện kết đầu ASR, người ta cần chuẩn hóa văn cách loại bỏ từ vơ nghĩa, chuẩn hóa liệu kiểu số, ngày, tháng, khôi phục dấu câu viết hoa, xử lý từ nước ngoài, Sau xử lý, văn cuối có cấu trúc tốt dễ hiểu so với văn đầu ASR, đồng thời đưa vào triển khai ứng dụng thực tế đạt hiệu cao Như vậy, việc phát triển giải pháp chuẩn hoá văn nhận dạng thực thể định danh từ văn đầu ASR cần thiết để cải thiện chất lượng tổng thể hệ thống ASR Tuy nhiên, việc chuẩn hoá văn đầu ASR, cụ thể vấn đề khôi phục dấu câu, chữ hoa cịn khơng vấn đề cần cải thiện Bên cạnh ý nghĩa việc cải thiện chất lượng đầu ASR dấu câu, chữ hoa thông tin quan trọng, hữu ích cho tốn nhận dạng thực thể định danh Có thể thấy, khơng phải tất từ viết hoa tiếng Việt coi thực thể định danh Ngược lại, thực thể định danh không thiết từ/cụm từ viết hoa đầy đủ Đặc biệt, thực thể định danh phân loại thành dạng thực thể khác Do đó, việc khơi phục dấu câu, chữ hoa yếu tố quan trọng giúp tối ưu hóa hệ thống nhận dạng thực thể định danh văn đầu ASR Trong thực tế, có nhiều phương pháp xử lý NER cho văn đầu ASR chủ yếu tập trung ngôn ngữ giàu tài nguyên tiếng Anh, tiếng Trung, tiếng Nhật Có nghiên cứu áp dụng NER cho ASR tiếng Việt nghiên cứu tập trung cho văn hội thoại ngắn Từ thách thức đó, nghiên cứu sinh lựa chọn nghiên cứu đề tài “Nghiên cứu phương pháp chuẩn hoá văn nhận dạng thực thể định danh nhận dạng tiếng nói tiếng Việt” Mục tiêu nhiệm vụ nghiên cứu: Luận án tập trung đề xuất giải pháp triển khai thực nghiệm cho hai mục tiêu cụ thể Thứ chuẩn hóa văn cách khôi phục dấu câu, chữ hoa, thứ hai nhận dạng thực thể định danh văn đầu hệ thống ASR tiếng Việt Nội dung nghiên cứu: Luận án nghiên cứu đặc thù liệu lỗi đầu hệ thống ASR tiếng Việt, tìm hiểu vấn đề toán NER thách thức toán Tiếp theo, xây dựng liệu phục vụ cho việc huấn luyện đánh giá mơ hình Trên sở đó, đề xuất mơ hình khơi phục dấu câu chữ hoa phục vụ chuẩn hóa văn đầu ASR tiếng Việt Bài toán NER cho văn đầu ASR tiếng Việt nghiên cứu giải theo hai hướng: hệ thống đường ống hệ thống đầu-cuối Phạm vi nghiên cứu: Nghiên cứu tập trung vào hướng giải vấn đề liên quan đến xử lý văn đầu ASR với văn tiếng nói dài, khó xử lý Bên cạnh đó, với vấn đề chuẩn hóa văn đầu ASR, nghiên cứu tập trung thiết kế mô hình dự đốn dấu câu, chữ hoa coi hệ thống ASR có tỉ lệ lỗi từ (WER) 0% Về mơ hình giải tốn NER, luận án sử dụng hệ thống ASR thực tế có WER 4.85% Phương pháp nghiên cứu, triển khai: Luận án thực nghiên cứu lý thuyết, bao gồm tổng quan toán cần giải quyết, phương pháp, kĩ thuật sử dụng để giải toán hiệu chúng Trên sở đó, luận án đề xuất giải pháp để khắc phục số vấn đề tồn Luận án trọng triển khai phương pháp thực nghiệm nhằm đo lường, đánh giá mơ hình đề xuất giải toán, so sánh với phương pháp khác Về liệu thực nghiệm, luận án cần xây dựng liệu văn kết hợp với tiếng nói tương ứng nhằm đáp ứng tốn đặt Các đóng góp luận án: Xây dựng liệu văn kết hợp với tiếng nói cho huấn luyện đánh giá mơ hình chuẩn hố nhận dạng thực thể định danh cho văn đầu hệ thống ASR Các liệu mô tả cơng trình [CT1, CT2, CT4, CT6]; Đề xuất cải tiến mơ hình khơi phục dấu câu chữ hoa giúp chuẩn hoá văn đầu ASR tiếng Việt Mơ hình đưa ra, đánh giá cải tiến cơng trình [CT2, CT3, CT5]; Đề xuất hai giải pháp nhận dạng thực thể định danh văn đầu ASR tiếng Việt theo hướng tiếp cận Pipeline E2E Các giải pháp trình bày đánh giá cơng trình [CT4, CT6] Bố cục luận án: Ngoài phần mở đầu kết luận, luận án cấu trúc thành chương Chương trình bày tổng quan vấn đề nghiên cứu Chương phát biểu nêu ý nghĩa ứng dụng toán, thách thức cần giải khảo sát nghiên cứu nhận dạng tiếng nói nhận dạng thực thể định danh từ tiếng nói nói chung tiếng Việt nói riêng Chương Kiến thức sở, trình bày kiến thức tảng sử dụng để định hướng sở để đề xuất mơ hình chuẩn hố nhận dạng thực thể định danh cho văn đầu ASR Chương giới thiệu tốn khơi phục dấu câu chữ hoa cho hệ thống ASR tiếng Việt Trong chương này, luận án trình bày mơ hình đề xuất, liệu kết thực nghiệm cho toán Chương đề xuất phương pháp nhận dạng thực thể định danh cho văn đầu ASR tiếng Việt theo hai hướng tiếp cận đường ống E2E, trình bày kết thực nghiệm, so sánh hai cách tiếp cận Chương TỔNG QUAN VẤN ĐỀ NGHIÊ N CỨU Với văn đầu ASR, thông tin đặc trưng dấu câu, chữ hoa cho NER khơng cịn tồn tại, gây nhiều khó khăn cho xử lý Do đó, việc nghiên cứu, xử lý chuẩn hóa văn đầu ASR, giúp cải tiến hệ thống ASR phục vụ cho đầu vào hệ thống NER quan trọng có ý nghĩa Chương trình bày tổng quan XLNNTN, khó khăn xử lý ngơn ngữ tiếng Việt Tìm hiểu chung hệ thống ASR, đặc trưng văn đầu hệ thống ASR nghiên cứu liên quan đến việc chuẩn hóa văn đầu ASR giúp hỗ trợ cho mơ hình NER Tiếp theo, luận án mơ tả tốn NER, khó khăn xử lý NER cho tiếng nói tiếng Việt nghiên cứu liên quan Cuối chương trình bày tổng quan liệu sử dụng tốn 1.1 Xử lý ngơn ngữ tự nhiên 1.1.1 Giới thiệu XLNNTN lĩnh vực khoa học máy tính, kết hợp trí tuệ nhân tạo ngơn ngữ học tính tốn Các cơng cụ phân tích, nhận dạng cảm xúc, nhận dạng thực thể định danh, phân tích cú pháp, ngữ nghĩa, giúp XLNNTN trở thành chủ đề hay để nghiên cứu nhiều lĩnh vực khác dịch máy, trích xuất thơng tin, tóm tắt văn bản, trả lời câu hỏi tự động, Nhiều ứng dụng XLNNTN thiết bị thông minh xuất khắp nơi, thu hút nhiều quan tâm cộng đồng XLNNTN chia thành hai nhánh lớn, bao gồm xử lý tiếng nói xử lý văn Vấn đề xử lý văn sau nhận dạng tiếng nói thách thức cần giải Luận án đặt vấn đề cần chuẩn hoá văn đầu nhận dạng tiếng nói tiếng Việt nhận dạng thực thể định danh 1.2 Nhận dạng tiếng nói tự động 1.2.1 Giới thiệu sơ lược hệ thống nhận dạng tiếng nói tự động Nhận dạng tiếng nói tự động Yu Deng phát biểu sau: “đó thuật ngữ sử dụng để mô tả quy trình, cơng nghệ phương pháp cho phép tương tác người máy tính tốt thơng qua việc dịch tiếng nói người sang định dạng văn bản” [3] Một cách phổ biến thường sử dụng để đánh giá hiệu suất hệ thống ASR WER Số liệu WER dựa khoảng cách Levenshtein, đo lường số lần chèn, xóa thay chuỗi (1.1) đó, I số lần chèn, D số lần xóa, S số lần thay N số từ văn Đối với hệ thống ASR tiếng Việt, VLSP sử dụng tỷ lệ lỗi âm tiết (SyER) thay tỷ lệ lỗi từ để đánh giá hiệu suất hệ thống ASR (1.2) đó, S số lần thay thế, D số lần xóa, I số lần chèn, C số lượng âm tiết N số lượng âm tiết văn 1.2.2 Đặc trưng văn đầu hệ thống nhận dạng tiếng nói vấn đề cần xử lý Văn đầu ASR thường có đặc trưng riêng, khác so với văn viết thông thường, đặc biệt tiếng Việt: Văn không chứa dấu câu chữ hoa; Các từ tên riêng nước ngồi, chữ viết tắt khơng nhận dạng xác; Kiểu số, kiểu tiền tệ nhận dạng thành kiểu chữ cái, địa email địa website hay siêu liên kết thường cụm từ liên tục có quy chuẩn bị nhận dạng thành từ, cụm từ không tuân theo quy tắc chuẩn; tiếng Việt có nhiều từ vay mượn từ ngôn ngữ khác để tạo từ mới; chèn từ, xoá từ, thay từ,… 1.3 Chuẩn hoá văn đầu nhận dạng tiếng nói 1.3.1 Vấn đề khôi phục dấu câu, chữ hoa Viết hoa việc xác định xác dạng từ, phân biệt bốn loại: tất chữ viết thường, tất chữ viết hoa, viết hoa chữ âm tiết chữ hoa hỗn hợp bao gồm số chữ viết hoa số chữ viết Khôi phục dấu câu nhiệm vụ chèn chúng vào vị trí thích hợp văn đầu vào khơng có dấu câu Mặt khác, quy tắc viết hoa chữ đầu âm tiết thứ câu hoàn chỉnh cho thấy liên quan chữ hoa dấu câu, nghĩa hai nhiệm vụ cần phải xử lý lúc Tuy nhiên, nghiên cứu thường tập trung giải nhiệm vụ cụ thể Rõ ràng, kết xử lý đơn lẻ giúp cải thiện hiệu đầu ASR, dẫn đến gần xuất ngày nhiều hướng nghiên cứu tích hợp hai nhiệm vụ Ngay xử lý tích hợp việc xác định khơi phục dấu câu hay chữ hoa trước vấn đề thứ tự xử lý ảnh hưởng lẫn đến kết cuối [13] 1.3.2 Các phương pháp xử lý Một cách triển khai ban đầu cho phương pháp viết hoa tự động dựa tập luật, nghĩa sử dụng nguyên tắc xác định phần bắt đầu câu để kí tự viết hoa [17] Các nghiên cứu rằng, hệ thống dựa luật khó trì chúng liên tục u cầu bổ sung luật Mơ hình ngơn ngữ mơ hình tính xác suất giúp dự đốn từ chuỗi từ Mơ hình ngơn ngữ tính xác suất từ wk cho trước ngữ cảnh n-1 từ trước wk-1, wk-2, , wk-(n-1) Xác suất biểu thị P(wk| wk-1, wk-2, , wk-(n-1)) Các nghiên cứu khôi phục dấu câu mơ hình kết hợp [19] dựa mơ hình ngơn ngữ n-gram đề xuất Nhược điểm mơ hình n-gram khơng đánh giá ngữ cảnh tồn câu, đó, nhiều trường hợp khơng thể đưa xác suất xác Ngay với tài nguyên máy tính ngày khả lưu trữ xử lý, mơ hình có số n cao khó xử lý yêu cầu lưu trữ chúng Theo nhà nghiên cứu, viết hoa hay dấu câu coi vấn đề gán nhãn Với chuỗi W=w0w1w2…wn, mơ hình dự đốn chuỗi viết hoa C=c0c1c2…cn với ci tương ứng với tất viết thường, viết hoa chữ đầu tiên, viết hoa tất viết hoa trộn lẫn Tương tự, dự đoán dấu câu E=e0e1e2…en ei biểu thị dấu câu khơng có dấu câu Một số nghiên cứu sử dụng mơ hình Entropy cực đại [21], mơ hình Markov ẩn [22] mơ hình Markov Entropy cực đại [23] cho hai nhiệm vụ Trường ngẫu nhiên có điều kiện mơ hình xác suất sử dụng để phân đoạn gán nhãn liệu chuỗi [24] CRF có ưu điểm so với MEMM mơ hình Markov khác CRF mơ hình đồ thị vơ hướng, cho phép CRF định nghĩa phân phối xác suất toàn trạng thái Gần đây, nghiên cứu sử dụng kiến trúc mạng nơ-ron cho tốn khơi phục dấu câu, chữ hoa Với tiếp cận mạng nơ-ron, đưa mơ hình mạng cho mức từ mức ký tự Susanto cộng [27] đề xuất sử dụng mạng nơ-ron hồi quy cấp ký tự để xử lý sai lệch trường hợp viết hoa trộn lẫn (ví dụ: MacKenzie) RNN chứng minh hữu ích việc lập mơ hình liệu Tilk cộng [28] sử dụng mơ hình mạng nơ-ron hồi quy hai chiều có thêm tầng ẩn cho phép xử lý liệu theo chiều ngược lại cách linh hoạt so với RNN truyền thống, kết hợp với chế ý để khôi phục dấu chấm câu Mô hình sử dụng ngữ cảnh dài theo hai hướng hướng ý cần thiết, cho phép hoạt động tốt tập liệu tiếng Anh tiếng Estonia trước Kể từ năm 2017, với đời kiến trúc Transformer [29], phiên khác BERT [30], RoBERTa [31] mở nhiều hướng nghiên cứu Rei cộng [32] ứng dụng khôi phục viết hoa phụ đề video tạo hệ thống ASR sử dụng mơ hình BERT Cách tiếp cận dựa mã hóa từ theo ngữ cảnh huấn luyện trước áp dụng tinh chỉnh mơ hình fine-tuning Phương pháp chứng minh vượt trội so với phương pháp tiếp cận khác khơng hiệu suất mà cịn thời gian tính tốn Nhóm nghiên cứu Alam [33] thử nghiệm số mơ hình Transformer BERT, RoBERTa, ALBERT, DistilBERT, mBERT, XLM-RoBERTa cho tiếng Anh ngôn ngữ Bangla Đối với tiếng Anh, kết tốt quan sát mơ hình RoBERTaLARGE khơi phục tốt dấu chấm, nhiên hiệu xử lý dấu phẩy dấu hỏi chấm lại tương đối thấp Vấn đề nghiên cứu khôi phục dấu câu, chữ hoa văn đầu tiếng nói tiếng Việt cịn mẻ Gần đây, Thuy Nguyen cộng [34] thử nghiệm mơ hình mạng nơ-ron học sâu BiLSTM Hieu Dinh cộng [35] sử dụng mơ hình Transformer cho khơi phục dấu câu Kết nghiên cứu nghiên cứu sinh cộng đề xuất tập trung giải vấn đề khôi phục chữ hoa riêng lẻ Tiếp theo đó, mơ hình tích hợp để khôi phục đồng thời dấu câu chữ hoa cho tiếng nói tiếng Việt Các kết nghiên cứu cho tiếng Việt coi tiền đề cho nghiên cứu tiếp tục phát triển nhằm chuẩn hóa văn đầu hệ thống ASR tiếng Việt cho mục đích cụ thể Cụ thể, Uyen cộng [13] đề xuất kiến trúc mô hình JointCapPunc để khơi phục dấu câu, chữ hoa theo kiến trúc xếp tầng, nghĩa khôi phục chữ hoa trước sau đến lớp khơi phục dấu câu Một mơ hình ngơn ngữ huấn luyện trước Transformer có tham số lớn, gây khó khăn mơ hình Pipeline gia tăng độ trễ Ngoài ra, liệu nghiên cứu thực đoạn hội thoại ngắn, lĩnh vực y tế 1.4 Nhận dạng thực thể định danh 1.4.1 Định nghĩa Sundheim Grishman giới thiệu lần hội nghị MUC-6 [36]: “Nhận dạng thực thể định danh trình xác định tìm kiếm từ cụm từ có nghĩa từ văn ngơn ngữ tự nhiên phân loại thành nhóm định nghĩa trước như: tên người, tên tổ chức, ngày giờ, địa điểm, số, tiền tệ…” Aggarwal, C C [37] phát biểu: “Nhận dạng thực thể định danh tốn xác định thực thể có tên từ văn dạng tự phân lớp chúng vào tập kiểu định nghĩa trước người, tổ chức địa điểm” 1.4.2 Thách thức cho toán NER văn đầu ASR tiếng Việt Tiếng Việt chưa có liệu văn đầu ASR có gán nhãn NER chuẩn đủ lớn phục vụ cho huấn luyện, đánh giá Những thách thức cho toán NER văn đầu ASR tiếng Việt bao gồm: Trong văn đầu ASR, việc viết hoa bị bỏ qua gây khó khăn cho hệ thống nhận dạng Việc xác định biên từ tiếng Việt khó khăn so với ngôn ngữ khác, tiếng Việt thuộc loại hình ngơn ngữ đơn lập, tức là, từ tạo nên nhiều tiếng Yêu cầu hệ thống có khả phân biệt loại thực thể Do khơng có nhiều ràng buộc tên riêng nên khiến hệ thống bỏ qua nhầm với thực thể khác Đặc biệt, lỗi ASR làm cho thực thể định danh bị bỏ sót thực thể định dạng bị nhận dạng sai Nếu nhiều từ cấu thành thực thể định danh bị nhận dạng sai khó để nhận thực thể định danh Ngược lại, tất từ cấu thành thực thể định danh nhận dạng xác, khơng nhận thực thể định danh thiếu ngữ cảnh văn đầu ASR Tên nước ngoài, tên viết tắt văn đầu ASR bị nhận dạng theo nhiều phiên khác Hiện tượng đồng âm khác nghĩa tiếng Việt phổ biến ngôn ngữ Ấn- Â u 1.4.3 Tình hình nghiên cứu NER cho văn đầu ASR 1.4.3.1 Các nghiên cứu theo hương tiếp cận Pipeline Trong giai đoạn đầu tiên, Kim cộng [42] đề xuất nhận dạng thực thể định danh văn đầu ASR dựa tập luật Ưu điểm phương pháp yêu cầu lưu trữ nhỏ, mở rộng luật Tuy nhiên, nhược điểm quy tắc cần xây dựng thủ công, đặc biệt đầu vào văn đầu ASR thơng tin viết hoa cho thực thể định danh không cịn nữa, việc lấy thơng tin ngơn ngữ cần thiết để xây dựng luật khó khăn Để khắc phục điều này, nhiều nghiên cứu dựa học máy nhà nghiên cứu đề xuất mơ hình HMM [43], mơ hình entropy cực đại [44], CRF [45], [46], HMM-CRF [47], máy véc-tơ hỗ trợ [48] tập trung chủ yếu cho tiếng Anh, tiếng Trung, tiếng Nhật, tiếng Pháp Các nghiên cứu cần kết hợp thêm đặc trưng âm tiết, kết hợp thông tin dấu câu, chữ hoa cải thiện lỗi văn đầu ASR để tăng hiệu suất NER Có thể nhận thấy, với cách tiếp cận Pipeline, thành phần NER phải đối phó với văn khơng chuẩn hóa văn thơng thường chứa nhiễu [52] Cách tiếp cận chịu ảnh hưởng lỗi văn đầu ASR lan truyền lỗi qua bước 1.4.3.2 Các nghiên cứu theo hương tiếp cận End-to-End Ghannay cộng [53] đề xuất thử nghiệm phương pháp nhận dạng thực thể định danh từ tiếng nói tiếng Pháp theo hướng E2E Các tác giả đề xuất mơ hình kiến trúc RNN sâu, bao gồm nc lớp tích chập, nr lớp lặp lại chiều hai chiều, lớp tích chập tìm kiếm lớp kết nối đầy đủ trước lớp Softmax Hệ thống huấn luyện E2E cách sử dụng hàm CTC-loss [10] để dự đoán chuỗi ký tự từ âm đầu vào Kết thực nghiệm cho thấy, mô hình E2E hiệu so với Pipeline kết hợp tính POS sử dụng để gán nhãn đầu ASR trước xử lý NER cho POS thực quan trọng nhiệm vụ NER Caubriere cộng [54] triển khai E2E dựa hệ thống DeepSpeech2 với kiến trúc bao gồm chồng hai lớp 2D-invariant convolutional, năm lớp biLSTM lớp softmax cuối Hệ thống sử dụng hàm CTC-loss cho phép liên kết âm đầu vào chuỗi ký tự đầu So sánh với kết tốt chiến dịch đánh giá ETAPE, hệ thống E2E đề xuất cho thấy mức độ cải thiện tương đối 4%, cách tiếp cận chưa đạt hiệu suất tốt so với phương pháp Pipeline mà tác giả đề xuất nghiên cứu Theo Chan cộng [55], thực nghiệm mơ hình Pipeline đề xuất sử dụng BERT để huấn luyện trước đạt hiệu suất cao E2E cho rằng, mô-đun Pipeline bị ảnh hưởng lan truyền lỗi, chúng tận dụng việc huấn luyện trước để tăng hiệu suất, đặc biệt hệ thống ASR cải thiện tốt 1.5 Tổng quan liệu Để phục vụ cho mục đích huấn luyện đánh giá mơ hình chuẩn hố văn đầu hệ thống ASR Chương 3, nghiên cứu cần xây dựng liệu lớn, tập văn xóa định dạng (bỏ dấu câu, chuyển chữ hoa thành chữ thường) Bộ liệu văn âm gán nhãn mẫu phục vụ mục đích huấn luyện đánh giá mơ hình cho tốn NER theo hướng tiếp cận đường ống E2E Chương tận dụng từ liệu văn NER VLSP 20181 Tương ứng với tập văn chuẩn tập văn xóa định dạng liệu thu âm với giọng đọc khác nhau, môi trường khác Đồng thời, để tiết kiệm chi phí thu âm, tất liệu văn VLSP sử dụng hệ thống TTS Google để tạo liệu âm tổng hợp Sau đó, liệu Dữ liệu từ thi NER Hội thảo VLSP (Vietnamese Language and Speech Processing) 2018: https://vlsp.org.vn/vlsp2018/ner 11 xung quanh Sau trích xuất biểu diễn véc-tơ từ từ mơ hình Word2Vec, chúng sử dụng để thực tác vụ XLNNTN Khi có lượng liệu lớn cần mơ hình học biểu diễn từ ngữ phức tạp, giúp nắm bắt mối quan hệ tương quan từ câu, hiểu ý nghĩa từ ngữ cảnh cụ thể tạo biểu diễn phù hợp mơ hình học sâu trở lên phù hợp Với đời mơ hình Transformer, nhiều biến thể mở rộng, luận án cải tiến mơ hình BERT cho liệu tiếng Việt đề xuất mơ hình nhận dạng thực thể định danh 2.2.2 BERT BERT mô hình ngơn ngữ học sâu, giới thiệu Jacob Devlin cộng Google Research vào năm 2018 Kiến trúc chung: Mơ hình BERT có kiến trúc mạng học sâu sử dụng nhiều tầng mã hoá Transformer Tuy nhiên, điểm đặc biệt BERT sử dụng hai biểu diễn từ: biểu diễn từ vào biểu diễn từ [71] BERT phương pháp để tiền huấn luyện biểu diễn véc-tơ từ Một điểm đặc biệt BERT mà mơ hình biểu diễn véc-tơ từ trước chưa có kết huấn luyện tinh chỉnh Khi BERT tinh chỉnh nhiệm vụ đó, Transformer tiền huấn luyện hoạt động mã hóa phân loại khởi tạo ngẫu nhiên thêm vào Trong trường hợp NER, trình phân loại đơn giản phép chiếu từ kích thước từ đến kích thước tập nhãn, toán tử Softmax thực chuyển điểm số thành xác suất nhãn 2.3 Mô hình gán nhãn chuỗi 2.3.1 Softmax Softmax hàm kích hoạt thường sử dụng mơ hình phân loại đa lớp để chuyển đổi đầu mạng thành phân phối xác suất Softmax thường áp dụng cho lớp đầu cuối mô hình để tính tốn xác suất dự đốn cho lớp Hàm softmax hàm liên tục khả vi, điều hữu ích việc tính tốn đạo hàm để cập nhật trọng số trình huấn luyện mạng nơron Việc sử dụng hàm softmax khơng hữu ích tác vụ phân loại đa lớp, mà cịn áp dụng toán khác xác định mức độ tin cậy dự đoán tạo phân phối xác suất từ giá trị đầu vào Tuy nhiên, hàm softmax có số hạn chế Khi số lượng lớp lớn, việc tính tốn xử lý đồng thời giá trị mũ trở nên phức tạp tốn nhiều thời gian tính tốn Đồng thời, hàm softmax khơng kháng nhiễu, có nghĩa có biến động mạnh giá trị đầu vào, giá trị xác suất đầu dễ dàng bị lệch dẫn đến sai lệch dự đoán 12 2.3.2 CRF Conditional Random Fields (CRF) đề xuất Lafferty đồng nghiệp vào năm 2001 Đây mơ hình đồ thị xác suất vơ hướng, kết hợp đặc điểm mơ hình Markov ẩn mơ hình entropy tối đa CRF trường hợp đặc biệt mơ hình Markov ngẫu nhiên, giải vấn đề thiên vị nhãn mơ hình Markov ẩn gây Ngoài ra, đặc điểm ngữ cảnh xem xét để lựa chọn đặc trưng tốt CRF sử dụng để tính tốn mật độ phân phối xác suất điều kiện tập hợp biến ngẫu nhiên đầu khác dựa tập hợp biến ngẫu nhiên đầu vào Mục tiêu việc huấn luyện CRF học tham số hàm đặc trưng cho tối đa hóa hàm log-likelihood liệu huấn luyện Điều thực cách sử dụng ước lượng tối đa độ ảnh hưởng phương pháp tối ưu hóa khác 2.4 Học đa tác vụ Con người học nhiều nhiệm vụ lúc Trong q trình học tập, người sử dụng kiến thức học nhiệm vụ để học nhiệm vụ khác Lấy cảm hứng từ khả học tập người, học đa tác vụ có mục đích học nhiều nhiệm vụ liên quan để kiến thức chứa nhiệm vụ tận dụng nhiệm vụ khác với hy vọng cải thiện hiệu suất tổng quát hóa tất nhiệm vụ [76] Theo Zang cộng sự, MTL định nghĩa sau: “Với m nhiệm vụ học tất nhiệm vụ tập hợp chúng có liên quan với nhau, học đa tác vụ nhằm mục đích học m nhiệm vụ để cải thiện việc học mô hình cho nhiệm vụ cách sử dụng kiến thức có tất số nhiệm vụ.” [77] Trong học sâu thường sử dụng hai phương pháp chia sẻ tham số cứng chia sẻ tham số mềm [78] Trong nhiều trường hợp, mơ hình quan tâm tới hiệu suất tác vụ cụ thể, nhiên để tận dụng lợi ích mà MTL mang lại, thêm vào số tác vụ liên quan với mục đích cải thiện thêm hiệu suất tác vụ chính, tác vụ gọi tác vụ phụ trợ (Auxiliary task) Việc tìm kiếm tác vụ phụ trợ phần lớn dựa giả định tác vụ phụ trợ phải liên quan đến nhiệm vụ theo cách hữu ích cho việc dự đốn tác vụ Với giả thuyết rằng, mơ hình khơi phục dấu câu, chữ hoa cung cấp thêm thông tin, hỗ trợ tốt giúp nâng cao hiệu nhận dạng thực thể định danh, luận án tận dụng tri thức phương pháp học tập đa tác vụ tác vụ phụ trợ để đề xuất mơ hình nhận dạng thực thể định danh cho văn đầu ASR theo hướng E2E 13 2.5 Kết luận Chương Chương trình bày kiến thức tảng kĩ thuật biểu diễn từ Word2Vec, GloVe, BERT Mô tả chi tiết đặc điểm, kiến trúc số mơ hình xử lý chuổi Transformer, GRU Đồng thời, mơ hình gán nhãn softmax, CRF giới thiệu Đặc biệt, phương pháp chia sẻ tham số cứng, chia sẻ tham số mềm tác vụ phụ trợ học đa tác vụ trình bày Những mơ hình giới thiệu chương sở để hướng tới xây dựng mơ hình cho toán chuẩn hoá nhận dạng thực thể định danh cho văn đầu ASR tiếng Việt trình bày Chương 3, Chương Chương CHUẨN HÓA VĂN BẢN ĐẦU RA CỦA HỆ THỐNG NHẬN DẠNG TIẾNG NÓ I TIẾNG VIỆT Bên cạnh yêu cầu cải tiến hệ thống ASR để giảm thiểu lỗi từ chuẩn hóa văn đầu hệ thống ASR bao gồm khôi phục dấu câu, chữ hoa giúp văn dễ đọc, dễ hiểu cung cấp thông tin quan trọng cho nhiều ứng dụng Trong phạm vi nghiên cứu luận án, nghiên cứu sinh đặt giả thiết việc kết hợp khôi phục, dấu câu chữ hoa hỗ trợ cho mơ hình NER đạt hiệu suất cao Chương trình bày tốn khơi phục dấu câu, chữ hoa văn đầu tiếng nói tiếng Việt, khó khăn, hạn chế thực nhiệm vụ từ đề xuất giải pháp, cách thức xây dựng liệu, thiết lập mơ hình kết thực nghiệm 3.1 Bài tốn khơi phục dấu câu chữ hoa Đầu vào: văn đầu hệ thống ASR tiếng Việt Đầu ra: văn khôi phục dấu câu, chữ hoa Phạm vi nghiên cứu: Về liệu: Từ trang báo mạng thống Việt Nam, với tỉ lệ lỗi từ văn 0% Về dấu câu: Tập trung khôi phục ba loại dấu câu dấu chấm, dấu phẩy, dấu chấm hỏi Về chữ hoa: Phân biệt nhãn chữ thường, chữ hoa, khơng xử lý nhãn chữ hoa trộn lẫn hay toàn Hướng giải quyết: Đề xuất xử lý chuỗi đầu vào, đầu quan tâm tới ngữ cảnh từ xung quanh đoạn cắt Đề xuất mơ hình theo hướng học sâu để tăng hiệu suất khôi phục dấu câu, chữ hoa 3.2 Đề xuất mơ hình Mơ hình xử lý tiến hành theo bước sau: (1) Bước một, văn đầu ASR tiếng Việt đưa qua mô-đun phân đoạn để cắt chuỗi đầu vào (2) Bước hai, mơ hình khơi phục dấu câu, chữ hoa lấy phân đoạn cắt xử lý song song tạo danh sách nhãn dấu câu, chữ hoa đầu 14 (3) Cuối cùng, sử dụng mô-đun hợp phân đoạn để trích xuất kết đầu gán nhãn hợp tương ứng với văn đầu vào 3.2.1 Đề xuất xử lý cắt chuỗi văn đầu vào hợp chuỗi đầu Nghiên cứu đề xuất kỹ thuật nhằm xử lý cắt, ghép chuỗi cách cắt có chồng lấn với ý tưởng nhằm đảm bảo đoạn cắt thu có đủ ngữ cảnh từ để mơ hình CaPu dự đoán tốt Sau xử lý đoạn cắt có chồng lấn, thực hợp đoạn thành chuỗi đầu chuỗi ban đầu 3.2.1.1 Phân đoạn chồng lấn Hướng giải đề xuất chia nhỏ chuỗi đầu vào thành đoạn có kích thước cố định, với phần chồng lấn chiếm nửa độ dài đoạn cắt Có thể mơ tả hình thức cách phân đoạn chồng lấn sau: Độ dài đoạn cắt chọn số chẵn từ Gọi l độ dài đoạn cắt, k độ dài đoạn chồng lấn, ta có l=2k Mỗi chuỗi từ đầu vào S chứa n từ kí hiệu w1, w2, , wn cắt thành đoạn chồng lấn, đó, đoạn cắt thứ i chuỗi từ [w(i-1)k+1, …, w(i+1)k] Trong nghiên cứu khảo sát giá trị l, k thực nghiệm lựa chọn giá trị cho phù hợp 3.2.1.2 Hợp đoạn chồng lấn Vì câu đầu vào phân chia thành đoạn chồng lấn, đó, với vấn đề hợp đoạn chồng lấn, cần phải xác định từ bỏ từ giữ phần hợp câu cuối Gọi c độ dài đoạn giữ lại hay loại bỏ đoạn chồng lấn Để đơn giản cho tính toán, lấy Theo quan sát, từ cuối đoạn chồng lần thứ từ đoạn chồng lấn thứ hai (các từ xung quanh đoạn cắt) khơng có nhiều ngữ cảnh Do vậy, thuật toán loại bỏ đoạn thuộc cuối đoạn chồng lấn (1) (phần gạch chéo) giữ lại đoạn đoạn chồng lấn (2) (phấn chấm) Theo đó, từ lại đầu đoạn chồng lấn (1) giữ lại từ lại đầu đoạn chồng lấn (2) bị loại bỏ Điều đảm bảo cho từ phần chống lấn giữ lại ln đoạn, có nhiều ngữ cảnh giúp cho việc khơi phục xác Các đoạn loại bỏ giữ lại phần chồng lấn lặp lại cho phân đoạn chồng lấn Phần hợp sau ghép nối mơ tả sau (3.1) 3.2.2 Đề xuất mơ hình học sâu cho mục đích khơi phục dấu câu, chữ hoa Hình 3.1 giới thiệu mơ hình CaPu đề xuất cho tốn khơi phục dấu câu chữ hoa cho văn đầu ASR tiếng Việt gồm thành phần: nhúng từ, Transformer Encoder CRF 15 Hình 3.1: Mơ hình CaPu đề xuất cho văn đầu ASR tiếng Việt 3.3 Xây dựng liệu Để có nguồn liệu văn đầu ASR tiếng Việt đủ lớn cho việc huấn luyện mơ hình CaPu, liệu TextCaPu thu thập từ trang tin tức điện tử Việt Nam bao gồm vietnamnet.vn, dantri.com.vn, vnexpress.net Bộ liệu TextCaPu chia thành huấn luyện TextCaPu-train , đánh giá TextCaPu-vl kiểm tra TextCaPu-test Với liệu huấn luyện, TextCaPu-train chuyển chữ thường loại bỏ dấu câu để mô giống với đầu ASR, giữ nguyên liệu kiểu số, ngày tháng khơng có lỗi từ văn Bảng 3.1: Thông tin liệu Nhãn U L $ , ? Bộ liệu huấn luyện Bộ liệu kiểm tra 15.4M 69.3M 76.6M 2.7M 5.3M 53K 74K 507K 525K 24K 30K 2.6K 3.4 Kết thực nghiệm 3.4.1 Đánh giá sử dụng hợp đoạn chồng lấn Hình 3.2 hiển thị biểu đồ so sánh với kết mơ hình với kích thước phân đoạn khác nhau, trường hợp sử dụng không sử dụng hợp đoạn chồng lấn Các mơ hình sử dụng hợp đoạn chồng lấn ln cho kết tốt Đặc biệt, mơ hình đề xuất Transformer Encoder – CRF, kết sử dụng hợp có kết cao 0.88 Kết xác nhận giả thuyết nghiên cứu việc bổ sung thêm ngữ cảnh cách cách xếp đoạn chồng lấn phân đoạn, hợp đoạn chồng lấn giúp cải thiện mơ hình 16 Hình 3.2: Các mơ hình sử dụng khơng sử dụng hợp đoạn chồng lấn Nghiên cứu trình bày kết cho mơ hình đề xuất Transformer Encoder - CRF áp dụng không áp dụng hợp đoạn chồng lấn thống kê nhãn (‘U’ ‘.’ ‘,’ ‘?’), bỏ qua nhãn (‘L’ ‘$’), số lượng xác nhiều, nên khơng cần thiết để so sánh hiệu Bảng 3.2 cho thấy vượt trội phương pháp hợp đoạn chồng lấn so với không sử dụng điểm F1 tất lớp cải thiện đáng kể từ 0.01 đến 0.05 Kết cho thấy, từ đoạn phần xếp chồng lấn cung cấp nhiều thơng tin dự đốn q trình hợp chọn phần thích hợp khu vực xếp chồng Bảng 3.2: So sánh kết mơ hình Transformer Encoder - CRF áp dụng không áp dụng hợp chồng lấn Mơ hình Nhãn Precision Recall F1 Transformer Encoder-CRF áp dụng hợp chồng lấn U , ? 0.90 0.71 0.66 0.75 0.86 0.57 0.53 0.52 0.88 0.63 0.59 0.62 Transformer Encoder-CRF không áp dụng hợp chồng lấn U , ? 0.89 0.69 0.65 0.74 0.85 0.54 0.50 0.47 0.87 0.61 0.57 0.58 3.4.2 Đánh giá đầu văn mã hóa văn thơ Kết cho mơ hình sử dụng đầu gán nhãn văn thông thường so sánh hình 3.3, đó, mơ hình LSTM mơ hình Transformer với văn thơng thường có kết tốt so với sử dụng đầu gán nhãn mơ hình đề xuất cho kết tốt 17 Hình 3.3: Kết mơ hình với đầu dạng văn dạng nhãn Đồng thời, ma trận lỗi hình 3.4 cho thấy phần trăm dự đoán đúng/sai lệch nhãn dấu câu, chữ hoa cho mơ hình đề xuất Transformer Encoder - CRF Khả khôi phục chữ thường, chữ hoa khơng dấu cao (0.86-0.99), sau giảm dần với dấu chấm, dấu phẩy dấu hỏi chấm Hình 3.4: Ma trận lỗi cho mơ hình Transformer Encoder – CRF 3.4.3 Đánh giá tốc độ Kết so sánh thời gian thực thi mô hình có văn đầu mã hóa văn túy hiển thị Bảng 3.3 với 2080 ti (GPU), batch_size: 128 Với đầu văn mã hóa, mơ hình có thời gian xử lý nhanh văn túy Đầu văn mã hóa chí cịn cho thấy hiệu suất vượt trội sử dụng với mơ hình đề xuất Bảng 3.3: Đánh giá tốc độ (tokens/second) Đầu Transformer LSTM Transformer Encoder -CRF Dạng gán nhãn 263s → 2209t/s 217s → 2678t/s 90s → 6457t/s Dạng văn 355s → 1637t/s 230s → 2526t/s - 18 Chương NHẬN DẠNG THỰC THỂ ĐỊNH DANH CHO VĂN BẢN ĐẦU RA NHẬN DẠNG TIẾNG NÓ I TIẾNG VIỆT Chương trình bày chi tiết tốn NER đề xuất mơ hình, xây dựng liệu, đưa kết thực nghiệm nhằm đánh giá, so sánh giải pháp cho NER văn đầu ASR tiếng Việt theo cách tiếp cận Pipeline truyền thống cách tiếp cận E2E Cách tiếp cận truyền thống Pipeline dựa giả thiết việc kết hợp mơ hình khơi phục dấu câu chữ hoa mơ hình CaPu cung cấp thơng tin hữu ích làm đầu vào giúp mơ hình NER đạt hiệu suất cao Cách tiếp cận E2E quy trình phức hợp từ đầu đến cuối, giúp hệ thống hoạt động thuận tiện hơn, tránh lỗi lan truyền qua bước giải toán trung gian Giải pháp E2E cho tốn NER đề xuất mơ hình giải đồng thời hai tốn khơi phục dấu câu, chữ hoa nhận dạng thực thể định danh 4.1 Bài toán nhận dạng thực thể định danh cho hệ thống nhận dạng tiếng nói tiếng Việt Đầu vào: Văn đầu ASR tiếng Việt Đầu ra: Gán nhãn thực thể định danh theo hướng tiếp cận Pipeline E2E Phạm vi nghiên cứu: Về liệu: Văn dài, từ vựng lớn Hệ thống ASR phục vụ đánh giá có WER 4.85% Về thực thể định danh: Nhận dạng ba loại thực thể tên người, tên tổ chức tên địa điểm Hướng nghiên cứu: Xây dựng liệu phù hợp cho mục đích huấn luyện đánh giá mơ hình Đối với cách tiếp cận Pipeline, nghiên cứu đề xuất kết hợp mơ hình CaPu vào hệ thống với mục đích nâng cao hiệu suất mơ hình NER Cách tiếp cận E2E, sử dụng tiền huấn luyện mô-đun CaPu cho mơ hình Đề xuất mơ hình học sâu cho mơ hình NER 4.2 Xây dựng liệu 4.2.1 Bộ liệu huấn luyện Bộ liệu thứ nhất, TextCaPu, liệu lớn bao gồm văn tin tức lấy từ trang báo điện tử Việt Nam Tập văn xoá định dạng (bỏ dấu câu, chuyển chữ hoa thành chữ thường) gán nhãn dấu câu, chữ hoa phục vụ cho mục đích huấn luyện mơ hình chuẩn hố văn đầu hệ thống ASR; Bộ liệu thứ hai, TextViBERT, liệu huấn luyện mơ hình ViBERT thu thập từ nhiều miền Internet bao gồm tin tức, luật, giải trí, Wikipedia, ; Bộ liệu thứ ba, TextVLSP, liệu văn gán nhãn NER VLSP 2018 Tập văn chuẩn sử dụng để huấn luyện mơ hình NER theo cách tiếp cận Pipeline; Bộ liệu thứ tư, TextVLSP-TTS-ASR, liệu để huấn luyện mô hình NER theo tiếp cận E2E Đầu tiên, liệu tiếng nói tổng hợp từ văn huấn luyện liệu NER VLSP 2018 sử dụng hệ thống TTS Google Sau liệu tiếng nói đưa qua hệ thống ASR VAIS để thu văn đầu ASR

Ngày đăng: 18/09/2023, 19:24