1. Trang chủ
  2. » Luận Văn - Báo Cáo

Mô hình kết hợp cnn lstm cho bài toán chuyển lời nói tường trình phòng mổ sang văn bản

81 55 1

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Nội dung

BỘ CÔNG THƯƠNG TRƯỜNG ĐẠI HỌC CÔNG NGHIỆP THÀNH PHỐ HỒ CHÍ MINH NGUYỄN TUẤN ANH MƠ HÌNH KẾT HỢP CNN-LSTM CHO BÀI TỐN CHUYỂN LỜI NĨI TƯỜNG TRÌNH PHỊNG MỔ SANG VĂN BẢN Chuyên ngành: KHOA HỌC MÁY TÍNH Mã chuyên ngành: 60.480101 LUẬN VĂN THẠC SĨ THÀNH PHỐ HỒ CHÍ MINH, NĂM 2020 Cơng trình hồn thành Trường Đại học Cơng nghiệp TP Hồ Chí Minh Người hướng dẫn khoa học: PGS.TS Phạm Thế Bảo (Ghi rõ họ, tên, học hàm, học vị chữ ký) Luận văn thạc sĩ bảo vệ Hội đồng chấm bảo vệ Luận văn thạc sĩ Trường Đại học Cơng nghiệp thành phố Hồ Chí Minh ngày 21 tháng năm 2020 Thành phần Hội đồng đánh giá luận văn thạc sĩ gồm: PGS.TS Huỳnh Trung Hiếu - Chủ tịch Hội đồng TS Lê Thành Sách - Phản biện TS Huỳnh Khả Tú - Phản biện TS Đặng Quang Vinh - Ủy viên TS Lê Nhật Duy - Thư ký (Ghi rõ họ, tên, học hàm, học vị Hội đồng chấm bảo vệ luận văn thạc sĩ) CHỦ TỊCH HỘI ĐỒNG TRƯỞNG KHOA CÔNG NGHỆ THÔNG TIN BỘ CÔNG THƯƠNG TRƯỜNG ĐẠI HỌC CÔNG NGHIỆP THÀNH PHỐ HỒ CHÍ MINH CỘNG HỊA XÃ HỘI CHỦ NGHĨA VIỆT NAM Độc lập - Tự - Hạnh phúc NHIỆM VỤ LUẬN VĂN THẠC SĨ Họ tên học viên: Nguyễn Tuấn Anh MSHV: 16002631 Ngày, tháng, năm sinh: 04/04/1983 Nơi sinh: Hà Nội Chuyên ngành: Khoa học máy tính Mã chun ngành: 60.480101 I TÊN ĐỀ TÀI Mơ hình kết hợp CNN-LSTM cho tốn chuyển lời nói tường trình phịng mổ sang văn NHIỆM VỤ VÀ NỘI DUNG Nghiên cứu phương pháp MFCC, mơ hình CNN, mơ hình LSTM Kết hợp CNN LSTM thành mợt mơ hình thống nhất CNN-LSTM Áp dụng mơ hình CNN-LSTM để giải tốn chuyển lời nói tường trình phịng mổ sang dạng văn II NGÀY GIAO NHIỆM VỤ: 14/06/2019 III NGÀY HOÀN THÀNH NHIỆM VỤ: 14/06/2020 IV NGƯỜI HƯỚNG DẪN KHOA HỌC: PSG.TS.Phạm Thế Bảo Tp Hồ Chí Minh, ngày … tháng … năm 2020 NGƯỜI HƯỚNG DẪN CHỦ NHIỆM BỘ MÔN ĐÀO TẠO (Họ tên chữ ký) (Họ tên chữ ký) TRƯỞNG KHOA CÔNG NGHỆ THÔNG TIN (Họ tên chữ ký) LỜI CẢM ƠN Để hồn thành luận văn "Mơ hình kết hợp CNN-LSTM cho tốn chuyển lời nói tường trình phòng mổ sang văn bản" bên cạnh nỗ lực thân, em xin chân thành cảm ơn quý thầy cô khoa Công nghệ Thông tin, trường đại học Cơng Nghiệp tận tình giảng dạy, trang bị cho em kiến thức quý báu năm vừa qua Đặc biệt em xin bày tỏ lòng biết ơn chân thành đến thầy PGS.TS Phạm Thế Bảo người trực tiếp hướng dẫn luận văn, tận tình bảo hướng dẫn em tìm hướng nghiên cứu, tiếp cận thực tế, tìm kiếm tài liệu, xử lý phân tích số liệu, giải vấn đề nhờ em hồn thành luận văn cao học Ngồi em xin chân thành cảm ơn đến thầy TS Trịnh Tấn Đạt, người thầy PGS.TS Phạm Thế Bảo hỗ trợ cho em thêm kiến thức, kinh nghiệm quý báu trình thực luận văn Em xin cám ơn đến bệnh viện đa khoa Đồng Nai tạo điều kiện tốt nhất việc sử dụng liệu phục vụ mục đích nghiên cứu đề tài Cuối em xin cảm ơn người thân, bạn bè ln bên em, đợng viên em hồn thành khóa học luận văn Một lần nữa, xin trân trọng cảm ơn! i TÓM TẮT LUẬN VĂN THẠC SĨ Chúng tơi mong muốn xây dựng mợt mơ hình chuyển lời nói tiếng Việt phịng mổ sang văn với âm thực tế phẫu thuật (bao gồm lời nói phẫu thật viên tiếng ồn xung quanh) Vì vậy, chúng tơi đề x́t sử dụng mơ hình nhận dạng chuyển lời nói sang văn - Speech to text recognition (STR) cho nghiên cứu Chúng nghiên cứu hiệu mạng nơ ron thần kinh tích chập hồi quy sâu (CRNN hay cụ thể CNN-LSTM) nhận dạng lời nói Mạng nơ ron thần kinh tích chập (CNN) mạng nơ ron thần kinh bộ nhớ ngắn dài hạn (LSTM) chứng minh hiệu phương pháp nhận dạng lời nói Chúng tơi đề x́t áp dụng kết hợp CNN bidirectionalLSTM (BLSTM) để xem xét việc học đặc trưng giọng nói cục bợ, mơ hình tuần tự, phiên mã để nhận dạng giọng nói Chúng tơi mở rợng mơ hình CNN-LSTM với chế dựa ý (Attention-based hay Attention) để giải mã khung thành một chuỗi từ Các mơ hình CNN, LSTM Attention-based kết hợp với thành mợt kiến trúc thống nhất Bênh cạnh đó, kết hợp phương pháp phân loại tạm thời kết nối - Connectionist Temporal Classification (CTC) Attention-based với trình huấn luyện Chiều dài dãy nhãn đầu từ CTC áp dụng cho pha giải mã Attention-based để dự đoán tạo nhãn cuối Quá trình giúp giảm canh chỉnh không (giữa đầu đầu vào) làm tăng tốc ước tính chuỗi q trình huấn luyện suy luận thay dựa vào Attention (attention-based encoder-decoder) dựa liệu để ước tính dãy nhãn câu dài Hệ thống đề xuất đánh giá cách sử dụng một bộ liệu thực tế phòng mổ Kết thử nghiệm cho thấy phương pháp đề xuất làm tăng đáng kể đợ xác hệ thống nhận dạng giọng nói Chúng thấy phương pháp cho tỷ lệ lỗi từ (WER) 13,05% vượt trội phương pháp tiêu chuẩn ii ABSTRACT We look forward to building a model that converts Vietnamese speech into text in the operating room with realistic sounds during surgery (including the words of real surgeons and ambient noise) Therefore, we propose to use the automatic speech to text recognition system (STR) for this study We investigate the effectiveness of deep convolution recurrent neural networks (CRNN or more specifically CNN-LSTM) on speech recognition The CNN and LSTM network have proven to be effective in speech recognition methods We propose the combination of CNN and bidirectionalLSTM (BLSTM) to consider learning the language of speech features, sequence model and transcription for speech recognition We extend the CNN-LSTM model with the attention mechanism to decode the frames into a sequence of words The CNN, LSTM models and attention mechanisms are combined together into a unified architecture Besides, we also combine Connectionist Temporal Classification (CTC) and attention mechanism to one another during the training process The length of the CTC label output sequence is applied to Attention's decoding phase to predict the final label production This process reduces irregular alignment (between output and input) and accelerates when predicting sequences during training and reasoning instead of relying solely on the data-based attention (encoder-decoder) to estimate the range of labels in long sentences The proposed system is rated using a set of actual data in the operating room The experimental results show that the proposed approach significantly increases the accuracy of the speech recognition system We found that our method of giving out the word error rate (WER) was 13.05% and superior to the standard method iii LỜI CAM ĐOAN Tôi xin cam đoan luận văn “Mơ hình kết hợp CNN-LSTM cho tốn chuyển lời nói tường trình phịng mổ sang văn bản” cơng trình nghiên cứu thân, hướng dẫn giáo viên hướng dẫn PGS.TS Phạm Thế Bảo Các số liệu sử dụng phân tích luận án có nguồn gốc rõ ràng, cơng bố theo quy định trích dẫn phần tài liệu tham khảo Các số liệu, kết trình bày đồ án hoàn toàn trung thực, kết nghiên cứu luận án chưa công bố bất kỳ cơng trình nghiên cứu khác Học viên Nguyễn Tuấn Anh iv MỤC LỤC MỤC LỤC v DANH MỤC HÌNH ẢNH viii DANH MỤC BẢNG BIỂU x DANH MỤC TỪ VIẾT TẮT xi MỞ ĐẦU .1 Đặt vấn đề Mục tiêu nghiên cứu 3 Đối tượng phạm vi nghiên cứu .3 Cách tiếp cận phương pháp nghiên cứu Ý nghĩa thực tiễn đề tài Bố cục luận văn CHƯƠNG TỔNG QUAN 1.1 Bài tốn chuyển lời nói tiếng Việt sang văn phịng mổ 1.2 Chuyển lời nói thành dạng văn .6 1.2.1 Lịch sử phát triển 1.2.2 Quá trình chuyển lời nói thành dạng văn 1.3 Các hướng tiếp cận 1.4 Khó khăn thách thức .10 1.5 Đề xuất hướng giải 11 CHƯƠNG 2.1 CƠ SỞ LÝ THUYẾT .13 Âm tiếng nói 13 2.1.1 Các đặc trưng âm tiếng nói 13 2.1.1.1 Cao độ âm 13 2.1.1.2 Cường độ mức cường độ âm 13 2.1.1.3 Độ to âm 14 2.1.1.4 Âm sắc 14 2.1.2 Xử lý tín hiệu âm 14 v 2.2 Kỹ thuật trích chọn đặc trưng tiếng nói .15 2.2.1 Nguyên lý hoạt động .15 2.2.2 Các bước trích chọn đặc trưng tiếng nói 16 2.3 2.2.2.1 Phân khung tín hiệu 16 2.2.2.2 Cửa sổ hóa 16 2.2.2.3 Chuyển sang miền tần số .17 2.2.2.4 Chuyển đổi sang thang Mel, áp dụng băng lọc thông dải 18 2.2.2.5 Thực biến đổi Cosin rời rạc, tạo MFCC 18 Mạng nơ ron nhân tạo 20 2.3.1 Tổng quan .20 2.3.2 Mơ hình mạng nơ ron thần kinh nhân tạo .20 2.3.3 Huấn luyện mạng 21 2.3.4 Trọng số ngưỡng 21 2.3.5 Hàm kích hoạt .22 2.3.6 Hàm mục tiêu 22 2.3.7 Mạng truyền thẳng thuật toán lan truyền ngược 22 2.4 2.3.7.1 Mạng truyền thẳng 22 2.3.7.2 Thuật toán lan truyền ngược 23 Học sâu 23 2.4.1 Mạng nơ ron tích chập 24 2.4.1.1 Tích chập gì? 24 2.4.1.2 Cấu trúc mạng CNN 25 2.4.1.3 Trường tiếp nhận cục bộ 26 2.4.1.4 Trọng số chia sẻ ngưỡng 27 2.4.1.5 Lớp hợp nhất 27 2.4.2 Mạng nơ ron thần kinh hồi quy 28 2.4.3 Mạng long short term memory .29 CHƯƠNG XÂY DỰNG MƠ HÌNH 30 3.1 Phương pháp đề xuất 30 3.2 Trích xuất chuỗi đặc trưng 30 vi 3.3 Nhãn chuỗi 34 3.4 Khối phiên mã .37 3.4.1 Phân loại tạm thời kết nối .37 3.4.2 Mã hóa – giải mã 42 3.5 Huấn luyện mạng 45 CHƯƠNG KẾT QUẢ 47 4.1 Dữ liệu 47 4.2 Môi trường thực nghiệm 51 4.3 Kết 54 KẾT LUẬN VÀ KIẾN NGHỊ 61 Kết luận 61 Hướng phát triển 61 TÀI LIỆU THAM KHẢO 62 ĐƠN XIN XÁC NHẬN 65 LÝ LỊCH TRÍCH NGANG CỦA HỌC VIÊN 66 vii ... Mơ hình kết hợp CNN- LSTM cho tốn chuyển lời nói tường trình phịng mổ sang văn NHIỆM VỤ VÀ NỘI DUNG Nghiên cứu phương pháp MFCC, mơ hình CNN, mơ hình LSTM Kết hợp CNN LSTM thành mợt mơ hình thống... chúng tơi định thực đề tài "Mơ hình kết hợp CNNLSTM cho tốn chuyển lời nói tường trình phòng mổ sang văn bản" , nhằm hỗ trợ cho bác sĩ nhân viên y tế thực tường trình thủ thuật, phẫu thuật mợt... superior to the standard method iii LỜI CAM ĐOAN Tơi xin cam đoan luận văn “Mơ hình kết hợp CNN- LSTM cho tốn chuyển lời nói tường trình phịng mổ sang văn bản? ?? cơng trình nghiên cứu thân, hướng dẫn

Ngày đăng: 27/05/2021, 22:44

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN