Nghiên cứu công nghệ nhận dạng giọng nói tiếng Việt sử dụng học máy và ứng dụng vào việc điều khiển thiết bị trong nhà bằng điện thoại Android

ĐẠI HỌC QUỐC GIA TP HCM TRƯỜNG ĐẠI HỌC BÁCH KHOA BÙI THANH PHONG NGHIÊN CỨU CÔNG NGHỆ NHẬN DẠNG GIỌNG NÓI TIẾNG VIỆT SỬ DỤNG HỌC MÁY YÀ ỨNG DỤNG VÀO VIỆC ĐIỀU KHIỂN THIẾT BỊ TRONG NHÀ BẰNG ĐIỆN THOẠI ANDROID •• Chun ngành: Khoa Học Máy Tính Mã số: 60.48.01.01 LUẬN VĂN THẠC SĨ TP HỒ CHÍ MINH, tháng 06 năm 2019 CƠNG TRÌNH ĐƯỢC HỒN THÀNH TẠI TRƯỜNG ĐẠI HỌC BACH KHOA - ĐHQG - HCM Cán hướng dẫn khoa học: PGS TS Quản Thành Thơ Cán chấm nhận xét 1: PGS TS Nguyễn Thanh Hiên Cán chấm nhận xét 2: TS Nguyễn Đức Dũng Luận văn thạc sĩ bảo vệ Trường Đại học Bách Khoa, ĐHQG Tp HCM ngày 03 tháng 07 năm 2019 Thành phần Hội đồng đánh giá luận văn thạc sĩ gồm: Chủ tịch: PGS TS Dương Tuấn Anh Phản biện 1: PGS TS Nguyễn Thanh Hiên Phản biện 2: TS Nguyễn Đức Dũng ủy viên: TS Phạm Hoàng Anh Thư ký: TS Nguyễn Lê Duy Lai Xác nhận Chủ tịch Hội đồng đánh giá LV Trưởng Khoa quản lý chuyên ngành sau luận văn sửa chữa (nếu có) CHỦ TỊCH HỘI ĐỊNG TRƯỞNG KHOA KH & KT MÁY TÍNH ĐẠI HỌC QUỐC GIA TP.HCM TRƯỜNG ĐẠI HỌC BÁCH KHOA CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM Độc lập - Tự - Hạnh phúc NHIỆM VỤ LUẬN VĂN THẠC SĨ Họ tên học viên: Bùi Thanh Phong MSHV: 1570743 Ngày, tháng, năm sinh: 20/12/1983 Nơi sinh: Quảng Nam Chuyên ngành: Khoa Học Máy Tính Mã số: 60.48.01.01 I TÊN ĐỀ TÀI: NGHIÊN CỨU CƠNG NGHỆ NHẬN DẠNG GIỌNG NĨI TIẾNG VIỆT SỬ DỤNG HỌC MÁY VÀ ỨNG DỤNG VÀO VIỆC ĐIỀU KHIỂN THIẾT BỊ TRONG NHÀ BẰNG ĐIỆN THOẠI ANDROID NHIỆM VỤ LUẬN VĂN: II NGÀY GIAO NHIỆM VỤ: 11/02/2019 III NGÀY HOÀN THÀNH NHIỆM VỤ: 02/06/2019 IV CÁN BỘ HƯỞNG DẪN: PGS TS Quản Thành Thơ Tp HCM, ngày .tháng năm 2019 CÁN BỘ HƯỞNG DẪN PGS TS Quản Thành Thơ TRƯỞNG KHOA KH & KT MÁY TÍNH LỜI CÁM ƠN Tơi xin trân trọng gửi lời biết ơn chân thành đến thầy PGS.TS Quản Thành Thơ, ngưòi trực tiếp dẫn dắt tận tình bảo động viên tơi q trình thực đề tài Cảm ơn thầy kiến thức kinh nghiệm quý báu mà thầy truyền đạt, q vơ giá người thầy Tôi xin chân thành cảm ơn tất qúy Thầy, qúy Cơ khoa tận tình giúp đở đề tơi hồn thành đề tài Tơi xin chân thành cảm ơn tất người thân gia đĩnh động viên tơi q trình thực hện đề tài Xin cảm ơn cơng lao ni dạy tình yêu thương Cha Mẹ người thân để có hội ngày hơm Xin gửi lời cảm ơn chân thành đến bạn, anh, chị bạn hữu, đồng nghiệp vĩ giúp đở, góp ý cho tơi q trình thực luận văn TÓM TẮT LUẬN VĂN Ngày máy tính hay thiết bị điện tử thơng minh smartphone thực trở nên phổ biến gần gủi với người Máy tính hay điện thoại giải nhiều vấn đề đời sống ngày từ việc tính tốn số, làm phương tiện trao đổi thông tin, nhu cầu giải trí Tuy nhiên người ln muốn nhiều nữa, vói hy vọng ngày ngồi nói chuyện với máy móc ngưòi bạn thân thiết, điều dần trở thành thật, công nghệ nhận dạng giọng nói đóng góp phần lớn trình tiến hóa máy móc Những nghiên cứu nhận dạng giọng nói giúp máy móc hiểu lời nói người từ giúp cho việc giao tiếp người-máy trở nên văn minh tự nhiên Hiện với bùng nổ công nghiệp 4.0 Việt Nam, nhu cầu ứng dụng trí tuệ nhân tạo IoT tất yếu thực cần thiết Điều khiển thiết bị giọng nói tiếng Việt hướng nghiên cứu thú vị giai đoạn này, nhiên tảng ứng dụng nhận dạng giọng nói tiếng Việt chưa phát triển mạnh, đặc biệt việc tiếp cận phưong pháp Connectionist Temporal Classification (CTC) để xây dựng mơ hình nhận dạng điều mẻ nhiều thách thức tiếng Việt, với mục tiêu xây dựng hệ thống nhận dạng tiếng Việt với độ xác chấp nhận được, từ ứng dụng vào đời sống thực tế Với động tư vấn thầy PGS.TS Quản Thành Thơ định chọn đề tài "Nghiên cửu công nghệ nhận dạng giọng nói tiếng Việt sử dụng học máy ứng dụng vào việc điều khiển thiết bị nhà điện thoại Android" để nghiên cứu ABSTRACT OF THE THESIS Nowadays, computers or smartphones play an important role in our lives Those devices have solved plenty of problems, from computing numbers, transferring information, entertainment However, human always desires more and more, with a hope that they can someday talk to the machines like friends, and that idea is coming true Speech recognition technology will be a major area in machines development Speech recognition researchs are going to changes machines to be able to understand human's speech, then the communication between human and machines would turn to natural With the economic development in Vietnam, artificial intelligence and IoT applications are required Controlling devices by Vietnamese speech is one of interesting research areas in this time, however speech recognition platforms for Vietnamese haven't been exploited as their potential, especially in the approaching with Connectionist Temporal Classification (CTC) methodology which aims to construct a Vietnamese speech recognition system with high accuracy, to be applied in reality With above motivation and the supports from Associate Professor Ph.D Quan Thanh Tho, I have made my decision to work on topic "A Study on Vietnamese Speech Recognition Technology based on Machine Learning and Its Application in Home Device Control using Android Smartphones" LỜI CAM ĐOAN Tôi cam đoan rằng, ngoại trừ kết tham khảo từ cơng trình khác ghi rõ luận văn, cơng việc trình bày luận văn tơi thực chưa có phần nội dung luận văn nộp để lấy cấp trường trường khác Ngày 02 tháng 06 năm 2019 Bùi Thanh Phong MỤC LỤC LỜI CẢM ƠN i TÓM TẮT LUẬN VĂN ii LỜI CAM ĐOAN iv MỤC LỤC V DANH MỤC HÌNH vii DANH MỤC BẢNG BIÊU ix CHUƠNG GIỚI THIỆU TÔNG QUAN 1.1 TÔNG QUAN VỀ HỆ THỐNG NHẬN DẠNG GIỌNG NĨI 1.2 TÌNH HÌNH NGHIÊN cứu 1.2.1 Tình hình nghiên cứu giới 1.2.2 Tình hình nghiên cứu nuớc 1.3 CÁC CƠNG TRÌNH LIÊN QUAN VÀ GIẢI PHÁP ĐỀ XUẤT 1.3.1 PHUƠNG PHÁP TRÍCH RỦT ĐẶC TRUNG GIỌNG NĨI 1.3.2 PHUƠNG PHÁP NHẬN DẠNG GIỌNG NÓI 1.3.1 GIẢI PHÁP ĐỀ XUẤT 1.4 MỤC TIÊU CỦA ĐỀ TÀI 1.5 GIỚI HẠN VÀ ĐỐI TUỢNG NGHIÊN CỨU CHUƠNG CƠ SỞ LÝ THUYẾT 2.1 PHUƠNG PHÁP TRÍCH RÚT ĐẶC TRUNG MFCC 2.1.1 Biến đổi FFT (Fast Fourier Transform) 2.1.2 Lọc qua lọc Mel-scale 2.1.3 Logarit giá trị luợng (Logarit Of Filter Energies) 11 2.1.4 Biến đối cosin rời rạc 11 2.2 MẠNG NƠ-RON HỒI QUY RNN 12 2.2.1 Giới thiệu mạng RNN 12 2.3 GIẢI THUẬT CONNECTIONIST TEMPORAL CLASSIFICATION (CTC) 16 2.3.1 Giới thiệu toán: 16 2.3.1 Mô tả giải thuật: 18 2.4 GIẢI THUẬT EDIT DISTANCE 35 CHUÔNG XÂY DựNG HỆ THỐNG ĐIỀU KHIÊN THIẾT BỊ TRONG NHÀ BẰNG ĐIỆN THOẠI ANDROID 36 3.1 MƠ HÌNH HỆ THỐNG ĐIỀU KHIÊN 36 3.1.1 Trích rút đặc trưng: 36 3.1.2 Khối nhận dạng: 37 3.1.3 Lọc tối ưu: 38 3.1.4 Khối điều khiển: 39 3.2 XÂY DỰNG PHẦN MỀM TRÊN ANDROID 40 CHUÔNG HUẤN LUYỆN HỆ THỐNG VÀ THỪ NGHIỆM 42 4.1 CÁC THAM SỐ CO BẢN 42 4.2 Dữ LIỆU HUẤN LUYỆN 42 4.3 HUẤN LUYỆN MƠ HÌNH .43 4.4 ĐÁNH GIÁ MƠ HÌNH 44 4.5 KẾT QUẢ CHẠY THựC NGHIỆM 45 CHUÔNG KẾT LUẬN 48 5.1 TÔNG KẾT NỘI DUNG CỦA LUẬN VĂN 48 5.2 NHŨNG ĐÓNG GÓP CỦA ĐỀ TÀI 48 5.3 HUỚNG PHÁT TRIỂN 48 TÀI LIỆU THAM KHẢO 50 BẢNG THUẬT NGỮ ANH - VIỆT VÀ TỪ VIẾT TẮT 53 DANH MỤC HÌNH • Hình 1.1 Mơ hình hoạt động hệ thống nhận dạng giọng nói Hình 2.1 Đồ biểu diễn mối quan hệ Mel Hz (nguồn [1]) Hình 2.2 Bộ lọc thang Mel (nguồn [4]) Hình 2.3 Bộ lọc tần số thật (nguồn [4]) Hình 2.4 Minh họa bước biến đổi MFCC (nguồn [4]) Hình 2.5 Biểu đồ thang tần số Mel theo tần số thực (nguồn [1]) Hình 2.6 Băng lọc tần số Mel (nguồn [4]) 10 Hình 2.7 Đưa tín hiệu vào băng lọc tần số Mel (nguồn [4]) 10 Hình 2.8 Kiến trúc đoạn mạng RNN (nguồn [13]) 12 Hình 2.9 Phân giải mạng RNN (nguồn [13]) 12 Hình 2.10 Cấu trúc mạng RNN chuẩn (nguồn [13]) 13 Hình 2.11 Cấu trúc mạng LSTM (nguồn [13]) 13 Hình 2.12 Sơ đồ đường trạng thái (nguồn [13]) 14 Hình 2.13 Sơ đồ cổng (gate) (nguồn [13]) 14 Hình 2.14 Cổng quên (forget gate) (nguồn [13]) 15 Hình 2.15 Cổng vào (input gate) (nguồn [13]) 15 Hình 2.16 Cập nhật trạng thái tế bào (nguồn [13]) 15 Hình 2.17 Tính tốn đầu (nguồn [13]) 16 Hình 2.18 Một số toán nhận dạng (nguồn [9]) 17 Hình 2.19 Một cách xếp (nguồn [9]) 18 Hình 2.20 Các bước thực việc xếp (nguồn [9]) 19 Hình 2.21 Một số trường hợp xếp hợp lệ không hợplệ (nguồn [9]) 19 Hình 2.22 Các bước q trình tính toán với CTC (nguồn [9]) 20 Hình 2.23 Xác suất đường hợp lệ (nguồn [10]) 21 Hình 2.24 Tập hợp đường hợp lệ (nguồn [10]) 22 Hình 2.25 Cơ chế tính tốn quy hoạch động (nguồn [9]) 22 Hình 2.26 Mơ tả viêc tính tốn CTCLoss - (nguồn [10]) 23 Hình 2.27 Mơ tả viêc tính tốn CTCLoss - (nguồn [10]) 23 Hình 2.28 Mơ tả viêc tính tốn CTCLoss - (nguồn [10]) 24 Hình 2.29 Mơ tả viêc tính tốn CTCLoss - (nguồn [10]) 24 Hình 2.30 Mơ tả viêc tính tốn CTCLoss - (nguồn [10]) 25 Hình 2.31 Mơ tả viêc tính tốn CTCLoss - (nguồn [10]) 25 Hình 2.32 Mơ tả viêc tính tốn CTCLoss - (nguồn [10]) 26 Hình 2.33 Mơ tả viêc tính tốn CTCLoss - (nguồn [10]) 26 Hình 2.34 Mơ tả viêc tính tốn CTCLoss - (nguồn [10]) 27 Hình 2.35 Mơ tả viêc tính tốn CTCLoss - 10 (nguồn [10]) 27 41 Giao diện ứng dụng bao gồm nút “CONNECT”, nút nhấn để đọc khung hiển thị kết nhận dạng Khi người dùng nhấn nút đọc lệnh điện thoại tiến hành ghi lại đoạn âm vừa đọc sau thực việc nhận dạng Nút “connect” thực việc kết nối khơng dây đến Arduino sóng wifi Ngôn ngữ sử dụng cài đặt Java phiên 1.8.0, công cụ phát triển sử dụng đề tài Android Studio phiên 3.0.1, phần mềm hỗ trợ Android phiên từ 4.0 đến 7.0 42 CHƯƠNG HUẤN LUYỆN HỆ THỐNG VÀ THỬ NGHIỆM Chương này, chúng tơi trình bày q trình huấn luyện mơ hình với tham số Tiến hành số thực nghiệm mơ hình điều khiển thiết bị ghi nhận kết 4.1 CÁC THAM SÓ Cơ BẢN Các tham số điều chỉnh thay đổi trình huấn luyện để đạt kết tối ưu là: • • • Số đơn vị LSTMCell num_hidden Số chu kì huấn luyện num_epochs Tốc độ học learning_rate Số tầng ẩn sử dụng mạng tầng 4.2 DỮ LIỆU HUẤN LUYỆN Tập liệu có tổng cộng 2192 tệp âm phân bố theo người đọc bảng thống kê đây: Họ tên Giới tính Mở cửa Đóng cửa Mở đèn Tắt đèn Bùi Thanh Phong Nam 436 513 426 570 Hồng Ngân Nữ 53 114 47 33 489 627 473 603 2192 Bảng 4.1 Thống kẽ liệu huấn luyện Như trình bày phần chuẩn bị liệu, tập liệu nhỏ khơng có đa dạng giọng người đọc không phân chia thành tập để kiểm định huấn luyện riêng mà sử dụng hết tập cho huấn luyện kiểm tra việc chạy trực tiếp mơ hình ứng dụng thực tế 43 4.3 HUẤN LUYỆN MÔ HÌNH Tập liệu sử dụng cho thực nghiệm tập file âm thu âm điện thoại HUAWEI NMO-L31 chạy hệ điều hành Android phiên 7.0, với tần số lấy mẫu 16000Hz Mơ hình phát triển ngôn ngữ Python sử dụng số thư viện như: Tensorflow, numpy, audio_reader, librosa, python_speech_features Các giải thuật CTC, greedy search thực thư viện Tensorflow Việc trích rút đặc trưng giọng nói thực thơng qua thư viện python_speech_features Mơ hĩnh huấn luyện máy tính cá nhân có cấu sau: • Vi xử lý: Intel(R) Core(TM) Ĩ7-4510U CPU@ 2.00GHz 2.60GHz • Bộ nhớ trong: 8.00GB • Hệ điều hành:Windows 10 Home 64-bit • Thời gian huấn luyện tốn ngày Sau nhiều chu kì với nhiều mơ hình chúng tơi đạt mơ hình tối ưu đem vào sử dụng với tham số đạt là: • Số đơn vị LSTM Cell (num_hidden = 1000): Tham số điều chỉnh theo quy tắc thử sai, giá trị thay đổi tăng dần với số ban đầu num_hidden =100 • Số chu kì huấn luyện (num_epochs = 100000): Tham số thay đổi dựa vào kết tập huấn luyện sau đợt huấn luyện kết thúc • Tốc độ học (learning_rate=0.001): Được điều chỉnh dựa quan sát hội mơ hình, tốc độ học trường hợp chậm điều có nghĩa bỏ qua nhiều lời giải tốt 44 4.4 ĐÁNH GIÁ MÔ HÌNH Đánh giá độ xác hệ thống nhận dạng giọng nói dựa vào tỉ lệ lỗi từ (Word Error Rate - WER) [23], cách tính xuất phát từ khái niệm khoảng cách Levenshtein Được mô tả công thức sau: WER = S+D +/ _ N S+D+I S+D+C (4.1) Trong đó: ■ S: số lần thay kí tự, ■ D: số lần xóa kí tự, ■ I: số lần thêm kí tự, ■ C: số kí tự đúng, ■ N =s +D+c Tuy nhiên cần quan sát độ xác hệ thống, cần sử dụng cơng thức đo độ xác sau thay cơng thức tính WER: _„ .„„ _ N - s - D -1 _ H-I - - = WAcc = 1- WER = N — (4.2) Nv' Trong đó: H = N - (S + D) = C: số kí tự Xét ví dụ cho chuỗi kí tự gốc “mowr cuwra”, hệ thống nhận dạng chuỗi kí tự “towr cuwra”, độ xác từ bao nhiêu? Ta tìm WAcc cho trường hợp trên: ta có H = c = 9,1 = 0, s = 1, D = 0, suy raN = S + D + C= l+ + = , độ xác WAcc = - ((9 0)/10) = 0.9 = 90% Bảng kết độ xác huấn luyện: Câu lệnh Độ xác Mở cửa 90% Đóng cửa 92% Mở đèn 90% Tắt đèn 91% Bảng 4.2 Kết huấn luyện 45 4.5 KẾT QUẢ CHẠY THựC NGHIỆM Quá trình thực nghiệm tiến hành cách cho người dùng đọc trực tiếp lệnh điều khiển từ ứng dụng điện thoại Android Các thực nghiệm tiến hành điều kiện mơi trường sống bình thường, khơng q nhiều tiếng ồn không im lặng Các thực nghiệm thực sau: ■ Thử nghiệm với giọng nam nữ huấn luyện ■ Thử nghiệm với giọng nam nữ chưa huấn luyện Sau kết thử nghiệm hệ thống: • Kết vói người giọng đọc nam huấn luyện trường hợp không sử dụng giải thuật Edit Distance: Câu lệnh Tỉ lệ lỗi từ Mở cửa 20% Đóng cửa 25% Mở đèn 15% Tắt đèn 15% Bảng 4.3 Kết thực nghiệm -1 • Và bảng kết thí nghiệm có sử dụng Edit Distance: Kết với người giọng đọc nam (một người đọc) huấn: Câu lệnh Mở cửa Đóng cửa Mở đèn Tắt đèn Số lần đọc Đúng Sai Độ xác 100 100 94 99 94% 99% 100 98 98% 100 400 98 98% 389 11 97.25% Bảng 4.4 Kết thực nghiệm - 46 Kết với người giọng đọc nam (một người đọc) chưa huấn: Câu lệnh Số lần đọc Đúng Sai Độ xác Mở cửa 100 94 94% Đóng cửa 100 76 24 Mở đèn 100 97 97% 100 400 94 39 94% Tắt đèn 361 76% 90.25% Bảng 4.5 Kết thực nghiệm - Kết với người giọng đọc nữ (một người nữ) huấn luyện: Câu lệnh Số lần đọc Đúng Sai Độ xác Mở cửa 100 96 96% Đóng cửa 100 85 15 85% Mở đèn 100 88 85 12 15 88% 354 46 88.5% Tắt đèn 100 400 85% Bảng 4.6 Kết thực nghiệm - Kết với người giọng đọc nữ (một người nữ) chưa huấn luyện: Câu lệnh Số lần đọc Đúng Sai Độ xác Mở cửa 100 90 90% Đóng cửa 100 76 10 24 Mở đèn 100 94 94% 100 400 78 22 78% 338 62 84.50% Tắt đèn 76% Bảng 4.7 Kết thực nghiệm - Với kết thực nghiệm ta thấy mơ hình khơng đạt tối ưu tuyệt tập huấn luyện kết hợp giải thuật Edit Distance cho hệ thống điều khiển kết tốt Đối với giọng đọc nam cho kết độ 47 xác cao so với giọng đọc nữ, điều yếu tố liệu giọng đọc nữ thu thập chưa đủ lớn để đảm bảo tính tổng quát mơ hình Nếu khơng áp dụng giải thuật Edit Distance việc xây dựng hệ thống thơng minh điều khiển giọng nói tiếng Việt thật khó khăn, điều cho thấy rõ việc đề xuất sử dụng giải thuật Edit Distance hợp lý đem lại hiệu 48 CHƯƠNG KÉT LUẬN Chương tổng kết lại công việc thực luận văn đồng thời nêu lên đóng góp đề tài hướng phát triển tương lai 5.1 TỔNG KẾT NỘI DUNG CỦA LUẬN VĂN Khái qt tình hình nghiên cứu nhận dạng giọng nói giới nước, nêu cơng trình nghiên cứu liên quan, đề xuất giải pháp cho toán Trọng tâm nội dung luận văn tập trung vào giải thuật CTC kết họp với giải thuật Edit Distance để nâng cao hiệu suất cho hệ thống điều khiển thiết bị giọng nói tiếng Việt Ngồi ra, đề tài tiến hành xây dựng thành công mơ hình thử nghiệm với việc điều khiển thiết bị nhà điện thoại Android, hệ thống hoạt động tốt điều kiện mơi trường bình thường 5.2 NHỮNG ĐÓNG GÓP CỦA ĐỀ TÀI Đã kết họp giải thuật Edit Distance CTC để giúp nâng cao độ xác cho hệ thống nhận dạng tiếng nói tiếng Việt Ý nghĩa thực tiễn đề tài vận dụng vào việc xây dựng ứng dụng thông minh, chẳng hạn ứng dụng điều khiển thiết bị giọng nói tiếng Việt mơ hình đề tài Ngồi đề tài cho thấy giải thuật CTC toán nhận dạng giọng nói tiếng Việt đem lại số lợi ích như: • Khơng đòi hỏi kiến thức chun mơn sâu phức tạp ngơn ngữ tiếng Việt • Đáp ứng tốt với toán nhận dạng từ liên tục 5.3 HƯỚNG PHÁT TRIỂN Ket đạt khả quan nhiên xem xét số hướng phát triển đề tài tương lai như: • Xây dựng mơ hình cho ứng dụng mở việc mở rộng làm giàu tập liệu huấn luyện: Thu âm giọng nói đa dạng độ tuổi, giói tính, vùng miền, điều kiện môi trường thu âm khác Ngồi có 49 thể thu thập liệu từ nguồn chương trình phát thanh, truyền hình, nguồn internet • Kết hợp mơ hình ngôn ngữ để xây dựng hệ thống nhận dạng từ liên tục phức tạp 50 TÀI LIỆU THAM KHẢO Tiếng Việt [1] Huỳnh Thanh Giàu, 2012 Nghiên cứu nhận dạng tiếng nói Tiếng Việt ứng dụng thử nghiệm điều máy Trường Đại Học Lạc Hồng, Luận Văn Thạc Sỹ Công Nghệ Thông Tin [2] GS.TSKH Bạch Hưng Khang, 2004 Nghiên cửu phát triển công nghệ nhận dạng, tong hợp xử lý ngôn ngữ Tiếng Việt Báo cáo tổng kết khoa học kỹ thật đề tài 2001-6/2004 [3] Hồ Văn Hương, 2005 Nhận dạng tiếng nói sở mạng nơ-ron nhân tạo Đại Học Quốc Gia Hà Nội, Đại Học Công Nghệ, Luận Văn Thạc Sỹ [4] Lê Hồng Kỳ, 2014 Điều khiển máy tỉnh thơng qua bàn phím giọng nói dạng Tiếng Việt Trường Đại Học Lạc Hồng, Luận Văn Thạc Sỹ Công Nghệ Thông Tin [5] TS Nguyễn Văn Gáp, TS Trần Việt Hồng Kĩ thuật nhận dạng tiếng nói ứng dụng điều khiển Bộ Môn Cơ Điện Tử, Khoa Cơ Khí, Đại Học Bách Khoa TPHCM [6] Nguyễn Văn Khiêm, Lê Quân Hà, Hoàng Tiến Long, Nguyễn Hữu Tình, Nguyễn Ngọc Thắm, Đỗ Hồng Thy Đề xuất nhận dạng tiếng Việt Nam cho điện thoại di động Khoa Công Nghệ Thông Tin, Trường Đại Học Công Nghiệp TP.HCM Tiếng Anh [7] Michael Nguyen, 2018 Illustrated Guide to LSTM’s and GRU’s: A step by step explanation Software and Machine Learning Engineer in A.I Voice Assistant space Teacher of Humans https://towardsdatascience.com and Machines Retrieved from 51 [8] Alex Graves Connectionist Temporal Classification: Labelling Unsegmented Sequence Data with Recurrent Neural Networks Istituto Dalle Molle di Studi sull’Intelligenza Artificiale (IDSIA), Galleria 2, 6928 MannoLugano, Switzerland [9] Distill, 2019 Sequence Modeling With CTC Retrieved from https://distill.pub/2017/ctc/ [10] Deep Systems, 2019 How to build end-to-end recognition system Retrieved from https://deepsystems.ai [11] Dario Amodei, Rishita Anubhai, Eric Battenberg, Carl Case, Jared Casper, Bryan Catanzaro, Jingdong Chen, Mike Chrzanowski, Adam Coates, Greg Diamos, Erich Elsen, Jesse Engel, Linxi Fan, Christopher Fougner, Tony Han, Awni Hannun, Billy Jun, Patrick LeGresley, Libby Lin, Sharan Narang, Andrew Ng, Sherjil Ozair, Ryan Prenger, Jonathan Raiman, Sanjeev Satheesh, David Seetapun, Shubho Sengupta, Yi Wang, Zhiqian Wang, Chong Wang, Bo Xiao, Dani Yogatama, Jun Zhan, Zhenyao Zhu, 2015 End-to-End Speech Recognition in English and Mandarin Baidu Research - Silicon Valley AI Lab [12] Shreya Narang, Ms Divya Gupta, 2015 Speech Feature Extraction Techniques: A Review In International Journal of Computer Science and Mobile Computing, Vol.4 Issue.3, March- 2015, pg 107-114 [13] Chris Olah Understanding LSTM Networks Google Brain, Research Scientist Retrieved from https://colah.github.io [14] Hochreiter, Schmidhuber, 1997 Long Short-Term Memory In Neural Computation 9(8): 1735-1780, 1997 [15] Karpagavalli S and Chandra E “A Review on Automatic Speech Recognition Architecture and Approaches” International Journal of Signal Processing, Image Processing and Pattern Recognition, Vol.9, No.4, (2016), pp.393-404 [16] Suman K Saksamudre and p.p Shrishrimal and R.R Deshmukh “A Review on Different Approaches for Speech Recognition System” International 52 Journal of Computer Applications (0975 - 8887) Volume 115 - No 22, April 2015 [17] Preeti Saini and Pameet Kaur, 2013 “Automatic Speech Recognition: A Review” International Journal of Engineering Trends and Technology, vol 4, no.2,pp 132136 [18] Adam Coates Deep Learning for Speech Recognition Baidu Retrieved from https://www.youtube.com [19] Minh Son Nguyen, Tu Lanh Vo, 2015 Vietnamese Voice Recognition for Home Automation using MFCC and DTW Techniques In International Conference on Advanced Computing and Applications School of Computer Science and Engineering International University in VNUHCM, Vietnam [20] Igor Macedo Quintanilha D.Sc student at PEE/COPPE-UFRJ CTC + Tensorflow Example for ASR Retrieved from https://github.com/igormq [21] Edit distance - Stanford NLP Group Retrieved from https://nlp.stanford.edu [22] Wagner-Fischer algorithm Retrieved from https://en.wikipedia.org [23] Word error rate Wikipedia Retrieved from https://en.wikipedia.org [24] Levenshtein distance Retrieved from https://en.wikipedia.org 53 BẢNG THUẬT NGỮ ANH - VIỆT VÀ TỪ VIẾT TẮT Thuật ngữ tiếng Anh Internet Of Things Thuật ngữ tiếng Việt Mạng lưói vạn vật kết nối Internet Connectionist Temporal Classification Phân loại thời tạm thòi liên kết Viết tắt IoT CTC Dynamic Time Warping So sánh thời gian động DTW Linear Predictive Coding Mã hóa dự đốn tuyến tính LPC Hidden Markov Model Mơ hình Markov ẩn HMM Variational Bayesian Biến đổi Bayes VB Hệ số Cepstral tần số Mel MFCC Artificial Neural Network Mạng nơ-ron nhân tạo ANN Recurrent Neural Network Mạng nơ-ron hồi quy RNN Deep Neural Network Mạng nơ-ron học sâu DNN Long Short Term Memory Bộ nhơ ngắn dài LSTM Dynamic Programming Quy hoạch động Discrete Cosin Transform Biến đối cosin rời rạc DCT Discrete Fourier Transform Biến đối Fourier rời rạc DFT Fast Fourier Transform Biến đối nhanh Fourier FFT Logarit Of Filter Energies Logarit giá trị lượng Deep Neural Network Mạng nơ-ron sâu Alignment Sắp xếp Loss Function Hàm mát Inference Suy luận Time-step Bước thời gian Mel Frequency Cepstral Coefficient DNN 54 Decoding Giải mã Greedy Search Tìm kiếm tham lam Beam Search Tìm kiếm theo chùm PHẦN LÝ LỊCH TRÍCH NGANG Họ tên khai sinh: BÙI THANH PHONG Sinh ngày: 20 tháng 12 năm 1983 Nơi sinh: Quảng Nam Nơi nay: Lô Al, Chung cư An Sương, Phường Tân Hưng Thuận, TP Hồ Chí Minh Nghề nghiệp thân nay: Lập trình viên - Cơng ty Asia Plus Q TRÌNH ĐÀO TẠO Trường Đại Học Quy Nhơn - Bách Khoa Hà Nội TP.HCM - Điện tử viễn thông (Năm 2002-2007) Trường Đại Học Bách Khoa TP Hồ Chí Minh - Cao học Khoa Học Máy Tính (Năm 2015-2019) Q TRÌNH CƠNG TÁC + Tl/2008 - T3/2009: Công ty Viễn Thông Viettel + T3/2012 - T12/2015: Công ty TMA Solutions + T2/2016 - T6/2019: Công ty Apptitude, Công ty Play Fury + T8/2019 - đến nay: Công ty Asia Plus ... Khoa Học Máy Tính Mã số: 60.48.01.01 I TÊN ĐỀ TÀI: NGHIÊN CỨU CÔNG NGHỆ NHẬN DẠNG GIỌNG NÓI TIẾNG VIỆT SỬ DỤNG HỌC MÁY VÀ ỨNG DỤNG VÀO VIỆC ĐIỀU KHIỂN THIẾT BỊ TRONG NHÀ BẰNG ĐIỆN THOẠI ANDROID... Thành Thơ định chọn đề tài "Nghiên cửu cơng nghệ nhận dạng giọng nói tiếng Việt sử dụng học máy ứng dụng vào việc điều khiển thiết bị nhà điện thoại Android" để nghiên cứu ABSTRACT OF THE THESIS... ngồi nói chuyện với máy móc ngưòi bạn thân thiết, điều dần trở thành thật, cơng nghệ nhận dạng giọng nói đóng góp phần lớn q trình tiến hóa máy móc Những nghiên cứu nhận dạng giọng nói giúp máy

Định dạng
Số trang	67
Dung lượng	2,09 MB