Báo Cáo Môn Học Sâu về Nhận dạng giọng nói tiếng việt có Kèm code và dataset . Báo Cáo Môn Học Sâu về Nhận dạng giọng nói tiếng việt có Kèm code và dataset . Báo Cáo Môn Học Sâu về Nhận dạng giọng nói tiếng việt có Kèm code và dataset . Báo Cáo Môn Học Sâu về Nhận dạng giọng nói tiếng việt có Kèm code và dataset . Báo Cáo Môn Học Sâu về Nhận dạng giọng nói tiếng việt có Kèm code và dataset . Báo Cáo Môn Học Sâu về Nhận dạng giọng nói tiếng việt có Kèm code và dataset . Báo Cáo Môn Học Sâu về Nhận dạng giọng nói tiếng việt có Kèm code và dataset . Báo Cáo Môn Học Sâu về Nhận dạng giọng nói tiếng việt có Kèm code và dataset . Báo Cáo Môn Học Sâu về Nhận dạng giọng nói tiếng việt có Kèm code và dataset . Báo Cáo Môn Học Sâu về Nhận dạng giọng nói tiếng việt có Kèm code và dataset . Báo Cáo Môn Học Sâu về Nhận dạng giọng nói tiếng việt có Kèm code và dataset .
TRƯỜNG ĐẠI HỌC ĐIỆN LỰC KHOA CÔNG NGHỆ THÔNG TIN BÁO CÁO CHUYÊN ĐỀ HỌC PHẦN NHẬP MÔN HỌC SÂU ĐỀ TÀI: XÂY DỰNG CHƯƠNG TRÌNH NHẬN DẠNG KHẨU TIẾNG VIỆT SỬ DỤNG DEEP LEARNING Sinh viên thực : PHẠM THANH PHONG, PHÙNG VĂN PHƯƠNG Giảng viên hướng dẫn : NGÔ HOÀNG HUY Ngành : CÔNG NGHỆ THÔNG TIN Chuyên ngành : TRÍ TUỆ NHÂN TẠO & THỊ GIÁC MÁY TÍNH Lớp : D14TTNT&TGMT Khóa : 2019-2024 Hà Nội, tháng 03 năm 2022 PHIẾU CHẤM ĐIỂM STT Họ tên sinh viên Nội dung thực Phạm Thanh Phong Phùng Văn Phương Họ tên giảng viên Giảng viên chấm 1: Giảng viên chấm 2: Chữ ký Điểm Ghi Chữ ký MỤC LỤC LỜI CẢM ƠN Lời báo cáo môn học “Nhập môn học máy”, chúng em muốn gửi lời cám ơn chân thành tới tất người hỗ trợ, giúp đỡ chúng em kiến thức tinh thần trình thực báo cáo Em xin chân thành gửi lời cảm ơn tới thầy giáo Trường Đại học Điện Lực nói chung thầy cô giáo Khoa Công nghệ thông tin nói riêng tận tình giảng dạy, truyền đạt kiến thức kinh nghiệm quý báu suốt trình học tập Đặc biệt, xin gửi lời cảm ơn đến thầy Ngơ Hồng Huy tận tình theo sát giúp đỡ, trực tiếp bảo, hướng dẫn suốt trình nghiên cứu học tập chúng em Do thời gian thực có hạn kiến thức cịn nhiều hạn chế nên làm nhóm chắn khơng tránh khỏi thiếu sót định Nhóm mong nhận ý kiến đóng góp thầy giáo bạn để hồn thiện đồ án Em xin chân thành cám ơn! LỜI MỞ ĐẦU Cơng nghệ thơng tin (CNTT) ngày có vai trò quan trọng sống ngày Việc ứng dụng CNTT vào lĩnh vực đời sống giúp công việc tiến hành nhanh chóng hiệu Có nhiều cơng việc phát triển song song với phát triển CNTT, số phân tích chuẩn đoán liệu – big data, hướng mang lại hiệu lớn Nhóm chúng em chọn đề tài “Xây dựng chương trình nhận dạng lệnh tiếng nói sử dụng deep learning” nhằm tìm hiểu sâu liệu cách khai thác sử dụng hiệu quả, từ viết ứng dụng cụ thể thử nghiệm làm sở củng cố kiến thức định hướng, kế hoạch xây dựng ứng dụng tương lai CHƯƠNG TỔNG QUAN VỀ HỌC MÁY VÀ TÌM HIỂU VỀ KỸ THUẬT MẠNG RNN-LSTM 1.1 Giới thiệu Học Sâu 1.1.1 Định Nghĩa : Deep Learning tập hợp Machine Learning có tác dụng hỗ trợ cho máy tính tự huấn luyện để thực tác vụ tương tự người Điều giúp máy tính bắt chước người cách học hỏi suy nghĩ Các hệ thống Deep Learning có khả cải thiện hiệu suất chúng với quyền truy cập vào liệu nhiều Thông thường, phiên máy có nhiều kinh nghiệm hơn; máy móc có đủ kinh nghiệm mang phục vụ cho công việc như: lái xe, phát cỏ dại, Deep Learning gì? Deep Learning có hỗ trợ cho việc dịch ngơn ngữ, phân loại hình ảnh, nhận dạng giọng nói Chính thế, ứng dụng để giải nhu cầu cần nhận dạng mẫu mà không cần đến can thiệp người Ngoài khái niệm Deep Learning bạn nên tìm hiểu thêm khái niệm mạng lưới thần kinh sau: Deep Learning hoạt động dựa vào mạng lưới thần kinh nhân tạo bao gồm nhiều lớp chứa liệu mô cách thức vận hành não người Bộ phận mạnh thần kinh nhân tạo giống với não người bao gồm: Các node (nó đơn vị thần kinh mạng thần kinh nhân tạo) neuron thần kinh Hầu hết node thân thường có khả trả lời cho câu hỏi đơn giản nhất; với tác vụ khó chúng tiến hành liên kết với để trả lời Bạn dạy huấn luyện chúng thuật toán cụ thể Những node giải đáp câu hỏi phức tạp gọi mạng lưới thần kinh sâu (DNN), định nghĩa sau: Mạng lưới thần kinh sâu có khả thực hoạt động phức tạp biểu diễn, trừu tượng có mang ý nghĩa âm thanh, văn hình ảnh Chúng đánh giá lĩnh vực phát triển Machine Learning 1.1.2 Cách thức hoạt động Deep Learning : Deep Learning xem phương pháp học máy theo phương pháp: lập trình AI huấn luyện để dự đoán đầu dựa vào tập đầu vào.Ví dụ cụ thể: Dự đốn hành đầu mèo gặp chuột tiến hành huấn luyện phương pháp học có giám sát Mạng lưới thần kinh Deep Learning Khi bạn muốn dự đoán hành động vào đầu vào thực sau: • Lựa chọn mồi phù hợp • Lúc này: phận thể mèo mắt, móng vuốt, tai, mèo trở nên nhanh nhạy • Con chuột xuất đâu Về Deep Learning không khác với học máy thông thường Tuy nhiên, với ví dụ thời gian cần dành nhiều thiết kế tính đại diện cho mèo Những cần làm cung cấp cho hệ thống số lượng hình ảnh mèo, video mèo bắt chuột hệ thống tự học tính đại diện dành cho mèo Với tác vụ thị giác máy tính, nhận dạng giọng nói, robot dịch máy hiệu suất Deep Learning vượt xa hệ thống máy khác Tuy nhiên, việc xây dựng hệ thống Deep Learning lại khơng dễ dàng so với hệ thống máy móc thông thường 1.1.3 Ưu Điểm Deep Learning : Deep Learning giúp giải số vấn đề mà không cần đến người Deep Learning có độ xác cao, học sâu rộng đạt độ xác mức cơng nhận vơ cao Điều đảm bảo cho thiết bị điện tử tiêu dùng đáp ứng nhu cầu mong đợi từ phía người dùng Deep Learning trọng độ an tồn mơ hình xe không người lái Các liệu Deep Learning dán nhãn bởi: Việc phát triển xe khơng người lái địi hỏi hàng triệu hình ảnh hàng ngàn để xem video GPU có hiệu suất cao có kiến thức song song nên hiệu cho Deep Learning Nếu kết hợp với điện tốn đám mây cụm cho phép nhóm phát triển giảm xuống tối đa thời gian đào tạo mạng lưới học tập sau vài tuần vài 1.1.4 Ứng Dụng Deep Learning : Ứng dụng công nghệ cao Ứng dụng vượt bậc Deep Learning không kể đến chế tạo Robot Hiện nay, phiên Robot giống người với khả cảm nhận, phản ứng với môi trường dần đời Hiện nay, Robot cịn hợp tác với hoạt động người chúng thực nhiệm vụ riêng biệt phù hợp với mạnh chúng Robot góp phần thay người việc thực công việc khó khăn Đây phát minh tuyệt vời nhờ ứng dụng Deep Learning Ứng dụng nơng nghiệp Hiện nay, nhờ có Deep Learning mà người nơng dân triển khai thiết bị có khả phân biệt cỏ dại với trồng Từ đó, loại máy móc phun thuốc diệt cỏ chọn lọc phun lên cỏ dại để đảm bảo cho trồng khơng bị ảnh hưởng Ngồi vai trị loại bỏ cỏ dại thuốc diệt cỏ nhờ Deep Learning mà sản lượng nông nghiệp ngày cải thiện Bên cạnh đó, Deep Learning mở rộng sang hoạt động như: thu hoạch, tưới tiêu, bón phân, gieo trồng, Ứng dụng Deep Learning lĩnh vực y tế Ứng dụng điện tử Deep Learning ứng dụng cho công việc nhận diện không mặt thiết bị điện tử điện thoại, phần mềm facebook, messenger, Thêm vào đó, Deep Learning cịn dùng nghe dịch nói tự động mà trang web google dịch sử dụng Ngoài ra, số thiết bị trợ giúp nhà ứng dụng Deep Learning để đáp ứng giọng nói hiểu sở thích (đây ứng dụng học sâu) 1.2 Mạng Hồi Quy RNN Mạng LSTM 1.2.1 Giới thiệu Mạng Hồi Quy RNN Khi xử lý video ta hay gặp khái niệm FPS (frame per second) tức frame (ảnh) giây Ví dụ FPS với video 30s tức lấy từ video 30 ảnh, giây ảnh để xử lý Ta dùng FPS cho video input toán trên, tức lấy 30 ảnh từ video, ảnh giây 1, ảnh giây 2,… ảnh 30 giây 30 Bây input 30 ảnh: ảnh 1, ảnh 2,… ảnh 30 output phân loại hành động Nhận xét: • Các ảnh có thứ tự ví dụ ảnh xẩy trước ảnh 2, ảnh xẩy trước ảnh 3, … Nếu ta đảo lộn ảnh thay đổi nội dung video Ví dụ: nội dung video cảnh bắn nhau, thứ tự A bắn trúng người B B chết, ta đảo thứ tự ảnh thành người B chết xong A bắn rõ ràng A kẻ giết người suy nội dung video bị thay đổi • Ta dùng CNN để phân loại ảnh 30 ảnh trên, rõ ràng ảnh mô tả nội dung video Ví dụ: Cảnh người cướp điện thoại, ta dùng ảnh người cầm điện thoại lúc cướp xong ta biết hành động cướp Cần mơ hình giải toán với input sequence (chuỗi ảnh 1->30) suy RNN đời Dữ liệu dạng sequence Dữ liệu có thứ tự ảnh tách từ video gọi sequence, timeseries data Trong toán dự đoán đột quỵ tim cho bệnh nhân liệu tim mạch khám trước Input liệu lần khám trước đó, ví dụ i1 lần khám tháng 1, i2 lần khám tháng 2,… i8 lần khám tháng (i1,i2, i8) gọi sequence data RNN học từ input dự đốn xem bệnh nhân có bị đột quy tim hay khơng Ví dụ khác tốn dịch tự động với input câu, ví dụ “tơi u Việt Nam” vị trí từ xắp xếp quan trọng đến nghĩa câu liệu input từ [‘tôi’, ‘yêu’, ‘việt’, ‘nam’] gọi sequence data Trong tốn xử lý ngơn ngữ (NLP) khơng thể xử lý câu người ta tách từ làm input, giống video người ta tách ảnh (frame) làm input Phân loại toán RNN Các dạng toán RNN One to one: mẫu toán cho Neural Network (NN) Convolutional Neural Network (CNN), input output, ví dụ với CNN input ảnh output ảnh segment One to many: toán có input nhiều output, ví dụ: tốn caption cho ảnh, input ảnh output nhiều chữ mô tả cho ảnh đấy, dạng câu Many to one: tốn có nhiều input có output, ví dụ tốn phân loại hành động video, input nhiều ảnh (frame) tách từ video, ouptut hành động video Many to many: tốn có nhiều input nhiều output, ví dụ tốn dịch từ tiếng anh sang tiếng việt, input câu gồm nhiều chữ: “I love Vietnam” output câu gồm nhiều chữ “Tơi u Việt Nam” Ứng dụng tốn RNN Về bạn thấy sequence data hay time-series data bạn muốn áp dụng deep learning bạn nghĩ đến RNN Dưới số ứng dụng RNN: • Speech to text: Chuyển giọng nói sang text • Sentiment classification: phân loại số cho bình luận, ví dụ: input: “ứng dụng tốt”, output: • Machine translation: Bài tốn dịch tự động ngơn ngữ • Video recognition: Nhận diện hành động video • Heart attack: Dự đốn đột quỵ tim Mơ Hình Bài Tốn Bài tốn: Nhận diện hành động video 30s Đây dạng toán many to one RNN, tức nhiều input output Input ta tách video thành 30 ảnh giây Các ảnh cho qua model CNN để lấy feature thành vector có kích thước n*1 Vector tương ứng với ảnh giây thứ i xi Output vector có kích thước d*1, softmax function sử dụng phân loại ảnh Mô hình RNN cho tốn Ta có: • Mơ hình có 30 input output, input cho vào model với thứ tự ảnh video x1,x2, x30 • Mỗi hình trịn gọi state, state t có input xt st−1 (output state trước); output s_t = f(U*x_t + W*s_{t-1})st=f(U∗xt+W∗st−1) f activation function thường ReLU • Có thể thấy s_tst mang thông tin từ state trước (st−1) input state =>st giống memory nhớ đặc điểm input từ x1 đến xt • s0 thêm vào cho chuẩn công thức nên thường gán giá trị ngẫu nhiên Có thể hiểu ban đầu chưa có liệu để học memory rỗng • Do ta có output, nên đặt state cuối cùng, s30 học thơng tin từ tất input :y^=g(V∗s30) g activation function, toán phân loại nên dùng softmax Ta thấy state hệ số W, U giống nên model viết lại thành: Mơ hình RNN rút gọn Tóm lại: • xi vector có kích thước n*1, si vector có kích thước m*1, yi vector có kích thước d*1 U ma trận có kích thước m*n, W ma trận có kích thước m*m V ma trận có kích thước d*m • s0=0,st=f(U∗xt+W∗st−1) với t >= • y^=g(V∗s30) Loss function Loss function mơ hình tổng loss output, nhiên mơ hình có output toán phân loại nên categorical cross entropy loss sử dụng Loss function 1.2.2 Giới thiệu Mạng LSTM Mạng LSTM dạng đặc biệt RNN, có khả học phụ thuộc xa LSTM thiết kế để tránh vấn đề phụ thuộc xa (long-term dependency) Việc nhớ thông tin suốt thời gian dài đặc tính mặc định chúng, ta khơng cần phải huấn luyện để nhớ Tức nội ghi nhớ mà khơng cần can thiệp LSTM có kiến trúc dạng chuỗi vậy, mơ-đun có cấu trúc khác với mạng RNN chuẩn Thay có tầng mạng nơ-ron, chúng có tới tầng tương tác với cách đặc biệt CHƯƠNG ỨNG DỤNG NHẬN DIỆN KHẨU LỆNH GIỌNG NÓI 2.1 Ứng dụng nhận diện lệnh Convolutional Neural Network mơ hình Deep Learning tiên tiến giúp xây dựng hệ thông minh với độ xác cao Mạng nơ-ron tích chập cho phép máy tính có khả “nhìn” phân tích cách đưa qua nhiều layer với lọc tích chập để sau có điểm số nhận dạng cách tốt Chính điều đó, CNN ngày sử dụng rộng rãi tốn nhận dạng hình ảnh, xử lý ngôn ngữ tự nhiên , đặc biết nhận dạng lệnh nói người địi hỏi xác cao Ngày nhiều điện thoại hay đồng hồ thông minh ứng dụng cơng nghệ nhận diện giọng nói giúp cho người dùng xem thời tiết , đặt hàng qua việc lệnh cho điện thoại 2.2.Phát biểu tốn Bài nhận diện lệnh nói tốn nhận dạng lệnh nói dựa tập file ghi âm có sẵn CommonVoice để phân tích ,huấn luyện để dự đốn lệnh nói người 2.3 Mơ hình ứng dụng: Em có sử dụng mơ hình đào tạo trước DeepSpeech để Train tập liệu Mơ hình DeepSpeech Ta có x nhãn yđược lấy mẫu từ tập huấn luyện : Mỗi câu nói,x^(i)là chuỗi thời gian có độ dài T^(i) lát thời gian vectơ tính âm thanh, x^(i)t đâu t=1,…,T^(i) Chúng sử dụng tính MFCC; Vì x^(i)tp biểu thị p-Tính MFCC thứ khung âm thời điểmt Mục tiêu RNN chuyển đổi chuỗi đầu vàoxthành chuỗi xác suất ký tự cho trình phiên mã y, với y^t = P(ct∣x), tiếng anh đâu ct∈{a,b,c, ,z,space,apostrophe,blank} (Ý nghĩa củablanksẽ giải thích bên dưới.) Mơ hình RNN bao gồm lớp đơn vị ẩn Đối với đầu vàoxx, đơn vị ẩn lớp l biểu thị h(l) với quy ước h(0)là đầu vào Ba lớp không lặp lại Đối với lớp đầu tiên, thời điểmtt, đầu phụ thuộc vào khung MFCC xt với bối cảnh củaCCkhung bên (Chúng sử dụng C=9 cho thử nghiệm chúng tôi.) Các lớp không lặp lại lại hoạt động liệu độc lập cho bước thời gian Do đó, lần t, người lớp tính tốn bởi: g(z)= min{max{0,z},20}g(z)=min{max{0,z},20} chức kích hoạt tuyến tính (ReLu) điều chỉnh cắt bớt vàW(l)W(l),b(l)b(l)là ma trận trọng số tham số thiên vị cho lớpll Lớp thứ tư lớp lặp lại Lớp bao gồm tập hợp đơn vị ẩn có lặp lại phía trước, h(f)h(f): Lưu ý h(f)phải tính tốn từ t=1 đến t=T(i) Lớp thứ năm (không định kỳ) lấy đơn vị chuyển tiếp làm đầu vào Lớp đầu nhật ký tiêu chuẩn tương ứng với xác suất ký tự dự đoán cho lát thời gianttvà nhân vậtkktrong bảng chữ cái: Đây b(6)k biểu thị k-th thiên vị và(W(6)h(5)t)k k-phần tử thứ sản phẩm ma trận Khi chúng tơi tính tốn dự đốn choy^t,ky^t,k, chúng tơi tính tốn tổn thất CTC L(y^,y) để đo lường sai số dự đoán (Mất CTC đòi hỏi blank biết chuyển tiếp ký tự.) Trong trình đào tạo, chúng tơi đánh giá độ dốc ∇L(y^,y)∇L(y^,y)liên quan đến kết đầu mạng cung cấp chuỗi ký tự chân lý nềnyy Từ thời điểm này, việc tính tốn gradient tất tham số mơ hình thực thơng qua lan truyền ngược thơng qua phần cịn lại mạng Chúng sử dụng phương pháp Adam để đào tạo Mô hình RNN hồn chỉnh minh họa hình bên 2.4 Dữ Liệu Bộ liệu tải từ CommonVoice với : 15,312 Files Mp3 file tsv Để sử dụng file mp3 để train cần chuyển đổi file *.tsv thành csv để model đọc 2.5 Train Model DeepSpeech • Nhận mã đào tạo mơ hình : • Tạo mơi trường ảo : • Cài đặt Mã đào tạo DeepSpeech phụ thuộc • Train model 2.6 Kết Qủa Thực Nghiệm Mơ Hình Train với liệu 15 nghìn file kết không tốt với loss tập test 263.467499 Kết file khác: “muốn sống tiếp phải nghe lời ta ” dựa đốn mơ hình KẾT LUẬN Bài báo cáo khái quát số vấn đề toán phân lớp bao gồm phương pháp phân lớp liệu thuật toán học máy áp dụng vào toán phân lớp Về phân lớp liệu, đồ án đưa tốn tổng quan, cho cần gì, đồng thời trình bày phương pháp phân lớp liệu tổng quát từ giúp người đọc hiểu sơ qua toán phân lớp Trình bày tốn phân lớp văn bản, cách biểu diễn văn tốn phân lớp nào, qua nêu lên phương pháp phân lớp văn Áp dụng kỹ thuật học sâu Deep Learing vào việc nhận dạng lệnh nói Như trình bày trên, hạn chế thời gian kiến thức nên đồ án chưa thể tìm hiểu sâu, kỹ thuật học sâu DeepLearning.Vì thời gian tới nhóm tìm hiểu kỹ để chủ động nẵm vững việc thực phần mềm, đặc biệt thuật toán học bán giám sát tảng lý thuyết phần mềm TÀI LIỆU THAM KHẢO [1]https://deepspeech.readthedocs.io/en/r0.9/TRAINING.html, https://dominhhai.github.io/vi/2017/10/what-is-lstm/, https://itnavi.com.vn/blog/deep-learning-la-gi, [2] Tài Liệu Học Học Sâu – Thầy Ngơ Hồng Huy ... MỤC LỤC LỜI CẢM ƠN Lời báo cáo môn học “Nhập môn học máy”, chúng em muốn gửi lời cám ơn chân thành tới tất người hỗ trợ, giúp đỡ chúng em kiến thức tinh thần trình thực báo cáo Em xin chân thành... minh ứng dụng công nghệ nhận diện giọng nói giúp cho người dùng xem thời tiết , đặt hàng qua việc lệnh cho điện thoại 2.2.Phát biểu tốn Bài nhận diện lệnh nói tốn nhận dạng lệnh nói dựa tập file... nơ-ron, chúng có tới tầng tương tác với cách đặc biệt CHƯƠNG ỨNG DỤNG NHẬN DIỆN KHẨU LỆNH GIỌNG NÓI 2.1 Ứng dụng nhận diện lệnh Convolutional Neural Network mơ hình Deep Learning tiên tiến giúp