Đề tài nhận dạng tiếng nói phương pháp học sâu 2

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC KINH TẾ QUỐC DÂN _ _ _ _ ***_ _ _ _ BÀI TẬP LỚN CÔNG NGHỆ ĐA PHƯƠNG TIỆN ĐỀ TÀI Thành viên: Nhận dạng tiếng nói phương pháp học sâu Trần Đức Đạt MSV: 11200763 Nguyễn Đức Mạnh MSV: 11202507 Hà Tuấn Anh MSV: 11200103 Phạm Văn Hoàng MSV: 11201613 Trương Thị Bích Phượng MSV: 11194338 Phạm Thị Thảo MSV: 11203713 Đặng Quang Trung MSV: 11208221 Giáo viên: Phạm Minh Hồn Lớp học phần: Cơng Nghệ Đa Phương Tiện 121_01 Khoa: CÔNG NGHỆ THÔNG TIN & KINH TẾ SỐ MỤC LỤC 1.Giới thiệu, khái niệm 1.1 Lý chọn đề tài 1.2 Lịch sử phát triển Deep learning ? 2.1 Khái niệm 2.2 Các thuật tốn Deep Learning 2.3 Cách hoạt động 2.4 Ứng dụng Speech to text using deep learning 3.1 Nguyên lý hoạt động 3.2 Chuyển âm thành số 3.3 Tiền xử lý liệu mẫu âm 3.4 Nhận diện ký tự từ đoạn âm ngắn 4.Ứng dụng Kết luận This is a preview Do you want full access? Go Premium and unlock all 26 pages Access to all documents Get Unlimited Downloads Improve your grades Upload Share your documents to unlock Free Trial Get 30 days of free Premium Already Premium? Log in Bảng phân công công việc đánh giá Họ tên Mã sinh viên Nhiệm vụ Đánh giá mức độ hoàn thành Trầần Đức Đạt ( Trưởng nhóm ) 11200763 Tìm hi ểu vềầ Deep Learning Speech Recogniton, phần công công việc, hôỗ trợ nhóm, giám sát tềến độ hồn thành báo cáo Hồn thành tơết, đóng góp ý kiềến tch cực Nguyềỗn Đức Mạnh 11202507 Tìm hi ểu vềầ Deep Learning Speech Recogniton, thực thuyềết trình phầần code Hồn thành tơết, đóng góp ý kiềến tch cực Hà Tuầến Anh 11200103 Tìm hi ểu vềầ Deep Learning Speech Recogniton, hoàn thành báo cáo phầần Speech To Text Using Deep Learning Hồn thành tơết, đóng góp ý kiềến tch cực Phạm Văn Hồng 11201613 Tìm hi ểu vềầ Deep Learning Speech Recogniton, hoàn thành báo cáo phầần Speech To Text Using Deep Learning Hồn thành tơết, đóng góp ý kiềến tch cực Trương Thị Bích Phượng 11194338 Tìm hi ểu vềầ Deep Learning Speech Recogniton, đóng góp ý kiềến vào báo cáo slide, thuyềết trình Hồn thành tơết, đóng góp ý kiềến tch cực Phạm Thị Thảo 11203713 Tìm hi ểu vềầ Deep Learning Speech Recogniton, làm slide Hồn thành cơng việc giao Đặng Quang Trung 11208221 Tìm hi ểu vềầ Deep Learning Speech Recogniton, xầy d ựng báo cáo phầần tm hi ểu vềầ Deep Learning Hồn thành tơết, đóng góp ý kiềến tch cực 1.Giới thiệu, khái niệm 1.1 Lý chọn đề tài Nhận diện giọng nói xâm nhập vào sống đại Nó cài đặt điện thoại, điều khiển trò chơi hay đồng hồ thông minh Chỉ với khoảng $50, bạn có Amazon Echo Dot - hộp thần kỳ cho phép bạn đặt pizza, nhận thơng tin dự báo thời tiết chí mua vật dụng - cách đưa mệnh lệnh: “Echo Dot trở nên phổ biến kỳ nghỉ Amazon bị cháy hàng.” Nhưng nhận diện giọng nói biết đến hàng thập kỷ, đến bây giờ, công nghệ thực bùng nổ? Sự đời Deep Learning giúp nhận diện giọng nói xác, chí ngồi mơi trường phịng lab Andrew Ng dự đốn từ lâu độ xác nhận diện giọng nói đạt ngưỡng 99%, trở thành phương thức giao tiếp chủ yếu với máy tính Và nhờ có Deep Learning, cuối chạm tới ngưỡng Deep learning ? 2.1 Khái niệm Deep Learning (học sâu) xem lĩnh vực Machine Learning (học máy) – máy tính học cải thiện thơng qua thuật tốn Deep Learning xây dựng dựa khái niệm phức tạp nhiều, chủ yếu hoạt động với mạng nơ-ron nhân tạo để bắt chước khả tư suy nghĩ não người Thật khái niệm liên quan đến mạng nơ-ron nhân tạo Deep Learning xuất từ khoảng năm 1960, nhiên lại bị giới hạn khả tính tốn số lượng liệu lúc Trong năm gần đây, tiến phân tích liệu lớn (Big Data) cho phép ta tận dụng tối đa khả mạng nơ-ron nhân tạo Mạng nơ-ron nhân tạo động lực để phát triển Deep Learning Các mạng nơ-ron sâu (DNN) bao gồm nhiều lớp nơron khác nhau, có khả thực tính tốn có độ phức tạp cao Deep Learning phát triển nhanh xem bước đột phá lớn Machine Learning 2.2 Các thuật toán Deep Learning Mạng nơ-ron cổ điển Kiến trúc cổ điển mạng nơ-ron mạng kết nối đầy đủ, thường xác định perceptron đa lớp (Perceptron thuật toán đơn giản, cho phép tìm ranh giới siêu phẳng cho tốn phân lớp nhị phân) Mạng nơ-ron cổ điển thiết kế Fran Rosenblatt vào năm 1958, chủ yếu sử dụng cho toán phân lớp nhị phân Có ba loại hàm thường sử dụng mơ hình là: ● Hàm tuyến tính ● Hàm phi tuyến: gồm có hàm sigmoid, hàm hàm ReLU (Rectified Linear Unit) Kiến trúc mạng nơ-ron cổ điển tương đối đơn giản, phù hợp với liệu có dạng bảng tốn phân loại, hồi quy có đầu vào giá trị thực Mạng nơ-ron tích chập (CNN) Mạng nơ-ron tích chập (Convolutional Neural Network – CNN) kiến trúc Neural Network nhân tạo nâng cao, xây dựng để giải toán phức tạp, đặc biệt liên quan đến xử lý hình ảnh Tích chập khái niệm xử lý tín hiệu số nhằm biến đổi thơng tin đầu vào qua phép tích chập với lọc, nhằm trả đầu tín hiệu Tín hiệu This is a preview Do you want full access? Go Premium and unlock all 26 pages Access to all documents Get Unlimited Downloads Improve your grades Upload Share your documents to unlock Free Trial Get 30 days of free Premium Already Premium? Log in giảm bớt đặc trưng mà lọc không quan tâm, giữ lại đặc trưng quan trọng Bên cạnh input layer output layer, mơ hình CNN cịn có thêm sampling layer để giới hạn số lượng nơ-ron tham gia vào layer tương ứng Việc xây dựng mơ hình trải qua ba giai đoạn chính: ● Q trình tích chập (convolution): Thơng qua tích chập ma trận đầu vào với lọc để tạo thành đơn vị tầng Q trình diễn liên tục phần đầu mạng thường sử dụng kèm với hàm kích hoạt ReLU Mục tiêu tầng trích suất đặc trưng hai chiều ● Q trình tổng hợp (max pooling): Giảm kích thước khối ma trận đầu vào thơng qua việc tìm giá trị đại diện cho vùng không gian mà lọc qua không làm thay đổi đường nét ảnh lại giảm kích thước ảnh ● Q trình kết nối hồn tồn (fully connected): Sau giảm kích thước đến mức độ hợp lý, ma trận cần trải phẳng (flatten) thành vector sử dụng kết nối hoàn toàn tầng Tầng kết nối hoàn toàn cuối (fully connected layer) có số lượng đơn vị với số lớp Dựa vào đặc điểm mình, ứng dụng phổ biến mạng CNN gồm có: Nhận diện, phân tích phân khúc hình ảnh, phân tích video, xử lý ngơn ngữ tự nhiên,… Mạng nơ-ron hồi quy (RNN) Recurrent Neural Network (RNN) thuật toán tiếng lĩnh vực xử lý ngơn ngữ tự nhiên Trong mơ hình mạng nơ-ron truyền thống, đầu vào đầu độc lập với nhau, nhiên RNN thực tác vụ cho tất phần tử chuỗi với đầu phụ thuộc vào phép tính trước Vì mạng RNN có khả nhớ thơng tin tính tốn trước Có hai thiết kế RNN: ● LSTM (Long Short-Term Memory): Được dùng để dự đoán liệu dạng chuỗi thời gian, có khả bỏ thêm thơng tin cần thiết, điều chỉnh nhóm gọi cổng (gate): Input, Output Forget ● Gated RNN: Cũng thiết kế phổ biến lĩnh vực dự đốn liệu chuỗi thời gian, có hai cổng Update Reset Các dạng toán RNN: ● One to one: Chỉ có input kết nối với output nhất, chẳng hạn tốn phân loại hình ảnh ● One to many: Một input liên kết với nhiều chuỗi output, phổ biến toán đặt caption cho ảnh ● Many to One: Nhiều input có output, ví dụ phổ biến toán phân loại cảm xúc ● Many to many: Nhiều input nhiều output, chẳng hạn phân loại video Mạng sinh đối nghịch (GAN) Generative Adversarial Networks (GAN) lớp mơ hình có mục tiêu tạo liệu giả giống với thật, tên mạng dựa kiến trúc gồm hai mạng có mục tiêu đối nghịch nhau: Generator Discriminator Trong Generator học cách sinh liệu giả để lừa mô hình Discriminator, cịn Discriminator lại học cách phân biệt liệu giả liệu thật Thông qua trình huấn luyện hai mơ hình cải thiện khả Một số ứng dụng phổ biến GAN là: Tạo khuôn mặt người, thay đổi độ tuổi khuôn mặt, sinh ảnh vật thể, tạo nhân vật hoạt hình,… Boltzmann machine Đây mơ hình mạng khơng có hướng xác định, node mạng liên kết với thành hình trịn Dựa vào kiến trúc này, máy Boltzmann (Boltzmann machine) thường sử dụng để tạo tham số cho mơ hình Các ứng dụng phổ biến mơ hình là: giám sát hệ thống, xây dựng hệ thống khuyến nghị nhị phân,… Học tăng cường sâu Deep Reinforcement Learning trình mà tác tử (agent) tương tác với mơi trường để thay đổi trạng thái Các tác tử quan sát thực hành động phù hợp, từ giúp mạng đạt mục tiêu Mơ hình mạng gồm input layer, output layer nhiều hidden layer khác, trạng thái mơi trường input layer Mơ hình huấn luyện liên tục để dự đoán điểm đạt sau hành động thực trạng thái định Mơ hình học tăng cường sâu ứng dụng chủ yếu game cờ vua, poker, xe tự lái, robot,… Autoencoder Nhưng dễ dàng nhiều bạn biểu diễn dãy số trên đồ thị: Bạn thấy dải tần số có nhiều lượng tần số thấp, lượng tần số cao Đây giọng nam điển hình Nếu lặp lại trình cho khoảng 20ms, có quang phổ (mỗi cột từ trái qua phải khoảng 20ms): Tạo quang phổ giúp thực nhìn thấy âm cấu trúc độ cao Mạng nơron tìm cấu trúc liệu dễ dàng so với sóng âm thơ Do đó, đặc trưng mà ta truyền vào mạng nơron Mọi người để ý thấy, hầu hết liệu thô chứa nhiều nhiễu khó xử lý: ảnh âm Một cách giúp hạn chế nhiễu tổng quát hóa: mạng CNN trích lọc đặc trưng thơng qua convolution - tích chập max pooling - tách lọc lớn nhất, hay xử lý âm lấy tổng lượng theo âm Việc tổng quát hóa giúp giảm chiều liệu hạn chế ảnh hưởng từ nhiễu Chú ý tổng qt hóa lại làm tiêu biến đặc trưng, khiến học máy khơng thể tìm lời giải 3.4 Nhận diện ký tự từ đoạn âm ngắn Bây truyền dải âm 20ms vào mạng nơron đa lớp Với mảng cắt âm thanh, cố gắng tìm ký tự đại diện cho âm phát Chúng ta sử dụng Recurrent Neural Network - RNN - mạng nơron hồi quy: kết tiên đốn q khứ có ảnh hưởng tới kết tiên đốn tương lai Đó ký tự có liên quan đến Ví dụ tìm "HEL", có khả nói tiếp "LO" Vì thế, dự đoán khứ giúp dự đoán tương lai tốt Sau chạy toàn âm thông qua mạng nơron, kết nối dải âm với ký tự có khả nói cao Và đồ kết nối từ "HELLO": Mạng nơron dự đoán từ nói “HHHEE_LL_LLLOOO”, nghĩ có khả từ “HHHUU_LL_LLLOOO”, chí “AAAUU_LL_LLLOOO” Chúng ta có thêm vài bước để làm kết Đầu tiên, bỏ ký tự bị lặp, bỏ khoảng trống: ● HHHEE_LL_LLLOOO => HE_L_LO => HELLO ● HHHUU_LL_LLLOOO => HU_L_LO => HULLO ● AAAUU_LL_LLLOOO => AU_L_LO => AULLO Như vậy, ta có khả phân âm "Hello", "Hullo" "Aullo" Nếu bạn nói chúng thật to, nghe giống với "Hello" Bởi dự đốn ký tự một, mạng nơron tìm cách đọc âm khơng phải cách viết Ví dụ: bạn nói "He would not go", máy dịch "He wud net go" Thủ thuật kết hợp dự đoán phiên âm với khả xuất văn (sách, bảo ) Bạn loại bỏ phiên âm có khả ngồi thực tế giữ phiên âm thực tế Và từ "Hello", Hullo" This is a preview Do you want full access? Go Premium and unlock all 26 pages Access to all documents Get Unlimited Downloads Improve your grades Upload Share your documents to unlock Free Trial Get 30 days of free Premium Already Premium? Log in "Aullo" Rõ ràng, "Hello" có tần suất cao rất nhiều, phiên âm lựa chọn 4.Ứng dụng Machine Learning thuật ngữ thông dụng giới công nghệ ngày Đây bước tiến lớn khoa học máy tính cách thức hữu hiệu để xử lý Big Data công nghiệp 4.0 Bài viết đề cập tới vài ứng dụng cụ thể Machine Learning Một vài ứng dụng Machine Learning ● Cảnh báo giao thông (trên ứng dụng Google Maps) Giờ đây, Google Maps có lẽ ứng dụng sử dụng với tần suất nhiều bạn tham gia giao thông Đặc biệt ứng dụng khác di chuyển Grab, Be áp dụng rộng rãi, đồng nghĩa Google Maps sử dụng liên tục để đường cho nhà cung cấp dịch vụ hay người sử dụng dịch vụ Những thông tin quãng đường tối ưu, thời gian di chuyển nhanh phân tích lúc Google Maps This is a preview Do you want full access? Go Premium and unlock all 26 pages Access to all documents Get Unlimited Downloads Improve your grades Upload Share your documents to unlock Free Trial Get 30 days of free Premium Already Premium? Log in Thực tế, liệu lịch sử tuyến đường thu thập theo thời gian số liệu có từ nguồn khác Mọi người sử dụng đồ cung cấp vị trí, tốc độ trung bình, tuyến đường Những thơng tin Google thu thập tổng hợp thành Dữ liệu lớn lưu lượng truy cập, thơng qua thuật tốn phân tích phức tạp Machine Learning, thơng tin trở nên có nghĩa, chúng giúp Google dự đốn lưu lượng tới điều chỉnh tuyến đường bạn theo cách tối ưu ● Mạng xã hội Facebook Một ứng dụng phổ biến Machine Learning Đề xuất gắn thẻ bạn bè tự động Facebook tảng truyền thông xã hội khác Facebook sử dụng tính nhận diện khn mặt nhận dạng hình ảnh để tự động tìm thấy khn mặt người phù hợp với Cơ sở liệu họ đề nghị người dùng gắn thẻ người dựa DeepFace Dự án DeepFace Facebook thực nhiệm vụ nhận diện khuôn mặt xác định đối tượng cụ thể ảnh Nó cung cấp Thẻ Alt (Thẻ thay thế) cho hình ảnh tải lên facebook ● Trợ lý cá nhân ảo (Virtual Personal Assistants) This is a preview Do you want full access? Go Premium and unlock all 26 pages Access to all documents Get Unlimited Downloads Improve your grades Upload Share your documents to unlock Free Trial Get 30 days of free Premium Already Premium? Log in Trợ lý cá nhân ảo hỗ trợ tìm kiếm thơng tin hữu ích, u cầu qua văn giọng nói Một số ứng dụng Machine Learning là: ● Nhận dạng giọng nói ● Chuyển đổi lời nói thành văn ● Xử lý ngôn ngữ tự nhiên ● Chuyển đổi văn thành giọng nói Tất bạn cần làm hỏi câu hỏi đơn giản Lịch trình tơi vào ngày mai gì? chuyến bay có sẵn tới cho chuyến cơng tác Để trả lời, trợ lý cá nhân bạn tìm kiếm thơng tin nhớ lại truy vấn liên quan bạn để thu thập thông tin Gần đây, trợ lý cá nhân sử dụng Chatbots triển khai ứng dụng đặt hàng thực phẩm khác nhau, trang web đào tạo trực tuyến ứng dụng Đi lại ● Truyền phát video trực tuyến Netflix (Online Video Streaming) Với 100 triệu người đăng ký, khơng cịn nghi ngờ nữa, Netflix cha đẻ giới truyền phát video trực tuyến Sự gia tăng nhanh chóng Netflix khiến cho tất nhà công nghiệp điện ảnh bị bất ngờ Họ buộc phải đăt câu hỏi làm trang Web chiếm vị trí giới điện ảnh Hollywood Câu trả lời Machine Learning Các thuật toán xây dựng Netflix liên tục thu thập lượng liệu khổng lồ hoạt động người dùng như: ● Khi bạn tạm dừng, tua lại tua nhanh ● Ngày bạn xem nội dung ● Ngày bạn xem ● Khi bạn tạm dừng để lại nội dung (và bạn quay lại) ● Xếp hạng đưa (khoảng triệu ngày), Tìm kiếm (khoảng triệu ngày) This is a preview Do you want full access? Go Premium and unlock all 26 pages Access to all documents Get Unlimited Downloads Improve your grades Upload Share your documents to unlock Free Trial Get 30 days of free Premium Already Premium? Log in Netflix thu thập liệu từ thuê bao mà họ có sử dụng Hệ thống đề xuất nhiều Ứng dụng học máy để gợi ý phim theo thị hiếu khách hàng Bằng việc chạm vào xác sở thích nhu cầu khách hàng, Netflix dễ dàng giữ khách hàng sử dụng dịch vụ ● Phát gian lận (Fraud Detection) Các chuyên gia dự đoán giá trị gian lận thẻ tín dụng trực tuyến tăng vọt lên tới 32 tỷ đô la vào năm 2020 Số tiền nhiều lợi nhuận mà Coca Cola JP Morgan Chase cộng lại Số lượng giao dịch tăng lên nhiều kênh toán – thẻ tín dụng/thẻ ghi nợ, điện thoại thơng minh, nhiều ví, UPI nhiều Đồng thời, số lượng tội phạm trở nên lão luyện việc tìm sơ hở Đây thực vấn đề đáng lo ngại Vậy làm ngăn chặn hành động gian lận, chiếm đoạt tài sản người khác Ứng dụng Machine Learning coi giải pháp cho vấn đề Phát gian lận tính quan trọng Machine Learning Bất khách hàng thực giao dịch – mơ hình máy học chụp kỹ lưỡng hồ This is a preview Do you want full access? Go Premium and unlock all 26 pages Access to all documents Get Unlimited Downloads Improve your grades Upload Share your documents to unlock Free Trial Get 30 days of free Premium Already Premium? Log in sơ họ để tìm kiếm mẫu đáng ngờ Trong Machine Learning, tính phát gian lận thường coi loại phân loại hoạt động Kết luận Hiện nay, Machine Learning chưa thể đạt mức độ xác lên tới 100% thuật tốn người tạo nên bị ảnh hưởng người Và lĩnh vực cần phân tích liệu, có lúc liệu thu thập tốt, có khả sử dụng, không tốt, nên bỏ qua Tuy nhiên, Machine Learning thực công cụ tuyệt vời giúp AI tiếp cận với nhiều đối tượng sử dụng DANH MỤC TÀI LIỆU THAM KHẢO Machine Learning thật thú vị (6): Nhận diện giọng nói [Hỏi] Lịch sử hình thành, mốc phát triển học máy machine learning? Deep Learning gì? Tổng quan Deep Learning từ A-Z Một vài ứng dụng Machine Learning This is a preview Do you want full access? Go Premium and unlock all 26 pages Access to all documents Get Unlimited Downloads Improve your grades Upload Share your documents to unlock Free Trial Get 30 days of free Premium Already Premium? Log in

Tiêu đề	Nhận Dạng Tiếng Nói Phương Pháp Học Sâu
Tác giả	Trần Đức Đạt, Nguyễn Đức Mạnh, Hà Tuấn Anh, Phạm Văn Hoàng, Trương Thị Bích Phượng, Phạm Thị Thảo, Đặng Quang Trung
Người hướng dẫn	Phạm Minh Hoàn
Trường học	Trường Đại Học Kinh Tế Quốc Dân
Chuyên ngành	Công Nghệ Đa Phương Tiện
Thể loại	bài tập lớn

Định dạng
Số trang	38
Dung lượng	6,44 MB