1. Trang chủ
  2. » Luận Văn - Báo Cáo

Bài Báo Cáo Nhóm 2 Nhận Dạng Tiếng Nói Rời Rạc Dùng Hmm.docx

10 3 0

Đang tải... (xem toàn văn)

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 10
Dung lượng 0,93 MB

Nội dung

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC BÁCH KHOA ĐÀ NẴNG SAU ĐẠI HỌC ~~~~~~*~~~~~~ BÀI BÁO CÁO MÔN HỌC TÊN BÀI NHẬN DẠNG TIẾNG NÓI RỜI RẠC DÙNG HMM Đà Nẵng – 2022 1 Giới thiệu Học viên thực hiện NGUYỄN[.]

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC BÁCH KHOA ĐÀ NẴNG SAU ĐẠI HỌC ~~~~~~*~~~~~~ BÀI BÁO CÁO MƠN HỌC TÊN BÀI: NHẬN DẠNG TIẾNG NĨI RỜI RẠC DÙNG HMM Học viên thực : NGUYỄN HOÀNG ANH VŨ : Lớp : Môn học Giảng viên hướng dẫn : LÊ HỒNG PHƯƠNG VƯƠNG NHẬT QUANG K43.KMT XỬ LÝ TIẾNG NÓI TS NINH KHÁNH DUY Đà Nẵng – 2022 Giới thiệu Tiếng nói thường xuất nhiều hình thức mà ta gọi đàm thoại, việc đàm thoại thể kinh nghiệm người ðàm thoại q trình gồm nhiều người, có hiểu hiết chung nghi thức luân phiên nói Những người có điều kiện thể chất tinh thần bình thường dễ diễn đạt tiếng nói mình, tiếng nói phương tiện giao tiếp lúc đàm thoại Tiếng nói có nhiều yếu tố khác hỗ trợ nhằm giúp người nghe hiểu ý cần diễn đạt biểu gương mặt, cử chỉ, điệu Vì có đặc tính tác động qua lại, nên tiếng nói sử dụng nhu cầu giao tiếp nhanh chóng Trong đó, chữ viết lại có khoảng cách khơng gian lẫn thời gian tác giả người đọc Sự biểu đạt tiếng nói hỗ trợ mạnh mẽ cho việc đời hệ thống máy tính có sử dụng tiếng nói, ví dụ lưu trữ tiếng nói loại liệu, hay dùng tiếng nói làm phương tiện giao tiếp qua lại Nếu phân tích q trình giao tiếp qua nhiều lớp, lớp thấp âm lớp cuối tiếng nói diễn tả ý nghĩa muốn nói Phân loại tiếng nói Tiếng nói âm mang mục đích diễn đạt thơng tin, uyển chuyển đặc biệt Là công cụ tư trí tuệ, tiếng nói mang tính đặc trưng lồi người Nó khơng thể tách riêng nhìn vào tồn thể nhân loại, nhờ có ngơn ngữ tiếng nói mà loài người sống phát triển xã hội tiến bộ, có văn hóa, văn minh ngày Trong q trình giao tiếp người nói, có nhiều câu nói, câu gồm nhiều từ, từ lại gồm hay nhiều âm tiết Ở tiếng Việt, số âm tiết ñược sử dụng vào khoảng 6700 Khi phát tiếng có nhiều phận lưỡi, môn, môi, họng, quản,… kết hợp với để tạo thành âm Âm phát lan truyền khơng khí để đến tai người nhận Vì âm phát từ kết hợp nhiều phận, âm lần nói khác khác dẫn đến khó khăn ta muốn phân chia tiếng nói theo đặc tính riêng Người ta chia tiếng nói thành loại sau: • Âm hữu thanh: Là âm phát có thanh, ví dụ nói “i”, “a”, hay “o” chẳng hạn Thực âm hữu tạo việc khơng khí qua môn (thanh môn tạo khép mở dây điều khiển hai sụn chóp) với độ căng dây cho chúng tạo nên dao động • Âm vơ thanh: Là âm tạo tiếng dây khơng rung rung đơi chút tạo giọng giọng thở, ví dụ “h”, “p” hay “th” • Âm bật: để phát âm bật, máy phát âm phải đóng kín, tạo nên áp suất, sau khơng khí giải phóng cách độđ ngột, ví dụ “ch”, “t” Mơ hình Markov ẩn ứng dụng việc xử lý tiếng nói 3.1 Chuỗi Markov Là dãy gồm N trạng thái S1, S2,…Sn với a ij xác xuất chuyển tiếp trạng thái từ Si đến S j Theo đó, ta có ma trận xác xuất chuyển tiếp trạng thái có dạng a11 a12 a 13 A = { aij } = a 21 a22 a 23 a 31 a32 a 33 Với tổng xác xuất hang ngang ma trận Cơng thức tính xác xuất tổng chuỗi trạng thái: - Là mơ hình thống kê, hệ thống mơ hình hố gọi q trình Markov với tham số trước nhiệm vụ xác định tham số ẩn từ tham số quan sát Nó bao gồm chuỗi q trình, trình quan sát trình ẩn Quá trình quan sát gọi chuỗi quan sát, q trình ẩn, khơng quan sát gọi chuỗi trạng thái Ví dụ cảm xúc bạn Quang theo thời tiết ngày, theo trạng thái ẩn (Hidden state) thời tiết trạng thái quan sát (State Observable) Giả sử ta biết cảm xúc bạn Quang ngày, ta tính tốn xác xuất chuỗi ngày thời tiết (Tính xác xuất chuỗi trạng thái ẩn dựa vào chuỗi trạng thái quan xác được) 3.2 Ứng dụng HMM xử lý tiếng nói Trong xử lý tiếng nói, tín hiệu tiếng nói chuỗi quan sát phổ, tần số f0, tần số formant F1, F2, F3, âm tiết âm bị chuỗi trạng thái khơng quan sát Chúng ta có quy trình nhận diện từ rời rạc cụ thể sau: Thực nghiệm 4.1 Dữ liệu đầu vào Dữ liệu đầu vào liệu gồm có 10 thư mục A, B, C D, E, F H, G, P, T Mỗi thư mục có 52 file âm đại diện cho 52 từ nói từ 10 người khác nhau, tập liệu gồm có 520 file âm - 4.2 Tiền xử lý liệu Tiến hành đánh nhãn cho 52 từ, ta tạo mảng chiều chứa 52 từ Mảng 52 từ gồm: [ 'chú', 'về', 'đào', 'tải', 'đầu', 'cuối', 'kế', 'trước', 'dừng', 'ngừng', 'đọc', 'tiếp', 'lui', 'tới', 'tăng', 'to', 'giảng', 'nhỏ', 'lại', 'lặp', 'nhanh', 'chậm', 'lưu', 'xoá', 'huỷ', 'chạy', 'xong', 'đúng', 'sai', 'giúp', 'giờ', 'ngày', 'tuổi', 'có', 'khơng', 'mục', 'bài', 'một', 'hai', 'ba', 'bốn', 'năm', 'sáu', 'bảy', 'tám', 'chín', 'a', 'e', 'i', 'o', 'u', 'thổ địa' ] Ta tạo class tiền xử lý liệu, xử dụng thư viện librosa để chuyển hết 520 files đại diện có 52 từ tín hiệu số để xử lý liệu Như ta thu data mảng 52 X 10 X A X B 52 số lượng từ, từ có 10 files, A X B ma trận mà file chuyển dạng tín hiệu số Ở liệu cho file sử lý âm Tiếp theo, ta mã hố labels, tức từ Vì liệu train cần mã hoá số liệu Ta sử dụng phương pháp đánh nhãn đơn giản, ta có 52 từ Thứ tự từ số mã hoá, ta thu ma trận 52 X 10 labels mã hoá: 4.3 Huấn luyện model Ta sử dụng train_test_split từ python để tách tập liệu train test, ta tách theo tỷ lệ 6:4 (6 phần để train, phần để test) Việc huấn luyện model, ta dùng thư viện GassianHMM từ python với tham số đầu vào: Sau tất tập liệu 52 từ qua GassianHMM, ta xuất kết vào folder Folder chứa tất file train Các file có định dạng pkl Những file ta dùng để dự đoán kết từ tập liệu dùng để test 4.4 Đánh giá liệu test                                       Sau đánh giá liệu test, ta có kết sau: chú: 1.0 về: 1.0 đào: 1.0 tải: 0.8125 đầu: 0.85 cuối: 0.875 kế: 0.8928571428571429 trước: 0.90625 dừng: 0.9166666666666666 ngừng: 0.925 đọc: 0.9318181818181818 tiếp: 0.9375 lui: 0.9038461538461539 tới: 0.9107142857142857 tăng: 0.8833333333333333 to: 0.890625 giảng: 0.8970588235294118 nhỏ: 0.9027777777777778 lại: 0.9078947368421053 lặp: 0.9125 nhanh: 0.9166666666666666 chậm: 0.9204545454545454 lưu: 0.9239130434782609 xoá: 0.9270833333333334 huỷ: 0.93 chạy: 0.9230769230769231 xong: 0.9259259259259259 đúng: 0.9285714285714286 sai: 0.9137931034482759 giúp: 0.9166666666666666 giờ: 0.9193548387096774 ngày: 0.9140625 tuổi: 0.9166666666666666 có: 0.9117647058823529 khơng: 0.9142857142857143 mục: 0.9166666666666666 bài: 0.918918918918919 một: 0.9013157894736842  hai: 0.9038461538461539  ba: 0.9  bốn: 0.9024390243902439  năm: 0.8988095238095238  sáu: 0.9011627906976745  bảy: 0.9034090909090909  tám: 0.8888888888888888  chín: 0.8913043478260869  a: 0.8829787234042553  e: 0.8802083333333334  i: 0.8826530612244898  o: 0.87  u: 0.8725490196078431  thổ địa: 0.875 Dựa vào kết trên, ta có kết cao với độ xác từ 88%, nhiều từ có tỷ lệ 100% Những từ có độ xác cao thường có đặc điểm files để train files để test chất giọng tương đồng 4.5 Dự đoán từ thực tế: - Ta sử dụng thư viện pyaudio để lấy âm ghi âm - Sau lấy file, ta đưa file âm vào quy trình tiền xử lý giống huấn luyện liệu - Sau file xử lý đó, tiến hành dùng models 52 từ được huấn luyện để lấy tỷ lệ phần trăm models Từ có tỷ lệ xác kết dự đốn file record Tài liệu tham khảo Ninh Khánh Duy, Lê Ngọc Huy “Ứng dụng HTL TOOLKIT xây dựng hệ thống nhận dạng tiếng nói rời rạc với từ vựng hữu hạn”, Luận văn thạc sĩ, 2018 Ankan, Ankur, and Abinash Panda Hands-on Markov models with python: Implement probabilistic models for learning complex data sequences using the Python ecosystem Packt Publishing Ltd, 2018 Pedregosa, Fabian, et al "Scikit-learn: Machine learning in Python." the Journal of machine Learning research 12 (2011): 2825-2830 Amos, D., Works, H S R., SpeechRecognition, I., & PyAudio, I (2018) The Ultimate Guide To Speech Recognition With Python Real Python Van Der Walt, Stefan, S Chris Colbert, and Gael Varoquaux "The NumPy array: a structure for efficient numerical computation." Computing in science & engineering 13.2 (2011): 22-30

Ngày đăng: 19/06/2023, 21:26

w