Để hiểu rõ hơn ta lấy một câu “hello” làm ví dụ thì input lúc này là 24 nơ ron [0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 1. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.] và đầu ra tuyến tính sẽ được tính toán [-0.2731, 0.2611, -0.1122, -0.1210] để thấy sự chênh lệch ta đưa về dạng xác suất bằng cách tính softmax với cơng thức:
( )1 =
( )4 = −0.2731 + 0.2611 + −0.1122 + −0.1210= 0,230781987
Ta ra được dạng xác suất [0.19821892 0.3381779 0.23282151 0.23078167] từ đây ta thấy giá trị xác suất với giá trị dự đoán (label) [0,1,0,0] chưa gần với nhau để đánh giá sự khác biệt đó ta tính Cots function (cross entropy) với công thức:
( , ) = −
= −1 × log(0.3381779) ≈ 1.08
Với Y là giá trị dự đoán và là giá trị tính ra ta được cross entropy gần bằng
1.08
Để cross entropy thấp nhất ta lan truyền ngược nơ ron và cập nhật label và bias với số lần bằng numEpoch.
Sau khi cập nhật đến khi hết chu kỳ numEpoch và giá trị cross entropy thấp nhất thì ta lưu lại các dữ liệu lớp ẩn với file .pth
SVTH: LÊ TRUNG KIÊN
4.3.2.2 Bước phân lớp (xác định intent) mơ hình 4.3.2.2.1 Dữ liệu đầu vào
Hình 4.19: Lưu đồ giải thuật phân tích Hình 4.20: Lưu đồ giải thuật phân tích
đầu vào là giọng nói (Tiếng Anh) đầu vào là giọng nói (Tiếng Việt)
Khâu nhận dạng giọng nói tự động là khối đầu vào giúp người dùng tương tác với trợ lý ảo bằng giọng nói. Các đầu vào là các vector đặc trưng đại diện cho đoạn nói, được tạo ra bời q trình tiền xử lý nhanh và trích xuất đặc tính của bài phát biểu. Thành phần của Automatic Speech Recognition dựa vào sự kết hợp của mơ hình Hidden Markov (HMM) và một mơ hình hỗn hợp Gaussian (GMM) hoặc một mạng nơ-ron sâu (DNN).
HMM xây dựng một cây các trạng thái cho khung lời nói hiện tại sử dụng vector tính năng đầu vào. GMM hoặc DNN đánh giá xác suất của sự chuyển đổi trạng thái trong cây, và thuật tốn Viterbi sau đó tìm kiếm con đường có nhiều khả năng nhất dựa trên các điểm này. Đường dẫn có xác suất cao nhất thể hiện kết xuất văn bản cuối
SVTH: LÊ TRUNG KIÊN
cùng. Điểm GMM đánh giá HMM trạng thái chuyển tiếp bằng cách ánh xạ một vector đối tượng đầu vào một hệ toạ độ đa chiều và lặp lại điểm số các đặc tính chống lại mơ hình âm thanh được đào tạo. DNN điểm số sử dụng xác suất từ một mạng thần kinh. Độ sâu của DNN được xác định bởi số lớp ẩn mà số điểm cho một chuyển tiếp đi qua mạng. Trong luận văn sẽ nghiên cứu chủ yếu về DNN vì nó có độ chính xác cao hơn.
Để nhận dạng giọng nói tự động ta dùng thư viện speech_recognition: