Mơ hình học có giám sát

Một phần của tài liệu MÔ HÌNH CHATBOT GIAO TIẾP, HỖ TRỢ THỦ TỤC GIẤY TỜ HÀNH CHÍNH CHO SINH VIÊN TẠI KHOA KỸ THUẬT CƠ KHÍ (Trang 109 - 112)

Để hiểu rõ hơn ta lấy một câu “hello” làm ví dụ thì input lúc này là 24 nơ ron [0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 1. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.] và đầu ra tuyến tính sẽ được tính tốn [-0.2731, 0.2611, -0.1122, -0.1210] để thấy sự chênh lệch ta đưa về dạng xác suất bằng cách tính softmax với cơng thức:

𝜎(𝑧)𝑗 = 𝑒 𝑧𝑖 ∑𝐾 𝑒𝑘𝑧 𝑘=1 𝑉ớ𝑖 𝑗 = 1, … , 𝐾 ( 4.5 ) 𝜎(𝑧)1 = 𝑒 −0.2731 𝑒−0.2731 + 𝑒0.2611+ 𝑒−0.1122+ 𝑒−0.1210 = 0,198217811

SVTH: LÊ TRUNG KIÊN 88 𝜎(𝑧)2 = 𝑒 0.2611 𝑒−0.2731 + 𝑒0.2611 + 𝑒−0.1122+ 𝑒−0.1210 = 0,338178372 𝜎(𝑧)3 = 𝑒 −0.1122 𝑒−0.2731+ 𝑒0.2611+ 𝑒−0.1122+ 𝑒−0.1210 = 0,23282183 𝜎(𝑧)4 = 𝑒 −0.1210 𝑒−0.2731+ 𝑒0.2611+ 𝑒−0.1122+ 𝑒−0.1210 = 0,230781987 Ta ra được dạng xác suất [0.19821892 0.3381779 0.23282151 0.23078167] từ đây ta thấy giá trị xác suất với giá trị dự đoán (label) [0,1,0,0] chưa gần với nhau để đánh giá sự khác biệt đó ta tính Cots function (cross entropy) với cơng thức:

𝐷(𝑌̂, 𝑌) = −𝑌𝑙𝑜𝑔𝑌̂

= −1 × log(0.3381779) ≈ 1.08

Với Y là giá trị dự đoán và 𝑌̂ là giá trị tính ra ta được cross entropy gần bằng 1.08

Để cross entropy thấp nhất ta lan truyền ngược nơ ron và cập nhật label và bias với số lần bằng numEpoch.

Sau khi cập nhật đến khi hết chu kỳ numEpoch và giá trị cross entropy thấp nhất thì ta lưu lại các dữ liệu lớp ẩn với file .pth

SVTH: LÊ TRUNG KIÊN 89

4.3.2.2 Bước phân lớp (xác định intent) mơ hình 4.3.2.2.1 Dữ liệu đầu vào 4.3.2.2.1 Dữ liệu đầu vào

Hình 4.19: Lưu đồ giải thuật phân tích

đầu vào là giọng nói (Tiếng Anh) Hình 4.20: Lưu đồ giải thuật phân tích đầu vào là giọng nói (Tiếng Việt)

Khâu nhận dạng giọng nói tự động là khối đầu vào giúp người dùng tương tác với trợ lý ảo bằng giọng nói. Các đầu vào là các vector đặc trưng đại diện cho đoạn nói, được tạo ra bời q trình tiền xử lý nhanh và trích xuất đặc tính của bài phát biểu. Thành phần của Automatic Speech Recognition dựa vào sự kết hợp của mơ hình Hidden Markov (HMM) và một mơ hình hỗn hợp Gaussian (GMM) hoặc một mạng nơ-ron sâu (DNN).

HMM xây dựng một cây các trạng thái cho khung lời nói hiện tại sử dụng vector tính năng đầu vào. GMM hoặc DNN đánh giá xác suất của sự chuyển đổi trạng thái trong cây, và thuật tốn Viterbi sau đó tìm kiếm con đường có nhiều khả năng nhất dựa trên các điểm này. Đường dẫn có xác suất cao nhất thể hiện kết xuất văn bản cuối

SVTH: LÊ TRUNG KIÊN 90 cùng. Điểm GMM đánh giá HMM trạng thái chuyển tiếp bằng cách ánh xạ một vector đối tượng đầu vào một hệ toạ độ đa chiều và lặp lại điểm số các đặc tính chống lại mơ hình âm thanh được đào tạo. DNN điểm số sử dụng xác suất từ một mạng thần kinh. Độ sâu của DNN được xác định bởi số lớp ẩn mà số điểm cho một chuyển tiếp đi qua mạng. Trong luận văn sẽ nghiên cứu chủ yếu về DNN vì nó có độ chính xác cao hơn.

Để nhận dạng giọng nói tự động ta dùng thư viện speech_recognition:

Một phần của tài liệu MÔ HÌNH CHATBOT GIAO TIẾP, HỖ TRỢ THỦ TỤC GIẤY TỜ HÀNH CHÍNH CHO SINH VIÊN TẠI KHOA KỸ THUẬT CƠ KHÍ (Trang 109 - 112)

Tải bản đầy đủ (PDF)

(137 trang)