Minh họa thủ tục cơ bản về nhận dạng giọng nói the- 123docz.net

2.4.7 Mơ hình Hidden Markov Model

Mơ hình Hidden Markov Model (HMM) được sử dụng để dự đoán hoặc phân tích chuỗi thời gian sử dụng dựa theo xác suất. Bất cứ khi nào một chuỗi thời gian sử

dụng HMM đều có thể dễ dàng được áp dụng. Hầu hết các hệ thống thông minh đều sử dụng HMM. Robotics, Y học, Tài chính, máy phiên dịch và nhận dạng giọng nói là các ví dụ điển hình.

Trong xác suất, hai sự kiện là độc lập nếu sự kiện đầu tiên không ảnh hưởng đến kết quả của sự kiện thứ hai hoặc ngược lại. Trái ngược với các sự kiện độc lập, một sự kiện ảnh hưởng kết quả của các sự kiện khác là các sự kiện phụ thuộc. Markov phát minh ra một chu trình ngẫu nhiên được gọi là Chuỗi Markov, cịn được gọi là Mơ hình Markov, ở đó mỗi một giai đoạn phụ thuộc vào một số lượng cố định các giai đoạn trước đó. Chuỗi Markov phổ biến và đơn giản nhất là chuỗi Markov First Order. Trong chuỗi này giai đoạn hiện tại chỉ phụ thuộc vào trước đó. Gia đoạn hiện tại có thể đủ để mang lại (theo xác xuất) các điều kiện trong tương lai độc lập với giai đoạn trong quá khứ.

Hình 2-9 Minh họa chuỗi Markov với hai giai đoạn với xác suất chuyển đổi aij.

Hình 2-8: Minh họa chuỗi Markov đại diện cho xác suất chuyển đổi của thời tiết.

Ở ví dụ trên , sự phân bố ban đầu (π), xác suất cho bất kỳ số lượng các trình tự các tiểu bang có thể được tính tốn. Ví dụ, giả sử xác suất ban đầu là

= ( ó ắ ) ( ℎ ề â ) = 0.7 0.3 à = 0.8 0.2 0.4 0.6 ; (2.1)

Thì xác suất của ba ngày nắng kế tiếp có thể được tính tốn theo cơng thức dưới đây

P(có nắng, có nắng, có nắng) = πi x (0.8) = 0.3584 (2.2)

Chuỗi Markov được định nghĩa là một sự kiện quan sát được một cách xác định. Nhiều ứng dụng thực tế có tính năng khơng thể xác định. Hidden Markov Model (HMM) được xem là phần mở rộng tự nhiên của chuỗi Markov. Trong đó, phần mở rộng nơi các giai đoạn bên trong được giấu kín và bất kỳ giai đoạn nào có thể tạo ra các biểu tượng hoặc bằng chứng có thể quan sát được. Các ký hiệu quan sát được là các biến ngẫu nhiên và hàm xác suất của các trạng thái ngẫu nhiên nội tại. Mơ hình này được gọi là HMM. Việc sử dụng HMM trong nhận diện giọng nói khơng phải là một khái niệm mới. Khái niệm HMM đã được trình bày bởi L.E. Baum và Petrie vào cuối năm 1966.

Một mơ hình Markov ẩn được đặc trưng bởi các thành phần cơ bản sau :

N, số trạng thái (state) trong mơ hình Markov. Các trạng thái thường được ký

hiệu bằng S= {S1, S2, S3, ...} và trạng thái của mơ hình tại thời điểm t được kí hiệu là qt, M là số ký hiệu quan sát (observation symbol), đây là kích thước của bảng từ vựng của mơ hình. Các ký hiệu quan sát được biểu diễn bằng V= {v1, v2, ...}, A = {aij} là

xác suất chuyển trạng thái (state transition probability distribution). Trong đó aij là

xác suất để trạng thái j xuất hiện tại thời điểm t+1 khi trạng thái i đã xuất hiện tại thời điểm t .

aij = P(qt+1 = Sj | qt = Si ) (2.3)

(2.4)

B={bj(k)} xác suất phát xạ quan sát trong mỗi trạng thái (observation symbol

probability distribution in state), bj(k) là xác suất của quan sát vk tại trạng thái j tại thời điểm t.

bj(k) = P(vktại thời điểm t | qt = Sj),

(2.5)

π = { π1, π 2, ..., πN} xác suất trạng thái khởi đầu (initial state distribution), πi là xác suất để trạng thái i được chọn tại thời điểm khởi đầu t=1:

πi =P(q1=Si)

(2.6)

Với các giá trị thích hợp A, B, π, M, N, một mơ hình Markov ẩn được dùng để sinh ra

một dãy các quan sát:

O= {O1, O2, O3, ...}

Trong đó Oi lấy một trong các giá trị trong V. Hoạt động của HMM được mô tả như

Chọn một trạng thái khởi đầu q1 tương ứng với xác suất trạng thái khởi đầu π.

Gán t=1.

Chọn Oi = vk tương ứng với xác suất quan sát tại trạng thái Si: bi(k).

Chuyển sang trạng thái mới qt+1 = Sj tương ứng với xác suất chuyển trạng thái aij.

Người ta thường dùng bộ ba λ=(A, B, π) được coi là bộ ký pháp gọn để biểu diễn một mơ hình Markov ẩn. A, B và π được gọi là các tham số (parameters) của mơ h́nh λ

Hình 2-9: Một mơ hình Markov ẩn sau sáu trạng thái

Hình trên cho ta một ví dụ về một mơ hình Markov ẩn gồm có sáu trạng thái,

trong đó có một trạng thái khởi đầu và một trạng thái kết thúc. Sáu quan sát {O1, O2,

..., O6} được sinh ra từ bốn trạng thái từ 2 đến 5. Mỗi trạng thái có thể chuyển sang

trạng thái bên phải của nó, hoặc chuyển sang chính nó. Trạng thái khởi đầu chỉ chuyển

sang trạng thái thứ 2, tức là a12=1. Các tham số của mơ hình Markov ẩn được ước

lượng bằng 3 bài tốn cơ bản.

2.4.8 Nhận dạng tiếng nói với mơ hình Markov ẩn

Các hệ thống nhận dạng dựa trên HMM thường sử dụng đặc trưng chuẩn MFCC và quy trình huấn luyện và nhận dạng theo thuật toán sau:

Huấn luyện HMM :

Đầu vào gồm T frame các đặc trưng MFCC.

Bước 1: Xác định dãy trạng thái tối ưu bằng thuật toán Viterbi:

Bước 2: Hiệu chỉnh lại tham số mô h́nh HMM:

* = 1 argmax ∑ log ( | , , ) (2.8)

Bước 3: Đặt = *, lặp lại tới khi mơ hình hội tụ.

Nhận dạng với HMM:

Đầu vào gồm T frame các đặc trưng MFCC.

Giải mã theo Viterbi để xác định tập nhãn, và dãy trạng thái tối ưu ứng với bộ tham số mơ hình HMM đã cho:

( , = ({ }) ) = ∑ log ( | , ) (2.9)

2.4.9 Sự phân bố Gaussion

Các nhà nghiên cứu và các nhà khoa học đã phát hiện ra rằng phần lớn sự phân bố các biến ngẫu nhiên rất gần với Gaussian. Một biến ngẫu nhiên liên tục X có nghĩa là π và phương sai σ2 có dạng một tập tin pdf như sau:

(2.10)

Ở hình 3-7 Một ví dụ của phân bố Gaussion, được xem như là phân bố thông thường

Minh họa thủ tục cơ bản về nhận dạng giọng nói theo thống kê

Dữ liệu lớn – Big Data

Tổng quan về điện toán đám mây