Xây dựng mô hình Markov ẩn cho nhận dạng tiếng nó

Một phần của tài liệu nghiên cứu các kỹ thuật trong nhận dạng tiếng nói (Trang 26 - 29)

6 Tham khảo “The Concepts of Hidden Markov Model in Speech recognition Systems”[2] và “A Tutorial on Hidden Markov Models and Selected Applications in Speech Recognition”[12]

4.3.1. Xây dựng mô hình Markov ẩn cho nhận dạng tiếng nó

Mô hình miêu tả ở trên là một dạng đặc biệt của HMM, thường được sử dụng trong nhận dạng tiếng nói. Mô hình này được gọi là HMM trái-sang-phải (left-to-right HMM hay Bakis Network) bởi vì các trạng thái được di chuyển từ trái sang phải, và không tồn tại bước chuyển từ trạng thái có số thứ tự cao hơn đến một trạng thái có số thứ tự thấp hơn (aij = 0 nếu i > j). Mô hình này được áp dụng trong bài toán nhận dạng

Trên thực tế, có thể tồn tại nhiều cách biểu diễn khác nhau của HMM cho bài toán nhận dạng tiếng nói, tùy thuộc vào cách phân tích bài toán. Mô hình được miêu tả trên đây chỉ là một trong số đó. Như đã trình bày ở Chương 2, một từ được phát âm ra có thể coi là sự kết hợp của các âm vị liên tiếp nhau. Ví dụ như từ ONE, phiên âm theo chuẩn IPA là w-ah-n, khi phát âm từ này thì người nói sẽ lần lượt phát âm các âm vị w,

ahn. Tiếp đó, trong chương 3, chúng ta đã đề cập đến vấn đề trích chọn đặc trưng bằng phương pháp MFCC, trong đó mỗi một dữ liệu tiếng nói sau khi trích chọn đặc trưng sẽ cho ta một chuỗi các vector đặc trưng liên tiếp nhau. Trong đó mỗi vector bao gồm các giá trị đặc trưng cho dữ liệu tiếng nói đó trong một khoảng thời gian ngắn nhất định. Chính vì vậy, trong bài toán nhận dạng tiếng nói, chúng ta coi các trạng thái ẩn là các âm vị, các quan sát là các vector đặc trưng đối với một HMM, và các HMM sẽ được xây dựng cho từng từ một. Kết quả của quá trình nhận dạng sẽ cho ta một chuỗi các trạng thái tương ứng với chuỗi quan sát, và từ chuỗi trạng thái đó chúng ta có thể xác định từ được phát âm là từ gì.

Hình 9: HMM cho từ ONE

Như đã nói ở trên, trong mô hình Markov ẩn trái-sang-phải cho từ ONE này, không tồn tại các đường đi ngược của trạng thái ẩn. Loại mô hình này là phù hợp vì khi một người phát âm từ ONE, người đó sẽ bắt buộc phải phát âm lần lượt từng âm vị

w-ah-n. Nếu thứ tự các âm vị là w-n-ah thì từ được phát âm sẽ biến thành một từ khác. Trong HMM cho nhận dạng tiếng nói, tồn tại bước chuyển từ một trạng thái đến chính nó, cho phép một trạng thái có thể được lặp lại nhiều lần. Trong tiếng nói tự nhiên, độ dài của một từ hay một âm vị luôn thay đổi, do đó bước tự chuyển này cho phép mô hình có thể phù hợp với những dữ liệu tiếng nói đầu vào có thời gian biến thiên.

Đối với những trường hợp nhận dạng tiếng nói đơn giản, có số lượng từ vựng ít, như nhận dang bộ số đếm từ 0-9 thì một trạng thái ẩn trong HMM biểu diễn một âm vị là hợp lý. Tuy nhiên, trong nhận dạng tiếng nói liên tục với bộ từ vựng lớn, cần có một cách biểu diễn mịn hơn. Trong tiếng nói tự nhiên, một âm vị có thể kéo dài đến 100 frame (định nghĩa frame được nêu ở mục 3.2.2), điều này khiến cho xác suất tự chuyển trạng thái sẽ rất lớn, làm giảm độ chính xác khi nhận dạng. Thêm vào đó, các đặc trưng của âm như năng lượng âm cũng biến thiên khá nhiều trong một âm vị. Chính vì

sự không đồng đều của âm vị này, trong các hệ thống nhận dạng tiếng nói liên tục với bộ từ vựng lớn sử dụng mô hình HMM, một âm vị thường được mô hình bởi nhiều hơn một trạng thái ẩn, mà cụ thể là ba trạng thái ẩn độc lập. Điều đó cũng có nghĩa là một trạng thái ẩn trong HMM sẽ biểu diễn một mẩu âm vị, có thể là phần đầu, giữa hoặc cuối của một âm vị. Chúng ta tạm gọi mô hình này là “HMM ba trạng thái”.[7]

Hình 10: Biến thiên trong âm vị ah

Để chuyển từ HMM đơn giản như đã nêu ở phần đầu sang HMM ba trạng thái, chúng ta chỉ cần thay mỗi trạng thái ẩn bằng 3 trạng thái ẩn đầu, giữa và. Trạng thái cuối của một âm vị sẽ được nối với trạng thái đầu của âm vị tiếp theo. Hình vẽ sau đâu mô tả HMM ba trạng thái, trong đó các chữ cái b, m, f tương ứng với các trạng thái đầu, giữa và cuối của một âm vị.

Hình 11: HMM ba trạng thái cho từ ONE

HMM được mô tả ở trên đây được xây dựng cho từng từ trong bộ từ vựng. Chính vì vậy mô hình này chỉ có thể áp dụng để nhận dạng đối với đầu vào là từng từ riêng biệt. Chúng ta cần phải có những kỹ thuật bổ sung để hệ thống có thể nhận dạng với dữ liệu tiếng nói liên tiếp. Dưới đấy, tôi sẽ giới thiệu hai phương pháp để nhận dạng tiếng nói liên tục:

Phương pháp đầu tiên là cắt dữ liệu tiếng nói liên tục đầu vào thành từng từ, sau đó nhận dạng đối với từng từ riêng biệt đó với mô hình trên. Dựa trên đặc tính của tiếng nói liên tục, đó là giữa các từ thường có một khoảng lặng, tức là khoảng thời gian nhỏ mà người nói ngừng lại để phát âm từ tiếp theo. Như vậy một tín hiệu âm thanh đầu vào sẽ được cắt ra tại những khoảng lặng, thành nhiều tín hiệu âm thanh nhỏ khác để nhận dạng. Hình vẽ bên dưới thể hiện tín hiệu âm thanh sau khi được phân tích phổ (thực hiện biến đổi Fourier), chúng ta có thể thấy khá rõ khoảng lặng giữa hai từ ONETWO.

Hình 12: Phổ tín hiệu của 2 từ ONE TWO phát âm liên tiếp

Trong phương pháp thứ hai, một HMM mới sẽ được xây dựng dựa trên các HMM đã được xây dựng cho từng từ. Mô hình mới này sẽ là kết hợp của tất cả các mô hình cũ, bằng cách đặt tất cả các HMM cho từng từ lại, tất cả các trạng thái bắt đầu và kết thúc sẽ được gộp lại thành chỉ một trạng thái bắt đầu và một trạng thái kết thúc. Một đường đi từ trạng thái kết thúc đến trạng thái bắt đầu sẽ được thêm vào, cho phép nhận dạng được một chuỗi các từ có độ dài bất kỳ. Có thể thêm vào một trạng thái lặng ở cuối mỗi từ để mô phỏng khoảng lặng giữa 2 từ khi phát âm các từ liên tiếp nhau. Hình vẽ sau đây thể hiện mô hình này, sil là trạng thái lặng.

Hình 13: HMM kết hợp

Một phần của tài liệu nghiên cứu các kỹ thuật trong nhận dạng tiếng nói (Trang 26 - 29)

Tải bản đầy đủ (DOCX)

(43 trang)
w