Phân lớp

Một phần của tài liệu Nhận dạng tiếng Việt sử dụng biến đổi Wavelet và mô hình Markov ẩn (Trang 27)

Sau khi biến đổi tiếng nói thành vector đặc trưng là công việc quan trọng nhận ra cái gì thực sự được nói ra. Có một số cách tiếp cận vấn đề này, như là: hướng cơ sở tri thức, hướng so khớp mẫu,… những phương pháp này có thể được kết hợp với nhau.

a) Kỹ thuật so khớp mẫu

Một hệ thống so khớp mẫu dựa trên ý tưởng là sự so khớp lời nói với một số tập mẫu được lưu trữ, chẳng hạn như các đoạn âm thanh mẫu. Thường mỗi mẫu phù hợp với một từ trong từ điển. Người phân lớp sẽ tính toán sự khác nhau về âm thanh giữa lời nói thu vào và từng mẫu đã được lưu trữ. Sau đó, anh ta sẽ chọn mẫu nào so khớp nhất với dữ liệu nhập.

Đối với chương trình, một thuật toán cần được sử dụng để tìm ra sự so khớp không tuyến tính giữa tỷ lệ thời gian giữa hai tín hiệu, nó dùng để bù đắp sự chênh lệch do sự khác biệt tốc độ nói gây ra.

Kỹ thuật so khớp mẫu được sử dụng rộng rãi trong sản xuất thương mại vào các thập niên 70 và 80, nhưng sau đó ngày càng được thay thế bởi các phương pháp mạnh hơn (Holmes, 2001).

b) Mạng Neural

Mạng Neural là một mô hình cố gắng mô phỏng hệ thống nơron thần kinh của con người. Một mạng neural bao gồm một số lượng các nút. Những nút này được sắp xếp thành từng lớp kết nối lẫn nhau bằng trọng số khác nhau. Thông tin được đưa qua lớp vào, được xử lý qua mạng, sau đó được xuất ra ngoài thông qua lớp ra. Kết quả trả về của mỗi nút được tính bằng hàm không tuyến tính các trọng số của các giá trị vào.

Mạng có khả năng phân loại chính xác phụ thuộc vào trọng số và các giá trị tối ưu được xác định trong quá trình huấn luyện. Khi huấn luyện, thông tin một vài mẫu âm thanh, ví dụ như phổ biên độ, được đưa vào mạng thông qua các nút nhập, các giá trị kết xuất được so sánh với giá trị được yêu cầu. Sự sai khác giữa các giá trị sẽ làm thay đổi các trọng số. Quá trình này được lăp đi lăp lại vài lần cho mỗi mẫu học, làm tăng độ chính xác của mạng. Mặc dù là một kỹ thuật thú vị và đầy hứa hẹn, nhưng mạng Neural chưa thật sự thành công trong một hệ nhận dạng tiếng nói hoàn chỉnh.

c) Hướng dựa trên tri thức

Hệ thống dựa trên tri thức sử dụng tri thức để phân biệt sự khác nhau giữa các âm thanh. Vào khoảng thập niên 70 và 80, nó thích hợp trong việc ứng dụng trong hệ chuyên gia, nó dựa trên bộ luật được rút ra từ tri thức về tín hiệu âm thanh.

Một dạng khác của hệ thống được kế thừa từ quá trình phát âm của con người. Ở đây thay vì sử dụng bộ luật thì định nghĩa thành phần trung gian. Theo cách này, sự phân biệt diễn ra bằng cách so sánh tiếng nói được tổng hợp với một tiếng nói cần nhận dạng. Mặc dù là một kỹ thuật có tiềm năng, nhưng một hệ thống như vậy có sự giới hạn của nó.

d) Mô hình Markov ẩn (Hidden Markov models – HMM)

Mô hình Markov ẩn là một phương pháp thống kê mạnh mẽ để mô hình hóa tín hiệu tiếng nói, và nó thật sự vượt trội trong việc áp dụng vào nhận dạng tiếng nói ngày nay. Một mô hình Markov ẩn được dùng để biểu diễn cho một đơn vị của ngôn ngữ, như là từ hay là âm vị. Nó gồm có một số hữu hạn các trạng thái và sự chuyển đổi trạng thái, sự chuyển đổi đó được thực hiện thông qua xác suất chuyển đổi, hàm phân bố Gauss thường được chọn lựa để thực hiện điều này.

Một khi biểu diển một chuỗi mẫu quan sát, mô hình có thể xác định xác suất gặp các mẫu quan sát đó, nhưng nếu như một chuỗi đơn các mẫu quan sát không thể tìm ra một chuỗi các trạng thái có liên quan thì nó không thể xác định trạng thái nào và ở thứ tự nào.

Xác suất chuyển trạng thái và sự phân bố xác suất phụ thuộc vào trọng số của nó. Trong quá trình huấn luyện các trọng số này được tối ưu hóa cho phù hợp với dữ liệu huấn luyện.

Chương 2. XỬ LÝ TIẾNG NÓI - RÚT TRÍCH VECTOR ĐẶC TRƯNG

Một phần của tài liệu Nhận dạng tiếng Việt sử dụng biến đổi Wavelet và mô hình Markov ẩn (Trang 27)

Tải bản đầy đủ (PDF)

(120 trang)