Lý thuyết nhận dạng tiếng nói

Một phần của tài liệu (LUẬN VĂN THẠC SĨ) Nhận dạng tiếng Việt sử dụng biến đổi Wavelet và mô hình Markov ẩn Luận văn ThS Kỹ thuật Điện tử - Viễn thông 2 07 00 (Trang 25 - 30)

Nhận dạng tiếng nói là kỹ thuật nhận ra các thành phần lời nói của con người. Q trình này có thể được thực hiện từ việc thu vào tín hiệu tiếng nói từ micro, và kết thúc bằng từ đã được nhận dạng được hệ thống xuất ra. Những bước của quá trình trên sẽ được đề cập ở phần sau.

Việc nghiên cứu nhận dạng tiếng nói đã được bắt đầu từ cuối thập niên 40, trong đó sự phát triển nhanh chóng của cơng nghệ máy tính đã đóng góp rất nhiều vào sự phát triển của nhận dạng tiếng nói. Ngày nay nhận dạng tiếng nói đã có mặt trong cơng nghiệp và đời sống ở một số lĩnh vực. Trong công nghiệp, khi tay và mắt của con người đã được tận dụng triệt để, thì việc điều khiển bằng tiếng nói có một thuận lợi rất lớn. Những ứng dụng khác của nhận dạng tiếng nói như hệ thống nhận đặt phòng tự động qua điện thoại, bằng cách này khách hàng cảm thấy thuận lợi hơn so với việc nhấn các nút của điện thoại. Hơn nữa, nhận dạng tiếng nói cịn có nhiều ứng dụng khác như hệ thống chính tả, các đồ chơi trẻ em, trò chơi game,…

Một cách lý tưởng, một chương trình nhận dạng sẽ có thể nhận dạng được các từ khác nhau của bất kỳ người nào trong bất kỳ môi trường nào. Nhưng trong thực tế, khả năng của hệ thống phụ thuộc vào nhiều yếu tố khác nhau. Bộ từ vựng, đa người dùng, nhận dạng liên tục (phức tạp hơn nhiều so với nhận dạng từng từ) là các yếu tố gây khó khăn, phức tạp cho việc nhận dạng tiếng nói. Tương tự như vậy đối với độ ồn nền.

1.2.4.1 Rút trích vector đặc trưng

Ngày nay, việc xử lý tín hiệu tiếng nói hầu hết được thực hiện trên miền số. Tín hiệu số được thu bằng cách lấy mẫu theo một tần số nhất định, đó là việc đo tín hiệu theo một chu kỳ thời gian. Theo lý thuyết, bất cứ một tín hiệu có băng tần giới hạn nào cũng có thể tái tạo lại một cách hoàn chỉnh nếu như tần số lấy mẫu FS ít nhất là gấp đơi tần số tối đa của tín hiệu (định lý Nyquist). Chất lượng của tín hiệu

được lấy mẫu còn phụ thuộc vào biên độ lấy mẫu – phụ thuộc vào số bit được dùng. Đối với những ứng dụng ASR, biểu diễn tín hiệu ở miền tần số thì tối ưu hơn – một biểu diễn gọn hơn hữu dụng hơn là cần thiết. Rút trích vector đặc trưng là việc xử lý biến đổi tín hiệu âm thanh thành một chuỗi những vector đặc trưng. Một số vector đặc trưng phổ biến như MFCC, LPC,…

Để tham số hóa dạng sóng của tín hiệu, tín hiệu được chia thành chuỗi các khung gối lên nhau theo thời gian, mỗi khung thường dài khoảng 25ms, khoảng thời gian thích hợp để cho việc xử lý tĩnh hơn (hình 1.8). Để khử nhiễu và làm rõ tín hiệu, các khung trước khi được xử lý được nhân với hàm cửa sổ, thường dùng là cửa sổ Hamming hay Hanning. Sau khi áp hàm cửa sổ cạnh của khung sẽ trở nên mịn hơn, mặt khác nó cịn giúp cho thành phần có tần số cao của tín hiệu xuất hiện trong phổ.

Hình 1.8: Tổng qt q trình rút trích vector đặc trưng

Hình 1.9: Các kỹ thuật nhận dạng tiếng nói và xu hướng phát triển

1.2.4.2 Phân lớp

Sau khi biến đổi tiếng nói thành vector đặc trưng là cơng việc quan trọng nhận ra cái gì thực sự được nói ra. Có một số cách tiếp cận vấn đề này, như là: hướng cơ sở tri thức, hướng so khớp mẫu,… những phương pháp này có thể được kết hợp với nhau.

a) Kỹ thuật so khớp mẫu

Một hệ thống so khớp mẫu dựa trên ý tưởng là sự so khớp lời nói với một số tập mẫu được lưu trữ, chẳng hạn như các đoạn âm thanh mẫu. Thường mỗi mẫu phù hợp với một từ trong từ điển. Người phân lớp sẽ tính tốn sự khác nhau về âm thanh giữa lời nói thu vào và từng mẫu đã được lưu trữ. Sau đó, anh ta sẽ chọn mẫu nào so khớp nhất với dữ liệu nhập.

Đối với chương trình, một thuật tốn cần được sử dụng để tìm ra sự so khớp khơng tuyến tính giữa tỷ lệ thời gian giữa hai tín hiệu, nó dùng để bù đắp sự chênh lệch do sự khác biệt tốc độ nói gây ra.

Kỹ thuật so khớp mẫu được sử dụng rộng rãi trong sản xuất thương mại vào các thập niên 70 và 80, nhưng sau đó ngày càng được thay thế bởi các phương pháp mạnh hơn (Holmes, 2001).

b) Mạng Neural

Mạng Neural là một mơ hình cố gắng mơ phỏng hệ thống nơron thần kinh của con người. Một mạng neural bao gồm một số lượng các nút. Những nút này được sắp xếp thành từng lớp kết nối lẫn nhau bằng trọng số khác nhau. Thông tin được đưa qua lớp vào, được xử lý qua mạng, sau đó được xuất ra ngồi thơng qua lớp ra. Kết quả trả về của mỗi nút được tính bằng hàm khơng tuyến tính các trọng số của các giá trị vào.

Mạng có khả năng phân loại chính xác phụ thuộc vào trọng số và các giá trị tối ưu được xác định trong quá trình huấn luyện. Khi huấn luyện, thông tin một vài mẫu âm thanh, ví dụ như phổ biên độ, được đưa vào mạng thông qua các nút nhập, các giá trị kết xuất được so sánh với giá trị được yêu cầu. Sự sai khác giữa các giá trị sẽ làm thay đổi các trọng số. Quá trình này được lăp đi lăp lại vài lần cho mỗi mẫu học, làm tăng độ chính xác của mạng. Mặc dù là một kỹ thuật thú vị và đầy hứa hẹn, nhưng mạng Neural chưa thật sự thành công trong một hệ nhận dạng tiếng nói hồn chỉnh.

c) Hướng dựa trên tri thức

Hệ thống dựa trên tri thức sử dụng tri thức để phân biệt sự khác nhau giữa các âm thanh. Vào khoảng thập niên 70 và 80, nó thích hợp trong việc ứng dụng trong hệ chun gia, nó dựa trên bộ luật được rút ra từ tri thức về tín hiệu âm thanh.

Một dạng khác của hệ thống được kế thừa từ quá trình phát âm của con người. Ở đây thay vì sử dụng bộ luật thì định nghĩa thành phần trung gian. Theo cách này, sự phân biệt diễn ra bằng cách so sánh tiếng nói được tổng hợp với một tiếng nói cần nhận dạng. Mặc dù là một kỹ thuật có tiềm năng, nhưng một hệ thống như vậy có sự giới hạn của nó.

d) Mơ hình Markov ẩn (Hidden Markov models – HMM)

Mơ hình Markov ẩn là một phương pháp thống kê mạnh mẽ để mơ hình hóa tín hiệu tiếng nói, và nó thật sự vượt trội trong việc áp dụng vào nhận dạng tiếng nói ngày nay. Một mơ hình Markov ẩn được dùng để biểu diễn cho một đơn vị của ngôn ngữ, như là từ hay là âm vị. Nó gồm có một số hữu hạn các trạng thái và sự chuyển đổi trạng thái, sự chuyển đổi đó được thực hiện thông qua xác suất chuyển đổi, hàm phân bố Gauss thường được chọn lựa để thực hiện điều này.

Một khi biểu diển một chuỗi mẫu quan sát, mơ hình có thể xác định xác suất gặp các mẫu quan sát đó, nhưng nếu như một chuỗi đơn các mẫu quan sát khơng thể tìm ra một chuỗi các trạng thái có liên quan thì nó khơng thể xác định trạng thái nào và ở thứ tự nào.

Xác suất chuyển trạng thái và sự phân bố xác suất phụ thuộc vào trọng số của nó. Trong q trình huấn luyện các trọng số này được tối ưu hóa cho phù hợp với dữ liệu huấn luyện.

Một phần của tài liệu (LUẬN VĂN THẠC SĨ) Nhận dạng tiếng Việt sử dụng biến đổi Wavelet và mô hình Markov ẩn Luận văn ThS Kỹ thuật Điện tử - Viễn thông 2 07 00 (Trang 25 - 30)

Tải bản đầy đủ (PDF)

(120 trang)