Ab O là hàm chi phí khi đi từ trạng thái sj sang

Một phần của tài liệu TÌM HIỂU VỀ CÁC HỆ THỐNG NHẬN DẠNG TIẾNG NÓI. (Trang 33)

trạng thái sk tại thời điểm t (tại vector đặc trƣng thứ t). Thuật toán Viterbi có thể đƣợc mô tả nhƣ sau:

Giả sử chúng ta đang ở vector đặc trƣng thứ t trong chuỗi vector đặc trƣng và đang ở trạng thái i trong mô hình HMM, chúng ta muốn chuyển qua trạng thái j

trong mô hình HMM. Chi phí để chuyển từ trạng thái i sang trạng thái j là trọng số ln(aijbj(Ot)) (với aijbj(Ot) là xác suất chuyển từ trạng thái i sang trạng thái j tại thời điểm t và vector đặc trƣng Ot đạt trạng thái j) với Ot là vector đặc trƣng đƣợc chọn trong chuỗi O=O1,O2,…,OT khi chuyển tới trạng thái j. Tại thời điểm t=1 trọng số này là –ln(bi(O1)), trọng số này đƣợc gọi là trọng số khởi đầu. Nhƣ vậy tổng trọng số của chuỗi trạng thái sẽ là tổng các trọng số chuyển trạng thái giữa 2 trạng thái kề nhau. Nhƣ vậy bài toán tìm chuỗi trạng thái có xác suất cao nhất sẽ tƣơng ứng với bài toán tìm chuỗi trạng thái có tổng trọng nhỏ nhất.

3.4.Nhận dạng tiếng nói và nhận dạng âm vị dựa trên HMM 3.4.1.Mô hình nhận dạng 3.4.1.Mô hình nhận dạng

Bất kỳ chƣơng trình nhận dạng dựa trên HMM nào cũng phải tuần tự trải qua 2 giai đoạn phát triển, đầu tiên là giai đoạn huấn luyện và sau đó là giai đoạn nhận dạng

Giai đoạn huấn luyện:

Trong giai đoạn này, dữ liệu sóng âm tiếng nói đƣợc trích xuất các thông số đặc trƣng, gán nhãn âm vị … và kết quả cuối cùng là các mô hình HMM của các âm vị. Đây là giai đoạn quyết định đối với độ chính xác khi nhận dạng tiếng nói. Các thao tác thực hiện trong giai đoạn này nhƣ Hình 3.3.1.

Giai đoạn nhận dạng:

Trong giai đoạn huấn luyện chúng ta sử dụng thuật toán Baum-Welch để ƣớc lƣợng tham số cho HMM. Việc huấn luyện thực hiện trên dữ liệu gán nhãn hoặc không gán nhãn.

Dữ liệu tiếng nói đƣơc gán nhãn theo âm vị là dữ liệu mà trên đó đã đƣợc xác định biên của âm vị của từng từ trên chuỗi sóng âm. Các nhãn này đƣợc gán bằng tay. Còn dữ liệu không gán nhãn có nhiều mức độ. Trong bài làm thì dữ liệu không gán nhãn đƣợc hiểu theo nghĩa là chỉ xác định chuỗi âm tiết (tƣơng ứng xác định đƣợc chuỗi âm vị) tƣơng ứng với chuỗi sóng âm.

Quá trình huấn luyện sẽ huấn luyện cho từng mô hình âm vị HMM ứng với tập hợp tất cả các chuỗi sóng âm đƣợc gán nhãn tƣơng ứng với nó.

Các tham số đƣợc ƣớc lƣợng cho HMM là xác suất chuyển trạng thái từ trạng thái i sang trạng thái j giữa các trạng thái của HMM aij các tham số của từng trạng thái vector trung bình  và vector hiệp phƣơng sai .

Trong nhận dạng hệ thống sẽ dựa vào các mô hình HMM học đƣợc và mô hình ngôn ngữ (language model) hay văn phạm (grammar) và áp dụng các chiến

Sóng âm Rút Trích Đặc trƣng File gán nhãn Đặc trƣng HMM Prototype Từ điển âm vị Huấn luyện Sóng âm

lƣợc tìm kiếm để tìm kiếm chuỗi các âm tiết tƣơng ứng với chuỗi sóng âm đƣa vào. Chi tiết nhƣ trong hình dƣới đây.

Ta có thể thấy lúc huấn luyện thì chúng ta huấn luyện trên mô hình âm vị, còn lúc nhận dạng thì chúng ta nhận dạng trên âm tiết. Chiến lƣợc tìm kiếm đƣợc xây dựng dựa trên thuật toán Viterbi.

3.4.2. Các thành phần cơ bản của hệ thống nhận dạng tiếng nói dựa trên HMM và mỗi liên hệ giữa chúng HMM và mỗi liên hệ giữa chúng

Chúng ta đã xem xét phần cốt lõi của HMM áp dụng vào nhận dạng tiếng nói, bây giờ xem xét đến các thành phần cơ bản của hệ thống nhận dạng dựa trên HMM. Các thành phần này bao gồm:

1. Rút trích đặc trƣng dữ liệu 2. Mô hình âm học

3. Mô hình ngôn ngữ 4. Chiến lƣợc tìm kiếm

Rút trích đặc trưng sẽ biến đổi các chuỗi tính hiệu số sóng âm thành chuỗi các vector quan sát O= o1, o2,…, oT. Mỗi vector Ot sẽ có từ 10 đến 40 thành phần,

Hình 3.3.2 Sơ đồ nhận dạng từ mô hình HMM đã huấn luyện Sóng âm Rút Trích Đặc trƣng Ngữ pháp Đặc trƣng Các mô hình HMM đã huấn luyện Từ điển âm vị Nhận dạng Từ nhận dạng đƣợc

lƣu giữ các thông tin của sóng âm. Quá trình rút trích đặc trƣng sẽ đƣợc giới thiệu ở phần sau.

Mô hình HMM âm học dùng các mô hình HMM để mô hình hóa các mẫu sóng âm của một đơn vị tiếng nói. Đơn vị này có thể là từ (âm tiết) hoặc các đơn vị dƣới từ (âm vị). Mỗi HMM trong hệ thống mô hình hóa các thể hiện thực tế của một đơn vị tiếng nó. Đôi khi các đơn vị mô hình hóa (trong huấn luyện) lại khác so với các đơn vị trong nhận dạng. Ví dụ, trong hầu hết các hệ thống nhận dạng tiếng nói, đơn vị trong mô hình hóa là phones (là âm vị và một số đơn vị không phải là tiếng nói), hay triphones(các âm vị phụ thuộc ngữ cảnh), trong khi đó đơn vị trong nhận dạng lại là từ (hoặc âm tiết). Nguyên nhân của việc này là vấn đề kỹ thuật. Do số lƣợng từ là rất lớn (đối với tiếng Việt là khoảng 8000 từ) nên việc phân biệt trực tiếp trên các từ là không thể. Tuy nhiên các từ (hoặc âm tiết ) lại đƣợc cấu thành từ một số đơn vị cơ bản là âm vị, có số lƣợng nhỏ hơn nhiều. Vì vậy hầu hết các hẹ thống nhận dạng sẽ mô hình hóa các đơn vị dƣới từ (sub-word) nhƣ âm vị trong khi đó sẽ nhận dạng các từ dựa vào tìm kiếm các chuỗi âm vị tƣơng ứng của nó. Các hệ thống nhận dạng nhƣ vậy gọi là hệ thống nhận dạng dựa vào các đơn vị dƣới từ (sub-word based system).

Sự liên hệ giữa các trạng thái của HMM và không gian âm học (acoustic space) chính là hàm xác suất quan sát b (observation probability function), có 2 dạng cơ bản: rời rạc (discrete-density) và liên tục (continuous-density). Do đó sẽ có 2 loại mô hình HMM là mô hình HMM liên tục (CDHMM) và mô hình HMM rời rạc (DDHMM). Hệ thống DDHMM sử dụng nhiều bộ nhớ hơn nhƣng lại tính toán nhanh hơn CDHMM. Các tham số của DDHMM là CDHMM đều đƣợc tính bởi giải thuật Baum-Welch.

Mô hình ngôn ngữ trong nhận dạng tiếng nói thể hiện sự chuyển tiếp có thể xảy ra giữa các từ (âm tiết). Mô hình ngôn ngữ chứa các thông tin nhƣ các ràng buộc cú pháp của ngôn ngữ tự nhiên. Trong úng dụng có 2 loại mô hình ngôn ngữ thƣờng đƣợc sử dụng, đó là mô hình ngôn ngữ luật thống kê mô hình ngôn ngữ luật quyết định. Mô hình thống kê thƣờng đƣợc sử dụng là mô hình word n-

gram. Ví dụ, mô hình 2-gram xác định xác suất của từ hiện hành phụ thuộc vào từ trƣớc nó. Tham số của các mô hình trên có thể đƣợc xác định dựa vào dữ liệu văn bản của các cơ sở dữ liệu sóng âm (văn bản mô tả dãy các từ trong dữ liệu sóng âm). Xác suất chuyển dịch giữa các từ không thấy đƣợc qua quá trình huấn luyện do đó chúng ta có thể cho chúng các giá trị nhỏ nhằm cho phép xác định các xác suất chuyển dịch giữa các từ lúc kiểm tra chƣơng trình trên dữ liệu test trong corpus (corpus là dữ liệu bao gồm tiếng nói đƣợc thu âm và các file văn bản nội dung tƣơng ứng với dữ liệu đó). Loại mô hình ngôn ngữ còn lại là mô hình ngôn ngữ luật quyết định, nó xác định tất cả các dịch chuyển hợp lệ giữa các từ. Các luật này có thể đƣợc huấn luyện từ các dữ liệu text hoặc có thể đƣợc tạo ra dựa vào các hệ thống nhận dạng khác trong đó mỗi câu sẽ tuân theo các qui tắc ngữ pháp nhất định.

Mô hình ngôn ngữ có một vai trò lớn trong nhận dạng tiếng nói. Đó là vì sự hạn chế của các mô hình âm học trong nhận dạng tiếng nói và số lƣợng kết hợp giữa các từ là rất lớn trong khi nếu có mô hình ngôn ngữ chúng ta có thể hạn chế số lƣợng kết hợp này xuống rất nhỏ. Do đó không gian tìm kiếm sẽ giảm xuống đáng kể nên tốc độ và độ chính xác của nhận dạng sẽ tăng lên rất nhiều, đặc biệt khi chúng ta làm với số lƣợng từ lớn. Sự thiết kế, cấu trúc toán học của mô hình ngôn ngữ, các phƣơng pháp để xác định các tham số của chúng, sự tăng hiệu quả của hệ thonosgs nhận dạng đƣợc trình bày trong nhiều tài liệu về mô hình ngôn ngữ (ví dụ, Shih et al, 1995).

Thành phần cuối cùng, chiến lược tìm kiếm, cũng là một thành phàn rất quan trọng đối với độ chính xác, hiệu quả của hệ thống, và đối với sự cân bằng của cả 3 thành phần trên. Nó trở thành một thành phần vô cùng quan trọng khi số lƣợng từ nhận dạng rất lơn. Không gian tìm kiếm này bao gồm các sự kết hợp của tất cả các liên kết có thể giữa các âm vị và giữa các từ trong nhận dạng trên từ điển lớn. Các thuật toán tìm kiếm đƣợc thiết kế phụ thuộc vào từng công việc nhận dạng tiếng nói đặc thù. Thuật toán thƣờng đƣợc sử dụng nhất trong tìm kiếm đó là thuật toán Viterbi.

CHƢƠNG 4

(adsbygoogle = window.adsbygoogle || []).push({});

Một phần của tài liệu TÌM HIỂU VỀ CÁC HỆ THỐNG NHẬN DẠNG TIẾNG NÓI. (Trang 33)