Tỉ lệ lỗi từ giữa các mơ hình

Một phần của tài liệu Luận văn thạc sĩ công nghệ thông tin nghiên cứu về nhận dạng tiếng nói tiếng việt và ứng dụng thử nghiệm trong điều khiển máy tính (Trang 65 - 67)

Có thể thấy HMM bán liên tục có mức cải tiển độ chính xác nằm giữa mơ hình HMM rời rạc và HMM liên tục khi số lượng dữ liệu huấn luyện có giới hạn. Khi ta tăng kích thước dữ liệu huấn luyện, HMM mật độ hỗn hợp liên tục bắt đầu tốt hơn hẳn so với cả HMM rời rạc và HMM bán liên tục, do đó việc chia sẽ các tham số mơ hình trở nên ít quan trọng hơn.

các hỗn hợp, HMM liên tục thiếu sức mạnh mơ hình và nó thực sự kém hiệu quả. so với HMM rời rạc. Chỉ sau khi số lượng các hỗn hợp tăng lên đáng kể thì HMM liên tục bắt đầu gia tăng độ chính xác nhận dạng. HMM bán liên tục thường giảm thiểu tỷ lệ lỗi của HMM rời rạc từ 10-15%. HMM liên tục với 20 hàm mật độ chéo Gaussian thực thi kém hiệu quả hơn so với cả HMM rời rạc hay HMM bán liên tục khi kích thước dữ liệu huấn luyện nhỏ. Nó có hiệu suất vượt trội so với cả HMM rời rạc hay HMM bán liên tục khi có đủ dữ liệu huấn luyện. Khi số lượng huấn luyện đủ lớn, nó có thể giảm tỷ lệ lỗi của HMM bán liên tục từ 15-20%.

3.2.2.2. Huấn luyện tiếng nói rời rạc so với liên tục:

Nếu ta xây dựng một HMM từ cho mỗi từ trong bộ từ vựng cho nhận dạng tiếng nói rời rạc, q trình huấn luyện hoặc nhận dạng có thể được thực hiện một cách trực tiếp, sử dụng các thuật toán cơ bản được trình bày ở phần mơ hình Markov ẩn. Để ước lượng các tham số mô hình, các mẫu của mỗi từ trong bộ từ vựng đã được thu thập. Các tham số mơ hình được ước lượng từ tất cả các các mẫu sử dụng thuật tốn forward-backward và cơng thức ước lượng lại. Khơng cần thiết phải xác định điểm cuối do mơ hình khoảng lặng tự động xác định giới hạn của nó nếu ta móc nối các mơ hình khoảng lặng với mơ hình từ ở cả hai điểm đầu và cuối.

Nếu các mơ hình ngữ âm được sử dụng, ta cần phải chia sẽ chúng giữa các từ khác nhau đối với nhận dạng tiếng nói trên bộ từ vựng lớn. Các đơn vị ngữ âm được móc nối để tạo thành một mơ hình từ, có thể thêm các mơ hình khoảng lặng tại điểm đầu và điểm cuối.

Để móc nối các ngữ âm thành dạng mơ hình từ, có thể có sự chuyển đổi từ trạng thái cuối cùng của mơ hình Markov ẩn ngữ âm trước sang trạng thái khởi tạo của mơ hình Markov ẩn của ngữ âm kế tiếp. Có thể ước lượng các tham số của mơ hình Markov ẩn móc nối. Lưu ý rằng việc thêm cung chuyển trạng thái rỗng nên thỏa mãn xác suất ràng buộc với xác suất chuyển trạng thái của mỗi mơ hình Markov ẩn ngữ âm. Nếu ước lượng các tham số với mơ hình móc nối, xác suất chuyển trạng thái cung rống aijg phải thỏa mãn ràng buộc:

∑ (𝑎𝑖𝑗 + 𝑎𝑖𝑗𝑔)

𝑗 = 1 (3.25)

nhỏ hơn 1. Đối với kết nối liên từ hay móc nối bao gồm nhiều cách phát âm, ta có thể sử dụng nhiều cung rỗng để móc nối các mơ hình đơn lẻ với nhau.

Trong ví dụ trong hình dưới, ta có 10 chữ số tiếng Anh trong bộ từ vựng. Xây dựng một mơ hình Markov ẩn cho mỗi âm tố tiếng Anh. Từ điển cung cấp thông tin cách phát âm của mỗi từ. Trong đó có một từ đặc biệt là Silence, ánh xạ với /sil/ trong mơ hình Markov ẩn có dạng topology như mơ hình Markov ẩn ngữ âm chuẩn. Với mỗi từ trong bộ từ vựng, đầu tiên ta dẫn xuất chuỗi ngữ âm cho mỗi từ trong từ điển. Sau đó kết nối các mơ hình ngữ âm với nhau thành dạng một mơ hình Markov ẩn một từ cho mỗi từ trong bộ từ vựng.

Một phần của tài liệu Luận văn thạc sĩ công nghệ thông tin nghiên cứu về nhận dạng tiếng nói tiếng việt và ứng dụng thử nghiệm trong điều khiển máy tính (Trang 65 - 67)

Tải bản đầy đủ (PDF)

(111 trang)