Mô hình HMM trong nhận dạng tiếng nói

Một phần của tài liệu Nhận dạng tiếng nói tiếng việt liên tụ (Trang 38 - 41)

Mỗi tín hiệu tiếng nói của con người đều có thể được mã hóa bởi một chuỗi các ký hiệu (chữ viết). Các ký hiệu chữ viết này có thể là khác nhau, đối với từng ngôn ngữ khác nhau. Quá trình nhận dạng tiếng nói trong hệ thống nhận dạng tiếng nói là quá trình tìm ra chuỗi các ký hiệu này từ một tín hiệu tín hiệu tiếng nói bất kỳ. Hình 2.7 chỉ ra 2 quá trình cơ bản trong quá trình nhận dạng tiếng nói, đó là quá

trình tham số hóa (parameterise) và quá trình nhận dạng (recognise).

Hình 2.7: Quá trình tham số hóa và nhận dạng tiếng nói liên tục

Đầu tiên, tín hiệu tiếng nói liên tục trong miền thời gian đ−ợc tham số hóa thành một chuỗi các vector tham số rời rạc. Mỗi vector tham số này đặc tr−ng cho một đoạn tín hiệu tiếng nói có độ dài cửa sổ từ 10ms đến 30 ms.

Đối với hệ thống nhận dạng tiếng nói sử dụng kỹ thuật chuỗi Markov ẩn, các vector tham số này đ−ợc sử dụng để tính toán các tham số trong mô hình HMM mẫu, đây chính là quá trình huấn luyện cho các mô hình HMM. Mỗi trạng thái trong mô hình HMM đ−ợc đặc tr−ng bởi giá trị trung bình và độ lệch. Việc chuyển trạng thái giữa các trạng thái đ−ợc đặc tr ng bởi ma trận chuyển trạng thái. Các giá trị này −

đ−ợc tính toán trong quá trình huấn luyện mô hình. Ng−ợc lại, quá trình nhận dạng là quá trình tìm ra chuỗi ký hiệu từ tập các vector tham số của tín hiệu tiếng nói đ−a vào. Đây thực chất là quá trình tìm ra mô hình HMM từ tập mô hình HMM mẫu sao cho nó gần giống nhất với mô hình HMM của tín hiệu tiếng nói cần nhận dạng.

Ch ơng 3: Các đặc tr ng của tiếng việt

Việc nghiên cứu và giải quyết các bài toán nhận dạng tiếng nói đã đ−ợc nhiều n−ớc cũng nh− nhiều chuyên gia trên thế giới quan tâm từ rất lâu. Tuy nhiên các nghiên cứu th−ờng áp dụng cho các ngôn ngữ phổ thông trên thế giới nh− tiếng Anh, tiếng Pháp, tiếng Trung Quốc… Các nghiên cứu đ−ợc thực hiện trên nhiều lĩnh vực và ở các khía cạnh khác nhau, phục vụ cho từng mục đích cụ thể khác nhau và đã

đạt đ−ợc nhiều kết quả khả quan. ở Việt Nam, việc nghiên cứu vấn đề nhận dạng tiếng Việt cũng đã được nhiều người quan tâm trong những năm gần đây.

Để có thể nghiên cứu và giải quyết bài toán nhận dạng tiếng nói đối với mỗi ngôn ngữ khác nhau đều đòi hỏi người thực hiện phải có sự hiểu biết cơ bản về những đặc thù, tính chất âm học của ngôn ngữ đó. Trên thế giới có rất nhiều ngôn ngữ khác nhau, chúng không chỉ khác nhau trong cách thể hiện thông qua chữ viết mà chúng còn khác nhau về các đặc thù âm học. Do vậy việc áp dụng máy móc mô

hình ngôn ngữ cũng nh− cách giải quyết bài toán nhận dạng tiếng nói của ngôn ngữ

này sang bài toán t−ơng tự của một ngôn ngữ khác là không thể thực hiện đ−ợc.

Việc nghiên cứu chi tiết về các đặc thù âm học và cấu trúc ngôn ngữ là công việc của các nhà ngôn ngữ học, trong phạm vi luận văn này ta sẽ sử dụng các kết quả

nghiên cứu đó và xem xét chúng ở góc độ kỹ thuật nhằm phục vụ cho bài toán nhận dạng nói tiếng Việt liên tục.

Phần đầu tiên trong chương này, luận văn sẽ đề cập đến một số đặc điểm nổi bật của tiếng Việt. Sau đó luận văn đề cập đến cấu trúc âm vị và âm tiết trong tiếng Việt, và xem xét chúng dưới góc độ của một bài toán nhận dạng tiếng nói để thấy sự

ảnh hưởng của chúng đối với việc xây dựng mô hình âm vị trong bài toán nhận dạng. Đây cũng là phần mà cho đến nay vẫn ch−a có đ−ợc sự thống nhất về quan

điểm đối với các nhà ngôn ngữ học.

Một phần của tài liệu Nhận dạng tiếng nói tiếng việt liên tụ (Trang 38 - 41)

Tải bản đầy đủ (PDF)

(76 trang)