Cơ sơ lý thuyết xử lý và nhận dạng tiếng nói

Một phần của tài liệu Nghiên cứu robot hỗ trợ người khiếm thính ứng dụng công nghệ xử lý ảnh (Trang 57)

Chương 4 : NHẬN DẠNG TIẾNG NÓI

4.2. Cơ sơ lý thuyết xử lý và nhận dạng tiếng nói

Nhận dạng tiếng nói là một q trình nhận dạng mẫu, với mục đích là phân lớp thơng tin đầu vào tín hiệu tiếng nói thành một dãy tuẫn tự các mẫu đã được học trước đó và lữu trữ trong bộ nhớ. Các mẫu là các đơn vị nhận dạng, chúng có thể là từ hoặc các âm vị. Tín hiệu tiếng nói được biểu diễn chính xác bởi các giá trị phổ trong một khung thời gian ngắn, nhờ đó có thể trích ra các đặc điểm tiếng nói từ những khoảng thời gian ngắn và dùng các đặc điểm này làm dữ liệu để nhận dạng tiếng nói.

4.2.1. Các thành phần cơ bản của một hệ thống nhận dạng tiếng nói

Về bản chất, q trình nhận dạng tiếng nói là q trình biến đổi tín hiệu âm thanh thu được của người nói qua các thiết bị thu âm thành một chuỗi các từ. Kết quả của q trình nhận dạng có thể được ứng dụng trong điều khiển thiết bị, nhập dữ liệu, soạn thảo văn bản bằng lời, quay số điện thoại tự động hoặc đưa tới một q trình xử lý ngơn ngữ ở mức cao hơn.

Hình 4.3: Các phần tử cơ bản của một hệ thống nhận dạng tiếng nói

Các hệ thống nhận dạng tiếng nói có thể được phân loại như: nhận dạng từ phát âm rời rạc và nhận dạng từ phát âm liên tục, nhận dạng tiếng nói phụ thuộc người nói và nhận dạng tiếng nói khơng phụ thuộc người nói, hệ thống nhận dạng từ điển cỡ nhỏ (dưới 20 từ) và hệ thống nhận dạng từ điển cỡ lớn (hàng nghìn từ), nhận dạng

Dữ liệu tiếng nói

Mơ hình âm thanh Mơ hình từ vựng Mơ hình ngơn ngữ Tìm kiếm, Đối sánh Mơ hinh hố,

phân lớp Trích chọn Đặc trưng Từ được nhận dạng Tín hiệu đầu vào

tiếng nói trong mơi trường có nhiễu thấp và nhận dạng tiếng nói trong mơi trườn có nhiễu cao, nhận dạng người nói.

Trong hệ thống nhận dạng tiếng nói với cách phát âm rời rạc có khoảng lặng giữa các từ trong câu, trong khi đó hệ nhận dạng tiếng nói liên tục khơng địi hỏi điều này. Tùy thuộc vào quy mơ và phương pháp nhận dạng, ta có các mơ hình nhận dạng tiếng nói khác nhau. Hình 4.3 là mơ hình tổng qt của một hệ nhận dạng tiếng nói điển hình.

Tín hiệu tiếng nói sau khi thu nhận được lượng tử hóa sẽ biến đổi thành một tập các vector tham số đặc trưng với các phân đoạn có độ dài trong khoảng 10-30 ms. Các đặc trưng này được dùng cho đối sánh hoặc tìm kiếm các từ gần nhất với một số ràng buộc về âm học, từ vựng và ngữ pháp. Cơ sở dữ liệu tiếng nói được sử dụng trong q trình huấn luyện (mơ hình hóa hay phân lớp) để xác định các tham số hệ thống.

4.2.2. Các phương pháp tiếp cận trong nhận dạng tiếng nói

Để có thể tiếp cận nhận dạng tiếng nói, ta có ba phương pháp phổ biến được sử dụng trong nhận dạng tiếng nói hiện nay là: phương pháp Âm học-Ngữ âm học; phương pháp nhận dạng mẫu và phương pháp ứng dụng trí tuệ nhân tạo.

a. Phương pháp Âm học-Ngữ âm học

Phương pháp Âm học-Ngữ âm học dựa trên lý thuyết về Âm học-Ngữ âm học. Lý thuyết đó cho biết rằng tồn tại các đơn vị ngữ âm xác định, có tính phân biệt trong lời nói và các đơn vị ngữ âm đó được đặc trưng bởi một tập các tín hiệu tiếng nói. Các bước nhận dang của phương pháp Âm học-Ngữ âm học gồm:

Bước 1: phân đoạn và gán nhãn. Bước này chia tín hiệu tiếng nói thành các đoạn có đặc tính âm học đặc trưng cho một (hoặc một vài) đơn vị ngữ âm, đồng thời gán cho mỗi đoạn âm thanh đó một hay nhiều nhãn ngữ âm phù hợp.

Bước 2: nhận dạng. Bước này dựa trên một số điều kiện ràng buộc về từ vựng, ngữ pháp… để xác định một hoặc một chuỗi từ đúng trong các chuỗi nhãn ngữ âm được tạo ra sau bước 1. Sơ đồ khối của phương pháp này được biểu diễn ở hình 4.4.

Nguyên lý hoạt động của phương pháp có thể mơ tả như sau: Tín hiệu tiếng nói sau khi số hóa được đưa tới khối trích chọn đặc trưng nhằm xác định các phổ tín hiệu. Các kỹ thuật trích chọn đặc trưng tiếng nói phổ biến là sử dụng băng lọc, mã hóa dự đốn tuyến tính (LPC)…

Tín hiệu tiếng nói sau khi được trích chọn đặc trưng sẽ được tách ra nhằm biến đổi phổ tín hiệu thành một tập các đặc tính mơ tả các tính chất âm học của các đơn vị ngữ âm khác nhau. Các đặc tính đó có thể là: tính chất các âm mũi, âm xát; vị trí các formant; âm hữu thanh, vơ thanh; tỷ số mức năng lượng tín hiệu…

Sau khi tách tín hiệu tiến nói, bước tiếp theo trong phương pháp Âm học-Ngữ âm học là phân đoạn và gán nhãn. Ở bước này hệ thống nhận dạng tiếng xác định các vùng âm thanh ổn định (vùng có đặc tính thay đổi rất ít) và gán cho mỗi vùng này một nhãn phù hợp với đặc tính của đơn vị ngữ âm. Đây là bước quan trọng của hệ nhận dạng tiếng nói theo phương pháp Âm học-Ngữ âm học và là bước khó đảm bảo độ tin cậy nhất.

Bước cuối cùng trong là nhận dạng. Chọn lựa để kết hợp chính xác các khối ngữ âm tạo thành các từ nhận dạng.

Hình 4.4: Sơ đồ khối nhận dạng tiếng nói theo Âm học-Ngữ âm học

b. Phương pháp nhận dạng mẫu

Phương pháp nhận dạng mẫu không cần xác định đặc tính âm học hay phân đoạn tiếng nói mà sử dụng trực tiếp các mẫu tín hiệu tiếng nói trong q trình nhận

Trích chọn đặc trưng Bộ tách đặc trưng Chọn lựa và gán nhãn Phân đoạn và gán nhãn Tín hiệu tiếng nói

Tiếng nói được nhận dạng

dạng. Các hệ thống nhận dạng tiếng nói theo phương pháp này được phát triển theo hai bước.

Bước 1: Sử dụng tập mẫu tiếng nói (cơ sở dữ liệu mẫu tiếng nói) để đào tạo các mẫu tiếng nói đặc trưng (mẫu tham chiếu) hoặc các tham số hệ thống.

Bước 2: Đối sánh mẫu tiếng nói từ ngồi với các mẫu đặc trưng để ra quyết định.

Trong phương pháp này, nếu cơ sở dữ liệu tiếng nói cho đào tạo có đủ các phiên bản mẫu cần nhận dạng thì q trình đào tạo có thể xác định chính xác các đặc tính âm học của mẫu (các mẫu ở đây có thể là âm vị, từ, cụm từ…). Hiện nay, một số kỹ thuật nhận dạng mẫu được áp dụng thành cơng trong nhận dạng tiếng nói là lượng tử hóa vector, so sánh thời gian động (DTW), mơ hình Markov ẩn (HMM), mạng nơron nhân tạo (ANN).

Hình 4.5: Sơ đồ khối hệ nhận dạng tiếng nói theo phương pháp mẫu

Phương pháp nhận dạng mẫu bao gồm các hoạt động cơ bản: trích chọn đặc trung, huấn luyện mẫu và nhận dạng.

Hoạt động trích chọn đặc trưng được thực hiện bằng việc tín hiệu tiếng nói được phân tích thành chuỗi các số đo để xác định mẫu nhận dạng. Các số đo đặc trưng

Trích chọn đặc trưng Huấn luyện mẫu Các mẫu chuẩn/ Các mơ hình Phân loại mẫu Quyết định logic Tiếng nói nhận dạng Tiếng nói <Mẫu thử> Pha 1 Pha 2

là kết quả xử lý của các kỹ thuật phân tích phổ như: lọc thơng dải, phân tích mã hóa dự đốn tuyến tính (LPC), biến đổi Fourier rời rạc (DFT).

Hoạt động huấn luyện mẫu được thực hiện khi nhiều mẫu tiếng nói ứng với các đơn vị âm thanh cùng loại được dùng để đào tạo các mẫu hoặc các mơ hình đại diện, được gọi là mẫu tham chiếu hay mẫu chuẩn.

Ở hoạt động nhận dạng, các mẫu tiếng nói được đưa tới khối phân loại mẫu. Khối này đối sánh mẫu đầu vào với các mẫu tham chiếu. Khối nhận dạng căn cứ vào các tiêu chuẩn đánh giá để quyết định mẫu tham chiếu nào giống mẫu đầu vào.

c. Phương pháp ứng dụng trí tuệ nhân tạo

Phương pháp ứng dụng trí tuệ nhân tạo kết hợp các phương pháp trên nhằm tận dụng tối đa các ưu điểm của chúng, đồng thời bắt chước các khả năng của con người trong phân tích và cảm nhận các sự kiện bên ngoài để áp dụng vào nhận dạng tiếng nói. Sơ đồ khối của phương pháp trí tuệ nhân tạo theo mơ hình từ dưới lên (hình 4.6).

Đặc điểm của các hệ thống nhận dạng theo phương pháp này là sử dụng hệ chuyên gia để phân đoạn, gán nhãn ngữ âm. Điều này làm đơn giản hóa hệ thống so với phương pháp nhận dạng ngữ âm. Đồng thời hệ thống nhận dạng ứng dụng trí tuệ nhận tạo sử dụng mạng nơron nhân tạo để học mối quan hệ giữa các ngữ âm, sau đó dùng nó để nhận dạng tiếng nói.

Việc sử dụng hệ chuyên gia nhằm tận dụng kiến thức con người vào hệ nhận dạng. Sử dung kiến thức về âm học để phân tích phổ và xác định đặc tính âm học của các mẫu tiếng nói, sử dụng kiến thức về từ vựng để kết hợp các khối ngữ âm thành các từ cần nhận dạng, sử dụng Kiến thức về cú pháp nhằm kết hợp các từ thành các câu cần nhận dạng, sử dụng kiến thức về ngữ nghĩa nhằm xác định tính logic của các câu đã được nhận dạng.

Hình 4.6: Sơ đồ khối hệ nhận dạng tiếng nói theo phương pháp từ dưới lên

Có nhiều cách khác nhau để tổng hợp các nguồn kiến thức vào bộ nhận dạng tiếng nói. Phương pháp thông dụng nhất là xử lý “từ dưới lên”. Theo cách này, tiến trình xử lý của hệ thống được triển khai tuần tự từ thấp lên cao. Trong hình 4.6, các bước xử lý ở mức thấp (phân tích tín hiệu, tìm đặc tính, phân đoạn, gán nhãn) được triển khai trước khi thực hiện các bước xử lý ở mức cao (phân lớp âm thanh, xác định từ, xác định câu). Mỗi bước xử lý đòi hỏi một hoặc một số nguồn kiến thức nhất định. Chẳng hạn, bước phân đoạn tiếng nói cần hiểu biết sâu sắc về đặc tính Âm học-Ngữ âm học của các đơn vị ngữ âm; bước xác định từ đòi hỏi kiến thức về từ vựng; bước xác định câu địi hỏi kiến thức về mơ hình ngơn ngữ (ngun tắc ngữ pháp).

Phương pháp này đã và đang được áp dụng thành công trong các ứng dụng nhận dạng tiếng nói thực tế. Các nguồn kiến thức Tiếng nói Phân tích tín hiệu Trích chọn đặc trưng Phân đoạn Gán nhãn

Phân lớp âm thanh

Xác định từ

Xác định câu

Âm hữu thanh/ vô thanh/ khoảng lặng

Nguyen tắc phân loại

Nguyen tắc ngữ âm

Truy cập từ điển

4.2.3. Phát hiện tiếng nói

Phát hiện thời điểm bắt đầu, điểm kết thúc của tiếng nói (tách tiếng nói ra khỏi khoảng lặng) là phần cần thiết trong chương trình nhận dạng tiếng nói, đặc biệt trong chế độ thời gian thực. Có ba phương pháp phát hiện tiếng nói thơng dụng đó là phát hiện tiến nói dựa trên hàm năng lượng thời gian ngắn SE (Short Energy), Phát hiện tiếng nói dựa trên hàm giả năng lượng và tỷ lệ vượt quá điểm không ZCR (Zero Crossing) và phát hiện tiếng nói dựa trên năng lượng phổ ngắn hạn.

a. Phát hiện tiếng nói dựa trên hàm năng lượng thời gian ngắn.

Hàm năng lượng thời gian ngắn của tín hiệu tiếng nói được tính bằng cách chia tín hiệu tiếng nói thành các khung, mỗi khung dài N mẫu. Mỗi khung được nhân với một hàm cửa sổ W(n).Nếu hàm cửa sổ bắt đầu xét ở mẫu thứ m thì hàm năng lượng thời gian ngắn Em được xác định như sau:

= ∑ ⌊ ( ) ( − )⌋

Trong đó: n: biểu thức rời rạc

m: số mẫu thử thứ m

N: là tổng số mẫu tiếng nói

Hàm cửa sổ W(n) thường dùng là hàm cửa sổ chữ nhật được xác định như sau:

( ) = 1 0 ≤ < − 1

0 ≥

b. Phát hiện tiếng nói dựa trên hàm giả năng lượng và tỷ lệ vượt q điểm khơng

Thuật tốn này xác định điểm bắt đầu, điểm kết thúc của tín hiệu tiếng nói dựa trên hai đại lượng tĩnh của tín hiệu tiếng nói là: hàm giả năng lượng E (Pseudo- Energy) và tỷ lệ vượt quá điểm không ZCR (Zero Crossing Rate). Trong một dãy giá trị tín hiệu tiếng nói được rời rạc hóa, điểm khơng là điểm tại đó diễn ra sự đổi dấu

(4.1)

cường độ tín hiệu và được mơ tả bởi: sgn[x(n+1)] ≠ sgn[x(n)]. Trong đó: sgn(x) là hàm dấu. Năng lượng là đại lượng được dùng để xác định vùng chứa âm hữu thanh, vô thanh. Nhưng hàm năng lượng thường rất nhạy cảm với nhiễu. Do vậy, người ta thường sử dụng hàm giả năng lượng trong tính tốn. Hàm giả năng lượng được xác định bởi:

( ) = | ( ) ( − 1)|

Trong đó:

( ) : là hàm giả năng lượng,

N: là kích thước khung cửa sổ.

Tỷ lệ vượt quá điểm không ZCR

Nhận thấy rằng khung có năng lượng càng cao thì tỷ lệ vượt q điểm khơng càng thấp và ngược lại. Như vậy, tỷ lệ vượt quá điểm không là đại lượng đặc trưng cho tần số tín hiệu tiếng nói. Ở đây, chúng ta cần xác định các tham số ngưỡng cho hàm giả năng lượng với hai ngưỡng trên và dưới và một ngưỡng tỷ lệ vượt q điểm khơng.

Kí hiệu:

E up : ngưỡng năng lượng trên (cao);

Edown : ngưỡng năng lượng dưới (thấp);

ZCR _ T : ngưỡng tỷ lệ vượt quá điểm khơng.

c. Phát hiện tiếng nói dựa trên năng lượng phổ ngắn hạn

Ý tưởng chính của phương pháp này là sử dụng bộ điều khiển dò biên tiếng nói VAD (Voice Activity Detector) dựa trên việc xác định năng lượng phổ ngắn hạnfE trên các khung tín hiệu tiếng nói. VAD dùng để xác định một khung chứa tín hiệu tiếng nói hay nhiễu. Hàm đầu ra của VAD trên khung thứ m là v [m]. Với khung chứa tiếng nói (có thể cả nhiễu) v[m]=1, ngược lại khung chỉ chứa nhiễu v [m]=0.

s(n)

( )

4.2.4. Phương pháp trích chọn tham số đặc trưng của tín hiệu tiếng nói

Trích chọn các tham số đặc trưng là bước có ý nghĩa quyết định tới kết quả của các chương trình nhận dạng tiếng nói. Có nhiều phương pháp trích chọn các tham số đặc trưng nhưng nhìn chung các phương pháp này dựa trên hai cơ chế: mơ phỏng lại q trình cảm nhận âm thanh của tai người và mơ phỏng lại q trình tạo âm của cơ quan phát âm.

a. Phân tích cepstral theo thang đo Mel

Phương pháp tính các hệ số MFCC (Mel-scale Frequency Cepstral Coefficient) là phương pháp trích chọn tham số tiếng nói được sử dụng rộng rãi bởi tính hiệu quả của nó thơng qua phân tích cepstral theo thang đo Mel. Phương pháp này được xây dựng dựa trên sự cảm nhận của tai người đối với các dải tần số khác nhau. Với các tần số thấp (dưới 1 kHz), độ cảm nhận của tai người là tuyến tính. Đối với các tần số cao, độ biến thiên tuân theo hàm logarit. Các băng lọc tuyến tính ở tần số thấp và biến thiên theo hàm logarit ở tần số cao được sử dụng để trích chọn các đặc trưng âm học quan trọng của tiếng nói. Mơ hình tính tốn các hệ số MFCC được mơ tả như hình 4.7.

Hình 4.7: Sơ đồ tính tốn các hệ số MFCC

Ý nghĩa và phương pháp xác định tham số ở các khối trong sơ đồ trên mô tả như sau:

Khối 1: Bộ lọc hiệu chỉnh (Preemphasis)

DTC Gắn

trọng số Đạo hàm

theo thời gian

( ) ^ ( ) ∆ ~ ( ) Bộ lọc/ Hiệu chỉnh Phân khung Lấy cửa sổ FFT Các băng lọc tam ( ) ~( ) ( ) phổ năng N…..M ( ) ~ ( )

Tín hiệu tiếng nói s(n) được đưa qua bộ lọc số bậc thấp để phổ đồng đều hơn, giảm ảnh hưởng gây ra cho các xử lý tín hiệu sau này. Thường bộ lọc này cố định bậc một, có dạng:

H(z) = 1- az 1− 0.9≤ a≤ 1.0

Quan hệ giữa tín hiệu ra với tín hiệu vào tn theo phương trình

̃( ) = ( ) = . ( − 1)

Giá trị a thường được chọn là 0.97. Khối 2: Phân khung (Frame Blocking)

Trong khối này tín hiệu hiệu chỉnh s(n) được phân thành các khung, mỗi khung có N mẫu; hai khung kề lệch nhau M mẫu. Khung đầu tiên chứa N mẫu, khung thứ hai bắt đầu chậm hơn khung thứ nhất M mẫu và chồng lên khung thứ nhất N-M mẫu. Tương tự, khung thứ ba chậm hơn khung thứ nhất 2M mẫu (chậm hơn khung thứ hai M mẫu) và chờm lên khung thứ nhất N-2M mẫu. Quá trình này tiếp tục cho đến khi tất cả các mẫu tiếng nói cần phân tích thuộc về một hoặc nhiều khung.

Khối 3: Lấy cửa sổ (Windowing)

Bước tiếp theo là lấy cửa sổ cho mỗi khung riêng rẽ nhằm giảm sự gián đoạn của tín hiệu tiếng nói tại đầu và cuối mỗi khung. Nếu w(n), 0 ≤ n ≤ N-1, sau khi lấy

Một phần của tài liệu Nghiên cứu robot hỗ trợ người khiếm thính ứng dụng công nghệ xử lý ảnh (Trang 57)

Tải bản đầy đủ (PDF)

(80 trang)