Nhận dạng giọng nói

2.4.1 Giới thiệu

Con người luôn cố gắng giao tiếp với các vật thể bằng ngôn ngữ tự nhiên. Giao tiếp đã là khía cạnh khơng thể tách rời của cuộc sống con người; đây được xem là một cơng cụ hữu ích để chia sẻ và xây dựng kiến thức được truyền từ thế hệ này sang thế hệ khác. Giọng nói ngồi đóng vai trị là một cơng cụ truyền thơng, cịn được xem là một biểu tượng của nhận dạng và ủy quyền. Các khái niệm về nhận dạng giọng nói xuất phát từ trí tưởng tượng và sự sáng tạo của con người, đã được sử dụng thường

xuyên trong một số bộ phim và chương trình truyền hình. Sự xác nhận dựa trên nhận dạng lời nói đã được trình bày dưới dạng biểu tượng của tiến bộ công nghệ hay một hệ thống bảo mật. Trí tưởng tượng của hệ thống an tồn kết hợp với các kỹ thuật số cao cấp và tốn học kiến thức đã dẫn đến các cơng nghệ mới đã làm cho công nghệ như vậy một ngày thực tế và dễ dàng.

Tiếng nói là hính thức giao tiếp cơ bản nhất của con người. Tiếng nói của con người bao gồm rất nhiều loại thơng tin: Nội dung của lời nói (từ và ngơn ngữ), cảm xúc của người nói, giới tính và xác định người nói… Mục tiêu của q trình nhận dạng người nói là rút trích, mơ tả và nhận diện người dựa vào các đặc trưng của tiếng nói.

2.4.2 Hệ thống phát âm của con người

Tiếng nói của con người được tao ra từ các phần khác nhau của miệng, tạo ra sự thay đổi áp suất khơng khí (ngồi miệng). Những thay đổi sau đó có thể được phát định kỳ và ghi lại trong một dạng sóng kỹ thuật số. Hình dạng sóng chứa tất cả thơng tin của từ nói. Tất cả các tín hiệu lời nói được tạo ra theo cách tương tự. Vì chúng ta có thể ghi lại các tín hiệu âm thanh hoặc các dạng sóng, có thể nghĩ rằng nó rất dễ dàng để tóm tắt thơng tin. Chắc chắn rằng, thơng tin có thể được trừu tượng nhưng thủ tục không đơn giản và dễ hiểu hơn nữa.

Hình dạng vật lý của ống âm thanh của mỗi người là khác nhau. Vì thế, chúng ta có thể phát âm theo một cách khác nhau. Nếu một người được yêu cầu nói ra cùng một từ hai lần, tín hiệu giọng nói sẽ khơng chính xác như tần số và các thuộc tính âm thanh có thể khác nhau theo thời gian. Mơi trường nơi con người nói, ngơn ngữ địa phương, sự khác biệt trong chiều dài phát âm của nam, nữ và trẻ em làm đa dạng giọng nói sự thay đổi giọng nói và do đó làm cho rất khó để hiểu các tín hiệu lời nói. [12] Tuy nhiên, vẫn có một số đặc điểm trong giọng nói của con người có thể được mơ phỏng theo tốn học và được sử dụng để dự đoán từ ngữ từ giọng nói đó, nhưng địi hỏi rất nhiều thời gian và cơng sức.

Khơng khí là nhân tố cần thiết giúp tạo ra âm thanh. Con người, hầu hết thời gian tạo ra âm thanh trong khi thở. Âm thanh được tạo thành nhờ vào sự cản trở khơng khí trong các cơ quan của đường hô hấp (bao gồm dây thanh quản, khoang thanh quản, khoang mũi, lưỡi, răng, mơi, và vịm miệng). Giọng nói có thể làm thay đổi áp suất khơng khí tạo thành các dạng sóng. Sự rung động của áp suất khơng khí được tiếp nhận qua khơng khí và tiếp tục được xử lý bởi các cơ quan khác nhau trong tai và não bộ.

- Nasal Cavity: khoang mũi - Lips: môi

- Jaw: hàm

- Palate: vòng miệng

- Oral Cavity: khoang miệng - Tongue: lưỡi

- Larynx: thanh quản

- Pharynx: yết hầu (cổ họng) - Epiglottis: nắp thanh quản - Larynx opening into Pharynx:

đoạn thanh quản mở từ yết hầu - Esophagus: thực quản

Hình 2-1: Hình cắt ngang của ống âm thanh [6]

Ở hình 2-1 là cơ quan chính trong việc tạo ra giọng nói từ sự cộng hưởng. Sự cộng hưởng phụ thuộc vào hình dạng của miệng. Vị trí cộng hưởng xác định phát âm của âm vị. Tính năng này được xem xét để xác định các âm vị trong nhận dạng giọng nói. Mỗi một giọng nói có một số tính năng cơ bản thường hiện diện ở các ngôn ngữ. Đơn vị nhỏ nhất của ngữ âm là một âm vị. Trong đó, âm vị được tạo ra bởi các nguyên âm và phụ âm. Âm vị có thể là nhị trùng âm hoặc đơn âm. Sự chuyển động của các cơ quan trong ống âm thanh tạo ra các âm vị khác nhau. Phụ âm sát (fricatives) là các âm vị đòi hỏi sự ma sát của lưỡi với vịm miệng hoặc răng trên với mơi dưới….Sự phối hợp của im lặng, sự bật, ma sát và sự hít vào tạo ra các âm bật hơi (plosive). Các âm này sẽ giúp dẫn đến sự hình thành của âm sát và âm tắt sát (affricate).

Khơng có sự khác biệt rõ rệt giữa các âm vị, đặc biệt là các nguyên âm. Tuy nhiên, khi q trình nói diễn ra, động lực của miệng thay đổi. Vì vậy, một vài người nói chậm trong khi số khác lại nói rất nhanh. Độ dài của một âm vị được phát ra thay đổi phụ thuộc vào các yếu tố như sự thay đổi tốc độ của giọng nói, độ dài của âm vị, nhấn âm tiết, nhấn giọng của từ được nói ra….

2.4.3 Biểu diễn tiếng nói - đặc trưng tiếng nói

Việc thu nhận tiếng nói thời gian thực và khuếch đại thường được thực hiện thông qua một bộ ADC (Analog-Digital Converter). Các thông số quan trọng bao gồm số bit cho một mẫu (thông dụng là từ 8 đến 16 bit), tần số lấy mẫu (thông dụng từ 8Khz-16Khz). Những thông số này liên quan nhiều tới hiệu năng, độ phức tạp thiết kế cũng như kết quả nhận dạng của hệ thống nhúng.

Ngồi ra do mơi trường tín hiệu của hệ thống đo và điều khiển trong công nghiệp thường rất nhiễu nên hệ thống cần một bộ kiểm sốt âm lượng của tín hiệu thu vào.

2.4.4 Trích chọn đặc trưng

Mục tiêu của bộ trích đặc trưng là tham số hố tín hiệu tiếng nói thành chuỗi vector đặc trưng, chứa thông tin liên quan đến âm thanh của câu nói. Đối với bất kì hệ thống nhận dạng tiếng nói nào, các đặc trưng ngữ âm cũng phải có các tính chất sau:

- Có khả năng phân biệt tốt các tiếng nói có phát âm giống nhau.

- Cho phép xây dựng các mơ hình thống kê mà khơng địi hỏi q nhiều dữ liệu huấn luyện.

- Có tính bất biến đối với các giọng nói khác nhau, cũng như mơi trường thu âm.

15 Tín hiệu

Tiếng nói Chia Frame Frames FFT

Power Spectrum

Áp dụng Mel Filter Banks

Lấy Log DCT

Vectors đặc trưng MFCC

Hình 2-2: Các bước rút trích đặc trưng MFCC từ tín hiệu âm thanh. [8]

Một đặc trưng lý tưởng (có cả 3 tính chất nêu trên) thường không tồn tại trong thực tế. Trong lĩnh vực nhận dạng tiếng nói, các đặc trưng thường được sử dụng là MFCC (Mel-Frequency Cepstral Coefficients), và LSP (Line Spectral Pairs).

Các hệ nhận dạng tiếng nói thường tách đặc trưng từ tín hiệu bằng cách:chia tín hiệu thành các đoạn độ dài 5-15 ms, mỗi đoạn gọi là một khung (frame). Mỗi frame sẽ cho đặc trưng là một vector và đặc trưng của tồn bộ tín hiệu sẽ là một dãy vector. MFCC là phương pháp trích đặc trưng dựa trên đặc điểm cảm thụ tần số âm của tai người: tuyến tính đối với tần số nhỏ hơn 1kHz và phi tuyến đối với tần số trên 1kHz (theo thang tần số mel, khơng phải theo Hz). Vì lẽ đó rất nhiều hệ thống nhận dạng tiếng nói sử dụng MFCC làm đặc trưng. Việc tính đặc trưng MFCC có sơ đồ như sau:

Hiện nay ngoài các đặc trưng MFCC và các đặc trưng truyền thống khác (như LPC, PLP v.v), người ta còn sử dụng nhiều đặc trưng khác như Wavelet, chiều Fractal, Tiger, các đặc trưng siêu đoạn tính như F0, formant để cải tiến độ chính xác nhận dạng. Các đặc trưng bổ sung này được đưa vào để nâng cao chất lượng nhận dạng với việc khai thác các đặc điểm sau:

- Bền vững với tiếng nói nhiễu .

- Hạn chế nhược điểm của các biến đổi dựa trên FFT.

- Đặc thù ngữ âm và ngơn ngữ.

Chuẩn hóa đặc trưng MFCC dựa vào tần số cơ bản F0, từ đó giảm phụ thuộc của hệ thống nhận dạng vào người nói, do đó chất lượng nhận dạng tiếng nói được tăng lên.

Hình 2-4: MFCC chuẩn

Hình 2-5: MFCC đã biến đổi

Lý do của sự phổ biến của đặc trưng MFCC chuẩn là nó đơn giản, truyền thống, độc lập ngôn ngữ, và xuất hiện sớm trong các kết quả cơng bố về nhận dạng tiếng nói.

2.4.5 Phương pháp nhận dạng tiếng nói

Một nhược điểm của HMM là khả năng mơ hình hố âm thanh. Nhược điểm này làm cho hệ thống dùng mạng HMM dễ nhận dạng nhầm các nhiễu cộng (additional noise) trong quá trình nhận dạng. Tỷ lệ lỗi nhận dạng chèn trong hệ thống

nhận dạng dùng HMM là khá cao khi chúng phải làm việc với các phát âm có nhiều nhiễu. Độ chính xác nhận dạng ở mức câu thường thấp.

Mặc dù các hệ thống nhận dạng dựa trên mạng nơ ron đạt được độ chính xác cao về nhận dạng âm vị hoặc nhận dạng từ rời rạc, nhưng nhìn chung các mạng nơ ron không thành công trong vấn đề nhận dạng tiếng nói liên tục. Ngun nhân là mơ hình mạng nơ ron thiếu các khả năng mơ hình hóa tốt sự biến thiên về thời gian của tín hiệu tiếng nói.

Ngược lại, do ANN có khả năng phân lớp mạnh và có khả năng mơ hình âm thanh tốt, nên nếu sử dụng mơ hình lai HMM kết hợp với ANN, ở đó các nhiễu cộng có thể được phát hiện và khơng bị nhận dạng nhầm là các âm vị. Tỷ lệ lỗi nhận dạng nhầm do lỗi chèn của hệ thống HMM/ANN thấp, hệ thống chịu được ảnh hưởng của nhiễu và các âm thanh đan xen vào trong tiếng nói và có thể nhận dạng được với phát âm có nhiều nhiễu. Độ chính xác nhận dạng ở mức câu cao hơn so với hệ thống CD- HMM.

Hình 2-6: Mơ hình mạng lai ghép HMM/ANN

Do vậy hiện nay người ta đã nghiên cứu các hệ nhận dạng lai ghép giữa mạng neuron và mơ hình Markov ẩn (HMM/ANN) với mục đích để hạn chế nhược điểm của hai phương pháp ANN và HMM, đồng thời tận dụng hai ưu điểm của hai phương pháp này: khả năng phân lớp của mạng neuron và khả năng mơ hình hố thơng tin

thời gian của mơ hình Markov ẩn. Xác suất để mơ hình ở trạng thái Si vào thời điểm t chính là đầu ra mong đợi của mạng nơ ron.

2.4.6 Các mơ hình nhận dạng

Hầu hết các hệ thống nhận dạng giọng nói ngày nay đều sử dụng các mơ hình thống kê. Những hệ thống này sử dụng xác suất và các chức năng tốn học để tính tốn ngõ ra thích hợp nhất được đưa ra bởi các tín hiệu lời nói. Một tập hợp lớn các dữ liệu của mơ hình thử nghiệm được sử dụng để tính tốn các tính năng. [19; 20]

Mơ hình thống kê u cầu mơ hình hóa âm. Mơ hình hóa âm thanh được mơ tả bằng mơ hình Hidden Markov. Các mơ hình này được điều chỉnh các thơng số với tín hiệu thoại và tơ pơ âm thanh (acoustic topology). Các dạng sóng lời nói quan sát được chuyển thành các thơng số tính tốn bằng cách sử dụng các kỹ thuật khác nhau bao gồm tần số MFCC (Mel frequency cepstral coefficients). Các tần số này chính là tất cả các con số. Trong quá trình nhận dạng, hầu hết các trình tự được tính tốn / tìm kiếm từ một mơ hình sẵn có. Từ ngữ có nhiều khả năng nhất với xác suất lớn nhất được tạo ra được xem như là kết quả của lời nói ở dạng sóng.

Hình 2-7. Minh họa thủ tục cơ bản về nhận dạng giọng nói theo thống kê

2.4.7 Mơ hình Hidden Markov Model

Mơ hình Hidden Markov Model (HMM) được sử dụng để dự đốn hoặc phân tích chuỗi thời gian sử dụng dựa theo xác suất. Bất cứ khi nào một chuỗi thời gian sử

dụng HMM đều có thể dễ dàng được áp dụng. Hầu hết các hệ thống thông minh đều sử dụng HMM. Robotics, Y học, Tài chính, máy phiên dịch và nhận dạng giọng nói là các ví dụ điển hình.

Trong xác suất, hai sự kiện là độc lập nếu sự kiện đầu tiên không ảnh hưởng đến kết quả của sự kiện thứ hai hoặc ngược lại. Trái ngược với các sự kiện độc lập, một sự kiện ảnh hưởng kết quả của các sự kiện khác là các sự kiện phụ thuộc. Markov phát minh ra một chu trình ngẫu nhiên được gọi là Chuỗi Markov, cịn được gọi là Mơ hình Markov, ở đó mỗi một giai đoạn phụ thuộc vào một số lượng cố định các giai đoạn trước đó. Chuỗi Markov phổ biến và đơn giản nhất là chuỗi Markov First Order. Trong chuỗi này giai đoạn hiện tại chỉ phụ thuộc vào trước đó. Gia đoạn hiện tại có thể đủ để mang lại (theo xác xuất) các điều kiện trong tương lai độc lập với giai đoạn trong quá khứ.

Hình 2-9 Minh họa chuỗi Markov với hai giai đoạn với xác suất chuyển đổi aij.

Hình 2-8: Minh họa chuỗi Markov đại diện cho xác suất chuyển đổi của thời tiết.

Ở ví dụ trên , sự phân bố ban đầu (π), xác suất cho bất kỳ số lượng các trình tự các tiểu bang có thể được tính tốn. Ví dụ, giả sử xác suất ban đầu là

= ( ó ắ ) ( ℎ ề â ) = 0.7 0.3 à = 0.8 0.2 0.4 0.6 ; (2.1)

Thì xác suất của ba ngày nắng kế tiếp có thể được tính tốn theo cơng thức dưới đây

P(có nắng, có nắng, có nắng) = πi x (0.8) = 0.3584 (2.2)

Chuỗi Markov được định nghĩa là một sự kiện quan sát được một cách xác định. Nhiều ứng dụng thực tế có tính năng không thể xác định. Hidden Markov Model (HMM) được xem là phần mở rộng tự nhiên của chuỗi Markov. Trong đó, phần mở rộng nơi các giai đoạn bên trong được giấu kín và bất kỳ giai đoạn nào có thể tạo ra các biểu tượng hoặc bằng chứng có thể quan sát được. Các ký hiệu quan sát được là các biến ngẫu nhiên và hàm xác suất của các trạng thái ngẫu nhiên nội tại. Mơ hình này được gọi là HMM. Việc sử dụng HMM trong nhận diện giọng nói khơng phải là một khái niệm mới. Khái niệm HMM đã được trình bày bởi L.E. Baum và Petrie vào cuối năm 1966.

Một mô hình Markov ẩn được đặc trưng bởi các thành phần cơ bản sau :

N, số trạng thái (state) trong mơ hình Markov. Các trạng thái thường được ký

hiệu bằng S= {S1, S2, S3, ...} và trạng thái của mơ hình tại thời điểm t được kí hiệu là qt, M là số ký hiệu quan sát (observation symbol), đây là kích thước của bảng từ vựng của mơ hình. Các ký hiệu quan sát được biểu diễn bằng V= {v1, v2, ...}, A = {aij} là

xác suất chuyển trạng thái (state transition probability distribution). Trong đó aij là

xác suất để trạng thái j xuất hiện tại thời điểm t+1 khi trạng thái i đã xuất hiện tại thời điểm t .

aij = P(qt+1 = Sj | qt = Si ) (2.3)

(2.4)

B={bj(k)} xác suất phát xạ quan sát trong mỗi trạng thái (observation symbol

probability distribution in state), bj(k) là xác suất của quan sát vk tại trạng thái j tại thời điểm t.

bj(k) = P(vktại thời điểm t | qt = Sj),

(2.5)

π = { π1, π 2, ..., πN} xác suất trạng thái khởi đầu (initial state distribution), πi là xác suất để trạng thái i được chọn tại thời điểm khởi đầu t=1:

πi =P(q1=Si)

(2.6)

Với các giá trị thích hợp A, B, π, M, N, một mơ hình Markov ẩn được dùng để sinh ra

một dãy các quan sát:

O= {O1, O2, O3, ...}

Trong đó Oi lấy một trong các giá trị trong V. Hoạt động của HMM được mô tả như

Chọn một trạng thái khởi đầu q1 tương ứng với xác suất trạng thái khởi đầu π.

Gán t=1.

Chọn Oi = vk tương ứng với xác suất quan sát tại trạng thái Si: bi(k).

Chuyển sang trạng thái mới qt+1 = Sj tương ứng với xác suất chuyển trạng thái aij.

Dữ liệu lớn – Big Data

Tổng quan về điện toán đám mây