MỤC LỤC
Nhận dạng tiếng nói (voice recognition) bao gồm: nhận dạng lời thoại (speech recognition), nhận dạng người nói (speaker recognition), nhận dạng ngôn ngữ nói (language recognition), nhận dạng phương ngữ nói (dialect recognition)… Trong đó, bài toán nhận dạng người nói lại bao gồm 2 loại là nhận dạng độc lập văn bản (text-. test Bộ cảm biến Bộ số hóa test. Bộ so khớp. Bộ ứng dụng. independent) và nhận dạng phụ thuộc văn bản (text-dependent). - Chương 2 sẽ trình bày tổng quan về các thành phần và cơ chế hoạt động của một hệ thống định danh người nói trên tập mở, cùng với tóm tắt nội dung và kết quả đạt được của một số phương pháp trong các công trình nghiên cứu trước đây.
Do vậy, trước khi có thể được đưa vào huấn luyện mô hình hay nhận dạng, dữ liệu tiếng nói thô cần phải trải qua các bước tiền xử lý nhằm loại bỏ nhiễu cũng như rút trích ra các đặc trưng cần thiết cho quá trình huấn luyện và nhận dạng. Như vậy, việc giảm kích thước của từng vector huấn luyện thông qua bước rút trích đặc trưng sẽ giúp làm giảm độ phức tạp tính toán của bước huấn luyện và nhận dạng.
Dễ dàng thấy được đặc trưng 2 tốt hơn hẳn đặc trưng 1 trong việc phân biệt giữa những người nói. Mục tiêu của bước pre-emphasis củng cố các tần số cao bị mất trong quá trình thu nhận tín hiệu. Dữ liệu tiếng nói thường không ổn định, nên thông thường phép biến đổi Fourier được thực hiện trên từng đoạn tín hiệu ngắn.
Mục tiêu của bước chia frame là chia dữ liệu tiếng nói thành từng frame nhỏ có kích thước khoảng từ 20ms đến 30ms.
Tần số mel (mel-frequency) tương ứng với logaric của tần số thông thường/tuyến tính (linear-frequency). Mục tiêu của bước áp dụng các bộ lọc Mel filter bank là để lọc lấy các tần số mà tai người có thể nghe được, đồng thời rút ngắn kích thước của vector đặc trưng. Các bộ lọc này được đặt sao cho các tần số trung tâm tăng đều trên miền mel, và logaric trên miền tần số (linear frequency), đồng thời hai cạnh của một bộ lọc phải được đặt trùng vào tần số trung tâm của hai bộ lọc lân cận.
Trong đó, fc(m) là tần số trung tâm của bộ lọc thứ m, Fs là sampling rate của tín hiệu âm thanh.
Trong các hệ thống nhận dạng lời thoại, thông thường vector đặc trưng được chọn gồm 39 thành phần: 12 MFCC, 1 MFCC-energy, 12 delta-cepstrum, 1 delta-energy, 12 delta-delta cepstrum, 1 delta-delta-energy. Tuy nhiên, hệ thống định danh người nói trong đề tài này chỉ sử dụng vector đặc trưng gồm 12 hệ số MFCC.
Điều này có nghĩa là ta phải huấn luyện sao cho mỗi speaker model thích nghi nhất với dữ liệu mẫu của nó. Mục tiêu của việc xây dựng các speaker models là tạo nền tảng cho bước nhận dạng các mẫu tiếng nói về sau. Chẳng hạn như trong phương pháp Vector Quantization, mỗi speaker model sẽ được đại diện bởi một codebook; đối với phương pháp GMM, mỗi speaker model tương ứng với một mô hình GMM; còn trong phương pháp Dynamic Time Warping, speaker model chỉ đơn thuần là tập các vector đặc trưng của người nói tương ứng mà không cần đến một cơ chế mô hình hóa nào cả.
Như đã đề cập trong chương 1, hệ thống định danh người nói trong đề tài này được xây dựng theo hướng tiếp cận MGHMM.
Xác suất p(λi) chính là tần xuất xuất hiện của người nói thứ i; thông thường những người nói này được xem là có tần suất xuất hiện như nhau nên. Likelihood p(X | λi) đóng vai trò như điểm (score) của mô hình λi cho vector đặc trưng X, và X sẽ được phân vào lớp của người nói có mô hình cho điểm cao nhất. Mục tiêu của bước verification là xác minh trở lại xem mẫu test có đúng thật là của người nói đó hay thuộc về một người nói chưa biết (unknown speaker/impostor).
Nếu score vượt ngưỡng θ, kết quả định danh ở bước trước sẽ được chấp nhận (confirmed); ngược lại, mẫu test sẽ được xem như thuộc về một người nói chưa biết.
Trong phương pháp này, mỗi speaker model sẽ được liên hệ với một nhóm các speaker model gần nó nhất trong không gian speaker (thể hiện bởi bộ tham số λ). Các speaker model này được chọn ra từ tập speaker model trong hệ thống trước giai đoạn test, và được gọi là nhóm “competitive speaker models”. Các speaker models này có thể được chọn trực tiếp ngay sau bước identification mà không cần phải tốn chi phí phát sinh thêm mô hình (phương pháp World Model Normalization) hay tốn chi phí lựa chọn mô hình trong không gian speaker (phương pháp Cohort Normalization).
Kết quả cho thấy phương pháp Unconstraint Cohort Normalization đem lại hiệu quả tốt nhất cho việc chuẩn hóa score trong hệ thống định danh người nói trên tập mở.
Hai thuật toán phổ biến nhất thường dùng là thuật toán Lloyd – còn gọi là thuật toán k-means – được trình bày ở mục 3.3.3.1, và thuật toán học cạnh tranh không giám sát. Trong bước nhận dạng, sai số quantization error (khoảng cách euclid) giữa mẫu test với codevector gần nó nhất trong codebook của từng người nói sẽ được tính; và mẫu test sẽ được phân vào lớp của người nói có sai số quantization error thấp nhất. Hệ thống GMM được xây dựng trong [19] đạt được 96.8% hiệu suất phân lớp trên tập dữ liệu tiếng núi rừ (clean speech – õm thanh thu được từ micro chất lượng tốt) gồm 49 người nói, mỗi đoạn test có độ dài 5 giây; và đạt 94.5% hiệu suất phân lớp trên tập dữ liệu tiếng nói telephone gồm 16 người nói, mỗi đoạn test dài 5 giây.
Ngoài hai phương pháp truyền thống là GMM và Vector Quantization, các công trình nghiên cứu gần đây đã tiếp cận bài toán theo một số hướng khác như Support Vector Machine (SVM) [24], mạng Neuron (Neural Network) [21], ….
Trong hướng tiếp cận GMM giải quyết bài toàn định danh người nói, mỗi người nói sẽ được mô hình hóa bằng một mô hình GMM mà bộ tham số λ của nó sẽ được xác định thông qua việc huấn luyện trên tập mẫu học của người nói tương ứng. Trong chuỗi kết xuất của hệ thống bình-cầu, ta chỉ biết được thông tin về màu của các quả cầu được rút ra ở thời điểm tương ứng nhưng không biết được rằng quả cầu đó đã được rút ra từ bình (trạng thái) nào. Chính vì vậy, mô hình này được gọi là mô hình Markov ẩn (hidden) – Hidden Markov Model (HMM). Ví dụ về hệ thống bình-cầu đã minh họa tổng quan khái niệm về HMM. Định nghĩa một cách hình thức, HMM gồm các thành phần sau đây:. nhưng trong một số ứng dụng cụ thể, các trạng thái cũng đóng vai trò nhất định nào đó; chẳng hạn như trong hệ thống bình-cầu, các trạng thái ứng với các bình… Ta ký hiệu các trạng thái là S = {S1, S2, …, SN} và trạng thái ở thời điểm t là qt. 2) M – số lượng tín hiệu có thể quan sát được trong mỗi trạng thái.
Một trong những tiêu chí đó là chọn ra từng qt có độ khả thi cao nhất ở từng thời điểm t thông qua độ đo xác suất p(qt = Si | O, λ) – xác suất ở trạng thái Si vào thời điểm t cho trước chuỗi tín hiệu quan sát O và mô hình λ. Tùy theo từng ứng dụng cụ thể mà tiêu chí này sẽ được chọn sao cho phù hợp, tuy nhiên tiêu chí phổ biến nhất được sử dụng là chọn cả chuỗi Q khả thi nhất, nghĩa là qui bài toán từ việc tìm Q để cực đại hóa p(Q|O, λ) sang việc tìm Q để cực đại hóa p(Q,O| λ). Mục tiêu của bài toán thứ 3, cũng là bài toán phức tạp nhất trong ba bài toán, là tìm cách cập nhật lại các tham số của mô hình λ = (A, B, π) sao cho cực đại hóa xác suất p(O|λ) – xác suất quan sát được chuỗi tín hiệu O từ mô hình.
Về mức độ đa dạng của dữ liệu test, hình 4.1 minh họa các đường pitch (còn gọi là đường tần số gốc – fundamental frequency contour) từ mẫu tiếng nói của ba người thuộc ba vùng miền khác nhau: Hà Nội, Huế và Sài Gòn. Biểu đồ cho thấy tiếng nói người Hà Nội có tần số cao nhất, người Sài Gòn có tiếng nói ổn định ở mức tần số thấp hơn, trong khi tiếng Huế có tần số thay đổi lên xuống theo các âm vị khác nhau. Một đặc trưng nữa cho thấy khác biệt giữa tiếng nói của ba miền là âm phổ (voice print/spectral) và độ dài (duration) của các âm vị thể hiện trên spectrogram trong hình 4.2.
Dựa trên 3 loại lỗi này, hệ thống định danh người nói trên tập mở sẽ được đánh giá hiệu năng thông qua các độ đo: tỉ lệ phân lớp sai (IER – Identification Error Rate), tỉ lệ chấp nhận sai (FAR - False Acceptance Rate) và tỉ lệ loại bỏ sai (FRR - False Rejection Rate).