Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 70 trang
THÔNG TIN TÀI LIỆU
Cấu trúc
Chương 1 TỔNG QUAN VỀ NHẬN DẠNG NGƯỜI NÓI
1.1. Các lĩnh vực của xử lý tiếng nói
1.2. Nhận dạng người nói
1.2.1. Cơ sở lý thuyết của nhận dạng người nói
1.2.2. Phân loại bài toán nhận dạng người nói
1.2.2.1. Phân loại dựa vào chức năng của bài toán
1.2.2.2. Phân loại dựa theo phương pháp
1.2.3. Các ứng dụng của bài toán nhận dạng người nói
1.3. Xác thực người nói không phụ thuộc vào từ khóa
1.3.1. Giới thiệu chung
1.3.2. Các thành phần của một hệ thống xác thực người nói không phụ vào từ khóa
1.3.3. Các giai đoạn xử lý của một hệ thống xác thực người nói không phụ thuộc vào từ khóa
Chương 2 TRÍCH CHỌN ĐẶC TRƯNG NGƯỜI NÓI
2.1. Đặc điểm vật lý, âm học của tiếng nói
2.1.1. Đặc điểm vật lý của tiếng nói
2.1.1.1. Độ cao (Pitch)
2.1.1.2. Cường độ
2.1.1.3. Trường độ
2.1.1.4. Âm sắc
2.1.2. Đặc điểm âm học của tiếng nói
2.1.2.1. Nguyên âm
2.1.2.2. Phụ âm
2.1.2.3. Tỷ suất thời gian
2.1.2.4. Hàm năng lượng thời gian ngắn
2.1.2.5. Tần số vượt điểm không
2.1.2.6. Phát hiện điểm cuối
2.1.2.7. Tần số cơ bản
2.1.2.8. Formant
2.2. Tiền xử lý tín hiệu tiếng nói.
2.2.1. Chuyển từ tín hiệu tương tự sang tín hiệu số
2.2.1.1. Lấy mẫu tín hiệu
2.2.1.2. Lượng tử hoá tín hiệu
2.2.1.3. Mã hóa tín hiệu
2.2.2. Chuẩn hóa biên độ
2.2.3. Biến đổi Fourier
2.2.3.1. Biến đổi Fourier của tín hiệu liên tục
2.2.3.2. Biến đổi Fourier rời rạc - DFT
2.2.3.3. Biến đổi nhanh Fourier – FFT
2.2.4. Lọc nhiễu
2.2.5. Làm rõ tín hiệu
2.3. Trích chọn đặc trưng người nói.
2.3.1. Mục đích của trích chọn đặc trưng
2.3.2. Phân loại đặc trưng
2.3.3. Trích chọn đặc trưng MFCC
2.3.3.1. Phân khung (Frame blocking):
2.3.3.2. Lấy cửa sổ (Windowing)
2.3.3.3. Biến đổi nhanh Fourier (FFT)
2.3.3.4. Biến đổi sang thang đo Mel.
2.3.3.5. Hệ số Cepstral
2.3.3.6. Delta MFCC và Delta-Delta MFCC
Chương 3 CÁC MÔ HÌNH ỨNG DỤNG XÁC THỰC NGƯỜI NÓI KHÔNG PHỤ THUỘC VÀO TỪ KHÓA
3.1. Phân loại các mô hình
3.1.1. Mô hình mẫu (Template Modeling)
3.1.2. Mô hình thống kê (Statistical Modeling)
3.2. Mô hình lượng tử hóa vector (Vector Quantization- VQ)
3.2.1. Khái niệm phép lượng tử hóa
3.2.2. Độ biến dạng
3.2.3. Tính chất
3.2.4. Thiết kế codebook theo phương pháp LBG (Linde, Buzo, and Gray)
3.2.4.1. Vấn đề thiết kế
3.2.4.2. Tiêu chuẩn tối ưu hóa
3.2.4.3. Thiết kế thuật toán LBG
3.3. Mô hình hỗn hợp Gauss
3.3.1. Bài toán ước lượng mật độ
3.3.2. Thuật toán EM (Expectation Maximization)
3.4. Xây dựng mô hình người nói
3.4.1. Giới thiệu chung
3.4.2. Sử dụng mô hình VQ
3.4.3. Sử dụng GMM
3.5. So khớp
3.5.1. Giới thiệu chung
3.5.2. Phương pháp VQ
3.5.3. Phương pháp GMM
3.6. Tạo quyết định
Chương 4 CẤU HÌNH HỆ THỐNG VÀ KẾT QUẢ THỬ NGHỆM
4.1. Cấu trúc tổng quát của hệ thống
4.1.1. Module trích chọn đặc trưng MFCC
4.1.2. Module huấn luyện
4.1.3. Module xác thực
4.2. Dữ liệu tiếng nói
4.3. Tỷ lệ lỗi (Error rate)
4.4. Kết quả thực nghiệm
4.4.1. Số các hệ số MFCC
4.4.2. Mô hình VQ và GMM
4.4.3. Thời gian huấn luyện
4.4.4. Số các cụm của mô hình VQ
4.4.5. Số cụm của mô hình GMM
Nội dung
Mục lục Trang Trang phụ bìa………………………………………………………………… Nhiệm vụ luận văn…………………………………………………………… Mục lục………………………………………………………………………… Danh mục các ký hiệu, các ký tự viết tắt………………………………………. Danh mục các bảng……………………………………………………………. Danh mục các hình vẽ, đồ thị………………………………………………… Mở đầu……………………………………………………………………… 1 Chương 1 TỔNG QUAN VỀ NHẬNDẠNG NGƯỜI NÓI 4 1.1. Các lĩnh vực của xử lý tiếngnói 4 1.2. Nhậndạng người nói 5 1.2.1. Cơ sở lý thuyết của nhậndạng người nói 5 1.2.2. Phân loại bài toán nhậndạng người nói 6 1.2.3. Các ứng dụng của bài toán nhậndạng người nói 9 1.3. Xác thực người nóikhông phụ thuộc vào từkhóa 11 1.3.1. Giới thiệu chung 11 1.3.2. Các thành phần của một hệ thống xác thực người nóikhông phụ vào từkhóa 11 1.3.3. Các giai đoạn xử lý của một hệ thống xác thực người nóikhông phụ thuộc vào từkhóa 12 Chương 2 TRÍCH CHỌN ĐẶC TRƯNG NGƯỜI NÓI 14 2.1. Đặc điểm vật lý, âm học của tiếngnói 14 2.1.1. Đặc điểm vật lý của tiếngnói 14 2.1.2. Đặc điểm âm học của tiếngnói 17 2.2. Tiền xử lý tín hiệu tiếngnói 22 2.2.1. Chuyển từ tín hiệu tương tự sang tín hiệu số 22 2.2.2. Chuẩn hóa biên độ 25 2.2.3. Biến đổi Fourier 26 2.2.4. Lọc nhiễu 27 2.2.5. Làm rõ tín hiệu 27 2.3. Trích chọn đặc trưng người nói 28 2.3.1. Mục đích của trích chọn đặc trưng 28 2.3.2. Phân loại đặc trưng 29 2.3.3. Trích chọn đặc trưng MFCC 29 Chương 3 CÁC MÔ HÌNH ỨNG DỤNG XÁC THỰC NGƯỜI NÓIKHÔNG PHỤ THUỘC VÀO TỪKHÓA 38 3.1. Phân loại các mô hình 39 3.1.1. Mô hình mẫu (Template Modeling) 39 3.1.2. Mô hình thống kê (Statistical Modeling) 39 3.2. Mô hình lượng tử hóa vector (Vector Quantization- VQ) 40 3.2.1. Khái niệm phép lượng tử hóa 40 3.2.2. Độ biến dạng 42 3.2.3. Tính chất 42 3.2.4. Thiết kế codebook theo phương pháp LBG (Linde, Buzo, and Gray) 43 3.3. Mô hình hỗn hợp Gauss 46 3.3.1. Bài toán ước lượng mật độ 46 3.3.2. Thuật toán EM (Expectation Maximization) 47 3.4. Xây dựng mô hình người nói 48 3.4.1. Giới thiệu chung 48 3.4.2. Sử dụng mô hình VQ 49 3.4.3. Sử dụng GMM 51 3.5. So khớp 51 3.5.1. Giới thiệu chung 51 3.5.2. Phương pháp VQ 52 3.5.3. Phương pháp GMM 53 3.6. Tạo quyết định 53 Chương 4 CẤU HÌNH HỆ THỐNG VÀ KẾT QUẢ THỬ NGHỆM 56 4.1. Cấu trúc tổng quát của hệ thống 56 4.1.1. Module trích chọn đặc trưng MFCC 56 4.1.2. Module huấn luyện 57 4.1.3. Module xác thực 57 4.2. Dữ liệu tiếngnói 57 4.3. Tỷ lệ lỗi (Error rate) 58 4.4. Kết quả thựcnghiệm 58 4.4.1. Số các hệ số MFCC 58 4.4.2. Mô hình VQ và GMM 59 4.4.3. Thời gian huấn luyện 59 4.4.4. Số các cụm của mô hình VQ 59 4.4.5. Số cụm của mô hình GMM 60 Kết luận và kiến nghị……………………………………………………… 61 Tài liệu tham khảo………………………………………………………… 63 DANH MỤC CÁC KÝ HIỆU, CHỮ VIẾT TẮT DCT Biến đổi Cosin rời rạc (Discrete Cosin Transform) DFT Biến đổi Fourier rời rạc (Discrete Fourier Transform) EM Thuật toán ước lượng hợp lý cực đại (Expectation Maximization) FFT Biến đổi Fourier nhanh (Fast Fourier Transform) GMM Mô hình hỗn hợp Gauss (Gaussian Mixture Model) LBG Thuật toán gom cụm của Linde, Buzo và Gray VQ Lượng tử hóa vector (Vector Quantization) DANH MỤC CÁC BẢNG Bảng 2.1.Một số giá trị của tần số cơ bản ứng với giới tính và tuổi 21 Bảng 2.2.Bảng ước lượng tính DFT và FFT một chiều 27 Bảng 4.1.Tỷ lệ lỗi với số các hệ số MFCC khác nhau 58 Bảng 4.2.Tỷ lệ lỗi với hai mô hình VQ và GMM 59 Bảng 4.3.Tỷ lệ lỗi với thời gian huấn luyện khác nhau 59 Bảng 4.4.Tỷ lệ lỗi với số cụm khác nhau trong mô hình VQ 60 Bảng 4.5.Tỷ lệ lỗi với số cụm khác nhau trong GMM 60 DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ Hình 1.1.Bài toán định danh người nói 6 Hình 1.2.Bài toán xác thực người nói 7 Hình 1.3.Chứng thực giao dịch 10 Hình 1.4.Điều khiển truy nhập hệ thống 10 Hình 1.5.Nhận dạng tội phạm 10 Hình 1.6.Tư vấn bán hàng 11 Hình 1.7.Các thành phần của một hệ thống xác thực người nóikhông phụ thuộc vào từkhóa 11 Hình 1.8.Các giai đoạn của một hệ thống xác thực người nóikhông phụ thuộc vào từkhóa 12 Hình 2.1.Sơ đồ quá trình sản xuất và thu nhậntiếngnói của con người 15 Hình 2.2.Đồ thị theo các formant F1, F2 cho mười nguyên âm được thực hiện với nhiều đối tượng người nói khác nhau 19 Hình 2.3.Ví dụ về lấy mẫu tín hiệu trên miền thời gian 23 Hình 2.4.Các giai đoạn của bài toán xác thực người nói 28 Hình 2.5.Đồ thị biểu diễn mối quan hệ giữa Mel và Hz 30 Hình 2.6.Sơ đồ khối của xử lý MFCC’s 31 Hình 2.7.Khung 30ms với tần số lấy mẫu FS = 8000Hz cho 240 mẫu 32 Hình 2.8.Độn 0 vào khung tiếngnói 34 Hình 2.9.Biến đổi FFT cơ số 4 của khung tiếngnói đã được độn 0 34 Hình 2.10.Các bộ lọc mel-scale tam giác 35 Hình 3.1.Các thành phần trong một hệ thống xác thực người nói 39 Hình 3.2.Ví dụ VQ một chiều 40 Hình 3.3.Ví dụ VQ 2 chiều 41 Hình 3.4.Các thành phần của một hệ thống xác thực người nói 49 Hình 3.5.Các ví dụ xây dựng codebook dựa trên đặc trưng MFCC 50 Hình 3.6.Ví dụ xây dựng mô hình người nói sử dụng GMM 51 Hình 3.7.Giai đoạn so khớp mẫu 51 Hình 3.8.Minh họa hình ảnh so khớp mẫu của mô hình VQ 52 Hình 3.9.Giai đoạn tạo quyết định 53 Hình 3.10.Vấn đề xảy ra khi không dùng score chuẩn hóa 54 Hình 4.1.Các thành phần của một hệ thống xác thực người nói 56 MỞ ĐẦU Xử lý tiếngnói là sự nghiên cứu tiếngnói của con người dưới dạng tín hiệu, và các phương pháp xử lý những tín hiệu này. Xử lý tiếngnói có nhiều lĩnh vực nghiên cứu: nhậndạngtiếng nói, nhậndạng người nói, mã hóa tiếng nói, tổng hợp tiếng nói, phân tích giọng nói, Nhậndạng người nói là một lĩnh vực nghiên cứu của xử lý tiếng nói. Mục đích của nhậndạng người nói là để nhận ra người nói là ai hoặc là xác minh liệu người đangnói có đúng là người mà máy tính đã được biết trước hay không (tính xác thật của giọng nói). Nhậndạng người nói có nhiều ứng dụng: thanh toán thẻ tín dụng qua điện thoại; đăng nhập vào các hệ thống an ninh, máy tính bằng tiếng nói; giám định tư pháp tiếng nói… Chính vì vậy hiện nay trên thế giới lĩnh vực nhậndạng người nóinhận được rất nhiều sự quan tâm, nghiên cứu. Tuy nhiên hiện nay ở Việt Nam mới có rất ít công trình nghiên cứu về vấn đề này. Luận văn này tập trung nghiên cứu bài toán xác thực người nóikhông phụ thuộc vào từkhóa – một bài toán trong lĩnh vực nhậndạng người nói. Mục đích của bài toán xác thực người nóikhông phụ thuộc vào từkhóa là xác minh liệu người đangnói có đúng là người mà máy tính đã được biết trước hay không (tính xác thật của giọng nói) nhưng không phụ thuộc vào nội dung người nói. Cấu trúc của luận văn gồm: phần mở đầu; chương 1, 2, 3, 4; phần kết luận và kiến nghị; tài liệu tham khảo; phụ lục. Nội dung chính của luận văn: - Chương 1 nghiên cứu tổng quan về bài toán nhậndạng người nói: Cơ sở khoa học của nhậndạng người nói, phân loại bài toán nhậndạng người nói, các ứng dụng của nhậndạng người nói. Giới thiệu tổng quan bài toán xác thực người nóikhông phụ 1 thuộc vào từ khóa, các thành phần của một hệ thống xác thực người nói, các giai đoạn hoạt động của một hệ thống xác thực người nóikhông phụ thuộc vào từ khóa. - Chương 2 nghiên cứu phương pháp trích chọn đặc trưng người nói: cả trong giai đoạn huấn luyện và giai đoạn kiểm thử của một hệ thống xác thực người nóikhông phụ thuộc vào từkhóa đều phải trải qua bước trích chọn đặc trưng người nói, đây sẽ là nội dung nghiên cứu chính của chương 2: Đặc tính vật lý, âm học của tiếng nói: nghiên cứu các đặc tính này sẽ là cơ sở cho việc xác định các đặc trưng người nói. Tiền xử lý tín hiệu tiếng nói: tín hiệu tiếngnói sau khi được thu và trước khi trích chọn đặc trưng, phải được tiến hành tiền xử lý. Mục đích của việc tiền xử lý tín hiệu tiếngnói là để loại bỏ nhiễu, chuẩn hóa biên độ, làm rõ tín hiệu… Trích chọn đặc trưng người nói: mục đích của việc trích chọn đặc trưng người nói, phân loại các đặc trưng người nói, trình bày chi tiết các bước trích chọn đặc trưng MFCC- đặc trưng được lựa chọn sử dụng chủ yếu cho các hệ thống nhậndạng người nói. - Chương 3 nghiên cứu về các mô hình ứng dụng xác thực người nóikhông phụ thuộc vào từ khóa: sau bước trích chọn đặc trưng đã được trình bày ở chương hai, bước tiếp theo của các hệ thống xác thực người nóikhông phụ thuộc vào từkhóa đối với giai đoạn huấn luyện là bước xây dựng mô hình người nói, trong giai đoạn xác thực là bước so khớp và đưa ra quyết định: Phân loại các mô hình: phân loại các mô hình thường được sử dụng trong nhậndạng người nóivà chọn mô hình sử dụng cho bài toán xác thực người nóikhông phụ thuộc vào từ khóa. 2 Mô hình lượng tử hóa vector (Vector Quantization): khái niệm VQ, tính chất VQ, thiết kế codebook theo thuật toán LBG. Đây là cơ sở lý thuyết quan trọng cho việc ứng dụng mô hình VQ trong xác thực người nóikhông phụ thuộc vào từ khóa. Mô hình hỗn hợp Gauss (Gaussian Mixture Model): khái niệm GMM, thuật toán EM. Đây là cơ sở lý thuyết quan trọng cho việc ứng dụng GMM xác thực người nóikhông phụ thuộc vào từ khóa. Mô hình hóa người nói: cách sử dụng phương pháp VQ và GMM để mô hình hóa người nói. So khớp mẫu: đưa ra phương pháp so khớp mẫu trong giai đoạn kiểm thử ứng với từng mô hình hóa người nói VQ hay GMM. - Chương 4 trình bày về cấu hình hệ thống và kết quả thử nghiệm: Cấu trúc tổng quát của một hệ thống xác thực người nói. Dữ liệu tiếng nói: trình bày cách thu thập dữ liệu tiếngnói để phục vụ cho hệ thống. Tần số lỗi: trình bày cách đánh giá mức độ gây lỗi của một hệ thống xác thực người nói. Kết quả thực nghiệm: trình bày kết quả thựcnghiệm được tiến hành với nhiều tiêu chí khác nhau. 3 Chương 1 TỔNG QUAN VỀ NHẬNDẠNG NGƯỜI NÓI Chương một trình bày các nội dung chính: - Các lĩnh vực nghiên cứu của xử lý tiếng nói. - Trình bày tổng quan về bài toán nhậndạng người nói, đây là một lĩnh vực nghiên cứu của xử lý tiếng nói: cơ sở lý thuyết của nhậndạng người nói, phân loại các bài toán nhậndạng người nói, cũng như các ứng dụng điển hình của nhậndạng người nói. - Trình bày tổng quan về bài toán xác thực người nóikhông phụ thuộc vào từkhóa - vấn đề chính được nghiên cứu trong luận văn này: các thành phần của một hệ thống xác thực người nóikhông phụ thuộc vào từ khóa, các giai đoạn của một hệ thống xác thực người nóikhông phụ thuộc vào từ khóa. 1.1. Các lĩnh vực của xử lý tiếngnói Xử lý tiếngnói là sự nghiên cứu tiếngnói của con người dưới dạng tín hiệu, và các phương pháp xử lý những tín hiệu này. Xử lý tiếngnói có thể được chia thành các lĩnh vực sau: - Nhậndạngtiếng nói: phân tích và xử lý về mặt nội dung ngôn ngữ của tín hiệu tiếng nói. Mục đích là để chuyển nội dung nói thành tín hiệu đầu vào của máy tính, giúp cho máy tính có thể xử lý và tương tác được với người nói. - Nhậndạng người nói: mục đích là để nhận ra người nói là ai hoặc là xác minh liệu người đangnói có đúng là người mà máy tính đã được biết trước hay không (tính xác thật của giọng nói). - Tăng chất lượng tiếng nói: nhằm tăng sự cảm nhận của người nghe 4 [...]... thuộc vào từkhóa 1.3.1 Giới thiệu chung Bài toán xác thực người nóikhông phụ thuộc vào từkhóa là sự kết hợp của hai bài toán: xác thực người nóivà bài toán nhậndạng người nóikhông phụ thuộc vào từkhóa Mục đích của bài toán xác thực người nóikhông phụ thuộc vào từkhóa là xác minh liệu người đangnói có đúng là người mà máy tính đã được biết trước hay không (tính xác thật của giọng nói) nhưng không. .. phụ thuộc vào nội dung người nói Bài toán xác thực người nóikhông phụ thuộc vào từkhóa có nhiều ứng dụng: chứng thực giao dịch bằng giọng nói, điều khiển đăng nhập bằng giọng nói Đây là nội dung nghiên cứu chính của luận văn này 1.3.2 Các thành phần của một hệ thống xác thực người nóikhông phụ vào từkhóa Hình 1.7 Các thành phần của một hệ thống xác thực người nóikhông phụ thuộc vào từkhóa 12 Hình... không phụ thuộc vào từkhóa (text independent speaker recognition): - Nhậndạng người nói phụ thuộc vào từkhoá (text dependent speaker recognition): nhậndạng người nói dựa trên sự kết hợp giữa đặc trưng người nói với nội dung nói Là kỹ thuật nhậndạng người nói có khả năng ứng dụng rất lớn, ví dụ như đăng nhập vào các hệ thống an ninh bằng mật khẩu tiếngnói hay truy cập bằng tiếngnói vào hệ thống... thống xác thực người nóikhông phụ thuộc vào từkhóa Hình 1.8 Các giai đoạn của một hệ thống xác thực người nóikhông phụ thuộc vào từkhóa Hình 1.8 cho ta thấy quá trình xử lý của các hệ thống xác thực người nóikhông phụ thuộc vào từkhóa gồm hai giai đoạn: - Giai đoạn huấn luyện: Ghi âm giọng nói những người mà hệ thống cần huấn luyện 13 Trích chọn đặc trưng giọng nói của mỗi người nói Huấn... từ cố định Khi nhận dạng hệ thống sẽ thay đổi cụm từ mỗi lần đăng nhập trong tập các từ được huấn luyện Mặc dù nhậndạng này vẫn phụ thuộc từkhoá song nó làm cho sự giả mạo trở nên khó khăn hơn rất nhiều vì không biết được chính xác cụm từ mật khẩu tự sinh của hệ thống Các hệ thống như vậy được gọi là các hệ nhậndạng người nói phụ thuộc từkhoá thay đổi - Nhậndạng người nóikhông phụ thuộc vào từ. .. trước hay không (tính xác thật của giọng nói) ? Đây là dạng bài toán được nghiên cứu trong luận văn này Hình 1.2 Bài toán xác thực người nói 1.2.2.2 Phân loại dựa theo phương pháp Phân loại dựa theo phương pháp thì người ta chia bài toán nhậndạng người nói thành hai bài toán: bài toán nhậndạng người nói phụ thuộc vào từkhóa (text dependent speaker recognition) và bài toán nhậndạng người nóikhông phụ... xác thực người nóikhông phụ thuộc vào từkhóa 1.2.3 Các ứng dụng của bài toán nhậndạng người nói Các ứng dụng thực tế của nhậndạng người nói: - Chứng thực giao dịch: Ngăn cản sự gian lận trong thu thuế Mua thẻ điện thoại Môi giới điện thoại 10 Hình 1.3 Chứng thực giao dịch - Điều khiển truy cập: Thiết bị vật lý Máy tính và hệ thống mạng dữ liệu Hình 1.4 Điều khiển truy nhập hệ thống - Nhận. .. thống xác thực người nóikhông phụ thuộc vào từkhóa gồm các thành phần sau: - Trích chọn đặc trưng: biến đổi từ giọng nói thô thành những đặc trưng của người nói - Xây dựng mô hình người nói: huấn luyện người nói dựa vào một phương pháp cụ thể - So khớp mẫu: tính toán độ hợp giữa đặc trưng của tiếngnói đưa vào với mô hình đã huấn luyện - Tạo quyết định: xác định ngưỡng và đưa ra quyết định dựa vào việc... chất lượng tiếngnói Nó bao gồm: giảm nhiễu ồn của tín hiệu tiếng nói, giảm/khử tiếng vọng (trong kỹ thuật điện thoại) - Mã hóa tiếng nói: là một dạng của nén dữ liệu, có vai trò quan trọng trong lĩnh vực viễn thông Ví dụ như trong thể thức truyền tiếng nói qua internet (voIP), việc nén dữ liệu tiếng nói là điều bắt buộc để giảm băng thông đường truyền - Tổng hợp tiếng nói: là tạo ra tiếngnói một cách... dung tiếngnói khi huấn luyện cũng như khi nhậndạng nên độ chính xác nhậndạng tăng lên trong khi thời gian huấn luyện vànhậndạng lại giảm nhiều so với nhậndạng người nóikhông phụ thuộc từkhoá (text independent speaker recognition) 8 Tuy nhiên hạn chế của kỹ thuật này là không có sự thay đổi trong mật khẩu nên hệ thống dễ bị tấn công bởi những kẻ giả mạo bằng cách ghi âm lại mật khẩu và tấn . hiệu này. Xử lý tiếng nói có nhiều lĩnh vực nghiên cứu: nhận dạng tiếng nói, nhận dạng người nói, mã hóa tiếng nói, tổng hợp tiếng nói, phân tích giọng nói, Nhận dạng người nói là một lĩnh vực. xác thực người nói không phụ thuộc vào từ khóa 11 Hình 1.8.Các giai đoạn của một hệ thống xác thực người nói không phụ thuộc vào từ khóa 12 Hình 2.1.Sơ đồ quá trình sản xuất và thu nhận tiếng nói. thuộc vào từ khóa (text dependent speaker recognition) và bài toán nhận dạng người nói không phụ thuộc vào từ khóa (text independent speaker recognition): - Nhận dạng người nói phụ thuộc vào từ