1. Trang chủ
  2. » Luận Văn - Báo Cáo

nhận dạng tiếng nói không liên quan đến từ khóa và thực nghiệm

70 633 5

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 70
Dung lượng 1,6 MB

Nội dung

Mục lục Trang Trang phụ bìa………………………………………………………………… Nhiệm vụ luận văn…………………………………………………………… Mục lục………………………………………………………………………… Danh mục các ký hiệu, các ký tự viết tắt………………………………………. Danh mục các bảng……………………………………………………………. Danh mục các hình vẽ, đồ thị………………………………………………… Mở đầu……………………………………………………………………… 1 Chương 1 TỔNG QUAN VỀ NHẬN DẠNG NGƯỜI NÓI 4 1.1. Các lĩnh vực của xử lý tiếng nói 4 1.2. Nhận dạng người nói 5 1.2.1. Cơ sở lý thuyết của nhận dạng người nói 5 1.2.2. Phân loại bài toán nhận dạng người nói 6 1.2.3. Các ứng dụng của bài toán nhận dạng người nói 9 1.3. Xác thực người nói không phụ thuộc vào từ khóa 11 1.3.1. Giới thiệu chung 11 1.3.2. Các thành phần của một hệ thống xác thực người nói không phụ vào từ khóa 11 1.3.3. Các giai đoạn xử lý của một hệ thống xác thực người nói không phụ thuộc vào từ khóa 12 Chương 2 TRÍCH CHỌN ĐẶC TRƯNG NGƯỜI NÓI 14 2.1. Đặc điểm vật lý, âm học của tiếng nói 14 2.1.1. Đặc điểm vật lý của tiếng nói 14 2.1.2. Đặc điểm âm học của tiếng nói 17 2.2. Tiền xử lý tín hiệu tiếng nói 22 2.2.1. Chuyển từ tín hiệu tương tự sang tín hiệu số 22 2.2.2. Chuẩn hóa biên độ 25 2.2.3. Biến đổi Fourier 26 2.2.4. Lọc nhiễu 27 2.2.5. Làm rõ tín hiệu 27 2.3. Trích chọn đặc trưng người nói 28 2.3.1. Mục đích của trích chọn đặc trưng 28 2.3.2. Phân loại đặc trưng 29 2.3.3. Trích chọn đặc trưng MFCC 29 Chương 3 CÁC MÔ HÌNH ỨNG DỤNG XÁC THỰC NGƯỜI NÓI KHÔNG PHỤ THUỘC VÀO TỪ KHÓA 38 3.1. Phân loại các mô hình 39 3.1.1. Mô hình mẫu (Template Modeling) 39 3.1.2. Mô hình thống kê (Statistical Modeling) 39 3.2. Mô hình lượng tử hóa vector (Vector Quantization- VQ) 40 3.2.1. Khái niệm phép lượng tử hóa 40 3.2.2. Độ biến dạng 42 3.2.3. Tính chất 42 3.2.4. Thiết kế codebook theo phương pháp LBG (Linde, Buzo, and Gray) 43 3.3. Mô hình hỗn hợp Gauss 46 3.3.1. Bài toán ước lượng mật độ 46 3.3.2. Thuật toán EM (Expectation Maximization) 47 3.4. Xây dựng mô hình người nói 48 3.4.1. Giới thiệu chung 48 3.4.2. Sử dụng mô hình VQ 49 3.4.3. Sử dụng GMM 51 3.5. So khớp 51 3.5.1. Giới thiệu chung 51 3.5.2. Phương pháp VQ 52 3.5.3. Phương pháp GMM 53 3.6. Tạo quyết định 53 Chương 4 CẤU HÌNH HỆ THỐNG KẾT QUẢ THỬ NGHỆM 56 4.1. Cấu trúc tổng quát của hệ thống 56 4.1.1. Module trích chọn đặc trưng MFCC 56 4.1.2. Module huấn luyện 57 4.1.3. Module xác thực 57 4.2. Dữ liệu tiếng nói 57 4.3. Tỷ lệ lỗi (Error rate) 58 4.4. Kết quả thực nghiệm 58 4.4.1. Số các hệ số MFCC 58 4.4.2. Mô hình VQ GMM 59 4.4.3. Thời gian huấn luyện 59 4.4.4. Số các cụm của mô hình VQ 59 4.4.5. Số cụm của mô hình GMM 60 Kết luận kiến nghị……………………………………………………… 61 Tài liệu tham khảo………………………………………………………… 63 DANH MỤC CÁC KÝ HIỆU, CHỮ VIẾT TẮT DCT Biến đổi Cosin rời rạc (Discrete Cosin Transform) DFT Biến đổi Fourier rời rạc (Discrete Fourier Transform) EM Thuật toán ước lượng hợp lý cực đại (Expectation Maximization) FFT Biến đổi Fourier nhanh (Fast Fourier Transform) GMM Mô hình hỗn hợp Gauss (Gaussian Mixture Model) LBG Thuật toán gom cụm của Linde, Buzo Gray VQ Lượng tử hóa vector (Vector Quantization) DANH MỤC CÁC BẢNG Bảng 2.1.Một số giá trị của tần số cơ bản ứng với giới tính tuổi 21 Bảng 2.2.Bảng ước lượng tính DFT FFT một chiều 27 Bảng 4.1.Tỷ lệ lỗi với số các hệ số MFCC khác nhau 58 Bảng 4.2.Tỷ lệ lỗi với hai mô hình VQ GMM 59 Bảng 4.3.Tỷ lệ lỗi với thời gian huấn luyện khác nhau 59 Bảng 4.4.Tỷ lệ lỗi với số cụm khác nhau trong mô hình VQ 60 Bảng 4.5.Tỷ lệ lỗi với số cụm khác nhau trong GMM 60 DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ Hình 1.1.Bài toán định danh người nói 6 Hình 1.2.Bài toán xác thực người nói 7 Hình 1.3.Chứng thực giao dịch 10 Hình 1.4.Điều khiển truy nhập hệ thống 10 Hình 1.5.Nhận dạng tội phạm 10 Hình 1.6.Tư vấn bán hàng 11 Hình 1.7.Các thành phần của một hệ thống xác thực người nói không phụ thuộc vào từ khóa 11 Hình 1.8.Các giai đoạn của một hệ thống xác thực người nói không phụ thuộc vào từ khóa 12 Hình 2.1.Sơ đồ quá trình sản xuất thu nhận tiếng nói của con người 15 Hình 2.2.Đồ thị theo các formant F1, F2 cho mười nguyên âm được thực hiện với nhiều đối tượng người nói khác nhau 19 Hình 2.3.Ví dụ về lấy mẫu tín hiệu trên miền thời gian 23 Hình 2.4.Các giai đoạn của bài toán xác thực người nói 28 Hình 2.5.Đồ thị biểu diễn mối quan hệ giữa Mel Hz 30 Hình 2.6.Sơ đồ khối của xử lý MFCC’s 31 Hình 2.7.Khung 30ms với tần số lấy mẫu FS = 8000Hz cho 240 mẫu 32 Hình 2.8.Độn 0 vào khung tiếng nói 34 Hình 2.9.Biến đổi FFT cơ số 4 của khung tiếng nói đã được độn 0 34 Hình 2.10.Các bộ lọc mel-scale tam giác 35 Hình 3.1.Các thành phần trong một hệ thống xác thực người nói 39 Hình 3.2.Ví dụ VQ một chiều 40 Hình 3.3.Ví dụ VQ 2 chiều 41 Hình 3.4.Các thành phần của một hệ thống xác thực người nói 49 Hình 3.5.Các ví dụ xây dựng codebook dựa trên đặc trưng MFCC 50 Hình 3.6.Ví dụ xây dựng mô hình người nói sử dụng GMM 51 Hình 3.7.Giai đoạn so khớp mẫu 51 Hình 3.8.Minh họa hình ảnh so khớp mẫu của mô hình VQ 52 Hình 3.9.Giai đoạn tạo quyết định 53 Hình 3.10.Vấn đề xảy ra khi không dùng score chuẩn hóa 54 Hình 4.1.Các thành phần của một hệ thống xác thực người nói 56 MỞ ĐẦU Xử lý tiếng nói là sự nghiên cứu tiếng nói của con người dưới dạng tín hiệu, các phương pháp xử lý những tín hiệu này. Xử lý tiếng nói có nhiều lĩnh vực nghiên cứu: nhận dạng tiếng nói, nhận dạng người nói, mã hóa tiếng nói, tổng hợp tiếng nói, phân tích giọng nói, Nhận dạng người nói là một lĩnh vực nghiên cứu của xử lý tiếng nói. Mục đích của nhận dạng người nói là để nhận ra người nói là ai hoặc là xác minh liệu người đang nói có đúng là người mà máy tính đã được biết trước hay không (tính xác thật của giọng nói). Nhận dạng người nói có nhiều ứng dụng: thanh toán thẻ tín dụng qua điện thoại; đăng nhập vào các hệ thống an ninh, máy tính bằng tiếng nói; giám định pháp tiếng nói… Chính vì vậy hiện nay trên thế giới lĩnh vực nhận dạng người nói nhận được rất nhiều sự quan tâm, nghiên cứu. Tuy nhiên hiện nay ở Việt Nam mới có rất ít công trình nghiên cứu về vấn đề này. Luận văn này tập trung nghiên cứu bài toán xác thực người nói không phụ thuộc vào từ khóa – một bài toán trong lĩnh vực nhận dạng người nói. Mục đích của bài toán xác thực người nói không phụ thuộc vào từ khóa là xác minh liệu người đang nói có đúng là người mà máy tính đã được biết trước hay không (tính xác thật của giọng nói) nhưng không phụ thuộc vào nội dung người nói. Cấu trúc của luận văn gồm: phần mở đầu; chương 1, 2, 3, 4; phần kết luận kiến nghị; tài liệu tham khảo; phụ lục. Nội dung chính của luận văn: - Chương 1 nghiên cứu tổng quan về bài toán nhận dạng người nói:  Cơ sở khoa học của nhận dạng người nói, phân loại bài toán nhận dạng người nói, các ứng dụng của nhận dạng người nói.  Giới thiệu tổng quan bài toán xác thực người nói không phụ 1 thuộc vào từ khóa, các thành phần của một hệ thống xác thực người nói, các giai đoạn hoạt động của một hệ thống xác thực người nói không phụ thuộc vào từ khóa. - Chương 2 nghiên cứu phương pháp trích chọn đặc trưng người nói: cả trong giai đoạn huấn luyện giai đoạn kiểm thử của một hệ thống xác thực người nói không phụ thuộc vào từ khóa đều phải trải qua bước trích chọn đặc trưng người nói, đây sẽ là nội dung nghiên cứu chính của chương 2:  Đặc tính vật lý, âm học của tiếng nói: nghiên cứu các đặc tính này sẽ là cơ sở cho việc xác định các đặc trưng người nói.  Tiền xử lý tín hiệu tiếng nói: tín hiệu tiếng nói sau khi được thu trước khi trích chọn đặc trưng, phải được tiến hành tiền xử lý. Mục đích của việc tiền xử lý tín hiệu tiếng nói là để loại bỏ nhiễu, chuẩn hóa biên độ, làm rõ tín hiệu…  Trích chọn đặc trưng người nói: mục đích của việc trích chọn đặc trưng người nói, phân loại các đặc trưng người nói, trình bày chi tiết các bước trích chọn đặc trưng MFCC- đặc trưng được lựa chọn sử dụng chủ yếu cho các hệ thống nhận dạng người nói. - Chương 3 nghiên cứu về các mô hình ứng dụng xác thực người nói không phụ thuộc vào từ khóa: sau bước trích chọn đặc trưng đã được trình bày ở chương hai, bước tiếp theo của các hệ thống xác thực người nói không phụ thuộc vào từ khóa đối với giai đoạn huấn luyện là bước xây dựng mô hình người nói, trong giai đoạn xác thực là bước so khớp đưa ra quyết định:  Phân loại các mô hình: phân loại các mô hình thường được sử dụng trong nhận dạng người nói chọn mô hình sử dụng cho bài toán xác thực người nói không phụ thuộc vào từ khóa. 2  Mô hình lượng tử hóa vector (Vector Quantization): khái niệm VQ, tính chất VQ, thiết kế codebook theo thuật toán LBG. Đây là cơ sở lý thuyết quan trọng cho việc ứng dụng mô hình VQ trong xác thực người nói không phụ thuộc vào từ khóa.  Mô hình hỗn hợp Gauss (Gaussian Mixture Model): khái niệm GMM, thuật toán EM. Đây là cơ sở lý thuyết quan trọng cho việc ứng dụng GMM xác thực người nói không phụ thuộc vào từ khóa.  Mô hình hóa người nói: cách sử dụng phương pháp VQ GMM để mô hình hóa người nói.  So khớp mẫu: đưa ra phương pháp so khớp mẫu trong giai đoạn kiểm thử ứng với từng mô hình hóa người nói VQ hay GMM. - Chương 4 trình bày về cấu hình hệ thống kết quả thử nghiệm:  Cấu trúc tổng quát của một hệ thống xác thực người nói.  Dữ liệu tiếng nói: trình bày cách thu thập dữ liệu tiếng nói để phục vụ cho hệ thống.  Tần số lỗi: trình bày cách đánh giá mức độ gây lỗi của một hệ thống xác thực người nói.  Kết quả thực nghiệm: trình bày kết quả thực nghiệm được tiến hành với nhiều tiêu chí khác nhau. 3 Chương 1 TỔNG QUAN VỀ NHẬN DẠNG NGƯỜI NÓI Chương một trình bày các nội dung chính: - Các lĩnh vực nghiên cứu của xử lý tiếng nói. - Trình bày tổng quan về bài toán nhận dạng người nói, đây là một lĩnh vực nghiên cứu của xử lý tiếng nói: cơ sở lý thuyết của nhận dạng người nói, phân loại các bài toán nhận dạng người nói, cũng như các ứng dụng điển hình của nhận dạng người nói. - Trình bày tổng quan về bài toán xác thực người nói không phụ thuộc vào từ khóa - vấn đề chính được nghiên cứu trong luận văn này: các thành phần của một hệ thống xác thực người nói không phụ thuộc vào từ khóa, các giai đoạn của một hệ thống xác thực người nói không phụ thuộc vào từ khóa. 1.1. Các lĩnh vực của xử lý tiếng nói Xử lý tiếng nói là sự nghiên cứu tiếng nói của con người dưới dạng tín hiệu, các phương pháp xử lý những tín hiệu này. Xử lý tiếng nói có thể được chia thành các lĩnh vực sau: - Nhận dạng tiếng nói: phân tích xử lý về mặt nội dung ngôn ngữ của tín hiệu tiếng nói. Mục đích là để chuyển nội dung nói thành tín hiệu đầu vào của máy tính, giúp cho máy tính có thể xử lý tương tác được với người nói. - Nhận dạng người nói: mục đích là để nhận ra người nói là ai hoặc là xác minh liệu người đang nói có đúng là người mà máy tính đã được biết trước hay không (tính xác thật của giọng nói). - Tăng chất lượng tiếng nói: nhằm tăng sự cảm nhận của người nghe 4 [...]... thuộc vào từ khóa 1.3.1 Giới thiệu chung Bài toán xác thực người nói không phụ thuộc vào từ khóa là sự kết hợp của hai bài toán: xác thực người nói bài toán nhận dạng người nói không phụ thuộc vào từ khóa Mục đích của bài toán xác thực người nói không phụ thuộc vào từ khóa là xác minh liệu người đang nói có đúng là người mà máy tính đã được biết trước hay không (tính xác thật của giọng nói) nhưng không. .. phụ thuộc vào nội dung người nói Bài toán xác thực người nói không phụ thuộc vào từ khóa có nhiều ứng dụng: chứng thực giao dịch bằng giọng nói, điều khiển đăng nhập bằng giọng nói Đây là nội dung nghiên cứu chính của luận văn này 1.3.2 Các thành phần của một hệ thống xác thực người nói không phụ vào từ khóa Hình 1.7 Các thành phần của một hệ thống xác thực người nói không phụ thuộc vào từ khóa 12 Hình... không phụ thuộc vào từ khóa (text independent speaker recognition): - Nhận dạng người nói phụ thuộc vào từ khoá (text dependent speaker recognition): nhận dạng người nói dựa trên sự kết hợp giữa đặc trưng người nói với nội dung nói  Là kỹ thuật nhận dạng người nói có khả năng ứng dụng rất lớn, ví dụ như đăng nhập vào các hệ thống an ninh bằng mật khẩu tiếng nói hay truy cập bằng tiếng nói vào hệ thống... thống xác thực người nói không phụ thuộc vào từ khóa Hình 1.8 Các giai đoạn của một hệ thống xác thực người nói không phụ thuộc vào từ khóa Hình 1.8 cho ta thấy quá trình xử lý của các hệ thống xác thực người nói không phụ thuộc vào từ khóa gồm hai giai đoạn: - Giai đoạn huấn luyện:  Ghi âm giọng nói những người mà hệ thống cần huấn luyện 13  Trích chọn đặc trưng giọng nói của mỗi người nói  Huấn... từ cố định Khi nhận dạng hệ thống sẽ thay đổi cụm từ mỗi lần đăng nhập trong tập các từ được huấn luyện Mặc dù nhận dạng này vẫn phụ thuộc từ khoá song nó làm cho sự giả mạo trở nên khó khăn hơn rất nhiều vì không biết được chính xác cụm từ mật khẩu tự sinh của hệ thống Các hệ thống như vậy được gọi là các hệ nhận dạng người nói phụ thuộc từ khoá thay đổi - Nhận dạng người nói không phụ thuộc vào từ. .. trước hay không (tính xác thật của giọng nói) ? Đây là dạng bài toán được nghiên cứu trong luận văn này Hình 1.2 Bài toán xác thực người nói 1.2.2.2 Phân loại dựa theo phương pháp Phân loại dựa theo phương pháp thì người ta chia bài toán nhận dạng người nói thành hai bài toán: bài toán nhận dạng người nói phụ thuộc vào từ khóa (text dependent speaker recognition) bài toán nhận dạng người nói không phụ... xác thực người nói không phụ thuộc vào từ khóa 1.2.3 Các ứng dụng của bài toán nhận dạng người nói Các ứng dụng thực tế của nhận dạng người nói: - Chứng thực giao dịch:  Ngăn cản sự gian lận trong thu thuế  Mua thẻ điện thoại  Môi giới điện thoại 10 Hình 1.3 Chứng thực giao dịch - Điều khiển truy cập:  Thiết bị vật lý  Máy tính hệ thống mạng dữ liệu Hình 1.4 Điều khiển truy nhập hệ thống - Nhận. .. thống xác thực người nói không phụ thuộc vào từ khóa gồm các thành phần sau: - Trích chọn đặc trưng: biến đổi từ giọng nói thô thành những đặc trưng của người nói - Xây dựng mô hình người nói: huấn luyện người nói dựa vào một phương pháp cụ thể - So khớp mẫu: tính toán độ hợp giữa đặc trưng của tiếng nói đưa vào với mô hình đã huấn luyện - Tạo quyết định: xác định ngưỡng đưa ra quyết định dựa vào việc... chất lượng tiếng nói Nó bao gồm: giảm nhiễu ồn của tín hiệu tiếng nói, giảm/khử tiếng vọng (trong kỹ thuật điện thoại) - Mã hóa tiếng nói: là một dạng của nén dữ liệu, có vai trò quan trọng trong lĩnh vực viễn thông Ví dụ như trong thể thức truyền tiếng nói qua internet (voIP), việc nén dữ liệu tiếng nói là điều bắt buộc để giảm băng thông đường truyền - Tổng hợp tiếng nói: là tạo ra tiếng nói một cách... dung tiếng nói khi huấn luyện cũng như khi nhận dạng nên độ chính xác nhận dạng tăng lên trong khi thời gian huấn luyện nhận dạng lại giảm nhiều so với nhận dạng người nói không phụ thuộc từ khoá (text independent speaker recognition) 8  Tuy nhiên hạn chế của kỹ thuật này là không có sự thay đổi trong mật khẩu nên hệ thống dễ bị tấn công bởi những kẻ giả mạo bằng cách ghi âm lại mật khẩu tấn . hiệu này. Xử lý tiếng nói có nhiều lĩnh vực nghiên cứu: nhận dạng tiếng nói, nhận dạng người nói, mã hóa tiếng nói, tổng hợp tiếng nói, phân tích giọng nói, Nhận dạng người nói là một lĩnh vực. xác thực người nói không phụ thuộc vào từ khóa 11 Hình 1.8.Các giai đoạn của một hệ thống xác thực người nói không phụ thuộc vào từ khóa 12 Hình 2.1.Sơ đồ quá trình sản xuất và thu nhận tiếng nói. thuộc vào từ khóa (text dependent speaker recognition) và bài toán nhận dạng người nói không phụ thuộc vào từ khóa (text independent speaker recognition): - Nhận dạng người nói phụ thuộc vào từ

Ngày đăng: 21/06/2014, 21:21

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
2. Ngô Minh Dũng, Đặng Văn Chuyết (2004), “Khảo sát tính ổn định của một số đặc trưng ngữ âm trong nhận dạng người nói”, Tạp chí BCVT &CNTT, (kỳ 3 10/2004), tr. 12-18 Sách, tạp chí
Tiêu đề: Khảo sát tính ổn định của mộtsố đặc trưng ngữ âm trong nhận dạng người nói”, "Tạp chí BCVT &"CNTT
Tác giả: Ngô Minh Dũng, Đặng Văn Chuyết
Năm: 2004
3. Ngô Minh Dũng, Đặng Văn Chuyết (2007), “Xây dựng và khảo sát độ dài từ khóa trong nhận dạng người nói phụ thuộc vào từ khóa tiếng Việt theo mô hình Markov ẩn”, Tạp chí BCVT & CNTT, (kỳ 3 10/2007), tr. 93-99 Sách, tạp chí
Tiêu đề: Xây dựng và khảo sát độ dàitừ khóa trong nhận dạng người nói phụ thuộc vào từ khóa tiếng Việt theomô hình Markov ẩn”," Tạp chí BCVT & CNTT
Tác giả: Ngô Minh Dũng, Đặng Văn Chuyết
Năm: 2007
4. Viện công nghệ thông tin Việt Nam (2004), Tổng hợp và nhận dạng tiếng Việt, Đề tài nghiên cứu cấp nhà nước KC01- 03D, Hà Nội.Tiếng Anh Sách, tạp chí
Tiêu đề: Tổng hợp và nhận dạng tiếngViệt
Tác giả: Viện công nghệ thông tin Việt Nam
Năm: 2004
5. Atal, B.S (1976), “Automatic recognition of speakers from their voices”, Proc. IEEE, (Vol. 64, No. 4), pp. 460-475 Sách, tạp chí
Tiêu đề: Automatic recognition of speakers from their voices”,"Proc. IEEE
Tác giả: Atal, B.S
Năm: 1976
6. A. V. Oppenheim and R.W. Schafer (1968), “Homomorphic analysis of speech”, IEEE Transactions on Audio and Electroacoustics, (vol. 16, no. 2), pp. 221–226 Sách, tạp chí
Tiêu đề: Homomorphic analysis ofspeech”, "IEEE Transactions on Audio and Electroacoustics
Tác giả: A. V. Oppenheim and R.W. Schafer
Năm: 1968
7. A. F. Martin and M. A. Przybocki (2001), “The NIST speaker recognition evaluations: 1996–2001”, A Speaker Odyssey—The Speaker Recognition Workshop, pp. 39–43 Sách, tạp chí
Tiêu đề: The NIST speaker recognitionevaluations: 1996–2001”, "A Speaker Odyssey—The Speaker RecognitionWorkshop
Tác giả: A. F. Martin and M. A. Przybocki
Năm: 2001
8. B. Robertson and G. A. Vignaux, Interpreting Evidence(1995), Evaluating Forensic Science in the Courtroom, John Wiley & Sons, Chichester, UK Sách, tạp chí
Tiêu đề: EvaluatingForensic Science in the Courtroom
Tác giả: B. Robertson and G. A. Vignaux, Interpreting Evidence
Năm: 1995
9. CAMPBELL, Joseph(1997), ”Speaker Recognition: A Tutorial”, Proceedings of IEEE, (vol. 85,no. 9), pp. 1437-1462 Sách, tạp chí
Tiêu đề: Proceedings of IEEE
Tác giả: CAMPBELL, Joseph
Năm: 1997
10. D.Meuwly (2001),Speaker recognition in forensic sciences the contribution of an automatic approach, Ph.D. thesis, Institut de Po-lice Scientifique et de Criminologie, Universit´ edeLausanne, Lausanne, Switzerland Sách, tạp chí
Tiêu đề: Speaker recognition in forensic sciences thecontribution of an automatic approach
Tác giả: D.Meuwly
Năm: 2001
12. D.A. Reynolds and R.C. Rose(1995), “Robust Text-Independent Speaker Identification Using Gaussian Mixture Speaker Models,” IEEE Trans.Speech & Audio Processing, pp. 72-83 Sách, tạp chí
Tiêu đề: Robust Text-Independent SpeakerIdentification Using Gaussian Mixture Speaker Models,” "IEEE Trans."Speech & Audio Processing
Tác giả: D.A. Reynolds and R.C. Rose
Năm: 1995
13. F.K. Soong and A.E. Rosenberg A.E. and B.-H. Juang and L.R. Rabiner (1987), “A Vector Quantization Approach to Speaker Recognition,” AT& T Technical Journal, (vol. 66), pp. 14-26 Sách, tạp chí
Tiêu đề: A Vector Quantization Approach to Speaker Recognition,” "AT"& T Technical Journal
Tác giả: F.K. Soong and A.E. Rosenberg A.E. and B.-H. Juang and L.R. Rabiner
Năm: 1987
14. REYNOLDS, Douglas (1995),”A. Robust Text-IndependentSpeaker Identification Using Gaussian Mixture Speaker Model”, IEEE Transactions on Speech and Audio Processing, (vol. 3, n. 1), pp72-83 Sách, tạp chí
Tiêu đề: IEEETransactions on Speech and Audio Processing
Tác giả: REYNOLDS, Douglas
Năm: 1995
15. T. Kinnunen and P. Frọnti (2001), “Speaker Discriminative Weighting Method for VQ-Based Speaker Identification,” Proc. Audio- and Video- Based Biometric Person Authentication, (AVBPA 2001), pp. 150-156 Sách, tạp chí
Tiêu đề: Speaker Discriminative WeightingMethod for VQ-Based Speaker Identification,” "Proc. Audio- and Video-Based Biometric Person Authentication, (AVBPA 2001)
Tác giả: T. Kinnunen and P. Frọnti
Năm: 2001
16. T. Kinnunen and I. Kọrkkọinen (2002), “Class-Discriminative Weighted Distortion Measure for VQ-Based Speaker Identification,” Proc. Joint IAPR Int.Workshop on Stat. Pattern Recognition,(S+SPR2002), pp.681- 688 Sách, tạp chí
Tiêu đề: Class-Discriminative WeightedDistortion Measure for VQ-Based Speaker Identification,” "Proc. JointIAPR Int.Workshop on Stat. Pattern Recognition
Tác giả: T. Kinnunen and I. Kọrkkọinen
Năm: 2002

HÌNH ẢNH LIÊN QUAN

Hình 1.1. Bài toán định danh người nói - nhận dạng tiếng nói không liên quan đến từ khóa và thực nghiệm
Hình 1.1. Bài toán định danh người nói (Trang 12)
Hình 1.3. Chứng thực giao dịch - nhận dạng tiếng nói không liên quan đến từ khóa và thực nghiệm
Hình 1.3. Chứng thực giao dịch (Trang 16)
Hình 1.7. Các thành phần của một hệ thống xác thực người nói không phụ thuộc vào từ khóa - nhận dạng tiếng nói không liên quan đến từ khóa và thực nghiệm
Hình 1.7. Các thành phần của một hệ thống xác thực người nói không phụ thuộc vào từ khóa (Trang 17)
Hình 1.6. Tư vấn bán hàng - nhận dạng tiếng nói không liên quan đến từ khóa và thực nghiệm
Hình 1.6. Tư vấn bán hàng (Trang 17)
Hình 1.7 cho ta thấy các hệ thống xác thực người nói không phụ thuộc vào từ khóa gồm các thành phần sau: - nhận dạng tiếng nói không liên quan đến từ khóa và thực nghiệm
Hình 1.7 cho ta thấy các hệ thống xác thực người nói không phụ thuộc vào từ khóa gồm các thành phần sau: (Trang 18)
Hình 2.1. Sơ đồ quá trình sản xuất và thu nhận tiếng nói của con người - nhận dạng tiếng nói không liên quan đến từ khóa và thực nghiệm
Hình 2.1. Sơ đồ quá trình sản xuất và thu nhận tiếng nói của con người (Trang 21)
Hình 2.2. Đồ thị theo các formant F1, F2 cho mười nguyên âm được thực hiện với nhiều đối tượng người nói khác nhau - nhận dạng tiếng nói không liên quan đến từ khóa và thực nghiệm
Hình 2.2. Đồ thị theo các formant F1, F2 cho mười nguyên âm được thực hiện với nhiều đối tượng người nói khác nhau (Trang 25)
Hình 2.3. Ví dụ về lấy mẫu tín hiệu trên miền thời gian - nhận dạng tiếng nói không liên quan đến từ khóa và thực nghiệm
Hình 2.3. Ví dụ về lấy mẫu tín hiệu trên miền thời gian (Trang 29)
Bảng 2.2. Bảng ước lượng tính DFT và FFT một chiều - nhận dạng tiếng nói không liên quan đến từ khóa và thực nghiệm
Bảng 2.2. Bảng ước lượng tính DFT và FFT một chiều (Trang 33)
Hình 2.4. Các giai đoạn của bài toán xác thực người nói - nhận dạng tiếng nói không liên quan đến từ khóa và thực nghiệm
Hình 2.4. Các giai đoạn của bài toán xác thực người nói (Trang 34)
Hình 2.5. Đồ thị biểu diễn mối quan hệ giữa Mel và Hz - nhận dạng tiếng nói không liên quan đến từ khóa và thực nghiệm
Hình 2.5. Đồ thị biểu diễn mối quan hệ giữa Mel và Hz (Trang 36)
Hình 2.6. Sơ đồ khối của xử lý MFCC’s - nhận dạng tiếng nói không liên quan đến từ khóa và thực nghiệm
Hình 2.6. Sơ đồ khối của xử lý MFCC’s (Trang 37)
Hình 2.7. Khung 30ms với tần số lấy mẫu FS = 8000Hz cho 240 mẫu - nhận dạng tiếng nói không liên quan đến từ khóa và thực nghiệm
Hình 2.7. Khung 30ms với tần số lấy mẫu FS = 8000Hz cho 240 mẫu (Trang 38)
Hình 2.8. Độn 0 vào khung tiếng nói - nhận dạng tiếng nói không liên quan đến từ khóa và thực nghiệm
Hình 2.8. Độn 0 vào khung tiếng nói (Trang 40)
Hình 2.10. Các bộ lọc mel-scale tam giác - nhận dạng tiếng nói không liên quan đến từ khóa và thực nghiệm
Hình 2.10. Các bộ lọc mel-scale tam giác (Trang 41)
Hình 3.1. Các thành phần trong một hệ thống xác thực người nói - nhận dạng tiếng nói không liên quan đến từ khóa và thực nghiệm
Hình 3.1. Các thành phần trong một hệ thống xác thực người nói (Trang 45)
Hình 3.3. Ví dụ VQ 2 chiều - nhận dạng tiếng nói không liên quan đến từ khóa và thực nghiệm
Hình 3.3. Ví dụ VQ 2 chiều (Trang 47)
Hình 3.5. Các ví dụ xây dựng codebook dựa trên đặc trưng MFCC - nhận dạng tiếng nói không liên quan đến từ khóa và thực nghiệm
Hình 3.5. Các ví dụ xây dựng codebook dựa trên đặc trưng MFCC (Trang 56)
Hình 3.6. Ví dụ xây dựng mô hình người nói sử dụng GMM - nhận dạng tiếng nói không liên quan đến từ khóa và thực nghiệm
Hình 3.6. Ví dụ xây dựng mô hình người nói sử dụng GMM (Trang 57)
Hình 3.8. Minh họa hình ảnh so khớp mẫu của mô hình VQ - nhận dạng tiếng nói không liên quan đến từ khóa và thực nghiệm
Hình 3.8. Minh họa hình ảnh so khớp mẫu của mô hình VQ (Trang 58)
Hình 3.9. Giai đoạn tạo quyết định - nhận dạng tiếng nói không liên quan đến từ khóa và thực nghiệm
Hình 3.9. Giai đoạn tạo quyết định (Trang 59)
Hình 3.10. Vấn đề xảy ra khi không dùng score chuẩn hóa - nhận dạng tiếng nói không liên quan đến từ khóa và thực nghiệm
Hình 3.10. Vấn đề xảy ra khi không dùng score chuẩn hóa (Trang 60)
Bảng 4.1. Tỷ lệ lỗi với số các hệ số MFCC khác nhau - nhận dạng tiếng nói không liên quan đến từ khóa và thực nghiệm
Bảng 4.1. Tỷ lệ lỗi với số các hệ số MFCC khác nhau (Trang 64)

TRÍCH ĐOẠN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w