nhận dạng người nói

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI - Cung Văn Minh NHẬN DẠNG NGƯỜI NÓI Chuyên nghành: Kỹ thuật Máy tính Truyền thông LUẬN VĂN THẠC SĨ KHOA HỌC Kỹ thuật Máy tính Truyền thông NGƯỜI HƯỚNG DẪN KHOA HỌC PGS.TS Đặng Văn Chuyết Hà Nội- 2012 LỜI CAM ĐOAN Tôi xin cam đoan công trình nghiên cứu riêng Các số liệu, kết nêu luận văn trung thực chưa công bố công trình khác Tôi xin cam đoan thông tin trích dẫn luận văn rõ nguồn gốc Người cam đoan Cung Văn Minh Trang 2/92 LỜI CẢM ƠN Để hoàn thành chương trình cao học viết luận văn Trước hết, xin chân thành cảm ơn đến quí thầy cô trường Đại học Bách Khoa Hà Nội, đặc biệt thầy cô tận tình dạy bảo cho suốt thời gian học tập trường Tôi xin gửi lời biết ơn sâu sắc đến Phó giáo sư – Tiến sĩ Đặng Văn Chuyết, người dành nhiều thời gian tâm huyết hướng dẫn nghiên cứu giúp hoàn thành luận văn tốt nghiệp Mặc dù có nhiều cố gắng hoàn thiện luận văn tất nhiệt tình lực mình, nhiên tránh khỏi thiếu sót, mong nhận đóng góp quí báu quí thầy cô bạn Hà Nội, tháng 03 năm 2012 Học viên Cung Văn Minh Trang 3/92 MỤC LỤC LỜI CAM ĐOAN .2 LỜI CẢM ƠN .3 MỤC LỤC THUẬT NGỮ VÀ TỪ VIẾT TẮT .7 DANH MỤC HÌNH VẼ DANH MỤC BẢNG BIỂU PHẦN MỞ ĐẦU .10 0.1 Lý chọn đề tài .10 0.2 Lịch sử nghiên cứu 11 0.3 Mục đích nghiên cứu luận văn, đối tượng, phạm vi nghiên cứu 13 0.4 Tóm tắt cô đọng luận điểm đóng góp tác giả .14 0.5 Phương pháp nghiên cứu 15 CHƯƠNG - GIỚI THIỆU LÝ THUYẾT ÂM THANH VÀ TIẾNG NÓI 16 1.1 Nguồn gốc âm 16 1.2 Các đại lượng đặc trưng cho âm 16 1.3 Bộ máy phát âm người 17 1.4 Cơ chế phát âm người .19 1.5 Quá trình sản xuất tiếng nói thu nhận tiếng nói người 19 1.6 Tiếng nói đặc trưng .21 1.6.1 Nguyên âm 21 1.6.2 Các âm vị khác 21 1.6.3 Pitch - Tần số âm 22 1.6.4 Formants - Tần số Formants 23 1.7 Tổng kết chương 25 CHƯƠNG - LÝ THUYẾT NHẬN DẠNG TIẾNG NÓI 26 2.1 Tổng quan lý thuyết nhận dạng lời nói 26 2.1.1 Nhận dạng (Pattern Recognition) 26 2.1.2 Nhận dạng tiếng nói 27 2.2 Các nguyên tắc nhận dạng tiếng nói 28 2.3 Quá trình nhận dạng tiếng nói 29 2.3.1 Phân tích đặc tính (đặc trưng tiếng nói) 30 2.3.2 Phân lớp mẫu 32 2.3.3 Xử lý ngôn ngữ .33 2.4 Các cách tiếp cận lý thuyết nhận dạng tiếng nói 33 2.4.1 Tiếp cận âm thanh-ngữ âm 34 2.4.2 Tiếp cận nhận dạng mẫu 35 2.4.3 Tiếp cận trí tuệ nhân tạo 36 2.5 Các phương pháp nhận dạng tiếng nói 38 2.5.1 Mô hình Fujisaki .38 2.5.2 Mô hình Markov ẩn .42 Trang 4/92 2.5.3 Mô hình mạng nơron .42 2.6 Các khó khăn trình nhận dạng .45 2.6.1 Người nói độc lập tiếng nói phụ thuộc vào ngữ cảnh 45 2.6.2 Tách âm tiết tiếng nói liên tục phụ thuộc âm tiết khác tiếng nói liên tục .46 2.6.3 Các nguyên âm đôi đặc trưng 47 2.6.4 Ảnh hưởng điệu tới người nói 47 2.6.5 Tính không ổn định thân người nói 47 2.6.6 Cải trang tiếng nói giả giọng người khác 48 2.7 Ngữ âm tiếng việt nhận dạng lời nói 48 2.7.1 Đặc trưng ngữ âm tiếng việt .48 2.7.2 Đặc trưng âm tiết tiếng việt nhận dạng tiếng nói 50 2.8 Kết luận 52 CHƯƠNG - NHẬN DẠNG NGƯỜI NÓI BẰNG MẠNG NƠ RON NHÂN TẠO 53 3.1 Mở đầu 53 3.2 Tiền xử lý tín hiệu tiếng nói 53 3.3 Lý thuyết nhận dạng mạng nơ ron 54 3.3.2 Mạng nơ ron nhân tạo .54 3.4 Hướng tiếp cận luận văn nhận dạng người nói mạng nơ ron 56 3.4.1 Giới thiệu .56 3.4.2 Các đặc trưng âm người nói sử dụng chương trình 57 3.4.3 So sánh đặc trưng 57 3.4.3 Các bước tiến hành nhận dạng người nói 59 3.5 Nhận dạng người nói dùng mạng nơ-ron nhân tạo phương pháp trích chọn đặc trưng dùng mã dự báo tuyến tính kết hợp AMDF để huấn luyện 60 3.4.1 Thu âm tiền xử lý .60 3.4.2 Trích chọn đặc trưng dùng mã dự báo tuyến tính LPC 63 3.4.3 Huấn luyện mạng nơ-ron 64 3.4.4 Kiểm tra liệu người nói 66 3.4.3 Kết nhận dạng người nói 66 3.5 Tổng kết chương 67 CHƯƠNG - XÂY DỰNG MÔ HÌNH NHẬN DẠNG NGƯỜI NÓI BẰNG MẠNG NƠ RON NHÂN TẠO 68 4.1 Giới thiệu Hàm Toolbox Matlab cần để xây dựng Hệ thống Nhận dạng Người nói mạng Neruon 68 4.1.1 Các hàm xử lý âm 68 4.1.2 VoiceBox toolbox 69 4.1.3 NetLab toolbox 70 4.2 Quá trình thực chương trình 71 4.2.1 Các bước 71 4.2.2 Thu liệu gán nhãn liệu 77 Trang 5/92 4.2.2.1 Thu liệu 77 4.2.2.2 Gán nhãn liệu 77 4.2.2.3 Đánh giá liệu 78 4.2.2.4 Rút trích đặc trưng dùng mã dự báo tuyến tính LPC 78 4.2.3 Khởi tạo mô hình mạng Noron .78 4.2.4 Huấn luyện mô hình mạng Noron 78 4.2.5 Chương trình Nhận dạng 79 4.3 Đánh giá kết hướng phát triển 83 4.3.1 Kết nhận dạng 83 4.3.2 Nhận xét 85 KẾT LUẬN VÀ KIẾN NGHỊ 87 HƯỚNG PHÁT TRIỂN 89 TÀI LIỆU THAM KHẢO 90 Trang 6/92 THUẬT NGỮ VÀ TỪ VIẾT TẮT Từ viết tắt LPC BNN AMDF MFCC DTW HMM ANN DFT Giải nghĩa tiếng Anh Linear Predictive Coding Back-propagation Neural Network Average magnitude difference function Mel-scale Frequency Cepstral Coefficient Dynamic Time Warping Hiden Markov Models Artificial Neuron Network Discrete Fourier Transform BNN Back-propagation Neural Network MLP MultiLayer Perceptron Trang 7/92 Giải nghĩa tiếng Việt Mã hóa dự báo tuyến tính Hàm hiệu biên độ trung bình Phương pháp trích đặc trưng So sánh thời gian động Mô hình Markov ẩn Mạng nơron nhân tạo Biến đổi Fourier rời rạc Mạng nơ ron lan truyền ngược hướng Mạng Perceptron nhiều lớp MLP DANH MỤC HÌNH VẼ Hình 1.1: Cấu tạo quan phát âm người 18 Hình 1.2: Quá trình sản xuất tiếng nói 20 Hình 1.3: Tần số âm hai giới tính 23 Hình 2.1: Sơ đồ tổng quan hệ thống nhận dạng 27 Hình 2.2: Các phần tử hệ thống nhận dạng tiếng nói .27 Hình 2.3: Phân loại thông tin đặc trưng người nói 29 Hình 2.4: Các trình nhận dạng tiếng nói .30 Hình 2.5: Các băng lọc tam giác theo thang tần số Mel 31 Hình 2.6: Sơ đồ khối nhận dạng tiếng nói theo âm học-ngữ âm 34 Hình 2.7: Sơ đồ khối hệ nhận dạng tiếng nói theo cách tiếp cận trí tuệ nhân tạo 37 Hình 2.8: Mô hình Fujisaki .38 Hình 2.9: Mô hình Fujisaki áp dụng cho ngôn ngữ có điệu .40 Hình 2.10: Áp dụng mô hình Fujisaki cho phân tích câu tiếng trung 41 Hình 2.11: Mô hình mạng nơron nhân tạo 43 Hình 2.12: Mô hình phân bố âm vị 46 Hình 3.1: Mô hình mạng Neuron 55 Hình 3.2: Một ví dụ tương quan tín hiệu tiếng nói, tỉ lệ qua điểm zero hàm lượng thời gian ngắn 61 Hình 3.3: Hàm cửa sổ Hamming .62 Hình 3.4: Mô tả tiền xử lý âm 63 Hình 3.5: Ví dụ kết hợp LPC với AMDF nhận dạng mạng nơ-ron nhân tạo 66 Hình 4.1: Sơ đồ khối hệ thống nhận dạng người nói với từ điển cho sẵn mạng nơron MLP môi trường Matlab 73 Hình 4.2: Giải thuật cắt khoản lặng file wav 74 Hình 4.3: Giao diện chương trình .80 Hình 4.4: Tạo mạng neural MLP lớp .81 Hình 4.5: Chương trình huấn luyện mạng MLP .82 Hình 4.6: Chương trình nhận dạng từ file 82 Hình 4.7: Chương trình nhận dạng trực tiếp từ micro 83 Trang 8/92 DANH MỤC BẢNG BIỂU Bảng Các hàm xử lý âm sử dụng chương trình mô 69 Bảng Ma trận nhầm lẫn thu huấn luyện với người nam giới 83 Bảng Ma trận nhầm lẫn thu nhận dạng với người nam giới 83 Bảng Ma trận nhầm lẫn thu huấn luyện với người nam người nữ .84 Bảng Ma trận nhầm lẫn thu nhận dạng với người nam người nữ .84 Bảng Ma trận nhầm lẫn thu huấn luyện với người 84 Bảng Ma trận nhầm lẫn thu nhận dạng với người 84 Bảng Ma trận nhầm lẫn thu huấn luyện với người 85 Bảng Ma trận nhầm lẫn thu nhận dạng với người 85 Trang 9/92 PHẦN MỞ ĐẦU 0.1 Lý chọn đề tài Tiếng nói phương tiện trao đổi thông tin phổ biến người Nhận dạng người từ giọng nói hay nhận dạng người nói (speaker recognition) với nhận dạng tiếng nói (speech recognition) lĩnh vực nhận dạng liên quan đến xử lý tiếng nói quan tâm nghiên cứu Tiếng nói, thông tin ngữ nghĩa mà người nói muốn truyền đạt cho người nghe (những thông tin ghi lại dạng chữ viết), chứa thông tin khác phương ngữ, trạng thái tình cảm nói thông tin riêng giọng nói Trong nhận dạng tiếng nói dựa thông tin ngữ nghĩa nhận dạng người nói lại dựa vào thông tin riêng giọng nói Các lĩnh vực ứng dụng nhận dạng người nói xác thực quyền truy cập vào hệ thống an ninh mật nói, giám sát người qua giọng nói hay tách tiếng nói người từ môi trường nhiều người nói Ứng dụng xác thực người nói giao dịch sử dựng thẻ tín dụng hay giao tiếp điện tử hộp thư thoại có sử dụng kỹ thuật nhận dạng người nói để giúp nhận dạng tiếng nói có tham số nhận dạng thích hợp Ngoài ra, nhận dạng người nói có lĩnh vực ứng dụng quan trọng giám định pháp lý nhận dạng người nói (forensic speaker recognition) Ở nước ta nay, nhận dạng người nói bước đầu ứng dụng lĩnh vực giám định pháp lý nhận dạng người nói phục vụ cho công tác điều tra xét xử tội phạm Lĩnh vực giám định trình xác thực người nói mẫu tiếng nói ghi âm xong chưa biết nói (unknown speaker) mẫu tiếng nói người bị nghi vấn (suspect speakers) Đây lĩnh vực giám định pháp lý với nhiều vấn đề liên quan tới kỹ thuật nhận dạng người nói cần giải xây dựng nâng cao độ tin cậy kết luận giám định Cho đến trước năm 2004 chưa có công trình nghiên cứu vấn đề cho người nói tiếng Việt công bố Trước tình hình đó, luận văn chọn vấn đề nhận dạng người nói tiếng Việt để ứng dụng vào thực tế Trang 10/92 âm vị sillence âm tiết không ảnh hưởng tới trình huấn luyện 4.2.2.3 Đánh giá liệu Sau thu gán nhãn liệu, nên đánh giá mức độ đầy đủ cân đối liệu Chúng ta thống kê xem liệu huấn luyện có tỉ lệ % số lần xuất âm tiết, âm vị Nếu âm tiết âm vị có tần số xuất ít, nhân liệu huấn luyện có chứa âm tiết âm vị lên 4.2.2.4 Rút trích đặc trưng dùng mã dự báo tuyến tính LPC Dữ liệu sóng âm thu tần số lấy mẫu 16000 mẫu /giây, kích thước mẫu 16 bit Kích thước cửa sổ 25 ms Độ chồng lấp cửa sổ 15 ms Sử dụng dãy lọc sử dụng có 26 kênh.Các đặc trưng rút trích MFCC_O (13 đặc trưng) Sử dụng thêm đặc trưng độ biến thiên ∆ (13 đặc trưng) gia tốc biến thiên (accelerator) ∆∆ (13 đặc trưng) Như vector đặc trưng có 39 thành phần 4.2.3 Khởi tạo mô hình mạng Noron Vì file wav có độ dài ngắn khác nên dãy vector đặc trưng MFCC tương ứng số phần tử Nhưng đầu vào mạng nơron MLP lại phải cố định Do thực biện pháp đơn giản chia dãy đặc trưng thành phần nhau, tính trung bình phần vector ghép lại thành vector Kết đầu vào mạng nơron vector 8x5=40 thành phần Đối với từ vựng thực tương tự bước trên, ta có liệu dùng để huấn luyện mạng neural Đến lúc này, việc chuẩn bị liệu đầu vào cho mạng neural xong, xây dựng mạng neural MLP lớp dùng để nhận dạng Ta dùng lệnh mlp để xây dựng 4.2.4 Huấn luyện mô hình mạng Noron Trang 78/92 Chúng ta huấn luyện mạng lệnh : [net err]=mlptrain(net, xtrain, target, loop); %net: mang mlp; xtrain: liện đầu vào %taget: liệu cần đạt đến %err: độ sai khác xtrain target Dữ liệu target xây dựng đơn giản, vactor 11 phần tử Vector có đặc điểm phần tử thứ i tương ứng với số i cần nhận dạng 1, phần tử cón lại Ví dụ target dùng để huấn luyện cho phát âm “số một” có dạng [1 0 0 0 0 0], target dùng để huấn luyện cho phát âm “số hai” có dạng [0 0 0 0 0 0] target dùng để huấn luyện cho phát âm “số không” có dạng [0 0 0 0 0 1] Nhận dạng thông qua hàm: ytest = mlpfwd(net, xtest); %net: mang mlp; xtest: liệu cần nhận dạng %ytest: liệu Xtest vector đặc trưng MFCC gồm 40 phần tử tính trên, ytest vector 11 phần tử Nếu trình huấn luyện tốt, phần tử thứ i ytest tương ứng với chữ số i cần nhận dạng có giá trị lớn 4.2.5 Chương trình Nhận dạng Giao diện chương trình sau: Trang 79/92 Hình 4.3: Giao diện chương trình Trước tiên ta phải tạo mạng neural MLP lớp với đầy đủ thông số: số neural lớp vào, số neural lớp ẩn, số neural lớp ra, hàm kích hoạt, ngưỡng giá trị trọng số Giao diện chương trình tạo neural hình 4.4 Trang 80/92 Hình 4.4: Tạo mạng neural MLP lớp Mạng MLP sau tạo mô tả sau: Sau đó, để mạng nhận dạng phát âm chữ số tiếng Việt ta cần phải huấn luyện cho mạng Dữ liệu dùng để huấn luyện file wav thu âm sẵn Trong chương trình huấn luyện bao gồm việc tiền xử lý như: cắt khoản lặng file, trích đặc trưng MFCC để đưa vào mạng, Giao diện chương trình huấn luyện hình 4.5 Trang 81/92 Hình 4.5: Chương trình huấn luyện mạng MLP Sau huấn luyện, nhận dạng người nói thông qua phát âm chữ số tiếng Việt có từ điển: “không”, “một”, “hai”, “ba”, “bốn”, “năm”, “sáu”, “bảy”, “tám”, “chín”, “mười” từ “đóng”, “mở” Chúng ta nhận dạng trực tiếp từ micro hay từ file.wav Nhìn chung, nhận dạng từ file wav cho kết xác nhận dạng trực tiếp, giải thuật tiền xử lý chưa tốt Hình 4.6 mô tả chương trình nhận dạng từ file wav, hình 4.7 mô tả chương trình nhận dạng trực tiếp từ micro Hình 4.6: Chương trình nhận dạng từ file Trang 82/92 Hình 4.7: Chương trình nhận dạng trực tiếp từ micro 4.3 Đánh giá kết hướng phát triển 4.3.1 Kết nhận dạng Trong chương trình nhận dạng, mạng nơ-ron sử dụng 25 mẫu âm người cần nhận dạng để đưa vào huấn luyện Và sử dụng 12 mẫu tiếng nói người cần nhận dạng để đưa vào nhận dạng Kết trình nhận dạng trình bày phần Kết nhận dạng người nam giới: Mẫu giọng nói Xác suất huấn luyện (88%) Minh 22 Trang 22 Kết quả: Minh Trang Bảng Ma trận nhầm lẫn thu huấn luyện với người nam giới Mẫu giọng nói Xác suất kiểm tra (87.5%) Minh 10 Trang 11 Kết quả: Minh Trang Bảng Ma trận nhầm lẫn thu nhận dạng với người nam giới Trang 83/92 Kết nhận dạng người nam người nữ: Mẫu giọng nói Xác suất huấn luyện (94%) Minh 24 Huyền 23 Kết quả: Minh Huyền Bảng Ma trận nhầm lẫn thu huấn luyện với người nam người nữ Mẫu giọng nói Xác suất kiểm tra (91.6%) Minh 11 Huyền 11 Kết quả: Minh Huyền Bảng Ma trận nhầm lẫn thu nhận dạng với người nam người nữ Kết nhận dạng người: Mẫu giọng nói Xác suất huấn luyện (84%) Minh 20 Trang 22 Huyền 2 21 Kết quả: Minh Trang Huyền Bảng Ma trận nhầm lẫn thu huấn luyện với người Mẫu giọng nói Xác suất kiểm tra (80.5%) Minh Trang 10 Huyền 1 10 Kết quả: Minh Trang Huyền Bảng Ma trận nhầm lẫn thu nhận dạng với người Trang 84/92 Kết nhận dạng người: Mẫu giọng nói Xác suất huấn luyện (68%) Minh 18 1 Trang 17 2 Huyền 17 Hạnh 16 Kết quả: Minh Trang Huyền Hạnh Bảng Ma trận nhầm lẫn thu huấn luyện với người Mẫu giọng nói Xác suất kiểm tra (64.5%) Minh 1 Trang Huyền 1 Hạnh Kết quả: Minh Trang Huyền Hạnh Bảng Ma trận nhầm lẫn thu nhận dạng với người 4.3.2 Nhận xét Sau thu thập lượng liệu rộng lớn, mạng đào tạo, thử nghiệm mạng, rút kết luận sau: Trước hết, Phương pháp LPC (linear predictive coding)-mã hóa dự báo tuyến tính: nhược điểm có số từ phát âm gần giống bị nhầm lẫn nhiều thực tốt nhận dạng người nói Thứ hai, cách thêm vào thông tin tần số âm trung bình người, mạng xác định người nói xác Cuối cùng, mạng nơ ron nhận dạng rõ ràng làm việc tốt để xác định người nói phụ thuộc vào văn (từ điển) Nhận dạng tốt người nam giới nữ giới (trên 90%) Tuy nhiên, cho thấy kết xác nhận dạng nhiều người nói Nếu có danh sách nhiều liệu đào tạo có chứa đa dạng thông tin Pitch Formants thu được, sau sử dụng thuật toán chúng tôi, mạng nơ Trang 85/92 ron chắn hứa hẹn kết xác nhận dạng người nói mà người nói không từ có từ điển nhận dạng xây dựng sẵn Trang 86/92 KẾT LUẬN VÀ KIẾN NGHỊ Với mục tiêu nghiên cứu xây dựng hệ thống nhận dạng người nói Luận văn đạt số kết sau: Luận văn cho người đọc hiểu cách chung tiếng nói Bộ máy phát âm chế phát âm người Luận văn nhìn tổng quan lý thuyết nhận dạng tiếng nói: tham số, phân tích đặc trưng tiếng nói Đồng thời chương đưa mô hình nhận dạng tiếng nói: mô hình Fujisaki, mô hình Markov, mô hình nơron nhân tạo với ưu, nhược điểm loại Luận văn xây dựng chương trình mô nhận dạng người nói với kết đạt cao (nhận dạng người khác giới 90%, nhiều người gần 70% xác suất nhận dạng đúng) Từ lý thuyết nêu chương trình nhận dạng xây dựng, đưa số kết luận sau: Một là, luận văn dùng hai đặc trưng Pitch Formant chương trình nhận dạng người nói đưa kết tốt Bởi đặc trưng có tính độc lập với người Hai là, luận văn trình nhận tiếng nói với từ có từ điển sẵn có Từ dựa vào thông tin âm người nói Pitch Formant để nhận dạng người nói dựa vào hệ thống từ điển từ nhận dạng Chương trình nhận dạng có kết cao Ba là, luận văn để chương trình nhận dạng người nói có khả nhận dạng người nói tốt cần phải có đặc điểm mong muốn sau đây: i Khi nói chuyện tiếng nói không kiểm soát người nói (người không bắt chước giọng người khác để sau cho vào nhận dạng) ii Người nói nhận dạng không bị ảnh hưởng vấn đề sức khỏe, tâm lý so với huấn luyện trước (người nói thời điểm khác thu chất lượng nhau) Trang 87/92 iii Người nói tốt hết nên độc lập với môi trường nói (hạn chế tạp âm) iv Phân biệt tiếng nói với tiếng ồn gây trình ghi âm (được tách âm) Tuy nhiên, để nâng cao khả nhận dạng người nói cần tiếp tục nghiên cứu theo hướng sau: Mở rộng phạm vi nghiên cứu luận văn trường hợp người nói cố tình cải trang, giả giọng nói hay trạng thái không bình thường (như hồi hộp, lo lắng hay sợ hãi ) cho người nói tiếng Việt Tiếp tục nghiên cứu chuẩn hóa nhận dạng người nói theo hướng dựa thông tin mức cao, thông tin bị tác động kênh truyền Nghiên cứu nhận dạng tự động phương ngữ thuộc vùng miền khác đất nước Trang 88/92 HƯỚNG PHÁT TRIỂN Để nâng cao hiệu suất nhận dạng hệ thống, theo phát triển tin học đại, hướng nghiên cứu tiếp tục mở rộng phát triển theo hướng sau: - Đề xuất mạng nơ ron mờ: phát triển theo hướng + Mạng nơ ron với đầu vào, trọng số mờ + Mạng nơ ron dùng để xác định hàm thuộc + Suy diễn mờ với mạng neuron - Đề xuất dùng giải thuật di truyền để tối ưu hoá cấu trúc mạng neuron Những hướng phát triển đánh giá theo mô hình hệ thống thông minh lai, là: Hybrid Intelegent System = Neural nerworks + Expert System + Genetic Algorithms + Fuzzy Logich - Đề xuất phương pháp xử lý tín hiệu số khác, để có sở cải tiến hệ thống nâng cao chất lượng nhận dạng hệ thống Đề xuất hướng dùng mô hình Makov ẩn, sử dụng phương pháp lượng tử hoá vector để bổ sung vào hệ thống./ Trang 89/92 TÀI LIỆU THAM KHẢO Tiếng Anh Andre G Adami, Radu Mihaescu, Douglas A Reynolds, John J Godfrey (2003), Modeling prosodic dynamics for speaker recognition, in Proceedings of ICASP in Proceedings of the International Conference on Acoustics Speech and Signal Processing, pp 788-791 Bing Xiang Chaudhari, U.V Navratil, J Ramaswamy, G.N Gopinath, R.A (2002), Short-time Gaussianization for robust speaker verification, Acoustics, Speech, and Signal Processing Proceedings (ICASSP '02) IEEE International Conference Volume: 1, pp: 681-684 Bimbot F., Hutter H.-P., Jaboulet C … (1997), Speaker verification in the telephone network : research activities in the CAVE project, Proc Eurospeech ’97, pp.971-974 Bimbot F., Blomberg M., Boves L … (1998) An overview of the CAVE project research activities in speaker verification Speech Communication 31, pp155180 Brett Richard Wildermoth and Kuldip Kumar Paliwal (2005), Speaker recognition using acoustically derived units, Proceedings of the Microelectronic Engineering Research Conference, School of Microelectronic Engineering, Griffith University, pp 41- 45 Cuiling Zhang (2005), An experimental study on F0 feature in disguised voices, In Proceeding of the 20th International Congress on Forensic sciences, Hongkong, China, pp 121 – 127 Cuiling Zhang (2006), Intra- and inter-speaker variations of formant pattern for lateral syllables in Standard Chinese, Forensic Science International, Volume 158, Issue - , Pages 117 – 124 Cuiling Zhang (2005), Speaker identification by LTAS of normal and disguised voice, In Proceeding of the 20th International Congress on Forensic sciences, Hongkong, China, pp 210 – 215 Trang 90/92 Garcia, A.A.; Mammone, R.J, (1999), Channel-robust speaker identification using modified-mean cepstralmean normalization with frequency warping, Acoustics, Speech, and Signal Processing, ICASSP '99 on Proceedings of IEEE International Conference, Volume 1, pp: 325-328 10 Hermansky H and Morgan N (1994) RASTA processing of speech, IEEE Trans Speech and Audio Processing, Vol 2, No 4, pp: 578-589 11 Javier R Saeta and Javier Hermando (2005) , New speaker-dependent threshold estimation method in speaker verification based on weighting scores, In Proceedings: ITRW on Non-Linear Speech Processing (NOLISP 05), pp:34-41, Barcelona, Spain 12 Jason Pelecanos, Sridha Sridharan (2001), Feature Warping for Robust Speaker Verification, In Proceedings: A Speaker Odyssey - The Speaker Recognition Workshop, pages pp 213-218, Crete, Greece 13 Sutat Sae-tang and Chularat Tamprasert (2000), Feature windowing- based for Thai Text-dependent speaker Identification using MLP with backpropagation algorithm, IEEE International Symposium on Vol 3, pp: 579 - 582 14 R Rajeswara Rao, A Nagesh, … (2007), Text-Dependent Speaker Recognition System for Indian Languages, IJCSNS International Journal of Computer Science and Network Security, Vol.7, No 11, November 2007., pp:65-71 15 Xuening Sun, Brian J Love, Jennifer Vining (2004) Automatic Speaker Recognition Using Neural Networks, pp:12 Tiếng Việt 16 Vũ Kim Bảng (1999), Khái niệm ngữ âm học, Tạp chí ngôn ngữ số 5, 1999 17 Hoàng Thị Châu (1989), Tiếng Việt miềng đất nước, NXB Khoa học Xã hội, Hà nội 18 Ngô Minh Dũng, Đặng Văn Chuyết (2007), Hệ xác thực người nói phụ thuộc từ khóa tiếng Việt theo mô hình HMM, Báo cáo hội thảo khoa học quốc gia lần thứ 3, FAIR 2007, Nha Trang 9-10 tháng 8/2007 Trang 91/92 19 Trịnh Cẩm Lan (2005), Nghiên cứu biến đổi bảo lưu ngôn từ cộng đồng dân cư từ phương ngữ khác đến Hà nội, Luận án tiến sỹ ngữ văn, Đại học Quốc gia Hà nội 20 Đoàn Thiện Thuật (1999), Ngữ âm tiếng Việt, NXB Đại học Quốc gia Hà Nội Trang 92/92

Định dạng
Số trang	92
Dung lượng	1,72 MB