(Luận văn thạc sĩ) Nghiên cứu phương pháp nhận dạng người nói sử dụng kĩ thuật pha trộn Gaussian

68 43 0
(Luận văn thạc sĩ) Nghiên cứu phương pháp nhận dạng người nói sử dụng kĩ thuật pha trộn Gaussian

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

(Luận văn thạc sĩ) Nghiên cứu phương pháp nhận dạng người nói sử dụng kĩ thuật pha trộn Gaussian(Luận văn thạc sĩ) Nghiên cứu phương pháp nhận dạng người nói sử dụng kĩ thuật pha trộn Gaussian(Luận văn thạc sĩ) Nghiên cứu phương pháp nhận dạng người nói sử dụng kĩ thuật pha trộn Gaussian(Luận văn thạc sĩ) Nghiên cứu phương pháp nhận dạng người nói sử dụng kĩ thuật pha trộn Gaussian(Luận văn thạc sĩ) Nghiên cứu phương pháp nhận dạng người nói sử dụng kĩ thuật pha trộn Gaussian(Luận văn thạc sĩ) Nghiên cứu phương pháp nhận dạng người nói sử dụng kĩ thuật pha trộn Gaussian(Luận văn thạc sĩ) Nghiên cứu phương pháp nhận dạng người nói sử dụng kĩ thuật pha trộn Gaussian(Luận văn thạc sĩ) Nghiên cứu phương pháp nhận dạng người nói sử dụng kĩ thuật pha trộn Gaussian(Luận văn thạc sĩ) Nghiên cứu phương pháp nhận dạng người nói sử dụng kĩ thuật pha trộn Gaussian(Luận văn thạc sĩ) Nghiên cứu phương pháp nhận dạng người nói sử dụng kĩ thuật pha trộn Gaussian(Luận văn thạc sĩ) Nghiên cứu phương pháp nhận dạng người nói sử dụng kĩ thuật pha trộn Gaussian(Luận văn thạc sĩ) Nghiên cứu phương pháp nhận dạng người nói sử dụng kĩ thuật pha trộn Gaussian(Luận văn thạc sĩ) Nghiên cứu phương pháp nhận dạng người nói sử dụng kĩ thuật pha trộn Gaussian(Luận văn thạc sĩ) Nghiên cứu phương pháp nhận dạng người nói sử dụng kĩ thuật pha trộn Gaussian(Luận văn thạc sĩ) Nghiên cứu phương pháp nhận dạng người nói sử dụng kĩ thuật pha trộn Gaussian(Luận văn thạc sĩ) Nghiên cứu phương pháp nhận dạng người nói sử dụng kĩ thuật pha trộn Gaussian

ĐẠI HỌC THÁI NGUYÊN TRƢỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH HỌC VIÊN: Trần Thị Tuyết Lớp: cao học k13a Ngƣời hƣớng dẫn: Phùng Trung Nghĩa Đề tài: NGHIÊN CỨU PHƢƠNG PHÁP NHẬN DẠNG NGƢỜI NÓI SỬ DỤNG KĨ THUẬT PHA TRỘN GAUSSIAN Thái Nguyên, 2016 Số hóa Trung tâm Học liệu – ĐHTN http://www.ltc.tnu.edu.vn LỜI CẢM ƠN Lời đầu tiên, em xin chân thành cảm ơn thầy giáo TS Phùng Trung Nghĩa, ngƣời trực tiếp hƣớng dẫn em hoàn thành luận văn Với lời dẫn, tài liệu, tận tình hƣớng dẫn lời động viên thầy giúp em vƣợt qua nhiều khó khăn q trình thực luận văn Em xin cảm ơn quý thầy cô giảng dạy chƣơng trình cao học chuyên ngành "Khoa học máy tính” trƣờng ĐH Cơng nghệ thơng tin truyền thông truyền dạy kiến thức quý báu, kiến thức hữu ích giúp em nhiều thực nghiên cứu Cuối cùng, em xin gửi lời cảm ơn tới gia đình bạn bè ủng hộ động viên giúp đỡ em suốt năm học vừa qua Em xin chân thành cảm ơn! Thái Nguyên, ngày 10 tháng 05 năm 2016 Học viên Trần Thị Tuyết Số hóa Trung tâm Học liệu – ĐHTN http://www.ltc.tnu.edu.vn LỜI CAM ĐOAN Tên là: Trần Thị Tuyết Sinh ngày: 20/05/1987 Học viên lớp cao học K13A - Trƣờng Đại học Công nghệ thông tin và Truyền thông - ĐHTN Em xin cam đoan: Luận văn cơng trình nghiên cứu thực cá nhân, đƣợc thực dƣới hƣớng dẫn khoa học thầy giáo TS Phùng Trung Nghĩa Các số liệu, kết luận nghiên cứu đƣợc trình bày luận văn trung thực chƣa đƣợc cơng bố dƣới hình thức Em xin chịu trách nhiệm nghiên cứu Học viên Trần Thị Tuyết Số hóa Trung tâm Học liệu – ĐHTN http://www.ltc.tnu.edu.vn i MỤC LỤC LỜI CẢM ƠN LỜI CAM ĐOAN MỤC LỤC i DANH MỤC BẢNG iii DANH MỤC HÌNH iv DANH MỤC CHỮ VIẾT TẮT VÀ KÍ HIỆU vi MỞ ĐẦU CHƢƠNG I: TỔNG QUAN VỀ TIẾNG NÓI VÀ NHẬN DẠNG NGƢỜI NÓI TRONG TIẾNG NÓI 1.1 Tổng quan tiếng nói 1.2 Tổng quan lý thuyết nhận dạng tiếng nói 1.3 Thơng tin ngƣời nói tiếng nói 1.4 Vấn đề nhận dạng xác minh ngƣời nói qua giọng nói 1.4.1 Phân loại nhận dạng xác thực ngƣời nói dựa vào chức toán 1.4.2 Phân loại nhận dạng xác thực ngƣời nói dựa theo từ khóa 11 1.5 Đặc trƣng tiếng nói liên quan đến thơng tin ngƣời nói 13 1.5.1 Rút trích đặc trƣng 13 1.5.2 Đặc trƣng biên độ 14 1.5.3 Đặc trƣng cao độ 15 1.5.4 Đặc trƣng phổ 16 CHƢƠNG II: MỘT SỐ PHƢƠNG PHÁP PHÂN LỚP TRONG NHẬN DẠNG NGƢỜI NÓI QUA GIỌNG NÓI 20 2.1 Kỹ thuật so khớp mẫu trực tiếp 20 2.1.1 Phƣơng pháp so sánh mẫu trực tiếp cổ điển dùng giải thuật thời gian động (Dynamic time warping - DTW) 20 ii 2.1.2 Phƣơng pháp phân lớp dùng lƣợng tử hóa vector (Vector Quantization - VQ) 23 2.2 Phƣơng pháp sử dụng mơ hình pha trộn Gaussian 30 2.2.1 Đặc tả mơ hình 30 2.2.2 Ƣớc lƣợng tham số mơ hình GMM 33 2.2.3 Mô hình hóa ngƣời nói khơng phụ thuộc văn với mơ hình Gaussian Mixture Model - GMM 34 2.2.4 Huấn luyện với mơ hình Gaussian Mixture Model - GMM 35 2.2.5 Nhận dạng với mơ hình Gaussian Mixture Model - GMM 36 2.3 Phân lớp mơ hình GMM-HMM 37 2.3.1 Giới thiệu 37 2.3.2 Đặc tả mơ hình GMM-HMM 39 2.3.3 GMM-HMM toán định danh ngƣời nói 40 CHƢƠNG III: ĐÁNH GIÁ THỰC NGHIỆM PHƢƠNG PHÁP NHẬN DẠNG NGƢỜI NÓI DÙNG VQ VÀ MƠ HÌNH GMM 44 3.1 Lựa chọn sở liệu 44 3.1.1 Phạm vi sở liệu ATR 44 3.1.2 Thu thập liệu tiếng nói ATR 46 3.1.3 Gán nhãn ATR 48 3.2 Cài đặt phƣơng pháp MATLAB 51 3.2.1 Cài đặt phƣơng pháp VQ 51 3.2.2 Cài đặt phƣơng pháp GMM 53 3.3 Kết phƣơng pháp 56 3.4 Đánh giá kết 56 KẾT LUẬN 57 TÀI LIỆU THAM KHẢO 58 iii DANH MỤC BẢNG Bảng 1.1: Một số giá trị tần số ứng với giới tính độ tuổi 15 Bảng 3.1: Thống kê thông số sở liệu 45 Bảng 3.2: Các lớp phiên âm 48 Bảng 3.3: Các ký hiệu âm – âm cho lớp thứ 49 iv DANH MỤC HÌNH Hình 1.1: Các ứng dụng xử lý tiếng nói Hình 1.2: Sơ đồ nhận dạng tổng quát Hình 1.4: Đặc trƣng phổ formant đặc trƣng cho quan phát âm Hình 1.5: Mơ hình chung nhận dạng ngƣời nói 10 Hình 1.6: Bài tốn định danh ngƣời nói 10 Hình 1.7: Bài tốn xác thực ngƣời nói 11 Hình 1.8: Phân loại tốn nhận dạng ngƣời nói theo từ khóa 12 Hình 1.9: Sơ đồ rút trích vector đặc trƣng tổng quát 13 Hình 1.10: Sơ đồ rút trích đặc trƣng chi tiết 14 Hình 1.11: Đặc trƣng cao độ 16 Hình 1.12: Đặc trƣng phổ đƣờng bao phổ đặc trƣng cho quan phát âm17 Hình 1.13: Đồ thị biểu diễn mối quan hệ Mel Hz 18 Hình 1.14: Các bƣớc trích chọn đặc trƣng 18 Hình 1.15: Bộ lọc thang Mel 19 Hình 1.16: Bộ lọc tần số thật 19 Hình 1.17: Minh họa bƣớc biến đổi MFCC 19 Hình 2.1: Hai chuỗi liệu DTW theo thời gian 21 Hình 2.2: Giãn tín hiệu có độ dài khác nhau: tín hiệu màu đỏ đƣợc giãn để có độ dài tƣơng ứng với tín hiệu màu xanh 22 Hình 2.3: Khoảng cách Euclidean tính cho mẫu tiếng nói giãn để có độ dài 22 Hình 2.4a: Huấn luyện 24 Hình 2.4b: Nhận dạng 25 Hình 2.5: Hàm mật độ Gauss 30 Hình 2.6: Mơ hình GMM 31 Hình 2.7: Hàm mật độ GMM có phân phối Gauss 32 v Hình 2.8: HMM với trạng thái trọng số chuyển trạng thái 37 Hình 2.9: Nhận dạng ngƣời nói dùng HMM 38 Hình 2.10: Mơ hình GMM-HMM trạng thái 39 Hình 3.1: Sơ đồ khối hệ thống thu thập liệu 45 Hình 3.2: Một ví dụ kết phiên âm đa tầng 50 Hình 3.3: Thuật toán huấn luyện VQ 52 Hình 3.4: Thuật tốn nhận dạng VQ 53 Hình 3.5: Thuật toán huấn luyện GMM 54 Hình 3.6: Thuật tốn nhận dạng GMM 55 vi DANH MỤC CHỮ VIẾT TẮT VÀ KÍ HIỆU Ký tự Ý nghĩa F0 Tần số dao động MFCC Hệ số Cepstral tần số Mel IDFT Phép biến đổi Fourier ngƣợc DCT Phép biến đổi cosin rời rạc GMM Mơ hình Gaussian hỗn hợp VQ Kỹ thuật lƣợng tử hóa vector FFT Phép biến đổi Fourier nhanh MỞ ĐẦU Lý chọn đề tài Tiếng nói phƣơng tiện giao tiếp ngƣời Vì tiếng nói loại hình thơng tin phổ biến hệ thống truyền thơng Tín hiệu tiếng nói mang nhiều thơng tin, nhƣ thơng tin ngơn ngữ, thơng tin ngƣời nói, thơng tin sắc thái tình cảm nói,… Hầu hết hệ thống xử lý nhận dạng tiếng nói truyền thống tập trung vào xử lý thông tin ngôn ngữ để đảm bảo nhận dạng đƣợc nội dung ngơn ngữ hay ngữ nghĩa đƣợc nói [5], [11] Tuy nhiên để ứng dụng xử lý tiếng nói máy tính đƣợc áp dụng rộng rãi thực tế, vấn đề quan trọng cần đảm bảo khả nhận dạng xác minh ngƣời nói [2], [12] Trên giới có nhiều nghiên cứu nhận dạng ngƣời nói qua giọng nói [12], [14] Tại Việt Nam có số nghiên cứu ban đầu, đặc biệt số nghiên cứu Viện Công nghệ thông tin [3] Viện nghiên cứu MICA – Đại học Bách Khoa Hà Nội [1], [2] Tuy nhiên Việt Nam chƣa có nhiều nghiên cứu đánh giá cách tổng hợp phƣơng pháp nhận dạng ngƣời nói phổ biến Đặc biệt, hai phƣơng pháp nhận dạng ngƣời nói đại dùng phép lƣợng tử hóa vector – VQ mơ hình pha trộn Gaussian GMM [10], [12], [13] lại chƣa đƣợc nghiên cứu nhiều Việt Nam Vì vậy, luận văn nghiên cứu số phƣơng pháp nhận dạng ngƣời nói giọng nói, tập trung vào hai phƣơng pháp dùng phép lƣợng tử hóa vector mơ hình pha trộn Gaussian, đánh giá thực nghiệm phƣơng pháp, đƣa khuyến nghị 45 Cơ sở liệu nói liên tục tập hợp 503 câu ngữ âm ngắn cân không giới hạn miền (Iso et al., 1988) Những câu đƣợc lựa chọn từ tờ báo tạp chí theo tiêu chí lựa chọn sau đây: Tất kết hợp có hai âm vị xuất câu tiếng Nhật đƣợc đƣa vào Có 402 trƣờng hợp gồm: 120 VC (phụ âm nguyên âm) liên tiếp, 227 CV (phụ âm nguyên âm), 55 tiếp nối VV Bảng 3.1: Thống kê thông số sở liệu Mục Thông số Từ thƣờng đƣợc sử dụng 5.229 Từ ngữ âm cân 216 Ký tự chữ 35 Ký tự chữ số 25 CV âm tiết 101 CV âm tiết (không phải địa) Câu đàm thoại 115 (câu) Tổng Khoảng 8.500 Chuỗi có âm vị đƣợc sử dụng Loại CVC có 87 chuỗi đƣợc chọn: 69 nguyên âm có nhiều khả đƣợc phát âm theo mơi trƣờng giọng giả thanh, 18 ngun âm có nhiều khả đƣợc phát âm theo môi trƣờng giọng mũi Loại VCV có 136 chuỗi đƣợc lựa chọn bao gồm tất khả kết hợp, có bán nguyên âm mà đƣợc coi có ảnh hƣởng mạnh mẽ tƣợng đồng cấu âm âm vị lân cận Có tổng số 223 chuổi ba âm vị đƣợc sử dụng 46 Để đánh giá mức độ cân âm vị cho tổ hợp câu đƣợc thể công thức (3.1) N S   pn log pn n 1 (3.1) Trong đó, pn xác suất xuất chuôi âm vị thứ n N số lƣợng chuỗi âm vị khác nhau, S giá trị ngầu nhiên đạt giá trị lớn (bằng 1) pn Từ việc thu thập liệu ban đầu với 10.000 câu, 503 câu cuối đƣợc chọn cách xóa thay đổi chúng để cho S đạt giá trị lớn Các sở liệu cho lƣợng lớn ngƣời nói có vốn từ vựng tƣơng đối nhỏ với 150 câu ngắn phần tập sở liệu từ thƣờng đƣợc sử dụng, 520 từ đƣợc sử dụng phần 5.229 từ thƣờng dùng giống với 216 từ ngữ âm cân Các sở liệu cho ngƣời nói tổng hợp bao gồm 14 truyện ngắn đƣợc thiết lập với loạt chủ đề khác Cứ khoảng 2.000 từ có chuỗi âm vị xác định đƣợc gắn vào 96 câu ngắn “để nói trƣớc theo kiểu khác nhau” 3.1.2 Thu thập liệu tiếng nói ATR Vì mục đích việc xây dựng hệ thống đảm bảo chất lƣợng sở liệu tốt có thể, liệu thu thập đƣợc giới hạn câu nói thơng thƣờng phát viên ngƣời kể chuyện Nhật Bản Cách phát âm chi tiết kỹ thuật giống nhƣ ngƣời dẫn chƣơng trình phát sóng NHK đƣợc coi tiêu chuẩn tiếng Nhật Các từ câu đƣợc đọc tốc độ nói bình thƣờng làm bật lên theo tiêu chuẩn ngƣời phát viên Đài phát NHK 47 Hình 3.1: Sơ đồ khối hệ thống thu thập liệu Tất liệu thu thập ban đầu đƣợc ghi nhận vào máy ghi âm PCM mơi trƣờng có tiếng ồn tự nhiên, sau lọc qua anti-alias (bộ lộc thơng thấp 8kHz), số hóa 16 bit cách lấy mẫu 20kHz Dữ liệu thu đƣợc đƣợc xử lý máy trạm MASSCOMP-MD5600 “spectrograms” âm với số thông số đƣợc ghi nhãn tay 48 3.1.3 Gán nhãn ATR Phân đoạn Hầu nhƣ vẽ ranh giới âm vị câu nói Trƣớc hết, phân đoạn gán nhãn sở liệu đƣợc thực tay để giữ cho chất lƣợng âm đƣợc tốt Kiểm tra phổ, âm vị đƣợc tiến hành phân đoạn với nguyên âm chuyển tiếp từ phận đến phụ âm liền kề đánh dấu Trong vài trƣờng hợp khó xác định ranh giới âm vị, đặc biệt hai nguyên âm liên tiếp Trong trƣờng hợp nhƣ ranh giới đƣợc xác định trung tâm trình chuyển tiếp hai âm vị Tuy nhiên thực phân đoạn hai âm vị hợp thành âm vị mà gọi “không thể tách rời” Bảng 3.2: Các lớp phiên âm Lớp Miêu tả Lớp Các ký hiệu âm vị Lớp Những kiện âm Lớp Sự kiện Acoustic Lớp Biến thể Allophonic Lớp Các phần riêng biệt Lớp Các trung tâm nguyên âm 49 Bảng 3.3: Các ký hiệu âm – âm cho lớp thứ Ký hiệu a, i, u, e, o < Sự kiện âm Nguyên âm ổn định Chuyển nguyên âm đứng trƣớc phụ âm tiếng nói > Chuyển nguyên âm theo sau phụ âm khơng có tiếng nói *> Chuyển ngun âm theo sau phụ âm hữu Tr Một phần ngữ âm khơng giải thích p, t, k, b, d, g Khơng âm phụ âm hữu cl Kết thúc cho phụ âm không âm (im lặng) *cl Kết thúc cho phụ âm hữu s, sh, j,dj, f w, y Phụ âm đọc rung lƣỡi để phát âm Bán nguyên âm Phiên âm – ngữ âm Nhằm đáp ứng đa dạng nhu cầu nghiên cứu tiếng nói, nhiều phiên âm đƣợc thực nhiều cách Bảng 3.2 thể lớp phiên âm khác đƣợc thực Lớp lớp âm vị bảng chữ Nhật Bản đƣợc trình bày hệ thống Hepburn Lớp lớp “Sự kiện âm thanh”, lớp thể thay đổi âm lời nói có thật Lớp lớp quan trọng cho phát biểu nghiên cứu âm thông tin ngữ âm Các ký hiệu tƣơng ứng hai lớp không luôn giống Các lớp thứ ba thứ tƣ đƣợc thiết kế để thể biến thể phần 50 tách rời, tƣơng ứng Lớp cuối đƣợc sử dụng nhƣ trỏ để đánh dấu trung tâm nguyên âm Dƣới hình ảnh ví dụ kết phiên âm đa tầng Hình 3.2: Một ví dụ kết phiên âm đa tầng Các ký hiệu đƣợc sử dụng để mô tả lớp (Sự kiện âm thanh) đƣợc tóm tắt bảng 3.3 Mặc dù hầu hết ký hiệu lớp thứ giống nhƣ việc chuyển âm vị, phần tƣơng ứng chúng khác nhiều trƣờng hợp Trong lớp nguyên âm đƣợc chia thành 51 phần: phần đƣợc chuyển đổi từ phụ âm trƣớc (nếu có) cộng với phần ổn định phần chuyển đổi phụ âm (nếu có) Hình 3.2 cho thấy ví dụ nhiều phiên âm – ngữ âm câu nói “la to shi ma tsu/” Mục đích phiên âm khơng phải định nghĩa xác mơ tả tốt tiếng nói liên tục Việc cấp nhãn đƣợc huấn luyện vài tháng để phân đoạn chuyển âm cách nhìn vào âm spectrograms Sau huấn luyện, kiểm tra việc gán nhãn ban đầu để kiểm tra tính xác khác biệt ranh giới nhãn nhỏ trung bình “lỗi phân đoạn” cho ký hiệu lớp thứ hai 8ms ngoại trừ âm tiết iN 3.2 Cài đặt phƣơng pháp MATLAB Luận văn sử dụng thƣ viện mã nguồn mở MATLAB Audio Toolbox tác giả GS Jyh-Shing Roger Jang đến từ ĐH Quốc Gia Đài Loan, phòng lab MIRLAB cung cấp đầy đủ hàm xử lý âm sở để tính tốn vector đặc trƣng MFCC ƣớc lƣợng tham số VQ, GMM 3.2.1 Cài đặt phƣơng pháp VQ Đối tƣợng nghiên cứu luận văn phƣơng pháp nhận dạng ngƣời nói GMM Tuy nhiên để có so sánh, đánh giá hiệu phƣơng pháp GMM với phƣơng pháp kinh điển khác, luận văn cài đặt đánh giá phƣơng pháp nhận dạng ngƣời nói phép lƣợng tử hóa vector VQ Cơ sở lý thuyết thao tác phân khung, lấy cửa sổ, trích đặc trƣng MFCC nhƣ hàm khởi tạo, ƣớc lƣợng tham số VQ trình bày chƣơng 1, Luận văn sử dụng thƣ viện mã nguồn mở Audio Toolbox tác giả GS Jyh-Shing Roger Jang đến từ ĐH Quốc Gia Đài Loan, phòng 52 lab MIRLAB cung cấp đầy đủ hàm xử lý âm sở để tính tốn vector đặc trƣng MFCC ƣớc lƣợng tham số VQ Thuật toán huấn luyện nhận dạng VQ đƣợc cài đặt nhƣ mô tả lƣu đồ hình 3.3, hình 3.4 Ngƣời nói … Ngƣời nói N … FFT Đƣờng bao phổ Rút gọn đƣờng bao phổ MFCC … MFCC N Sinh codebook Hình 3.3: Thuật tốn huấn luyện VQ 53 Ngƣời nói A FFT Đƣờng bao phổ Rút gọn đƣờng bao phổ MFCC Tính khoảng cách tới tâm codebook Kết nhận dạng (khoảng cách ngắn nhất) Codebook đƣợc sinh Hình 3.4: Thuật tốn nhận dạng VQ 3.2.2 Cài đặt phƣơng pháp GMM Cơ sở lý thuyết thao tác phân khung, lấy cửa sổ, trích đặc trƣng MFCC nhƣ hàm khởi tạo, ƣớc lƣợng GMM trình bày chƣơng Luận văn sử dụng thƣ viện mã nguồn mở Audio Toolbox tác giả GS Jyh-Shing Roger Jang đến từ ĐH Quốc Gia Đài Loan, phòng 54 lab MIRLAB cung cấp đầy đủ hàm xử lý âm sở để tính tốn vector đặc trƣng MFCC ƣớc lƣợng tham số GMM Thuận toán huấn luyện nhận dạng dùng GMM đƣợc tác giả luận văn cài đặt theo lƣu đồ nhƣ hình 3.5, hình 3.6 Ngƣời nói A FFT Đƣờng bao phổ Rút gọn đƣờng bao phổ MFCC Ƣớc lƣợng tham số GMM cho ngƣời A Hình 3.5: Thuật tốn huấn luyện GMM 55 Ngƣời nói A FFT Đƣờng bao phổ Rút gọn đƣờng bao phổ Log Likelihood Kết nhận dạng … Các mơ hình huấn luyện Hình 3.6: Thuật tốn nhận dạng GMM 56 3.3 Kết phƣơng pháp Sau thực nghiệm phƣơng pháp nhận dạng ngƣời nói VQ GMM, chúng tơi thử nghiệm sở liệu tiếng nói tiếng Nhật ATR Để trình thử nghiệm đƣợc đơn giản, chúng tơi huấn luyện ngƣời nói, ngƣời nói câu ngắn Sau huấn luyện, ngƣời nói huấn luyện đƣợc nhận dạng thử nghiệm Tập mẫu huấn luyện nhận dạng đƣợc sử dụng hai phƣơng pháp nhận dạng ngƣời nói VQ GMM giống Nhận dạng với phƣơng pháp VQ ta thu đƣợc tỷ lệ nhận dạng tập nhận dạng 20/24 mẫu (83.33 %) Nhận dạng với phƣơng pháp GMM tỷ lệ nhận dạng tập nhận dạng 23/24 mẫu (95.83 %) 3.4 Đánh giá kết So với kết nghiên cứu công bố, kết thử nghiệm luận văn tƣơng đồng Điều lần khẳng định phƣơng pháp nhận dạng ngƣời nói khơng phụ thuộc từ khóa GMM tốt phƣơng pháp VQ phƣơng pháp hiệu cần quan tâm nghiên cứu thử nghiệm tiếp Bƣớc luận văn xây dựng sở liệu nhiều ngƣời nói kịch tiếng Việt thử nghiệm phƣơng pháp GMM với sở liệu để đánh giá độ hiệu phƣơng pháp với tiếng Việt 57 KẾT LUẬN Bài toán nhận dạng ngƣời nói đƣợc nghiên cứu nhiều thời gian gần Nhận dạng ngƣời nói có nhiều ứng dụng công tác điều tra, giám định tội phạm, xác thực ngƣời dùng, giao dịch ngân hàng,… Về bản, nhận dạng ngƣời nói nhận dạng tiếng nói nói chung có điểm chung giống q trình xử lý tín hiệu tiếng nói, học mẫu phân lớp, nhận dạng so khớp mẫu Trong đề tài này, chúng tơi nghiên cứu xử lý tiếng nói nói chung tập trung nghiên cứu phƣơng pháp, xây dựng hệ thống nhận dạng ngƣời nói khơng phụ thuộc từ khóa dùng mơ hình GMM Các kết nghiên cứu cho thấy phƣơng pháp nhận dạng ngƣời nói khơng phụ thuộc từ khóa GMM phƣơng pháp hiệu cần quan tâm nghiên cứu thử nghiệm tiếp Bƣớc luận văn xây dựng sở liệu nhiều ngƣời nói kịch tiếng Việt thử nghiệm phƣơng pháp GMM với sở liệu để đánh giá độ hiệu phƣơng pháp với tiếng Việt 58 TÀI LIỆU THAM KHẢO Tài liệu tiếng việt [1] Đặng Văn Chuyết, “Xây dựng hệ nhận dạng ngƣời nói tiếng Việt bán tự động ứng dụng giám định âm hình sự,” Báo cáo đề tài KHCN, 2007 [2] Ngô Minh Dũng, Nghiên cứu kỹ thuật nhận dạng người nói dựa từ khóa tiếng Việt, Luận án tiến sỹ, Đại học Bách Khoa Hà Nội, 2010 [3] Ngơ Hồng Huy, "Ứng dụng thuật toán lƣợng tử hoá mạng nơron vấn đề nhận dạng ngƣời nói Hội thảo quốc gia lần thứ 10 “Một số vấn đề chọn lọc CNTT truyền thông”, Đại Lải, 14-15/09/2007." (2007) [4] Trần Thị Bạch Huệ (2008), Xác minh người qua giọng nói, luận văn thạc sĩ, ĐH Khoa học tự nhiên - ĐHQG Thành phố Hồ Chí Minh [5] Bạch Hƣng Khang, Nghiên cứu phát triển công nghệ nhận dạng, tổng hợp xử lý ngôn ngữ tiếng Việt, Báo cáo Đề tài cấp Nhà nước mã số KC01-03, 2004 Tài liệu tiếng anh [6] Akagi, Masato "Analysis of Production and Perception Characteristics of Non-linguistic Information in Speech and Its Application to Inter-language Communications." Proceedings: APSIPA ASC 2009 [7] Jurafsky, Daniel, and H James "Speech and language processing an introduction to natural language processing, computational linguistics, and speech." (2000) [8] Moulines, Eric, and Francis Charpentier "Pitch-synchronous waveform processing techniques for text-to-speech synthesis using diphones." Speech communication 9.5 (1990): 453-467 [9] Muda, Lindasalwa, Mumtaj Begam, and I Elamvazuthi "Voice recognition algorithms using mel frequency cepstral coefficient (MFCC) and 59 dynamic time warping (DTW) techniques." arXiv preprint arXiv:1003.4083 (2010) [10] Nghia, Phung Trung, et al A robust wavelet-based text-independent speaker identification International Conference on Computational Intelligence and Multimedia Applications, (2007): 219-223 [11] Rabiner, Lawrence R., and Biing-Hwang Juang Fundamentals of speech recognition Vol 14 Englewood Cliffs: PTR Prentice Hall, 1993 [12] Reynolds, Douglas A., Thomas F Quatieri, and Robert B Dunn "Speaker verification using adapted Gaussian mixture models." Digital signal processing 10.1 (2000): 19-41 [13] Prabhakar, Om Prakash, and Navneet Kumar Sahu "Performance Improvement of Human Voice Recognition System using Gaussian Mixture Model." Performance Improvement 3.1 (2014) [14] Srinivasan, A "Speaker identification and Verification using Vector quantization and Mel frequency Cepstral Coefficients." Engineering and Technology 4.1 (2012): 33-40 [15] Stan Salvador and Pjilip Chan, “FastDTW: Toward Accurate Dy ‐ namic Time Warping in Linear time space”, Florida Institute of Technology, Melbourne ... pháp sử dụng mơ hình pha trộn Gaussian [10], [12], [13] Luận văn nghiên cứu đánh giá thực nghiệm phƣơng pháp để đƣa khuyến nghị Phƣơng pháp nghiên cứu Phƣơng pháp nghiên cứu luận văn nghiên cứu. .. ứng dụng cụ thể nhƣ nhận dạng tiếng nói tiếng Anh, tiếng Việt,… nhận dạng ngƣời nói, nhận dạng ngơn ngữ nói, … Bài tốn nhận dạng ngƣời nói đƣợc nghiên cứu nhiều thời gian gần Nhận dạng ngƣời nói. .. vi nghiên cứu Đối tƣợng nghiên cứu luận văn phƣơng pháp nhận dạng ngƣời nói giọng nói Đây đối tƣợng nghiên cứu đƣợc nhiều nhà nghiên cứu giới quan tâm thời gian gần Phạm vi luận văn bao gồm nghiên

Ngày đăng: 01/11/2020, 09:44

Từ khóa liên quan

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan