Sinh trắc học giọng nói – voice biometrics

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang	19
Dung lượng	600,83 KB

Nội dung

HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG CƠ SỞ TP HỒ CHÍ MINH KHOA CÔNG NGHỆ THÔNG TIN BÁO CÁO CÁ NHÂN MÔN XỬ LÝ ẢNH ĐỀ TÀI SINH TRẮC HỌC GIỌNG NÓI – VOICE BIOMETRICS Nội dung 1 Giới thiệu 1 1 1 Ứng d[.]

HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THƠNG CƠ SỞ TP.HỒ CHÍ MINH KHOA CƠNG NGHỆ THƠNG TIN BÁO CÁO CÁ NHÂN MÔN: XỬ LÝ ẢNH ĐỀ TÀI: SINH TRẮC HỌC GIỌNG NĨI – VOICE BIOMETRICS Nợi dung Giới thiệu: 1.1.Ứng dụng: 1.2.Công nghệ: Thông tin nhận dạng tín hiệu giọng nói: 2.1.Tạo ngôn ngữ tạo giọng nói: .2 2.2 Nhiều cấp độ thông tin 3 Rút trích đặc trưng mã hóa 3.1 Phân tích ngắn hạn 3.2 Tham số hóa 3.3 Phiên âm mã hóa từ 3.4 Mã hóa Prosodic Nhận dạng người nói phụ thuộc vào văn 4.1 Phân loại hệ thống kỹ thuật 4.2 Cơ sở liệu điểm chuẩn .7 4.3 Nghiên cứu điển hình: Nhận dạng người nói phụ thuộc vào văn với HMM thích ứng người nói xác nhận lại HMM .8 Nhận dạng người nói độc lập với văn 5.1 Hệ thống quang phổ ngắn hạn 5.2 Idiolectal systems 10 5.3 Phonotactic systems 11 5.4 Prosodic systems .12 5.5 Cơ sở liệu điểm chuẩn 13 Ứng dụng .13 Kết luận 14 Giới thiệu: Dữ liệu gần người dùng điện thoại di động toan giới, số lượng điện thoại cố định hoạt động triển khai VoIP (Mạng thoại qua IP) gần đây, xác nhận giọng nói đặc điểm sinh trắc học dễ tiếp cận khơng cần thêm thiết bị thu nhận hệ thống truyền dẫn Thực tế mang lại cho tiếng nói mợt lợi áp đảo với đặc điểm sinh trắc học khác, đặc biệt người dùng hệ thống từ xa tính đến Tuy nhiên, đặc điểm giọng nói khơng liên quan đến đặc điểm âm sắc mà liên quan đến nhiều yếu tố môi trường xã hội học, việc tạo giọng nói kết mợt q trinh phức tạp Do đó, giọng nói truyền nhúng mợt phiên hư cấu đặc điểm người nói bị suy giảm bị ảnh hưởng nhiều biến ngữ cảnh khó xử lý May mắn thay, cơng nghệ ứng dụng đại bù đắp cho tất nguồn biến đổi cho phép ứng dụng giá trị gia tăng hiệu đáng tin cậy cho phép xác thực từ xa phát giọng nói dựa tinh hiệu thoại truyền qua điện thoại 1.1.Ứng dụng: Do tinh phổ biến tín hiệu thoại, phạm vi ứng dụng sinh trắc học giọng nói rợng so với đặc điểm sinh trắc học thông thường khác Chúng ta phân biệt ba loại ứng dụng chinh tận dụng lợi thông tin sinh trắc học có tín hiệu giọng nói:  Xác thực giọng nói (điều khiển truy cập, thường từ xa qua điện thoại) nhận dạng (kiểm tra giọng nói tự nhiên)  Phát người nói (ví dụ: phát danh sách đen trung tâm cuộc gọi nghe giam sát), gọi truy vết người nói  Nhận dạng người nói pháp y (sử dụng giọng nói làm chứng trước tịa án pháp luật thơng tin tình báo cuộc điều tra cảnh sát) 1.2.Công nghệ: Nguồn thơng tin mã hóa tín hiệu thoại chắn nợi dung ngơn ngữ Vì lý đó, khơng có ngạc nhiên tùy tḥc vào cách sử dụng kiểm sốt nợi dung ngơn ngữ, phân biệt hai loại cơng nghệ nhận dạng người nói khác với ứng dụng tiềm khác Thứ nhất, text-dependent technologies (các công nghệ phụ thuộc vào văn bản), nơi người dùng yêu cầu phải một cụng từ khoa cụ thể (ví dụ: “Open, Sesame”) chuỗi (ví dụ:”12-34-56”), chủ đề ứng dụng kiểm sốt truy cập sinh trắc học xác thực giọng nói Mức độ bảo mật hệ thống dựa mật sau nâng cao cách yêu cầu kiến thức mật yêu cầu chủ sỡ hữu thực mật phải nói Để tranh việc ghi lại mật thực bị đanh cắp, hệ thơng phụ tḥc vào văn cải tiến để hỏi lời nhắc ngẫu nhiên, không mong đội người gọi, mà kẻ mạo danh dễ dàng hiểu Loại công nghệ nhận dạng người nói thứ hai cơng nghệ gọi text-independent (độc lập với văn bản) Chúng yếu tố thúc đẩy hai loại ứng dụng lại, cụ thể nhận dạng người nói nhận dạng người nói pháp y Từ nội dung ngôn ngữ nguồn thông tin chinh mã hóa phát biểu, tính độc lập với văn một thách thức lớn đối tượng nghiên cứu cợng đồng nhận dạng người nói hai thập kỷ qua NIST SRE (Speaker Recognition Evaluations – đanh giá nhận dạng người nói) thực hiền hàng năm kể từ năm 1996 thúc đẩy xuất sắc nghiên cứu linh vực này, với tiến bộ phi thường đạt qua năm dựa đánh giá mù mờ với sở liệu chung giao thức, đặc biệt la chia sẻ thông tin người tham gia hội thảo sau lần đanh giá Thơng tin nhận dạng tín hiệu giọng nói: Trong phần này, giải cách nhúng đặc điểm cụ thể người nói vào tín hiệu lời nói Sản xuất lời nói một trinh phức tạp mà kết phụ tḥc vào nhiều biến cấp độ khác nhau, bao gồm từ yếu tố xã hợi học (ví dụ: trinh đợ học vấn, bối cảnh ngôn ngữ khác biệt phương ngữ) vấn đề sinh lý (ví dụ: chiều dài, hình dạng mơ đường âm cấu hình đợng quan khớp) Những ảnh hưởng này đồng thời xuất hành đợng nói mợt số tất số chúng chứa đặc điểm cụ thể người nói Vì lý cần làm rõ phân biệt rõ ràng cấp độ nguồn khác thơng tin người nói mà cỏ thể trích xuất để mơ hình hóa cá nhân người nói 2.1.Tạo ngơn ngữ tạo giọng nói: Quá trinh người xây dựng mợt thơng điệp mã hóa ngơn ngữ chủ đề nghiên cứu nhiều năm lĩnh vực tâm lý Nhưng một thông điệp mã hóa não người, cần mợt q trinh sinh lý khớp nối phức tạp để cuối tạo mợt dạng sóng lời nói (giọng nói) chứa thông điệp ngôn ngữ (cũng nhiều nguồn thông tin khác, mợt số danh tính người nói) mã hóa mợt kết hợp đặc điểm phổ thời gian Quá trình phương pháp phụ nghiên cứu ngữ âm học mợt số linh vực liên quan đến phân tích giọng nói khác (kỹ sư, bác sĩ, v.v.) Q trình sản xuất lời nói phức tạp tự xứng đáng có vài chương sách, quan tâm đến khía cạnh liên quan đến mã hóa mợt số loại thơng tin cá nhân tín hiệu lời nói cuối truyền khỏi miệng người nói Trong hai giai đoạn sản xuất giọng nói (tạo ngơn ngữ sản xuất lời nói), thơng số kỹ thuật người nói giới thiệu Trong lĩnh vực máy đo sinh trắc học giọng nói - cịn gọi nhận dạng người nói - hai thành phần tương ứng với thường gọi đặc điểm cấp độ cao (ngôn ngữ) cấp độ thấp (âm thanh) 2.2 Nhiều cấp độ thông tin Các thí nghiệm với thính giả người cho thấy, theo kinh nghiệm của, người nhận người nói kết hợp cấp đợ thơng tin khác điều đặc biệt quan trọng, với trọng lượng khác người nói khác (ví dụ: mợt người nói hiển thị đường viền cao đợ đặc trưng, mợt khác có một mũi mạnh làm cho chúng "âm thanh" khác nhau) Hệ thống tự đợng có ý định tận dụng nguồn thơng tin khác có sẵn, kết hợp chúng theo cách tốt cho người nói Đặc điểm nhận dạng mợt người nói cấp đợ cao thường cơng nghệ tính đến thời điểm mô tả cách một người nói sử dụng mợt hệ thống ngơn ngữ cụ thể “Việc sử dụng” xác định vô số yếu tố, một số yếu tố ổn định người lớn trình đợ học vấn, điều kiện xã hợi học gia đình thị trấn xuất xứ Nhưng có mợt số yếu tố cấp cao phụ thuộc nhiều vào môi trường, chẳng hạn một bác sĩ nam không sử dụng ngôn ngữ theo cách tương tự nói chuyện với đồng nghiệp bệnh viện (xã giao), với gia đình nhà, với bạn bè chơi Là nhóm đặc điểm thứ hai xuống mức thơng tin thấp tín hiệu giọng nói, âm vị học, mơ tả cách sử dụng người nói đơn vị điện thoại khả nhận khả dụng Âm vị học cần thiết để sử dụng mợt ngơn ngữ chìa khóa việc học ngoại ngữ, xem xét đặc điểm cụ thể người nói ngữ âm, tìm thấy mợt số cách sử dụng định khác với người dùng khác Trong nhóm thứ ba, prosody (siêu phân đoạn), kết hợp lượng tức thời, ngữ điệu, tốc đợ nói thời lượng đơn vị để cung cấp cho lời nói tự nhiên, đầy đủ ý nghĩa giọng điệu cảm xúc Prosody xác định mục tiêu ưu việt cấp độ cụm từ diễn ngôn, đồng thời xác định hành động tức thời để tuân thủ mục tiêu Nó giúp làm rõ thơng điệp (“chín trăm hai mươi bảy” phân biệt “927” “900 27” theo phương thức chuyên nghiệp), loại thông điệp (khai báo, thẩm vấn, mệnh lệnh) trạng thái tâm trí người nói Nhưng theo cách người nói sử dụng yếu tố thuận âm khác nhau, nhiều đặc điểm riêng người nói bao gồm, chẳng hạn như, đường viền cao độ đặc trưng đầu cuối cụm từ nhóm trọng âm Cuối cùng, cấp độ thấp hơn, đặc điểm quang phổ ngắn hạn tín hiệu lời nói, liên quan trực tiếp đến hành động khớp riêng lẻ liên quan đến điện thoại sản xuất cấu hình sinh lý cá nhân bợ máy sản xuất giọng nói Thơng tin phổ nguồn tính cá nhân lời nói sử dụng ứng dụng thực tế, trọng tâm nghiên cứu gần hai mươi năm Thơng tin quang phổ có ý định trích xuất điểm đặc biệt giọng hát người nói động lực phát âm tương ứng họ Hai loại thông tin cấp thấp thường sử dụng, thông tin tĩnh liên quan đến khung phân tích thông tin động liên quan đến cách thông tin phát triển khung liền kề, có tính đến tượng khớp nối phụ thuộc mạnh mẽ vào người nói, q trình mà mợt cá nhân tự đợng di chuyển từ vị trí khớp nối sang vị trí khớp nối Rút trích đặc trưng mã hóa Bước việc xây dựng hệ thống nhận dạng người nói tự đợng trích xuất đáng tin cậy đặc trưng mã thông báo có chứa thơng tin nhận dạng quan tâm Trong phần này, trình bày ngắn gọn quy trình sử dụng để trích xuất vectơ đặc trưng ngắn hạn (thông tin quang phổ, lượng, cao độ) mã thông báo trung hạn dài hạn dạng điện thoại, âm tiết từ 3.1 Phân tích ngắn hạn Để thực phân tích phổ đáng tin cậy, tín hiệu phải thể đặc tính tĩnh khơng dễ quan sát tín hiệu lời nói thay đổi liên tục Tuy nhiên, giới hạn cửa sổ phân tích đợ dài ngắn từ 20 đến 40 mili giây, hệ thống khớp thay đổi đáng kể một khung thời gian ngắn vậy, thu thường gọi tín hiệu giả tĩnh khung Những tín hiệu cửa sổ giả định, tính dừng giả, đến từ mợt hệ thống LTI (biến thiên thời gian tuyến tính) cụ thể cho khung đó, sau thực hiện, thường sau sử dụng một số loại cửa sổ giống cosine làm hamming hanning, phân tích quang phổ khoảng thời gian ngắn cửa sổ hạn, thu bao quang phổ thay đổi khung 3.2 Tham số hóa Tín hiệu cửa sổ hamming / hanning thời gian ngắn có tất thông tin thời gian / phổ mong muốn, tốc đợ bit cao (ví dụ: số hóa giọng nói điện thoại với tần số lấy mẫu kHz mợt cửa sổ 32 ms Có nghĩa 256 mẫu x 16 bit / mẫu = 4096 bit = 512 byte khung hình) Linear Predictive Coding - Mã hóa dự đốn tuyến tính (LPC) giọng nói chứng minh một cách hợp lệ để nén đường bao quang phổ mợt mơ hình tồn cực (hợp lệ cho tất âm âm mũi một giá trị gần âm mũi) với 10 đến 16 hệ số , có nghĩa thơng tin quang phổ khung biểu diễn khoảng 50 byte, 10% tốc đợ bit ban đầu Thay hệ số LPC, có tương quan cao chúng (ma trận hiệp phương sai xa đường chéo), hệ số cepstral giả gụ thường sử dụng, lấy trực tiếp LPCC (LPC-derived Cepstral vectors - vectơ Cepstral có nguồn gốc từ LPC) từ hệ số LPC, trực tiếp thu từ mel dựa tri giác -phân tích quang phổ bợ lọc MFCC (Hệ số quang phổ dựa tần số Mel) Cho đến nay, mợt yếu tố biến đổi giọng nói đến từ việc sử dụng kênh truyền khác (ví dụ: thử nghiệm giọng nói qua điện thoại với kiểu người nói ghi âm micrơ) Biểu diễn cepstral có lợi kênh bất biến cộng thêm một độ lệch cepstral khơng đổi dễ dàng bị trừ (CMS.- Cepstral Mean subtraction), thành phần cepstral giọng nói bị loại bỏ thực lọc RASTA vectơ tức thời cepstral Để tính đến q trình coarticulation, hệ số delta (vận tốc) delta-delta (gia tốc) lấy từ thông tin dựa cửa sổ tĩnh, tính tốn ước tính cách hệ số khung thay đổi qua cửa sổ liền kề (thường từ ± 3, không hơn ± 5) 3.3 Phiên âm mã hóa từ Mơ hình Markov ẩn- Hidden Markov Models (HMM) công cụ thành công sử dụng rộng rãi (ngoại trừ một số kiến trúc ANN) để mã hóa ngữ âm, âm tiết từ, nghĩa dịch từ lời nói lấy mẫu thành mợt chuỗi đơn vị ngôn ngữ chỉnh theo thời gian HMM từ trái sang phải bộ máy trạng thái mơ hình thống kê phần giả định giọng nói (trạng thái) q trình chuyển đổi (ép buộc từ trái sang phải, giữ cảm giác thời gian) trạng thái, cố gắng bắt chước cách chuyển đợng quan khớp chúng ta, có xu hướng nghỉ ngơi (trong tất âm khơng nổ) vị trí khớp (giả sử trạng thái tĩnh) liên tục di chuyển (chuyển tiếp) từ trạng thái sang trạng thái sau Hiện tại, hầu hết HMM lập mơ hình thông tin trạng thái với hàm mật độ xác suất liên tục, thường hỗn hợp gaussian Loại mơ hình cụ thể thường gọi CDHMM (Continuous Density HMM, đối lập với HMM mật độ rời rạc dựa VQ trước đây) Huấn luyện HMM thường thực thông qua ước lượng Baum-Welch, giải mã chỉnh thời gian thường thực thông qua giải mã Viterbi Hiệu suất HMM phổ cải thiện cách sử dụng mơ hình ngơn ngữ, mơ hình áp đặt mợt số ràng ḅc ngơn ngữ ngữ pháp kết hợp gần vơ hạn tất đơn vị Để cho phép tăng hiệu quả, việc cắt tỉa tìm kiếm chùm tia mợt chế tổng quát để đẩy nhanh đáng kể trình nhận dạng mà khơng có suy giảm hiệu suất 3.4 Mã hóa Prosodic Các tính ưu việt cao đợ lượng có mức khung hình Năng lượng cửa sổ thu dễ dàng thông qua định lý Parseval, dạng thời gian dạng phổ, cao đợ tức thời xác định bằng, ví dụ: phương pháp tự tương quan dựa phân rã cepstral, thường làm mịn mợt số lọc thời gian Các tính thuận âm quan trọng khác tính liên quan đến thời lượng đơn vị ngôn ngữ, tốc đợ nói tất tính liên quan đến trọng âm Trong tất trường hợp đó, cần phải phân đoạn xác, đánh dấu vị trí âm tiết, đường nét lượng cao đợ để phát vị trí trọng âm dấu chuyển cụm từ giọng nói Phân đoạn ngữ âm âm tiết lời nói mợt vấn đề phức tạp lâu giải hữu ích cho việc nhận dạng người nói, hệ thống prosodic khơng phải lúc yêu cầu phân đoạn chi tiết Nhận dạng người nói phụ tḥc vào văn Hệ thống nhận dạng người nói phân thành hai loại phụ lớn: phụ thuộc vào văn không phụ thuộc vào văn Cái trước sử dụng nội dung từ vựng phát biểu để nhận dạng người nói, sau cố gắng giảm thiểu ảnh hưởng nội dung từ vựng vốn coi không xác định việc nhận dạng người nói Sự khác biệt làm cho hai loại phụ hệ thống nhận dạng người nói khác kỹ thuật sử dụng ứng dụng tiềm Phần dành cho hệ thống nhận dạng người nói phụ tḥc vào văn bản, hệ thống tìm thấy ứng dụng chúng hệ thống tương tác, nơi cần có cợng tác từ người dùng để xác thực danh tính họ Ví dụ điển hình ứng dụng xác thực giọng nói qua điện thoại cho hệ thống phản hồi giọng nói tương tác yêu cầu một số mức độ bảo mật ứng dụng ngân hàng đặt lại mật Tương tự phương thức sinh trắc học khác, việc sử dụng hệ thống nhận dạng người nói phụ thuộc vào văn yêu cầu giai đoạn đăng ký người dùng cung cấp mợt số mẫu để xây dựng mơ hình người dùng giai đoạn nhận dạng mẫu giọng nói so khớp với mơ hình người dùng 4.1 Phân loại hệ thống kỹ thuật Chúng ta phân loại hệ thống nhận dạng người nói phụ tḥc vào văn theo quan điểm ứng dụng thành hai loại: hệ thống văn cố định hệ thống văn biến đổi Trong hệ thống văn cố định, nội dung từ vựng ghi danh mẫu nhận dạng giống Trong hệ thống văn biến đổi, nội dung từ vựng mẫu nhận dạng khác thử nghiệm truy cập với nội dung từ vựng mẫu đăng ký Hệ thống văn thay đổi linh hoạt mạnh mẽ trước cuộc công sử dụng ghi âm từ người dùng bắt chước sau nghe người nói thực nói mật Một khả thú vị việc tạo một lời nhắc mật tạo ngẫu nhiên khác người dùng xác minh (hệ thống nhắc văn bản), khơng thể sử dụng ghi Đối với kỹ thuật sử dụng để nhận dạng người nói phụ tḥc vào văn bản, người ta chứng minh thông tin diện cấp đợ khác tín hiệu giọng nói (các đặc điểm kích thích tồn phần, quang phổ siêu phân đoạn) sử dụng mợt cách hiệu để phát danh tính người dùng Tuy nhiên, thông tin sử dụng rộng rãi nợi dung phổ tín hiệu lời nói, xác định cấu hình vật lý động lực đường âm Thông tin thường tóm tắt dạng chuỗi thời gian vectơ MFCC, vectơ số đại diện cho mợt thời lượng nói từ 20-40 mili giây Bằng cách này, vấn đề nhận dạng người nói phụ tḥc vào văn giảm xuống thành vấn đề so sánh chuỗi vectơ MFCC với mơ hình người dùng Để so sánh có hai phương pháp sử dụng rộng rãi: phương pháp dựa khuôn mẫu phương pháp thống kê Trong phương pháp dựa khn mẫu mơ hình người nói bao gồm một số chuỗi vectơ tương ứng với phát biểu đăng ký việc nhận dạng thực cách so sánh phát biểu xác minh với phát biểu đăng ký So sánh thực cách sử dụng Dynamic Time Warping (DTW) một cách hiệu để bù đắp sai lệch thời gian cách phát âm khác Trong phương pháp sử dụng, đặc biệt hệ thống nhúng có tài nguyên hạn chế, phương pháp thống kê cụ thể Mô hình Markov ẩn (HMM), có xu hướng sử dụng thường xun mơ hình dựa khn mẫu HMM cung cấp tính linh hoạt hơn, cho phép chọn đơn vị giọng nói từ đơn vị âm vị phụ đến từ cho phép thiết kế hệ thống nhắc văn 4.2 Cơ sở liệu điểm chuẩn Cơ sở liệu sử dụng để xác minh người nói phụ tḥc vào văn sở liệu không thiết kế đặc biệt cho nhiệm vụ sở liệu TI-DIGITS TIMIT Một sở liệu thiết kế đặc biệt cho nghiên cứu nhận dạng người nói phụ tḥc vào văn YOHO Nó bao gồm 96 câu nói để ghi danh thu thập phiên khác 40 câu phát biểu cho kiểm tra thu thập 10 phiên cho người tổng số 138 diễn giả Mỗi câu nói bao gồm bợ ba cặp chữ số khác (ví dụ: “12-34-56”) Đây có lẽ tiêu chuẩn mở rộng tiếng để so sánh thường sử dụng để đánh giá hệ thống phụ thuộc vào văn Tuy nhiên, sở liệu YOHO có mợt số hạn chế Ví dụ: chứa lời nói ghi lại một micrô môi trường yên tĩnh không thiết kế để mô kẻ giả mạo thông báo (tức kẻ mạo danh nói mật người dùng) Gần hơn, Tập đồn xác minh người nói thiết bị di động MIT thiết kế phép nghiên cứu xác minh người nói phụ tḥc vào văn điều kiện nhiễu thực tế, BIOSEC Baseline Corpus thiết kế để mô giả mạo thông tin (bao gồm tài liệu song ngữ mợt số phương thức sinh trắc học ngồi giọng nói) Mợt khó khăn việc so sánh hệ thống xác minh người nói phụ thuộc vào văn khác hệ thống có xu hướng phụ tḥc vào ngơn ngữ, nhiều nhà nghiên cứu có xu hướng trình bày kết họ sở liệu tùy chỉnh họ, nên so sánh trực tiếp Việc so sánh hệ thống thương mại khác chí cịn khó May mắn thay, một ấn phẩm gần so sánh hiệu suất kỹ thuật một vài hệ thống thương mại Tuy nhiên, phương thức sinh trắc học khác, hiệu suất kỹ thuật thứ nguyên để đánh giá thước đo khác liên quan đến khả sử dụng hệ thống cần đánh giá 4.3 Nghiên cứu điển hình: Nhận dạng người nói phụ tḥc vào văn với HMM thích ứng người nói xác nhận lại HMM Như mợt ví dụ hệ thống phụ tḥc vào văn thử nghiệm sở liệu điểm chuẩn YOHO, trình bày kết thu với hai hệ thống nhận dạng người nói phụ tḥc vào văn tác giả phát triển Các hệ thống mô một hệ thống tạo văn dựa một tập hợp HMM ngữ âm khơng phụ tḥc vào người nói ngữ cảnh đào tạo TIMIT Việc ghi danh bao gồm việc sử dụng mợt số câu người nói để điều chỉnh HMM cho người nói So sánh hai cách thực điều chỉnh này: với một lần xác nhận lại Baum-Welch với Hồi quy tuyến tính khả tối đa (MLLR) Cách tiếp cận trước cách tiếp cận thông thường yêu cầu sử dụng HMM đơn giản (chỉ một một vài Gauss cho tiểu bang) Càng sau lạ cho phép sử dụng HMM phức tạp Việc xác minh người nói bao gồm việc tính tốn điểm âm tạo q trình chỉnh bắt ḅc lời nói với phiên âm cách sử dụng HMM thích hợp với người nói HMM khơng phụ tḥc vào người nói Điểm cuối thử nghiệm đơn giản tỷ lệ điểm (khơng bao gồm chuẩn hóa điểm kết trình bày) Ví dụ kết YOHO hai hệ thống nhận dạng người nói phụ tḥc vào văn dựa HMM ngữ âm độc lập với người nói MLLR ước tính lại người nói BaumWelch cho lượng giọng nói đăng ký khác Mợt vấn đề quan trọng việc phát triển hệ thống nhận dạng người nói phụ tḥc vào văn số lượng tài liệu đào tạo cần thiết để đăng ký YOHO chứa phiên với 24 câu nói phiên Đây một số lượng lớn tài liệu lựa chọn mà có mợt ứng dụng thực tế Vì lý này, hình cho thấy kết đào tạo hai hệ thống với bốn phiên (96 phát biểu), một phiên (24 phát biểu) phát biểu từ một phiên Như mong đợi, hiệu suất cải thiện đáng kể với nhiều tài liệu đào tạo hơn, hệ thống thực tế cần phải tìm thỏa hiệp hiệu suất dễ dàng thuận tiện sử dụng Hình so sánh hệ thống dựa ước lượng lại Baum-Welch hệ thống dựa MLLR thích ứng, cho thấy hiệu suất tốt cho hệ thống dựa MLLR tất điều kiện lựa chọn Nhận dạng người nói đợc lập với văn Tính nhận dạng người nói khơng phụ tḥc vào văn bị thống trị phần lớn, từ năm 1970 đến cuối kỷ 20, hệ thống dựa quang phổ ngắn hạn Kể từ năm 2000, hệ thống cấp cao bắt đầu phát triển với kết đủ tốt nhiệm vụ có độ thử thách cao (đánh giá NIST SR) Tuy nhiên, hệ thống quang phổ tiếp tục hoạt động tốt hệ thống cấp cao (NIST 2006 SRE điểm chuẩn vào thời điểm viết bài), với kết phát tốt chế bù kênh tiên tiến gần 5.1 Hệ thống quang phổ ngắn hạn Khi phân tích quang phổ thời gian ngắn sử dụng để mơ hình hóa đặc tính người nói, mơ hình hóa “âm thanh” khác mà mợt người tạo ra, đặc biệt đường âm quan khớp họ Khi người cần nhiều âm (hoặc ký hiệu khác mặt âm học) để nói ngơn ngữ chung nào, rõ ràng đối mặt với một không gian đa lớp đặc điểm Phép lượng tử vector kỹ thuật hiệu vấn đề đa kính sử dụng để nhận dạng người nói, thường thu mợt mơ hình VQ cụ thể cho người nói tính tốn khoảng cách từ câu nói đến mơ hình dạng tổng trọng số khoảng cách tối thiểu khung hình đến bộ mã gần sách mã Việc sử dụng ranh giới trung tâm thay mật đợ xác suất mang lại hiệu suất cho VQ so với HMM mật độ liên tục kết nối đầy đủ, gọi HMM ergodic (E-HMM) Tuy nhiên, yếu tố hiệu suất quan trọng E-HMM tích số trạng thái nhân với số Gauss trạng thái, điều loại bỏ mạnh mẽ ảnh hưởng q trình chuyển đổi mơ hình kết nối đầy đủ Khi đó, hệ thống E-HMM trạng thái 4-Gauss cho trạng thái hoạt động tương tự hệ thống 4-trạng thái 5-Gauss / trạng thái, trạng thái 10-Gaussian / trạng thái, chí, điều đặc biệt thú vị, trạng thái 20 Gaussian / hệ thống trạng thái, thường gọi GMM Mơ hình hỗn hợp Gauss Những E-HMM GMM mợt trạng thái có lợi lớn điều tránh ước tính BaumWelch cho việc đào tạo, khơng cần chỉnh giọng nói trạng thái (tất lời nói chỉnh với một trạng thái nhất) giải mã Viterbi để thử nghiệm (một lần không cần chỉnh thời gian), giúp tăng tốc thời gian tính tốn với không bị suy giảm hiệu suất GMM một kỹ thuật tổng hợp hỗn hợp gaussian đa chiều cố gắng mơ hình hóa phân phối thống kê chưa biết liệu người nói GMM trở thành kỹ thuật đại vào năm 1990, khả xảy tối đa (thơng qua Kỳ vọng-Tối đa hóa, EM) đào tạo phân biệt (Thông tin tương hỗ tối đa, MMI) sử dụng Tuy nhiên, việc sử dụng MAP thích ứng với phương tiện từ Mơ hình chung (UBM) mang lại cho GMM một lợi lớn so với kỹ thuật khác, đặc biệt sử dụng với kỹ thuật bù Z-norm (chuẩn hóa điểm kẻ mạo danh), Tnorm ( bù phát âm), H-định mức (định mức Z phụ thuộc vào thiết bị cầm tay), HT-định mức (H + T-định mức) Lập đồ tính (xác định bù kênh) Các kỹ thuật phân biệt đối xử Mạng thần kinh nhân tạo sử dụng nhiều năm, hiệu suất chúng chưa đạt đến hiệu suất GMM Tuy nhiên, tính khả dụng vào cuối năm 90 Máy vectơ hỗ trợ (SVM) một bộ phân loại đào tạo phân biệt hiệu quả, mang lại cho GMM đối thủ cạnh tranh hiệu suất tương đương đạt cách sử dụng SVM không gian chiều cao nhiều hạt nhân thích hợp GLDS (Tuyến tính tổng qt Nhân trình tự phân biệt) sử dụng Gần đây, việc sử dụng SuperVectors, một kỹ thuật GMM-SVM hỗn hợp coi phương tiện GMM cho phát biểu (cả đào tạo kiểm tra) điểm khơng gian chiều cao (kích thước số hỗn hợp GMM nhân với thứ nguyên vectơ tham số hóa) cách sử dụng SVM cho người nói để phân loại phát âm chưa biết từ siêu phẳng người nói đào tạo Ưu điểm SuperVectors chúng hồn tồn phù hợp với phương pháp bù kênh dựa việc phát hướng với thay đổi tối đa ghi khác từ mợt người nói, cố gắng hủy bỏ giảm thiểu ảnh hưởng chúng Một số kỹ thuật liên quan họ xuất hiện, Phân tích yếu tố (yếu tố kênh người nói), Chiếu tḥc tính phiền tối (NAP) Chuẩn hóa hiệp phương sai lớp (WCCN), tất cho thấy cải tiến đáng kể so với hệ thống sở tương ứng 5.2 Idiolectal systems Hầu hết hệ thống nhận dạng người nói khơng phụ tḥc vào văn dựa đặc điểm quang phổ ngắn hạn cơng trình Doddington mở mợt giới khả cải thiện hệ thống nhận dạng người nói khơng phụ tḥc vào văn Doddington nhận chứng minh lời nói người nói khác khơng khác âm học, mà đặc điểm khác cách sử dụng từ Đặc biệt, công việc mình, ơng lập mơ hình cách sử dụng từ người nói cụ thể cách sử dụng n-gram mơ hình hóa chuỗi từ xác suất chúng chứng minh việc sử dụng mơ hình cải thiện hiệu suất hệ thống GMM âm / phổ Quan trọng kết cụ thể thực tế cơng trình thúc đẩy nghiên cứu việc sử dụng cấp độ thông tin cao (idiolectal, phonotactic, prosodic, v.v.) để nhận dạng người nói độc lập với văn Sau công bố công trình này, mợt số nhà nghiên cứu gặp hội thảo mùa hè SuperSID, nơi ý tưởng phát triển thêm thử nghiệm một thử nghiệm chung Các phần mô tả hai số hệ thống thành công khai thác mức độ thông tin cao hơn: hệ thống âm vị, cố gắng mơ hình hóa đặc điểm phát âm hệ thống thuận âm, mơ hình hóa mẫu âm chuyên biệt dành cho người nói 5.3 Phonotactic systems Xác minh lời nói so với mơ hình người nói phonotactic speaker recognition Hệ thống nhận dạng người nói âm điển hình bao gồm hai khối xây dựng chính: bợ giải mã ngữ âm, chuyển đổi lời nói thành mợt chuỗi nhãn ngữ âm giai đoạn mơ hình hóa ngơn ngữ thống kê ngram, mơ hình hóa tần số điện thoại chuỗi điện thoại cho người nói cụ thể Các bợ giải mã ngữ âm – dựa Mô hình Markov ẩn (HMM) - lấy từ trình nhận dạng giọng nói có sẵn đào tạo đặc biệt Đối với mục đích nhận dạng người nói, việc có bợ giải mã ngữ âm xác khơng quan trọng chí khơng quan trọng phải có bợ giải mã ngữ âm ngơn ngữ người nói để nhận dạng Sự thật đáng ngạc nhiên phân tích cho thấy lỗi ngữ âm phụ thuộc vào người nói bợ giải mã tạo dường người nói cụ thể thơng tin hữu ích cho việc nhận dạng người nói miễn lỗi phù hợp với người nói cụ thể Sau có bợ giải mã ngữ âm, giải mã ngữ âm nhiều câu từ nhiều người nói khác sử dụng để đào tạo Mơ hình điện thoại đa (UBPM) đại diện cho tất người nói Các Mơ hình Điện thoại Người nói (SPMi) đào tạo cách sử dụng một số bộ giải mã ngữ âm người nói cụ thể Vì phát biểu có sẵn để đào tạo mơ hình diễn giả thường bị hạn chế, nên mơ hình diễn giả nợi suy với UBPM để tăng tính mạnh mẽ ước tính tham số Sau mơ hình ngơn ngữ thống kê đào tạo, quy trình để xác minh cách phát âm thử nghiệm mô hình người nói SPMi trình bày hình Bước tạo giải mã ngữ âm nó, X, giống cách giải mã sử dụng để đào tạo SPMi UBPM Sau đó, giải mã ngữ âm câu thử, X mô hình thống kê (SPMi, UBPM) sử dụng để tính toán khả giải mã ngữ âm, X, dựa mơ hình người nói SPMi mơ hình UBPM Điểm nhận biết nhật ký tỷ lệ hai khả xảy Quá trình này, thường mơ tả Nhận dạng điện thoại, sau Mơ hình hóa ngơn ngữ (PRLM) lặp lại cho bộ giải mã ngữ âm khác (ví dụ: ngơn ngữ đợ phức tạp khác nhau) điểm nhận dạng khác thêm vào hợp để có hiệu suất tốt hơn, mang lại một phương pháp gọi PRLM PPRLM song song Gần đây, một số cải tiến đề xuất hệ thống PPRLM Một điều quan trọng mặt cải thiện hiệu suất việc sử dụng tồn bợ mạng lưới nhận dạng điện thoại thay giả thuyết một giải mã tốt Mạng tinh thể nhận dạng mợt đồ thị xoay chiều có hướng chứa giả thuyết có khả xảy với xác suất chúng Thông tin phong phú nhiều cho phép ước tính tốt n-gam tài liệu nói hạn chế, cho kết tốt nhiều Cải tiến quan trọng khác việc sử dụng SVM để phân loại tồn bợ n gam đào tạo với giả thuyết tốt với mạng thay sử dụng chúng khung phân loại thống kê 5.4 Prosodic systems Bảng chữ mã thông báo Prosodic (bảng cùng) mã hóa mẫu đường viền cao đợ lượng (hình dưới) Mợt hệ thống prosodic tiên phong thành công việc nhận dạng người nói khơng phụ tḥc vào văn cơng việc Adami Hệ thống bao gồm hai khối xây dựng chính: cơng cụ phân tích mã ưu điểm, phân tích ưu điểm biểu thị dạng chuỗi nhãn mã thông báo thuận giai đoạn mơ hình hóa ngơn ngữ thống kê n-gram, mơ hình hóa tần số mã thơng báo ưu điểm trình tự chúng cho người nói cụ thể Mợt số khả khác để mơ hình hóa thơng tin thuận chứng minh thành cơng việc sử dụng Các tính vùng trích xuất không đồng (Non-uniform Extraction Region Features - NERFs) phân định khoảng dừng đủ dài NERF xác định cấu trúc âm tiết câu (SNERFs) Các tác giả triển khai một hệ thống ưu âm dựa cơng trình Adami, khối thứ hai giống hệt để nhận dạng âm người nói âm sắc với điều chỉnh nhỏ để cải thiện hiệu suất Quá trình mã hóa bao gồm hai giai đoạn Thứ nhất, phát biểu phát biểu, quỹ đạo thời gian đặc điểm thuận, (tần số - cao độ - lượng) trích xuất Thứ hai, hai đường bao phân đoạn dán nhãn quy trình định lượng đợ dốc Hình cho thấy mợt bảng chứa 17 mã thông báo prosodic Một mã thông báo đại diện cho phân đoạn chưa lập hóa đơn, 16 sử dụng để đại diện cho phân đoạn có âm tùy tḥc vào đợ dốc (phát nhanh, tăng chậm, giảm nhanh, giảm chậm) lượng cao đợ Hình cho thấy mợt ví dụ câu nói phân đoạn gắn nhãn cách sử dụng mã thông báo prosodic 5.5 Cơ sở liệu điểm chuẩn Vào đầu năm 1990, việc nhận dạng người nói độc lập với văn một thách thức lớn, với mợt tương lai khó lường trước Vào thời điểm đó, sáng kiến nghiên cứu khiêm tốn phát triển với sở liệu hạn chế, dẫn đến ấn phẩm không đồng cách để so sánh cải tiến hệ thống nhiệm vụ tương tự May mắn thay, vào năm 1996, NIST bắt đầu Đánh giá Công nhận Diễn giả hàng năm, chắn động lực tiến bợ đáng kể Màn trình diễn đại hồn tồn nằm ngồi dự đốn 10 năm trước Thành công thúc đẩy hai yếu tố Thứ nhất, việc sử dụng sở liệu giao thức chung để đánh giá mù hệ thống cho phép so sánh công hệ thống một nhiệm vụ Thứ hai, hội thảo sau đánh giá cho phép người tham gia chia sẻ kinh nghiệm, cải tiến, thất bại, v.v họ một môi trường hợp tác cao Vai trò LDC (Linguistic Data Consortium) cung cấp tài liệu nói đầy thách thức đáng ý, nhu cầu liên tục tăng lên (cả lượng lời nói yêu cầu việc ghi âm) Từ giai đoạn khác Switchboard đến sở liệu kiểu Fisher nhất, nhiều tiến bộ đạt Các bộ đánh giá trước (phát triển, đào tạo kiểm tra âm phím -solutions-) có sẵn thơng qua LDC để nhà nghiên cứu đánh giá hệ thống họ mà áp lực cạnh tranh Mặc dù kết "chính thức" bị hạn chế người tham gia, việc theo dõi tiến trình cơng nghệ dễ dàng người tham gia thường trình bày phát triển họ phiên ID người phát biểu hội nghị quốc tế ICASSP InterSpeech (trước EuroSpeech), loạt Hội thảo ISCA / IEEE Odyssey Ứng dụng Xác thực giọng nói mợt ứng dụng sinh trắc học cổ điển người nói cố gắng xác minh với tư cách người nói hợp tác (ví dụ: cấp quyền truy cập vào một hệ thống cụ thể tài khoản ngân hàng họ) với tư cách người dùng khơng hợp tác (ví dụ: xác nhận / diện cô nhà mợt ứng dụng kiểm sốt tạm tha tự đợng nhà) Mợt số hình thức xác thực giọng nói cụ thể phát triển hình thức liên quan đến Quản lý quyền kỹ thuật số (DRM), mô tả tiêu chuẩn MPEG-21 kiến trúc quản lý quyền độc quyền khác, giọng nói sử dụng để cấp quyền truy cập vào nội dung phương tiện bảo mật từ phương tiện tác giả nhà sản xuất đến nhà phân phối người dùng cuối Mợt ứng dụng thú vị khác mã hóa sinh học giọng nói, giọng nói sử dụng để tạo khóa mã hóa người dùng sử dụng an tồn mà khơng lưu trữ không truy xuất tạo đợng từ giọng nói Tuy nhiên, hình thức khai thác thông tin sinh trắc học khác tín hiệu giọng nói xuất Mợt hệ thống gọi giám sát giọng nói, phát danh sách đen phát người nói, nhiều dịng đầu vào đồng thời (hàng trăm hàng nghìn trung tâm c̣c gọi lớn hệ thống nghe lén) giám sát thời gian thực để phát người nói từ một danh sách Cuối cùng, việc sử dụng hệ thống nhận dạng người nói tự đợng pháp y cho phép tính minh bạch khả kiểm tra việc sử dụng giọng nói làm chứng trước tịa án dự đoán khoa học pháp y đại Các hệ thống tự đợng điều chỉnh để cung cấp Tỷ lệ khả xảy đầu chúng, tuân theo phương pháp luận DNA thiết lập tốt, gọi tiêu chuẩn vàng khoa học pháp y Hơn nữa, việc hiệu chuẩn giá trị LR cung cấp cách tiếp cận thống để sử dụng LR điều kiện khác với loại chứng khác nhau, cho phép kết hợp nguồn kiến thức khác khoa học pháp y Kết luận Từ việc phân tích nguồn thơng tin cá thể hóa khác có tín hiệu giọng nói, quy trình xử lý tín hiệu tham số hóa tóm tắt với mục tiêu thu vectơ tham số chiều thấp có đợ tin cậy cao Các hệ thống phụ thuộc vào văn có vị trí phổ biến xác thực từ xa, đánh giá khách quan thực tế gần Đối với không phụ thuộc vào văn bản, phát triển gần (bộ siêu tốc, hệ số kênh / bù NAP) mang lại tiến bộ lớn đánh giá phép thử NIST SRE cho phép ứng dụng khác nhau, khác xa với kỹ thuật xác thực sinh trắc học cổ điển, sử dụng thông tin sinh trắc học có tín hiệu giọng nói mục tiêu khác với xác thực từ xa đơi cịn thú vị hữu ích Theo nghĩa này, hệ thống nhận dạng người nói đại sẵn sàng đối mặt với ứng dụng thực tế quan trọng (đặc biệt từ xa) tín hiệu giọng nói dễ truy cập sử dụng một đặc điểm sinh trắc học có đợ tin cậy cao ... nói cuối truyền khỏi miệng người nói Trong hai giai đoạn sản xuất giọng nói (tạo ngơn ngữ sản xuất lời nói) , thơng số kỹ thuật người nói giới thiệu Trong lĩnh vực máy đo sinh trắc học giọng nói. .. sinh học giọng nói, giọng nói sử dụng để tạo khóa mã hóa người dùng sử dụng an tồn mà khơng lưu trữ khơng truy xuất tạo đợng từ giọng nói Tuy nhiên, hình thức khai thác thơng tin sinh trắc học. .. từ xa phát giọng nói dựa tinh hiệu thoại truyền qua điện thoại 1.1.Ứng dụng: Do tinh phổ biến tín hiệu thoại, phạm vi ứng dụng sinh trắc học giọng nói rộng so với đặc điểm sinh trắc học thơng

Ngày đăng: 24/02/2023, 12:37