1. Trang chủ
  2. » Tất cả

Sinh trắc học giọng nói – voice biometrics

19 0 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 19
Dung lượng 600,83 KB

Nội dung

HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG CƠ SỞ TP HỒ CHÍ MINH KHOA CÔNG NGHỆ THÔNG TIN BÁO CÁO CÁ NHÂN MÔN XỬ LÝ ẢNH ĐỀ TÀI SINH TRẮC HỌC GIỌNG NÓI – VOICE BIOMETRICS Nội dung 1 Giới thiệu 1 1 1 Ứng d[.]

HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THƠNG CƠ SỞ TP.HỒ CHÍ MINH KHOA CƠNG NGHỆ THƠNG TIN BÁO CÁO CÁ NHÂN MÔN: XỬ LÝ ẢNH ĐỀ TÀI: SINH TRẮC HỌC GIỌNG NĨI – VOICE BIOMETRICS Nợi dung Giới thiệu: 1.1.Ứng dụng: 1.2.Công nghệ: Thông tin nhận dạng tín hiệu giọng nói: 2.1.Tạo ngôn ngữ tạo giọng nói: .2 2.2 Nhiều cấp độ thông tin 3 Rút trích đặc trưng mã hóa 3.1 Phân tích ngắn hạn 3.2 Tham số hóa 3.3 Phiên âm mã hóa từ 3.4 Mã hóa Prosodic Nhận dạng người nói phụ thuộc vào văn 4.1 Phân loại hệ thống kỹ thuật 4.2 Cơ sở liệu điểm chuẩn .7 4.3 Nghiên cứu điển hình: Nhận dạng người nói phụ thuộc vào văn với HMM thích ứng người nói xác nhận lại HMM .8 Nhận dạng người nói độc lập với văn 5.1 Hệ thống quang phổ ngắn hạn 5.2 Idiolectal systems 10 5.3 Phonotactic systems 11 5.4 Prosodic systems .12 5.5 Cơ sở liệu điểm chuẩn 13 Ứng dụng .13 Kết luận 14 Giới thiệu: Dữ liệu gần người dùng điện thoại di động toan giới, số lượng điện thoại cố định hoạt động triển khai VoIP (Mạng thoại qua IP) gần đây, xác nhận giọng nói đặc điểm sinh trắc học dễ tiếp cận khơng cần thêm thiết bị thu nhận hệ thống truyền dẫn Thực tế mang lại cho tiếng nói mợt lợi áp đảo với đặc điểm sinh trắc học khác, đặc biệt người dùng hệ thống từ xa tính đến Tuy nhiên, đặc điểm giọng nói khơng liên quan đến đặc điểm âm sắc mà liên quan đến nhiều yếu tố môi trường xã hội học, việc tạo giọng nói kết mợt q trinh phức tạp Do đó, giọng nói truyền nhúng mợt phiên hư cấu đặc điểm người nói bị suy giảm bị ảnh hưởng nhiều biến ngữ cảnh khó xử lý May mắn thay, cơng nghệ ứng dụng đại bù đắp cho tất nguồn biến đổi cho phép ứng dụng giá trị gia tăng hiệu đáng tin cậy cho phép xác thực từ xa phát giọng nói dựa tinh hiệu thoại truyền qua điện thoại 1.1.Ứng dụng: Do tinh phổ biến tín hiệu thoại, phạm vi ứng dụng sinh trắc học giọng nói rợng so với đặc điểm sinh trắc học thông thường khác Chúng ta phân biệt ba loại ứng dụng chinh tận dụng lợi thông tin sinh trắc học có tín hiệu giọng nói:  Xác thực giọng nói (điều khiển truy cập, thường từ xa qua điện thoại) nhận dạng (kiểm tra giọng nói tự nhiên)  Phát người nói (ví dụ: phát danh sách đen trung tâm cuộc gọi nghe giam sát), gọi truy vết người nói  Nhận dạng người nói pháp y (sử dụng giọng nói làm chứng trước tịa án pháp luật thơng tin tình báo cuộc điều tra cảnh sát) 1.2.Công nghệ: Nguồn thơng tin mã hóa tín hiệu thoại chắn nợi dung ngơn ngữ Vì lý đó, khơng có ngạc nhiên tùy tḥc vào cách sử dụng kiểm sốt nợi dung ngơn ngữ, phân biệt hai loại cơng nghệ nhận dạng người nói khác với ứng dụng tiềm khác Thứ nhất, text-dependent technologies (các công nghệ phụ thuộc vào văn bản), nơi người dùng yêu cầu phải một cụng từ khoa cụ thể (ví dụ: “Open, Sesame”) chuỗi (ví dụ:”12-34-56”), chủ đề ứng dụng kiểm sốt truy cập sinh trắc học xác thực giọng nói Mức độ bảo mật hệ thống dựa mật sau nâng cao cách yêu cầu kiến thức mật yêu cầu chủ sỡ hữu thực mật phải nói Để tranh việc ghi lại mật thực bị đanh cắp, hệ thơng phụ tḥc vào văn cải tiến để hỏi lời nhắc ngẫu nhiên, không mong đội người gọi, mà kẻ mạo danh dễ dàng hiểu Loại công nghệ nhận dạng người nói thứ hai cơng nghệ gọi text-independent (độc lập với văn bản) Chúng yếu tố thúc đẩy hai loại ứng dụng lại, cụ thể nhận dạng người nói nhận dạng người nói pháp y Từ nội dung ngôn ngữ nguồn thông tin chinh mã hóa phát biểu, tính độc lập với văn một thách thức lớn đối tượng nghiên cứu cợng đồng nhận dạng người nói hai thập kỷ qua NIST SRE (Speaker Recognition Evaluations – đanh giá nhận dạng người nói) thực hiền hàng năm kể từ năm 1996 thúc đẩy xuất sắc nghiên cứu linh vực này, với tiến bộ phi thường đạt qua năm dựa đánh giá mù mờ với sở liệu chung giao thức, đặc biệt la chia sẻ thông tin người tham gia hội thảo sau lần đanh giá Thơng tin nhận dạng tín hiệu giọng nói: Trong phần này, giải cách nhúng đặc điểm cụ thể người nói vào tín hiệu lời nói Sản xuất lời nói một trinh phức tạp mà kết phụ tḥc vào nhiều biến cấp độ khác nhau, bao gồm từ yếu tố xã hợi học (ví dụ: trinh đợ học vấn, bối cảnh ngôn ngữ khác biệt phương ngữ) vấn đề sinh lý (ví dụ: chiều dài, hình dạng mơ đường âm cấu hình đợng quan khớp) Những ảnh hưởng này đồng thời xuất hành đợng nói mợt số tất số chúng chứa đặc điểm cụ thể người nói Vì lý cần làm rõ phân biệt rõ ràng cấp độ nguồn khác thơng tin người nói mà cỏ thể trích xuất để mơ hình hóa cá nhân người nói 2.1.Tạo ngơn ngữ tạo giọng nói: Quá trinh người xây dựng mợt thơng điệp mã hóa ngơn ngữ chủ đề nghiên cứu nhiều năm lĩnh vực tâm lý Nhưng một thông điệp mã hóa não người, cần mợt q trinh sinh lý khớp nối phức tạp để cuối tạo mợt dạng sóng lời nói (giọng nói) chứa thông điệp ngôn ngữ (cũng nhiều nguồn thông tin khác, mợt số danh tính người nói) mã hóa mợt kết hợp đặc điểm phổ thời gian Quá trình phương pháp phụ nghiên cứu ngữ âm học mợt số linh vực liên quan đến phân tích giọng nói khác (kỹ sư, bác sĩ, v.v.) Q trình sản xuất lời nói phức tạp tự xứng đáng có vài chương sách, quan tâm đến khía cạnh liên quan đến mã hóa mợt số loại thơng tin cá nhân tín hiệu lời nói cuối truyền khỏi miệng người nói Trong hai giai đoạn sản xuất giọng nói (tạo ngơn ngữ sản xuất lời nói), thơng số kỹ thuật người nói giới thiệu Trong lĩnh vực máy đo sinh trắc học giọng nói - cịn gọi nhận dạng người nói - hai thành phần tương ứng với thường gọi đặc điểm cấp độ cao (ngôn ngữ) cấp độ thấp (âm thanh) 2.2 Nhiều cấp độ thông tin Các thí nghiệm với thính giả người cho thấy, theo kinh nghiệm của, người nhận người nói kết hợp cấp đợ thơng tin khác điều đặc biệt quan trọng, với trọng lượng khác người nói khác (ví dụ: mợt người nói hiển thị đường viền cao đợ đặc trưng, mợt khác có một mũi mạnh làm cho chúng "âm thanh" khác nhau) Hệ thống tự đợng có ý định tận dụng nguồn thơng tin khác có sẵn, kết hợp chúng theo cách tốt cho người nói Đặc điểm nhận dạng mợt người nói cấp đợ cao thường cơng nghệ tính đến thời điểm mô tả cách một người nói sử dụng mợt hệ thống ngơn ngữ cụ thể “Việc sử dụng” xác định vô số yếu tố, một số yếu tố ổn định người lớn trình đợ học vấn, điều kiện xã hợi học gia đình thị trấn xuất xứ Nhưng có mợt số yếu tố cấp cao phụ thuộc nhiều vào môi trường, chẳng hạn một bác sĩ nam không sử dụng ngôn ngữ theo cách tương tự nói chuyện với đồng nghiệp bệnh viện (xã giao), với gia đình nhà, với bạn bè chơi Là nhóm đặc điểm thứ hai xuống mức thơng tin thấp tín hiệu giọng nói, âm vị học, mơ tả cách sử dụng người nói đơn vị điện thoại khả nhận khả dụng Âm vị học cần thiết để sử dụng mợt ngơn ngữ chìa khóa việc học ngoại ngữ, xem xét đặc điểm cụ thể người nói ngữ âm, tìm thấy mợt số cách sử dụng định khác với người dùng khác Trong nhóm thứ ba, prosody (siêu phân đoạn), kết hợp lượng tức thời, ngữ điệu, tốc đợ nói thời lượng đơn vị để cung cấp cho lời nói tự nhiên, đầy đủ ý nghĩa giọng điệu cảm xúc Prosody xác định mục tiêu ưu việt cấp độ cụm từ diễn ngôn, đồng thời xác định hành động tức thời để tuân thủ mục tiêu Nó giúp làm rõ thơng điệp (“chín trăm hai mươi bảy” phân biệt “927” “900 27” theo phương thức chuyên nghiệp), loại thông điệp (khai báo, thẩm vấn, mệnh lệnh) trạng thái tâm trí người nói Nhưng theo cách người nói sử dụng yếu tố thuận âm khác nhau, nhiều đặc điểm riêng người nói bao gồm, chẳng hạn như, đường viền cao độ đặc trưng đầu cuối cụm từ nhóm trọng âm Cuối cùng, cấp độ thấp hơn, đặc điểm quang phổ ngắn hạn tín hiệu lời nói, liên quan trực tiếp đến hành động khớp riêng lẻ liên quan đến điện thoại sản xuất cấu hình sinh lý cá nhân bợ máy sản xuất giọng nói Thơng tin phổ nguồn tính cá nhân lời nói sử dụng ứng dụng thực tế, trọng tâm nghiên cứu gần hai mươi năm Thơng tin quang phổ có ý định trích xuất điểm đặc biệt giọng hát người nói động lực phát âm tương ứng họ Hai loại thông tin cấp thấp thường sử dụng, thông tin tĩnh liên quan đến khung phân tích thông tin động liên quan đến cách thông tin phát triển khung liền kề, có tính đến tượng khớp nối phụ thuộc mạnh mẽ vào người nói, q trình mà mợt cá nhân tự đợng di chuyển từ vị trí khớp nối sang vị trí khớp nối Rút trích đặc trưng mã hóa Bước việc xây dựng hệ thống nhận dạng người nói tự đợng trích xuất đáng tin cậy đặc trưng mã thông báo có chứa thơng tin nhận dạng quan tâm Trong phần này, trình bày ngắn gọn quy trình sử dụng để trích xuất vectơ đặc trưng ngắn hạn (thông tin quang phổ, lượng, cao độ) mã thông báo trung hạn dài hạn dạng điện thoại, âm tiết từ 3.1 Phân tích ngắn hạn Để thực phân tích phổ đáng tin cậy, tín hiệu phải thể đặc tính tĩnh khơng dễ quan sát tín hiệu lời nói thay đổi liên tục Tuy nhiên, giới hạn cửa sổ phân tích đợ dài ngắn từ 20 đến 40 mili giây, hệ thống khớp thay đổi đáng kể một khung thời gian ngắn vậy, thu thường gọi tín hiệu giả tĩnh khung Những tín hiệu cửa sổ giả định, tính dừng giả, đến từ mợt hệ thống LTI (biến thiên thời gian tuyến tính) cụ thể cho khung đó, sau thực hiện, thường sau sử dụng một số loại cửa sổ giống cosine làm hamming hanning, phân tích quang phổ khoảng thời gian ngắn cửa sổ hạn, thu bao quang phổ thay đổi khung 3.2 Tham số hóa Tín hiệu cửa sổ hamming / hanning thời gian ngắn có tất thông tin thời gian / phổ mong muốn, tốc đợ bit cao (ví dụ: số hóa giọng nói điện thoại với tần số lấy mẫu kHz mợt cửa sổ 32 ms Có nghĩa 256 mẫu x 16 bit / mẫu = 4096 bit = 512 byte khung hình) Linear Predictive Coding - Mã hóa dự đốn tuyến tính (LPC) giọng nói chứng minh một cách hợp lệ để nén đường bao quang phổ mợt mơ hình tồn cực (hợp lệ cho tất âm âm mũi một giá trị gần âm mũi) với 10 đến 16 hệ số , có nghĩa thơng tin quang phổ khung biểu diễn khoảng 50 byte, 10% tốc đợ bit ban đầu Thay hệ số LPC, có tương quan cao chúng (ma trận hiệp phương sai xa đường chéo), hệ số cepstral giả gụ thường sử dụng, lấy trực tiếp LPCC (LPC-derived Cepstral vectors - vectơ Cepstral có nguồn gốc từ LPC) từ hệ số LPC, trực tiếp thu từ mel dựa tri giác -phân tích quang phổ bợ lọc MFCC (Hệ số quang phổ dựa tần số Mel) Cho đến nay, mợt yếu tố biến đổi giọng nói đến từ việc sử dụng kênh truyền khác (ví dụ: thử nghiệm giọng nói qua điện thoại với kiểu người nói ghi âm micrơ) Biểu diễn cepstral có lợi kênh bất biến cộng thêm một độ lệch cepstral khơng đổi dễ dàng bị trừ (CMS.- Cepstral Mean subtraction), thành phần cepstral giọng nói bị loại bỏ thực lọc RASTA vectơ tức thời cepstral Để tính đến q trình coarticulation, hệ số delta (vận tốc) delta-delta (gia tốc) lấy từ thông tin dựa cửa sổ tĩnh, tính tốn ước tính cách hệ số khung thay đổi qua cửa sổ liền kề (thường từ ± 3, không hơn ± 5) 3.3 Phiên âm mã hóa từ Mơ hình Markov ẩn- Hidden Markov Models (HMM) công cụ thành công sử dụng rộng rãi (ngoại trừ một số kiến trúc ANN) để mã hóa ngữ âm, âm tiết từ, nghĩa dịch từ lời nói lấy mẫu thành mợt chuỗi đơn vị ngôn ngữ chỉnh theo thời gian HMM từ trái sang phải bộ máy trạng thái mơ hình thống kê phần giả định giọng nói (trạng thái) q trình chuyển đổi (ép buộc từ trái sang phải, giữ cảm giác thời gian) trạng thái, cố gắng bắt chước cách chuyển đợng quan khớp chúng ta, có xu hướng nghỉ ngơi (trong tất âm khơng nổ) vị trí khớp (giả sử trạng thái tĩnh) liên tục di chuyển (chuyển tiếp) từ trạng thái sang trạng thái sau Hiện tại, hầu hết HMM lập mơ hình thông tin trạng thái với hàm mật độ xác suất liên tục, thường hỗn hợp gaussian Loại mơ hình cụ thể thường gọi CDHMM (Continuous Density HMM, đối lập với HMM mật độ rời rạc dựa VQ trước đây) Huấn luyện HMM thường thực thông qua ước lượng Baum-Welch, giải mã chỉnh thời gian thường thực thông qua giải mã Viterbi Hiệu suất HMM phổ cải thiện cách sử dụng mơ hình ngơn ngữ, mơ hình áp đặt mợt số ràng ḅc ngơn ngữ ngữ pháp kết hợp gần vơ hạn tất đơn vị Để cho phép tăng hiệu quả, việc cắt tỉa tìm kiếm chùm tia mợt chế tổng quát để đẩy nhanh đáng kể trình nhận dạng mà khơng có suy giảm hiệu suất 3.4 Mã hóa Prosodic Các tính ưu việt cao đợ lượng có mức khung hình Năng lượng cửa sổ thu dễ dàng thông qua định lý Parseval, dạng thời gian dạng phổ, cao đợ tức thời xác định bằng, ví dụ: phương pháp tự tương quan dựa phân rã cepstral, thường làm mịn mợt số lọc thời gian Các tính thuận âm quan trọng khác tính liên quan đến thời lượng đơn vị ngôn ngữ, tốc đợ nói tất tính liên quan đến trọng âm Trong tất trường hợp đó, cần phải phân đoạn xác, đánh dấu vị trí âm tiết, đường nét lượng cao đợ để phát vị trí trọng âm dấu chuyển cụm từ giọng nói Phân đoạn ngữ âm âm tiết lời nói mợt vấn đề phức tạp lâu giải hữu ích cho việc nhận dạng người nói, hệ thống prosodic khơng phải lúc yêu cầu phân đoạn chi tiết Nhận dạng người nói phụ tḥc vào văn Hệ thống nhận dạng người nói phân thành hai loại phụ lớn: phụ thuộc vào văn không phụ thuộc vào văn Cái trước sử dụng nội dung từ vựng phát biểu để nhận dạng người nói, sau cố gắng giảm thiểu ảnh hưởng nội dung từ vựng vốn coi không xác định việc nhận dạng người nói Sự khác biệt làm cho hai loại phụ hệ thống nhận dạng người nói khác kỹ thuật sử dụng ứng dụng tiềm Phần dành cho hệ thống nhận dạng người nói phụ tḥc vào văn bản, hệ thống tìm thấy ứng dụng chúng hệ thống tương tác, nơi cần có cợng tác từ người dùng để xác thực danh tính họ Ví dụ điển hình ứng dụng xác thực giọng nói qua điện thoại cho hệ thống phản hồi giọng nói tương tác yêu cầu một số mức độ bảo mật ứng dụng ngân hàng đặt lại mật Tương tự phương thức sinh trắc học khác, việc sử dụng hệ thống nhận dạng người nói phụ thuộc vào văn yêu cầu giai đoạn đăng ký người dùng cung cấp mợt số mẫu để xây dựng mơ hình người dùng giai đoạn nhận dạng mẫu giọng nói so khớp với mơ hình người dùng 4.1 Phân loại hệ thống kỹ thuật Chúng ta phân loại hệ thống nhận dạng người nói phụ tḥc vào văn theo quan điểm ứng dụng thành hai loại: hệ thống văn cố định hệ thống văn biến đổi Trong hệ thống văn cố định, nội dung từ vựng ghi danh mẫu nhận dạng giống Trong hệ thống văn biến đổi, nội dung từ vựng mẫu nhận dạng khác thử nghiệm truy cập với nội dung từ vựng mẫu đăng ký Hệ thống văn thay đổi linh hoạt mạnh mẽ trước cuộc công sử dụng ghi âm từ người dùng bắt chước sau nghe người nói thực nói mật Một khả thú vị việc tạo một lời nhắc mật tạo ngẫu nhiên khác người dùng xác minh (hệ thống nhắc văn bản), khơng thể sử dụng ghi Đối với kỹ thuật sử dụng để nhận dạng người nói phụ tḥc vào văn bản, người ta chứng minh thông tin diện cấp đợ khác tín hiệu giọng nói (các đặc điểm kích thích tồn phần, quang phổ siêu phân đoạn) sử dụng mợt cách hiệu để phát danh tính người dùng Tuy nhiên, thông tin sử dụng rộng rãi nợi dung phổ tín hiệu lời nói, xác định cấu hình vật lý động lực đường âm Thông tin thường tóm tắt dạng chuỗi thời gian vectơ MFCC, vectơ số đại diện cho mợt thời lượng nói từ 20-40 mili giây Bằng cách này, vấn đề nhận dạng người nói phụ tḥc vào văn giảm xuống thành vấn đề so sánh chuỗi vectơ MFCC với mơ hình người dùng Để so sánh có hai phương pháp sử dụng rộng rãi: phương pháp dựa khuôn mẫu phương pháp thống kê Trong phương pháp dựa khn mẫu mơ hình người nói bao gồm một số chuỗi vectơ tương ứng với phát biểu đăng ký việc nhận dạng thực cách so sánh phát biểu xác minh với phát biểu đăng ký So sánh thực cách sử dụng Dynamic Time Warping (DTW) một cách hiệu để bù đắp sai lệch thời gian cách phát âm khác Trong phương pháp sử dụng, đặc biệt hệ thống nhúng có tài nguyên hạn chế, phương pháp thống kê cụ thể Mô hình Markov ẩn (HMM), có xu hướng sử dụng thường xun mơ hình dựa khn mẫu HMM cung cấp tính linh hoạt hơn, cho phép chọn đơn vị giọng nói từ đơn vị âm vị phụ đến từ cho phép thiết kế hệ thống nhắc văn 4.2 Cơ sở liệu điểm chuẩn Cơ sở liệu sử dụng để xác minh người nói phụ tḥc vào văn sở liệu không thiết kế đặc biệt cho nhiệm vụ sở liệu TI-DIGITS TIMIT Một sở liệu thiết kế đặc biệt cho nghiên cứu nhận dạng người nói phụ tḥc vào văn YOHO Nó bao gồm 96 câu nói để ghi danh thu thập phiên khác 40 câu phát biểu cho kiểm tra thu thập 10 phiên cho người tổng số 138 diễn giả Mỗi câu nói bao gồm bợ ba cặp chữ số khác (ví dụ: “12-34-56”) Đây có lẽ tiêu chuẩn mở rộng tiếng để so sánh thường sử dụng để đánh giá hệ thống phụ thuộc vào văn Tuy nhiên, sở liệu YOHO có mợt số hạn chế Ví dụ: chứa lời nói ghi lại một micrô môi trường yên tĩnh không thiết kế để mô kẻ giả mạo thông báo (tức kẻ mạo danh nói mật người dùng) Gần hơn, Tập đồn xác minh người nói thiết bị di động MIT thiết kế phép nghiên cứu xác minh người nói phụ tḥc vào văn điều kiện nhiễu thực tế, BIOSEC Baseline Corpus thiết kế để mô giả mạo thông tin (bao gồm tài liệu song ngữ mợt số phương thức sinh trắc học ngồi giọng nói) Mợt khó khăn việc so sánh hệ thống xác minh người nói phụ thuộc vào văn khác hệ thống có xu hướng phụ tḥc vào ngơn ngữ, nhiều nhà nghiên cứu có xu hướng trình bày kết họ sở liệu tùy chỉnh họ, nên so sánh trực tiếp Việc so sánh hệ thống thương mại khác chí cịn khó May mắn thay, một ấn phẩm gần so sánh hiệu suất kỹ thuật một vài hệ thống thương mại Tuy nhiên, phương thức sinh trắc học khác, hiệu suất kỹ thuật thứ nguyên để đánh giá thước đo khác liên quan đến khả sử dụng hệ thống cần đánh giá 4.3 Nghiên cứu điển hình: Nhận dạng người nói phụ tḥc vào văn với HMM thích ứng người nói xác nhận lại HMM Như mợt ví dụ hệ thống phụ tḥc vào văn thử nghiệm sở liệu điểm chuẩn YOHO, trình bày kết thu với hai hệ thống nhận dạng người nói phụ tḥc vào văn tác giả phát triển Các hệ thống mô một hệ thống tạo văn dựa một tập hợp HMM ngữ âm khơng phụ tḥc vào người nói ngữ cảnh đào tạo TIMIT Việc ghi danh bao gồm việc sử dụng mợt số câu người nói để điều chỉnh HMM cho người nói So sánh hai cách thực điều chỉnh này: với một lần xác nhận lại Baum-Welch với Hồi quy tuyến tính khả tối đa (MLLR) Cách tiếp cận trước cách tiếp cận thông thường yêu cầu sử dụng HMM đơn giản (chỉ một một vài Gauss cho tiểu bang) Càng sau lạ cho phép sử dụng HMM phức tạp Việc xác minh người nói bao gồm việc tính tốn điểm âm tạo q trình chỉnh bắt ḅc lời nói với phiên âm cách sử dụng HMM thích hợp với người nói HMM khơng phụ tḥc vào người nói Điểm cuối thử nghiệm đơn giản tỷ lệ điểm (khơng bao gồm chuẩn hóa điểm kết trình bày) Ví dụ kết YOHO hai hệ thống nhận dạng người nói phụ tḥc vào văn dựa HMM ngữ âm độc lập với người nói MLLR ước tính lại người nói BaumWelch cho lượng giọng nói đăng ký khác Mợt vấn đề quan trọng việc phát triển hệ thống nhận dạng người nói phụ tḥc vào văn số lượng tài liệu đào tạo cần thiết để đăng ký YOHO chứa phiên với 24 câu nói phiên Đây một số lượng lớn tài liệu lựa chọn mà có mợt ứng dụng thực tế Vì lý này, hình cho thấy kết đào tạo hai hệ thống với bốn phiên (96 phát biểu), một phiên (24 phát biểu) phát biểu từ một phiên Như mong đợi, hiệu suất cải thiện đáng kể với nhiều tài liệu đào tạo hơn, hệ thống thực tế cần phải tìm thỏa hiệp hiệu suất dễ dàng thuận tiện sử dụng Hình so sánh hệ thống dựa ước lượng lại Baum-Welch hệ thống dựa MLLR thích ứng, cho thấy hiệu suất tốt cho hệ thống dựa MLLR tất điều kiện lựa chọn Nhận dạng người nói đợc lập với văn Tính nhận dạng người nói khơng phụ tḥc vào văn bị thống trị phần lớn, từ năm 1970 đến cuối kỷ 20, hệ thống dựa quang phổ ngắn hạn Kể từ năm 2000, hệ thống cấp cao bắt đầu phát triển với kết đủ tốt nhiệm vụ có độ thử thách cao (đánh giá NIST SR) Tuy nhiên, hệ thống quang phổ tiếp tục hoạt động tốt hệ thống cấp cao (NIST 2006 SRE điểm chuẩn vào thời điểm viết bài), với kết phát tốt chế bù kênh tiên tiến gần 5.1 Hệ thống quang phổ ngắn hạn Khi phân tích quang phổ thời gian ngắn sử dụng để mơ hình hóa đặc tính người nói, mơ hình hóa “âm thanh” khác mà mợt người tạo ra, đặc biệt đường âm quan khớp họ Khi người cần nhiều âm (hoặc ký hiệu khác mặt âm học) để nói ngơn ngữ chung nào, rõ ràng đối mặt với một không gian đa lớp đặc điểm Phép lượng tử vector kỹ thuật hiệu vấn đề đa kính sử dụng để nhận dạng người nói, thường thu mợt mơ hình VQ cụ thể cho người nói tính tốn khoảng cách từ câu nói đến mơ hình dạng tổng trọng số khoảng cách tối thiểu khung hình đến bộ mã gần sách mã Việc sử dụng ranh giới trung tâm thay mật đợ xác suất mang lại hiệu suất cho VQ so với HMM mật độ liên tục kết nối đầy đủ, gọi HMM ergodic (E-HMM) Tuy nhiên, yếu tố hiệu suất quan trọng E-HMM tích số trạng thái nhân với số Gauss trạng thái, điều loại bỏ mạnh mẽ ảnh hưởng q trình chuyển đổi mơ hình kết nối đầy đủ Khi đó, hệ thống E-HMM trạng thái 4-Gauss cho trạng thái hoạt động tương tự hệ thống 4-trạng thái 5-Gauss / trạng thái, trạng thái 10-Gaussian / trạng thái, chí, điều đặc biệt thú vị, trạng thái 20 Gaussian / hệ thống trạng thái, thường gọi GMM Mơ hình hỗn hợp Gauss Những E-HMM GMM mợt trạng thái có lợi lớn điều tránh ước tính BaumWelch cho việc đào tạo, khơng cần chỉnh giọng nói trạng thái (tất lời nói chỉnh với một trạng thái nhất) giải mã Viterbi để thử nghiệm (một lần không cần chỉnh thời gian), giúp tăng tốc thời gian tính tốn với không bị suy giảm hiệu suất GMM một kỹ thuật tổng hợp hỗn hợp gaussian đa chiều cố gắng mơ hình hóa phân phối thống kê chưa biết liệu người nói GMM trở thành kỹ thuật đại vào năm 1990, khả xảy tối đa (thơng qua Kỳ vọng-Tối đa hóa, EM) đào tạo phân biệt (Thông tin tương hỗ tối đa, MMI) sử dụng Tuy nhiên, việc sử dụng MAP thích ứng với phương tiện từ Mơ hình chung (UBM) mang lại cho GMM một lợi lớn so với kỹ thuật khác, đặc biệt sử dụng với kỹ thuật bù Z-norm (chuẩn hóa điểm kẻ mạo danh), Tnorm ( bù phát âm), H-định mức (định mức Z phụ thuộc vào thiết bị cầm tay), HT-định mức (H + T-định mức) Lập đồ tính (xác định bù kênh) Các kỹ thuật phân biệt đối xử Mạng thần kinh nhân tạo sử dụng nhiều năm, hiệu suất chúng chưa đạt đến hiệu suất GMM Tuy nhiên, tính khả dụng vào cuối năm 90 Máy vectơ hỗ trợ (SVM) một bộ phân loại đào tạo phân biệt hiệu quả, mang lại cho GMM đối thủ cạnh tranh hiệu suất tương đương đạt cách sử dụng SVM không gian chiều cao nhiều hạt nhân thích hợp GLDS (Tuyến tính tổng qt Nhân trình tự phân biệt) sử dụng Gần đây, việc sử dụng SuperVectors, một kỹ thuật GMM-SVM hỗn hợp coi phương tiện GMM cho phát biểu (cả đào tạo kiểm tra) điểm khơng gian chiều cao (kích thước số hỗn hợp GMM nhân với thứ nguyên vectơ tham số hóa) cách sử dụng SVM cho người nói để phân loại phát âm chưa biết từ siêu phẳng người nói đào tạo Ưu điểm SuperVectors chúng hồn tồn phù hợp với phương pháp bù kênh dựa việc phát hướng với thay đổi tối đa ghi khác từ mợt người nói, cố gắng hủy bỏ giảm thiểu ảnh hưởng chúng Một số kỹ thuật liên quan họ xuất hiện, Phân tích yếu tố (yếu tố kênh người nói), Chiếu tḥc tính phiền tối (NAP) Chuẩn hóa hiệp phương sai lớp (WCCN), tất cho thấy cải tiến đáng kể so với hệ thống sở tương ứng 5.2 Idiolectal systems Hầu hết hệ thống nhận dạng người nói khơng phụ tḥc vào văn dựa đặc điểm quang phổ ngắn hạn cơng trình Doddington mở mợt giới khả cải thiện hệ thống nhận dạng người nói khơng phụ tḥc vào văn Doddington nhận chứng minh lời nói người nói khác khơng khác âm học, mà đặc điểm khác cách sử dụng từ Đặc biệt, công việc mình, ơng lập mơ hình cách sử dụng từ người nói cụ thể cách sử dụng n-gram mơ hình hóa chuỗi từ xác suất chúng chứng minh việc sử dụng mơ hình cải thiện hiệu suất hệ thống GMM âm / phổ Quan trọng kết cụ thể thực tế cơng trình thúc đẩy nghiên cứu việc sử dụng cấp độ thông tin cao (idiolectal, phonotactic, prosodic, v.v.) để nhận dạng người nói độc lập với văn Sau công bố công trình này, mợt số nhà nghiên cứu gặp hội thảo mùa hè SuperSID, nơi ý tưởng phát triển thêm thử nghiệm một thử nghiệm chung Các phần mô tả hai số hệ thống thành công khai thác mức độ thông tin cao hơn: hệ thống âm vị, cố gắng mơ hình hóa đặc điểm phát âm hệ thống thuận âm, mơ hình hóa mẫu âm chuyên biệt dành cho người nói 5.3 Phonotactic systems Xác minh lời nói so với mơ hình người nói phonotactic speaker recognition Hệ thống nhận dạng người nói âm điển hình bao gồm hai khối xây dựng chính: bợ giải mã ngữ âm, chuyển đổi lời nói thành mợt chuỗi nhãn ngữ âm giai đoạn mơ hình hóa ngơn ngữ thống kê ngram, mơ hình hóa tần số điện thoại chuỗi điện thoại cho người nói cụ thể Các bợ giải mã ngữ âm – dựa Mô hình Markov ẩn (HMM) - lấy từ trình nhận dạng giọng nói có sẵn đào tạo đặc biệt Đối với mục đích nhận dạng người nói, việc có bợ giải mã ngữ âm xác khơng quan trọng chí khơng quan trọng phải có bợ giải mã ngữ âm ngơn ngữ người nói để nhận dạng Sự thật đáng ngạc nhiên phân tích cho thấy lỗi ngữ âm phụ thuộc vào người nói bợ giải mã tạo dường người nói cụ thể thơng tin hữu ích cho việc nhận dạng người nói miễn lỗi phù hợp với người nói cụ thể Sau có bợ giải mã ngữ âm, giải mã ngữ âm nhiều câu từ nhiều người nói khác sử dụng để đào tạo Mơ hình điện thoại đa (UBPM) đại diện cho tất người nói Các Mơ hình Điện thoại Người nói (SPMi) đào tạo cách sử dụng một số bộ giải mã ngữ âm người nói cụ thể Vì phát biểu có sẵn để đào tạo mơ hình diễn giả thường bị hạn chế, nên mơ hình diễn giả nợi suy với UBPM để tăng tính mạnh mẽ ước tính tham số Sau mơ hình ngơn ngữ thống kê đào tạo, quy trình để xác minh cách phát âm thử nghiệm mô hình người nói SPMi trình bày hình Bước tạo giải mã ngữ âm nó, X, giống cách giải mã sử dụng để đào tạo SPMi UBPM Sau đó, giải mã ngữ âm câu thử, X mô hình thống kê (SPMi, UBPM) sử dụng để tính toán khả giải mã ngữ âm, X, dựa mơ hình người nói SPMi mơ hình UBPM Điểm nhận biết nhật ký tỷ lệ hai khả xảy Quá trình này, thường mơ tả Nhận dạng điện thoại, sau Mơ hình hóa ngơn ngữ (PRLM) lặp lại cho bộ giải mã ngữ âm khác (ví dụ: ngơn ngữ đợ phức tạp khác nhau) điểm nhận dạng khác thêm vào hợp để có hiệu suất tốt hơn, mang lại một phương pháp gọi PRLM PPRLM song song Gần đây, một số cải tiến đề xuất hệ thống PPRLM Một điều quan trọng mặt cải thiện hiệu suất việc sử dụng tồn bợ mạng lưới nhận dạng điện thoại thay giả thuyết một giải mã tốt Mạng tinh thể nhận dạng mợt đồ thị xoay chiều có hướng chứa giả thuyết có khả xảy với xác suất chúng Thông tin phong phú nhiều cho phép ước tính tốt n-gam tài liệu nói hạn chế, cho kết tốt nhiều Cải tiến quan trọng khác việc sử dụng SVM để phân loại tồn bợ n gam đào tạo với giả thuyết tốt với mạng thay sử dụng chúng khung phân loại thống kê 5.4 Prosodic systems Bảng chữ mã thông báo Prosodic (bảng cùng) mã hóa mẫu đường viền cao đợ lượng (hình dưới) Mợt hệ thống prosodic tiên phong thành công việc nhận dạng người nói khơng phụ tḥc vào văn cơng việc Adami Hệ thống bao gồm hai khối xây dựng chính: cơng cụ phân tích mã ưu điểm, phân tích ưu điểm biểu thị dạng chuỗi nhãn mã thông báo thuận giai đoạn mơ hình hóa ngơn ngữ thống kê n-gram, mơ hình hóa tần số mã thơng báo ưu điểm trình tự chúng cho người nói cụ thể Mợt số khả khác để mơ hình hóa thơng tin thuận chứng minh thành cơng việc sử dụng Các tính vùng trích xuất không đồng (Non-uniform Extraction Region Features - NERFs) phân định khoảng dừng đủ dài NERF xác định cấu trúc âm tiết câu (SNERFs) Các tác giả triển khai một hệ thống ưu âm dựa cơng trình Adami, khối thứ hai giống hệt để nhận dạng âm người nói âm sắc với điều chỉnh nhỏ để cải thiện hiệu suất Quá trình mã hóa bao gồm hai giai đoạn Thứ nhất, phát biểu phát biểu, quỹ đạo thời gian đặc điểm thuận, (tần số - cao độ - lượng) trích xuất Thứ hai, hai đường bao phân đoạn dán nhãn quy trình định lượng đợ dốc Hình cho thấy mợt bảng chứa 17 mã thông báo prosodic Một mã thông báo đại diện cho phân đoạn chưa lập hóa đơn, 16 sử dụng để đại diện cho phân đoạn có âm tùy tḥc vào đợ dốc (phát nhanh, tăng chậm, giảm nhanh, giảm chậm) lượng cao đợ Hình cho thấy mợt ví dụ câu nói phân đoạn gắn nhãn cách sử dụng mã thông báo prosodic 5.5 Cơ sở liệu điểm chuẩn Vào đầu năm 1990, việc nhận dạng người nói độc lập với văn một thách thức lớn, với mợt tương lai khó lường trước Vào thời điểm đó, sáng kiến nghiên cứu khiêm tốn phát triển với sở liệu hạn chế, dẫn đến ấn phẩm không đồng cách để so sánh cải tiến hệ thống nhiệm vụ tương tự May mắn thay, vào năm 1996, NIST bắt đầu Đánh giá Công nhận Diễn giả hàng năm, chắn động lực tiến bợ đáng kể Màn trình diễn đại hồn tồn nằm ngồi dự đốn 10 năm trước Thành công thúc đẩy hai yếu tố Thứ nhất, việc sử dụng sở liệu giao thức chung để đánh giá mù hệ thống cho phép so sánh công hệ thống một nhiệm vụ Thứ hai, hội thảo sau đánh giá cho phép người tham gia chia sẻ kinh nghiệm, cải tiến, thất bại, v.v họ một môi trường hợp tác cao Vai trò LDC (Linguistic Data Consortium) cung cấp tài liệu nói đầy thách thức đáng ý, nhu cầu liên tục tăng lên (cả lượng lời nói yêu cầu việc ghi âm) Từ giai đoạn khác Switchboard đến sở liệu kiểu Fisher nhất, nhiều tiến bộ đạt Các bộ đánh giá trước (phát triển, đào tạo kiểm tra âm phím -solutions-) có sẵn thơng qua LDC để nhà nghiên cứu đánh giá hệ thống họ mà áp lực cạnh tranh Mặc dù kết "chính thức" bị hạn chế người tham gia, việc theo dõi tiến trình cơng nghệ dễ dàng người tham gia thường trình bày phát triển họ phiên ID người phát biểu hội nghị quốc tế ICASSP InterSpeech (trước EuroSpeech), loạt Hội thảo ISCA / IEEE Odyssey Ứng dụng Xác thực giọng nói mợt ứng dụng sinh trắc học cổ điển người nói cố gắng xác minh với tư cách người nói hợp tác (ví dụ: cấp quyền truy cập vào một hệ thống cụ thể tài khoản ngân hàng họ) với tư cách người dùng khơng hợp tác (ví dụ: xác nhận / diện cô nhà mợt ứng dụng kiểm sốt tạm tha tự đợng nhà) Mợt số hình thức xác thực giọng nói cụ thể phát triển hình thức liên quan đến Quản lý quyền kỹ thuật số (DRM), mô tả tiêu chuẩn MPEG-21 kiến trúc quản lý quyền độc quyền khác, giọng nói sử dụng để cấp quyền truy cập vào nội dung phương tiện bảo mật từ phương tiện tác giả nhà sản xuất đến nhà phân phối người dùng cuối Mợt ứng dụng thú vị khác mã hóa sinh học giọng nói, giọng nói sử dụng để tạo khóa mã hóa người dùng sử dụng an tồn mà khơng lưu trữ không truy xuất tạo đợng từ giọng nói Tuy nhiên, hình thức khai thác thông tin sinh trắc học khác tín hiệu giọng nói xuất Mợt hệ thống gọi giám sát giọng nói, phát danh sách đen phát người nói, nhiều dịng đầu vào đồng thời (hàng trăm hàng nghìn trung tâm c̣c gọi lớn hệ thống nghe lén) giám sát thời gian thực để phát người nói từ một danh sách Cuối cùng, việc sử dụng hệ thống nhận dạng người nói tự đợng pháp y cho phép tính minh bạch khả kiểm tra việc sử dụng giọng nói làm chứng trước tịa án dự đoán khoa học pháp y đại Các hệ thống tự đợng điều chỉnh để cung cấp Tỷ lệ khả xảy đầu chúng, tuân theo phương pháp luận DNA thiết lập tốt, gọi tiêu chuẩn vàng khoa học pháp y Hơn nữa, việc hiệu chuẩn giá trị LR cung cấp cách tiếp cận thống để sử dụng LR điều kiện khác với loại chứng khác nhau, cho phép kết hợp nguồn kiến thức khác khoa học pháp y Kết luận Từ việc phân tích nguồn thơng tin cá thể hóa khác có tín hiệu giọng nói, quy trình xử lý tín hiệu tham số hóa tóm tắt với mục tiêu thu vectơ tham số chiều thấp có đợ tin cậy cao Các hệ thống phụ thuộc vào văn có vị trí phổ biến xác thực từ xa, đánh giá khách quan thực tế gần Đối với không phụ thuộc vào văn bản, phát triển gần (bộ siêu tốc, hệ số kênh / bù NAP) mang lại tiến bộ lớn đánh giá phép thử NIST SRE cho phép ứng dụng khác nhau, khác xa với kỹ thuật xác thực sinh trắc học cổ điển, sử dụng thông tin sinh trắc học có tín hiệu giọng nói mục tiêu khác với xác thực từ xa đơi cịn thú vị hữu ích Theo nghĩa này, hệ thống nhận dạng người nói đại sẵn sàng đối mặt với ứng dụng thực tế quan trọng (đặc biệt từ xa) tín hiệu giọng nói dễ truy cập sử dụng một đặc điểm sinh trắc học có đợ tin cậy cao ... nói cuối truyền khỏi miệng người nói Trong hai giai đoạn sản xuất giọng nói (tạo ngơn ngữ sản xuất lời nói) , thơng số kỹ thuật người nói giới thiệu Trong lĩnh vực máy đo sinh trắc học giọng nói. .. sinh học giọng nói, giọng nói sử dụng để tạo khóa mã hóa người dùng sử dụng an tồn mà khơng lưu trữ khơng truy xuất tạo đợng từ giọng nói Tuy nhiên, hình thức khai thác thơng tin sinh trắc học. .. từ xa phát giọng nói dựa tinh hiệu thoại truyền qua điện thoại 1.1.Ứng dụng: Do tinh phổ biến tín hiệu thoại, phạm vi ứng dụng sinh trắc học giọng nói rộng so với đặc điểm sinh trắc học thơng

Ngày đăng: 24/02/2023, 12:37

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w