Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 31 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
31
Dung lượng
1,54 MB
Nội dung
z HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THƠNG CƠ SỞ TẠI THÀNH PHỐ HỒ CHÍ MINH KHOA CƠNG NGHỆ THƠNG TIN II Mơn: Xử lý ảnh CHỦ ĐỀ: VOICE BIOMETRICS Giảng viên hướng dẫn: Lê Hoàng Thái MỤC LỤC Chương TỔNG QUAN 1.1 Ứng dụng: 1.2 Công nghệ: Chương THÔNG TIN NHẬN DẠNG TRONG TÍN HIỆU GIỌNG NĨI: 2.1 Tạo ngôn ngữ phát âm 2.2 Nhiều cấp độ thông tin Chương Trích xuất tính mã hóa 3.1 Phân tích ngắn hạn 3.2 Tham số hóa 3.3 Trích chọn đặc trưng MFCC 3.4 Mã hóa ưu việt Chương Nhận dạng người nói phụ thuộc vào văn 10 4.1 Phân loại hệ thống kỹ thuật 10 4.2 Cơ sở liệu điểm chuẩn 11 4.3 Nghiên cứu điển hình: Nhận dạng người nói phụ thuộc vào văn với thích ứng người nói HMM xác nhận lại HMM 12 Chương Nhận dạng người nói khơng phụ thuộc vào văn bản: 14 5.1 Hệ thống quang phổ ngắn hạn 14 5.2 Hệ thống vốn từ vựng 15 5.3 Hệ thống quang âm 16 5.4 Hệ thống vần điệu 18 5.5 Cơ sở liệu Điểm chuẩn 19 5.6 Nghiên cứu điển hình: hệ thống văn độc lập đa cấp ATVS 19 Chương 6: Các giải pháp Voice Biometrics 21 6.1 Ứng dụng: 21 6.2 Ví dụ giải pháp Voice Biometrics CYBER LOTUS 23 Chương 7: Nghiên cứu Công nghệ nhận diện giọng nói Phonexia 25 Chương Kết luận 31 Xử lý ảnh-Voice Biometric Chương TỔNG QUAN Gần đây, Dữ liệu người dùng điện thoại di động toàn giới, số điện thoại, điện thoại cố định ngày tăng lên giới triển khai VoIP (Mạng thoại qua IP), xác nhận giọng nói đặc điểm sinh trắc học dễ tiếp cận khơng cần thêm chuyển đổi từ thiết bị hệ thống truyền dẫn Thực tế khiến cho giọng nói có lợi áp đảo đặc điểm sinh trắc học khác, đặc biệt người dùng từ xa hệ thống tính đến Tuy nhiên, đặc điểm giọng nói khơng liên quan đến đặc điểm âm sắc mà liên quan đến nhiều yếu tố môi trường biến đổi xã hội học, việc tạo giọng nói kết q trình phức tạp Do đó, giọng nói truyền gắn phiên bị suy giảm đặc điểm người nói bị ảnh hưởng nhiều biến ngữ cảnh khác May mắn thay, công nghệ ứng dụng đại bù đắp cho tất nguồn biến thiên cho phép ứng dụng gia tăng hiệu độ tin cậy cho phép xác thực từ xa phát giọng nói dựa tín hiệu thoại truyền qua điện thoại 1.1 Ứng dụng: Do tính phổ biến tín hiệu thoại, phạm vi ứng dụng sinh trắc học giọng nói rộng so với đặc điểm sinh trắc học thơng thường khác Chúng ta phân biệt ba loại ứng dụng tận dụng lợi thơng tin sinh trắc học có tín hiệu giọng nói: • Xác thực giọng nói (điều khiển truy cập, thường từ xa qua điện thoại) nhận dạng mặt đất (xử lý ngôn ngữ tự nhiên) Xử lý ảnh-Voice Biometric • Phát người nói (ví dụ: phát danh sách đen trung tâm gọi nghe giám sát), gọi phát người nói • Nhận dạng người nói pháp y (sử dụng giọng nói làm chứng trước tịa án pháp luật thơng tin tình báo điều tra cảnh sát) 1.2 Cơng nghệ: Nguồn thơng tin mã hóa tín hiệu thoại chắn nội dung ngơn ngữ Vì lý đó, khơng có ngạc nhiên phụ thuộc vào cách sử dụng kiểm soát nội dung ngơn ngữ, phân biệt hai loại cơng nghệ nhận dạng giọng nói khác với ứng dụng tiềm khác Xử lý ảnh-Voice Biometric Thứ nhất, công nghệ phụ thuộc vào văn bản, nơi người dùng yêu cầu phải nói cụm từ khóa cụ thể (ví dụ: “Open, DucAnh”) chuỗi (ví dụ: “12-34-56”), chủ thể ứng dụng kiểm sốt truy cập sinh trắc học xác thực giọng nói Mức độ bảo mật hệ thống dựa mật sau nâng cao cách yêu cầu xác password yêu cầu chủ sở hữu thực mật để nói Để tránh trộm cắp xảy với ghi mật thực, hệ thống phụ thuộc vào văn nâng cao để hỏi đưa câu hỏi bảo mật ngẫu nhiên cho người gọi, mà kẻ mạo danh dễ dàng hiểu Loại cơng nghệ nhận dạng giọng nói thứ hai công nghệ gọi độc lập với văn Chúng yếu tố thúc đẩy hai loại ứng dụng, cụ thể phát giọng nói nhận dạng giọng nói pháp y Từ nội dung ngơn ngữ nguồn thơng tin mã hóa phát biểu, tính độc lập với văn thách thức lớn chủ đề cộng đồng nhận diện giọng nói tìm kiếm lại hai thập kỷ qua NIST SRE (Speaker Recognition Evaluations) thực hàng năm kể từ năm 1996 thúc đẩy phát triển nghiên cứu lĩnh vực này, với tiến phi thường thu hàng năm dựa đánh giá sơ với sở liệu chung giao thức, đặc biệt chia sẻ thông tin người tham gia hội thảo sau lần đánh giá Chương THƠNG TIN NHẬN DẠNG TRONG TÍN HIỆU GIỌNG NÓI Trong phần này, giải cách tích hợp đặc điểm cụ thể người nói vào tín hiệu lời nói Tạo lời nói q trình phức tạp mà kết phụ thuộc vào nhiều biến số cấp độ khác nhau, bao gồm • Từ yếu tố xã hội học (ví dụ trình độ học vấn, bối cảnh ngôn ngữ khác biệt phương ngữ); • Đến vấn đề sinh lý (ví dụ chiều dài, hình dạng mơ đường âm cấu hình động quan khớp) Những cụm từ lưu loát xuất đồng thời hành động nói số tất chúng chứa đựng đặc điểm cụ thể người nói Vì lý đó, cần phải làm rõ phân biệt rõ ràng cấp độ nguồn khác thông tin Sinh trắc học giọng nói mà trích xuất để mơ hình hóa khác biệt người nói Xử lý ảnh-Voice Biometric 2.1 Tạo ngơn ngữ phát âm Q trình người tạo thơng điệp mã hóa ngôn ngữ chủ đề nghiên cứu nhiều năm qua lĩnh vực ngôn ngữ học tâm lý Nhưng thơng điệp mã hóa não người, cần trình sinh lý khớp phức tạp để cuối tạo dạng sóng lời nói (giọng nói) chứa thơng điệp ngơn ngữ (cũng nhiều nguồn thơng tin khác, số nhận dạng giọng nói) mã hóa kết hợp đặc điểm phổ thời gian Quá trình đối tượng nghiên cứu nhà ngữ âm học số lĩnh vực liên quan đến phân tích giọng nói khác (kỹ sư, bác sĩ, v.v.).] Minh hoạ quan sinh học cấu thành giọng nói Q trình sản xuất lời nói phức tạp thân xứng đáng có vài chương sách, quan tâm đến khía cạnh liên quan đến việc mã hóa số loại thơng tin riêng lẻ tín hiệu giọng nói cuối truyền khỏi miệng người nói Trong hai giai đoạn tạo giọng nói (tạo ngơn ngữ tạo lời nói), đặc điểm cụ thể người nói đưa Trong lĩnh vực sinh trắc học giọng nói - cịn gọi nhận dạng người nói, hai thành phần tương ứng với nhau, thường gọi đặc điểm cấp cao (ngôn ngữ) cấp thấp (âm thanh) 2.2 Nhiều cấp độ thơng tin Các thí nghiệm với thính giả cho thấy, theo kinh nghiệm họ, người nhận người nói kết hợp cấp độ thông tin khác điều đặc biệt quan trọng, với mức khác người nói khác (ví dụ: người nói có giọng nói với đường viền cao độ đặc trưng người khác có giọng mũi mạnh làm cho họ tạo "âm thanh" khác nhau.) Xử lý ảnh-Voice Biometric Các hệ thống tự động tận dụng nguồn thơng tin khác có sẵn, kết hợp chúng theo cách tốt cho người nói Các đặc điểm nhận dạng giọng nói cấp độ cao mà công nghệ thường tính đến mơ tả cách người nói sử dụng hệ thống ngơn ngữ cụ thể “Việc sử dụng” xác định vô số yếu tố, số yếu tố ổn định người trưởng thành trình độ học vấn, điều kiện xã hội, gia đình yếu tố quê quán Nhưng có số yếu tố cấp cao phụ thuộc nhiều vào môi trường, chẳng hạn bác sĩ nam không sử dụng ngôn ngữ theo cách tương tự nói chuyện với đồng nghiệp bệnh viện (xã giao) giao tiếp với gia đình nhà, với bạn bè chơi Theo nhóm đặc điểm thứ hai xuống theo mức độ thông tin thấp tín hiệu giọng nói, âm vị học, mơ tả cách sử dụng người nói đơn vị điện thoại khả nhận Ngữ âm điều cần thiết để sử dụng ngơn ngữ chìa khóa việc học ngoại ngữ, xem xét đặc điểm cụ thể người nói ngữ âm, tìm thấy số cách sử dụng định khác với người dùng khác Trong nhóm thứ ba, thấy ưu điểm kết hợp lượng tức thời, ngữ điệu, tốc độ nói thời lượng đơn vị để cung cấp cho lời nói tự nhiên, đầy đủ ý nghĩa giọng điệu cảm xúc Cuối cùng, cấp độ thấp hơn, ta có đặc điểm biến đổi ngắn hạn tín hiệu lời nói, liên quan trực tiếp đến hình cá nhân liên quan đến điện thoại sản xuất cấu hình sinh lý cá nhân q trình sản xuất giọng nói Chương Trích xuất tính mã hóa 3.1 Phân tích ngắn hạn Bước việc xây dựng hệ thống nhận dạng giọng nói tự động trích xuất đáng tin cậy tính mã thơng báo có chứa thơng tin nhận dạng quan tâm Tuy nhiên, chúng tơi giới hạn cửa sổ phân tích độ dài ngắn từ 20 đến 40 mili giây, hệ thống khớp chúng tơi thay đổi đáng kể khung thời gian ngắn vậy, thu thường gọi perframe tín hiệu giả tĩnh Q trình mơ tả hình Xử lý ảnh-Voice Biometric Các tín hiệu cửa sổ giả định, tính cố định giả, đến từ hệ thống LTI (bất biến thời gian tuyến tính) cụ thể cho khung sau thực hiện, thường sau sử dụng số loại cửa sổ giống cosine hamming hanning, phân tích quang phổ qua cửa sổ ngắn hạn này, thu bao quang phổ thay đổi khung 3.2 Tham số hóa Tín hiệu âm ngồi đời thực tín hiệu liên tục, hay tín hiệu tương tự Trước thực bước xử lí nào, tín hiệu âm cần số hóa Việc thự tự động thiết bị thu âm, cách lấy mẫu tín hiệu đầu vào Như vậy, tín hiệu âm đưa vào máy tính, tập mẫu liên tiếp nhau, mẫu giá trị biên độ tín hiệu thời điểm định Một tham số quan trọng việc lấy mẫu tín hiệu âm tần số lấy mẫu, Fs, tức số mẫu lấy giây Để đo lường xác, cần phải lấy mẫu chu kỳ tín hiệu âm đầu vào Tuy nhiên, thực tế tai người nhận biết âm có tần số nhỏ 10.000Hz, tần số lấy mẫu 20.000Hz đủ cho việc nhận dạng với độ xác cao Trong lĩnh vực nhận dạng tiếng nói qua điện thoại, số lấy mẫu cần 8.000Hz có tín hiệu có tần số nhỏ 4.000Hz truyền điện thoại Các thiết bị thu âm thường có tần số lấy mẫu 16.000Hz Trích chọn đặc trưng nhận dạng tiếng nói việc tham số hóa chuỗi tín hiệu âm dạng sóng đầu vài, biến đổi tín hiệu âm thành chuỗi vector đặc trưng n chiều, chiều giá trị thực Hiện nay, có nhiều phương pháp trích chọn đặc trưng : LPC (Linear predictive coding – Dự đoán tuyến tính, AMDF(Average magnitude different function – hàm biện hộ trung bình), MFCC(Melfrequency cepstral coefficients), kết hợp phương pháp Phần giới thiệu cụ thể phương pháp trích chọn đặc trưng MFCC Xử lý ảnh-Voice Biometric Trong toán nhận dạng tiếng nói xét, với tần số lấy mẫu mặc định 16.000Hz, đoạn mẫu với số lượng định tạo thành frame, tín hiệu tiếng nói tập frame liên tiếp nhau, trích chọn đặc trưng MFCC cho ta tập đặc trưng cho frame tiếng nói 3.3 Trích chọn đặc trưng MFCC Trong nhận dạng tiếng nói, kỹ thuật trích chọn đặc trưng MFCC phương pháp phổ biến MFCC viết tắt Mel-frequency cepstral coefficients Kỹ thuật dựa việc thực biến đổi để chuyển liệu âm đầu vào(đã biến đổi Fourier cho phổ) thang đo tần số Mel, thang đo diễn tả tốt nhạy cảm tai người âm Kỹ thuật trích chọn đặc trưng gồm bước biến đổi liên tiếp, đầu bước biến đổi trước đàu vào bước biến đổi sau Đầu vào q trình trích chọn đặc trưng đoạn tín hiệu tiếng nói Vì tín hiệu âm sau đưa vào máy tính rời rạc hóa nên đoạn tín hiệu tiếng nói nói bao gồm mẫu liên tiếp nhau, mẫu giá trị thực, thể giá trị biên độ âm thời điểm Trích chọn đặc trưng MFCC gồm bước hình vẽ sau, kết tập gồm 39 giá trị đặc trưng cho frame tiếng nói 3.4 Mã hóa ưu việt Các tính ưu việt cao độ lượng có mức khung hình Năng lượng cửa sổ thu dễ dàng thông qua định lý Parseval, dạng thời gian dạng phổ, cao độ tức thời xác định bằng, ví dụ, phương pháp tự tương quan dựa phân rã cepstral, thường làm mịn số lọc thời gian Các đặc điểm thuận âm quan trọng khác đặc điểm liên quan đến thời lượng đơn vị ngôn ngữ, tốc độ nói tất đặc điểm liên quan đến trọng âm Trong tất trường hợp đó, cần phải phân đoạn xác, Xử lý ảnh-Voice Biometric đánh dấu vị trí âm tiết đường nét lượng cao độ để phát vị trí trọng âm điểm đánh dấu chuyển cụm từ giọng nói Việc phân đoạn ngữ âm âm tiết lời nói vấn đề phức tạp cịn lâu giải hữu ích cho việc nhận dạng người nói, hệ thống âm tiết lúc yêu cầu phân đoạn chi tiết Chương Nhận dạng người nói phụ thuộc vào văn Hệ thống nhận dạng giọng nói phân thành hai loại lớn: phụ thuộc vào văn không phụ thuộc vào văn Nội dung thứ sử dụng từ vựng văn để nhận dạng người nói, sau cố gắng giảm thiểu ảnh hưởng nội dung từ vựng vốn coi không xác định khả nhận dạng người nói Sự khác biệt làm cho hai loại hệ thống nhận dạng người nói khác kỹ thuật sử dụng ứng dụng tiềm Phần dành cho hệ thống nhận dạng người nói phụ thuộc vào văn bản, hệ thống tìm thấy ứng dụng chúng hệ thống tương tác, nơi cần có cộng tác từ người dùng để xác thực danh tính họ Ví dụ điển hình ứng dụng xác thực giọng nói qua điện thoại cho hệ thống phản hồi giọng nói tương tác yêu cầu số mức độ bảo mật ứng dụng ngân hàng đặt lại mật Việc sử dụng hệ thống nhận dạng người nói phụ thuộc vào văn yêu cầu, tương tự phương thức sinh trắc học khác, giai đoạn ghi danh người dùng cung cấp số mẫu để xây dựng mô hình người dùng giai đoạn nhận dạng mẫu giọng nói so khớp với người dùng mơ hình 4.1 Phân loại hệ thống kỹ thuật Chúng ta phân loại hệ thống nhận dạng người nói phụ thuộc vào văn theo quan điểm ứng dụng thành hai loại: hệ thống văn cố định hệ thống văn biến đổi Hệ thống văn in cố định, nội dung từ vựng đăng ký mẫu nhận dạng giống Trong hệ thống văn biến đổi, nội dung từ vựng mẫu nhận dạng khác thử nghiệm truy cập với nội dung từ vựng mẫu đăng ký Hệ thống văn thay đổi linh hoạt mạnh mẽ trước công sử dụng ghi âm từ người dùng bắt chước sau nghe người nói thực nói mật 10 Xử lý ảnh-Voice Biometric dạng giọng nói có sẵn phát triển đặc biệt Đối với mục đích nhận dạng người nói, việc có giải mã ngữ âm xác khơng quan trọng chí khơng quan trọng phải có giải mã ngữ âm ngơn ngữ người nói để nhận dạng Sự thật có phần đáng ngạc nhiên phân tích cho thấy lỗi ngữ âm phụ thuộc vào người nói giải mã tạo dường người nói cụ thể thơng tin hữu ích cho việc nhận dạng người nói miễn lỗi quán người nói cụ thể Sau có giải mã ngữ âm, giải mã ngữ âm nhiều câu từ nhiều người nói khác sử dụng để phát triển Mơ hình tảng lời nói phổ quát (UBPM) đại diện cho người Các Mơ hình Âm người nói (SPMi) phát triển cách sử dụng số giải mã ngữ âm người nói cụ thể Vì nói có sẵn để phát triển mơ hình lời nói thường bị hạn chế, nên mơ hình lời nói thêm vào với UBPM để tăng tính chắn ước tính tham số Sau mơ hình ngơn ngữ thống kê phát triển, quy trình để xác minh cách phát âm thử nghiệm mơ hình người nói SPMi Bước tạo giải mã ngữ âm nó, X, giống cách giải mã sử dụng để phát triển SPMi UBPM Sau đó, giải mã ngữ âm câu thử, X mơ hình thống kê (SPMi, UBPM) sử dụng để tính tốn khả giải mã ngữ âm, X, dựa mơ hình người nói SPMi mơ hình UBPM Điểm nhận biết biểu đồ tỷ lệ hai khả xảy Q trình thường mơ tả Nhận dạng âm lời nói, sau Mơ hình hóa ngơn ngữ (PRLM) lặp lại cho giải mã ngữ âm khác (ví dụ: ngôn ngữ độ phức tạp khác nhau) điểm nhận dạng khác thêm vào kết hợp để có hiệu suất tốt hơn, mang lại phương pháp gọi PRLM PPRLM song song Gần đây, số cải tiến đề xuất hệ thống PPRLM Một điều quan trọng mặt cải thiện hiệu suất việc sử dụng toàn mạng lưới nhận dạng âm lời nói thay giả thuyết giải mã tốt Mạng lưới nhận dạng đồ thị xoay chiều có hướng chứa giả thuyết có khả xảy với xác suất chúng Thông tin phong phú nhiều cho phép ước tính tốt n-gam tài liệu nói hạn chế, cho kết tốt nhiều 17 Xử lý ảnh-Voice Biometric 5.4 Hệ thống vần điệu Một hệ thống vần điệu tiên phong thành công việc nhận dạng người nói khơng phụ thuộc vào văn cơng trình Adami Hệ thống bao gồm hai phần chính: prosodic tokenizer, phân tích vần điệu biểu thị dạng chuỗi ký hiệu mã vần điệu giai đoạn mơ hình hóa ngơn ngữ thống kê n-gram, mơ hình hóa tần số mã vần điệu trình tự chúng cho người nói cụ thể Một số khả khác để mơ hình hóa thông tin vần điệu chứng minh thành công việc sử dụng chức vùng khai thác không đồng (NERFs) phân định khoảng dừng đủ dài NERF xác định cấu trúc âm tiết câu (SNERFs ) Các tác giả triển khai hệ thống vần điệu dựa cơng trình Adami, phần thứ hai hồn tồn giống với nhận người nói âm sắc với điều chỉnh nhỏ để cải thiện hiệu suất Q trình mã hóa bao gồm hai giai đoạn Thứ nhất, phát biểu, quỹ đạo thời gian đặc trưng vần điệu, (tần số - cao độ - lượng) khai thác Thứ hai, hai đường phân đoạn ký hiệu quy trình định lượng độ nghiêng Hình sau cho thấy bảng chứa 17 mã thông báo vần điệu Một mã thông báo đại diện cho phân đoạn vô thanh, 16 sử dụng để đại diện cho phân đoạn có âm tùy thuộc vào độ dốc (phát nhanh, tăng chậm, giảm nhanh, giảm chậm) lượng cao độ Nó cho thấy câu nói ví dụ phân đoạn ký hiệu cách sử dụng mã thông báo vần điệu Bảng chữ mã thông báo vần điệu (bảng cùng) mã hóa mẫu đường cao độ lượng (hình dưới) 18 Xử lý ảnh-Voice Biometric 5.5 Cơ sở liệu Điểm chuẩn Vào đầu năm 1990, nhận dạng người nói khơng phụ thuộc vào văn thách thức lớn, với tương lai khó lường trước Vào thời điểm đó, sáng kiến nghiên cứu khiêm tốn phát triển với sở liệu hạn chế, dẫn đến sản phẩm không đồng khơng có cách để so sánh cải tiến hệ thống nhiệm vụ tương tự May mắn thay, vào năm 1996, NIST bắt đầu Đánh giá Công nhận Diễn giả hàng năm, chắn động lực thúc đẩy tiến đáng kể Thành đại hoàn toàn nằm dự đốn 10 năm trước Thành cơng thúc đẩy hai yếu tố Thứ nhất, việc sử dụng sở liệu giao thức chung để đánh giá ngầm hệ thống cho phép so sánh công hệ thống nhiệm vụ Thứ hai, hội thảo sau đánh giá cho phép người tham gia chia sẻ kinh nghiệm, cải tiến, thất bại, v.v họ môi trường hợp tác cao Vai trò LDC (Linguistic Data Consortium) cung cấp tài liệu nói đầy thách thức đáng ý, nhu cầu liên tục tăng lên (cả lượng lời nói yêu cầu ghi âm) Từ giai đoạn khác Switchboard đến sở liệu kiểu Fisher nhất, nhiều tiến đạt Các đánh giá trước (phát triển, đào tạo kiểm tra âm phím -solutions-) có sẵn thơng qua LDC để nhà nghiên cứu đánh giá hệ thống họ mà khơng có áp lực cạnh tranh Mặc dù kết "chính thức" bị hạn chế người tham gia, việc theo dõi tiến cơng nghệ dễ dàng người tham gia thường trình bày phát triển họ phiên ID người phát biểu hội nghị quốc tế ICASSP InterSpeech (trước EuroSpeech), loạt Hội thảo ISCA / IEEE Odyssey 5.6 Nghiên cứu điển hình: hệ thống văn độc lập đa cấp ATVS 19 Xử lý ảnh-Voice Biometric Hiệu suất hệ thống ATVS NIST’06 Đánh giá nhận dạng người nó so sánh hệ thống quang phổ (GMM SVM), quang âm vần điệu Các tác giả tham gia kiểm tra hàng năm NIST SRE kể từ năm 2001, phát triển hệ thống quang phổ khác (phổ biến phân biệt) cấp độ cao Mô tả chi tiết cách tiếp cận đa cấp chúng tơi tìm thấy chúng tơi trình bày kết chúng tơi NIST SRE06 nhiệm vụ 8c1c (8 hội thoại đào tạo hội thoại để kiểm tra), để xem hiệu suất hệ thống khác tập Sự khác biệt hệ thống ATVS năm 2006 so với hệ thống 2005 mô tả việc sử dụng Ánh xạ đặc trưng GMM SVM, việc sử dụng mở rộng đa thức bậc (thay bậc 2) nhân GLDS việc sử dụng PRLM đào tạo với SpeechDat (tốt từ ba hệ thống PRLM hiển thị) Như nêu hình trên, hệ thống quang phổ (GMM SVM) hoạt động tương tự, hệ thống cấp cao thu đủ thông tin cá nhân hóa (∼ 20% EER) cịn xa hiệu suất hệ thống quang phổ Sau đánh giá, SuperVector-GMM bù kênh NAP đưa vào hệ thống chúng tôi, cung cấp cải tiến đáng kể so với hệ thống quang phổ tốt nhất, hình 8.6 cho nhiệm vụ phụ NIST SRE06 1c1c-male Cải thiện hiệu suất sau đánh giá hệ thống NIST’06 SRE ATVS dựa bù kênh NAP SuperVector-GMM (nhiệm vụ phụ 1c-1c) 20 Xử lý ảnh-Voice Biometric Chương 6: Các giải pháp Voice Biometrics 6.1 Ứng dụng: Xác thực giọng nói ứng dụng sinh trắc học cổ điển người nói cố gắng xác minh với tư cách người nói hợp tác (ví dụ: cấp quyền truy cập vào hệ thống cụ thể tài khoản ngân hàng họ) với tư cách người dùng khơng hợp tác (ví dụ: xác nhận / diện cô nhà ứng dụng kiểm soát đặc xá tự động nhà) Một số hình thức xác thực giọng nói cụ thể phát triển hình thức liên quan đến Quản lý quyền kỹ thuật số (DRM), mô tả tiêu chuẩn MPEG-21 kiến trúc quản lý quyền độc quyền khác, giọng nói sử dụng để cấp quyền truy cập vào phương tiện bảo mật nội dung từ tác giả nhà sản xuất truyền thông đến nhà phân phối người dùng cuối Mơ hình DRM 21 Xử lý ảnh-Voice Biometric Trần Anh Đức – N18DCCN047 Một ứng dụng thú vị khác mã hóa sinh học giọng nói, giọng nói sử dụng để tạo khóa mã hóa người dùng sử dụng cách an tồn mà khơng lưu trữ khơng truy xuất tạo từ giọng nói VD: Chỉ cần đăng ký Giọng Nói bạn với tổng đài CitiPhone lần, khách hàng sử dụng mã PIN giảm thiểu số lượng câu hỏi bảo mật nói chuyện với nhân viên CitiPhone Mơ hình nhận dạng sinh học giọng nói Tuy nhiên, hình thức khai thác thơng tin sinh trắc học khác tín hiệu giọng nói xuất Một hệ thống gọi giám sát giọng nói, phát danh sách đen phát người nói, nhiều dịng input đồng thời (hàng trăm hàng nghìn trung tâm gọi lớn hệ thống nghe lén) giám sát thời gian thực để phát người nói từ danh sách Cuối cùng, việc sử dụng hệ thống nhận dạng người nói tự động pháp y cho phép tính minh bạch khả kiểm tra việc sử dụng giọng nói làm chứng tịa án, dự đốn khoa học pháp y đại Các hệ thống tự động điều chỉnh để cung cấp Tỷ lệ khả xảy đầu chúng, tuân theo phương pháp luận DNA, theo phương pháp gọi tiêu chuẩn vàng khoa học pháp y Hơn nữa, hiệu chuẩn giá trị LR cung cấp cách tiếp cận thống để sử dụng LR điều kiện khác với loại chứng khác nhau, cho phép kết hợp nguồn kiến thức khác khoa học pháp y 22 Xử lý ảnh-Voice Biometric Trần Anh Đức – N18DCCN047 6.2 Ví dụ giải pháp Voice Biometrics CYBER LOTUS Sinh trắc học đa phương thức • • • • • • Khớp giọng nói thụ động Hỗ trợ cho nhiều ngơn ngữ Khớp giọng nói chủ động Bao gồm hỗ trợ cho cụm từ thông hành tùy chỉnh Xác thực sinh trắc học phía máy chủ thiết bị Xác thực băng băng Đăng ký xác thực chéo Để có nhìn chính, khách hàng bạn tất kênh trao đổi • • • • Tương tác với trung tâm liên hệ Tương tác ứng dụng di động Tương tác web di động máy tính để bàn Tương tác trực tiếp địa điểm thực tế Phịng chống gian lận • Phát sống động sinh trắc học thụ động chủ động • Tổng hợp giọng nói phát lại • Để giảm thiểu hành vi giả mạo dừng danh tính tổng hợp Hỗ trợ cho tất kênh thoại loại thiết bị • • • • • Dịch vụ điện thoại cũ thông thường Thoại qua IP Thoại qua Wifi Thoại qua LTE Trợ lý giọng nói 23 Xử lý ảnh-Voice Biometric Trần Anh Đức – N18DCCN047 Ứng dụng DaonCollect – Ghi lại mẫu giọng nói ứng dụng Khả tích hợp với ứng dụng di động Khả tích hợp với tổng đài IVR 24 Xử lý ảnh-Voice Biometric Trần Anh Đức – N18DCCN047 Chương 7: Nghiên cứu Cơng nghệ nhận diện giọng nói Phonexia Cơng nghệ nhận dạng giọng nói Phonexia sử dụng sức mạnh kỹ thuật sinh trắc học giọng nói để nhận dạng giọng nói, xác định liệu giọng nói hai ghi thuộc người hay hai người khác Độ xác cao giải pháp nhận dạng giọng nói Phonexia, xác nhận Đánh giá cách mạng nhận dạng giọng nói Viện tiêu chuẩn Kỹ thuật quốc gia (NIST) Hoa Kỳ Phạm vi ứng dụng công nghệ nhận dạng giọng nói Cơng nghệ sử dụng cho yêu cầu nhận dạng giọng nói khác • Tìm kiếm người phát biểu hỏi giọng nói, giọng nói đâu, tìm kiếm người nói kho lưu trữ lớn • Phát giọng nói theo dõi số lượng lớn ghi luồng âm tìm kiếm xuất giọng nói cụ thể • Phát giọng nói triển khai cho mục đích cảnh báo gian lận • Xác minh người phát biểu, chẳng hạn người gọi ngân hàng nói, “Xin chào, tơi Đỗ Văn T”, công nghệ nhận dạng giọng nói có phải giọng nói Đỗ Văn T khơng? • Cách tiếp cận xác minh một-một (1: 1) sử dụng hệ thống Thoại-Mật khẩu, tăng thêm bảo mật cho xác thực đa yếu tố qua điện thoại • Đặc biệt nhận dạng giọng tự động quy mô lớn quan thực thi pháp luật sử dụng thành cơng q trình điều tra cho mục đích tìm kiếm sở liệu xếp hạng nghi phạm Trong giai đoạn sau vụ án, giám định giọng nói sử dụng lượng liệu nhỏ so sánh 1: để đánh giá chứng để xác định danh tính người nói sử dụng tịa án Cơng nghệ hoạt động nào? Công nghệ dựa thực tế quan sinh học cấu thành giọng nói thói quen nói người nhiều độc Do đó, đặc điểm (hoặc nét đặc trưng) tín hiệu giọng nói ghi ghi nhiều nhất, cơng nghệ độc lập ngơn ngữ, giọng nói, văn kênh 25 Xử lý ảnh-Voice Biometric Trần Anh Đức – N18DCCN047 Minh hoạ quan sinh học cấu thành giọng nói Hệ thống nhận dạng giọng nói tự động dựa việc trích xuất các đặc điểm độc từ giọng nói so sánh chúng Do đó, hệ thống thường bao gồm hai bước riêng biệt: Trích xuất giọng nói (đăng ký người nói) so sánh giọng nói Tốc độ xử lý phụ thuộc vào mơ hình cơng nghệ nhanh từ đến 50 lần so với thời gian thực lõi CPU máy chủ Trích xuất giọng nói phần tốn nhiều thời gian quy trình Mặt khác, tốc độ so sánh giọng lại diễn nhanh – hàng triệu so sánh giọng nói thực giây Trích xuất giọng nói (Đăng ký giọng nói) Ghi danh giọng nói bắt đầu việc trích xuất đặc điểm âm từ ghi giọng nói biết Q trình tiếp tục với việc tạo mơ hình giọng nói sau chuyển đổi thành biểu diễn số nhỏ có tính đại diện cao gọi Vết giọng nói (Voiceprint) Trong q trình này, SID áp dụng kỹ thuật bù kênh đại Giọng nói ma trận có độ dài cố định, nắm bắt đặc điểm giọng nói người nói 26 Xử lý ảnh-Voice Biometric Trần Anh Đức – N18DCCN047 Lượng lời nói tối thiểu đề nghị cho việc ghi danh khoảng 30 giây (Phonexia SID hệ thứ giảm yêu cầu xuống 20 giây) Giọng nói sau lưu trữ sở liệu dạng tệp nhị phân có vp Dưới ví dụ nội dung giọng nói dạng người đọc được: So sánh vết giọng nói Bất kỳ giọng nói tạo từ 10 giây lời nói (Phonexia SID hệ thứ giảm yêu cầu xuống cịn giây) người nói khơng xác định so sánh với giọng nói đăng ký có hệ thống trả điểm cho lần so sánh Điểm số tạo cách so sánh hai giọng nói cách sử dụng Phân tích phân biệt tuyến tính xác suất (PLDA) Chấm điểm Điểm số tạo cách so sánh hai giọng nói ước tính xác suất (P), có chứng định (giọng nói so sánh) giọng nói hai giọng nói giống chúng hai người khác Tỷ lệ hai xác suất gọi Tỷ lệ khả (LR), thường biểu thị dạng logarit dạng Tỷ lệ khả giống (LLR) chuyển đổi thành tỷ lệ phần trăm 27 Xử lý ảnh-Voice Biometric Trần Anh Đức – N18DCCN047 Đánh giá so sánh Việc so sánh giọng nói hai ghi âm giọng nói thuộc người nói gọi thử nghiệm mục tiêu Nếu giọng nói thuộc hai cá nhân khác nhau, việc so sánh gọi thử nghiệm khơng nhắm mục tiêu Trong q trình so sánh giọng nói, hai loại lỗi xảy Từ chối sai xảy hệ thống từ chối khơng xác thử nghiệm mục tiêu, tức là, hệ thống nói giọng nói khác thực tế chúng thuộc người Chấp nhận sai hệ thống chấp nhận không xác thử nghiệm khơng nhắm mục tiêu, tức hệ thống nói giọng nói giống nhau, chúng thuộc người khác Một cách đánh giá hiệu suất hệ thống nhận dạng giọng nói tính tốn đánh đổi hai lỗi hiển thị biểu đồ Trao đổi Lỗi Phát (DET) Bằng cách giảm ngưỡng chấp nhận, giảm xác suất từ chối sai, đồng thời tăng xác suất chấp nhận sai Biểu đồ Trao đổi lỗi phát hiện DET 28 Xử lý ảnh-Voice Biometric Trần Anh Đức – N18DCCN047 Trong hệ thống lý tưởng, muốn hai lỗi nhỏ tốt Hiệu suất tốt biểu thị biểu đồ DET đường màu đỏ gần với điểm gốc (0 hai trục x y) Bằng cách đặt ngưỡng chấp nhận, hệ thống điều chỉnh cho trường hợp sử dụng cụ thể Ví dụ: trường hợp mật giọng nói để xác thực chuyển khoản ngân hàng mong muốn bảo mật cao, ngưỡng phải cao Đối với quan thực thi pháp luật tìm kiếm nghi phạm vụ án, tỷ lệ chấp nhận sai cao việc chấp nhận để khơng lọt tội phạm Điểm hoạt động hệ thống tạo số lượng chấp nhận sai từ chối sai gọi Tỷ lệ lỗi Đây thước đo phổ biến hiệu tổng thể hệ thống Hiệu chuẩn SID Điểm số thô phải hiệu chuẩn phép giải thích thống kê xác Ví dụ, hệ thống hiệu chỉnh tốt, điểm số 1000 có nghĩa người dùng chắn 1000 lần người nói ghi bị nghi ngờ người nghi ngờ người khác Về mặt kỹ thuật, điều có nghĩa là, số 1000 giọng phát không xác phát triển Một lý khác để hiệu chuẩn điểm số không phụ thuộc vào lượng chứng 29 Xử lý ảnh-Voice Biometric Trần Anh Đức – N18DCCN047 (lượng lời nói), kênh, chất lượng lời nói, v.v … Bước quan trọng việc phát người nói, chí số trường hợp giám định, tích hợp vào công nghệ SID thực so sánh giọng nói Hiệu chuẩn Tỷ lệ chấp nhận sai (FAR) – phương pháp hiệu chỉnh điều chỉnh ngưỡng điểm để phát / loại bỏ giọng nói cách loại bỏ ảnh hưởng độ dài giọng nói chất lượng âm Hệ thống hiệu chỉnh theo Tỷ lệ chấp nhận sai cụ thể (ví dụ: FAR = 1%) cho giọng nói tham chiếu (kiểu giọng nói) Hiệu chuẩn FAR người dùng dựa tập hợp ghi phù hợp với trường hợp sử dụng mục tiêu sát tốt (thiết bị, kênh âm thanh, khoảng cách từ micrơ, ngơn ngữ, giới tính, v.v.) Mặc dù hệ thống mạnh mẽ yếu tố vậy, hiệu chuẩn cung cấp kết chí tốt chứng mạnh mẽ Tuy nhiên, mục đích hiệu chuẩn FAR đảm bảo hệ thống tạo lượng Chấp nhận Sai cụ thể (xem bên dưới) với liệu cho Để thực hiệu chỉnh FAR, bạn cần hiệu chuẩn với 1000 ghi từ giọng nhất, chứa 60 giây lời nói rịng Chuẩn hóa trung bình – bù cho khác biệt kênh, ngôn ngữ, vv Phương pháp giúp tăng cường kết SID Bộ liệu chuẩn hóa phải chứa 100 giọng nói 30 Xử lý ảnh-Voice Biometric Trần Anh Đức – N18DCCN047 Chương Kết luận Từ việc phân tích nguồn thơng tin cá thể hóa khác có tín hiệu giọng nói, chúng tơi tóm tắt quy trình xử lý tín hiệu tham số hóa với mục tiêu thu vectơ tham số chiều thấp có độ tin cậy cao Các hệ thống phụ thuộc vào văn có vị trí phổ biến xác thực từ xa, đánh giá khách quan thực tế gần Đối với không phụ thuộc vào văn bản, phát triển gần (bộ siêu tốc, hệ số kênh / bù NAP) mang lại tiến lớn đánh giá thử nghiệm NIST SRE cho phép ứng dụng khác nhau, khác xa với kỹ thuật xác thực sinh trắc học cổ điển, sử dụng thông tin sinh trắc học có tín hiệu giọng nói với mục tiêu khác với xác thực từ xa cịn thú vị hữu ích Theo nghĩa này, thấy hệ thống nhận dạng người nói đại sẵn sàng đối mặt với ứng dụng thực tế quan trọng (đặc biệt từ xa) tín hiệu giọng nói dễ dàng truy cập sử dụng đặc điểm sinh trắc học có độ tin cậy cao 31 Xử lý ảnh-Voice Biometric ... giọng nói (điều khiển truy cập, thường từ xa qua điện thoại) nhận dạng mặt đất (xử lý ngôn ngữ tự nhiên) Xử lý ảnh- Voice Biometric • Phát người nói (ví dụ: phát danh sách đen trung tâm gọi nghe... NIST’06 SRE ATVS dựa bù kênh NAP SuperVector-GMM (nhiệm vụ phụ 1c-1c) 20 Xử lý ảnh- Voice Biometric Chương 6: Các giải pháp Voice Biometrics 6.1 Ứng dụng: Xác thực giọng nói ứng dụng sinh trắc học cổ... cho phép kết hợp nguồn kiến thức khác khoa học pháp y 22 Xử lý ảnh- Voice Biometric Trần Anh Đức – N18DCCN047 6.2 Ví dụ giải pháp Voice Biometrics CYBER LOTUS Sinh trắc học đa phương thức • • •