Báo cáo xử lý ảnh giọng nói

HỌC VIỆN CƠNG NGHỆ BƢU CHÍNH VIỄN THƠNG CƠ SỞ TP.HỒ CHÍ MINH o0o BÁO CÁO MÔN XỬ LÝ ẢNH ĐỀ TÀI: SINH TRẮC HỌC GIỌNG NÓI Giảng Viên Hƣớng Dẫn: Lê Hoàng Thái Sinh viên thực hiện: Vũ Ngân Yên Lớp: D18CQCN01-N Mã sinh viên: N18DCCN253 Giới thiệu đề tài Dữ liệu gần người dùng điện thoại di động toàn giới, số lượng điện thoại cố định hoạt động việc triển khai VoIP (Mạng thoại qua IP) gần đây, xác nhận giọng nói đặc điểm sinh trắc học dễ tiếp cận khơng cần thiết bị thu nhận bổ sung hệ thống truyền dẫn Thực tế mang lại cho giọng nói lợi vượt trội so với đặc điểm sinh trắc học khác Voice Biomatrics (hay Sinh trắc học giọng nói) cơng nghệ dựa vào việc nhận dạng mẫu giọng nói để xác minh danh tính cá nhân Điều đường âm (chất giọng) người (có 70 phận thể người góp phần vào cách người nói) Các đặc điểm vật lý, ngữ âm hình thái, đặc trưng cá nhân, khiến chúng chống gian lận Do đó, cơng nghệ nhận dạng gióng nói cho phép mức độ bảo mật cao hệ thống nhận dạng khác, chẳng hạn hệ thống dựa mã PIN Chỉ cần đăng ký Giọng nói bạn với lần (tổng đài, web,app), người dùng sử dụng mã PIN giảm thiểu số lượng câu hỏi bảo mật nói chuyện với điện thoại viên Trải qua gần 100 năm hình thành phát triển, đến voice biometrics cải tiến gần hoàn hảo cho mục đích kinh tế Độ xác voice biometrics vượt ngưỡng 96%, nhận giọng nói người dùng họ bị cảm lạnh, khan tiếng, phân biệt giọng nói thu âm giọng nói thật Ngồi ra, hệ thống cịn tự cập nhật thay đổi giọng nói người dùng theo năm tháng Các loại công nghệ nhận dạng Nguồn thơng tin mã hóa tín hiệu thoại chắn nội dung ngơn ngữ Vì lý đó, khơng có ngạc nhiên tùy thuộc vào cách sử dụng kiểm soát nội dung ngơn ngữ, phân biệt hai loại cơng nghệ nhận dạng người nói khác với ứng dụng tiềm khác  Thứ nhất, công nghệ phụ thuộc vào văn nơi người nói cụm mật (câu hỏi bí mật) cụ thể, thường bao gồm hai đến ba từ, chẳng hạn như” Hôm trời thật đẹp, xanh” chuỗi (ví dụ: “12-34-56”), Mức độ bảo mật hệ thống dựa mật sau nâng cao Để tránh việc ghi trộm mật thực xảy ra, hệ thống phụ thuộc vào văn cải tiến để yêu cầu lời nhắc ngẫu nhiên, không mong đợi người gọi, điều dễ dàng bị kẻ mạo danh tạo  Thứ hai công nghệ không phụ thuộc vào văn cách sử dụng sinh trắc học giọng nói thụ động, theo người dùng nói điều gì, việc xác thực nhanh chóng diễn trình tương tác bình thường họ với tổng đài viên, IVR ứng dụng Chúng yếu tố thúc đẩy hai loại ứng dụng cịn lại, phát loa nhận dạng loa pháp y Vì nội dung ngơn ngữ nguồn thơng tin mã hóa phát biểu, tính độc lập với văn thách thức lớn chủ đề nghiên cứu cộng đồng cơng nhận người nói hai thập kỷ qua Tính nhận dạng người nói khơng phụ thuộc vào văn bị thống trị phần lớn, kể từ năm 1970 đến cuối kỷ 20, hệ thống dựa quang phổ ngắn hạn Kể từ năm 2000, hệ thống cấp cao bắt đầu phát triển với kết đủ tốt nhiệm vụ có độ thử thách cao (đánh giá NIST SR) Tuy nhiên, hệ thống quang phổ tiếp tục hoạt động tốt hệ thống cấp cao (NIST 2006 SRE điểm chuẩn vào thời điểm viết bài), với kết phát tốt chế bù kênh tiên tiến gần Hoạt động sinh trắc học giọng nói Hệ thống sinh trắc học giọng nói hoạt động cách tạo in giọng nói “mẫu” lời nói người Mẫu đăng ký người dùng thu âm trực tiếp lấy từ File ghi âm có sẵn, đoạn ngắn 2-3s đoạn giọng người đăng ký.Sau hệ thống trích đặc trưng giọng nói người dùng lưu vào hệ thống Khi cần xác minh người dùng nói câu hệ thống xác minh lại với mẫu đăng ký hệ thống để xác thực 4        Lợi ích sinh trắc học giọng nói Xác thực nhanh chóng, dễ dàng Cải thiện bảo mật giảm thiếu vi phạm mật bị xâm nhập, lừa đảo Phản hồi nhanh chống liên quan đến mối đe dọa Ngay xác định người dùng cá nhân hóa tương tác Giải phóng điện thoại viên khỏi việc xác minh người dùng Cho phép đăng nhập tự nhiên cho kênh callbot, chatbot hay trợ lý ảo Ứng dụng quy trình xác thực hai yếu tố để tăng cường bảo mật, OTP lớp Ứng dụng sinh trắc học giọng nói Do tính phổ biến tín hiệu giọng nói, phạm vi ứng dụng có sinh trắc học giọng nói rộng so với đặc điểm sinh trắc học thông thường khác Chúng ta phân biệt ba loại ứng dụng tận dụng thơng tin sinh trắc học có tín hiệu giọng nói:  Xác thực giọng nói (điều khiển truy cập, thường từ xa điện thoại) nhận dạng (kiểm tra giọng nói tự nhiên) + Áp dụng cho toán xác thực người dùng cho chăm sóc khách hàng + Xác thực OTP lớp giao dịch ngân hàng  Phát danh sách đen trung tâm gọi nghe giám sát), gọi phát loa  Nhận dạng loa pháp y (nhận dạng người nói sử dụng giọng nói làm chứng trước tịa án pháp luật làm thơng tin tình báo điều tra cảnh sát) Các ứng dụng có sinh trắc học giọng nói Citibank vừa triển khai công nghệ bảo mật sinh trắc học giọng nói cho khách hàng gọi đến trung tâm dịch vụ ngân hàng thay hoàn tồn hệ thống nhận dạng truyền thống thơng tin cá nhân Theo đó, với ứng dụng bảo mật mới, khách hàng không cần nhớ loạt thông tin nhận diện câu hỏi mang tính cá nhân, mã số PIN hay mã số bảo mật mà cần đăng ký ghi nhận giọng nói vào Citi’s Voice Biometrics Theo Citibank, công nghệ cho phép giảm thiểu thời gian phục vụ khách hàng khoảng 45 giây so với xác nhận thông tin nhận diện khách hàng nhanh 66% thời gian thông thường 7 Các nghiên cứu Một sở liệu thiết kế đặc biệt cho nghiên cứu nhận dạng người nói phụ thuộc vào văn YOHO Nó bao gồm 96 câu nói để ghi danh thu thập phiên khác 40 câu nói để kiểm tra thu thập 10 phiên cho người tổng số 138 diễn giả Mỗi câu nói bao gồm ba cặp chữ số khác (ví dụ: “12-34-56”) Đây có lẽ tiêu chuẩn mở rộng tiếng để so sánh thường sử dụng để đánh giá hệ thống phụ thuộc vào văn Tuy nhiên, sở liệu YOHO có số hạn chế Ví dụ: chứa phát biểu ghi micrô môi trường yên tĩnh không thiết kế để mô giả mạo thông báo (tức kẻ mạo danh nói mật người dùng) Nghiên cứu điển hình: Nhận dạng người nói phụ thuộc vào văn với HMM thích nghi người nói xác nhận lại HMM Như ví dụ hệ thống phụ thuộc vào văn thử nghiệm sở liệu chuẩn YOHO, chúng tơi trình bày kết thu với hai hệ thống nhận dạng người nói phụ thuộc vào văn tác giả phát triển Các hệ thống mô hệ thống tạo văn dựa tập hợp HMM ngữ âm độc lập với người nói ngữ cảnh đào tạo TIMIT Việc ghi danh bao gồm việc sử dụng số câu người nói để điều chỉnh HMM cho người nói Chúng so sánh hai cách thực điều chỉnh này: với lần xác định lại Baum-Welch với Hồi quy tuyến tính khả tối đa (MLLR) Cách tiếp cận trước cách tiếp cận thông thường yêu cầu sử dụng HMM đơn giản (chỉ một vài Gauss cho tiểu bang) Càng sau lạ cho phép sử dụng HMM phức tạp Việc xác minh loa bao gồm việc tính tốn điểm âm tạo trình chỉnh bắt buộc lời nói với phiên âm cách sử dụng HMM thích hợp với loa HMM không phụ thuộc vào loa Điểm cuối thử nghiệm đơn giản tỷ lệ điểm (khơng bao gồm chuẩn hóa điểm kết trình bày) Hình trên: Ví dụ kết YOHO hai hệ thống nhận dạng người nói phụ thuộc vào văn dựa HMM phiên âm độc lập với người nói MLLR thích ứng với người nói ước tính lại Baum-Welch cho lượng giọng nói đăng ký khác Tƣơng lai công nghệ Tiềm công nghệ nhận dạng giọng nói lớn Tính nhận dạng giọng nói khơng dừng lại việc nhập liệu mà cịn mở chân trời để khai thác đơn giản hóa sống Cơng nghệ sinh để làm cho sống dễ dàng hơn, việc nhận dạng giọng nói chắn khơng phải ngoại lệ Hiện nay, Voice Biometrics áp dụng số ngân hàng doanh nghiệp tài chính, đạt hiệu rõ rệt so với giải pháp truyền thống Chỉ vòng năm từ 2014 - 2016, số người đăng ký voiceprint (xác minh giọng nói) tăng 80% từ 60 triệu người lên đến 137 triệu người Việc giới chuyên gia nhận định tốc độ tăng trưởng kép năm thị trường voice biometrics đạt 17% cho thấy số lượng doanh nghiệp áp dụng voice biometrics tiếp tục tăng lên ... học giọng nói Hệ thống sinh trắc học giọng nói hoạt động cách tạo in giọng nói “mẫu” lời nói người Mẫu đăng ký người dùng thu âm trực tiếp lấy từ File ghi âm có sẵn, đoạn ngắn 2-3s đoạn giọng. .. học giọng nói) công nghệ dựa vào việc nhận dạng mẫu giọng nói để xác minh danh tính cá nhân Điều đường âm (chất giọng) người (có 70 phận thể người góp phần vào cách người nói) Các đặc điểm vật lý, ... trợ lý ảo Ứng dụng quy trình xác thực hai yếu tố để tăng cường bảo mật, OTP lớp Ứng dụng sinh trắc học giọng nói Do tính phổ biến tín hiệu giọng nói, phạm vi ứng dụng có sinh trắc học giọng nói

Định dạng
Số trang	7
Dung lượng	555,97 KB