Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 11 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
11
Dung lượng
301,02 KB
Nội dung
HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THƠNG KHOA CƠNG NGHỆ THÔNG TIN II 🕮 BÀI BÁO CÁO Tên chủ đề: Voice Biometric Tên sinh viên: Trần Quốc Bảo Mã sinh viên: N18DCCN013 Lớp: D18CQCN01-N Thành phố Hồ Chí Minh, tháng năm 2021 Giới thiệu Biometrics môn khoa học ứng dụng phân tích tốn học, thống kê xác suất để nghiên cứu tượng sinh học tiêu sinh học đo lường Cơng nghệ sử dụng thuộc tính vật lý, đặc điểm sinh học riêng cá nhân vân tay, mống mắt, giọng nói … để nhận diện Voice Biometrics công nghệ dựa vào việc nhận dạng mẫu giọng nói để xác minh danh tính cá nhân Điều đường âm(chất giọng) người gần (có 70 phận thể người góp phần vào cách người nói) Các đặc điểm vật lý, ngữ âm hình thái, đặc trưng cá nhân, khiến chúng chống gian lận Do đó, cơng nghệ nhận dạng giọng nói cho phép mức độ bảo mật cao hệ thống bảo mật khác, chẳng hạn hệ thống dựa mã pin Thêm vào đó, liệu gần người dùng điện thoại di động giới, số lượng điện thoại cố định hoạt động triển khai thơng qua mạng IP rằng, giọng nói đặc điểm sinh trắc học dễ tiếp cận khơng cần thêm thiết bị thu nhận hệ thống truyền dẫn khác Hai yếu tố nêu giọng nói lợi vượt trội so với đặc điểm sinh trắc học khác, đặc biệt người dùng từ xa hệ thống điều khiển Tuy nhiên, phức tạp cấu thành giọng nói từ thân yếu tố liên quan đến môi trường khiến cho việc xử lý giọng nói trở nên khó khăn Mặt khác, giọng nói truyền sẽ thay đổi nhiều đặc tính ảnh hưởng thiết bị truyền dẫn microphone, điều khiến cho giọng nói bị biến thể trở nên khó xử lý May mắn thay, ngày nay, dựa vào nhiều công nghệ ứng dụng tiên tiến bù đắp cho nguồn làm cho giọng nói bị biến đổi đó, đồng thời cho phép tạo ứng dụng giá trị gia tăng hiệu đáng tin cậy Từ giúp dễ dàng xác thực từ xa phát giọng nói dựa tín hiệu truyền qua thiết bị truyền dẫn điện thoại hay gọi trực tuyến từ thiết bị thông minh khác ❖ Lược sử nghiên cứu: Nỗ lực công nghệ nhận dạng giọng nói, đáng kinh ngạc từ khoảng năm 1000 trước Cơng ngun, người tên Giáo hồng Sylvester II phát minh cơng cụ có “ma thuật” trả lời câu hỏi “có” “khơng” Mặc dù chi tiết phát minh ông chưa dược khám phá, Giáo hồng Sylvester II khơng đoán 944 năm sau, bị quyến rũ điều kỳ diệu Công nghệ tương tự mang tên - Magic Ball Audrey hệ thống nhận dạng giọng nói người, “cơng cụ nhận dạng chữ số tự động” phát triển Bell Labs vào năm 1952 Là hệ thống từ năm 1952, Audrey phân biệt mười số từ đến Giống hầu hết thiết bị điện tử hệ đầu tiên, Audrey có kích thước lớn Chỉ riêng giá đỡ Audrey cao feet, ngồi cịn cần đến khuếch đại, tích hợp lọc – tất để nghe phân biệt mười số Đến năm 1962, Showbox IBM nhận biết phân biệt 16 từ Cho đến thời điểm này, việc nhận dạng xử lý giọng nói cịn gặp nhiều khó khăn Các kỹ sử IBM lập trình cho máy móc hiểu sử dụng âm thanh, cao độ âm vị để xác định từ nói Tuy nhiên, người dùng phải tạm dừng nói chậm để đảm bảo máy thực tiếp thu Sau chín năm nữa, Bộ Quốc phịng Mỹ bắt đầu nhận giá trị công nghệ nhận dạng giọng nói Vì thế, họ đầu tư năm cho chương trình Nghiên cứu Hiểu Giọng nói DARPA, chương trình thuộc loại lớn nhận dạng giọng nói Một phát minh bật đến từ chương trình “Harpy”, hệ thống nhận dạng 1000 từ Cuối năm 1970, 1980, hệ thống nhận dạng giọng nói bắt đầu trở nên phổ biến đến mức chúng trở thành đồ chơi trẻ em Năm 1978, Speak & Spell, sử dụng chip lời nói, giới thiệu để giúp trẻ em đánh vần từ Chip giọng nói chứng tỏ cơng cụ quan trọng cho giai đoạn phần mềm nhận dạng giọng nói Năm 1987, búp bê “Julie” giới Kỳ quan mắt Trong trình diễn ấn tương, Julie phản hồi với người nói có khả phân biệt giọng nói người nói Ngày nhiều nhà khoa học từ bỏ quan điểm nhận dạng giọng nói phải dựa âm Thay vào đó, họ hướng tới tiếp cận hướng ngôn ngữ nhiều hưn, thiết lập thuật tốn để lập trình hệ thống với quy tắc ngôn ngữ tiếng Anh Ba năm ngắn sau Julie, Dragon mắt hệ thống nhận dạng giọng nói “Dragon Dictate” Năm 1997, Dragon phát hành “Tự nhiên nói” cho phép xử lý giọng nói tự nhiên mà không cần tạm dừng Ngày nay, công nghệ nhận dạng tiếng nói ngày xác phổ biến Các công ty lớn Google, Apple, Microsoft… phát triển cho mắt ứng dụng áp dụng cơng nghệ nhận dạng giọng nói riêng họ Năm 2010, Google phát triển thay đổi trị chơi đưa cơng nghệ nhận dạng giọng nói đầu đổi mới: ứng dụng Google Voice Search Năm 2011, Apple mắt “Siri” tảng sử dụng xử lý đám mây Siri đời thúc đẩy đời công nghệ tương tự khác Amazon’s Alexa Mirosoft’s Cortana ❖ Ưu nhược điểm cơng nghệ nhận dạng giọng nói: Ưu điểm: • Kiểm tra tả: Ứng dụng cho phép người truy cập vào công cụ chỉnh sửa tương tự giải pháp xử lý văn chuẩn Mặc dù thử khơng xác 100% phần mềm nhận diện xử lý phần lớn lỗi tả, ngữ pháp • Khả truy cập: Các cơng nghệ nhận dạng giọng nói ngày coi thuận lợi người khuyết tật họ dùng giọng nói để hệ thống chuyển thành văn bản, giúp nhập liệu hay điều khiển cách dễ dàng • Tốc độ nhanh: Cơng nghệ nhận dạng giọng nói có khả nắm bắt giọng nói người dùng với tốc độ nhanh so với nhập liệu bàn phím viết tay thơng thường Vì tốc độ nhập liệu giọng nói cải thiện đáng kể Nhược điểm: • Mặc dù tất phần mềm nhận dạng giọng nói hứa hẹn hoạt động sau vài phút cài đặt Song thực tế trình ghi nhận, làm quen với giọng nói, âm điệu tốc độ nói người dùng lại tốn nhiều thời gian Một số ứng dụng nhận dạng giọng nói cịn bắt người dùng nói lại, chí khơng thể nhận diện bạn nói • Cơng nghệ nhận dạng giọng nói đánh giá chưa thực ổn định: Vì nói mà bị ngắt chừng khiến ta khó chịu Đặc biệt, phần mềm nhận dạng gặp hạn chế nhận dạng người dùng đột ngột lên xuống giọng hay nói nhỏ lại • Mặc dù chun gia cố gắng nâng cao mở rộng vốn từ vựng cho cơng nghệ nhận dạng giọng nói Nhưng người dùng phải sẵn sàng chấp nhận trường hợp phần mềm xử lý q lâu từ vừa nói khơng nằm từ điển có sẵn Đó điều nhà nghiên cứu cố gắng cải tiến phần mềm nhận dạng giọng nói Do tính phố biến tín hiệu giọng nói, ta thấy phạm vi ứng dụng sinh trắc học giọng nói rộng so với đặc điểm sinh trắc học thơng thường khác Chúng ta phân chia ba loại ứng dụng tận dụng thơng tin sinh trắc học có tín hiệu giọng nói: • Xác thực giọng nói (điều khiển truy cập(thường từ xa qua điện thoại), đăng nhập xác thực giọng nói, nhận dạng (kiểm tra giọng nói tự nhiên)) • Phát giọng nói (ví dụ: phát danh sách đen trung tâm gọi nghe giám sát) • Nhận dạng giọng nói pháp y(sử dụng giọng nói làm chứng trước tịa án pháp luật thơng tin tình báo điều tra cảnh sát) Nguồn thơng tin mã hóa tín hiệu giọng nói âm chắn nội dung ngơn ngữ Vì lý đó, khơng có ngạc nhiên tùy thuộc vào cách sử dụng kiểm soát nội dung ngơn ngữ, phân biệt hai loại cơng nghệ nhận dạng giọng nói khác tiềm khác chúng ❖ Công nghệ text-dependent: Đây công nghệ nơi mà người dùng yêu cầu phải nói cụm từ khóa cụ thể (ví dụ: “Mở Tivi, Alex”, “Tắt đèn, Siri” ….) Đây chủ đề ứng dụng kiểm soát truy cấp sử dụng trắc sinh học xác thực giọng nói Mức độ bảo mật mật dựa hệ thống nâng cao cách yêu cầu kiến thức mật yêu cầu chủ sở hữu thực mật phải nói để xác thực người Để tránh trường hợp kẻ xâm nhập trái phép ghi lại mật khẩu, hệ thống text-dependent nâng cao câu hỏi ngẫu nhiên để kẻ mạo danh dễ dàng ngụy tạo, làm giả ❖ Công nghệ text-independent: Công nghệ thúc đẩy ứng dụng cịn lại phát giọng nói nhận dạng giọng nói pháp y Từ nội dung ngơn ngữ nguồn thơng tin mã hóa phát biểu, text-independent thách thức lớn chủ đề nghiên cứu cộng đồng nhận dạng giọng nói vịng hai thập kỷ qua The NIST SRE thực hàng năm từ năm 1996 thúc đẩy xuất sắc nghiên cứu lĩnh vực Đó tiến phi thường thu hàng năm dựa đánh giá với giao thức sở hiệu chung, điều đặc biệt chia thành viên thâm dự lần hội thảo Nhận dạng thông tin dựa giọng nói - Thế hệ ngơn ngữ việc sản sinh lời nói Q trình người tạo nên thơng điệp mã hóa chủ đề nghiên cứu nhiều năm lĩnh vực ngôn ngữ học tâm lý Nhưng thơng điệp mã hóa não chúng ta, trình tâm lý phức tạp cần để sẵn sinh dạng sóng(đó giọng nói) chứa thơng điệp ngơn ngữ(cũng nhiều thơng tin khác) mã hóa kết hợp đặc trưng Quá trình nghiên cứu nhà ngữ âm học số lĩnh vực liên quan đến phân tích giọng nói khác kỹ sư, bác sĩ … Quá trình tạo lời nói phức tạp phải nhiều chương sách để diễn giải, khía cạnh mà nhà khoa học quan tâm liên quan đến vấn đề mã há vào thông tin cá nhân tín hiệu lời nói truyền Trong hai giai đoạn sản sinh giọng nói(tạo ngơn ngữ sản sinh lời nói), giọng nói đặc biệt giới thiệu Trong lĩnh vực sinh trắc học giọng nói, cịn gọi ngận dạng người nói – hai thành phần tương ứng thường biết đến cấp độ cao(ngôn ngữ) cấp độ thấp (âm thanh) - Các cấp độ đa thông tin Các thử ngiệm với khả nghe người rằng, người nhận người nói tổ hợp cấp độ thơng tin khác nhau, đặc biệt quan trong, với khác trọng lượng người nói(ví dụ người có mức đặc trưng cao độ khác điều làm cho giọng nói họ có âm khác nhau) Các hệ thống tự động có xu hướng tận dụng lợi ích nguồn thơng tin sẵn có khác nhau, kết hợp chúng theo cách tốt người nói • • Đặc trưng thơng dụng người nói mức độ cao thường xem xét yếu tố trải theo ngày mô tả cách người nói sử dụng hệ thống ngơn ngữ Nó xác định vô số yếu tố, số yếu tố ổn định người lớn trình độ học vấn, xã hội, điều kiện gia đình, nơi sinh Nhưng có số yếu tố cao cấp hơn, thứ phụ thuộc mạnh mã vào mơi trường, ví dụ, bác sĩ không sử dụng ngôn ngữ theo bình thường nói chuyện với đồng nghiệp bệnh viện, cịn nhà, với bạn bè chơi khác Nhóm đặc trưng thứ hai với mức độ thơng tin giọng nó, phonotactics, mơ tả cách sử dụng người nói khối điện thoại khả nhận khả dụng Phonotactics yếu tốt cần thiết cho việc sử dụng ngôn ngữ chìa khóa việc • • học tiếng nhước ngoài, cúng ta xem xét đặc điểm phonotactic người nói, tìm thấy số cách sử dụng khác từ người dùng khác Nhóm đặc trưng thứ ba prosody, thứ mà kết lượng tức thời, ngữ điệu, tốc độ nói thời lượng cung cấp cho lời nói tự nhiên, đầy đủ ý nghĩa giọng điệu cảm xúc Prosody định đối tượng ưu việt cấp độ cụm từ diễn ngôn, đồng thừi xác định hành động tức thời phù hợp với đối tượng Nó giúp làm rõ thơng điệp (“nine hundred twenty seven” mang nghĩa số 927 chuỗi “900 27” cách sử dụng prosody), loại thông điệp(khai báo, thẩm vấn, mệnh lệnh) trạng thái tâm lý người nói Nhưng theo cách người sử dụng yếu tố prosodic khác nhau, nhiều đặc điểm người nói bao gồm ví dụ độ cao độ đặc trưng đầu cuối cụm từ nhóm từ họ Nhóm đặc trưng cuối đặc điểm phổ ngắn tín hiệu giọng nói, liên quan trực tiếp đến hành động nói rõ ràng cá nhân liên quan đến điện thoại sản xuất liên quan đến yếu tố logic, vật lý cấu hình máy sản xuất lời nói Thơng tin phổ nguồn cá nhân lời nói sử dụng ứng dụng thực tế, trọng tâm nghiên cứu gần hai mươi năm Thơng tin phổ có ý trích xuất đặc điểm giọng người động lực phát âm tương ứng họ Có hai loại thông tin cấp độ thấp thường sử dụng, thông tin tĩnh liên quan đến khung phân tích thơng tin động liên quan đến cách thơng tin phát triển khung lền kề, có tính đến tượng khớp nối phụ thuộc mạnh mẽ vào người nói, q trình nhân tự động di chuyển từ vị trí khớp nối sang vị trí Rút trích đặc trưng tách từ Trong nhận dạng mẫu, đặc trưng thuộc tính riêng lẽ mà ta xác định đo đạc quan sát tượng Việc lựa chọn đặc trưng tách biệt độc lập điểm mấu chốt cho giải thuật nhận dạng mẫu thành cơng việc phân loại Trong lãnh vực khác nhận dạng mẫu có đặc trưng khác nhau, đặc trưng xác định, chúng phân loại tập giải thuật nhỏ Những tập bao gồm việc phân loại theo hàng xóm gần nhau(near neighborhood classification) dựa đa chiều, mạng noron(neural network) hay kỹ thuật thống kê mà chủ yếu dựa vào xác suất Bayes(Bayes probabilities) =>> Trong nhận dạng giọng nói, đặc trưng để nhận dạng nhận dạng âm vị(phoneme) bao gồm tỉ lệ tiếng ồn(noise ratio), chiều dài âm(sound), cường độ tương quan (relative power), lọc trùng khớp(filter matche) nhiều yếu tố khác Sơ lược qua trình nhận dạng, có bước: - Bước xây dựng mơ hình (học): Xây dựng “mơ hình cho người nói” Mỗi người nói xây dựng mơ hình Với người nói, bạn thu âm -> tiền xử lý(khử nhiễu …) -> rút đặc trưng MFCC -> xây dựng mơ hình người nói GMM Qua bước này, với người nói bạn thu mơ hình xác suất GMM - Bước xác thực: Khi có người bạn muốn kiểm tra xem có phải người cần tìm khơng, bạn thu âm -> tiền xử lý(khử nhiễu…) -> rút đặc trưng MFCC -> đưa vào mơ hình GMM xây dựng, bạn thu xác suất Dựa vào xác suất ngưỡng xác suất bạn chọn để định xem người có phải người cần tìm hay khơng hay người người mới, khơng tồn danh sách giọng nói người dùng sẵn có bạn Bước việc xây dựng hệ thông nhận dạng người nói tự động rút trích đặc trưng đáng tin cậy mã có chứa thơng tin nhận dạng Các thủ tục sử dụng để trích xuất vecto đặc trưng ngắn hạn (thông tin phổ, lượng, cao độ) loại mã mid-term, long-term điện thoại, âm tiết từ ❖ Phân tích short-term: Để thực phân tích phổ đáng tín cậy, tín hiệu phải hiển thị tĩnh thuộc tính khơng dễ dàng để quan sát tín hiệu lời nói thay đổi liên tục Tuy nhiên, giới hạn lại khoảng phân tích độ dài ngắn từ 20ms 40ms, hệ thống khớp không thay đổi đáng kể khoảng thời gian ngắn vậy, thu gọi tín hiệu giả tĩnh khung Những tín hiệu khung giả định, tính cố định giả, đến từ hệ thống biến thời gian tuyến tính cụ thể cho khoảng đó, có thê thực được, thường sau sử dụng khung hamming hanning, phân tích phổ qua cửa sổ ngắn hạn này, thu miền phổ thay đổi theo khung hình ❖ Tham số hóa: - Các tín hiệu short-time hamming/ hanning tất khoảng thời gian mong muốn phổ thơng tin, (ví dụ giọng nói qua điện thoại số hóa vứi tần số lấy mẫu 8kHz 32ms Nghĩa 256 mẫu X 16 bit/ mẫu = 4096 bit = 512 byte khung hình) Linear Predictive Coding(LPC) giọng nói chứng minh cách hợp lệ để nén phổ mô hình tất cực với 10 đến 16 hệ số, có nghĩa thơng tin phổ khung biểu diễn tron khoảng 50 byte, 10% tốc độ bit ban đầu Thay hệ số LPC, tương quan cao chúng(ma trận chéo hiệp phương sai), hệ số cepstral giả trực giao thường sử dụng suy trực tiếp LPCC(LPC-derived Cepstral vectors) từ hệ số LPC trực tiếp thu từ phân tích phổ mel-filter dựa cảm nhận MFCC(Mel-Frequency based Cepstral Coefficients) - Một số hình thức liên quan khác mô tả PLP(Perceptually based Linear Prediction), LSF(Line Spectral Frequencies) nhiều loại khác mà không sâu vào chi tiết Cho đến nay, yếu tố biến đổi giọng nói đến từ việc sử dụng kênh truyền khác (ví dụ thử nghiệm giọng nói qua điện thoại với mơ hình ghi âm giọng nói micro) Biểu diễn Cepstral có lợi kênh bất biến bổ sung độ lệch Cepstral không đổi dễ dàng bị trừ(CMSCepstral Mean Subtraction) thành phần Cepstral khơng phải giọng nói bị loại bỏ thực lọc RASTA vecto Cepstral tức thời Để tính điện q trình phát âm, vận tốc hệ số gia tốc nhận từ thơng tin dựa cửa sổ tĩnh, tính tốn ước tính cách hệ số khung thay đổi khung liền kề (thường nằm khoảng ±3 không ±5) ❖ Phiên âm tách từ: - Hidden Markov Models(HMM) giới thiệu từ năm 1970 lý thuyết nhận dạng giọng nói mà làm cho xuất hệ thống nhận dạng giọng nói tự nhiên có bước đột phát đáng kể.Đây công cụ thành công sử dụng rộng rãi nhất(ngoại trừ số kiến trúc ANN cho phiên âm, âm tiết tách từ, tức dịch từ mẫu giọng nói chuỗi đơn vị ngôn ngữ đặc chỉnh theo thời gian) HMM cấu trúc chuỗi thời gian mơ hình thống kê tín hiệu ngơn luận, coi tốn học quy trình ngẫu nhiên đôi: sử dụng chuỗi Markov với số hữu hạn trạng thái để thay đổi thuộc tính thống kê tín hiệu tiếng nói, q trình ngẫu nhiên tiềm ẩn tương tự, khác chuỗi quan sát kết hợp với chuỗi Markov liên quan đến trĩnh ngẫu nhiên Tín hiệu tiếng nói chuỗi biến quan sát dịng chảy thông số âm vị phát từ não dựa kiến thức ngữ pháp nnhu cầu ngôn ngữ Vì thế,dùng HMM hợp lý để bắt chước trình này, mơ tả tốt tiếng nói, mơ hình lý tưởng giọng nói - Left-to-Right HMMs cơng cụ mơ hình hóa thống kê phần gỉa giọng nói(trạng thái) q trình chuyển đổi(bắt buộc từ trái sang phải, giữ cảm giác thời gian), cố gắng bắt chước cách di chuyển quan khớp, có xu hướng nghỉ ngơi(trong tất âm non-plosive) vị trí khớp(giả sử trạng thái tĩnh lặng) liên tục di chuyển(chuyển tiếp) từ trạng thái sau - Hiện tại, hầu hết mơ hình HMM có thơng tin trạng thái với hàm mật độ xác suất liên tục, thường hỗn hợp Gaussia Loại mơ hình cụ thể gọi CDHMM(Continuous Density HMM, ngược lại với HMM mật độ rời rạc dựa VQ trước – HMM phân bố rời rạc) Đào tạo HMM thường thực thơng qua ước tính Baum-Welch, việc giải mà chỉnh thời gian thường thực thông qua giải mã Viterbi Hiệu suất HMM phổ cải thiện cách sử dụng mơ hình ngơn ngữ, áp đặt số ràng buộc mặt ngôn ngữ ngữ pháp kết hợp gần vô hạn tất khối Để cho phép tăng hiệu quả, việc cắt tỉa tìm kiếm chùm tia chế tổng quát để đẩy nhanh đáng kể q trình nhận dạng mà khơng có suy giảm mặt hiệu suất ❖ Tách từ Prosodic: Các tính ưu việt cao độ lượng thu thập khung hình Năng lượng phiên thu dễ dàng thông qua định lý Parseval, dạng thời gian phổ, cao độ tức thời xác định, ví dụ phương pháp tự tương quan dựa phân rã cepstral, thường làm mịn với khoảng lọc thời gian Các đặc điểm prosodic quan trọng khác đặc điểm liên quan đến thời lượng đơn vị ngơn ngữ, tốc độ nói tất đặc điểm liên quan đến trọng âm Trong tất trường hợp đó, cần phải phân đoạn xác, đánh dấu vị trí âm tiết cụm từ, vị trí chuyển giọng Ngữ âm âm tiết phân đoạn lời nói vấn đề phức tạp lâu giải quyết, hữu ích cho việc nhận dạng người nói, hệ thống prosodic khơng phải lúc yêu cầu phân đoạn chi tiết Tính hiệu thuật tốn: ❖ Trong nhận dạng giọng nói, mơ hình Markov ẩn(HMM) đào tạo tự động đơn giản, khả thi mặt tính tốn để sử dụng HMM xuất chuỗi vecto có giá trị thực n chiều(với n số nguyên nhỏ, chẳng hạn 10) Từ đưa kết khoảng 10 miliseconds ❖ Dựa HMM, hệ thống nhận dạng giọng nói đại cịn kết hợp kĩ thuật tiêu chuẩn khác để cải thiện kết Một hệ thống từ vựng lớn điển hình cần phụ thuộc ngữ cảnh cho âm vị(vì âm vị có ngữ cảnh trái phải khác có cách nhận thức khác nhau) Sử dụng chuẩn hóa Cepstral để chuẩn hóa lại điều kiện người nói thu âm khác nhau.Ngồi mơ hình HMM cịn kết hợp sử dụng Maximum Likelihood Linear Regression(MLLR), chuẩn hóa độ dài đường âm(VTLN) cho nam nữ Điều làm tăng thêm độ xác thuật tốn ❖ Thơng qua việc ước tính Baum-Welch chỉnh thời gian qua giải mã Viterbi huấn luyện cho HMM, hiệu suất thiện nhờ ràng buộc mặt ngơn ngữ Điều cho phép mơ hình HMM tăng thêm tính hiệu đẩy nhanh đáng kể q trình nhận dạng giọng nói đồng thời không gây gây không đáng kể mặt hiệu suất 5 Ứng dụng • Xác thực giọng nói ứng dụng sinh trắc học điển hình, đó, người dùng cố gắng xác thực với tư cách người nói tương ứng(ví dụ: để truy cập vào hệ thống cụ thể tài khoản ngân hàng họ) với tư cách người dùng khơng tương ứng(ví dụ xác nhận diện họ nhà ứng dụng điều khiển nhà) Một số hình thức xác thực giọng nói cụ thể phát triển hình thức liên quan đến quản lý quyền kỹ thuật số, mô tả tiêu chuẩn MPEG-21 kiến trúc quản lý độc quyền khác, giọng nói sử dụng để nhận quyền truy cập vào nội dung phương tiện bảo mật từ chủ sỡ hữu nhà sản xuất phương tiện cho nhà phân phối đến tay người dùng • • • Một ứng dụng thú vị khác mã hóa sinh trắc học, tính mà chìa khóa tạo cách sử dụng giọng nói người dùng Chìa khóa mã hóa thứ người dùng bảo mật mà không cần lưu trữ không truy xuất từ giọng nói sản sinh từ người khác Dĩ nhiên, hình thức khai thác khác thơng tin sinh trắc học đại diện tín hiệu giọng nói xuất Một hệ thống gọi giám sát giọng nói, phát danh sách đen phát người nói, nơi có nhiều đầu vào đồng thời liên tục (ví dụ hàng trăm, nghìn gọi trung tâm gọi lớn hệ thống nghe lén) giám sát theo thời gian thức để phát người nói danh sách Việc sử dụng hệ thống tự động nhận dạng giọng nói pháp y cho phép tính minh bạch kar kiểm tra việc sử dụng giọng nói làm chứng tịa án luật, dự đốn khoa học pháp y đại Hệ thống tự động điều chỉnh để cung cấp Likelihood Ratios đầu chúng, theo phương pháp luận thiết lập tốt DNA, gọi tiêu chuẩn vàng làng khoa học pháp y Hơn nữa, việc hiệu chuẩn giá trị LR cung cấp cách tiếp cận thống để sử dụng LR điều kiện khác với loại chứng khác nhau, cho phép kết hợp nguồn khác kiến thức khoa học pháp y Ví dụ số ứng dụng thực tế sử dụng nay: - Phần mềm nhận dạng giọng nói Gboard (trước Google Keyboard): hỗ trợ 120 ngôn ngữ khác tích hợp nhiều tính nhập liệu giọng nói, gợi ý thêm nhận dạng giọng nói chưa rõ để tra cứu thơng tin - Ứng dụng nhận dạng giọng nói ListNote Speech-to-Text Notes: hỗ trợ tạo nhanh ghi giọng nói, tương đối dễ sử dụng, liệu lập mục nên việc tìm kiếm diễn nhanh - Sử dụng nhận dạng giọng nói thơng qua điện tốn đám mây: Ví dụ Siri, Google Voice, Cortana dùng điện toán đám mây để nhận dạng giả lập giọng nói Nó hoạt động việc nhận dạng, xử lý ngôn ngữ máy chủ công ty cung cấp dịch vụ google, facebook, zalo … thông qua kết nối internet Kết luận: Mỗi người có đặc điểm sinh học Cũng giống khuôn mặt, võng mạc hay vân tay, giọng nói dùng để xác minh danh tính người Những đặc điểm lý trình bên kết hợp với yếu tố giọng nói ngữ âm, hình thái, chất giọng … đặc trưng riêng người, gần phân biệt người Do đó, cơng nghệ nhận dạng giọng nói mang lại mức độ bảo mật cao Từ việc phân tích nguồn thơng tin cá thể hóa khác có tín hiệu giọng nhau, từ ta tóm tắt quy trình xử lý tín hiệu tham số hóa với mục tiêu thu vecto tham số có số chiều thấp có độ tin cậy cao Các hệ thống text-dependent có vị trí phổ biến ứng dụng thực thể từ xa, đánh giá khách quan thực tế gần Đối với text-independent, phát triển gần đây(bộ siêu tốc, hệ số kênh/ NAP) mang lại tiến độ lớn đánh giá thử nghiệm NIST SRE cho phép ứng dụng khác Khác xa vowisc kỹ thuật xác thực sinh trắc học cổ điện, sử dụng thơng tin sinh trắc học có tín hiệu giọng nói với mục tiêu khác với xác thực từ xa đơi cịn thú vị hữu ích Trong trường hợp này, ta chứng minh hệ thống nhận dạng người nói đại sẵn sàng đối mặt với ứng dụng thực tế quan trọng(đặc biệt từ xa), tín hiệu giọng nói dễ truy cập sử dụng làm đặc điểm sinh trắc học có độ tin cậy cao ... việc xử lý giọng nói trở nên khó khăn Mặt khác, giọng nói truyền sẽ thay đổi nhiều đặc tính ảnh hưởng thiết bị truyền dẫn microphone, điều khiến cho giọng nói bị biến thể trở nên khó xử lý May... cho phép người truy cập vào công cụ chỉnh sửa tương tự giải pháp xử lý văn chuẩn Mặc dù thử khơng xác 100% phần mềm nhận diện xử lý phần lớn lỗi tả, ngữ pháp • Khả truy cập: Các cơng nghệ nhận... làm chứng trước tịa án pháp luật thơng tin tình báo điều tra cảnh sát) Nguồn thơng tin mã hóa tín hiệu giọng nói âm chắn nội dung ngơn ngữ Vì lý đó, khơng có ngạc nhiên tùy thuộc vào cách sử