1. Trang chủ
  2. » Khoa Học Tự Nhiên

Thuan toan speaker recognition

21 373 2

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Nội dung

NHẬN DIỆN NGƯỜI NÓI SỬ DỤNG MFCC VÀ GMM NHÓM Nhận diện ngưới nói Nhóm Mục lục Giới thiệu chung I Tiếng nói nhận diện người nói 2 Các loại nhận diện người nói Ứng dụng Phương pháp trình bày II Hệ thống nhận diện người nói III Rút trích đặc trưng tiếng nói sử dụng đặc trưng MFCC Tổng quan mã hóa âm thanh, tiếng nói đặc trưng tiếng nói Rút trích đặc trưng Mel-Frequency Cepstrum Coefficients IV Mô hình hóa người nói sử dụng gaussian mixture model nhận diện người nói 13 Phân phối Gaussian gaussian mixture model 13 Mô hình hóa người nói gaussian mixture model 15 Nhận diện người nói 17 Thực nghiệm 18 V Chương trình 18 Kết thực nghiệm 18 VI Kết luận 19 Nhận diện ngưới nói Nhóm Tóm tắt Sinh trắc học – hay công nghệ sử dụng đặc điểm sinh học người để nhận diện lĩnh vực đa dạng có nhiều ứng dụng quan trọng thực tiễn Trong lĩnh vực sinh trắc học, tiếng nói nhận nhiều quan tâm tính tự nhiên giọng nói, dễ dàng thu thập sử dụng giọng nói trình nhận diện người nói Nhiều phương pháp nghiên cứu đạt hiệu định trình nhận diện người nói Bài báo cáo trình bày giới thiệu chung giọng nói, toán nhận diện người nói phương pháp nhận diện người nói Sau đó, báo cáo sâu vào phương pháp rút trích đặc trưng MFCC mô hình hóa người nói sử dụng GMM Cuối cùng, báo cáo trình bày số kết thực nghiệm nhận diện người nói dựa phương pháp vừa trình bày I Giới thiệu chung Tiếng nói nhận diện người nói Tiếng nói hính thức giao tiếp người Tiếng nói người bao gồm nhiều loại thông tin: Nội dung lời nói (từ ngôn ngữ), cảm xúc người nói, giới tính định danh người nói… Mục tiêu trình nhận dạng người nói rút trích, mô tả nhận diện người dựa vào đặc trưng tiếng nói Các loại nhận diện người nói Nhận diện người nói thường chia làm hai nhánh khác xác nhận người nói (speaker verification) định danh người nói (speaker identification) Hình 1: Các nhánh toán nhận diện người nói Nhận diện ngưới nói   Nhóm Xác nhận người nói trình xác nhận người có phải người mong muốn dựa vào giọng nói Quá trình trình xác định có / không không quan tâm cụ thể người nói Định danh người nói lại chia làm hai nhánh nhỏ hơn, định danh người nói tập mở định danh người nói tập đóng Định danh người nói tập mở cần phải xác định xem người nói danh sách người nói biết, kết luận người không thuộc danh sách người nói biết Định danh người nói tập đóng xét liệu chắn người danh sách người biết Ngoài ra, dựa vào thuật toán, người ta chia hai loại, nhận diện người nói phụ thuộc văn nhận diện người nói không phụ thuộc văn Nhận diện người nói phụ thuộc văn yêu cầu người nói phải nói xác từ cho trước, nhận diện người nói không phụ thuộc văn nhận diện người nói nói từ Ứng dụng Ứng dụng hệ thống nhận diện người nói thực tế đa dạng Một số ứng dụng gần kể đến sau:     Vào tháng 5/2013, Barclays Wealth công bố ông dùng hệ thống nhận dạng người nói để xác minh khách hàng qua điện thoại 30 giây thông qua trò chuyện bình thường Hệ thống phát triển chuyên gia phân tích giọng nói Nuance – công ty đứng sau công nghệ siri Apple Các ngân hàng tư nhân Barclays công ty dịch vụ tài triển khai sinh trắc học giọng nói để xác minh khách hàng gọi đến trung tâm họ 93% khách hàng đánh giá hệ thống 9/10 điểm tốc độ, dễ sử dụng bảo mật Tháng 8/2014 tập đoàn GoVivace phát triển hệ thống nhận dạng người nói cho phép họ tìm kiếm người hàng triệu người cách đơn giản ghi âm giọng nói họ Hệ thống nhận dạng người nói dùng để sử dụng điều tra hình Phương pháp trình bày Có nhiều phương pháp rút trích đặc trưng MFCC, LPCC phương pháp phân lớp, mô hình hóa người nói sử dụng HMM, GMM, hay không mô hình hóa sử dụng thuật toán phân lớp neural networks, SVM Bài báo cáo tập trung trình bày phương pháp nhận diện người nói không phụ thuộc văn tập đóng sử dụng đặc trưng MFCC (Mel Frequency Cepstrum Coeffecient) GMM (Gaussian mixture model) Nhận diện ngưới nói II Nhóm Hệ thống nhận diện người nói Quá trình nhận diện người nói thực qua pha Có hai pha trình này: Hình 2: Sơ đồ pha đăng ký người nói  Pha đăng ký người nói: Tiếng nói người cần nhận diện thu thập sử dụng để huấn luyện mô hình Tập mô hình nhiều người nói gọi sở liệu người nói Hình 3: Sơ đồ pha nhận diện người nói  Pha định danh người nói: Dữ liệu tiếng nói người dùng không rõ định danh đưa vào hệ thống so khớp với mô hình sở liệu người nói Chi tiết hai pha sau:  Cả hai pha có chung hai bước đầu Bước thu thập tiếng nói Tiếng nói thu thập thông qua micro chuyển thành tín hiệu rời rạc – tín hiệu số (digital) Tuy nhiên liệu thông thường bị nhiễu, cần phải tiền xử lý trước đưa vào pha bước thứ hai Nhận diện ngưới nói    Nhóm Bước thứ hai rút trích đặc trưng, nhằm mục đích giảm kích thước liệu đảm bảo đủ thông tin để phân biệt người nói Trong báo cáo trình bày đặc trưng MFCC Ở bước thứ ba pha đăng ký, thông tin người nói sau rút trích đặc trưng mô hình hóa (modeling) lưu vào sở liệu Bài báo cáo sử dụng Gaussian mixture model để mô hình hóa liệu người nói sử dụng EM (Expectation Maximization) để xây dựng GMM tương ứng với đặc trưng MFCC truyền vào Ở bước thứ ba pha định danh, liệu rút trích so khớp với liệu sở liệu đưa định xem người Có thể thấy hai pha thực tách biệt có liên quan gần với nhau, hai pha khó thực rút trích đặc trưng mô hình hóa, so khớp liệu Phần báo cáo trình bày ý thuật toán rút trích đặc trưng mô hình hóa III Rút trích đặc trưng tiếng nói sử dụng đặc trưng MFCC Tổng quan mã hóa âm thanh, tiếng nói đặc trưng tiếng nói a Mã hóa âm Có nhiều phương pháp mã hoá âm Cách đơn giản mã hoá cách xấp xỉ dao động sóng âm chuỗi byte thể biên độ dao dộng tương ứng theo khoảng thời gian Các đơn vị thời gian cần phải đủ nhỏ để không làm “nghèo” âm Đơn vị thời gian gọi tần số lấy mẫu (sample rate) Giá trị lần lấy mẫu biểu diễn miền giá trị xác định gọi độ sâu số (bit depth) Khi phát, mạch điện khôi phục lại sóng âm với sai lệch chấp nhận Hình 4: Số hóa tín hiệu âm Nhận diện ngưới nói Nhóm Tần số lấy mẫu khác nhau: Hình 5:Các phương pháp lấy mẫu với tần số khác Độ sâu số khác nhau: Hình 6: Lấy mẫu với độ sâu số (depth) khác Một cách khác phân tích dao động âm thành tổng dao động điều hoà (các dao động hình sinh với tần số biên độ khác nhau) lưu lại đặc trưng tần số, biên độ Nhận diện ngưới nói Nhóm Hình 7: Chuyển tín hiệu miền thời gian thành tín hiệu tần số b Sự hình thành giọng nói Giọng nói âm thực người cách sử dụng nếp gấp quãng để nói chuyện, đọc sách, hát, cười, khóc, la hét vv Giọng nói phần âm mà người tạo ra, nếp gấp quãng (dây âm) nguồn âm Các phận để tạo tiếng nói người chia thành ba phần; phổi, nếp gấp quản, phận cấu âm Phổi bơm phải đầy đủ luồng không khí áp suất không khí làm rung quản Các nếp gấp quản (dây âm) van rung băm nhỏ luồng không khí từ phổi vào xung âm hình thành nguồn âm quản Các bắp quản điều chỉnh độ dài căng nếp gấp âm để điều chỉnh cao độ âm sắc Các phận cấu âm (gồm lưỡi, vòm miệng, má, môi, vv) lọc âm phát từ quản đến mức độ tương tác với luồng không khí quản để tăng cường suy yếu nguồn âm Các nếp gấp quãng kết hợp với phận cấu âm, có khả tạo các âm phức tạp Nhận diện ngưới nói Nhóm Hình 8: Các phận tạo thành tiếng nói c Rút trích thông tin từ tiếng nói Tìn hiệu tiếng nói bao gồm nhiều loại thông tin khác người nói Thông tin bao gồm thông tin “cấp cao” hệ ngôn ngữ, ngữ cảnh, phong cách nói, tình trạng cảm xúc v.v Việc sử dụng thông tin cấp cao vào việc sử dụng để nhận diện người nói nghiên cứu nhiều khó để thực ứng dụng thực tế Thay vào đó, thông tin cấp thấp cao độ (pitch), cường độ, tần số, băng tần, phổ âm v.v sử dụng áp dụng thành công Thông tin lưu trữ tiếng nói nhiều, nhiên ta cần rút trích lượng thông tin vừa đủ để phân biệt người nói với Quá trình rút trích lượng thông tin gọi trình rút trích đặc trưng người nói Dựa phân tích trên, đặc trưng người nói cần có đặc điểm sau: Có khả phân biệt người nói khác đồng thời không nhạy với thay đổi nhỏ cách nói chuyện người nói      Có thể đo đạc độ xác Ổn định qua thời gian Biểu cách tự nhiên thường xuyên tiếng nói Thay đổi thay đổi môi trường thu âm Không dễ bị đánh lừa người bắt chước Nhận diện ngưới nói Nhóm Tuy nhiên, khó để rút trích đặc trưng thỏa mãn tất tính chất Thông thường, đặc trưng rút trích dựa phổ âm Phần trình bày phương pháp MFCC Rút trích đặc trưng Mel-Frequency Cepstrum Coefficients Mel-Frequency Cepstrum Coefficients đặc trưng thường dùng để diễn tả âm tiếng nói Nó dựa quan sát thông tin mang thành phần có tần số thấp thường quan trọng âm có tần số cao – tiếng nói người biến đổi chậm Các bước để rút trích đặc trưng sau: Hình 9: Mô hình bước rút trích đặc trưng MFCC      Bước thứ windowing, chia tín hiệu âm ban đầu thành frame liên tiếp Mỗi frame đưa vào rút trích đặc trưng MFCC tương ứng Bước thứ hai biến đổi fourier rời rạc Bước nhằm chuyển đổi tín hiệu ban đầu thành tổ hợp sinusoid tương ứng với tần số khác Bước thứ ba bước chuyển tín hiệu dạng tần số thu bước hai sang vùng tần số theo cảm nhận tai người Bước thứ tư lấy log để tách tín hiệu tần số thấp tần số cao thành vùng khác Bước thứ năm thực phép biến đổi fourier đảo, ta thu đặc trưng MFCC Chi tiết bước sau a Windowing Tiếng nói thực tế thường biến đổi chậm, thực phân tích khoảng thời gian đủ ngắn (20 – 30 ms) đặc trưng âm tiếng nói tương đối ổn định Việc rút trích đặc trưng khoảng thời gian nhiều khả diễn tả đặc trưng người nói Quá trình gọi short-term analysis Nhận diện ngưới nói Nhóm Hình 10: Quá trình framing Tín hiệu nói ban đầu chuyển thành frame có kích thước cố định (20-30 ms), window có phần chồng lên (30 – 50%) với frame cạnh nhằm tránh mát thông tin Để tránh biến đổi đột ngội cuối frame, frame thường nhân với hàm window (window function), mà phổ biến hamming window function: 2𝑡𝜋 𝑤(𝑡) = 0.54 − 0.64𝑐𝑜𝑠 ( ) 𝑁−1 Với N kích thước frame Kết thu đưa trình rút trích đặc trưng Hình 11: Tín hiệu trước sau áp dụng hàm window b Discrete fourier transform Mỗi frame thu sau trình xử lý đưa vào phép biến đổi fourier rời rạc để chuyển từ miền thời gian sang miền tần số Sau thực biến đổi này, ta thu biểu diễn khác 10 Nhận diện ngưới nói Nhóm âm gọi cepstrum Biểu diễn thể tốt biến đổi đặc trưng tiếng nói nằm âm Hình 12: Cepstrum Biến đổi Fourier hay chuyển hóa Fourier, đặt tên theo nhà toán học người Pháp Joseph Fourier, biến đổi tích phân dùng để khai triển hàm số theo hàm số sin sở, có nghĩa dạng tổng hay tích phân hàm số sin nhân với số khác (hay gọi biên độ) Biến đổi Fourier có nhiều dạng khác nhau, chúng phụ thuộc vào dạng hàm khai triển Trong toán học, phép biến đổi Fourier rời rạc (DFT), gọi biến đổi Fourier hữu hạn, biến đổi giải tích Fourier cho tín hiệu thời gian rời rạc Đầu vào biến đổi chuỗi hữu hạn số thực số phức, làm biến đổi công cụ lý tưởng để xử lý thông tin máy tính Đặc biệt, biến đổi sử dụng rộng rãi xử lý tín hiệu ngành liên quan đến phân tích tần số chứa trong tín hiệu, để giải phương trình đạo hàm riêng, để làm phép tích chập Biến đổi tính nhanh thuật toán biến đổi Fourier nhanh (FFT) Một biến đổi Fourier nhanh (FFT) thuật toán hiệu để tính biến đổi Fourier rời rạc (DFT) biến đổi ngược Khi cài đặt thực tế, ta sử dụng phép FFT lên frame, kết chuyển qua bước tiếp theo, lọc Mel-frequency c Lọc mel-frequency 11 Nhận diện ngưới nói Nhóm Sau bước biến đổi DFT, ta thu thông tin tín hiệu dạng tần số cường độ Tuy nhiên, tai người cảm nhận âm không giống với biến đổi vật lý âm Do đó, người ta sử dụng thang đo tần số khác gọi tần số mel, đo theo cảm nhận tai người Bảng chuyển đổi tần số vật lý sang thang đo mel sau, người ta lấy 1000 Hz làm mốc chuyển đổi hai thang đo: Hz 40 161 200 404 693 867 1000 2022 3000 3393 4109 5526 6500 7743 12000 mel 43 257 300 514 771 928 1000 1542 2000 2142 2314 2600 2771 2914 3228 Người ta xây dựng nhiều công thức để chuyển từ Hz sang mel, phổ biến công thức Lindsay Loman: Thông qua lọc, người ta tính toán lại tần số biên độ thang đo Hz sang thang đo mel, ta thu vector tần số biên độ Hình 13: Bộ lọc mel d Lấy log phép biến đổi fourier đảo Tín hiệu tiếng nói người biểu diễn hai thành phần thành phần biến đổi nhanh vùng biến đổi chậm Các đỉnh phổ âm với Có thể biểu diễn tương quan hai thông tin “nhanh” “chậm” sau: |S(x)| = |E(x).H(x)| Trong E(x) thành phần có tần số cao, H(x) thành phần có tần số thấp, S(x) tín hiệu gốc Khi thực logarit biểu thức trên, ta chuyển tổng thành tích sau: log(|S(x)|) = log(|E(x)|) + log(|H(x)|) 12 Nhận diện ngưới nói Nhóm Để thực phân tách, người ta thực mẹo, sử dụng phép biến đổi fourier log(|S(x)|) phép biến đổi gọi phép biến đổi fourier đảo Từ kết phép biến đổi này, ta lọc hai vùng có tần số cao thấp, vùng cần lấy vùng có tần số thấp Biểu diễn trực quan cách làm sau: Hình 14: IDFT lọc kết để đặc trưng MFCC Kết thu sau toàn trình đặc trưng Mel-frequency Cepstral Coefficients Mỗi frame thu vector đặc trưng vector đưa vào trình mô hình hóa nhận diện người nói IV Mô hình hóa người nói sử dụng gaussian mixture model nhận diện người nói Phân phối Gaussian gaussian mixture model Phân phối chuẩn – hay gọi phân phối gaussian phân phối quan trọng thường gặp đời sống kỹ thuật Phương trình mật độ xác suất phân phối sau: 𝑓(𝑥, 𝜇, 𝜎) = 𝜎√2𝜋 13 𝑒𝑥𝑝 (− (𝑥 − 𝜇)2 ) 2𝜎 Nhận diện ngưới nói Nhóm Trong 𝜇 trung bình (hay kỳ vọng), 𝜎 độ lệch chuẩn Phân phối xác suất có dạng hình chuông: Hình 15: Phân phối mật độ xác suất phân phối chuẩn Với hàm nhiều biến, phương trình mật độ xác suất gaussian sau: 𝑝(𝑥, 𝜇, Σ) = 1 𝑁 exp (− 2 (2𝜋) |Σ|2 (𝑥 − 𝜇𝑖 )′ Σ −1 (𝑥 − 𝜇𝑖 )) Với x vector, 𝜇 vector kỳ vọng, Σ ma trận hiệp phương sai, N kích thước vector x Hình 16: Phân phổi chuẩn biến Mô hình trộn gaussian (gaussian mixture model) tổng có trọng số nhiều thành phần phân phối gaussian sở, cụ thể sau: 14 Nhận diện ngưới nói Nhóm 𝑀 𝑝(𝑥) = ∑ 𝑝𝑖 𝑏𝑖 (𝑥) 𝑖=1 Với pi trọng số thành phần thứ i, bi(x) mật độ xác suất thành phần thứ i với x, M tổng số thành phần Tổng pi Hình 17: Mô hình trộn gaussian Mô hình hóa người nói gaussian mixture model Có hai nguyên nhân khiến cho gaussian mixture model sử dụng cho mô hình hóa người nói Người ta thấy rắng tiếng nói tạo thành từ nhiều lớp âm khác nhau, tạo thành qua lưỡi, quản, miệng tạo thành nguyên âm, phụ âm, khác Mặt khác, việc sử dụng gaussian mixture model cho phép biểu diển số lượng lớn mô hình phân phối khác tương ứng với người nói khác Do đó, GMM sử dụng để mô hình hóa người nói khác Việc xây dựng mô hình người nói dựa vectors MFCCs lấy từ giai đoạn rút trích đặc trưng Phương pháp thường đượng sử dụng phương pháp maximum likelihood nhằm tìm hệ số mô hình gaussian cho xác suất vector huấn luyện cao Cụ thể, likelihood viết dạng: 𝑇 𝑝(𝑋|𝜆) = ∏ 𝑝(𝑥𝑡 |𝜆) 𝑡=1 15 Nhận diện ngưới nói Nhóm Với X = {x1, x2…xT) vector huấn luyện, 𝜆 mô hình cần tìm Tuy nhiên, hàm hàm phi tuyến maximize cách trực tiếp được, thay vào đó, người ta xử dụng thuật toán Expectation – Maximization (EM) lặp lại để tìm mô hình tối ưu Chi tiết thuật toán: Ban đầu khởi tạo mô hình với hệ số ngẫu nhiên Sau lần lặp, ước lượng lại hệ số sau: Trọng số 𝑇 𝑝𝑖 = ∑ 𝑝(𝑖|𝑥𝑡 , 𝜆) 𝑇 𝑡=1 Kỳ vọng: ∑𝑇𝑡=1 𝑝(𝑖|𝑥𝑡 , 𝜆)𝑥𝑡 𝜇𝑖 = 𝑇 ∑𝑡=1 𝑝(𝑖|𝑥𝑡 , 𝜆) Phương sai: 𝜎𝑖2 ∑𝑇𝑡=1 𝑝(𝑖|𝑥𝑡 , 𝜆)𝑥𝑡 = 𝑇 − 𝜇𝑖2 ∑𝑡=1 𝑝(𝑖|𝑥𝑡 , 𝜆) 𝑝𝑖 𝑏𝑖 (𝑥𝑡 ) Với 𝑝(𝑖|𝑥𝑡 , 𝜆) = ∑𝑀 𝑘=1 𝑝𝑘 𝑏𝑘 (𝑥𝑡 ) Trong đó, M số mô hình gaussian sở Theo tác giả thuật toán, số M vào khoảng 20 – 32 đem lại kết tốt 16 Nhận diện ngưới nói Nhóm Hình 18: Mô tả cách thức hoạt động EM Nhận diện người nói Sau có mô hình người nói, ta nhận diện người nói với liệu ban đầu Dữ liệu qua tiền xử lý, rút trích đặc trưng MFCC đưa vào so khớp với mô hình lưu sở liệu Giả sử tập người nói gồm S người biểu diễn S mô hình GMM 𝜆1 , 𝜆2 ,… 𝜆𝑆 Mục tiêu tìm mô hình cho xác suất tiền nhiệm cao với liệu đầu vào thêm vào, cụ thể: 𝑆̂ = 𝑎𝑟𝑔𝑚𝑎𝑥1≤𝑘≤𝑆 Pr(𝜆𝑘 |𝑋) = 𝑎𝑟𝑔𝑚𝑎𝑥1≤𝑘≤𝑆 𝑝(𝑋|𝜆𝑘 )Pr(𝜆𝑘 ) 𝑝(𝑋) Theo luật Bayes Giả sử xác suất người nói Pr(𝜆𝑘 ) nhau, xác suất p(X) với mô hình người nói, công thức đơn giản lại sau: 𝑆̂ = 𝑎𝑟𝑔𝑚𝑎𝑥1≤𝑘≤𝑆 𝑝(𝑋|𝜆𝑘 ) Trong thực tế với nhiều vector đặc trưng MFCC rút trích từ mẫu âm ban đầu, hệ thống nhận diện người nói thực tính sau: 𝑇 𝑆̂ = 𝑎𝑟𝑔𝑚𝑎𝑥1≤𝑘≤𝑆 ∑ 𝑙𝑜𝑔𝑝(𝑥𝑡 |𝜆𝑘 ) 𝑡=1 17 Nhận diện ngưới nói V Nhóm Thực nghiệm Chương trình Chương trình xây dựng dựa đoạn mã nguồn rút trích đặc trưng MFCC Kamil Wojcicki (http://www.mathworks.com/matlabcentral/fileexchange/32849-htk-mfccmatlab/content/mfcc/mfcc.m) mô hình hóa người nói dựa gaussian mixture model cài đặt sẵn matlab File mã nguồn viết “test.m” Cú pháp: test(nGaussianModels) Trong đó:  nGaussianModels số lượng mô hình (25) Kết thực nghiệm Trong nghiên cứu gốc tác giả [6] sử dụng 16 người liệu, độ xác thu sau: Phương pháp GMM VQ-100 VQ-50 RBF GC Độ xác (%) 94.5 92.9 90.7 87.2 67.1 Bảng 1: So sánh độ xác GMM với số phương pháp mô hình hóa khác Bộ liệu nhóm sử dụng để huấn luyện liệu Azarias Reda từ đại học Michigan Bộ liệu gổm 35 nam 48 nữ, số lượng thực sử dụng 15 nam 15 nữ với độ nhiễu khoảng 30% file dùng để huấn luyện, file cuối dùng để kiểm thử http://www.azreda.org/audiodata/audio_data_umich.tar.gz Khi thay đổi số lượng mô hình gaussian với số chiều MFCC 12, độ xác chương trình biến đổi sau 18 Nhận diện ngưới nói Nhóm Độ xác thay đổi số mô hình Gaussian với số chiều MFCC = 12 80 79.31 79.31 20 25 79 78 77 75.56 76 75 74 73 15 Độ xác thay đổi số mô hình Gaussian với số chiều MFCC = 12 Biểu đồ 1: Ảnh hướng số nhóm Gaussian đến độ xác Có thể thấy được, số nhóm gaussian khoảng 20 đạt hiệu độ xác tốt Tuy nhiên độ xác đạt 80% nhóm chưa xử lý nhiễu chất lượng tín hiệu âm không cao Do giới hạn hàm tính tham số gaussian mixture models matlab nên nhóm tăng số chiều đặc trưng MFCC lên VI Kết luận Nhận diện người nói có nhiều ứng dụng thực tế sống Nhận diện người nói toán nghiên cứu từ lâu có nhiều thuật toán sử dụng trình nhận dạng người nói Phương pháp nhận diện người nói sử dụng đặc trưng MFCC mô hình hóa sử dụng GMM đem lại kết tương đối ổn định với độ xác cao, nhiên độ xác dễ bị ảnh hưởng chất lượng đầu thu nhiễu Do đó, trình tiền xử lý đóng vai trò quan trọng đến độ xác thuật toán *Tài liệu tham khảo: Anil K Jain, Patrick Flynn, Arun A Ross: Handbooks of Biometric, chapter 8: Voice Biometrics 19 Nhận diện ngưới nói Nhóm Evgeny Karpov: Real-Time Speaker Identification, Master’s Thesis at University of Joensuu Ling Feng: Speaker Recognition, Master’s Thesis at Technical University of Denmark Phạm Minh Nhựt: Định danh người nói độc lập văn mô hình thống kê, Luận văn thạc sĩ Đại học Khoa học tự nhiên – Đại học Quốc Gia TPHCM Kishore Prahallad: Speech Technology Course’s slides at CMU Douglas Reynolds, Richard Rose: Robust text-independent Speaker Identification using Gaussian mixture models, IEEE Transactions on Speech and Audio Processing, Vol 3, No 1, 1995 20 ... 19 Nhận diện ngưới nói Nhóm Evgeny Karpov: Real-Time Speaker Identification, Master’s Thesis at University of Joensuu Ling Feng: Speaker Recognition, Master’s Thesis at Technical University of... nói Nhận diện người nói thường chia làm hai nhánh khác xác nhận người nói (speaker verification) định danh người nói (speaker identification) Hình 1: Các nhánh toán nhận diện người nói Nhận diện... Speech Technology Course’s slides at CMU Douglas Reynolds, Richard Rose: Robust text-independent Speaker Identification using Gaussian mixture models, IEEE Transactions on Speech and Audio Processing,

Ngày đăng: 10/03/2017, 15:38

TỪ KHÓA LIÊN QUAN

w