Nhận dạng giọng nói bằng MFCC và VQ

19 277 4
Nhận dạng giọng nói bằng MFCC và VQ

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Mua SourceCode inbox fb: https://www.facebook.com/Wigk.nam.n98/ MỞ ĐẦUNhận diện giọng nói là quá trình tự động nhận ra ai đang nói trên cơ sở thông tin có trong sóng nói. Kỹ thuật này cho phép sử dụng giọng nói của người nói để xác minh danh tính của họ và kiếm soát quyền truy cập vào các dịch vụ như quay số bằng giọng nói, ngân hàng qua điện thoại, mua sắm bằng điện thoại, dịch vụ truy cập cơ sở dữ liệu, dịch vụ thông tin, thư thoại, kiểm soát an ninh cho các khu vực thông tin bí mật và truy cập từ xa vào máy tính.Đồ án này mô tả cách xây dựng một hệ thống nhận dạng giọng nói tự đổng đơn giản nhưng đầy đủ và tiêu biểu. Một hệ thống nhận dạng giọng nói như vậy có thể ứng dụng được ở mọi thứ. Ví dụ như ứng dụng bảo mật: người dùng phải nói mã PIN (Personal Identification Number – Số nhận dạng cá nhân) để có quyền truy cập vào cửa phòng hoặc người dùng phải nói số thẻ của hộ qua đường dây điện thoại để xác minh danh tính của họ. Bằng cách kiểm tra các đặc điểm giọng nói của cách phát âm đầu vào, sử dụng hệ thống nhận dạng giọng nói tương tự như hệ thống của đề tài mô tả.MỤC LỤC HÌNH ẢNHHình 1: Cấu trúc cơ bản của hệ thống nhận dạng giọng nói5Hình 2: Ví vụ về tín hiệu giọng nói8Hình 3: Sơ đồ khối quá trình thực hiện MFCC9Hình 4: Ví dụ về bộ lọc Mel12Hình 5: Sơ đồ khái niệm về vector quantization14Hình 6: Sơ đồ thuật toán LBG.........................................................................16Hình 7: Giao diện chương trình.......................................................................18MỤC LỤCCHƯƠNG I: GIỚI THIỆU VỀ NHẬN DẠNG GIỌNG NÓI41. Nguồn gốc âm thanh42. Nguyên tắc của nhận dạng giọng nói43. Phương pháp nhận dạng6CHƯƠNG II: PHƯƠNG PHÁP MFCC VÀ VQ71. Giới thiệu72. Trích xuất đặc trưng giọng nói72.1. Bộ xử lý hệ số cepstrum tần số Mel82.2. Frame Blocking92.3. Windowing102.4. Fast Fourier Transfrom (FFT)112.5. Melfrequency Wrapping112.6. Cepstrum123. Đối sánh đặc trưng13CHƯƠNG III: ỨNG DỤNG NHẬN DIỆN GIỌNG NÓI171. Dữ liệu172. Xử lý173. Lượng tử hóa vector174. Mô phỏng18TÀI LIỆU THAM KHẢO19CHƯƠNG I: GIỚI THIỆU VỀ NHẬN DẠNG GIỌNG NÓI1. Nguồn gốc âm thanhÂm thanh là do vật thể dao động cơ học mà phát ra. Âm thanh phát ra dưới dạng sóng âm. Sóng âm là sự biến đổi các tính chất của môi trường đàn hồi khi năng lượng âm truyền qua. Âm thanh truyền được đến tai người là do môi trường dẫn âm.Sóng âm có thể truyền được trong chất rắn, chất lỏng, không khí. Có chất dẫn âm rất kém gọi là chất hút âm như: len, da, xốp, ... Sóng âm không thể truyền trong môi trường chân không.Khi kích thích dao động âm trong mối trường không khí thì những lớp khí sẽ bị nén và dãn. Trạng thái nén dãn lần lượt được lan truyền từ nguồn âm dưới dạng sóng dọc tới nơi thu âm. Nếu cường độ nguồn càng lớn thì âm thanh truyền đi càng xa.2. Nguyên tắc của nhận dạng giọng nóiNhận dạng giọng nói có thể được phân loại thành nhận dạng và xác minh. Nhận dạng người nói là quá trình xác định người đăng ký nào cung cấp dữ liệu nói nhất định. Mặt khác, xác minh người nói là quá trình chấp nhận hoặc từ chối yêu cầu nhận dạng của người nói. Hình 1 cho thấy các cấu trúc cơ bản của hệ thống xác minh và nhận biết giọng nói. Hệ thống mà ta sẽ mô tả được phân loại là hệ thống nhận dạng người nói độc lập văn bản vì nhiệm của nó là xác định người nói bất kể điều gì đang nóiTất cả các hệ thống nhận dạng giọng nói chứa hai môđun chính (Hình 1) là trích chọn đặc trưng và đối sánh đặc trưng. Trích xuất đặc trưng là quá trình trích xuất một lượng nhỏ dữ liệu từ tín hiệu thoại mà sau này có thể được sử dụng để diễn tả cho mỗi người. Đối sánh đặc trưng bao gồm quy trình thực tế để xác định người nói chưa biết bằng cách so sánh với các tính năng được trích xuất từ đầu vào giọng nói của người đó với người nói từ một nhóm dữ liệu đã biết.a) Nhận dạng giọng nóib) Xác minh giọng nóiHình 1: Cấu trúc cơ bản của hệ thống nhận dạng giọng nóiTất cả các hệ thống nhận dạng giọng nói phải phục vụ hai giai đoạn phân biệt.Cái đầu tiên được gọi là giai đoạn huấn luyện, trong khi cái thứ hai được gọi là giai đoạn thử nghiệm. Trong giai đoạn huấn luyện, mỗi dữ liệu giọng nói phải cung cấp các lời nói của mình để hệ thống có thể xây dựng hoặc huấn luyện một mô hình tham chiếu của người đó. Trong trường hợp của hệ thống xác nhận giọng nói, ngưỡng dành riêng cho người nói cũng được tính từ các mẫu huấn luyện. Trong giai đoạn thử nghiệm, lời nói đầu vào phù hợp với các mô hình tham chiếu được lưu trữ và nhận dạng được đưa ra.Nhận dạng giọng nói là một nhiệm vụ khó khăn. Nhận dạng giọng nói tự động hoạt động trên tiền đề rằng một người nói thể hiện các đặc điểm duy nhất cho người đó. Tuy nhiên, nhiệm vụ này bị thách thức bởi sự biến đổi của tín hiệu tiếng nói đầu vào. Nguồn gốc của phương sai là chính người nói. Tín hiệu lời nói trong huấn luyện và thử nghiệm có thể khác nhau, rất nhiều nguyên nhận dẫn tới sự thay đổi giọng nói, thời gian, tình trạng sức khỏe (ví dụ: người bị cảm lạnh, ...), .... Ngoài ra còn có các yếu tốc khác như biến đổi của loa. Ví dụ như là tiếng ồn các các biến thể trong môi trường ghi âm.3. Phương pháp nhận dạngPhương pháp LPC(Linear predictive coding) – mã hóa dự báo tuyến tính: nhược điểm là có một số từ phát âm gần giống nhau thì bị nhầm lẫn nhiều.Phương pháp AMDF (average magnitude difference function) – hàm hiệu biên độ trung bình: Ưu điểm là số ngõ vào ít, kích thước mạng huấn luyện nhỏ, ít phụ thuộc vào cách phát âm nên tủ lệ đọc sai ít hơn phương pháp LPC, tuy nhiên khuyết điểm là không phân biệt về thanh điệu, khó sử dụng trong trường hợp từ đọc liên tiếp.AMDF LPC : Do ưu và nhược điểm của hai phương pháp nên cần sự kết hợp giữa 2 phương pháp đó.Phương pháp MFCC (melfrequency ceptrums coeficients).CHƯƠNG II: PHƯƠNG PHÁP MFCC VÀ VQ1. Giới thiệuMel Frequency Cepstral Coeficients (MFCC) là một cách để trích xuất đặc trưng (feature extraction) giọng nói (speech) thường được sử dụng trong các model nhận dạng giọng nói (Automatic Speech Recognition) hay phân loại giọng nói (Speech Classification). Đúng như tên gọi của nó, MFCC sẽ cho ra kết quả là các hệ số (Coefficients) của cepstral từ Mel filter trên phở lấy được từ các file âm thanh chứa giọng nói.2. Trích xuất đặc trưng giọng nóiMục đích là để chuyển đổi dạng sóng giọng nói, sử dụng các công cụ xử lý tín hiệu số sang một bộ tính năng (với tốc độ thông tin thấp hơn) để phân tích thêm. Tín hiệu giọng nói là tín hiệu thay đổi theo thời gian chậm (nó được gọi là bán tĩnh). Một ví vụ về tín hiệu giọng nói được hiển thị trong hình 2. Khi được kiểm tra trong một khoảng thời gian đủ ngắn (trong khoảng từ 5 đến 100ms), các đặc tính của nó khá ổn định. Tuy nhiên, trong khoảng thời gian dài (theo thứ tự 15 giây trờ lên), đặc tính tín hiệu thay đổi để phản ánh các âm thanh giọng nói khác nhau được nói. Do đó, phân tích quang phổ thời gian ngắn là cách phổ biến nhất để mô tả tín hiệu giọng nói.

MỞ ĐẦU Nhận diện giọng nói q trình tự động nhận nói sở thơng tin có sóng nói Kỹ thuật cho phép sử dụng giọng nói người nói để xác minh danh tính họ kiếm sốt quyền truy cập vào dịch vụ quay số giọng nói, ngân hàng qua điện thoại, mua sắm điện thoại, dịch vụ truy cập sở liệu, dịch vụ thơng tin, thư thoại, kiểm sốt an ninh cho khu vực thơng tin bí mật truy cập từ xa vào máy tính Đồ án mơ tả cách xây dựng hệ thống nhận dạng giọng nói tự đơn giản đầy đủ tiêu biểu Một hệ thống nhận dạng giọng nói ứng dụng thứ Ví dụ ứng dụng bảo mật: người dùng phải nói mã PIN (Personal Identification Number – Số nhận dạng cá nhân) để có quyền truy cập vào cửa phòng người dùng phải nói số thẻ hộ qua đường dây điện thoại để xác minh danh tính họ Bằng cách kiểm tra đặc điểm giọng nói cách phát âm đầu vào, sử dụng hệ thống nhận dạng giọng nói tương tự hệ thống đề tài mô tả MỤC LỤC HÌNH ẢNH Hình 1: Cấu trúc hệ thống nhận dạng giọng nói Hình 2: Ví vụ tín hiệu giọng nói Hình 3: Sơ đồ khối trình thực MFCC .9 Hình 4: Ví dụ lọc Mel 12 Hình 5: Sơ đồ khái niệm vector quantization 14 Hình 6: Sơ đồ thuật toán LBG .16 Hình 7: Giao diện chương trình .18 MỤC LỤC CHƯƠNG I: GIỚI THIỆU VỀ NHẬN DẠNG GIỌNG NÓI Nguồn gốc âm Nguyên tắc nhận dạng giọng nói Phương pháp nhận dạng CHƯƠNG II: PHƯƠNG PHÁP MFCC VÀ VQ Giới thiệu .7 Trích xuất đặc trưng giọng nói 2.1 Bộ xử lý hệ số cepstrum tần số Mel 2.2 Frame Blocking 2.3 Windowing .10 2.4 Fast Fourier Transfrom (FFT) 11 2.5 Mel-frequency Wrapping 11 2.6 Cepstrum 12 Đối sánh đặc trưng 13 CHƯƠNG III: ỨNG DỤNG NHẬN DIỆN GIỌNG NÓI 17 Dữ liệu .17 Xử lý 17 Lượng tử hóa vector 17 Mô 18 TÀI LIỆU THAM KHẢO 19 CHƯƠNG I: GIỚI THIỆU VỀ NHẬN DẠNG GIỌNG NÓI Nguồn gốc âm Âm vật thể dao động học mà phát Âm phát dạng sóng âm Sóng âm biến đổi tính chất mơi trường đàn hồi lượng âm truyền qua Âm truyền đến tai người mơi trường dẫn âm Sóng âm truyền chất rắn, chất lỏng, khơng khí Có chất dẫn âm gọi chất hút âm như: len, da, xốp, Sóng âm khơng thể truyền mơi trường chân khơng Khi kích thích dao động âm mối trường khơng khí lớp khí bị nén dãn Trạng thái nén dãn lan truyền từ nguồn âm dạng sóng dọc tới nơi thu âm Nếu cường độ nguồn lớn âm truyền xa Nguyên tắc nhận dạng giọng nói Nhận dạng giọng nói phân loại thành nhận dạng xác minh Nhận dạng người nói trình xác định người đăng ký cung cấp liệu nói định Mặt khác, xác minh người nói trình chấp nhận từ chối yêu cầu nhận dạng người nói Hình cho thấy cấu trúc hệ thống xác minh nhận biết giọng nói Hệ thống mà ta mơ tả phân loại hệ thống nhận dạng người nói độc lập văn nhiệm xác định người nói điều nói Tất hệ thống nhận dạng giọng nói chứa hai mơ-đun (Hình 1) trích chọn đặc trưng đối sánh đặc trưng Trích xuất đặc trưng q trình trích xuất lượng nhỏ liệu từ tín hiệu thoại mà sau sử dụng để diễn tả cho người Đối sánh đặc trưng bao gồm quy trình thực tế để xác định người nói chưa biết cách so sánh với tính trích xuất từ đầu vào giọng nói người với người nói từ nhóm liệu biết Điểm giống Giọng nói Mơ hình tham chiếu (Speaker #1) Trích chọn đặc trưng Lựa chọn tối đa Điểm giống Kết nhận dạng (Speak ID) Mô hình tham chiếu (Speaker #N) a) Nhận dạng giọng nói Giọng nói Speaker (#M) Trích chọn đặc trưng Điểm giống Mơ hình tham chiếu (Speaker #N) Quyết định Kết xác minh Ngưỡng b) Xác minh giọng nói Hình 1: Cấu trúc hệ thống nhận dạng giọng nói Tất hệ thống nhận dạng giọng nói phải phục vụ hai giai đoạn phân biệt Cái gọi giai đoạn huấn luyện, thứ hai gọi giai đoạn thử nghiệm Trong giai đoạn huấn luyện, liệu giọng nói phải cung cấp lời nói để hệ thống xây dựng huấn luyện mơ hình tham chiếu người Trong trường hợp hệ thống xác nhận giọng nói, ngưỡng dành riêng cho người nói tính từ mẫu huấn luyện Trong giai đoạn thử nghiệm, lời nói đầu vào phù hợp với mơ hình tham chiếu lưu trữ nhận dạng đưa Nhận dạng giọng nói nhiệm vụ khó khăn Nhận dạng giọng nói tự động hoạt động tiền đề người nói thể đặc điểm cho người Tuy nhiên, nhiệm vụ bị thách thức biến đổi tín hiệu tiếng nói đầu vào Nguồn gốc phương sai người nói Tín hiệu lời nói huấn luyện thử nghiệm khác nhau, nhiều nguyên nhận dẫn tới thay đổi giọng nói, thời gian, tình trạng sức khỏe (ví dụ: người bị cảm lạnh, ), Ngồi cịn có yếu tốc khác biến đổi loa Ví dụ tiếng ồn các biến thể môi trường ghi âm Phương pháp nhận dạng Phương pháp LPC(Linear predictive coding) – mã hóa dự báo tuyến tính: nhược điểm có số từ phát âm gần giống bị nhầm lẫn nhiều Phương pháp AMDF (average magnitude difference function) – hàm hiệu biên độ trung bình: Ưu điểm số ngõ vào ít, kích thước mạng huấn luyện nhỏ, phụ thuộc vào cách phát âm nên tủ lệ đọc sai phương pháp LPC, nhiên khuyết điểm không phân biệt điệu, khó sử dụng trường hợp từ đọc liên tiếp AMDF & LPC : Do ưu nhược điểm hai phương pháp nên cần kết hợp phương pháp Phương pháp MFCC (mel-frequency ceptrums coeficients) CHƯƠNG II: PHƯƠNG PHÁP MFCC VÀ VQ Giới thiệu Mel Frequency Cepstral Coeficients (MFCC) cách để trích xuất đặc trưng (feature extraction) giọng nói (speech) thường sử dụng model nhận dạng giọng nói (Automatic Speech Recognition) hay phân loại giọng nói (Speech Classification) Đúng tên gọi nó, MFCC cho kết hệ số (Coefficients) cepstral từ Mel filter phở lấy từ file âm chứa giọng nói Trích xuất đặc trưng giọng nói Mục đích để chuyển đổi dạng sóng giọng nói, sử dụng cơng cụ xử lý tín hiệu số sang tính (với tốc độ thơng tin thấp hơn) để phân tích thêm Tín hiệu giọng nói tín hiệu thay đổi theo thời gian chậm (nó gọi bán tĩnh) Một ví vụ tín hiệu giọng nói hiển thị hình Khi kiểm tra khoảng thời gian đủ ngắn (trong khoảng từ đến 100ms), đặc tính ổn định Tuy nhiên, khoảng thời gian dài (theo thứ tự 1/5 giây trờ lên), đặc tính tín hiệu thay đổi để phản ánh âm giọng nói khác nói Do đó, phân tích quang phổ thời gian ngắn cách phổ biến để mơ tả tín hiệu giọng nói Hình 2: Ví vụ tín hiệu giọng nói MFCC dựa biến đổi biết băng thông quan trọng tai người với tần số, lọc cách tuyến tính tần số thấp logarit tần số cao sử dụng để ghi lại đặc điểm quan trọng mặt ngữ âm lời nói Điều biểu thị theo thang số tần số mel (mel-frenquency), khoảng cách tần số tuyến tính 1000Hz khoản cách logarit 1000Hz 2.1 Bộ xử lý hệ số cepstrum tần số Mel Sơ đồ khối cấu trúc xử lý MFCC đưa hình Đầu vào giọng nói thường ghi lấy mẫu 10000Hz Tần số lấy mẫu chọn để giảm thiểu ảnh hưởng hiệu ứng cưa chuyển đổi tương tự sang số Các tín hiệu lấy mẫu thu tất tần số lên đến 5kHz Mục đích xử lý MFCC bắt chước hành vi tai người Sampling Frame speech frame Blocking mel Windowing Removal Cepstrum spectrum Noise mel FFT spectrum Mel-frequency Wrapping spectrum Hình 3: Sơ đồ khối trình thực MFCC Để phân tích tín hiệu giọng nói tương tự, phải số hóa để chuyển đổi thành tín hiệu thời gian riêng biệt Theo định lý Nyquist Shannon, tín hiệu x(t) tần số f(max) cần lấy mẫu tần số 2f(max) để thực tín hiệu xác tránh cưa Để có tín hiệu giá trị riêng biệt, giá trị lấy mẫu cần lượng tử hóa Bit Depth/Bit Resolution số bit sử dụng để lưu trữ mẫu âm Số lượng bit sử dụng phụ thuộc vào số lượng mức độ lượng tử hóa sử dụng trình chuyển đổi tương tự sang số Thông thường hệ thống nhận dạng giọng nói mã hóa mẫu với 16 bit tùy thuộc vào khả xử lý có sẵn Ví dụ: Nếu tệp âm mã hóa bit có mức lượng tử hóa 256 (28) Tuy nhiên tệp mã hóa bit, có mức lượng tử hóa 512 (29) 2.2 Frame Blocking Trong bước này, tín hiệu giọng nói dạng liên tục theo ms, khó để giải nên người ta chia tín hiệu giọng nói thành khung (frames) Ưu điểm phân tích dựa Frame cải thiện hiệu hệ thống cách phân tích nhóm mẫu (trong frame) trái ngược với phân tích mẫu riêng biệt Mỗi khung đè lên khung trước để đảm bảo chuyển tín hiệu mượt mà từ khung sang khung khác Lượng chồng chéo lý tưởng từ 50% - 70% Việc lựa chọn frame length, tức số lượng mẫu tạo thành frame vấn đề quan trọng Nếu chiều dài frame ngắn, khơng có để mẫu để có ước tính đáng tin cậy Nếu chiều dài frame dài, tín hiệu thay đổi nhiều frame Độ dài khung hình lý tưởng nằm khoảng 20ms – 40ms Khung thứ bao gồm mẫu Khung thứ hai bắt đầu mẫu sau khung chồng lên mẫu Q trình tiếp tục tồn tín hiệu giọng nói nằm nhiều khung Số lượng mẫu điển hình cho frame length () overlap () 256 100 Tương ứng với khung 40ms cách 15ms, độ khung hình 66.7Hz Lựa chọn lượng mẫu khung – number frame () chọn 256 mang lại thỏa hiệp giữ độ phân giải tần số độ phân giản thời gian Kết dạng hay chiều (x,y) với x frame_length y number_of_frames 2.3 Windowing Bước tiếp thao trình xử lý cửa sổ khung riêng lẻ để giảm thiểu gián đoạn tín hiệu đầu cuối khung (frames) Windowing tín hiệu thực cách nhân window function() với frame Nếu xác định cửa sổ (window) Trong N số lượng mẫu mối khung kết cửa sổ tín hiệu Do framing làm rời rạc hóa tín hiệu giọng nói, ta áp dụng hàm gọi Hamming Window để làm trơn (smooth) khung (frames): Ta loại bỏ tiếng ồn trước thực biến đổi FFT Phương pháp trừ phổ sử dụng để loại bỏ nhiễu khỏi tín hiệu giọng nói Đó kỹ thuật khử nhiễu cách ước tính nhiễu lấy trừ tín hiệu tiếng nói Phương trình tổng qt: Trong đó, y(m) tín hiệu giọng nói, x(m) tín hiệu không nhiễu mong muốn n(m) nhiễu Một dạng sóng miền thời gian tính tốn lại cường độ sửa đổi, sau chồng chéo thêm vào liệu trước để tạo tín hiệu tiếng nói khơng có tiếng ồn 2.4 Fast Fourier Transfrom (FFT) Bước đầu trích xuất đặc trưng chuyển đổi tín hiệu giọng nói thành miền tần số cách sử dụng biến đổi Fourier Tín hiệu frame window từ giai đoạn tiền xử lý phải biến đổi Fourier rời rạc (DFT) để chuyển đổi frame giọng nói từ miền thời gian thành miền tần số DFT định nghĩa là: Trong Xn tín hiệu trước xử lý khung N độ dài DFT Xk số phúc Chuỗi kết Xk hiểu sau: Tần số dương tương ứng với giá trị , tần số âm tương ứng với Ở Fs biểu thị tần số lẫy mẫu Kết sau bước thường gọi phổ biểu đồ 2.5 Mel-frequency Wrapping Khi tín hiệu chuyển đổi thành miền tần số thông qua biến đổi FFT, bước tiep theo điều chỉnh phổ thu theo thang đo Mel để chuyển đổi thành phổ Mel Để thực điều này, cơng suất phổ tín hiệu giọng nói đặt trọng số loạt đáp ứng tần số lọc hình tam giác có băng thơng tần số phù hợp với tín hiệu lọc tần Các lọc chuyển đổi phổ tín hiệu thành đại diện gần giống với tai người, tức thang mel Người ta thấy nhận thức người nội dung tần số âm tín hiệu lời nói khơng tn theo thang đo tuyến tính Do đó, với âm tần số thực tế f, đo Hz, cường độ đo thang đo gọi ‘mel’ Thang đo tần số mel khoảng cách tần số tuyến tính 1000Hz khoảng cách logarit 1000Hz Hình 4: Ví dụ lọc Mel 2.6 Cepstrum Một cepstrum có cách biến đổi Fourier ngược biến đổi logarit tín hiệu Một thuộc tính quan trọng cepstral tích chập hai tín hiệu Bước cịn lại sau có ghi Mel quang phổ chuyển đổi phổ trở lại thời gian miền Do hệ số phổ Mel (logarit chúng) số thực, nên việc chuyển đổi miền thời gian đạt cách sử dụng thuộc tính chẵn ceptrum theo biểu thị DFT nghịch đảo theo cosine tức biến đổi Cosine rời rạc ( Discrete Cosine Transform – DCT) Tương tự DFT, khác biệt DCT sử dụng thuật ngữ thực (cosine) DFT sử dụng số mũ phức tạp (cosin sin) Áp dụng DCT cho phổ Mel, chuyển đổi phổ Mel thành Cepstrum Mel Các hệ số cepstrum kết gọi hệ số cepstral tần số Mel ( MFCC) vector đặc trưng sử dụng để mô tả cá thể Do ta biểu thị hệ số phổ công suất mel Chúng ta tính MFCC, K     ~ c~n   (log Sk ) cos nk   , k1   K  n 0,1, , K1 Tập hợp hệ số gọi vector âm Đối sánh đặc trưng Như ta có chuỗi vector âm trích xuất từ lời nói đầu vào cách sử dụng kỹ thuật mô tả phần trước Các kỹ thuật đối sánh đặc trưng sử dụng nhân dạng giọng nói Dynamic Time Warping (DTW), Hidden Markov Modelling (HMM) Vector Quantization (VQ) Ở đây, ta sử dụng phương pháp VQ, dễ thực độ xác cao VQ trình ánh xạ vector từ không gian vector lớn đến số lượng hữu hạn vùng khơng gian Mỗi vùng gọi cụm gọi từ mã Tập hợp từ mã gọi codebook Hình minh họa trình nhận dạng Trong hình, có hai loa hai chiều khơng gian âm hiển thị Các vịng tròn vector từ loa tam giác từ loa Trong giai đoạn huấn luyện, codebook riêng người nói tạo cho người nói cách phân cụm vector đặc trưng Các từ mã kết (centroid) hiển thị vịng trịn đen (Loa 1) hình tam giác đen (Loa 2) Khoảng cách giữ vector đặc trưng từ mã gần (centroid) gọi biến dạng VQ Nó thước đo mức độ tương tự liệu thử nghiệm cung cấp (mẫu giọng nói thử nghiệm) với liệu huấn luyện có (mẫu giọng nói huấn luyện) Biến dạng nhỏ ngụ ý mẫu thử nghiệm kết hợp gần với mẫu huấn luyện Trong giai đoạn thử nghiệm, mẫu giọng nói đầu vào lượng tử hóa vector cách sử dụng codebook huấn luyện độ biến dạng VQ tính tốn Sau đó, Loa tương ứng với mã có tổng độ biến dạng nhỏ xác định Hình 5: Sơ đồ khái niệm vector quantization Các vector âm trích xuất từ lời nói đầu vào người nói cung cấp tập vector huấn luyện cho người Bước xây dựng bảng mã VQ dành riêng cho người nói cách sử dụng vector huấn luyện đó, thuật tốn tiếng, thuật tốn LBG, để phân cụm tập vector huấn luyện L thành tập hợp M vector mã hóa Thuật tốn LBG ( Linde-Buzo-Gray algorithm): Những codebook riêng người nói thiết kết cách sử dụng thuật toán LBG, thuật toán phân chia nhị phân để xuất Linde Ban đầu, tạo bảng mã vector trung tâm giá trị trung bình tồn tập huấn luyện Sau đó, centroid chia thành hai centroid thuật tốn phân cụm K-means Q trình lặp lại hai từ mã chia thành bốn tám đến codebook kích thước yêu cầu Các bước triển khai thuật toán LBG - Thiết kế vector codebook, trọng tâm toàn vector huấn luyện - Kích thước codebook ban đầu nhân đơi cách chia codebook yn theo quy tắc: Trường hợp thay đổi từ đến kích thước codebook tham số tách (thường chọn để nằm pham vi − Đối với vector huấn luyện, tìm từ mã (centroid) codebook gần (biến dạng VQ nhỏ nhất) gán vector co cụm tương ứng − Cập nhật centroid: cập nhật từ mã ô cách sử dụng tâm vector huấn luyện gán cho cụm + Lặp lại khoảng cách trung bình giảm ngưỡng cài đặt trước + Lặp lại bước vector codebook thiết kế Hình 6: Sơ đồ thuật tốn LBG Thuật toán LBG thiết kế bảng mã M vector theocacs giai đoạn Trước đó, bắt đầu cách thiết kế bảng mã vector, sau sử dụng kỹ thuật phân tách từ mã để khởi tạo tìm kiếm cho bảng mã vector tiếp tục qua trình phân tách có bảng mã M vector mong muốn Ở hình ta thấy bước chi tiết thuật toán LBG Các cụm vector sử dụng thuật tốn tìm kiếm lân cận gần nhất, gán vector huấn luyện cho cụm liên kết với từ mã gần Tìm centroid bước cập nhật centroid Tính tốn D (biến dạng) số liệu tổng hợp khoảng cách tất vector huấn luyện tìm kiếm lân cận gần để xác định xem quy trình có hội tụ hay khơng CHƯƠNG III: ỨNG DỤNG NHẬN DIỆN GIỌNG NĨI Dữ liệu Ta có file làm liệu cho chương trình: File âm (.wav – định dạng tập tin âm dạng sóng) Một định dạng âm phổ biến Các định dạng phát triển bời Microsoft thường lưu trũ liệu âm không nén với điều chế mã xung, sử dụng để lưu trữ âm xử lý với codec âm khác File hình ảnh (.png) Khác với jpg khơng làm ảnh hưởng đến chất lượng nén ảnh Xử lý Ở bước này, ta cần viết hàm Matlab để đọc tệp âm biến thành chuỗi MFCC (vector âm thanh) bước xử lý mô tả phần Một số hàm Matlab mà ta cần là: hamming, fft, dct, melfb Lượng tử hóa vector Kết ta biến đổi tín hiệu lời nói thành vectr khơng gian âm Áp dụng kỹ thuật nhận dạng mẫu dựa VQ Ta viết hàm Matlab với vqlbg để huấn luyện VQ codebook thuật toán LGB Ta sử dụng hàm disteu để tính khoảng cách Euclide từ mã vector huấn luyện trình lặp lặp lại 4 Mô Ta thiết kế giao diện chương trình sau: Hình 7: Giao diện chương trình Ở chương trình, ta tạo sẵn file (1 file âm thanh, file ảnh) ứng với thành viên để tạo thành hệ thống Đối với liệu có sẵn, nhấn nút “Nhận dạng” làm theo hướng dẫn “Bảng dẫn” để thực Còn ta muốn sửa đổi file âm (dữ liệu) nhấn nút “Dữ liệu” làm theo hướng dẫn “Bảng dẫn” thực nhận dạng với liệu TÀI LIỆU THAM KHẢO [1] L.R Rabiner and B.H Juang, Fundamentals of Speech Recognition, Prentice-Hall, Englewood Cliffs, N.J., 1993 [2] L.R Rabiner and R.W Schafer, Digital Processing of Speech Signals, Prentice-Hall, Englewood Cliffs, N.J., 1978 [3] S.B Davis and P Mermelstein, “Comparison of parametric representations for monosyllabic word recognition in continuously spoken sentences”, IEEE Transactions on Acoustics, Speech, Signal Processing, Vol ASSP-28, No 4, August 1980 [4] Y Linde, A Buzo & R Gray, “An algorithm for vector quantizer design”, IEEE Transactions on Communications, Vol 28, pp.84-95, 1980 [5] S Furui, “Speaker independent isolated word recognition using dynamic features of speech spectrum”, IEEE Transactions on Acoustic, Speech, Signal Processing, Vol ASSP-34, No 1, pp 52-59, February 1986 [6] S Furui, “An overview of speaker recognition technology”, ESCA Workshop on Automatic Speaker Recognition, Identification and Verification, pp 1-9, 1994 [7] F.K Song, A.E Rosenberg and B.H Juang, “A vector quantisation approach to speaker recognition”, AT&T Technical Journal, Vol 66-2, pp 14-26, March 1987 ... từ nguồn âm dạng sóng dọc tới nơi thu âm Nếu cường độ nguồn lớn âm truyền xa Nguyên tắc nhận dạng giọng nói Nhận dạng giọng nói phân loại thành nhận dạng xác minh Nhận dạng người nói q trình... CHƯƠNG I: GIỚI THIỆU VỀ NHẬN DẠNG GIỌNG NÓI Nguồn gốc âm Nguyên tắc nhận dạng giọng nói Phương pháp nhận dạng CHƯƠNG II: PHƯƠNG PHÁP MFCC VÀ VQ Giới thiệu ... đoạn thử nghiệm, lời nói đầu vào phù hợp với mơ hình tham chiếu lưu trữ nhận dạng đưa Nhận dạng giọng nói nhiệm vụ khó khăn Nhận dạng giọng nói tự động hoạt động tiền đề người nói thể đặc điểm cho

Ngày đăng: 08/04/2021, 20:03

Mục lục

  • CHƯƠNG I: GIỚI THIỆU VỀ NHẬN DẠNG GIỌNG NÓI

  • 1. Nguồn gốc âm thanh

  • 2. Nguyên tắc của nhận dạng giọng nói

  • 3. Phương pháp nhận dạng

  • CHƯƠNG II: PHƯƠNG PHÁP MFCC VÀ VQ

  • 1. Giới thiệu

  • 2. Trích xuất đặc trưng giọng nói

  • 2.1. Bộ xử lý hệ số cepstrum tần số Mel

  • 2.2. Frame Blocking

  • 2.3. Windowing

  • 2.4. Fast Fourier Transfrom (FFT)

  • 2.5. Mel-frequency Wrapping

  • 2.6. Cepstrum

  • 3. Đối sánh đặc trưng

  • CHƯƠNG III: ỨNG DỤNG NHẬN DIỆN GIỌNG NÓI

  • 1. Dữ liệu

  • 2. Xử lý

  • 3. Lượng tử hóa vector

  • 4. Mô phỏng

  • TÀI LIỆU THAM KHẢO

Tài liệu cùng người dùng

Tài liệu liên quan