Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 12 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
12
Dung lượng
475,93 KB
Nội dung
HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THƠNG KHOA CƠNG NGHỆ THÔNG TIN I - - XÂY DỰNG HỆ CSDL NHẬN DẠNG TIẾNG VIỆT CHUYÊN NGÀNH :HỆ THỐNG THÔNG TIN HÀ NỘI-NĂM 2020 MỤC LỤC I.ĐẶC TRƯNG CỦA CSDL Dữ liệu gồm 100 file âm với từ phát âm đếm từ đến mười Các file lưu định dạng wav (dạng song) có độ dài trung bình từ đến 1,2 giây Các từ xuất khoảng 0.7 đến 0.9 giây Trong từ có nhiều cách phát âm khác đặc trưng cho người nói, từ phát âm khơng có cách phát âm từ nguồn (giống nhau) II.KỸ THUẬT XỬ LÝ VÀ NHẬN DẠNG ÂM THANH 2.1 Dự đốn tuyến tính – LPC Mã hóa dự đốn tuyến tính (LPC ) phương pháp sử dụng chủ yếu xử lý tín hiệu âm xử lý giọng nói để biểu diễn đường bao phổ tín hiệu kỹ thuật số lời nói dạng nén , sử dụng thơng tin mơ hình dự đốn tuyến tính Đây kỹ thuật phân tích giọng nói mạnh mẽ phương pháp hữu ích để mã hóa giọng nói chất lượng tốt tốc độ bit thấp cung cấp ước tính xác cao tham số giọng nói LPC phương pháp sử dụng rộng rãi mã hóa giọng nói tổng hợp giọng nói Phân tích dự báo tuyến tính dựa việc sóng tiếng nói thuộc tính phổ có biểu diễn có hiệu lực thơng qua việc sử dụng số nhỏ tham số Chúng ta diễn đạt mẫu tín hiệu nói riêng biệt thời điểm ∆T[s] {xt} (t số nguyên) Khi giới hạn tiếng nói tần số tiếng việt – W [Hz] ∆T phải thoả mãn ∆T ≤ 1/2W [s] Sau biểu diễn mẫu x thơng qua q trình tự hồi quy p mẫu trước Chúng ta định nghĩa lọc dự báo tuyến tính Định nghĩa cặp chuyển đổi z Vậy: Khi đó: hay đây: A(z) lọc ngược Thủ tục phân tích LPC: Phương pháp áp dụng cho việc ước lượng hệ số tuyến tính {αl} cách áp dụng lỗi bình phương tối thiểu Lỗi bình phương tổng cộng β là: Ở đây, α0 = Định nghĩa hệ số tương quan cij Ta viết lại β sau: Lấy đạo hàm β theo dự báo tuyến tính αi, ta có: Các hệ số dự báo tuyến tính {αi} thu thơng qua việc giải phóng p phương trình tuyến tính Các thơng sơ cij ( i= j = ) đươc tính từ mẫu liệu xt với t chạy từ t0 đến tl Thật sự, cij tính dựa chuỗi gồm N mẫu tiếng nói {xt}={x0, x1,…,xN-1} Phương pháp tự tương quan định nghĩa cách đặt t0 = -∞ tl = ∞ kết hợp với điều kiện xt = với t(0;N] Khi đó, cij tính sau: Các hệ số αi thu cách giải hệ phương trình tuyến tính: Ở đây, Ta biểu diễn dạng ma trận: Phương trình giải phương pháp nghịch đảo ma trận 2.2 MFCC: MFCC kỹ thuật phổ biến nhận dạng giọng nói dựa tần số cách sử dụng thang đo Mel dựa thang đo tai người Mel-Frequency Cepstral Coefficients (MFCC) biểu diễn cepstral thực tín hiệu thời gian ngắn có cửa sổ thu từ FFT/DFT tín hiệu Sự khác biệt so với thực tế cepstal thang tần số phi tuyến sử dụng, xấp xỉ hành vi thính giác hệ thống Ngồi ra, hệ số máy đáng tin cậy với biến thể tuỳ theo người nói hồn cảnh ghi âm Kỹ thuật MFCC trích xuất thơng số từ lời nói nhấn mạnh tất thơng tin khác Tín hiệu đầu vào chia thành khung thời gian bao gồm số lượng tuỳ ý mẫu Các khung chồng chéo lên để sử dụng chuyển đổi mượt mà từ khung sang khung khác Mỗi khung thời gian sau lọc cửa sổ Hamming để loại bỏ gián đoạn Trọng số w(n) lọc cửa số Hamming tính theo cơng thức: Trong N tổng số mẫu, n mẫu Sau mở cửa số, FFT tính tốn cho khung để trích xuất thành phần tần số tín hiệu miền thời gian FFT sử dụng tăng tốc độ xử lý Các lọc Mel-Scaled logarit áp dụng cho khung biến đổi Fourier Quy mô xấp xỉ tuyến tính 1kHz logarit mức lớn tần số Mối quan hệ thang đo Mel tần suất giọng nói thiết lập sau: MFCC sử dụng lọc Mel-scaled nơi cao có lọc tần số có bang thơng lớn lọc tần số Bước cuối DCT IDFT, IFFT Phạm vi hệ số phép biến đổi ngược theo ý nghĩa, đó, hệ số bị loại không đảm bảo độ tin cậy Đối với khung lời nói, MFCC chiết xuất Tập hợp hệ số gọi vector âm thanh, điều thể quan trọng mặt ngữ âm, đặc điểm lời nói Qua sử dụng tham số gồm 12 giá trị nguyên ban đầu mfcc, 12 giá trị detal, 12 giá trị double detal giá trị thứ 13 đặc trưng lượng 2.3 PLP Mơ hình dự báo tuyến tính theo cảm nhận (PLP - Perceptual Linear Prediction) dựa khái niệm tâm sinh lý thính giác người PLP loại bỏ thông tin không liên quan chuỗi âm tăng tỉ lệ nhận dạng giọng nói PLP giống với LPC ngoại trừ đặc điểm quang phổ biến đổi phù hợp với đặc điểm thính giác cong người Sơ đồ khối xử lý PLP PLP xử lý khía cạnh là: dường cong độ phân giải băng tần chính, âm lượng đường cong nhau, quan hệ luật công suất – cường độ âm gọi bậc hai Tính tốn tham số PLP Phổ cơng suất tín hiệu tính bằng: Áp dụng tần số biến dạng theo thang Bark Các bước chuyển đổi từ tần suất sang bark., biến đổi tốt thính giác người độ phân giải tần số Tần số Bark tương ứng với số tần số âm là: Sau tiến hành cân độ ồn, phổ âm cân làm mịn lấy mẫu khoảng bark Hàm mô đường cong cân độ ồn Sau tiến hành mô tiến hành dùng luật cường độ nghe cách lấy lên luỹ thừa 0.33 Các hệ số tự tương quan sau dùng luật cường độ nghe tiến hành biển đổi Fourier ngược, đầu đệ quy tương đương với logarit phổ mơ hình Tiếp sử dụng thuật tốn Durbin sử dụng để tính tốn hệ số dự báo tuyến tính LPC Khi có hệ số tính giá trị detal phương pháp hệ số MFCC 2.4 Nhận dạng âm 2.4.1.HMM- Hidden Markov Model Mơ hình Markov ẩn (Hidden Markov Model - HMM) mơ hình học máy điển hình tiếp cận theo mơ hình âm học [Klatt, 1979] cho tốn nhận dạng tiếng nói HMM mơ hình xác suất dựa lý thuyết chuỗi Markov bao gồm thành phần sau: • = {1, 2, , t} tập vector quan sát gồm T phần tử • = {1, 2, , n} tập hữu hạn trạng thái s gồm N phần tử • = {11, 12, , mn} ma trận hai chiều thể xác suất để trạng thái chuyển sang trạng thái , với ≥ ∀ • = {2t , it, , (N-1)T } tập hàm phân phối xác suất trạng thái từ 2 đến −1, thể xác suất để quan sát thu từ trạng thái thời điểm t Trong nhận dạng tiếng nói hàm thường sử dụng hàm Gaussian với nhiều thành phần trộn (mixture), mơ hình gọi mơ hình kết hợp Hidden Markov Model Gaussian Mixtrue Model (HMM-GMM) • ∏ = {} tập xác suất trạng thái đầu, với = (1 = ) với i=1 N xác suất để trạng thái trạng thái đầu 1 Như cách tổng qt mơ hình Markov ẩn λ biểu diễn λ = (A, B, Π) Trong lĩnh vực nhận dạng mơ hình Markov ẩn áp dụng với hai giả thiết sau: Một giả thiết tính độc lập, tức khơng có mối liên hệ hai quan sát lân cận oi oi+1, xác suất chuỗi quan sát O={oi} xác định thông qua xác suất quan sát oi sau: Hai giả thiết Markov, xác suất chuyển thành trạng thái phụ thuộc vào trạng thái trước −1 Hình Mơ hình HMM-GMM có cấu trúc dạng Left-Right liên kết khơng đầy đủ Trong nhận dạng tiếng nói, mơ hình HMM-GMM sử dụng để mơ hình hố cho đơn vị tiếng nói Âm vị (phoneme), Từ (word) Câu (sentence) Khi tập quan sát O={ot} tương ứng với phát âm (utterance) ot tập vector đặc trưng (feature vector) tín hiệu tiếng nói đầu vào thu thời điểm t Có nhiều cấu trúc HMM khác nhau, nhiên thực tế, cấu trúc HMM-GMM thường sử dụng có trạng thái theo cấu trúc Left-Right mơ tả Q trình xây dựng hệ thống nhận dạng tiếng nói sử dụng mơ hình HMM-GMM thơng thường có hai bước sau: Huấn luyện (Training): Đối với ngôn ngữ, liệu mục đích cụ thể ta dùng HMM-GMM để mơ hình cho đơn vị nhận dạng âm vị, Từ Câu Khi hệ thống bao gồm tập mơ hình HMM-GMM λ={λ i} Đối với phát âm O={o t} mơ hình chuỗi trạng thái Q={q t} với từ nhiều mơ hình λ i Q trình huấn luyện trình ước lượng tham số cho xác suất P(Q|O, λ) lớn nhất, P(Q|O, λ ) tính theo cơng thức, P(Q|O,λ) gọi xác suất mơ hình âm học (acoustic model) Nhận dạng (decoding): Nhận dạng trình xác định chuỗi trạng thái { } = , ∈ từ mơ hình HMM {λi}=λ huấn luyện tương ứng với chuỗi đầu vào {ot}=O cho xác suất P(O,Q|λ) lớn nhất, với : 2.4.2.NN – Neural Network Mạng nơ-ron cấu trúc Perceptron nhiều lớp sử dụng nhiều hệ thống nhận dạng Mạng nơ-ron MLP (MultiLayer Perceptron) cấu trúc mạng gồm có lớp vào (input), lớp (output) nhiều lớp ẩn (hidden) Véc-tơ đầu vào đưa qua lớp vào (input) mạng sau tính tốn thực lan truyền tới (feed-forward) từ lớp vào input sang lớp ẩn kết thúc lớp (output) Hàm kích hoạt kết hợp với nốt ẩn hay nốt hàm tuyến tính hay phi tuyến khác nốt Mơ tả mạng nn, mạng lớp mạng nhiều lớp Có cách tiếp dụng ron cho nhận hai cận việc áp mạng nơdạng tiếng nói Cách tiếp cận thứ sử dụng mạng nơ-ron mơ hình âm học có chức phân lớp hay nhận dạng mẫu đầu vào Cách tiếp cận thường sử dụng hệ thống nhận dạng với từ vựng nhỏ hệ thống điều khiển tương tác người máy tiếng nói Khi với vector đặc trưng đầu vào đưa qua mạng ta thu đầu định tương ứng Cách tiếp cận thứ hai kết hợp mơ hình HMM GMM làm mơ hình âm học hệ thống nhận dạng từ vựng lớn Trong cách tiếp cận hàm xác suất phát tán thay hàm kích hoạt lớp đầu mạng nơ-ron thay hàm GMM cách truyền thống III.MƠ HÌNH HỆ THỐNG 4.1.Hệ thống nhận dạng tiếng việt: Quy trình thực hiện: Dữ liệu trích chon đặc trưng phương pháp phân tích MFCC Dữ liệu qua pha phân tích tiến hành phân cụm phương pháp tính tốn độ đo Euclidean Ta thu ma trận hệ số thực từ Từ đó, xây dựng sở liệu vector từ đưa vào mơ hình huấn luyện Trong mơ hình huấn luyện liệu, liệu đưa vào tiến hành so sánh với ước lượng thông số để xác suất so với mẫu liệu đạt cực đại Từ đó, xác nhận xem mẫu đưa vào giống với liệu 4.2.Các thuộc tính sử dụng để nhận dạng: Qua phương pháp MFCC, có 39 đặc trưng trích xuất cụ thể: • 12 giá trị đặc trưng phổ Mel biến đổi Fourier ngược • 12 giá trị delta phổ • 12 giá trị double delta phổ • giá trị mức lượng • giá trị delta mức lượng • giá trị double delta mức lượng 10 Sơ đồ trình trích chọn đặc trưng MFCC Bước 1: Tăng cường độ tiếng nói để lọc bỏ nhiễu Bước 2: Phân tích độ dài âm thành frame nhỏ Bước 3: Biến đổi Fourier rời rạc tín hiệu cắt Bước 4: Từ biến đổi Fourier tiến hành biến đổi tần số Mel lọc giúp giảm giá trị đặc trưng phục vụ tính tốn Bước 5: Lấy logarit đặc trưng Bước 6: Biến đổi Fourier ngược với đầu vào tần số mel, đầu hệ số cepstrum Các hệ số đặc trưng âm Bước 7: Từ 12 đặc trưng rút ra, kết hợp với biến đổi lượng âm khung tín hiệu tạo 13 đặc trưng cụ thể biến đổi 13 đặc trưng biểu thị thay đổi 4.3.Cách lưu trữ: Lưu trữ đặc trưng dạng file text Cụ thể dạng mảng 11 Tài liệu tham khảo A Stoclke, E Shriberg, L Ferrer, S Kajarekar, K Sonmez, G Tur “Speech Recognition As Feature Extraction For Speaker Recognition”, 2007 Ilyas Potamitis, Nikos Fakotakis, George Kokkinakis “Speech Recognition Based On Feature Extraction With Variable Rate Frequency Sampling” Nguồn: http://www.springerlink.com/content/mcwpdr59pwkn88yv/ 12 ... cho nhận hai cận việc áp mạng n? ?dạng tiếng nói Cách tiếp cận thứ sử dụng mạng nơ-ron mơ hình âm học có chức phân lớp hay nhận dạng mẫu đầu vào Cách tiếp cận thường sử dụng hệ thống nhận dạng. .. −1 Hình Mơ hình HMM-GMM có cấu trúc dạng Left-Right liên kết khơng đầy đủ Trong nhận dạng tiếng nói, mơ hình HMM-GMM sử dụng để mơ hình hố cho đơn vị tiếng nói Âm vị (phoneme), Từ (word) Câu... MFCC 2.4 Nhận dạng âm 2.4.1.HMM- Hidden Markov Model Mơ hình Markov ẩn (Hidden Markov Model - HMM) mơ hình học máy điển hình tiếp cận theo mơ hình âm học [Klatt, 1979] cho tốn nhận dạng tiếng nói