.14 Sơ đồ khối các bước trích chọn đặc trưng PLP

Một phần của tài liệu (LUẬN án TIẾN sĩ) hướng tiếp cận dựa trên phổ tần số cho bài toán nhận thức tiếng nói luận án TS máy tính 94801 (Trang 61 - 65)

Biến đổi Fourier nhanh (FFT): Tương tự như phương pháp MFCC, tín hiệu tiếng nĩi được chia thành các khungvà được chuyển sang miền tần số bằng thuật tốn FFT.

Lọc theo thang tần số Bark: Tín hiệu tiếng nĩi được lọc qua các bộ lọc phân bố theo thang tần số phi tuyến, trong trường hợp này là thang tần số Bark:

𝐵𝑎𝑟𝑘(𝑓) = 6 ln { 𝑓

1200+ [( 𝑓 1200)

2+ 1]12} (2.26)

Nhấn mạnh tín hiệu: dùng hàm cân bằng độ ồn (equal-loudnes). Bước này tương tự bước nhấn mạnh (preemphais) của phương pháp MFCC. Hàm này mơ phỏng đường cong cân bằng độ ồn (Equal-Loudnes Curve)

𝐸(𝜔) = (𝜔

2+ 56.8 ∗ 106)𝜔4

(𝜔2+ 6.3 ∗ 106)(𝜔6+ 9.58 ∗ 1026) (2.27)

Dùng luật cường độ nghe (Power Law of Hearing): Bước xử lý này giống như bước lấy giá trị logarit trong phương pháp MFCC. Hàm căn lập phương được dùng cĩ dạng:

(𝑓) = (𝑓)0.33 (2.28)

Biến đổi Fourier ngược (Inverse DFT): Các hệ số tự tương quan được biến đổi Fourier ngược là giá trị đầu vào cho LPC.

Thuật tốn Durbin: Thuật tốn Durbin được sử dụng để tính các hệ số dự báo tuyến tính như phương pháp LPC

Tính các giá trị delta: Phương pháp tính tương tự như phương pháp hệ số MFCC.

Tiếng nĩi FFT Lọc tần số Bark Nhấn mạnh tín hiệu Luật cường độ nghe Biến đổi Fourier ngược Thuật tốn Durbin

Tính các giá trị Hệ số PLP

2.4. Kết luận

Chương này chúng tơi giới thiệu một số kiến thức cơ sở, các hướng tiếp cận học máy chủ yếu cho bài tốn nhận thức tiếng nĩi như mơ hình HMM, mơ hình ngơn ngữ, mơ hình mạng nơ-ron, đặc biệt là mạng học sâu. Trong việc mơ phỏng quá trình nhận thức tiếng nĩi, hầu hết các mơ hình học máy phải tiến hành thực hiện trích chọn đặc trưng tiếng nĩi. Chương này, cũng giới thiệu ba hướng tiếp cận chính cho việc trích chọn đặc trưng tiếng nĩi đĩ là MFCC, PLC và PLP.

Chương 3. HƯỚNG TIẾP CẬN DỰA TRÊN PHỔ TẦN SỐ CHO BÀI TỐN NHẬN THỨC TIẾNG NĨI TRONG MỐI LIÊN HỆ VỚI CÁC KHÁI NIỆM

3.1. Giới thiệu

Các mơ hình học máy cho bài tốn nhận thức tiếng nĩi hiện nay hầu hết là sử dụng các đặc trưng tiếng nĩi dựa trên hai loại đặc trưng cơ bản là Mel- frequency cepstral coefficients (MFCC) [Davis, 1980] , PLC và Perceptual Linear Prediction (PLP) [Hermansky, 1990] . Ba loại đặc trưng này sử dụng các bộ lọc tần số dựa trên giả thuyết về tai người chỉ nhận thức được ở một số giải tần số nhất định [Majeed, 2015] . Điều này, dẫn tới làm mất đi một phần thơng tin của tín hiệu tiếng nĩi.

Để trích được đặc trưng MFCC, PLC hay PLP từ tín hiệu tiếng nĩi, người ta phải chia tín hiệu tiếng nĩi thành các đoạn ngắn đều nhau để đảm bảo sự ổn định của tín hiệu trong việc trích chọn các phổ tần số của tín hiệu tiếng nĩi, trong khi tín hiệu tiếng nĩ của cùng một đơn vị tiếng nĩi lại cĩ độ dài khác nhau tùy thuộc vào người nĩi, ngữ cảnh nĩi. Vì vậy, mỗi tín hiệu tiếng nĩi sẽ thu được một số lượng các véc tơ đặc trưng khác nhau. Mặt khác, hầu hết các mơ hình học máy phổ biến cho bài tốn nhận thức tiếng nĩi như HMM, SVM,... địi hỏi dữ liệu phải cĩ cùng kích thước giống nhau. Do đĩ, người ta phải thực hiện biến đổi [Francois, 2007] (như lấy mẫu lại, lượng tử hĩa, phân cụm,…) tập các véc tơ đặc trưng ban đầu này thành một véc tơ đặc trưng khác sao cho chúng cĩ cùng kích thước. Nghĩa là, mỗi tín hiệu tiếng nĩi sẽ được biểu diễn thành một véc tơ đặc trưng mới dựa trên các véc tơ đặc trưng thu được từ MFCC, hay PLP. Điều này, một lần nữa lại làm mất thơng tin của tín hiệu tiếng nĩi. Hơn nữa, đặc trưng MFCC và PLP rất nhạy cảm với nhiễu và thiếu thơng tin về pha [Majeed, 2015] .

Trong chương này, chúng tơi sẽ đề xuất trích chọn đặc trưng cho bài tốn nhận thức tiếng nĩi dựa trên phổ tần số của tín hiệu tiếng nĩi. Hướng tiếp cận dựa trên phổ tân số của tín hiệu tiếng nĩi đã được một số tác giả đề xuất trong bài tốn tìm kiếm âm thanh, trong đĩ tác giả đề xuất sử dụng mơ tả khoảng cách của các cặp điểm cực trị trong ảnh phổ tần số làm đặc trưng của tín hiệu âm

thanh5 [Zhang, 2015] [Reinhard, 2016] . Cụ thể, trong chương này, chúng tơi đề xuất hai hướng trích chọn đặc trưng tiếng nĩi từ phổ tần số của tín hiệu tiếng nĩi. Một là, đề xuất trích chọn đặc trưng SIFT_SPEECH, hai là đề xuất sử dụng mạng tích chập để tự động trích chọn đặc trưng trong phổ tần số của tiếng nĩi.

Để đánh giá hiệu quả của đặc trưng trích chọn từ phổ tần số của tiếng nĩi, chúng tơi tiến hành áp dụng cho bài tồn nhận thức tiếng nĩi ở cấp độ liên kết với khái niệm đã biết, hay cịn gọi là bài tốn nhận dạng từ độc lập. Trong mơ hình sử dụng trích chọn đặc trưng SIFT trực tiếp từ phổ tần số của tín hiệu tiếng nĩi, chúng tơi kết hợp phương pháp học máy LNBNN để phân lớp. Trong mơ hình thứ hai sử dụng mạng tích chập dựa trên phổ tần số của tín hiệu tiếng nĩi chúng tơi sử dụng trực tiếp mạng tích chập với lớp SOFT_MAX để phân lớp tiếng nĩi.

Kết quả của chương sẽ chứng minh tính hiệu quả của đặc trưng trích chọn từ phổ tần số cho bài tốn nhận thức tiếng nĩi.

3.2. Phổ tần số của tín hiệu tiếng nĩi

Phổ của tiếng nĩi là một phương pháp biểu diễn tín hiệu trên miền kết hợp thời gian và tần số trong đĩ một chiều (trục tung) biểu diễn tần số, một chiều (trục hồnh) biểu diễn thời gian và giá trị mỗi điểm ảnh là biên độ của các thành phần tần số cĩ trong tín hiệu. Thực chất của cách biểu diễn này là biểu diễn tín hiệu trên miền tần số nhưng được thực hiện với các đoạn tín thời gian đủ ngắn để đảm bảo tín hiệu ổn định theo thời gian.

Hình 3. 1 Phổ của từ A trong tiếng Anh được nĩi bởi 4 người khác nhau

A B C D

Hình 3. 2Phổ của các chữ cái A-D trong tiếng Anh của cùng một người nĩi

Haa Haa Haa Haa Haa

Hình 3. 3 Phổ của âm tiết Haa trong tiếng Nhật được nĩi bởi 5 người khác nhau

Haa Hii Huu Hee Hoo

Một phần của tài liệu (LUẬN án TIẾN sĩ) hướng tiếp cận dựa trên phổ tần số cho bài toán nhận thức tiếng nói luận án TS máy tính 94801 (Trang 61 - 65)

Tải bản đầy đủ (PDF)

(141 trang)