Tổng quan

Biến đổi wavelet (WT) cung cấp một công cụ thay thế biến đổi Fourier (FT) truyền thống. Giản đồ tỉ lệ Scalogram sinh ra bởi WT có nhiều ưu điểm so với giản đồ phổ Spectrogram sinh ra bởi FT. Cả cấu trúc formant và cấu trúc hài (harmonic structure) của tín hiệu tiếng nói đều có thể quan sát trên giản đồ Scalogram, từ đó các nhà nghiên cứu nảy sinh ý tưởng WT có thể phù hợp trong việc phân tích tiếng nói để tìm ra các đặc trưng phục vụ nhận dạng tiếng nói. Biến đổi CWT gần đây đã được một số nhà nghiên cứu sử dụng trong nhận dạng âm tiết, từ rời rạc tiếng Anh [31], âm tiết, từ rời rạc và thanh điệu tiếng Việt [15]. Biến đổi DWT cũng được sử dụng để nhận dạng từ rời rạc tiếng Anh [26]. Các kết quả đã chứng minh rằng DWT thực thi tốt hơn LPC với các âm vô thanh tuy nhiên với nhận dạng từ rời rạc DWT kém hơn hẳn CWT và Mel-Scale Frequency Ceptra Cofficients (MFCC). Trong phần này, chúng ta nghiên cứu về phương pháp nhận dạng dùng DWT và CWT

4.4.2 Nhận dạng tiếng nói dùng biến đổi CWT

Cấu trúc CWT đơn giản hóa được gọi là SCWT được sử dụng rộng rãi trong nhận dạng tiếng nói. Trong SCWT, wavelet mẹ được cắt từ vùng thời gian liên tục từ đến . Wavelet được lấy mẫu với khoảng cách mẫu bằng

Công thức 4.24

Trong đó No là số lượng mẫu có độ phân giải đủ lớn đối với tỉ lệ nhỏ nhất (tần số lớn nhất). Tỉ lệ của wavelet mẹ được lấy mẫu được tính bằng cách thay đổi khoảng cách mẫu . Hệ số tỉ lệ a>=1, có thể lấy giá trị bất kỳ chỉ cần hình dáng kết quả không quá sparse. Tham số dịch là cố định bằng một hằng số b0 để tránh việc lấy mẫu không đều.

Công thức 4.25

với

Công thức 4.26

với đáp ứng tần số là

Công thức 4.27

SCWT được thực hiện đơn giản bằng bộ lọc tuyến tính, người ta thường rời rạc biến tỉ lệ bằng cách chọn khi và V là số lượng âm trên một octave.

Việc lựa chọn wavelet mẹ là rất quan trọng, không phải hàm wavelet mẹ nào cũng có thể dùng cho nhận dạng tiếng nói. Thực tế mũ Mexico rất phổ biến trong xử lý ảnh nhưng không thích hợp cho nhận dạng tiếng nói do đặc tuyến tần số bằng phẳng dẫn tới kết quả độ phân giải các tần số formant thấp. Trong hầu hết các hệ thống nhận dạng tiếng nói người ta sử dụng Morlet wavelet.

Đơn giản hóa wo = 5.5, hàm wavelet Morlet có dạng:

Công thức 4.28

Wavelet Morlet được thể hiện trên hình 4.17 và SCWT của một đoạn tiếng nói được trình bày trên hình 4.18

Hình 4.19 Morlet wavelet a, phần thực của Morlet wavelet b, đáp ứng tần số của Morlet wavelet

Hình 4.20 SCWT của từ “this”

Morlet là một hàm phức do đó các hệ số CWT là các số phức được sử dụng làm vector đặc trưng cho hệ thống nhận dạng. Sử dụng phân tích Ceptral để giảm số lượng hệ số CWT xuống thành các hệ số Ceptral và dùng các hệ số Ceptral này làm vector đặc trưng cho hệ thống nhận dạng.

4.4.3 Nhận dạng tiếng nói dùng DWT

DWT có thể thực hiện nhanh hơn CWT với thuật toán FWT và cấu trúc băng con đa phân giải.

Wavelet mẹ được chọn thường là Deubechies, DB8 được thể hiện như trên hình 4.19

Hình 4.21 Deubechies Wavelet a, DB8 wavelet b, Đáp ứng tần số của DB8

Trong thực tế DWT thường được cài đặt thực nghiệm là FWT và tỉ lệ nhân đôi (Dyadic) được sử dụng. Phân rã tới mức 6 là vừa đủ, mức phân rã cao hơn sẽ tăng thời gian tính toán mà không mang lại thêm đáng kê thông tin. FWT Deubechies của một từ tiếng nói được trình bày trong hình 4.20.

Hình 4.22. FWT Deubechies 8 của từ “this”

Nếu chọn phân rã mức N, tiếng nói được xử lý bằng FWT đưa ra N tỉ lệ trên N octave. Hai hệ số FWT có biên độ lớn nhất đối với mỗi tỉ lệ, được cập nhật sau

khoảng thời gian cố định sử dụng các khung thời gian không chồng lấp. Chú ý rằng số lượng mẫu trên mỗi khung là khác nhau đối với mỗi tỉ lệ. Các hệ số FWT tính được đối với mỗi khung dữ liệu được sử dụng làm vector đặc trưng.

4.4.4 So sánh SCWT, FWT và các vector đặc trưng truyền thống

Các kết quả thực nghiệm trong [26, 31] chỉ ra rằng DWT cho độ chính xác nhận dạng cao hơn LPC với các âm vô thanh.

Các kết quả thực nghiệm trong [26, 31] như trên hình 4.21 chỉ ra rằng DWT cho độ chính xác nhận dạng thấp hơn MFCC và SCWT. Kết quả trên hình 4.22 cũng cho thấy MFCC và SCWT cho tỉ lệ nhận dạng đúng tương đương dù MFCC có độ lợi về độ phức tạp tính toán nên thực hiện nhanh hơn.

Hình 4.23 So sánh tỉ lệ nhận dạng đúng với nhận dạng nguyên từ rời rạc dùng MFCC, SCWT và DWT.

Hình 4.24 So sánh tỉ lệ nhận dạng đúng với nhận dạng âm tiết dùng MFCC và SCWT

4.5 Rút trích các đặc trưng tiếng Việt dùng biến đổi wavelet

Một số công trình nghiên cứu đã chứng tỏ các thông số như formants và pitch period có thể sử dụng hiệu quả nhận dạng tiếng việt (đặc biệt là thanh điệu tiếng Việt)[15], các thông số này cũng có thể được tính toán thông qua CWT [15, 30, 32].

4.5.1 Trích formant dùng CWT

Biến đổi CWT của tiếng nói x(t) có thể viết như sau:

Công thức 4.29

áp dụng tính chất tuyến tính của CWT ta có

Hàm wavelet, , giới hạn tín hiệu tiếng nói trong khoảng thời gian t quanh điểm t = b. Vì tiếng nói là tín hiệu biến đổi chậm trên miền thời gian, ta có thể giả sử rằng trong khoảng thời gian đó biên độ tức thời và tần số tức thời là không đổi

Công thức 4.31

Do đó phương trình 4.30 có thể viết lại như sau:

Công thức 4.32

Ta thấy rằng tự nó là một biến đổi Fourier của hàm wavelet, tại tần số tức thời có thể viết dưới dạng

Công thức 4.33

trong đó là biến đổi Fourier của wavelet mẹ , thay 4.33 vào 4.32 được

Nếu băng thông của hàm wavelet đủ hẹp để chỉ chứa một thành phần tần số wi, chỉ thành phần tần số này sẽ tác động lên kết quả và trị tuyệt đối đạt tới giá trị cực đại tại với wo là tần số trung tâm của wavelet dùng trong biến đổi (thường là wavelet Morlet) . Do vậy mỗi thành phần tần số tức thời w1 tại t = b trong tín hiệu tiếng nói ảnh hưởng lên kết quả phân tích trong lân cận của tỉ lệ ai liên hệ với tần số tức thời wi là

Công thức 4.35

Từ tính chất định vị của wavelet mẹ trong miền Fourier, cơ bản đạt cực đại trong lân cận của scale ai gọi là ridge của CWT. Nếu Morlet wavelet được dùng, các đỉnh của ridge trong CWT sẽ ở tại vị trí của scale ai, tương ứng với thành phần tần số wi tại thời gian đang phân tích. Nếu mỗi thành phần tần số được xem như là một formant, các đỉnh của ridge sẽ tương ứng với formant trong tín hiệu tiếng nói.

Trong kết quả đã phân tích, của tín hiệu tiếng nói, x(t), các đỉnh của ridge có thể thu được nhờ vào cực đại địa phương của theo hướng scale, do đó chỉ cần tính cực đại địa phương của CWT theo hướng scale ta cũng có thể có được hình ảnh của formant.

Phối hợp tất cả các kiến thức lý thuyết trên, phương pháp đề nghị trích formant được trình bày trên hình 4.23 [15].

Hình 4.25. Phương pháp trích formant dùng CWT

Tín hiệu tiếng nói được tính CWT để tìm được các ridge tương ứng với các formant. Sau đó kết quả phân tích được tính cực đại địa phương theo hướng scale để định vị chính xác vị trí của các formant.

Cuối cùng một giải thuật thích hợp được dùng để trích biên độ theo thời gian của các formant này từ các cực đại địa phương [30, 32].

4.5.2 Trích chu kỳ pitch dùng CWT

Khi phân tích tiếng nói bằng phương trình (4.34) ta có kết quả như sau

Công thức 4.36

Với Xi(t) và i(t) lần lượt là biên độ và pha tương ứng của thành phần tần số tương ứng wi của tín hiệu phân tích. Thành phần tần số nhỏ nhất trong tín hiệu tiếng nói w1 là tần số cơ bản hay tần số pitch, tại scale a1 tương ứng với tần số này khoảng băng thông của hàm wavelet rất nhỏ vì khả năng định vị của hàm wavelet ở tần số thấp là rất tốt. Khoảng băng thông này đủ hẹp để chỉ chứa một tần số cơ bản w1, do đó chỉ thành phần tần số này ảnh hưởng tới kết quả phân tích CWT. Vì thế chỉ có thành phần liên quan đến tần số w1 được giữ lại trong tổng của phương trình (4.36). Nó có thể viết rõ lại như sau

Công thức 4.37

Trị tuyệt đối và pha

Công thức 4.38

Vì vậy một scale cố định a1 tương ứng với tần số cơ bản của tín hiệu tiếng nói, pha của biến đổi với b thay đổi trong khoảng thời gian tồn tại của tín hiệu là pha của tần số pitch

Bản thân tần số cơ bản w1 là một tín hiệu tuần hoàn với chu kỳ , do đó góc pha cũng tuần hoàn với chu kỳ T và có giá trị thay đổi trong khoảng [-

  ]. Vì vậy pha của cũng là một tín hiệu tuần hoàn (1/tần số pitch). Ta có thể dùng những điểm mà ở đó góc pha thay đổi đột ngột từ  đến - để đánh dấu những điểm tuần hoàn của tần số pitch hay chu kỳ pitch của tín hiệu phân tích.

Hình 4.26. Giải thuật trích chu kỳ pitch dùng CWT

Từ các trình bày trên một cách hiệu quả để tính chu kỳ pitch là dựa vào pha của CWT. Bước đầu tiên là xác định giá trị scale a1 từ tần số pitch tiếng nói. Sau đó biến đổi wavelet tín hiệu tiếng nói chỉ lấy tại một giá trị scale a1(một đường trong kết quả CWT), pha của kết quả này sẽ tuần hoàn với chu kỳ là chu kỳ pitch. Trong thực tế những điểm gãy đột ngột của pha luôn tương ứng với những chỗ trũng chính của dạng sóng tiếng nói. Điểm này gọi là điểm bắt đầu mỗi chu kỳ tiếng nói, chúng ta cần tinh chỉnh để định vị chính xác điểm này bằng các đỉnh âm - điểm bắt đầu của tiếng nói. Kết quả thu được là tín hiệu tiếng nói với các điểm đánh dấu bắt đầu mỗi chu kỳ. Lúc này ta có thể tách bất kỳ chu kỳ pitch nào theo nhu cầu nhận dạng dựa trên điểm bắt đầu và kết thúc (tức điểm bắt đầu của chu kỳ tiếp theo) của chu kỳ đó.

Chương 5. KHẢO SÁT VỀ NGỮ ÂM TIẾNG VIỆT ỨNG DỤNG XÂY DỰNG HỆ THỐNG NHẬN DẠNG THANH ĐIỆU

TIẾNG VIỆT

5.1. Một số đặc trưng ngữ âm tiếng Việt 5.1.1. Thanh điệu 5.1.1. Thanh điệu

Thanh điệu là đặc tính đặc trưng của tiếng Việt nói riêng và các ngôn ngữ có thanh điệu nói chung so với các ngôn ngữ khác như tiếng Anh, tiếng Pháp,…

Thanh điệu là một thành phần ngữ âm, không phải là nhấn giọng, giúp phân biệt các từ đồng âm.

Trong tiếng Việt, thanh điệu cũng là một đặc điểm mang đậm tính địa phương. Tổng cộng có 6 thanh, nhưng tuỳ vào từng địa phương mà số lượng thanh điệu tiếng Việt có thể bị giảm xuống còn 5 hay 4 do sự sát nhập một số thanh lại với nhau.

Người ta phân biệt thanh điệu dựa vào 2 yếu tố: âm điệu và âm vực. Âm vực: là miền giá trị của tần số cơ bản còn âm điệu là sự thay đổi tần số cơ bản của thanh điệu, hay đường nét của thanh điệu.

5.1.2. Âm vị

Trong ngôn ngữ nói, tiếng nói bao gồm nhiều câu, mỗi câu bao gồm nhiều từ, và mỗi từ lại bao gồm nhiều âm vị. Theo quan điểm ngữ âm, âm vị được xem là đơn vị nhỏ nhất của tiếng nói. Âm vị gồm 2 loại chính: nguyên âm và phụ âm. Nguyên âm là các âm mà khi phát âm, luồng không khí đi ra không bị cản trở. Phụ âm là các âm mà luồng không khí khi đi ra bị cản trở ở một số bộ phận của bộ máy phát âm.

Ngoài ra, người ta còn chia một dạng âm vị nữa như một bán nguyên âm, khi sự cản trở luồng không khí là không đáng kể. Các bán nguyên âm có đặc điểm gần như nguyên âm nhưng thường chỉ đi kèm, và bản thân không tạo thành âm tiết được.

Các nguyên âm và phụ âm riêng biệt lại được chia thành nhiều nhóm nhỏ dựa vào các đặc điểm vật lý, sinh học, hay vị trí và cách thức phát âm của bộ máy phát âm.

5.1.3. Trường độ

Trường độ tiếng nói là thời gian phát âm một tiếng. Xét đến trường độ sẽ liên quan đến tính tắc – xát, hệ thống âm chính – âm cuối, ảnh hưởng của những biến đổi của âm cuối… Thường thì âm tắc, còn gọi là âm khép, sẽ làm cho trường độ của tiếng nói giảm do sự tắc thanh quản.

5.2 Một số khảo sát về thanh điệu tiếng Việt 5.2.1 Tổng quan 5.2.1 Tổng quan

Các thông số cơ bản của thanh điệu bao gồm: tần số cơ bản, cường độ, và trường độ. Tuy nhiên, khác với tần số cơ bản và trường độ, cường độ không đóng vai trò chủ yếu đối với việc xác định những đặc trưng của thanh điệu. Tuỳ theo ngữ cảnh và những sắc thái tình cảm trong giao tiếp bằng ngôn ngữ cường độ có thể bị biến đổi. Do đó, đặc trưng này thuộc ngữ điệu câu, và chỉ là một hiện tượng đi kèm với thanh điệu. Khi miêu tả tần số cơ bản, hai thuộc tính ngữ âm ảnh hưởng trực tiếp đến các đặc trưng của thanh điệu là: sự vận động của F0 và âm vực. Đường nét của tần số cơ bản thể hiện như một hàm thời gian, chỉ tồn tại trong âm hữu thanh. Âm vực là độ cao tương đối của tần số cơ bản trong sự vận động của nó. Trường độ của thanh điệu là hàm thời gian của tần số cơ bản trong một âm tiết. Tần số cơ bản chỉ tồn tại trong các âm hữu thanh, phản ánh trực tiếp trường độ của thanh điệu. Do đó, trường độ của thanh điệu không phải bao giờ cũng trùng với trường độ của âm tiết.

Sự vận động tần số cơ bản của thanh điệu trong từng âm tiết được phân chia thành 2 giai đoạn. Riêng thanh 3 (thanh ngã) có trường hợp bị gián đoạn thành 2 phần. Gọi các điểm mốc là: điểm đầu(E), điểm giữa(M), điểm cuối(A). Thanh ngã khi bị gián đoạn có 6 điểm mốc.

5.2.2 Thanh 1 (thanh ngang)

Cao, đan, nam, vương, lê, nguyên, an, bông, cơm, dương, em, hoa, kênh, mai, linh, phong, ông, rang, siêu, tâm, xin, vinh.

Hình 5.1 Thanh ngang

Thanh ngang có 4 biến điệu, nhưng nhìn chung đường nét cơ bản là ngang và bằng phẳng.

Hiệu tần số cơ bản <10Hz.

Giá trị phương sai của tần số cơ bản: ở giọng nữ (8 – 16) Hz, ở giọng nam (20 – 24) Hz.

Âm vực: nữ (271 – 296) Hz, nam (239 – 251) Hz.

Giá trị trung bình của trường độ: nữ 423 ms , nam 266 ms.

Giá trị phương sai của trường độ: nữ 83 ms, nam 39 ms.

5.2.3 Thanh 2 (Thanh huyền)

Các tiếng được lựa chọn để khảo sát là:

Vì, từ, trò, ke, cừ, và, trì, bà, lời, bồng, cồn, đầm, dầu, hàng, khùng, làn, người, miền, ồn, phình, rằng, sàm, tình, thừng, triều, vừa.

Thanh huyền có 3 biến điệu, nhưng đường nét nói chung đi xuống đều đặn, bằng phẳng.

Hiệu tần số cơ bản: nữ 42Hz, nam 53Hz

Giá trị phương sai của tần số cơ bản: ở giọng nữ (6 – 11) Hz, ở giọng nam (9 – 16) Hz.

Âm vực: nữ (163 – 256) Hz, nam (122 – 175) Hz.

Giá trị trung bình của trường độ: nữ 396 ms , nam 304 ms.

Giá trị phương sai của trường độ: nữ 87 ms, nam 45 ms.

5.2.4 Thanh 3 (Thanh ngã)

Các tiếng được lựa chọn để khảo sát là:

Chữ, dĩ, chuỗi, dãy, hãy, mỗi, ngã, ngữ, nhiễu, những, rõ, tiễn, sẽ, nghĩa, nghĩ, lũi, ĩ, giữa, dỗ, chữ, đỗ, lưỡi, mũi, nguyễn, quẫy, vẫn, mãi, quãng, diễn.

Hình 5.3a: Thanh ngã bị tách đôi

Thang ngã có 4 biến điệu, đường nét bị gãy ở giữa thành 2 đoạn, phần hai đi lên và kết thúc cao. Nét gãy ở giữa phần lớn bị tách ra (hình 5.3), nhưng cũng

Rút trích vector đặc trưng

Dò tìm điểm cuối (end-point detection)