Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 84 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
84
Dung lượng
2,86 MB
Nội dung
TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI LUẬN VĂN THẠC SĨ Nhận biết phụ âm cuối vô tiếng Việt sử dụng tham số giả tần số formant TRẦN BÌNH NHUNG Chuyên ngành : Kỹ thuật điều khiển tự động hóa Giảng viên hướng dẫn: TS Nguyễn Việt Sơn Viện: Điện HÀ NỘI, 2019 TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI LUẬN VĂN THẠC SĨ Nhận biết phụ âm cuối vô tiếng Việt sử dụng tham số giả tần số formant TRẦN BÌNH NHUNG Chuyên ngành : Kỹ thuật điều khiển tự động hóa Giảng viên hướng dẫn: TS Nguyễn Việt Sơn Viện: Điện HÀ NỘI, 2019 Chữ ký GVHD CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM Độc lập – Tự – Hạnh phúc BẢN XÁC NHẬN CHỈNH SỬA LUẬN VĂN THẠC SĨ Họ tên tác giả luận văn: Trần Bình Nhung Đề tài luận văn: Nhận biết phụ âm cuối vô tiếng Việt sử dụng tham số giả tần số formant Chuyên ngành: Kỹ thuật điều khiển tự động hóa Mã số HV: CB170283 Tác giả, Người hướng dẫn khoa học Hội đồng chấm luận văn xác nhận tác giả sửa chữa, bổ sung luận văn theo biên họp Hội đồng ngày 31/10/2019 với nội dung sau: Bổ sung phương pháp xác định vị trí điểm bắt đầu, điểm kết thúc việc xác định tham số âm học tĩnh âm học động: Trang 50, 51 Loại bỏ viền xám xung quanh hình vẽ Matlab cải thiện chất lượng hình vẽ: Trang 26, 27, 28, 31 Bổ sung tên trục tọa độ (thời gian, tần số): Trang 40 ÷ 48 Trình bày bảng biểu, hình vẽ nội dung trang Giảng viên hướng dẫn Hà Nội, Ngày 22 tháng 11 năm 2019 Tác giả luận văn TS Nguyễn Việt Sơn Trần Bình Nhung CHỦ TỊCH HỘI ĐỒNG PGS TS Nguyễn Quốc Cường LỜI CAM ĐOAN Tơi xin cam đoan Luận văn có tên “Nhận biết phụ âm cuối vô tiếng Việt sử dụng tham số giả tần số formant” cơng trình nghiên cứu khoa học độc lập riêng tơi Các số liệu sử dụng phân tích luận văn có nguồn gốc rõ ràng, tin cậy công bố theo quy định Kết nghiên cứu luận văn tơi tự tìm hiểu, phân tích cách trung thực, khách quan phù hợp với thực tiễn Việt Nam Các kết chưa công bố nghiên cứu khác Vậy viết Lời cam đoan đề nghị Viện Điện, trường Đại học Bách khoa Hà Nội xem xét để tơi bảo vệ luận văn theo quy định Tôi xin chân thành cảm ơn! Hà Nội, ngày 22 tháng 10 năm 2019 Tác giả luận văn Trần Bình Nhung MỤC LỤC LỜI CAM ĐOAN LỜI NÓI ĐẦU DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT DANH MỤC CÁC BẢNG DANH MỤC CÁC HÌNH VẼ CHƯƠNG GIỚI THIỆU CHUNG 1.1 Tổng quan số kết nghiên cứu trước 1.2 Mục tiêu luận văn 10 1.3 Cấu trúc luận văn 11 CHƯƠNG TỔNG QUAN VỀ MƠ HÌNH HĨA ĐẶC TÍNH ĐỘNG CỦA TIẾNG NĨI 13 2.1 Tổng quan đặc trưng tiếng nói 13 2.1.1 Quá trình tạo tiếng nói 13 2.1.2 Các đặc trưng tiếng nói 14 2.2 Phân tích đặc trưng tiếng nói 16 2.3 Đặc tính tĩnh tiếng nói 17 2.3.1 Tổng quan đặc tính MFCC 18 2.3.2 Hạn chế đặc tính MFCC 21 2.4 Một số nghiên cứu đặc tính động tiếng nói 22 2.5 Tính tốn mơ hình hóa đặc tính động tiếng nói 25 2.5.1 Tính SSCF theo định nghĩa 25 2.5.2 Ảnh hưởng lọc băng lên đặc tính SSCF 27 2.5.3 Thiết kế lọc băng tính tốn SSCF 29 2.6 Kết luận chương 32 CHƯƠNG SỬ DỤNG THAM SỐ SSCF ĐỀ NHẬN BIẾT, PHÂN BIỆT PHỤ ÂM CUỐI VÔ THANH /P,T,K/ TRONG TIẾNG VIỆT 33 3.1 Cấu trúc âm tiết tiếng Việt 33 3.1.1 Đặc trưng ngôn ngữ tiếng Việt 33 3.1.2 Hệ thống âm vị - âm tiết tiếng Việt đại 34 3.2 Cơ sở liệu tiếng Việt sử dụng phân biệt phụ âm cuối vô /p,t,k/ 37 3.2.1 Xây dựng sở liệu tiếng Việt 37 3.2.2 So sánh đặc tính SSCF với tần số formant sở liệu tiếng Việt 39 3.3 Phân tích đặc tính phụ âm cuối vơ /p, t, k/ 49 3.3.1 Phương pháp phân tích 49 3.3.2 Phân tích đặc tính âm học tĩnh 51 3.3.3 Phân tích đặc tính âm học động 65 3.4 Kết luận chương 73 CHƯƠNG KẾT QUẢ VÀ HƯỚNG PHÁT TRIỂN 75 4.1 Kết 75 4.2 Hướng phát triển 77 TÀI LIỆU THAM KHẢO 79 DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT C1V Cấu trúc âm tiết Phụ âm đầu - Nguyên âm (Consonant1-Vowel) C1VC2 Cấu trúc âm tiết Phụ âm đầu - Nguyên âm - Phụ âm cuối (Consonant1-Vowel-Consonant2) DFT Discrete Fourier Transform F Formant F0 Tần số dao động tiếng nói FFT Fast Fourier Transform FIR Finite Impulse Response Fl Female LPC Linear Predictive Coding LPCC Linear Prediction Cepstral Coefficients MFCC Mel-Frequency Cepstral Coefficient MFCCs Mel-Frequency Cepstral Coefficients Ml Male PLP Perceptional Linear Predictive Coefficients SSCF Spectral Subband Centroid Feature VC2 Cấu trúc âm tiết Nguyên âm - Phụ âm cuối (Vowel-Consonant2) V1-V2 Chuyển tiếp Nguyên âm – Nguyên âm (Vowel1-Vowel2) DANH MỤC CÁC BẢNG Bảng 3-1: Phân loại phụ âm cuối tiếng Việt 37 Bảng 3-2: Các tổ hợp cấu âm có 13 nguyên âm tiếng Việt với phụ âm cuối vô /p, t, k/ 38 Bảng 3-3: Độ dài trung bình độ lệch chuẩn nguyên âm (ms) ngữ cảnh VC2 giọng nữ 52 Bảng 3-4: Độ dài trung bình độ lệch chuẩn nguyên âm (ms) ngữ cảnh C1VC2 giọng nữ 54 Bảng 3-5: Độ dài trung bình độ lệch chuẩn nguyên âm (ms) hai ngữ cảnh VC2 C1VC2 giọng nữ 55 Bảng 3-6: Độ dài chuyển tiếp trung bình(ms) độ lệch chuẩn chuyển tiếp nguyên âm sang phụ âm cuối vô ngữ cảnh VC2 giọng nữ 58 Bảng 3-7: Độ dài chuyển tiếp trung bình (ms) độ lệch chuẩn chuyển tiếp nguyên âm sang phụ âm cuối vô ngữ cảnh C1VC2 giọng nữ 60 Bảng 3-8: Độ dài chuyển tiếp trung bình (ms) độ lệch chuẩn chuyển tiếp nguyên âm sang phụ âm cuối vô trongtrong hai ngữ cảnh VC2 C1VC2 giọng nữ 62 Bảng 3-9: Giá trị độ dốc chuyển đổi trung bình (độ) độ lệch chuẩn (S.d) chuyển tiếp nguyên âm sang phụ âm cuối vô /p, t, k/ ngữ cảnh VC2 giọng nữ 67 Bảng 3-10: Giá trị độ dốc chuyển đổi trung bình (độ) độ lệch chuẩn (S.d) chuyển tiếp nguyên âm sang phụ âm cuối vô /p, t, k/ ngữ cảnh C1VC2 giọng nữ 69 Bảng 3-11: Tổng hợp giá trị độ dốc chuyển đổi trung bình (độ) độ lệch chuẩn (S.d) chuyển tiếp nguyên âm sang phụ âm cuối vô /p, t, k/ hai ngữ cảnh VC2 C1VC2 giọng nữ 71 DANH MỤC CÁC HÌNH VẼ Hình 2-1: Mơ hình học quan phát âm người [20] 13 Hình 2-2: Dạng sóng tuần hồn (ngun âm [a]) dạng sóng khơng tuần hồn (phụ âm [s]) tiếng Việt 15 Hình 2-3: Sơ đồ khối thuật tốn tính tham số MFCC 18 Hình 2-4: Băng lọc theo thang Mel 20 Hình 2-5: Sơ đồ thuật tốn tính SSCF [22] 25 Hình 2-6: Hình dạng lọc băng xếp chồng thuật tốn tính SSCF [11] 26 Hình 2-7: Trích xuất tham số SSCF từ tín hiệu tiếng nói theo frame [11] 27 Hình 2-8: Kết so sánh tần số formant đặc tính SSCF chuyển tiếp /a-i/ sử dụng lọc băng xếp chồng [11] 27 Hình 2-9: Hình dạng lọc băng xếp chồng thuật tốn tính SSCF [11] 28 Hình 2-10: Kết so sánh tần số formant đặc tính SSCF chuyển tiếp /a-i/ sử dụng lọc băng xếp chồng [11] 28 Hình 2-11: Xác định lọc băng với độ dài thang tần số Mel: a) lọc băng xếp chồng, b) lọc băng xếp chồng [14] 29 Hình 2-12: Phương pháp xác định lọc băng thang tần số Mel: a) lọc băng xếp chồng, b) lọc băng xếp chồng, c) lọc băng 30 Hình 2-13: Hình dạng lọc băng với tam giác xếp chồng thuật tốn tính SSCF [11] 31 Hình 2-14: Kết so sánh tần số formant đặc tính SSCF chuyển tiếp /a-i/ sử dụng lọc băng xếp chồng theo thiết kế [11] 31 Hình 3-1: Sơ đồ cấu trúc âm tiết tiếng Việt [12] 35 Hình 3-2: So sánh tương đồng đặc tính SSCF tần số formant chuyển tiếp /ap/ tiếng Việt với: a) giọng nam b) giọng nữ 40 Hình 3-3: So sánh tương đồng đặc tính SSCF tần số formant chuyển tiếp /ip/ tiếng Việt với: a) giọng nam b) giọng nữ 41 Hình 3-4: So sánh tương đồng đặc tính SSCF tần số formant chuyển tiếp /up/ tiếng Việt với: a) giọng nam b) giọng nữ 42 Hình 3-5: So sánh tương đồng đặc tính SSCF tần số formant chuyển tiếp /at/ tiếng Việt với: a) giọng nam b) giọng nữ 43 Hình 3-6: So sánh tương đồng đặc tính SSCF tần số formant chuyển tiếp /it/ tiếng Việt với: a) giọng nam b) giọng nữ 44 Hình 3-7: So sánh tương đồng đặc tính SSCF tần số formant chuyển tiếp /ut/ tiếng Việt với: a) giọng nam b) giọng nữ 45 Hình 3-8: So sánh tương đồng đặc tính SSCF tần số formant chuyển tiếp /ak/ tiếng Việt với: a) giọng nam b) giọng nữ 46 Hình 3-9: So sánh tương đồng đặc tính SSCF tần số formant chuyển tiếp /ik/ tiếng Việt với: a) giọng nam b) giọng nữ 47 Hình 3-10: So sánh tương đồng đặc tính SSCF tần số formant chuyển tiếp /uk/ tiếng Việt với: a) giọng nam b) giọng nữ 48 Hình 3-11: Cách xác định điểm chuyển tiếp, độ dài nguyên âm độ dài phần chuyển tiếp nguyên âm - phụ âm cuối dựa đặc tính SSCF 51 Hình 3-12: Độ dài trung bình độ lệch chuẩn nguyên âm ngữ cảnh âm tiết VC2 giọng nữ 53 Hình 3-13: Độ dài trung bình độ lệch chuẩn nguyên âm ngữ cảnh âm tiết C1VC2 giọng nữ 55 Hình 3-14: Độ dài trung bình độ lệch chuẩn nguyên âm hai ngữ cảnh âm tiết VC2 C1VC2 giọng nữ 57 Hình 3-15: Độ dài chuyển tiếp trung bình (ms) độ lệch chuẩn chuyển tiếp nguyên âm sang phụ âm cuối vô /p, t, k/ ngữ cảnh âm tiết VC2 giọng nữ 59 Hình 3-16: Độ dài chuyển tiếp trung bình (ms) độ lệch chuẩn chuyển tiếp nguyên âm sang phụ âm cuối vô /p, t, k/ ngữ cảnh âm tiết C1VC2 giọng nữ 61 Hình 3-19: Cách xác định độ dốc chuyển tiếp đặc tính SSCF q trình chuyển đổi từ nguyên âm sang phụ âm cuối Độ dốc phần chuyển đổi trung bình (độ) độ lệch chuẩn đặc tính SSCF q trình chuyển đổi từ ngun âm sang phụ âm cuối vơ (tính cho giọng nữ, người nói lặp lại lần với ngữ cảnh VC2) tổng hợp bảng 3-9 Trong đó, hai ngun âm ngắn /ɔ̆/ /ɛ̆/ khơng kết hợp với hai phụ âm cuối /p/ /t/ (những kết hợp không tồn tiếng Việt) (xem bảng 3-2) Hình 3-20 minh họa việc so sánh giá trị độ dốc trung bình đặc tính SSCF q trình chuyển đổi từ nguyên âm sang phụ âm cuối vơ /p, t, k/ Ngun âm sử dụng nguyên âm /a, i, u/ nằm đỉnh tam giác nguyên âm Kết so sánh độ dốc chuyển đổi ba phụ âm cuối /p, t, k/ bối cảnh /a, i, u/ ngữ cảnh VC2 giọng nữ chưa mang lại hiệu phân biệt rõ ràng Trong đặc tính SSCF1, SSCF2 hay SSCF3, độ dốc chuyển đổi nguyên âm với phụ âm cuối /p/, /t/, /k/ bị trùng vào nhau, nữa, độ lệch chuẩn giá trị lớn nên khó tách biệt 66 Bảng 3-9: Giá trị độ dốc chuyển đổi trung bình (độ) độ lệch chuẩn (S.d) chuyển tiếp nguyên âm sang phụ âm cuối vô /p, t, k/ ngữ cảnh VC2 giọng nữ Nguyên âm /p/ /t/ /k/ SSCF1 SSCF2 SSCF3 SSCF1 SSCF2 SSCF3 SSCF1 SSCF2 SSCF3 avr -56,11 -49,53 27,86 -69,04 -51,72 -3,04 -59,24 7,23 33,76 S.d 16,45 19,48 29,35 13,11 39,94 35,47 18,07 42,44 37,28 avr -67,38 -24,65 12,52 -77,92 12,84 9,70 -49,80 -8,88 6,42 S.d 11,74 46,18 46,61 13,52 45,83 34,70 39,13 56,27 40,55 avr -33,51 6,76 -23,18 -51,33 59,89 -11,41 -23,66 13,89 32,61 S.d 36,31 37,13 56,96 33,52 23,50 27,89 41,64 27,80 21,88 avr -53,06 55,26 -24,93 -71,86 50,95 -8,97 -19,04 33,53 21,32 S.d 21,13 37,01 27,59 13,04 25,96 37,47 28,12 16,95 32,32 avr -75,28 -37,17 -23,80 -72,65 -7,10 28,80 -65,62 1,31 17,96 S.d 9,27 59,00 42,04 11,92 59,46 33,95 17,54 45,78 38,69 avr -69,89 -37,00 -32,21 S.d 15,82 38,19 70,54 /a/ /ă/ /ɤ/ /ɤ̆/ /ɔ/ /ɔ̆/ avr -10,94 -45,86 -27,21 0,92 -65,95 -22,55 -25,26 -5,00 24,25 S.d 42,41 32,70 55,12 34,70 27,19 31,13 40,15 49,50 52,99 avr 23,28 48,39 -12,24 -46,07 76,74 -27,33 7,25 47,88 0,52 S.d 34,39 40,83 24,26 52,08 13,20 28,61 20,53 35,77 43,00 avr -48,49 2,29 -24,38 -49,04 48,61 -36,11 0,32 15,80 15,51 S.d 31,27 46,49 40,01 35,49 20,23 29,79 38,08 48,78 44,74 avr 8,49 -29,16 -30,20 -8,50 -47,39 20,65 -54,22 24,46 39,60 S.d 30,13 49,66 38,51 35,53 32,32 26,03 52,65 64,57 60,40 avr -44,48 48,15 -4,15 -39,74 62,33 18,40 -5,24 49,64 -39,73 S.d 27,16 27,85 25,21 34,59 22,40 31,35 41,65 33,01 44,66 avr 7,53 -56,24 -12,93 -21,03 -10,73 14,43 -19,20 -22,21 -33,49 S.d 56,49 28,03 29,66 42,92 21,55 21,73 27,72 18,75 47,46 avr -41,90 10,88 29,06 S.d 40,08 67,37 30,06 /i/ /u/ /ε/ /e/ /o/ /ɯ/ /ɛ̆/ 67 Hình 3-20: So sánh độ dốc chuyển đổi (độ) đặc tính SSCF1, SSCF2, SSCF3 phụ âm cuối vô /p, t, k/ với nguyên âm /a/ (a), /i/ - (b) /u/ - (c) ngữ cảnh âm tiết VC2 giọng nữ Để đưa đánh giá khái quát khả phân biệt phụ âm cuối vô /p, t, k/ thông qua độ dốc phần chuyển đổi đặc tính SSCF, luận văn mở rộng sở liệu sang ngữ cảnh âm tiết C1VC2 giọng nữ để tiếp tục tính tốn Giá trị độ dốc chuyển đổi trung bình (độ) độ lệch chuẩn trình chuyển đổi từ nguyên âm sang phụ âm cuối vô (tính cho giọng nữ, người nói lặp lại lần với ngữ cảnh C1VC2) tổng hợp bảng 3-10 Kết tính tốn hồn toàn độc lập với giá trị độ dốc chuyển đổi tính tốn ngữ cảnh âm tiết VC2 trước 68 Bảng 3-10: Giá trị độ dốc chuyển đổi trung bình (độ) độ lệch chuẩn (S.d) chuyển tiếp nguyên âm sang phụ âm cuối vô /p, t, k/ ngữ cảnh C1VC2 giọng nữ Nguyên âm /p/ /t/ /k/ SSCF1 SSCF2 SSCF3 SSCF1 SSCF2 SSCF3 SSCF1 SSCF2 SSCF3 avr -68,28 -42,55 21,11 -76,82 -39,14 2,18 -53,87 29,74 27,24 S.d 6,73 29,85 37,33 6,12 37,54 32,55 28,39 27,61 34,18 avr -72,90 -39,05 -11,01 -76,86 -35,82 28,48 -11,25 23,86 18,49 S.d 8,80 29,29 31,54 5,73 32,78 23,00 42,96 37,89 17,23 avr -33,23 -2,44 -38,30 -44,41 67,29 16,48 -18,86 5,71 64,64 S.d 28,72 41,02 17,57 24,77 14,43 42,99 38,83 54,18 14,68 avr -57,31 17,46 -27,46 -77,56 60,15 17,73 -39,88 22,04 51,68 S.d 19,69 40,66 32,30 2,80 26,46 40,66 28,18 13,32 30,97 avr -68,77 -19,11 -12,15 -62,72 -0,16 12,97 -30,18 -1,41 46,52 S.d 14,74 43,97 44,39 24,02 46,79 49,73 17,82 39,97 31,05 avr -74,28 -71,16 17,47 S.d 5,50 9,68 36,20 /a/ /ă/ /ɤ/ /ɤ̆/ /ɔ/ /ɔ̆/ avr -1,85 -64,10 -45,42 -0,73 -56,77 -27,87 -25,81 -18,28 1,56 S.d 28,25 11,88 37,59 41,38 34,62 41,62 44,72 45,51 34,11 avr 9,69 53,91 -58,38 -43,40 60,08 -24,45 -36,87 70,97 -36,40 S.d 46,73 24,65 26,68 20,16 16,28 35,38 18,87 19,40 45,46 avr -54,16 52,59 -42,76 -48,75 7,33 -14,73 16,48 2,22 -16,26 S.d 25,95 35,77 7,24 27,49 52,72 19,80 44,59 49,56 28,77 avr -17,18 -15,08 -12,26 -17,61 -36,39 40,85 -62,54 62,01 -5,25 S.d 40,57 48,84 35,29 26,81 23,56 27,72 15,70 25,37 57,36 avr -36,00 50,07 -61,32 -32,80 66,55 -13,82 -16,22 11,90 -42,49 S.d 37,92 30,67 30,17 30,65 15,79 30,27 28,26 25,78 21,52 avr 18,78 -24,59 -36,00 -31,18 21,53 14,20 3,80 33,93 6,83 S.d 40,19 52,61 34,93 21,49 33,80 31,04 68,76 18,83 54,26 avr -78,75 56,77 27,50 S.d 4,12 38,42 39,90 /i/ /u/ /ε/ /e/ /o/ /ɯ/ /ɛ̆/ So sánh giá trị độ dốc trung bình đặc tính SSCF q trình chuyển đổi từ ngun âm /a/, /i/ /u/ sang phụ âm cuối vô 69 /p, t, k/ giọng nữ ngữ cảnh âm tiết C1VC2 thể Hình 3-21 Kết so sánh độ dốc chuyển đổi phụ âm cuối /p, t, k/ bối cảnh nguyên âm /a, i, u/ ngữ cảnh C1VC2 giong nữ chưa mang lại hiệu phân biệt rõ ràng Trong đặc tính SSCF1, SSCF2 hay SSCF3, độ dốc chuyển đổi nguyên âm với phụ âm cuối /p/, /t/, /k/ bị trùng vào nhau, độ lệch chuẩn giá trị lớn nên khó tách biệt Hình 3-21: So sánh độ dốc chuyển đổi (độ) đặc tính SSCF1, SSCF2, SSCF3 phụ âm cuối vô /p, t, k/ với nguyên âm /a/ (a), /i/ - (b) /u/ - (c) ngữ cảnh âm tiết C1VC2 giọng nữ Tổng hợp lại kết tính tốn độ dốc chuyển đổi đặc tính SSCF toàn sở liệu thu âm giọng nữ (1750 âm tiết) hai bối cảnh ngữ âm VC2 C1VC2 ta có bảng 3-11 Kết tổng hợp tính với giá trị trung bình giọng nữ (10 lần phát âm) chuyển tiếp nguyên âm với phụ âm cuối /p/, /t/ hay /k/ sau lấy trung bình giọng nữ 70 Bảng 3-11: Tổng hợp giá trị độ dốc chuyển đổi trung bình (độ) độ lệch chuẩn (S.d) chuyển tiếp nguyên âm sang phụ âm cuối vô /p, t, k/ hai ngữ cảnh VC2 C1VC2 giọng nữ /p/ /t/ /k/ Nguyên âm SSCF1 SSCF2 SSCF3 SSCF1 SSCF2 SSCF3 SSCF1 avr -62,20 -46,04 24,49 -72,84 -45,48 -0,36 S.d 9,65 23,87 26,20 7,57 36,81 avr -70,14 -31,85 0,75 -77,39 S.d 8,44 32,14 25,50 avr -33,57 2,54 S.d 31,37 avr SSCF2 SSCF3 -56,45 19,45 30,63 32,84 21,75 24,38 29,06 -11,49 19,09 -29,77 8,78 12,11 6,26 32,32 28,57 41,09 38,92 25,82 -30,38 -47,89 63,91 2,71 -21,48 9,38 49,39 34,78 29,65 28,82 18,21 25,07 35,16 29,45 12,33 -55,19 36,36 -26,19 -74,82 55,99 5,35 -29,46 27,78 36,50 S.d 17,71 23,91 24,61 6,66 20,12 24,98 25,70 11,04 25,35 avr -72,02 -28,14 -17,97 -67,68 -3,63 20,88 -47,26 -0,28 32,30 S.d 9,21 49,43 38,43 13,32 43,53 39,09 13,25 37,92 29,04 avr -72,09 -54,08 -7,37 S.d 10,51 15,81 43,24 /a/ /ă/ /ɤ/ /ɤ̆/ /ɔ/ /ɔ̆/ avr -6,40 -54,98 -36,32 -0,03 -60,34 -25,50 -25,53 -11,64 12,91 S.d 30,11 21,75 44,86 31,26 17,90 32,76 42,27 46,73 41,85 avr 15,44 51,06 -36,81 -45,62 68,27 -26,09 -21,02 63,51 -26,05 S.d 37,19 31,41 20,86 30,04 5,90 26,93 20,32 20,27 47,67 avr -51,55 28,65 -34,31 -48,91 27,77 -26,14 8,40 9,01 -0,37 S.d 27,14 22,00 19,51 30,47 31,59 15,86 39,02 47,11 25,52 avr -5,64 -21,70 -20,58 -13,04 -42,02 30,16 -58,32 43,25 16,22 S.d 31,60 29,47 31,47 30,49 26,52 21,35 29,15 44,59 56,50 avr -39,79 49,10 -33,75 -36,27 64,44 2,29 -12,54 30,29 -39,67 S.d 28,39 29,16 25,80 31,40 18,58 12,85 32,16 23,51 25,14 /ɯ/ avr 23,45 -47,29 -23,62 -24,75 3,67 14,58 -9,03 5,56 -12,83 S.d 46,51 35,86 34,36 29,67 17,29 23,08 35,90 15,43 44,58 avr -61,26 35,74 28,34 S.d 19,42 29,40 33,29 /i/ /u/ /ε/ /e/ /o/ /ɛ̆/ Kết so sánh giá trị độ dốc trung bình đặc tính SSCF q trình chuyển đổi từ ngun âm /a/, /i/ /u/ sang phụ âm cuối vô 71 /p, t, k/ giọng nữ hai ngữ cảnh âm tiết VC2 C1VC2 minh họa Hình 3-22 Hình 3-22: So sánh độ dốc chuyển đổi (độ) đặc tính SSCF1, SSCF2, SSCF3 phụ âm cuối vô /p, t, k/ với nguyên âm /a/ (a), /i/ - (b) /u/ - (c) hai ngữ cảnh âm tiết VC2 C1VC2 giọng nữ Kết Hình 3-22 cho thấy độ dốc phần chuyển đổi đặc tính SSCF tồn sở liệu thu âm giọng nữ hai bối cảnh ngữ âm VC2 C1VC2 không mang lại hiệu cho việc phân biệt ba phụ âm cuối vô /p, t, k/ Độ dốc phần chuyển đổi phụ âm cuối vô ngữ cảnh ngun âm khơng có khác biệt rõ rệt, độ lệch chuẩn lớn trùm lên Tuy nhiên, phủ định phụ âm cuối vơ đóng vai trị kết thúc âm tiết chúng có làm biến đổi âm sắc âm giai đoạn cuối giai đoạn chuyển tiếp từ nguyên âm sang phụ âm cuối, đặc tính SSCF có tồn chuyển dịch theo hướng 72 3.4 Kết luận chương Trong chương này, luận văn trình bày ba nội dung liên quan đến việc sử dụng tham số SSCF liệu tiếng Việt để thử nghiệm khả nhận biết, phân biệt phụ âm cuối vô /p, t, k/ tiếng Việt qua tham số “giả tần số formant” Để người đọc hiểu rõ tiếng Việt, mục 3.1 trình bày nét khái quát đặc trưng ngôn ngữ tiếng Việt hệ thống âm vị âm tiết tiếng Việt Từ phân tích chi tiết cấu trúc, vai trò thành phần cấu tạo nên âm tiết tiếng Việt, đặc biệt nguyên âm phụ âm cuối Trong phần tiếp theo, mục 3.2 xây dựng sở liệu dựa thống kê khả tổ hợp 13 nguyên âm tiếng Việt với phụ âm cuối vô /p, t, k/ Dữ liệu sử dụng cho mục đích nghiên cứu, thử nghiệm viêc đánh giá khả thay tần số formant tham số SSCF để nhận biết phụ âm cuối vô /p, t, k/ Vì vậy, để kiểm chứng, đánh giá tương đồng tham số SSCF với tần số formant sở liệu tiếng Việt, luận văn đưa kết so sánh đặc tính SSCF với tần số formant ngữ cảnh nguyên âm /a, i, u/ kết hợp với ba phụ âm cuối /p, t, k/ Kết so sánh cho thấy không xét đến giá trị tuyệt đối đặc tính SSCF1, SSCF2, SSCF3 tần số formant F1, F2, F3 có tương đồng nhiều hình dạng xu hướng biến thiên Nội dung cuối chương phân tích đặc tính SSCF phụ âm cuối vơ /p, t, k/ tiếng Việt Để nghiên cứu phụ âm cuối vô /p, t, k/ tiếng Việt, để xác định vai trị của phụ âm cuối vơ q trình phối hợp với ngun âm âm tiết, luận văn thực phân tích dựa đặc tính âm học tĩnh đặc tính âm học động âm tiết Kết luận đưa ngữ cảnh âm tiết (C1)VC2 với nguyên âm V, độ dài nguyên âm (vowel duration) độ dài phần chuyển tiếp (transition duration) nguyên âm với phụ âm cuối tiếng Việt tham số ổn định, không phụ thuộc vào phụ âm cuối vô /p, t, k/ Các phân tích đặc tính âm học tĩnh (bao gồm độ dài nguyên âm độ dài phần chuyển tiếp) không cung cấp thơng tin hữu ích có khả cho phép phân biệt ba phụ âm cuối vô /p, t, k/ theo cách đáng tin cậy Đối với 73 đặc tính âm học động, việc tính toán so sánh độ dốc phần chuyển đổi đặc tính SSCF từ nguyên âm sang phụ âm cuối vô ngữ cảnh âm tiết (C1VC2) thực chưa mang lại hiệu phân biệt rõ ràng Chỉ nhấn mạnh phụ âm cuối vơ /p, t, k/ đóng vai trò kết thúc âm tiết làm biến đổi âm sắc âm giai đoạn cuối thể thông qua chuyển dịch đặc tính SSCF theo hướng 74 CHƯƠNG KẾT QUẢ VÀ HƯỚNG PHÁT TRIỂN 4.1 Kết Với mục đích thử nghiệm, đánh giá việc sử dụng tham số “giả tần số formant” - SSCF để nhận biết, phân biệt phụ âm cuối vô /p, t, k/ tiếng Việt, luận văn trình bày nội dung từ việc mơ hình hóa đặc tính động tiếng nói đến kết phân tích đặc tính âm tĩnh âm động ba phụ âm cuối vô sở liệu tiếng Việt thu âm Trước hết, nghiên cứu tổng quan đặc trưng tiếng nói phương pháp mơ hình hóa đặc tính âm học động tiếng nói thể đầy đủ chương Người đọc hiểu rõ tín hiệu tiếng nói từ q trình tạo tiếng nói đến đặc trưng âm tiếng nói tần số phổ tần; cao độ, cường độ, trường độ thông tin có ích tín hiệu tiếng nói hệ thống nhận dạng tiếng nói Các nghiên cứu nhận dạng tín hiệu tiếng nói rằng, xét khoảng thời gian dài tín hiệu tiếng nói tín hiệu ngẫu nhiên, khoảng thời gian đủ ngắn tín hiệu tiếng nói coi ổn định biểu diễn xác giá trị phổ Nhờ người ta tìm nhiều phương pháp để trích xuất đặc trưng tĩnh tiếng nói, phổ biến kể đến thuật toán MFCC Tuy sử dụng rộng rãi hệ thống nhận dạng tiếng nói tự động vector đặc tính MFCC có số điểm hạn chế định MFCC có kích thước vector lớn, gây khó khăn việc tính tốn MFCC đơn biểu diễn đặc tính lượng mà khơng mơ tả đặc tính tần số tín hiệu tiếng nói MFCC cịn phụ thuộc vào đặc trưng người nói Do đó, cách tiếp cận đặc tính động coi thiết yếu để nghiên cứu tín hiệu tiếng nói Với việc kết số nghiên cứu trước đặc tính âm học động tiếng nói mục 2.4, luận văn mang đến nhìn khái quát hướng nghiên cứu để trích xuất thơng tin có ích tín hiệu tiếng nói sử dụng tham số SSCF Khi tính tốn tham số SSCF dựa định nghĩa bản, kết cho thấy tồn nhiều sai khác tham số SSCF tần số formant tín hiệu Nguyên nhân dẫn đến sai khác phân tích định nghĩa lọc băng thuật tốn tính SSCF Nếu thay 75 đổ số lượng lọc băng thuật toán, kết thử nghiệm cho thấy khác biệt hình dạng giá trị đặc tính SSCF, có nghĩa lọc băng ảnh hưởng trực tiếp lên giá trị tham số SSCF Do đó,việc thiết kế lại lọc băng tính tốn SSCF với lọc băng cải thiện hình dạng mang lại kết tốt hơn, tham số SSCF có hình dạng phạm vi giá trị tương đồng với tần số formant chuyển tiếp nguyên âm nguyên âm Phần luận văn tập trung vào đối tượng nghiên cứu ngôn ngữ tiếng Việt Kết nghiên cứu nhà ngôn ngữ học mở nét khái quát đặc trưng ngôn ngữ tiếng Việt hệ thống âm vị - âm tiết tiếng Việt Từ phân tích chi tiết cấu trúc, vai trò thành phần cấu tạo nên âm tiết tiếng Việt, đặc biệt nguyên âm phụ âm cuối mang đến hướng tiếp cận cho việc để phân biệt phụ âm cuối vô /p, t, k/, khả làm biến đổi âm sắc âm giai đoạn cuối phụ âm đóng vai trị kết thúc âm tiết Để sử dụng cho mục đích nghiên cứu, nhận biết phụ âm cuối vô /p, t, k/, sở liệu dựa thống kê khả tổ hợp 13 nguyên âm tiếng Việt với phụ âm cuối vô /p, t, k/ ngữ cảnh khác cấu trúc âm tiết xây dựng Luận văn thực tính tốn tham số SSCF dựa sở liệu tiếng Việt so sánh với tần số formant để kiểm chứng, đánh giá khả thay tần số formant tham số Kết so sánh cho thấy, ngữ cảnh nguyên âm /a, i, u/ kết hợp với phụ âm cuối /p, t, k/, không xét đến giá trị tuyệt đối đặc tính SSCF1, SSCF2, SSCF3 tần số formant F1, F2, F3 có tương đồng nhiều hình dạng xu hướng biến thiên Cuối cùng, luận văn thực phân tích đặc tính SSCF phụ âm cuối vô /p, t, k/ tiếng Việt dựa đặc tính âm học tĩnh đặc tính âm học động âm tiết Kết phân tích đặc tính âm học tĩnh khẳng định ngữ cảnh âm tiết (C1)VC2 với nguyên âm V, độ dài nguyên âm độ dài phần chuyển tiếp nguyên âm với phụ âm cuối tiếng Việt tham số ổn định, không phụ thuộc vào phụ âm cuối vô /p, t, k/, khơng đem lại thơng tin hữu ích cho việc phân biệt ba phụ âm cuối vô 76 Kết hoàn toàn phù hợp với nghiên cứu dựa tần số formant trước đặc tính âm học tĩnh Đối với đặc tính âm học động, việc tính tốn so sánh độ dốc phần chuyển đổi đặc tính SSCF từ nguyên âm sang phụ âm cuối vô ngữ cảnh âm tiết (C1)VC2 thực hiện, đặc tính SSCF phần chuyển tiếp có tồn chuyển dịch theo hướng kết thống kê chưa mang lại hiệu phân biệt phụ âm cuối cách rõ ràng Vì thế, vấn đề cần có đầu tư nghiên cứu kĩ lưỡng cơng trình nghiên cứu 4.2 Hướng phát triển Từ kết thu q trình phân tích đặc tính động phụ âm cuối vô /p, t, k/, đặc tính SSCF có tồn độ nghiêng chuyển tiếp từ nguyên âm sang phụ âm cuối kết thống kê với sở liệu thu âm giọng nữ chưa tốt bối cảnh nguyên âm, ba phụ âm cuối /p, t, k/ phân biệt độ nghiêng ba đặc tính SSCF1, SSCF2, SSCF3 Điều cho thấy vấn đề phân tích đặc tính âm động nầy cần phải tiếp tục nghiên cứu cải thiện tương lai Trước tiên, cần phải xem xét, tìm kiếm yếu tố ảnh hưởng đến việc xác định độ dốc chuyển đổi đặc tính SSCF từ nguyên âm sang phụ âm cuối vơ thanh, ví dụ việc xác định điểm chuyển tiếp, xác định điểm đo góc nghiêng hay cuối thời gian chuyển tiếp chí yếu tố liên quan đến phát âm, tốc độ nói, điệu cần phải xem xét cẩn thận Thứ hai, nghiên cứu đặc tính động tĩnh âm tiết luân văn thực phân tích sở liệu thu âm giọng nữ nên kết phân tích chưa mang đến tính khái qt Vì cơng việc tương lai thực tiếp phân tích với sở liệu thu âm giọng nam để có nhìn tổng thể hơn, với kết phân tích đáng tin cậy Hơn nữa, việc phân tích đặc tính phụ âm cuối vơ với giọng nói trẻ em hay người cao tuổi thách thức đặt tương lai Cuối cùng, yếu tố đưa kết nghiên cứu đến gần với thực tiễn xem xét đến ảnh hưởng nhiễu Tất liệu dùng để phân 77 tích luận văn tín hiệu “sạch”, ghi lại phịng thu âm tĩnh có xử lý âm Điều đặt vấn đề xảy liệu đưa vào phân tích tín hiệu tiếng nói mơi trường thực tế có bao gồm nhiễu Việc phát triển nghiên cứu sâu với tín hiệu cơng việc khó khăn mang lại hiệu đánh giá xác thực 78 TÀI LIỆU THAM KHẢO [1] C K On, P M Pandiyan, S Yaacob and A Saudi (2006), “Melfrequency cepstral coefficient analysis in speech recognition”, Computing & Informatics, International Conference on, pp.1–5 [2] D O‘Shaughnessy (2008), “Automatic speech recognition: History, methods and challenges”, Pattern Recognit, vol 41, no 10, pp 2965– 2979 [3] F Zheng, G Zhang and Z Song (2001), “Comparison of different implementations of MFCC”, J Comput Sci Technol, vol 16, no 6, pp 582–589 [4] Gordon E.Peterson and Harold L.Barney (1952), “control method used in a study of the vowels” [5] G Fant and J Mártony (1962), “Speech synthesis Instrumentation for parametric synthesis (OVE II)”, KTH Computer Science and Comunication [6] K Kido (2015), “Digital Fourier Analysis: Advanced Techniques”,NY: Springer New York, New York [7] K K Paliwal (1998), “Spectral Subband Centroids Features for speech recognition”, Proceedings of the 1998 IEEE International Conference on Acoustics, Speech and Signal Processing [8] L C Thompson (1963), “The Problem of the Word in Vietnamese”, WORD, vol 19, no 1, pp 39–52 [9] P Divenyi, S Greenberg and G Meyer Eds (2006), “Dynamics of speech production and perception”,Amsterdam ; Washington, DC: Ios Press [10] Peterson G.E and H.L Barney (1952), “Control Methods Used in a Study of the Vowels”, Journal of the Acoustical Society of America [11] Nguyễn Hằng Phương (2018), “Modeling dynamic acoustic feature of speech for Vietnamese speech recognition and application for analyzing Vowel – to – Vowel transitions”, Master Thesis, Computer Science International Research Institute MICA 79 [12] Nguyễn Hữu Quỳnh (2001), “Ngữ pháp tiếng Việt”, Nhà xuất Từ điển Bách Khoa, Hà Nội [13] R Carré (2009) “Signal dynamics in the production and perception of vowels”, 2009 Approaches Phonol Complex Berlín-Nueva York Mouton Gruyter, pp 59–81 [14] R E Gruhn, W Minker and S Nakamura (2011) “Statistical Pronunciation Modeling for NonNative Speech Processing”, Berlin, Heidelberg: Springer Berlin Heidelberg [15] R L Trask (1996), “ADictionary of Phonetics and Phonology”, Routledge, Park Square, Milton Park, Abingdon, Oxon, OX14 4RN [16] S Molau, M Pitz, R Schluter and H Ney (2001) “Computing melfrequency cepstral coefficients on the power spectrum” Acoustics, Speech, and Signal Processing 2001 86 Proceedings (ICASSP’01) 2001 IEEE International Conference on, vol 1, pp 73–76 [17] S Narang and M D Gupta (2015), “Speech Feature Extraction Techniques: A Review”, Int J Comput Sci Mob Comput., vol 4, no 3, pp 107–114 [18] Viet Son Nguyen, R Carré and E Castelli (2008), “Production and perception of Vietnamese short vowels”, Acoustical Society of America (ASA), Acoustics 08 Paris [19] Viet Son Nguyen, E Castelli and R Carré (2009), “Vietnamese final stop consonants /p, t, k/ described in terms of formant transition slopes”, International Conference on Asian language processing, IALP 2009, Singapore [20] Nguyễn Thành Tài (2001), “Mã hóa tiếng nói ứng dụng liên lạc di động”, IG Tech, Tạp chí Bưu viễn thơng cơng nghệ thơng tin [21] Đoàn Thiện Thuật (1977), “Ngữ âm tiếng Việt”, Nhà xuất đại học trung học chuyên nghiệp, Hà Nội [22] Trần Thị Anh Xuân (2016) “Acoustic Gesture Modeling Application to A Vietnamese Speech Recognition System”, Doctoral thesis, Community University Grenoble Alpes 80 ... thử nghiệm khả nhận biết, phân biệt phụ âm cuối vô /p, t, k/ tiếng Việt qua tham số ? ?giả tần số formant? ?? Một sở liệu tiếng Việt dựa thống kê khả tổ hợp 13 nguyên âm với phụ âm cuối vô /p, t, k/... đổi âm sắc âm kết thúc âm tiết Sự chuyển dịch formant nguyên âm theo hướng dấu hiệu để nhận diện phụ âm cuối 36 Bảng 3-1: Phân loại phụ âm cuối tiếng Việt Phụ âm môi Phụ âm đầu lưỡi - Phụ âm cuối. .. xin cam đoan Luận văn có tên ? ?Nhận biết phụ âm cuối vô tiếng Việt sử dụng tham số giả tần số formant? ?? cơng trình nghiên cứu khoa học độc lập riêng tơi Các số liệu sử dụng phân tích luận văn có nguồn