1. Trang chủ
  2. » Thể loại khác

XÁC ĐỊNH TẦN SỐ CƠ BẢN CỦA TÍN HIỆU TIẾNG NÓI DÙNG HÀM TỰ TƯƠNG QUAN TÓM TẮT LUẬN VĂN THẠC SĨ

27 19 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

ĐẠI HỌC ĐÀ NẴNG TRƯỜNG ĐẠI HỌC BÁCH KHOA ⎯⎯⎯⎯⎯⎯⎯⎯⎯ TRẦN VĂN TÂM XÁC ĐỊNH TẦN SỐ CƠ BẢN CỦA TÍN HIỆU TIẾNG NĨI DÙNG HÀM TỰ TƯƠNG QUAN Chun ngành: Khoa Học Máy Tính Mã số: 8480101 TĨM TẮT LUẬN VĂN THẠC SĨ Đà Nẵng – Năm 2019 Công trình hồn thành TRƯỜNG ĐẠI HỌC BÁCH KHOA Người hướng dẫn khoa học: TS NINH KHÁNH DUY Phản biện 1: PGS TS NGUYỄN TẤN KHÔI Phản biện 2: TS TRẦN THẾ VŨ Luận văn bảo vệ trước Hội đồng chấm Luận văn tốt nghiệp thạc sĩ khoa học máy tính họp Trường Đại học Bách khoa vào ngày 25 tháng 08 năm 2019 Có thể tìm hiểu luận văn tại: − Trung tâm Học liệu, Đại học Đà Nẵng Trường Đại học Bách khoa − Thư viện Khoa Công nghệ thông tin, Trường Đại học Bách khoa - ĐHĐN MỞ ĐẦU Lý chọn đề tài Một tham số quan trọng lĩnh vực áp dụng mô tiếng nói tần số F0 F0 tần số tín hiệu tiếng nói (đơn vị Herz).Về âm học tần số F0 tốc độ rung dây (vocal cord) máy phát âm người [1] Về cảm nhận âm thanh, F0 tương quan với cao độ (độ trầm bổng) lời nói (F0 cao giọng nói bổng) F0 quan trọng để nắm bắt xử lý tiếng nói cho nghiên cứu sâu Nghiên cứu hiểu rõ tần số F0 sở cho nghiên cứu ứng dụng khác Trong lĩnh vực phân tích tiếng nói, tính F0 ứng dụng việc đo cao độ trung bình người, biểu diễn ngữ điệu lời nói dựa tín hiệu thu Trong tổng hợp tiếng nói, việc tính F0 sở để máy tính tái tạo tiếng nói có đặc tính ngữ điệu giống với tiếng nói tự nhiên Trong nhận dạng tiếng nói, việc tính tần số F0 giúp tăng tỷ lệ nhận dạng kết hợp thêm đặc trưng ngữ điệu Ngồi ra, tốn tính F0 có nhiều ứng dụng khác như: máy móc nhận diện giọng nói người để thực lệnh, máy móc nhận diện thái độ tiếng nói để xác định tâm trạng người, Để xác định tần số F0 tiếng nói chia thành hai nhóm: thuật toán miền thời gian (time domain) thuật toán miền tần số (frequency domain) [4] Trong phạm vi luận văn, tơi nghiên cứu thuật tốn miền thời gian, sử dụng hàm tự tương quan (autocorelation) [2][4], đồng thời kết hợp với thuật toán lọc trung vị để làm trơn kết F0 thu Qua đánh giá thuật tốn với cách tính thủ cơng để tìm F0 Mục đích ý nghĩa đề tài a Mục đích b Ý nghĩa khoa học thực tiễn đề tài Mục tiêu nhiệm vụ a Mục tiêu Mục tiêu đề tài nghiên cứu phương pháp tính tần số F0 dựa hàm tự tương quan, lọc trung vị, phân tích ưu nhược điểm thuật toán b Nhiệm vụ Để đạt mục tiêu, nhiệm vụ đặt đề tài là: - Nghiên cứu lý thuyết liên quan đến tần số F0 - Nghiên cứu lý thuyết hàm tự tương quan - Thực phân tích, đánh giá kết tính F0, kết hợp với làm trơn kết qua thuật toán lọc trung vị Đối tượng phạm vi nghiên cứu a Đối tượng nghiên cứu b Phạm vi nghiên cứu Phương pháp nghiên cứu a Phương pháp lý thuyết b Phương pháp thực nghiệm Kết luận a Kết đề tài b Hướng phát triển đề tài Bố cục luận văn CHƯƠNG 1: TỔNG QUAN VỀ XỬ LÝ TÍN HIỆU TIẾNG NĨI 1.1 Mở đầu 1.2 Khái niệm tín hiệu tiếng nói Về chất, âm từ lời nói, âm giới tự nhiên sóng âm lan truyền mơi trường Khi nói dây hầu bị chấn động, tạo nên sóng âm, sóng truyền khơng khí đến màng nhĩ – màng mỏng nhạy cảm tai ta – làm cho màng nhĩ dao động, dây thần kinh màng nhĩ nhận cảm giác âm tần số dao động sóng đạt đến độ lớn định Trong xử lý tín hiệu tiếng nói, tín hiệu tiếng nói có hai cách để biểu diễn: biểu diễn tín hiệu miền thời gian biểu diễn tín hiệu miền tần số 1.2.1 Biểu diễn miền thời gian Hình 1.1 – Dạng sóng theo thời gian 1.2.2 Biểu diễn miền tần số 1.2.2.1 Biến đổi Fourier 1.2.2.2 Phổ hai chiều 1.2.2.3 Phổ ba chiều 1.3 Các đặc tính tín hiệu tiếng nói Tiếng nói âm Tiếng nói có chu kỳ dao động, có tần số âm 1.3.1 Âm sắc 1.3.2 Cường độ 1.3.3 Trường độ 1.3.4 Âm hữu 1.3.5 Âm vô 1.4 Xử lý ngắn hạn (short-time processing) Hình 1.12 – Chia tín hiệu thành khung cửa sổ Hầu hết kỹ thuật xử lý ngắn hạn biểu diễn dạng: Qn =   T[x(m)]w(n − m) (1.1) m =− 1.5 Tần số (F0) 1.5.1 F0 Tần số tốc độ rung dây trình phát âm, gọi F0 Người nói điều chỉnh tần số Thông thường, F0 giọng nam nằm khoảng từ 70 Hz đến 250 Hz, giọng nữ có F0 từ 150 Hz đến 400 Hz [4] 1.5.2 Tầm quan trọng F0 xử lý tiếng nói Trong xử lý tiếng nói, F0 đặc trưng cho ngữ điệu lời nói (đặc trưng chung cho ngôn ngữ) điệu âm tiết (đặc trưng riêng cho tiếng Việt) 1.5.3 Các lý khiến việc tìm F0 khó khăn Một là, tín hiệu tiếng nói chất tín hiệu ngẫu nhiên, không theo quy luật định Hai là, môi trường thu âm thực tế, khơng có tiếng nói mà nguồn âm khác phát Ba là, quan phát âm đóng góp vào việc tạo nên tiếng nói, ngồi dây (liên quan đến tính tuần hồn hay F0 tín hiệu) cịn có khoang miệng khoang mũi (liên quan đến hình dạng chung hay âm sắc tín hiệu) 1.6 Tổng kết chương CHƯƠNG 2: TÍNH TẦN SỐ CƠ BẢN DÙNG HÀM TỰ TƯƠNG QUAN 2.1 Mở đầu 2.2 Hàm tự tương quan ứng dụng để tính F0 Trong xử lý tín hiệu số nói chung xử lý tín hiệu tiếng nói nói riêng, hàm tự tương quan dùng để biến đổi tín hiệu tuần hồn thành tín hiệu tuần hồn khác có điểm cực đại xác định dễ dàng, nhờ ứng dụng để xác định chu kỳ T0 tần số F0 [5] Hình 2.1 minh hoạ ví dụ Hình 2.1 – Một đoạn tín hiệu tuần hồn miền thời gian Hình 2.2 – Hàm tự tương quan đoạn tín hiệu tuần hồn Hình 2.1 Khi xử lý tín hiệu dùng kỹ thuật xử lý ngắn hạn (phần 1.4), ta chia tín hiệu tiếng nói thành khung tín hiệu có độ dài hữu hạn cơng thức tự tương quan trở thành [2]: rt ( ) = t +W xx j =t +1 j j + (2.2) xj biên độ tín hiệu thời điểm j, rt ( ) giá trị hàm tự tương quan theo độ trễ  khung tín hiệu t, W độ dài khung tín hiệu Nếu T0 chu kỳ tín hiệu tuần hồn, giá trị độ trễ: 0, ±T0, ±2T0,… điểm mà hàm tự tương quan đạt cực đại cục Đây ý tưởng để xác định F0 tín hiệu tiếng nói hàm tự tương quan Tiếng nói có loại âm: hữu vơ (phần 1.3) Tín hiệu âm hữu có dạng sóng gần tuần hồn nên hàm tự tương quan xuất điểm cực đại cục độ trễ có giá trị bội số nguyên lần chu kỳ Ngược lại, tín hiệu âm vơ có dạng sóng khơng tuần hồn nên hàm tự tương quan khơng có tính chất tương tự âm hữu 2.3 Thuật tốn tính F0 Với phân tích phần 2.2, tơi đưa thuật tốn tính F0 khung tín hiệu dựa hàm tự tương quan Hình 2.5: Bắt đầu Một khung tín hiệu tiếng nói Tính hàm tự tương quan theo độ trễ Khung tín hiệu khơng tuần hồn (âm vơ thanh) Biên độ cực đại ngưỡng False True Xác định độ trễ T0 cực đại tìm Khơng xác định F0 Tính F0 = 1/T0 Kết thúc Hình 2.5 – Thuật tốn tìm F0 dùng hàm tự tương quan Tín hiệu tiếng nói đầu vào chia nhỏ thành khung tín hiệu ngắn (có độ dài từ 10 ms đến 30 ms) để xử lý Trong luận văn, thực phân khung hàm cửa sổ Hamming [4] Hàm cửa sổ Hamming xác định công thức: w(n) = 0.54 − 0.46 cos(2 n ),  n  N N (2.3) 11 2.5.3 Kích thước lọc 2.6 Tổng kết chương 12 CHƯƠNG 3: TRIỂN KHAI VÀ ĐÁNH GIÁ THUẬT TỐN 3.1 Mở đầu 3.2 Mơi trường phát triển 3.3 Dữ liệu thử nghiệm 3.4 Demo ứng dụng 3.5 Khảo sát giá trị kích thước lọc trung vị Kết thu độ dài khung 15 ms sau: Đơn vị đo: Hz Đo Tín thủ hiệu cơng /a/ /e/ /i/ /o/ /u/ F0 dùng hàm tự tương quan Độ F0 lệch F0 dùng hàm tự tương quan qua lọc trung vị N=3 Độ lệch N=5 Độ lệch N=7 Độ lệch 112,0 296,0 184,0 N/A N/A N/A N/A N/A N/A 107,7 230,9 123,2 N/A N/A N/A N/A N/A N/A 117,2 187,2 70,0 N/A N/A N/A N/A N/A N/A 103,2 110,0 6,8 N/A N/A N/A N/A N/A N/A 115,4 337,5 222,1 336,2 220,8 329,7 214,3 N/A N/A Bảng 3.1 – Khảo sát kích thước lọc trung vị với người nam khung tín hiệu 15 ms Đơn vị đo: Hz Tín hiệu /a/ /e/ Đo thủ công 315,1 310,7 F0 dùng F0 dùng hàm tự tương quan qua lọc hàm tự trung vị tương quan Độ Độ Độ Độ F0 N=3 N=5 N=7 lệch lệch lệch lệch 325,0 9,9 325,0 10,0 325,1 10,0 325,0 10,0 322,6 12,0 321,9 11,3 322,2 11,5 322,2 11,6 13 /i/ /o/ /u/ 334,1 333,7 0,5 333,7 0,4 333,6 0,5 333,6 0,5 317,4 320,8 3,4 320,7 3,4 320,7 3,4 320,7 3,3 336,7 332,0 4,7 332,0 4,7 331,9 4,8 331,9 4,8 Bảng 3.2 - Khảo sát kích thước lọc trung vị với người nữ khung tín hiệu 15 ms Với độ dài khung 20ms, kết thu sau: Đơn vị đo: Hz F0 dùng F0 dùng hàm tự tương quan qua lọc hàm tự Đo trung vị Tín tương quan thủ hiệu cơng Độ Độ Độ Độ F0 N=3 N=5 N=7 lệch lệch lệch lệch /a/ 112,0 116,7 4,7 116,1 4,1 116,0 4,1 115,2 3,3 /e/ 107,7 138,8 31,2 115,1 7,4 114,8 7,1 114,5 6,8 /i/ 117,2 123,7 6,5 119,4 2,1 118,6 1,4 118,6 1,3 /o/ 103,2 119,9 16,7 114,0 10,8 113,2 10,0 113,1 9,8 /u/ 115,4 127,7 12,3 123,1 7,8 123,1 7,7 123,0 7,6 Bảng 3.3 - Khảo sát kích thước lọc trung vị với người nam khung tín hiệu 20 ms Đơn vị đo: Hz Tín hiệu /a/ /e/ /i/ /o/ Đo thủ công 315,1 310,7 334,1 317,4 F0 dùng hàm tự tương quan Độ F0 lệch 323,2 8,1 321,8 11,2 333,9 0,2 319,7 2,3 F0 dùng hàm tự tương quan qua lọc trung vị N=3 323,1 321,9 333,9 319,4 Độ lệch 8,0 11,2 0,2 2,1 N=5 323,1 321,8 333,9 319,4 Độ lệch 8,1 11,1 0,2 2,0 N=7 323,1 321,8 334,0 319,5 Độ lệch 8,1 11,1 0,1 2,1 14 /u/ 336,7 321,3 15,4 331,2 5,5 331,2 5,5 331,2 5,5 Bảng 3.4 - Khảo sát kích thước lọc trung vị với người nữ khung tín hiệu 20 ms Ở khung tín hiệu có chiều dài 30 ms có kết sau: Đơn vị đo: Hz Tín hiệu Đo thủ công F0 dùng hàm tự tương quan F0 /a/ /e/ /i/ /o/ /u/ Độ lệch F0 dùng hàm tự tương quan qua lọc trung vị N=3 Độ lệch N=5 Độ lệch N=7 Độ lệch 112,0 116,7 4,8 116,5 4,6 114,7 2,8 115,2 3,3 107,7 113,0 5,3 112,9 5,2 113,0 5,3 113,3 5,6 117,2 114,9 2,3 115,8 1,4 115,8 1,4 114,5 2,7 103,2 112,2 8,9 112,0 8,8 111,8 8,5 111,3 8,1 115,4 135,1 19,7 134,9 19,5 124,3 9,0 123,5 8,2 Bảng 3.5 - Khảo sát kích thước lọc trung vị với người nam khung tín hiệu 30 ms Đơn vị đo: Hz Tín hiệu /a/ /e/ /i/ /o/ /u/ Đo thủ công F0 dùng hàm tự tương quan Độ F0 lệch F0 dùng hàm tự tương quan qua lọc trung vị N=3 Độ lệch N=5 Độ lệch N=7 Độ lệch 315,1 310,7 334,1 317,4 336,7 319,7 321,5 332,0 318,5 332,8 319,8 321,5 332,0 318,5 332,8 4,7 10,9 2,1 1,1 3,9 319,7 321,4 331,9 318,6 332,8 4,6 10,8 2,2 1,2 3,9 319,7 321,5 331,9 318,3 332,8 4,6 10,8 2,2 1,0 3,9 4,6 10,9 2,1 1,1 3,9 15 Bảng 3.6 - Khảo sát kích thước lọc trung vị với người nữ khung tín hiệu 30 ms Vì tín hiệu đưa vào khơng thể biết giọng nam hay giọng nữ, nên qua khảo sát tính F0 qua lọc trung vị, tơi sử dụng kích thước lọc trung vị N = 3.6 Khảo sát ngưỡng xác định hữu thanh/vô Để xác định giá trị ngưỡng tốt nhất, khảo sát cách định tính tín hiệu giọng nam giọng nữ tập liệu thử nghiệm Hình 3.8 đến Hình 3.13 thể kết tính F0 giá trị ngưỡng 30%, 50%, 70% r(0) cho giọng Với người nam thứ nhất, kết khảo sát sau: (b) Đường F0 tính với ngưỡng = 0.3*r(0) (c) Đường F0 tính với ngưỡng = 0.5*r(0) (d) Đường F0 tính với ngưỡng = 0.7*r(0) 16 Hình 3.8 – Kết tính F0 người nam thứ theo ngưỡng khác Với người nữ thứ nhất, kết khảo sát sau: (b) Đường F0 tính với ngưỡng = 0.3*r(0) (c) Đường F0 tính với ngưỡng = 0.5*r(0) (d) Đường F0 tính với ngưỡng = 0.7*r(0) Hình 3.11 – Kết tính F0 người nữ thứ theo ngưỡng khác Với kết khảo sát được, chọn ngưỡng 30% r(0) để xác định F0 tín hiệu tiếng nói phần cịn lại luận văn 3.7 So sánh cài đặt hàm tự tương quan tự làm với hàm Matlab Đối với giọng người nam, với độ dài khung 15 ms, kết đo sau lọc trung vị sau: 17 Đơn vị đo: Hz F0 tính F0 tính hàm Độ lệch hai hàm TTQ TTQ Matlab giá trị F0 tác giả /a/ 296,0 294,0 2,0 /e/ 230,9 229,7 1,2 /i/ 187,3 186,4 0,9 /o/ N/A N/A N/A /u/ 336,2 333,6 2,6 Bảng 3.7 - Kết tính F0 (Hz) với độ dài khung 15 ms người nam Với độ dài khung tín hiệu xử lý ngắn hạn 20 ms, kết đo sau: Tín hiệu Đơn vị đo: Hz F0 tính F0 tính Độ lệch hai giá hàm TTQ hàm TTQ trị F0 tác giả Matlab /a/ 112,8 112,5 0,3 /e/ 114,0 113,7 0,3 /i/ 117,8 117,5 0,3 /o/ 114,0 113,7 0,3 /u/ 124,2 123,8 0,4 Bảng 3.8 - Kết tính F0 (Hz) với độ dài khung 20 ms người nam Và độ dài khung tín hiệu xử lý ngắn hạn 30 ms, kết đo sau: Đơn vị đo: Hz F0 tính F0 tính Độ lệch hai Tín hàm TTQ hàm TTQ giá trị F0 hiệu tác giả Matlab 0,3 /a/ 114,8 114,5 0,2 /e/ 112,7 112,5 Tín hiệu 18 0,3 /i/ 115,1 114,8 0,2 /o/ 111,3 111,1 0,4 /u/ 121,5 121,1 Bảng 3.9 - Kết tính F0 (Hz) với độ dài khung 30 ms người nam Để kiểm chứng thuật tốn giọng nữ, tơi tiến hành tương tư với giọng nam kết sau: Đơn vị đo: Hz Tín hiệu /a/ /e/ /i/ /o/ /u/ F0 tính hàm TTQ tác giả 325,0 322,2 333,6 320,7 331,9 F0 tính hàm TTQ Matlab 322,6 319,9 330,9 318,4 329,4 Độ lệch hai giá trị F0 2,4 2,3 2,7 2,3 2,5 Bảng 3.10 - Kết tính F0 (Hz) với độ dài khung 15 ms người nữ Đơn vị đo: Hz Tín hiệu /a/ /e/ /i/ /o/ /u/ F0 tính hàm TTQ tác giả 323,1 321,3 333,3 320,5 332,8 F0 tính hàm TTQ Matlab 320,7 319,0 330,8 318,1 330,3 Độ lệch hai giá trị F0 2,4 2,3 2,5 2,4 2,5 Bảng 3.11 - Kết tính F0 (Hz) với độ dài khung 20 ms người nữ Đơn vị đo: Hz 19 F0 tính F0 tính Độ lệch hai hàm TTQ hàm TTQ giá trị F0 tác giả Matlab /a/ 319,3 317,4 1,9 /e/ 318,1 315,8 2,3 /i/ 332,0 329,5 2,5 /o/ 318,5 316,2 2,3 /u/ 332,6 330,1 2,5 Bảng 3.12 - Kết tính F0 (Hz) với độ dài khung 30 ms người nữ Tín hiệu Qua bảng số liệu so sánh hàm tự tương quan tác giả hàm tự tương quan Matlab cho thấy sử dụng hàm tự tương quan tác giả để tính tốn giá trị F0 tín hiệu đưa vào khảo sát Trong số liệu trở sau luận văn, sử dụng hàm tự tương quan tự viết để đánh giá thuật tốn tính F0 3.8 So sánh thuật tốn tính F0 tự động với cách đo F0 thủ công Trong phần này, đánh giá sai số thuật tốn tính F0 tự cài đặt cách tính độ lệch tuyệt đối giá trị F0 chuẩn đo thủ công giá trị F0 tự động tính thuật tốn Việc đánh giá sai số thực với độ dài khung tín hiệu khác nhằm tìm giá trị phù hợp tham số 3.8.1 Cách đo F0 thủ công 3.8.2 Kết giọng nam Với độ dài khung 15 ms, kết tính sau: Tín hiệu /a/ /e/ F0 đo thủ cơng 119,9 126,2 F0 tính tự động 126,5 129,5 Đơn vị đo: Hz Độ lệch hai giá trị F0 6,6 3,3 20 /i/ /o/ /u/ Trung bình 127,9 132,2 135,4 128,3 156,9 143,1 136,5 138,5 29,0 10,9 1,1 10,2 Bảng 3.17 – Kết đo F0 với độ dài khung 20 ms người nam thứ hai Đơn vị đo: Hz F0 đo thủ F0 tính tự Độ lệch Tín hiệu công động hai giá trị F0 122,2 134,6 12,5 /a/ 122,2 158,4 36,1 /e/ 126,2 325,9 199,7 /i/ 122,0 334,1 212,1 /o/ 126,0 337,8 211,8 /u/ 123,7 239,2 115,0 Trung bình Bảng 3.18 – Kết đo F0 với độ dài khung 20 ms người nam thứ ba Hình 3.17 – Kết đo F0 tín hiệu âm /o/ với độ dài khung 20 ms người nam thứ ba Với khung tín hiệu có độ dài 30ms, kết tính sau: Đơn vị đo: Hz 21 Tín hiệu /a/ /e/ /i/ /o/ /u/ Trung bình F0 đo thủ công 119,9 126,2 127,9 132,2 135,4 128,3 F0 tính tự động 123,3 127,0 133,5 135,5 134,9 130,8 Độ lệch hai giá trị F0 3,4 0,8 5,6 3,3 0,5 2,7 Bảng 3.20 – Kết đo F0 với độ dài khung 30 ms người nam thứ hai Tín hiệu /a/ /e/ /i/ /o/ /u/ Trung bình F0 đo thủ công 122,2 122,2 126,2 122,0 126,0 123,7 F0 tính tự động 123,7 124,3 276,2 122,8 300,0 206,0 Đơn vị đo: Hz Độ lệch hai giá trị F0 1,5 2,1 150,1 0,8 174,0 82,3 Bảng 3.21 – Kết đo F0 với độ dài khung 30 ms người nam thứ ba Kết luận: từ kết đo F0 tự động tín hiệu người nam khảo sát, độ xác kết tính F0 tăng dần độ dài khung tín hiệu tăng từ 15 ms đến 30 ms Thuật tốn tự tương quan cho thấy dễ mắc lỗi cao độ ảo người nói phát tín hiệu có tính chất tuần hồn bất thường (ví dụ người nam thứ ba) 3.8.3 Kết giọng nữ Tương tự giọng nam, việc đo F0 giọng nữ thực độ dài khung 15 ms, 20 ms, 30 ms Với độ dài khung 15 ms, thu kết sau: Đơn vị đo: Hz 22 Tín hiệu /a/ /e/ /i/ /o/ /u/ Trung bình F0 đo thủ cơng 315,1 310,7 334,1 317,4 336,7 322,8 F0 tính tự động 325,0 322,2 333,6 320,7 331,9 326,7 Độ lệch hai giá trị F0 9,9 11,5 0,5 3,3 4,8 6,0 Bảng 3.22 – Kết đo F0 với độ dài khung 15 ms người nữ thứ Với độ dài khung 20 ms, kết thu sau: Đơn vị đo: Hz F0 đo thủ F0 tính tự Độ lệch Tín hiệu công động hai giá trị F0 315,1 323,1 8,0 /a/ 310,7 321,3 10,7 /e/ 334,1 333,3 0,8 /i/ 317,4 320,5 3,1 /o/ 336,7 332,8 3,9 /u/ 322,8 326,2 5,3 Trung bình Bảng 3.25 – Kết đo F0 với độ dài khung 20 ms người nữ thứ Với độ dài khung 30 ms, thu kết sau: Đơn vị đo: Hz F0 đo thủ F0 tính tự Độ lệch Tín hiệu cơng động hai giá trị F0 315,1 319,3 4,3 /a/ 310,7 318,1 7,4 /e/ 334,1 332,0 2,1 /i/ 317,4 318,5 1,1 /o/ 336,7 332,6 4,1 /u/ 23 Trung bình 322,8 324,1 3,8 Bảng 3.28 – Kết đo F0 với độ dài khung 30 ms người nữ thứ Kết luận: từ kết đo F0 tự động tín hiệu người nữ khảo sát, độ xác kết tính F0 có xu hướng tăng dần độ dài khung tín hiệu tăng từ 15 ms đến 30 ms Thuật toán tự tương quan chưa cho thấy lỗi cao độ ảo áp dụng với giọng nữ 3.9 Tổng kết chương 24 KẾT LUẬN Những việc đã hoàn thành Với mục tiêu đề tài nghiên cứu phương pháp tính tần số dựa hàm tự tương quan, sử dụng lọc trung vị để làm trơn kết đánh giá ưu điểm nhược điểm thuật tốn, tơi thực việc sau: - Nghiên cứu lý thuyết liên quan đến xử lý tín hiệu tiếng nói, đặc biệt tần số F0 tín hiệu tiếng nói - Nghiên cứu lý thuyết hàm tự tương quan thuật toán để tính F0 tự động từ tín hiệu tiếng nói - Nghiên cứu lý thuyết lọc trung vị áp dụng vào làm trơn chuỗi giá trị F0 tính - Phân tích lý thuyết khảo sát thực nghiệm tham số quan trọng thuật tốn xử lý tín hiệu - Cài đặt đánh giá so sánh thuật tốn tính F0 dùng hàm tự tương quan tự viết hàm tự tương quan Matlab, đánh giá độ xác thuật tốn tự viết liệu thực nghiệm tự thu thập Các kết luận Dựa kết thực nghiệm, thấy hàm tự tương quan phương pháp tương đối đơn giản hiệu để giải tốn tính F0 tín hiệu tiếng nói Với kết đo file thu âm giọng nam giọng nữ, thuật toán dùng hàm tự tương quan cho kết tính F0 xác với độ dài khung tín hiệu dài 30 ms Để cho đường kết tính F0 hàm tự tương quan trơn tru hơn, cần phải có bước lọc trung vị kết tính F0 thu Qua khảo sát kích thước lọc trung vị N = 3, N = 5, N = cho thấy, với kích thước lọc trung vị N = cho kết trơn tối ưu so với kích thước lọc trung vị cịn lại 25 Ngồi ra, tham số ảnh hưởng lớn đến kết tính F0 tín hiệu tiếng nói, việc xác định khung tín hiệu tuần hồn khơng tuần hồn Việc xác định khung tín hiệu tuần hồn hay khơng tuần hồn (thuộc âm hữu hay âm vơ thanh) dựa hàm tự tương quan tín hiệu bị ảnh hưởng ngưỡng biên độ cực đại cục Khảo sát định tính cho thấy ngưỡng 30% giá trị biên độ cực đại tồn cục hàm tự tương quan cho kết xác Thuật tốn tính F0 dùng hàm tự tương quan nhạy với lỗi độ cao ảo Cần có giải pháp để khắc phục lỗi tạo sai số lớn Hạn chế hướng phát triển Do thiếu liệu F0 chuẩn cho khung tín hiệu tiếng nói nên việc đánh giá độ xác thuật tốn tính F0 dùng thước đo sai số tương đối đơn giản (độ lệch giá trị F0 cách đo thủ cơng thuật tốn dùng hàm tự tương quan, tính cho tín hiệu) chưa đầy đủ Các tín hiệu dùng thực nghiệm dừng ngun âm, vốn có đặc trưng tuần hồn tương đối ổn định, nên chưa đánh giá đầy đủ hiệu thuật tốn gặp tín hiệu tiếng nói có tính chất biến đổi phức tạp Luận văn chưa đưa cải tiến để cải thiện độ xác (đặc biệt khắc phục lỗi cao độ ảo) tốc độ thực thi thuật toán, thiếu đánh giá so sánh với thuật toán tính F0 khác Tìm giải pháp cho vấn đề hướng phát triển luận văn tương lai ... dụng để tính F0 Trong xử lý tín hiệu số nói chung xử lý tín hiệu tiếng nói nói riêng, hàm tự tương quan dùng để biến đổi tín hiệu tuần hồn thành tín hiệu tuần hồn khác có điểm cực đại xác định dễ... tín hiệu) cịn có khoang miệng khoang mũi (liên quan đến hình dạng chung hay âm sắc tín hiệu) 1.6 Tổng kết chương CHƯƠNG 2: TÍNH TẦN SỐ CƠ BẢN DÙNG HÀM TỰ TƯƠNG QUAN 2.1 Mở đầu 2.2 Hàm tự tương quan. .. phần 2.2, tơi đưa thuật tốn tính F0 khung tín hiệu dựa hàm tự tương quan Hình 2.5: Bắt đầu Một khung tín hiệu tiếng nói Tính hàm tự tương quan theo độ trễ Khung tín hiệu khơng tuần hồn (âm vơ

Ngày đăng: 18/04/2021, 22:14

Xem thêm:

TÀI LIỆU CÙNG NGƯỜI DÙNG

  • Đang cập nhật ...

TÀI LIỆU LIÊN QUAN

w