Xử lý tiếng nói Xử lý tiếng nói Xử lý tiếng nói luận văn tốt nghiệp,luận văn thạc sĩ, luận văn cao học, luận văn đại học, luận án tiến sĩ, đồ án tốt nghiệp luận văn tốt nghiệp,luận văn thạc sĩ, luận văn cao học, luận văn đại học, luận án tiến sĩ, đồ án tốt nghiệp
BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI - NGUYỄN ĐÌNH AN XỬ LÝ TIẾNG NĨI LUẬN VĂN THẠC SĨ KỸ THUẬT KỸ THUẬT TRUYỀN THÔNG HÀ NỘI – 2014 BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI - NGUYỄN ĐÌNH AN XỬ LÝ TIẾNG NĨI Chun ngành: Kỹ thuật Truyền thơng LUẬN VĂN THẠC SĨ KỸ THUẬT (Kỹ thuật truyền thông) Người hướng dẫn khoa học: PGS ĐOÀN NHÂN LỘ HÀ NỘI – 2014 BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI - NGUYỄN ĐÌNH AN XỬ LÝ TIẾNG NÓI LUẬN VĂN THẠC SĨ KỸ THUẬT KỸ THUẬT TRUYỀN THÔNG HÀ NỘI – 2014 BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI - NGUYỄN ĐÌNH AN XỬ LÝ TIẾNG NĨI Chun ngành: Kỹ thuật Truyền thông LUẬN VĂN THẠC SĨ KỸ THUẬT (Kỹ thuật truyền thơng) Người hướng dẫn khoa học: PGS ĐỒN NHÂN LỘ HÀ NỘI – 2014 LUẬN VĂN THẠC SĨ: XỬ LÝ TIẾNG NÓI Mục Lục Mục Lục Lời cam đoan Danh mục ký hiệu chữ viết tắt Danh mục hình vẽ, bảng Mở đầu CHƯƠNG 1: TIẾNG NÓI VÀ ĐẶC ĐIỂM CỦA TIẾNG NÓI 10 1.1 Đặc tính vật lý âm 11 1.1.1 Độ cao (Pitch) 11 1.1.2 Cường độ 11 1.1.3 Trường độ 12 1.1.4 Âm sắc 12 1.2 Đặc tính âm học âm 12 1.2.1 Nguyên âm .12 1.2.2 Phụ âm .12 1.2.3 Tỷ suất thời gian 13 1.2.4 Hàm lượng thời gian ngắn .13 1.2.5 Tần số vượt qua điểm không .14 1.2.6 Phát điểm cuối .14 1.2.7 Tần số 14 1.2.8 Formant 16 1.3 Phân loại đơn giản dạng sóng tiếng nói 16 1.4 Bộ máy phát âm chế phát âm 17 1.4.1 Bộ máy phát âm .17 1.4.2 Cơ chế phát âm 18 CHƯƠNG 2: TỔNG QUAN VỀ XỬ LÝ TIẾNG NÓI 20 2.1 Một số kiến thức chung xử lý tín hiệu rời rạc 20 2.1.1 Mơ hình hệ xử lý tín hiệu rời rạc .20 NGUYỄN ĐÌNH AN LUẬN VĂN THẠC SĨ: XỬ LÝ TIẾNG NÓI 2.1.2 Phép biến đổi Z 21 2.2 Mô hình tạo tiếng nói 22 2.3 Biểu diễn số tiếng nói 25 2.3.1 Xác định tần số lấy mẫu tín hiệu tiếng nói 27 2.3.2 Lượng tử hoá 28 2.3.3 Nén tín hiệu tiếng nói 28 2.4 Mã hóa tiếng nói 29 2.4.1 Mã hóa dạng sóng 30 2.4.1.1 Mã hoá miền thời gian .30 2.4.1.2 Mã hoá miền tần số 32 2.4.2 Mã hoá nguồn 33 2.4.3 Mã hoá lai 34 2.5 Tổng hợp tiếng nói 35 2.5.1 Giới thiệu chung 35 2.5.2 Các mơ hình tổng hợp tiếng nói 36 2.5.2.1 Tổng hợp formant 36 2.5.2.2 Tổng hợp LPC 37 2.5.2.3 Tổng hợp dùng mô máy phát âm 38 CHƯƠNG 3: ỨNG DỤNG CỦA LPC TRONG XỬ LÝ TIẾNG NÓI 39 3.1 Phương pháp dự đốn tuyến tính xử lý tiếng nói 39 a Phương pháp tự tương quan .43 b Phương pháp covariance 44 3.1.1 Xác định hệ số khuyếch đại .46 3.1.2 Xác định hệ số tiên đốn tuyến tính 48 a Phương pháp covariance 48 b Phương pháp tự tương quan .50 3.2 Ứng dụng LPC phân tích tiếng nói 52 3.2.1 Dị tìm formant 52 NGUYỄN ĐÌNH AN LUẬN VĂN THẠC SĨ: XỬ LÝ TIẾNG NÓI 3.2.2 Dùng lọc đảo để tìm F0 54 3.3 Tổng hợp tiếng nói 55 3.3.1 Giới thiệu 55 3.3.2 Cơ sở lý thuyết 56 3.3.2.1 Mơ hình vật lý 56 3.3.2.2 Mơ hình tốn học 57 3.3.2.3 Mơ hình phân tích tổng hợp LPC 60 3.4 Xây dựng mô hình 68 3.4.1 Khối phân tích LPC 69 3.4.2 Khối tổng hợp LPC 72 3.5 Chuẩn LPC 10e .73 3.5.1 Giới thiệu 73 3.5.2 Xây dựng mơ hình 74 3.5.2.1 Phân tích 75 3.5.2.2 Mã hoá .77 3.5.2.3 Giải mã 79 3.5.2.4 Tổng hợp 79 KẾT LUẬN VÀ KIẾN NGHỊ 81 TÀI LIỆU THAM KHẢO 82 NGUYỄN ĐÌNH AN LUẬN VĂN THẠC SĨ: XỬ LÝ TIẾNG NĨI Lời cam đoan Ngồi giúp đỡ bảo tận tình thầy giáo PGS.Đồn Nhân lộ, luận văn sản phẩm q trình tìm tịi, nghiên cứu trình bày tác giả đề tài luận văn Mọi số liệu, phân tích, kết luận từ tài liệu nhà nghiên cứu khác trích dẫn theo quy định Vì vậy, tác giả xin cam đoan cơng trình nghiên cứu riêng Hà nội, ngày 25 tháng năm 2014 Tác giả Nguyễn Đình An NGUYỄN ĐÌNH AN LUẬN VĂN THẠC SĨ: XỬ LÝ TIẾNG NÓI Danh mục ký hiệu chữ viết tắt Từ viết tắt LPC PCM APCM Tiếng Anh Nghĩa tiếng Việt Mã dự đốn tuyến tính Điều chế mã xung Điều chế xung mã thích ứng DM APC Linear Predictive Coding Pule Code Modulation Adaptive Pule Code Modulation Diffierential Pule Code Modulation Adaptive Diffierential Pule Code Modulation Delta Modulation Adaptive Predictive Code DFT Discrete Fourier Transform Phép biến đổi Fourier rời rạc DCT FFT Discrete Cosine Transform Fast Fourier Transfrom Average Magnitude Diffierential Function Biến đổi cosine rời rạc Biến đổi Fourier nhanh DPCM ADPCM AMDF CELP Coding Excited Linear prediction NGUYỄN ĐÌNH AN Điều chế xung mã vi sai Điều chế xung mã vi sai thích ứng Diều chế Delta Mã hóa dự đốn thích ứng Hàm vi sai biên độ trung bình Mã dự đốn tuyến tính thích ứng LUẬN VĂN THẠC SĨ: XỬ LÝ TIẾNG NÓI Danh mục hình vẽ, bảng Hình 1.1 Mơ q trình truyền tiếng nói khơng khí .10 Hình 1.2 Tín hiệu phổ tín hiệu .15 Hình 1.3 Bộ máy phát âm người 17 Hình 1.4 Mô tả dây âm 18 Hình 2.1 Mơ hình hệ xử lý biến đổi tín hiệu vào x(n) thành tín hiệu y(n) 20 Hình 2.2 Mơ hình tạo tiếng nói (Fant – 1960) 23 Hình 2.3 Mơ hình tạo tiếng nói 24 Hình 2.4 Mơ hình lọc đảo 24 Hình 2.5 Biểu diễn tín hiệu tiếng nói 26 Hình 2.6 Chất lượng tiếng nói theo tốc độ bít 30 Hình 2.7 Hệ thống DPCM, khối mã hố bên trái cịn khối giải mã bên phải Bộ lượng tử hoá đảo (inverse quantizer) có nhiệm vụ chuyển mã truyền thành tín hiệu u(n) 32 Hình 2.8 Mơ hình tạo tiếng nói sử dụng mã hố nguồn 33 Hình 2.9 Kiến trúc mã hoá AbS (a): Mã hoá (b): Giải mã 35 Hình 2.10 Mơ hình tổng hợp tiếng nói phương pháp formant 36 Hình 2.11 Mơ hình tổng hợp tiếng nói phương pháp LPC 37 Hình 2.12 Mơ hình tổng hợp tiếng nói phương pháp mơ 38 Hình 3.1 Sơ đồ khối mơ hình đơn giản việc phát âm 40 Hình 3.2 Sơ đồ dị tìm formant dựa lọc đảo 52 Hình 3.3 Ảnh hưởng số điểm tính FFT dạng đường bao phổ 53 Hình 3.4 Nội suy parabol điểm 53 Hình 3.5 Sơ đồ dị tìm chu kì sử dụng thuật tốn SIFT 55 Hình 3.6 Mơ hình vật lý q trình tạo tiếng nói 57 Hình 3.7 Mơ hình tạo tiếng nói LPC 58 Hình 3.8 Mơ hình lọc 59 Hình 3.9 Mơ hình lọc lưới 59 NGUYỄN ĐÌNH AN LUẬN VĂN THẠC SĨ: XỬ LÝ TIẾNG NÓI Phương pháp hiệp biến Phương pháp hiệp biến đặt n0 = 0, n1 = N - 1, sai số bình phương trung bình tối thiểu đoạn [0, N - 1] Ta có: N 1 (i, k ) x(n i) x(n k ) i p k p n 0 Bằng cách đổi biến biểu thức tương đương với: (i, k ) N 1i x ( n) x ( n i k ) (3.76) n i Khi i=p dễ thấy (3.76) liên quan đến mẫu từ x(-p) đến x(N - - p) k=0 (3.76) liên quan đến mẫu từ x(0) đến x(N - 1) Do để tính theo phương pháp cần mẫu từ x(-p) đến x(N-1), Ngoài mẫu khoảng xét cần thêm p mẫu trước khoảng xét Dạng ma trận (3.67) là: R a r (3.77) Trong đó: a1 (1,1) (1,2) (1, p) (1,0) a (2,1) (2,2) (2, p) , a , r (2,0) R a p ( p,1) ( p,2) ( p, p) ( p,0) R ma trận đối xứng ma trận Toeplitz (3.77) giải hiệu nhờ sử dụng giải thuật Cholesky 3.4 Xây dựng mơ hình Sơ đồ chung mơ hình phân tích tổng hợp LPC mơ tả qua sơ đồ sau: NGUYỄN ĐÌNH AN 68 LUẬN VĂN THẠC SĨ: XỬ LÝ TIẾNG NĨI Hình 3.15 Mơ hình phân tích tổng hợp tiếng nói phương pháp LPC Mơ hình bao gổm hai phần: phân tích tổng hợp Phần phân tích tìm thấy phần truyền tín hiệu hệ thống, sử dụng tín hiệu tiếng nói ban đầu để rút tham số (hệ số LPC) tín hiệu dư (nguồn âm), sau tham số tín hiệu dư truyền qua kênh Phần tổng hợp, mà thấy phần nhận hệ thống, xây dựng lại tín hiệu tiếng nói ban đầu từ tham số tín hiệu dư nhận từ phần phân tích Sau nghiên cứu cụ thể khối 3.4.1 Khối phân tích LPC Phần phân tích thực chức phân tích để tìm tham số (các hệ số LPC) tín hiệu dư tín hiệu ban đầu sau truyền kết cho phần tổng hợp Hình sau rõ sơ đồ khối phần phân tích NGUYỄN ĐÌNH AN 69 LUẬN VĂN THẠC SĨ: XỬ LÝ TIẾNG NĨI Hình 3.16 Mơ hình phân tích LPC Khối Pre-Emphasis: Đây lọc hiệu chỉnh dùng để loại bớt thành phần chiều làm cho hệ thống không phân biệt đối xử với thành phần tần số khác nhau, làm cho phổ đồng Thực chất lọc thông cao với hàm truyền đạt: H(z) = 1- az -1 (với a = 0.95÷0.98) Hay s’(n) = s(n) – a.s(n-1) với s(n), s’(n) tương ứng tín hiệu vào lọc Khối Overlap Analys Window: Khối thực chức phân khung, tức chia chuỗi tín hiệu đầu vào thành khung (frame) có kích thước cố định N (thường 160, 180, 256, 512 1024 mẫu tín hiệu) Để cho tín hiệu xử lý liên tục khơng gián đoạn tín hiệu trơn khung thường gối chồng lên nhau, khung kề chồng lên M mẫu tín hiệu, tức khung liên tiếp trùng M mẫu tín hiệu Nếu M lớn tín hiệu đầu trơn, mịn Thường chọn M 1/2, 2/3 3/4 chiều dài khung N Cửa sổ Hamming: Cửa sổ có chức giảm sai số phân tích giảm tính gián đoạn điểm đầu cuối khung (làm thon tín hiệu hai đầu khung) NGUYỄN ĐÌNH AN 70 LUẬN VĂN THẠC SĨ: XỬ LÝ TIẾNG NĨI Phương trình tốn học cửa sổ sau: w(n) 0.54 0.46 cos(2 n ) n N 1 N 1 với N chiều dài cửa sổ s' (n) (0.54 0.46 cos(2 n ) ).s(n) N 1 với s(n), s’(n) tương ứng tín hiệu vào cửa sổ Khối Autocorrelation: Khối dùng để tính giá trị tương quan dùng làm đầu vào cho khối tính hệ số LPC Cơng thức tính giá trị tương quan sau: r (i) N 1i x ( n) x ( n i ) n 0 Trong đó: x(n) tín hiệu tiếng nói khung có độ dài N i = 0,1,…,p (p bậc lọc LPC) Khối Levinson-Durbin: Khối dùng để tính hệ số LPC theo giải thuật Levinson-Durbin Khối nhận đầu vào hệ số tương quan tính khối Autocorrelation đầu hệ số LPC Khối Time-varying Analysis Filter: Đây lọc đảo không truy hồi LPC, lọc xây dựng dựa mơ hình tồn điểm khơng Đây khối cuối mơ hình phân tích LPC, khối nhận đầu vào tín hiệu sau hiệu chỉnh hệ số LPC sau tính tín hiệu nguồn (chính tín hiệu dư) theo mơ hình tiên đốn tuyến tính: x(n) = a1x(n-1) + a2x(n-2) + … + apx(n-p) NGUYỄN ĐÌNH AN 71 LUẬN VĂN THẠC SĨ: XỬ LÝ TIẾNG NÓI 3.4.2 Khối tổng hợp LPC Khối tổng hợp thực trình ngược lại với khối phân tích, tức tổng hợp lại tiếng nói ban đầu từ hệ số LPC tín hiệu dư (nguồn âm) nhận từ phía phân tích Hình sau mơ tả sơ đồ khối tổng hợp LPC Hình 3.17 Mơ hình tổng hợp tiếng nói LPC Khối Time-Varying Synthesis Filter: Đây lọc truy hồi LPC, xây dựng dựa mơ hình tồn điểm cực, dùng để tổng hợp lại tín hiệu tiếng nói ban đầu từ tín hiệu nhận từ khối phân tích Bộ lọc hệ đảo lọc đảo LPC có hàm truyền đạt H ( z) 1 , A(z) hàm truyền đạt lọc 1 A( z ) a1 z a z 2 a p z p đảo LPC Như vậy: y(n) = x(n) + a1y(n-1) + a2y(n-2) + … + apy(n-p) Trong x(n), y(n) tương ứng tín hiệu vào lọc Khối De-Emphasis: Đây lọc hiệu chỉnh ngược với khối Pre-Emphasis pha phân tích, chức dùng để hiệu chỉnh lại tín hiệu sau tổng hợp đầu cho ta tín hiệu tổng hợp lại Bộ lọc có hàm truyền đạt: H ( z ) ,với hệ số a giống khối az 1 Pre-Emphasis Như s’(n) = s(n) + a.s(n-1) với s(n), s’(n) tương ứng tín hiệu vào lọc NGUYỄN ĐÌNH AN 72 LUẬN VĂN THẠC SĨ: XỬ LÝ TIẾNG NÓI 3.5 Chuẩn LPC 10e 3.5.1 Giới thiệu Trong mơ hình LPC nêu phần trên, tham số truyền bao gồm hệ số LPC tín hiệu dư (nguồn âm) tín hiệu tiếng nói ban đầu, phương pháp có ưu điểm tiếng nói tổng hợp xác, nhược điểm lớn tỷ lệ nén không cao Một yêu cầu thực tế cần hệ thống tổng hợp tiếng nói có chất lượng tiếng nói tổng hợp chấp nhận yêu cầu tỷ lệ nén phải cao Vì phương pháp LPC có cải tiến LPC - 10e cải tiến áp dụng cho mơ hình tổng hợp LPC LPC - 10e đạt tỷ lệ nén cao nhờ phát triển mơ hình ngắn hạn, trạng thái ổn định ống âm truyền tham số mã hoá lượng tử mơ hình Tức thay phải truyền tín hiệu nguồn âm, LPC - 10e truyền tham số liên quan đến tín hiệu nguồn mã hoá lượng tử Ở phần tổng hợp, tổng hợp tổng hợp lại tín hiệu nguồn sau tổng hợp tín hiệu tiếng nói ban đầu Đặc điểm LPC - 10e Mơ hình LPC áp dụng với lọc LPC bậc 10 Mơ hình LPC đại diện vector tham số có dạng: A = (a1, a2, a3, a4, a5, a6, a7, a8, a9, a10, G, V/UV, T) Trong đó: (i=1,2,…,10) hệ số lọc LPC G - trọng số kích thích V/UV - định âm hữu hay vô T - chu kỳ pitch (chỉ áp dụng với âm hữu thanh) Tín hiệu tiếng nói 16 bit lấy mẫu tần số 8kHz chia thành frame có kích thước 22.5 ms (hay 180 mẫu), tốc độ frame 44.44 frame/sec Mỗi frame đặc trưng vector A vector A thay đổi theo frame Như 180 mẫu tiếng nói: S = (s(0), s(1), s(2), … , s(179)) NGUYỄN ĐÌNH AN 73 LUẬN VĂN THẠC SĨ: XỬ LÝ TIẾNG NÓI đặc trưng 13 giá trị vector A Mỗi frame mã hoá thành 54 bit truyền đi, tốc độ bit 2,4kbps Như q trình phân tích tổng hợp theo LPC 10e chia làm trình sau: Phân tích LPC: Từ tín hiệu tiếng nói ban đầu S, tìm vector tham số A tốt mà đặc trưng cho tín hiệu S Tổng hợp LPC: Từ vector tham số A, tổng hợp thành tín hiệu tiếng nói S 3.5.2 Xây dựng mơ hình Mơ hình phân tích tổng hợp LPC mơ tả qua sơ đồ sau: s(n) Phân tích LPC s’(n) Tổng hợp LPC Ak A’k Mã hố Dịng bit Giải mã 2.4 kbps Hình 3.18 Sơ đồ phân tích tổng hợp LPC Sơ đồ cho thấy, mơ hình phân tích tổng hợp LPC chia thành khối chính: Phân tích: khối nhận đầu vào frame tín hiệu tiếng nói s(n) phân tích tìm vector tham số A đặc trưng cho frame Mã hố: khối lượng tử mã hoá vector tham số A thành chuỗi bit để truyền qua kênh với giải thông 2.4 kbps Giải mã: khối giải mã dòng bit nhận từ kênh truyền để nhận vector tham số A’ (vector xấp xỉ vector A) Tổng hợp LPC: khối nhận đầu vào vector tham số A’ tạo tín hiệu tiếng nói s’(n) ( tín hiệu xấp xỉ tín hiệu tiếng nói ban đầu s(n)) NGUYỄN ĐÌNH AN 74 LUẬN VĂN THẠC SĨ: XỬ LÝ TIẾNG NĨI 3.5.2.1 Phân tích Khối phân tích nhận đầu vào 180 mẫu tín hiệu tiếng nói: S = (s(0), s(1), s(2), … , s(179)) Và tìm vector tham số thích hợp đặc trưng cho 180 mẫu tín hiệu này: A = (a1, a2, a3, a4, a5, a6, a7, a8, a9, a10, G, V/UV, T) Như vấn đề khối phân tích là: Xác định hệ số LPC: (i=1,…,10) Xác định gain: G Xác định tiếng nói V/UV Chu kỳ pitch: T Xác định hệ số LPC Các hệ số LPC xác định phương pháp tự tương quan (điển hình thuật tốn Levinson – Durbin) phương pháp tuyến tính, hai phương pháp mơ tả phẩn Ở dùng giải thuật Levinson – Durbin: for i=1,2,…,10 E 0 r (0) i 1 ki r (i) (ji 1) r i j E (i 1) j 1 , k 1, p for j=1,2, ,i-1 i(i ) ki (ji ) (ji 1) ki i(i j1) , j 1, i E (i ) (1 ki2 ) E (i 1) NGUYỄN ĐÌNH AN 75 LUẬN VĂN THẠC SĨ: XỬ LÝ TIẾNG NÓI Xác định Gain Theo chuẩn LPC 10e, G (gain) xác định lượng RMSE (Root Mean Square Energy) khung tín hiệu nguồn Ở lượng RMSE tính theo cơng thức: 179 En u n (i) 180 i 0 1/ Với: En lượng RMSE frame thứ n un(i) mẫu tín hiệu nguồn thứ i frame thứ n Xác định pitch voicing Chuẩn LPC 10e cải tiến cách thay phải truyền tín hiệu nguồn, cần truyền tham số tín hiệu nguồn Các tham số bao gồm: Voicing (voiced/unvoiced) pitch (chu kỳ) Voing pitch xác định dựa dạng sóng tín hiệu nguồn Pitch xác định cho frame cách tối thiểu hố hàm vi sai biên độ trung bình AMDF (Average Magnitude Difference Function) Ở hàm vi sai biên độ trung bình tính theo tín hiệu nguồn frame liệu chu kỳ nằm khoảng xác định pitch: AMDF ( ) T | u (t ) u (t ) | dt T 0 với u(t) tín hiệu nguồn tín hiệu tiếng nói ban đầu 20 ; 156 khoảng xác định pitch Hay tính theo: AMDF ( ) R(0) R( ) 1/ , < Trong đó: R( ) tự tương quan tín hiệu nguồn, tính theo cơng thức: R( ) 179 u(n).u(n ) , u(n) tín hiệu nguồn n 0 NGUYỄN ĐÌNH AN 76 LUẬN VĂN THẠC SĨ: XỬ LÝ TIẾNG NÓI Sau có tập giá trị hàm AMDF, pitch voicing xác định dựa giá trị AMDF nhỏ nhất, khoảng cách giá trị AMDF nhỏ cho ta chu kỳ pitch voicing (voiced - hữu thanh) Ngược lại pitch khơng tồn voicing (unvoiced - vơ thanh) 3.5.2.2 Mã hố Khối mã hố thực mã hố vector tham số A thành gói liệu 54 bit để truyền đi: Thành phần Số bit mã hoá Đồng frame bit Pitch voicing bit Cường độ (Gain) bit A1 bit A2 bit A3 bit A4 bit A5 bit A6 bit A7 bit A8 bit A9 bit A10 bit Tổng cộng 54 bit Bảng Sự phân bố bít mã hố Trong đó: A1 A2 : mã hố theo LARs (Log Area Ratio) A3 – A10 : mã hố tuyến tính NGUYỄN ĐÌNH AN 77 LUẬN VĂN THẠC SĨ: XỬ LÝ TIẾNG NÓI G (gain): mã hố phương pháp tìm kiếm bảng nhị phân Pitch voicing: mã hố bảng tìm kiếm Như dịng bít truyền đi, có 41 bit sử dụng cho hệ số phản xạ, 7bit cho điểm pitch voiced/unvoiced, bit cho Gain, bit thêm sử dụng cho việc đồng Tức tổng số 54 bit sử dụng cho frame gửi đi, tạo dòng liệu nén với tốc độ bit là: 54 bit/frame * 44.44 frame/sec = 2400 bit/sec Đối với frame vơ pitch khơng tồn tại, bit pitch voicing kết hợp thành ký tự đơn Đối với frame hệ số LPC (A1 – A4) mã hố, frame vơ có đặc điểm có điểm cực Và 21 bit cịn lại sử dụng để mã hóa cho tham số quan trọng frame vô thanh: gain hệ số LPC A1 – A4 Gói liệu tiếng nói (1- 54 bit) silience 32 21 Các hệ số phản xạ từ a5 – a10 Pitch, voicing, Gain Các hệ số phản xạ từ a1 – a4 Slient frame Unvoiced frame Voiced frame Hình 3.19 Cấu trúc gói liệu theo chuẩn LPC 10e Giải thuật mã hoá tham số tiếng nói mơ tả sau: Trước hết chuyển đổi tham số gain hệ số phản xạ thành số nguyên Thứ hai, mã hoá pitch voicing theo luật sau: Nếu frame tiếng nói (v =1, với v định voicing) mã hố ipitch = entau[pitch -1], ipitch giá trị mã hố pitch entau bảng dị tìm pitch NGUYỄN ĐÌNH AN 78 LUẬN VĂN THẠC SĨ: XỬ LÝ TIẾNG NÓI Nếu frame khơng phải tiếng nói (v=0) ipitch = Thứ ba, mã hố gain phương pháp tìm kiếm nhị phân bảng giá trị lượng RMS Thứ tư, mã hoá A1 A2 theo LARs bảng tra cứu LAR Thứ năm, mã hố tuyến tính A3 – A10 Cuối áp dụng chế bảo vệ lỗi tham số quan trọng frame hữu 3.5.2.3 Giải mã Khối giải mã giải mã gói liệu 54 bit nhận thành vector tham số đặc trưng cho tín hiệu tiếng nói ban đầu: A’ = (a1, a2, a3, a4, a5, a6, a7, a8, a9, a10, G, V/UV, T) Thuật toán mã hố tham số tiếng nói mơ tả sau: Đầu tiên tham số pitch voicing giải mã Nếu khơng có lỗi tham số giải mã mà không cần phải hỗn lại Khi voicing frame đặt Việc giải mã pitch thực nhờ phép nội suy tuyến tính, sau pitch làm trơn Sau hệ số LPC làm trơn giải mã Trong việc giải mã A A2 thực cách nội suy LARs (Log Area Ratio) Còn A3 – A10 giải mã nhờ thực nội suy tuyến tính Tiếp theo Gain giải mã nhờ thực nội suy Logarit Cuối Gain hệ số LPC chuyển đổi từ số nguyên thành số thực Trong trường hợp có lỗi tất bit tham số quan trọng bảo vệ mã Hamming làm trơn trung vị 3.5.2.4 Tổng hợp Khối tổng hợp nhận vào vector tham số đặc trưng cho frame tín hiệu tiếng nói ban đầu tổng hợp lại thành frame tín hiệu NGUYỄN ĐÌNH AN 79 LUẬN VĂN THẠC SĨ: XỬ LÝ TIẾNG NÓI Việc tổng hợp diễn sau: Tạo tín hiệu nguồn kích thích: việc tạo tín hiệu nguồn thực dựa vào voicing chu kỳ pitch: Nếu frame tiếng nói (voiced): nguồn âm tạo từ chuỗi xung đơn vị tuần hoàn với chu kỳ pitch cho qua lọc thơng thấp tần số cắt khoảng 100 Hz Nếu khơng phải frame tiếng nói (unvoiced): nguồn âm tạo nhiễu ngẫu nhiên (ở dùng hàm Gausse ngẫu nhiên) Dựa vào hệ số Gain để xác định biên độ tín hiệu nguồn Tổng hợp tín hiệu ban đầu cách cho tín hiệu nguồn kích thích qua lọc tổng hợp LPC mà xác định hệ số tiên đốn tuyến tính sau hiệu chỉnh để làm trơn tín hiệu tổng hợp NGUYỄN ĐÌNH AN 80 LUẬN VĂN THẠC SĨ: XỬ LÝ TIẾNG NÓI KẾT LUẬN VÀ KIẾN NGHỊ Xử lý tiếng nói lĩnh vực giới nghiên cứu, với ngơn ngữ tiếng nói có đặc trưng khác Bản thân với ngôn ngữ vùng miền khác có đặc trưng khác Trong luận văn , đề cấp tới vấn đề xử lý tiếng nói : tổng hợp tiếng nói, mã hóa tiếng nói Từ sâu vào nghiên cứu ứng dụng LPC (Linear Predictive Coding – Mã dự đoán tuyến tính) việc xử lý tiếng nói Đây phương pháp ứng dụng nhiều xử lý tiếng nói tính hiệu tốc độ tính tốn nhanh Trong xử lý tiếng nói việc xác định tham số tiếng nói như: tần số bản, formant, phổ tín hiệu , hàm truyền đạt…là quan trọng Phương pháp LPC coi kỹ thuật chiếm ưu việc phân tích tiếng nói Trong luận văn tập trung sâu nghiên cứu phương pháp LPC xử lý tiếng nói Từ hiểu nguyên lý phương pháp dự đốn tuyến tính LPC việc ước lượng xác tham số quan trọng phân tích tiếng nói, tổng hợp tiếng nói Để hồn thiện vấn đề nghiên cứu phương pháp dự đốn tuyến tính LPC, thời gian tới tác giả tiếp tục nghiên cứu phương pháp LPC ứng dụng việc nhận dạng tiếng nói Cuối lần tác giả xin gửi lời cảm ơn vơ sâu sắc đến PGS.ĐỒN NHÂN LỘ tận tình hướng dẫn bảo để hồn thành luận văn NGUYỄN ĐÌNH AN 81 LUẬN VĂN THẠC SĨ: XỬ LÝ TIẾNG NÓI TÀI LIỆU THAM KHẢO Tiếng Việt: Nguyễn Quốc Trung (2000), xử lý tín hiệu lọc số - tập 1, tập Tiếng Anh: Xuedong huang, Alex Acero & Hsiao Wuen Hon(2001), Spoken Language Processing Guastafsson, H., Nordholm, S., and Claesson, I.(2001), Spectral subtraction using reduced delay convolution and adaptive averaging, IEEE Trans Speech Audio Process., 9(8), 799-807 Editors Jacob Benesty, M Mohan Sondhi and Yiteng Huang, Handbook of Speech Processing, Springer-Verlag Berlin, 2008 John Holmes and Wendy Holmes, Speech Synthesis and Recognition, second edition, Taylor and Francis, 2001 NGUYỄN ĐÌNH AN 82 ... NGUYỄN ĐÌNH AN LUẬN VĂN THẠC SĨ: XỬ LÝ TIẾNG NÓI Các phương pháp xử lý tiếng nói như: tổng hợp tiếng nói, mã hóa tiếng nói, phân tích tiếng nói Chương 3: Ứng dụng LPC xử lý tiếng nói Chương đề... ĐÌNH AN 19 LUẬN VĂN THẠC SĨ: XỬ LÝ TIẾNG NÓI CHƯƠNG 2: TỔNG QUAN VỀ XỬ LÝ TIẾNG NÓI 2.1 Một số kiến thức chung xử lý tín hiệu rời rạc 2.1.1 Mơ hình hệ xử lý tín hiệu rời rạc Một hệ xử lý tín hiệu... AN 38 LUẬN VĂN THẠC SĨ: XỬ LÝ TIẾNG NÓI CHƯƠNG 3: ỨNG DỤNG CỦA LPC TRONG XỬ LÝ TIẾNG NĨI 3.1 Phương pháp dự đốn tuyến tính xử lý tiếng nói Một cơng cụ mạnh sử dụng việc phân tích tiếng nói phương