1. Trang chủ
  2. » Giáo Dục - Đào Tạo

Nghiên cứu các thuật toán nén tiếng nói tốc độ thấp

75 414 1

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Cấu trúc

  • Chương 1

  • Chương 2

  • Chương 3

  • Kết luận

Nội dung

Trường Đại học Bách khoa Hà Nội – Viện Điện tử - Viễn thông LỜI CAM ĐOAN Luận văn hoàn thành sau thời gian nghiên cứu tìm hiểu nguồn tài liệu học, sách báo chuyên ngành thông tin Internet mà theo hoàn toàn tin cậy Tôi xin cam đoan luận văn không giống với công trình nghiên cứu hay luận văn trước mà biết Hà Nội, ngày 11 tháng 11 năm 2016 Người thực Bùi Đức Chính Bùi Đức Chính KTĐT2014A Trường Đại học Bách khoa Hà Nội – Viện Điện tử - Viễn thông MỤC LỤC LỜI CAM ĐOAN MỤC LỤC DANH MỤC CÁC TỪ VIẾT TẮT DANH MỤC BẢNG BIỂU .6 DANH MỤC HÌNH VẼ MỞ ĐẦU CHƯƠNG 1: NGHIÊN CỨU TỔNG QUAN VỀ CÁC VẤN ĐỀ CƠ BẢN TRONG VIỆC NÉN TIẾNG NÓI 11 1.1 Tổng quan tiếng nói người 11 1.1.1 Mô hình tiếng nói người 11 1.1.2 Các tính chất bản của tiếng nói 15 1.2 Tổng quan hệ thống nén tiếng nói 17 1.2.1 Cấu trúc của hệ thống nén tiếng nói 17 1.2.2 Những yêu cầu nén tiếng nói 20 1.2.3 Phân loại nén tiếng nói 21 1.3 Một số kỹ thuật mã hóa dạng sóng 24 1.3.1 Một số kỹ thuật mã dạng sóng miền thời gian 25 1.3.2 Một số kỹ thuật mã dạng sóng miền tần số 25 1.4 Một số kỹ thuật mã hóa tham số .26 1.5 Một số kỹ thuật mã hóa lai .27 1.6 Hiệu 30 1.7 Ứng dụng của mô hình nén tiếng nói .33 1.8 Một số chuẩn nén tiếng nói sử dụng thông tin 33 Bùi Đức Chính KTĐT2014A Trường Đại học Bách khoa Hà Nội – Viện Điện tử - Viễn thông CHƯƠNG THUẬT TOÁN NÉN TIẾNG NÓI CELP VÀ ACELP 35 2.1 Kỹ thuật mã hóa kích thích mã CELP 35 2.1.1 Cấu trúc mô hình thuật toán CELP 35 2.1.2 Mô tả khối chức của mã hóa CELP .38 2.1.3 Mô tả khối chức của giải mã 45 2.2 Kỹ thuật mã hóa kích thích mã đại số ACELP 46 2.2.1 Cấu trúc mô hình thuật toán ACELP .46 2.2.2 Chuẩn mã hóa AMR 49 CHƯƠNG MÔ PHỎNG KỸ THUẬT MÃ HÓA CELP TRÊN MATLAB 66 3.1 Thực chương trình mô CELP MatLab 66 3.1.1 Phân tích LPC 67 3.1.2 Tìm tham số kích thích .68 3.1.3 Lượng tử tham số kích thích 69 3.1.4 Tính tín hiệu tổng hợp từ tham số kích thích .69 3.2 Kết quả 69 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN .74 TÀI LIỆU THAM KHẢO 75 Bùi Đức Chính KTĐT2014A Trường Đại học Bách khoa Hà Nội – Viện Điện tử - Viễn thông DANH MỤC CÁC TỪ VIẾT TẮT Từ viết tắt Từ gốc tiếng Anh Dịch tiếng Việt ACB Adaptive Codebook Sách mã thích nghi ACELP Algebraic Code – Excited Linear Dự đoán tuyến tính kích thích Prediction mã đại số Adaptive Diffrential Pulse Code Điều chế xung mã vi phân Modulation thích nghi AMR Adaptive Multi Rate Đa tốc độ thích nghi ATC Adaptive Transform Coding Mã biến đổi thích nghi CELP Code – Excited Linear Prediction Dự đoán tuyến tính kích thích ADPCM mã DAM Diagnostic Acceptability Measure Đo chấp nhận chẩn đoán DCT Discrete Cosine Transform Biến đổi Cosin rời rạc DFT Discrete Fourier Transform Biến đổi Fourier rời rạc DM Delta Modulation Điều chế Delta DPCM Diffrential Pulse Code Điều chế xung mã vi phân Modulation DRT Diagnostic Rhyme Test Kiểm tra vần chẩn đoán DWHT Discrete Walsh Hadamard Biến đổi Walsh Hadamard rời Transform rạc KLT Karhunen – Loeve Transform Biến đổi Karhunen - Loeve LP Linear Prediction Dự đoán tuyến tính LPC Linear Predictive Coding Mã dự đoán tuyến tính LSP Line Spectrum Pairs Cặp phổ vạch Bùi Đức Chính KTĐT2014A Trường Đại học Bách khoa Hà Nội – Viện Điện tử - Viễn thông LTP Long Term Prediction Dự đoán thời gian dài MELP Mixed – Excitation Linear Dự đoán tuyến tính kích thích Prediction kết hợp MOS Mean Opinion Score Điểm đánh giá trung bình MPE Multi – Pulse Excitation Kích thích đa xung MSE Mean Square Error Trung bình bình phương sai số PCM Pulse Code Modulation Điều chế xung mã PCN Personal Communication Network Mạng truyền thông cá nhân PESQ Perceptual Evaluation of Speech Đánh giá cảm nhận chất lượng Quality tiếng nói Residual – Excited Linear Dự đoán tuyến tính kích thích Prediction tín hiệu sau dự đoán RPE Regular Pulse Excitation Kích thích xung RPE-LTP Regular Pulse Excitation – Long Kích thích xung dự đoán Term Prediction thời gian dài SBC Subband Coding Mã hóa băng SNR Signal to Noise Radio Tỉ số tín hiệu tạp âm STP Short Term Prediction Dự đoán thời gian ngắn TC Transform Coding Mã hóa biến đổi UMTS Universal Mobile Hệ thống viễn thông di động Telecommunication System toàn cầu VAD Voice Activity Detector Bộ nhận dạng tiếng nói VSELP Vector Sum Excited Linear Dự đoán tuyến tính kích thích Prediction vectơ tổng RELP Bùi Đức Chính KTĐT2014A Trường Đại học Bách khoa Hà Nội – Viện Điện tử - Viễn thông DANH MỤC BẢNG BIỂU Bảng 1.1 Phân loại nén tiếng nói theo kỹ thuật nén .22 Bảng 1.2 Một số chuẩn mã hóa tiếng nói 34 Bảng 2.1 Cấu trúc bitstream AMR 51 Bảng 2.2 Cấu trúc sách mã đại số 61 Bùi Đức Chính KTĐT2014A Trường Đại học Bách khoa Hà Nội – Viện Điện tử - Viễn thông DANH MỤC HÌNH VẼ Hình 1.1 Các phận tạo tiếng nói 13 Hình 1.2 Mô hình học trình phát âm người 14 Hình 1.3 Mô hình dạng ống của quan phát âm người 14 Hình 1.4 Mô hình hóa tiếng nói người 15 Hình 1.5 Dạng sóng tín hiệu tiếng nói .16 Hình 1.6 Sơ đồ khối của hệ thống truyền thông tiếng nói .18 Hình 1.7 Sơ đồ khối của nén tiếng nói .19 Hình 1.8 Các thành phần của trễ nén .21 Hình 1.9 Chất lượng tiếng nói so với tốc độ bit của mã hóa 22 Hình 1.10 Sơ đồ khối của mã hóa lai 24 Hình 1.11 Mô hình kĩ thuật tổng hợp tiếng nói 26 Hình 1.12 Mô hình tổng hợp CELP 28 Hình 1.13 Mô hình phân tích CELP 29 Hình 1.14 Hiệu DRT của số mã hóa 31 Hình 1.15 Hiệu DAM của số mã hóa 32 Hình 1.16 Hiệu MOS của số mã hóa 32 Hình 2.1 Sơ đồ khối tổng hợp tiếng nói CELP 35 Hình 2.2 Sơ đồ khối phân tích tiếng nói CELP 37 Hình 2.3 Cấu trúc của ACB .42 Hình 2.4 Phương pháp tìm kiếm ACB .43 Hình 2.5 Cấu trúc thông thường của sách mã cố định .44 Hình 2.6 Cấu trúc kiểu phủ của sách mã cố định .44 Hình 2.7 Phương pháp tìm kiếm sách mã cố định 44 Bùi Đức Chính KTĐT2014A Trường Đại học Bách khoa Hà Nội – Viện Điện tử - Viễn thông Hình 2.8 Sơ đồ nguyên lý chung thuật toán ACELP .47 Hình 2.9 Hàm cửa sổ với tốc độ 12.2kbps .53 Hình 2.10 Cơ chế tìm sách mã thích nghi 56 Hình 3.1 Sơ đồ khối nén tín hiệu tiếng nói 70 Hình 3.2 Sơ đồ khối tổng hợp tín hiệu tiếng nói 70 Hình 3.3 Phổ tín hiệu tiếng nói sau nén tổng hợp lại với bậc LP 70 Hình 3.4 Phổ tín hiệu tiếng nói sau nén tổng hợp lại với bậc LP 10 70 Hình 3.5 Phổ tín hiệu tiếng nói sau nén tổng hợp lại với bậc LP 25 71 Hình 3.6 Phổ của tín hiệu tiếng nói 1.wav .71 Hình 3.7 Phổ của tín hiệu tiếng nói 2.wav .72 Hình 3.8 Phổ tín hiệu tiếng nói sau nén tổng hợp lại sử dụng CELP .72 Hình 3.9 So sánh phổ của tín hiệu tiếng nói ban đầu tín hiệu tiếng nói sau nén tổng hợp lại 73 Bùi Đức Chính KTĐT2014A Trường Đại học Bách khoa Hà Nội – Viện Điện tử - Viễn thông MỞ ĐẦU Tiếng nói phương tiện chủ yếu mà người sử dụng để liên lạc giao tiếp hàng ngày Ngày phương tiện truyền thông phát triển số người sử dụng phương tiện liên lạc tăng lên việc mã hoá tiếng nói nhà khoa học, công nghệ giới quan tâm nghiên cứu, kết quả ứng dụng rộng rãi lĩnh vực truyền thông giải trí gọi điện thoại truyền thống, gọi qua mạng di động, qua mạng Internet, qua vệ tinh, v.v Đặc biệt, điều kiện công nghệ thông tin, truyền thông phát triển mạnh vấn đề xử lý tiếng nói nghiên cứu ứng dụng rộng rãi Mặc dù với phát triển của công nghệ truyền thông qua xuất của cáp quang, băng thông thông tin hữu tuyến trở nên rẻ không còn vấn đề lớn giá thành của gọi truyền thông Tuy nhiên nhu cầu bảo tồn băng thông nâng cao tính riêng tư truyền thông tế bào không dây truyền thông vệ tinh vẫn gia tăng cần phải trì băng thông ở mức định Trong thực tế, truyền thông tế bào vẫn có phát triển mạnh mẽ toàn giới có nhiều thiết bị thiết kế hướng tới thiết lập truyền thông di động toàn cầu thông qua mạng truyền thông cá nhân không dây (PCN - personal communication networks) Một hướng phát triển khác tích hợp ứng dụng có liên quan tới tiếng nói (ví dụ, thư thoại) máy tính để bàn máy tính xách tay (thường ngữ cảnh truyền thông đa phương tiện) Hầu hết ứng dụng yêu cầu tín hiệu tiếng nói dạng số hóa cho xử lý, lưu trữ truyền nhờ điều khiển phần mềm Tín hiệu tiếng nói (thoại) số có nhiều hội để thực bảo mật, nhiên tín hiệu thoại số (nếu không nén) vẫn liên quan tới tốc độ cao vẫn cần yêu cao băng thông phát dung lượng nhớ lưu trữ Vì việc nén tiếng nói cần thiết, giúp giảm thiểu số lượng tín hiệu cần truyền đường truyền vẫn đảm bảo chất lượng của gọi Bùi Đức Chính KTĐT2014A Trường Đại học Bách khoa Hà Nội – Viện Điện tử - Viễn thông Các vấn đề trình bày sở chủ yếu để lựa chọn đề tài: “Nghiên cứu thuật toán nén tiếng nói tốc độ thấp”, với mục đích nghiên cứu tìm hiểu số thuật toán nén tiếng nói tốc độ thấp nhằm áp dụng vào thực tiễn Trong khuôn khổ của luận văn, chúng ta sẽ tiến hành xem xét nghiên cứu tổng quan vấn đề bản của việc nén tiếng nói số thuật toán nén tiếng nói, tập trung vào việc nghiên cứu thuật toán nén tiếng nói CELP ACELP Luận văn bao gồm phần mở đầu, ba chương phần kết luận: - Phần mở đầu: Trình bày sở lý lựa chọn luận văn, mục đích, đối tượng phương pháp nghiên cứu luận văn - Chương 1: Nghiên cứu tổng quan vấn đề bản việc nén tiếng nói - Chương 2: Tìm hiểu thuật toán nén tiếng nói CELP ACELP - Chương 3: Mô thuật toán CELP MatLab - Phần kết luận: Kết luận chung cho chương luận văn Nhấn mạnh những vấn đề giải đồng thời trình bày vấn đề vẫn chưa giải đưa kiến nghị, đề xuất Trong trình thực luận văn không tránh khỏi những thiếu sót, mong nhận những ý kiến đóng góp quý báu của thầy cô giáo để luận văn hoàn thiện có ý nghĩa thực tế Qua đây, xin gửi lời cám ơn tới thầy cô Viện Điện tử - Viễn thông trường Đại học Bách khoa Hà Nội trang bị cho những kiến thức bản, bạn bè gia đình động viên, hỗ trợ Đặc biệt, xin chân thành cám ơn TS Đặng Quang Hiếu nhiệt tình hướng dẫn, giúp đỡ hoàn thành công trình Tôi xin chân thành cám ơn! Bùi Đức Chính 10 KTĐT2014A Trường Đại học Bách khoa Hà Nội – Viện Điện tử - Viễn thông • Độ phân giải sách mã 1/3 nên có 256 từ mã • Do subframe 1,3 cần bit để mã hóa số của từ mã • Khoảng tìm kiếm cho subframe tùy tốc độ mà có khoảng khác nhau, thường khoảng nhỏ dần nên cần ít bit để mã hóa • Hai cửa sổ nội suy ở có độ dài nội suy khác lần lượt là: 12 30 2.2.2.6 Sách mã đại số a Cấu trúc sách mã đại số Sách mã đại số chính Sách mã cố định - Fixed Codebook mô hình tổng hợp tiếng nói CELP [10] Nhưng ở sách mã có cấu trúc đặc biệt giúp giảm khối lượng tính toán cách tạo nên vectơ từ sách mã gồm phần lớn phần tử 0, số phần tử ±1 Một vectơ của sách mã có độ dài subframe (40 mẫu) Với tốc độ 12.2kbps, vectơ của sách mã đại số (innovation vector) gồm 10 xung khác (±1) 40 vị trí chia làm track, track sẽ chứa xung khác Cấu trúc của sách mã đại số thể bảng 2.2 [5] Bảng 2.2 Cấu trúc sách mã đại số Track Pulse Positions i0, i5 0, 5, 10, 15, 20, 25, 30, 35 i1, i6 1, 6, 11, 16, 21, 26, 31, 36 i2, i7 2, 7, 12, 17, 22, 27, 32, 37 i3, i8 3, 8, 13, 18, 23, 28, 33, 38 i4, i9 4, 9, 14, 19, 24, 29, 34, 39 Vị trí của xung track mã hóa bit (3bit/pulse) Nên cần 30 bit để mã hóa vị trí 10 xung Dấu của xung (±1) cần lưu trữ dấu cho track nên tất cả cần bit để biểu diễn dấu Dấu của xung thứ track phụ Bùi Đức Chính 61 KTĐT2014A Trường Đại học Bách khoa Hà Nội – Viện Điện tử - Viễn thông thuộc vào dấu của xung thứ ở track Nếu vị trí xung thứ nhỏ vị trí xung thứ chúng sẽ ngược dấu, cùng dấu ngược lại [9][10] Các tốc độ khác có sách mã đại số tương tự với số xung khác của innovation vector khác Nếu track có nhiều vị trí số bit để mã hóa vị trí xung cho track nhiều b Cách tìm kiếm sách mã đại số Việc tìm kiếm từ mã sách mã đại số nhằm mục đích cho sai số giữa tiếng nói tổng hợp lại tiếng nói gốc nhỏ Người ta sử dụng kết quả của việc tìm kiếm ở sách mã thích nghi để tìm kiếm sách mã đại số Cụ thể sau: x2(n) = x(n) – gpy(n), n=0, 1,…, 39 (2.49) Với: y(n) = v(n)*h(n) trình bày ở phần sách mã thích nghi gp hệ số tăng ích của sách mã thích nghi tính ở Cần tìm từ mã cho tham số sau lớn nhất: Ak C   k EDk d c   t k (2.50) ckt ck Với: - d = Ht.x2 : tương quan giữa x2(n) đáp ứng xung h(n) H ma trận tam giác với đường chéo lần lượt h(0), h(1),…, h(39) 39 d (n)   x2 (n)h(i  n) (2.51) i n - ø = HtH : ma trận tương quan của h(n) 39  (i, j )   h(n  i)h(n  j ) ( j  i) (2.52) n j Bùi Đức Chính 62 KTĐT2014A Trường Đại học Bách khoa Hà Nội – Viện Điện tử - Viễn thông - ck : từ mã của sách mã đại số (innovation vector) Do cấu trúc của sách mã đại số gồm số xung khác nên viết lại tử số của hệ số Ak sau: C N p 1  v d (m ) i i 0 (2.53) i Với: mi : vị trí xung thứ i (xung khác 0) vi : biên độ của xung khác thứ i Np : Số lượng xung (tại tốc độ 12.2kbps Np = 10) Đồng thời viết lại mẫu số của Ak sau: ED  N p 1 N p  N p 1   (m , m )    v v  (m ,m ) i i 0 i i  j i 1 i j i (2.54) j Do sách mã đại số gồm vectơ chứa 10 xung khác ±1 nên ta cần quan tâm đến dấu của vectơ v Việc tìm kiếm dấu phù hợp cho xung cần thông qua hệ số b(n) tính sau: resLTP (n) b( n)  39  res i 0 LTP  (i )resLTP (i) d ( n) 39 với n = 0,…, 39 (2.55)  d (i)d (i) i 0 Trong đó: 10 resLTP (n)  s(n)   aˆi s(n  i ) (2.56) i 1 Đây sai số giữa tín hiệu gốc tín hiệu sau tổng hợp Gọi sb(n) dấu của b(n): sb(n) = sign[b(n)] Từ ta tính lại hệ số ở sau: Bùi Đức Chính 63 KTĐT2014A Trường Đại học Bách khoa Hà Nội – Viện Điện tử - Viễn thông d '(n)  d (n) sb (n) (2.57)  '(i, j )  sb (i) sb ( j ) (i, j ) (2.58) C N p 1  d '(m ) ED  (2.59) i i 0 N p 1 N p  N p 1 i 0 i  j i 1   '(mi , mi )     '(m , m ) i (2.60) j Việc tìm kiếm vị trí xung thực sau:  Sau tính vectơ b(n) gồm 40 phần tử ứng với vị trí bảng cấu tạo từ mã của tốc độ 12.2kbps Tìm phần tử b(n) có giá trị tuyệt đối lớn ứng với track tương ứng  Xung i0 sẽ chọn ứng với phần tử b(n) có giá trị tuyệt đối lớn  Việc tìm kiếm lặp lại lần sau: - Xung i1 chọn xung ứng với vị trí có |b(n)| lớn ở track track còn lại (trừ track chứa i0) - Các xung còn lại sẽ tìm kiếm theo cặp {i2, i3}, {i4, i5}, {i6, i7}, {i8, i9} cùng vòng lặp Các xung chọn kiểm tra cho hệ số Ak ở lớn - Mỗi xung có vị trí để kiểm tra nên sẽ có tất cả 8.8 = 64 tổ hợp Với lần lặp sẽ có 256 tổ hợp cần kiểm tra Sau tìm tổ hợp 10 xung tốt hệ số tăng ích tính tương tự sách mã thích nghi: gc  x2t z zt z (2.61) Với: z tính phép chập giữa vectơ vừa chọn với h(n) Bùi Đức Chính 64 KTĐT2014A Trường Đại học Bách khoa Hà Nội – Viện Điện tử - Viễn thông n z (n)   c(i)h(n  i) (2.62) i 0 Các tốc độ khác có cách tìm kiếm tương tự, số xung khác sẽ ít nên sẽ tốn ít bit để mã hóa Trong chương 2, luận văn thực nghiên cứu tìm hiểu kỹ thuật nén tiếng nói CELP ACELP nghiên cứu chuẩn nén tiếng nói đa tốc độ AMR dựa thuật toán ACELP Từ ta thấy rõ bước thực của kỹ thuật nén tiếng nói việc lựa chọn, tính toán tham số theo tiêu chuẩn để nén xuống tốc độ khác Trong chương tiếp theo, luận văn sẽ thực mô thuật toán nén tiếng nói CELP MatLab Bùi Đức Chính 65 KTĐT2014A Trường Đại học Bách khoa Hà Nội – Viện Điện tử - Viễn thông CHƯƠNG MÔ PHỎNG KỸ THUẬT MÃ HÓA CELP TRÊN MATLAB Sau nghiên cứu tìm hiểu tổng quan vấn đề việc nén tín hiệu tiếng nói nghiên cứu số thuật toán nén tiếng nói CELP ACELP chuẩn nén tiếng nói AMR, luận văn sẽ thực mô kỹ thuật mã hóa CELP MatLab chương 3.1 Thực chương trình mô CELP MatLab Các khối chức của chương trình nén tín hiệu tiếng nói sau: - Thực nén tín hiệu tiếng nói (hình 3.1): + Phân tích LPC + Tìm tham số kích thích + Lượng tử tham số kích thích Thông tin LPC Z Kích khứ ebuf P Phân tích pitch vòng lặp mở Phân tích LPC lượng tử nội suy Lấy trọng số cảm nhận Thông tin LPC gp Sách mã thích nghi Tiếng nói vào Bộ lọc tổng hợp thời gian ngắn k gc Sách mã cố định Lấy trọng số cảm nhận Tìm MSE Lượng tử tăng ích Tăng ích Trễ pitch (P) Chỉ số sách mã (k) Thông tin LPC Ghép thành phần Đầu số Hình 3.1 Sơ đồ khối nén tín hiệu tiếng nói Bùi Đức Chính 66 KTĐT2014A Trường Đại học Bách khoa Hà Nội – Viện Điện tử - Viễn thông - Thực giải nén tín hiệu tiếng nói: tính tín hiệu tổng hợp từ tham số kích thích để so sánh (hình 3.2) Đầu vào số Chỉ số sách mã đại số k Trễ Pitch P Dự đoán tăng ích Kích khứ ebuf P Tăng ích gp Sách mã thích nghi Thông tin LPC Bộ lọc tổng hợp thời gian dài k Tách thành phần Bộ lọc tổng hợp thời gian ngắn Tiếng nói gc Sách mã cố định Hình 3.2 Sơ đồ khối tổng hợp (giải nén) tín hiệu tiếng nói 3.1.1 Phân tích LPC Các tham số lựa chọn cho phân tích LP hay LPC (hay dự đoán thời gian ngắn) thực cho khung Tframe = 20ms, với tần số lấy mẫu fs = 8kHz, khung có N = 160 mẫu, khung chia thành khung con, khung có độ dài Tsubf = 5ms, có Nsubf = 40 mẫu, bậc lọc phân tích LP M (chọn M = 10) Tính hàm tự tương quan của tín hiệu vào: N 1 R(k )   x(n) x(n  k ) với k = 0,…, M (3.1) nk Hàm tự tương quan được dùng để tính toán hệ số lọc A(z) cách giải hệ phương trình  a R  i  k   R(i), k Bùi Đức Chính 67 i  1, ,10 (3.2) KTĐT2014A Trường Đại học Bách khoa Hà Nội – Viện Điện tử - Viễn thông Hệ phương trình (3.2) giải sử dụng thuật toán LevinsonDurbin E (0)  R(0) (3.3.1) i 1 Ki  R(i)   a ij1R(i  j ) j 1 E (i 1) với  i  M (3.3.2) a (ji )  a (ji 1)  Ki ai(i j1) với  j  i  (3.3.3) E (i )  (1  Ki2 ) E (i 1) (3.3.4) Đầu của phân tích LPC hệ số của lọc LP 3.1.2 Tìm tham số kích thích - Tìm chu kỳ pitch P và hệ số tăng ích gp: Phân tích vòng lặp mở tính toán cho khung tín hiệu tiếng nói lấy trọng số sw(n) Để nhận sw(n) sử dụng lọc tạo dáng cho tham số LP Bộ lọc tạo dáng của thiết kế có tham số chọn  = 0.85 Bộ lọc tổng hợp pitch thực sách mã thích nghi, thời gian trễ nhỏ độ dài khung kích hoạt trước lặp lại Khi tìm pitch vòng lặp mở T0, phân tích pitch vòng lặp đóng sẽ thực quanh giữ chậm pitch vòng lặp mở khung Tìm kiếm pitch vòng lặp đóng thực nhờ MSE của sai số có lấy trọng số giữa tiếng nói ban đầu tiếng nói tổng hợp Việc tìm kiếm pitch phần thập phân thực nhờ nội suy tương quan chuẩn hóa tìm kiếm cực đại của Mỗi pitch phần thập phân xác định, vector sách mã thích nghi tính nhờ nội suy tín hiệu kích trước - Tìm số vectơ sách mã cố định và hệ số tăng ích gc: Bùi Đức Chính 68 KTĐT2014A Trường Đại học Bách khoa Hà Nội – Viện Điện tử - Viễn thông Sách mã cố định gồm phần tử tạo giả ngẫu nhiên Sách mã cố định tìm nhờ tối thiểu hóa sai số bình phương trung bình giữa tiếng nói vào lấy trọng số tiếng nói tổng hợp lấy trọng số 3.1.3 Lượng tử tham số kích thích Các tham số kích thích của sách mã cố định sách mã thích nghi sau tìm gồm sẽ lượng tử hóa Dòng bit của mã hóa bao gồm: số LP, chu kỳ pitch P, số vectơ sách mã cố định k hệ số tăng ích gp, gc 3.1.4 Tính tín hiệu tổng hợp từ tham số kích thích Sau nhận tham số kích thích (chỉ số LP, chu kỳ pitch P, số vectơ sách mã cố định k hệ số tăng ích gp, gc), chương trình sẽ thực tổng hợp để nhận tiếng nói khôi phục Kích thích đầu vào lọc tổng hợp cho bởi: u(n)  g p (n)v(n)  gc (n)c(n) (3.4) Trong v(n) c(n) vectơ sách mã thích nghi sách mã cố định tương ứng chọn có chu kỳ pitch P số vectơ sách mã cố định k Tiếng nói khôi phục của khung cho bởi M xˆ (n)  u (n)   aˆi xˆ (n  1) với n  0, , Nsubf 1 (3.5) i 1 Trong aˆi hệ số LP nội suy của lọc tổng hợp biểu thức (2.2) 3.2 Kết quả Sau thực mô kỹ thuật nén CELP MatLab, chương trình thu số kết quả sau Bùi Đức Chính 69 KTĐT2014A Trường Đại học Bách khoa Hà Nội – Viện Điện tử - Viễn thông Trong hình 3.3, hình 3.4 hình 3.5 phổ tín hiệu tiếng nói ban đầu tiếng nói sau nén sử dụng CELP 8kbps tổng hợp lại với bậc lọc tương ứng 5, 10 25 File tiếng nói ở file handel.wav lấy từ file handel.mat MatLab Sau thực nén file tiếng nói luận văn sử dụng đánh giá chất lượng âm theo PESQ [12] (Perceptual Evaluation of Speech Quality – Đánh giá cảm nhận chất lượng tiếng nói) Hình 3.3 Phổ của tín hiệu tiếng nói sau nén tổng hợp lại với bậc LP Hình 3.4 Phổ của tín hiệu tiếng nói sau nén tổng hợp lại với bậc LP 10 Bùi Đức Chính 70 KTĐT2014A Trường Đại học Bách khoa Hà Nội – Viện Điện tử - Viễn thông Hình 3.5 Phổ của tín hiệu tiếng nói sau nén tổng hợp lại với bậc LP 25 Kết quả đánh giá PESQ của hình 3.3, 3.4 3.5 lần lượt 2.5191, 2.8360 2.9589 (kết quả cao chất lượng âm tốt) Dựa vào phổ của tín hiệu tiếng nói hình 3.3, 3.4 3.5, kết quả PESQ âm nghe thực tế, ta nhận thấy bậc lọc LP cao tín hiệu sau tổng hợp sẽ ít sai khác so với tín hiệu ban đầu âm nghe sẽ trung thực, ít nhiễu Tuy nhiên việc sử dụng bậc LP cao sẽ khiến cho số bit sử dụng nhiều, điều kéo theo việc tốc độ của tín hiệu tiếng nói đường truyền tăng lên Trong hình 3.6 3.7 phổ tín hiệu tiếng nói ban đầu tiếng nói sau nén dùng CELP 8kbps tổng hợp với file tiếng nói khác 1.wav 2.wav Hình 3.6 Phổ của tín hiệu tiếng nói 1.wav Bùi Đức Chính 71 KTĐT2014A Trường Đại học Bách khoa Hà Nội – Viện Điện tử - Viễn thông Hình 3.7 Phổ của tín hiệu tiếng nói 2.wav Dựa vào phổ của tín hiệu tiếng nói hình 3.6 3.7, ta thấy tín hiệu tiếng nói ban đầu tín hiệu tiếng nói sau tổng hợp lại có sai khác định Điều thay truyền toàn tín hiệu tiếng nói phương pháp mã hóa lai truyền tham số để mô hình lại tín hiệu tiếng nói Trong hình 3.8 3.9 phổ tín hiệu tiếng nói so sánh giữa phổ tiếng nói ban đầu phổ tiếng nói sau nén tổng hợp lại sử dụng CELP 16kbps CELP 8kbps Hình 3.8 Phổ của tín hiệu tiếng nói sau nén tổng hợp lại sử dụng CELP Bùi Đức Chính 72 KTĐT2014A Trường Đại học Bách khoa Hà Nội – Viện Điện tử - Viễn thông Hình 3.9 So sánh phổ của tín hiệu tiếng nói ban đầu tín hiệu tiếng nói sau nén tổng hợp lại Kết quả đánh giá PESQ của tín hiệu nén 8k CELP tín hiệu nén 16k CELP lần lượt 2.5249 2.7764 Dựa vào phổ của tín hiệu tiếng nói hình 3.8, 3.9, kết quả PESQ dựa vào âm nghe được, ta rút nhận xét việc nén tín hiệu tiếng nói xuống tốc độ thấp sẽ khiến cho tín hiệu tiếng nói sau tổng hợp có chất lượng kém Điều giải thích nén tín hiệu tiếng nói xuống tốc độ thấp sẽ sử dụng số lượng bit để mô hình hóa tham số của tín hiệu tiếng nói ít hơn, sẽ làm cho tín hiệu tiếng nói sau tổng hợp sai khác nhiều so với tín hiệu ban đầu Trong chương luận văn thực mô thuật toán CELP MatLab theo bước thực phân tích chương rút số kết quả để chứng minh số tính chất chất lượng của việc nén tín hiệu tiếng nói nêu chương Bùi Đức Chính 73 KTĐT2014A Trường Đại học Bách khoa Hà Nội – Viện Điện tử - Viễn thông KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN Trong điều kiện công nghệ thông tin, truyền thông phát triển mạnh vấn đề nén tín hiệu tiếng nói cần thiết Việc nén tín hiệu tiếng nói giúp giảm thiểu số lượng tín hiệu cần truyền đường truyền vẫn đảm bảo chất lượng gọi Qua giúp đảm bảo băng thông nâng cao tính riêng tư truyền thông tiếng nói số có khả bảo mật tốt Luận văn đề cập thực nghiên cứu vấn đề bản của việc nén tín hiệu tiếng nói nghiên cứu số thuật toán nén tiếng nói CELP ACELP Ngoài luận văn tìm hiểu chuẩn nén tiếng nói AMR dựa thuật toán ACELP Luận văn thực mô thuật toán CELP MatLab Từ những kết quả đạt luận văn có những hướng phát triển đề tài thời gian tới sau: - Nghiên cứu ứng dụng thuật toán nén tiếng nói DSP để thiết kế thiết bị mã thoại số hoàn chỉnh - Nghiên cứu tìm hiểu bảo mật tín hiệu tiếng nói dựa vào việc thực mã hóa thông số truyền - Nghiên cứu số thuật toán nén tín hiệu tiếng nói khác để đảm bảo chất lượng tiếng nói tốt mà vẫn đáp ứng nhu cầu băng thông Bùi Đức Chính 74 KTĐT2014A Trường Đại học Bách khoa Hà Nội – Viện Điện tử - Viễn thông TÀI LIỆU THAM KHẢO [1] Peter Vary and Rainer Martin, Digital Speech Transmission, John Wiley & Sons Ltd, 2006 [2] N Jayant, Speech Compression: Coding of Speech, Audio, Text, Image and Video, World Scientific Publishing Co Ltd, 1997 [3] Jacob Benesty, M Mohan Sondhi, Yiteng Huang, Springer Handbook of Speech Processing, Springer – Verlag Berlin Heidelberg, 2008 [4] Andreas Tyrberg, Data Transmission over Speech Coded Voice Channels, Linköping, 2006 [5] Andreas Spanias, Speech coding: A tutorial review, Arizona State University, USA, 1994 [6] Mark Hasegawa – Johnson & Abeer Alwan, Speech Coding: Fundamentals and Applications, 1999 [7] J Makhoul, Markel J.D., Gray A.H Linear Prediction of speech SpringerVerlag, Berlin Heidelberg, New York, 1976 [8] Karthikeyan Ramamurthy, Andreas Spanias, MATLAB Software for the Code Excited Linear Prediction Algorithm The Federal Standard-1016, Synthesis Lectures on Algorithms and Software in Engineering, 2010 [9] Ian Mcloughlin, Applied Speech and Audio Processing with Matlab example, Cambridge University Press, 2009 [10] 3G TS 26.090 : “AMR Speech Codec; Transcoding functions" [11] TS Đinh Như Hà Bình, Thiết kế Modul nén/giãn tín hiệu thoại dựa công nghệ DSP, 2007 [12] Perceptual evaluation of speech quality (PESQ), International Telecommunication Union, 2001 Bùi Đức Chính 75 KTĐT2014A ... Viễn thông Các vấn đề trình bày sở chủ yếu để lựa chọn đề tài: Nghiên cứu thuật toán nén tiếng nói tốc độ thấp , với mục đích nghiên cứu tìm hiểu số thuật toán nén tiếng nói tốc độ thấp nhằm... ta sẽ tiến hành xem xét nghiên cứu tổng quan vấn đề bản của việc nén tiếng nói số thuật toán nén tiếng nói, tập trung vào việc nghiên cứu thuật toán nén tiếng nói CELP ACELP Luận văn bao... [5] Một thuật toán nén tiếng nói đánh giá dựa tốc độ bit, chất lượng của tiếng nói “được nén” sau khôi phục, độ phức tạp của thuật toán, độ trễ tín hiệu, tính mạnh của thuật toán lỗi

Ngày đăng: 02/04/2017, 08:32

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w