1. Trang chủ
  2. » Tất cả

Báo cáo bài tập lớn phương pháp lpc nén âm thanh số

68 7 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 68
Dung lượng 1,68 MB

Nội dung

TRƯỜNG ĐẠI HỌC GIAO THÔNG VẬN TẢI KHOA ĐIỆN – ĐIỆN TỬ MÔN HỌC KỸ THUẬT XỬ LÝ ÂM THANH VÀ HÌNH ẢNH -o0o - BÁO CÁO BÀI TẬP LỚN PHƯƠNG PHÁP LPC – NÉN ÂM THANH SỐ Sinh viên thực Đỗ Xuân Bách (MSV: 191400113) Trương Việt Hoàng (MSV: 191410457) Nguyễn Anh Minh (MSV: 191400693) Lớp: Kỹ thuật viễn thông – K60 Giảng viên hướng dẫn : Nguyễn Tiến Hưng Hà Nội, ngày tháng 11 năm 2022 MỤC LỤC CHƯƠNG 1: TỔNG QUAN VỀ LPC (LINEAR PREDICTIVE CODING) KHÁI NIỆM VỀ LPC 2 TỔNG QUAN CHƯƠNG 2: TỔNG QUAN VỀ TIẾNG NÓI VÀ XỬ LÝ TIẾNG NÓI TIẾNG NÓI VÀ ĐẶC ĐIỂM CỦA TIẾNG NÓI 1.1 Đặc tính vật lý âm 1.2 Đặc tính âm học âm 1.3 Phân loại đơn giản dạng sóng tiếng nói: 10 1.4 Bộ máy phát âm chế phát âm 11 MỘT SỐ KIẾN THỨC CHUNG VỀ XỬ LÝ TÍN HIỆU RỜI RẠC 13 2.1 Mơ hình hệ xử lý tín hiệu rời rạc .13 MƠ HÌNH TẠO TIẾNG NÓI 15 BIỂU DIỄN SỐ TIẾNG NÓI .17 4.1 Xác định tần số lấy mẫu tín hiệu tiếng nói .19 4.2 Lượng tử hoá 20 TỔNG QUAN VỀ MÃ HÓA TIẾNG NÓI 21 5.1 Mã hóa dạng sóng 21 5.2 Mã hoá nguồn 24 5.3 Mã hoá lai 25 TỔNG QUAN VỀ TỔNG HỢP TIẾNG NÓI 26 6.1 Giới thiệu chung 26 6.2 Các mơ hình tổng hợp tiếng nói 27 CHƯƠNG 3: ỨNG DỤNG CỦA LPC TRONG XỬ LÝ TIẾNG NÓI 30 PHƯƠNG PHÁP DỰ ĐỐN TUYẾN TÍNH TRONG XỬ LÝ TIẾNG NÓI .30 1.1 Xác định hệ số khuếch đại .37 1.2 Xác định hệ số tiên đoán tuyến tính .40 ỨNG DỤNG LPC PHÂN TÍCH TRONG TIẾNG NĨI .44 2.1 Dị tìm formant 44 2.2 Dùng lọc đảo để tìm F0 46 TỔNG HỢP TIẾNG NÓI .49 3.1 Giới thiệu 49 3.2 Cơ sở lý thuyết 49 3.3 Mơ hình LPC 62 LỜI MỞ ĐẦU Trong thời đại ngày nay, với phát triển mạnh mẽ khoa học kỹ thuật vấn đề trao đổi thơng tin đa phương tiện ngày trở nên cần thiết, từ lúc đầu giao tiếp, tương tác thông qua văn giấy tờ, ngày nhu cầu sử dụng tiếng nói truyền thơng, tương tác người máy trở nên cấp thiết Vì mà lĩnh vực kỹ thuật đời, xử lý tiếng nói Mặc dù xử lý tiếng nói đạt thành tựu đáng kể Các ứng dụng xử lý tiếng nói áp dụng nhiều lĩnh vực khác xã hội nhận dạng, tổng hợp tiếng nói, tương tác người máy, truyền thơng, dạy học, … Nhờ có xử lý tiếng nói mà người tạo máy móc thơng minh hơn, có khả hiểu tiếng nói người giao tiếp với người thơng qua lời nói Một phương pháp ứng dụng nhiều lĩnh vực xử lý tiếng nói phương pháp mã hóa dự đốn tính (LPC) Phương pháp LPC sử dụng phân tích tiếng nói, mã hóa tiếng nói, tổng hợp tiếng nói Do tơi chọn đề tài “Tìm hiểu phương pháp LPC – Nén âm số” CHƯƠNG 1: TỔNG QUAN VỀ LPC (LINEAR PREDICTIVE CODING) KHÁI NIỆM VỀ LPC Mã hóa dự đốn tuyến tính LPC phương pháp sử dụng chủ yếu xử lý tín hiệu âm xử lý giọng nói để biểu diễn quang phổ tín hiệu kỹ thuật số lời nói dạng nén, sử dụng thơng tin mơ hình dự đốn tuyến tính LPC phương pháp sử dụng rộng rãi mã hóa giọng nói tổng hợp giọng nói Đây kỹ thuật phân tích giọng nói mạnh mẽ phương pháp hữu ích để mã hóa giọng nói chất lượng tốt tốc độ bit thấp TỔNG QUAN LPC bắt đầu với giả định tín hiệu giọng nói tạo rung cuối ống (đối với âm có giọng nói), có thêm tiếng rít âm bật lên (đối với âm khơng có giọng nói sibilants plosives). Mặc dù rõ ràng thô sơ, mô hình Source-filter thực xấp xỉ gần với thực tế việc sản xuất giọng nói Các môn (khoảng trống nếp gấp giọng hát) tạo tiếng vang, đặc trưng cường độ (độ lớn) tần số (cao độ). Đường âm (cổ họng miệng) tạo thành ống, đặc trưng cộng hưởng nó; Những cộng hưởng làm phát sinh định hình, dải tần số nâng cao âm tạo Tiếng rít tiếng bật tạo tác động lưỡi, môi cổ họng sibilants plosives LPC phân tích tín hiệu giọng nói cách ước tính chất tạo hình, loại bỏ ảnh hưởng chúng khỏi tín hiệu giọng nói ước tính cường độ tần số tiếng vang cịn lại Q trình loại bỏ chất tạo hình gọi lọc nghịch đảo tín hiệu cịn lại sau trừ tín hiệu lọc gọi dư lượng Các số mô tả cường độ tần số buzz, formants tín hiệu dư lượng, lưu trữ truyền nơi khác LPC tổng hợp tín hiệu giọng nói cách đảo ngược quy trình: sử dụng tham số buzz cặn để tạo tín hiệu nguồn, sử dụng formant để tạo lọc (đại diện cho ống) chạy nguồn thông qua lọc, dẫn đến lời nói Bởi tín hiệu giọng nói thay đổi theo thời gian, q trình thực đoạn ngắn tín hiệu giọng nói, gọi khung Nói chung, 30 đến 50 khung hình giây cho phát biểu dễ hiểu với độ nén tốt CHƯƠNG 2: TỔNG QUAN VỀ TIẾNG NÓI VÀ XỬ LÝ TIẾNG NÓI TIẾNG NÓI VÀ ĐẶC ĐIỂM CỦA TIẾNG NÓI Tiếng nói phương tiện trao đổi thơng tin người Tiếng nói tạo từ tư người đạo trung khu thần kinh, mệnh lệnh phát sinh tiếng nói phát hệ thống phát âm thực nhiệm vụ tạo âm Tiếng nói mà người giao tiếp hàng ngày có chất sóng âm lan truyền khơng khí Sóng âm khơng khí sóng dọc sinh dãn nở khơng khí Tín hiệu âm tín hiệu biến thiên liên tục thời gian biến độ, có dải tần số rộng Tuy nhiên người nhận biết sóng âm có tần số khoảng 20 - 20000 (Hz) Những sóng âm có tần số lớn 20000 Hz gọi sóng siêu âm Những sóng có tần số nhỏ 20 Hz gọi sóng hạ âm Thực tế người ta hạn chế dải tần số tín hiệu tiếng nói khoảng từ 300 đến 3500 Hz Do đó, q trình phân tích tổng hợp tiếng nói cần dùng số định tham số đủ để biểu diễn tín hiệu tiếng nói mà não người xử lý Hình 1.1 Mơ q trình truyền tiếng nói khơng khí Về chất vật lí, sóng âm, sóng siêu âm, sóng hạ âm khơng khác sóng học khác Sự phân biệt dựa vào khả cảm thụ sóng học tai người, đặc tính sinh lí tai người định Vì sóng âm phân biệt hai loại đặc tính đặc tính vật lý đặc tính âm học 1.1 Đặc tính vật lý âm Bản chất âm tiếng nói sóng học nên có tính chất sóng học Các tính chất sóng học mang ý nghĩa khác xét góc độ âm tiếng nói Tín hiệu âm tiếng nói tín hiệu ngẫu nhiên khơng dừng, nhiên đặc tính tương đối ổn định khoảng thời gian ngắn (vài chục mili giây) Trong khoảng thời gian nhỏ tín hiệu gần tuần hồn, coi tuần hồn 1.1.1 Độ cao (Pitch) Độ cao hay cịn gọi độ trầm bổng âm tần số sóng học Âm phát độ cao định Độ trầm bổng âm phụ thuộc vào chấn động nhanh hay chậm phần tử khơng khí đơn vị thời gian định Nói cách khác, độ cao âm phụ thuộc vào tần số dao động Đối với tiếng nói, tần số dao động dây quy định độ cao giọng nói người người có độ cao giọng nói khác Độ cao nữ giới thường cao so với nam giới độ cao tiếng nói trẻ em cao so với nữ giới, điều tương tự tần số dây 1.1.2 Cường độ Cường độ độ to nhỏ âm thanh, cường độ lớn âm truyền xa mơi trường có nhiễu Nếu xét góc độ sóng học cường độ biên độ dao động sóng âm, định cho lượng sóng âm Trong tiếng nói, cường độ nguyên âm phát thường lớn phụ âm Do thường dễ phát nguyên âm so với phụ âm Tuy nhiên tai người giá trị tuyệt đối cường độ âm không quan trọng giá trị tỉ đối so với giá trị Io chọn làm chuẩn Người ta định nghĩa mức cường độ âm L logarit thập phân tỉ số I/I: (đơn vị mức cường độ Ben - kí hiệu B) L(B)=lg(I/I0) 1.1.3 Trường độ Trường độ hay độ dài âm phụ thuộc vào chấn động lâu hay nhanh phần tử khơng khí Cùng âm từ khác độ dài khác 1.1.4 Âm sắc Âm sắc sắc, sắc thái riêng âm, nội dung, độ cao nói người có âm sắc khác 1.2 Đặc tính âm học âm Tín hiệu tiếng nói tín hiệu tương tự biểu diễn cho thông tin mặt ngôn ngữ mô tả âm vị khác Tuỳ theo ngôn ngữ cụ thể mà số lượng âm vị nhiều hay Thơng thường số lượng âm vị vào khoảng 20 – 30 nhỏ 50 ngôn ngữ Đối với loại âm vị mà có đặc tính âm khác Các âm vị chia thành hai loại nguyên âm phụ âm Tổ hợp âm vị tạo nên âm tiết Âm tiết đóng vai trị từ trọn vẹn mang ngữ nghĩa 1.2.1 Nguyên âm Nguyên âm tạo cộng hưởng dây dịng khí môn đẩy lên Khoang miệng tạo lập thành nhiều hình dạng định tạo thành nguyên âm khác Số lượng nguyên âm phụ thuộc vào ngôn ngữ định Mỗt nguyên âm đặc trưng formant đầu tiên, formant thường mang thơng tin 1.2.2 Phụ âm Phụ âm tạo dịng khí hỗn loạn phát gần điểm co thắt đường dẫn âm cách phát âm tạo thành Dịng khơng khí chỗ đóng vịm miệng tạo phụ âm tắc Những phụ âm xát phát từ chỗ co thắt lớn âm tắc xát tạo từ khoảng Phụ âm có đặc tính hữu vơ tuỳ thuộc việc dây có dao động để tạo thành cộng hưởng khơng Đặc tính phụ âm tuỳ thuộc vào tính chu kỳ dạng sóng, phổ tần số, thời gian tồn truyền dẫn âm 1.2.3 Tỷ suất thời gian Trong nói chuyện, khoảng nói chuyện khoảng nghỉ xen kẽ Phần trăm thời gian nói tổng số thời gian nói nghỉ gọi tỷ xuất thời gian Giá trị biến đổi tuỳ thuộc vào tốc độ nói từ ta phân loại thành nói nhanh, nói chậm hay nói bình thường 1.2.4 Hàm lượng thời gian ngắn Hàm lượng thời gian ngắn tiếng nói tính cách chia tín hiệu tiếng nói thành nhiều khung chứa N mẫu tính diện tích trung bình tổng mẫu tín hiệu khung Các khung đưa qua cửa sổ có dạng hàm sau: Thơng thường có ba dạng cửa sổ sử dụng cửa sổ chữ nhật, cửa sổ Hamming cửa sổ Hanning Cửa sổ chữ nhật: Cửa sổ Hamming: Cửa sổ Hanning: Hình dạng tuyến âm xác định âm tạo Khi phát âm, tuyến âm thay đổi hình dạng để tạo âm khác - Hình dạng tuyến âm thay đổi tương đối chậm (thay đổi từ 10 ms đến 100 ms) - Thơng lượng khơng khí đến từ phơi xác định độ to nhỏ âm Hình 2.6 Mơ hình vật lý q trình tạo tiếng nói 3.2.2 Mơ hình tốn học - Theo mơ hình, tín hiệu số tiếng nói đầu lọc số (bộ lọc LPC) mà có đầu vào chuỗi xung dãy nhiễu trắng - Mối quan hệ mơ hình vật lý mơ hình toán học: 51 Bộ lọc LPC xác định hàm truyền đạt: Khi mối quan hệ đầu vào đầu lọc xác định phương trình sai phân tuyến tính: Như tham số cần thiết cho tổng hợp LPC hệ số LPC (đặc trưng cho lọc LPC) tín hiệu nguồn kích thích 52 Hình 2.7 Mơ hình tạo tiếng nói LPC 3.2.3 Mơ hình phân tích tổng hợp LPC Mơ hình phân tích tổng hợp LPC bao gồm phần mô tả sau: Hình 2.8 Mơ hình phân tích tổng hợp LPC 3.2.3.1 Phân tích Q trình phân tích sử dụng lọc đảo LPC để tìm lại tín hiệu nguồn từ tín hiệu tiếng nói nhận được: 53 Hình 2.9 Sơ đồ phân tích LPC Sau tín hiệu nguồn hệ số LPC truyền đến phần tổng hợp để tổng hợp lại tín hiệu ban đầu Mối quan hệ đầu vào đầu lọc thể qua phương trình sau: Y(z) = A(z).X(z) Trong A(z) hàm truyền đạt lọc đảo tính theo cơng thức: ta có: Đây hệ khơng truy hồi bậc p, dựa mơ hình tồn điểm khơng, hình sau minh hoạ cách thực hệ : 54 Hình 2.10 Sơ đồ thực phân tích LPC 3.2.3.2 Tổng hợp LPC Tổng hợp trình ngược lại phân tích, tức từ tín hiệu nguồn nhận sau q trình phân tích, tín hiệu tiếng nói ban đầu tổng hợp lại Mơ hình tổng qt q trình tổng hợp mơ tả sau: Hình 2.11 Sơ đồ tổng hợp LPC Thực chất hệ đảo hệ thống phân tích, hàm truyền đạt hệ thống có dạng: 55 Trong hệ số p có giá trị giống hệ số a i p q trình phân tích Do tín hiệu đầu hệ tổng hợp xác định sau: Như hệ tổng hợp LPC hệ truy hồi bậc p, dựa mơ hình tồn điểm cực Sơ đồ minh hoạ cách thực hệ trên: Hình 2.12 Sơ đồ thực tổng hợp LPC 56 Như mơ hình tổng hợp LPC tham số cần thiết nguồn âm (tín hiệu kích thích) hệ số LPC Các tham số xác định pha phân tích 3.2.3.3 Xác định hệ số LPC Mơ hình LPC bắt đầu với việc coi mẫu tín hiệu tiếng nói thời điểm n xấp xỉ tổ hợp tuyến tính p mẫu tín hiệu khứ, tức mẫu tín mẫu tín hiệu thời điểm n tổng có trọng lượng p mẫu khứ, mà mẫu nhân với số tương ứng, biểu thức tốn học mơ tả sau : Trong hệ số a1, a2, , ap gọi hệ số tiên đoán tuyến tính, chúng xác định theo frame khơng đổi frame Để xảy dấu “=” ta thêm vào thành phần Gu(n), biểu thức (3.1) trở thành: Thành phần Gu(n) gọi thành phần kích thích u(n) tín hiệu kích thích G trọng số kích thích Thực biến đổi z hai vế ta có: Hàm truyền đạt hệ thống: 57 Gọi x^(n) giá trị tiên đoán x(n) đó: Như sai số tiên đốn là: Đặt bi = -ai ,Vi=1,p b0=1 ta có (3.6) trở thành: Sai số bình phương tồn phần xác định sau: Kí hiệu hàm hiệp biến: 58 Đẳng thức (8) viết dạng đơn giản là: Các hệ số (hay bi) xác định dựa nguyên tắc tối thiểu hoà bình phương tồn phần (tức làm cho sai số bình phương tồn phần E đạt giá trị cực tiểu) Điều đạt cách cho đạo hàm riêng E theo bi (Vi = 0, p) Do ta có hệ phương trình rút từ đẳng thức (3.10): Do b0 = nên hệ phương trình (3.11) tương đương với: Thay bk = -ak với k = 1, p nên (3.12) tương đương với: Như hệ số tiên đoán tuyến tính a k , k = 1, p xác định nhờ việc giải hệ p phương trình tuyến tính (3.13), ϕ(i,k) ϕ n(i,0) với i=1, p k = 1, p xác định theo biểu thức (3.9) Để xác định hệ số LPC ta hai phương pháp: Levinson - Durbin (tự tương quan) phương pháp xử dụng ma trận hiệp biến.Các phương pháp phân biệt qua cách chọn giá trị n 59 Phương pháp tự tương quan Phương pháp tự tương quan cho n = - ∞ n1 = + ∞ cho x(n) = với n < n>=N (tức mẫu khơng thuộc khung giá trị đặt 0) Điều tương đương với việc nhân tín hiệu tiếng nói ban đầu với cửa sổ có độ dài kích thước khung xét, có giá trị với điểm nằm cửa sổ Với điều kiện ϕ(i,k) đơn giản hố sau: Trong r(i-k) hàm tương quan (i-k) Vì hàm tương quan hàm chẵn, tức r(-k)= r(k), nên r(i – k)= r(i – k|) Thay ϕ(i,k) r(|i – k|) vào (3.13) ta có: Dạng ma trận (3.14) là: R.a =r (3.15) Phương trình (3.15) gọi phương trình Yule – Walker Trong đó: 60 R ma trận Toeplitz (ma trận đối xứng với phần tử thuộc đường chéo nhau) nên có giải thuật hiệu để giải (315) giải thuật Durbin - Levinson Giải thuật Durbin - Levinson giải thuật sử dụng truy hồi phát biểu sau: Trong tổng sigma (3.17) bỏ qua i=1 Các phương trình (3.16 – 3.20) thực với i 1, 2, , p Cuối thu lời giải (3.15): ak =αk p , k= 1, p Để minh hoạ cho giải thuật Durbin xét ví dụ sau: Tìm hệ số LPC bậc (p = 2) a 1, a2 từ hệ phương trình (3.21) giải thuật Durbin 61 Phương pháp hiệp biến Phương pháp hiệp biến đặt n0 = 0, n1 = N - 1, sai số bình phương trung bình tối thiểu đoạn [0, N - 1] Ta có: Bằng cách đổi biến biểu thức tương đương với: Khi i=p dễ thấy (3.22) liên quan đến mẫu từ x(-p) đến x(N - - p) k=0 (3.22) liên quan đến mẫu từ x(0) đến x(N + 1) Do để tính theo phương pháp cần mẫu từ x(-p) đến x(N-1), Ngoài mẫu khoảng xét cần thêm p mẫu trước khoảng xét 62 Dạng ma trận (313) là: R.a=r (3.23) Trong đó: R ma trận đối xứng khơng phải ma trận Toeplitz (23) giải hiệu nhờ sử dụng giải thuật Cholesky 3.3 Mơ hình LPC Mơ hình LPC tổng hợp tiếng nói 63 Sơ đồ khối mã hóa LPC 64 KẾT LUẬN Mã hóa dự đốn tuyến tính phân tích / tổng hợp kỹ thuật nén giọng nói bị tiếng cố gắng mơ hình người tạo âm thay truyền ước tính sóng âm Tuyến tính mã hóa dự đốn đạt tốc độ bit 2400 bit / giây khiến trở nên lý tưởng để sử dụng bảo mật hệ thống điện thoại Bảo vệ hệ thống điện thoại quan tâm nội dung ý nghĩa lời nói, khơng phải giá trị lời nói Sự đánh đổi cho tốc độ bit thấp LPC có số khó khăn với số âm định tạo giọng nói có âm tổng hợp Bộ mã hóa dự đốn tuyến tính phá vỡ âm tín hiệu vào phân đoạn khác sau gửi thơng tin đoạn tới giải mã Các mã hóa gửi liệu việc phân đoạn lồng tiếng sử dụng để tạo tín hiệu giải mã 65 ... hướng khác Sau số cách thức: - Phương pháp hiệp phương sai - Phương pháp tự tương quan - Phương pháp rào - Phương pháp lọc đảo - Phương pháp dò phổ - Phương pháp khả cực đại 30 - Phương pháp dẫn xuất... nhiều phương pháp Tuy nhiên dựa vào tính chất ma trận phương pháp tự tương quan phương pháp covariance mà đưa hai phương pháp tính tốn đơn giản số lượng tính tốn Sau xem xét phương pháp a Phương pháp. .. “Tìm hiểu phương pháp LPC – Nén âm số? ?? CHƯƠNG 1: TỔNG QUAN VỀ LPC (LINEAR PREDICTIVE CODING) KHÁI NIỆM VỀ LPC Mã hóa dự đốn tuyến tính LPC phương pháp sử dụng chủ yếu xử lý tín hiệu âm xử lý giọng

Ngày đăng: 03/02/2023, 17:21

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN