(TIỂU LUẬN) TIỂU LUẬN xử lý tín HIỆU số đề tài ỨNG DỤNG CHUỖI MARKOV ẩn TRONG NHẬN DẠNG TIẾNG nói

HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THƠNG KHOA SAU ĐẠI HỌC  TIỂU LUẬN XỬ LÝ TÍN HIỆU SỐ ĐỀ TÀI: ỨNG DỤNG CHUỖI MARKOV ẨN TRONG NHẬN DẠNG TIẾNG NÓI Giáo viên hướng dẫn: TS HOÀNG TRỌNG MINH Học viên: Nguyễn Thị Thuỳ Trang Lớp: M19CQTE01-B Hà Nội, tháng 03 năm 2020 Công nghệ MPEG-4 ứng dụng Truyền thông đa phương tiện MỤC LỤC DANH MỤC BẢNG BIỂU DANH MỤC HÌNH VẼ LỜI MỞ ĐẦU CHƯƠNG 1: TỔNG QUAN VỀ MPEG-4 1.1 Khái niệm đặc điểm MPEG-4 1.2 Ưu điểm nhược điểm công nghệ MPEG-4 1.2.1 Ưu điểm 1.2.2 Nhược điểm 13 CHƯƠNG 2: CÔNG NGHỆ MÃ HOÁ VIDEO TRONG MPEG-4 14 2.1 Các phận chức thiết bị MPEG-4 15 2.2 Mã hố hình dạng ngồi (Shape Coder) 17 2.3 Dự đoán tổng hợp động 18 2.3.1 Ước lượng chuyển động 18 2.3.2 Kỹ thuật đệm 19 2.4 Giải mã MPEG-4 VOP 20 CHƯƠNG 3: CHUẨN NÉN MPEG – AVC 23 3.1 Cơ chế nén ảnh MPEG-4 AVC (H.264) 23 3.1.1 Giảm bớt độ dư thừa 24 3.1.2 Nén theo miền thời gian 24 3.1.3 Nén theo miền không gian 25 3.2.2 Ưu điểm nén thời gian 26 3.2.3 Kích cỡ khối 26 3.2.4 Ưu điểm lượng tử hoá biến đổi 28 3.2.5 Ưu điểm mã hoá entropy 29 3.2.6 Một ví dụ ưu MPEG-4 so với MPEG-2 29 3.3 Kết luận 30 CHƯƠNG 4: ỨNG DỤNG CỦA MPEG-4 31 KẾT LUẬN 33 Công nghệ MPEG-4 ứng dụng Truyền thông đa phương tiện DANH MỤC THUẬT NGỮ VIẾT TẮT Thuật ngữ tiếng Anh Thuật ngữ Tiếng Việt Định nghĩa Công nghệ MPEG-4 ứng dụng Truyền thông đa phương tiện DANH MỤC BẢNG BIỂU Bảng 3.1 biểu diễn mức tiết kiệm tốc độ bit MPEG-4 AVC so với số chuẩn có khác 29 Công nghệ MPEG-4 ứng dụng Truyền thơng đa phương tiện DANH MỤC HÌNH VẼ Hình 1.1: Cơng cụ nén MPEG-4 so với MPEG-2 10 Hình 1.2: MPEG4 dự đốn tham số hàng, hay thông số cột bên trái từ khối 10 Hình 1.3.a : Đầu vào mã hóa MPEG-2 ảnh hoàn chỉnh lặp lại theo tần số ảnh (frame rate) 11 Hình 1.3.b : Bộ mã hóa MPEG-4 xử lý lệnh đồ họa cách trực tiếp , cơng cụ biểu diễn hình ảnh thực nằm giải mã MPEG-4 11 Hình 1.4: MPEG4 chuẩn hóa phương pháp truyền đối tượng chiều nhờ đối tượng lưới 12 Hình 2.1 Cấu trúc mã hoá giải mã video MPEG-4 15 Hình 2.2 Sơ đồ cấu trúc giải mã video MPEG-4 16 Hình 2.3 sơ đồ thuật tốn nén ảnh (a) 17 Hình 2.4 sơ đồ thuật toán nén ảnh (b) 18 Hình 2.5 Cấu trúc mã hóa VOP 18 Hình 2.6 : Cấu trúc giải mã VOP 20 Hình 2.7 : Chất lượng đạt mã hóa video MPEG-4 cở sở mã hóa Suzie chuỗi tốc độ bit khác 21 Hình 2.8 Chất lượng đạt hai H.263 MPEG-4 tốc độ 128 kbit/s .22 (a )baseline MPEG-4 (b) H263 22 Hình 3.1 Sơ đồ khối mã hoá MPEG, đường đứt nét đặc trưng cho phần bổ sung MPEG-4 AVC việc nén theo miền không gian 25 Hình 3.2 MPEG-4 AVC phân chia thành phần chói 27 Hình 3.3 So sánh chất lượng tốc độ MPEG-4 MPEG-2 29 Hình 4.1 MPEG-4 số giao thức truyền thông Multimedia Internet 31 Công nghệ MPEG-4 ứng dụng Truyền thông đa phương tiện LỜI MỞ ĐẦU Ngay máy tính đời người mơ ƣớc máy tính nói chuyện với Yêu cầu đơn giản máy xác định đƣợc từ ngữ mà nói với máy Đó mục tiêu ngành nhận dạng tiếng nói Nhận dạng tiếng nói đóng vai trị quan trọng giao tiếp ngƣời máy Nó giúp máy móc hiểu thực hiệu lệnh ngƣời Hiện giới, lĩnh vực nhận dạng tiếng nói đạt đƣợc nhiều tiến vƣợt bậc Đã có nhiều cơng trình nghiên cứu lĩnh vực nhận dạng tiếng nói (Speech recognition) sở lý thuyết hệ thống thông minh nhân tạo, nhiều kết trở thành sản phẩm thƣơng mại nhƣ ViaVoice, Dragon , hệ thống bảo mật thông qua nhận dạng tiếng nói, hệ quay số điện thoại giọng nói Triển khai cơng trình nghiên cứu đưa vào thực tế ứng dụng vấn đề việc làm có ý nghĩa đặc biệt giai đoạn cơng nghiệp hố đại hoá nước nhà Nhận dạng tiếng nói q trình nhận dạng mẫu, với mục đích phân lớp (classify) thơng tin đầu vào tín hiệu tiếng nói thành dãy mẫu đƣợc học trƣớc lƣu trữ nhớ Các mẫu đơn vị nhận dạng, chúng từ, âm vị Nếu mẫu bất biến không thay đổi cơng việc nhận dạng tiếng nói trở nên đơn giản cách so sánh liệu tiếng nói cần nhận dạng với mẫu đƣợc học lưu trữ nhớ Khó khăn nhận dạng tiếng nói tiếng nói ln biến đổi theo thời gian có khác biệt lớn tiếng nói ngƣời nói khác nhau, tốc độ nói, ngữ cảnh mơi trƣờng âm học khác Xác định thông tin biến thiên tiếng nói có ích thơng tin khơng có ích nhận dạng tiếng nói quan trọng Đây ứng dụng phổ biến thiết bị công nghệ Bài tiểu luận gồm chương chính: Chương 1: Tổng quan HMM Chương 2: Tiền xử lý tín hiệu tiếng nói Chương 3: Mơ hình nhận dạng tiếng nói sử dụng HMM Công nghệ MPEG-4 ứng dụng Truyền thông đa phương tiện CHƯƠNG 1: TỔNG QUAN VỀ HMM Mơ hình Markov ẩn (tiếng Anh Hidden Markov Model - HMM) mơ hình thống kê hệ thống mơ hình hóa đƣợc cho q trình Markov với tham số khơng biết trƣớc nhiệm vụ xác định tham số ẩn từ tham số quan sát đƣợc, dựa thừa nhận Các tham số mơ hình rút sau sử dụng để thực phân tích kế tiếp, ví dụ cho ứng dụng thừa nhận mẫu Trong mơ hình Markov điển hình, trạng thái đƣợc quan sát trực tiếp ngƣời quan sát, xác suất chuyển tiếp trạng thái tham số Mơ hình Markov ẩn thêm vào đầu ra: trạng thái có xác suất phân bổ biểu đầu Vì vậy, nhìn vào dãy biểu đƣợc sinh HMM không trực tiếp dãy trạng thái Mơ hình Markov ẩn (tiếng Anh Hidden Markov Model - HMM) mô hình thống kê hệ thống mơ hình hóa cho q trình Markov với tham số trước nhiệm vụ xác định tham số ẩn từ tham số quan sát được, dựa thừa nhận Các tham số mơ hình rút sau sử dụng để thực phân tích kế tiếp, ví dụ cho ứng dụng thừa nhận mẫu Trong mơ hình Markov điển hình, trạng thái quan sát trực tiếp người quan sát, xác suất chuyển tiếp trạng thái tham số Mơ hình Markov ẩn thêm vào đầu ra: trạng thái có xác suất phân bổ biểu đầu Vì vậy, nhìn vào dãy biểu sinh HMM không trực tiếp dãy trạng thái Trong mục nội dung mơ hình HMM giới thiệu bao gồm: định nghĩa, tập hợp tham số, vấn đề thiết yếu, thuật tốn mơ hình HMM áp dụng vào nhận dạng tiếng nói Tiếp thành phần hệ thống nhận dạng, cơng đoạn nhận dạng dựa vào mơ hình HMM giới thiệu sơ qua 1.1 Nhắc lại q trình Markov Trong lí thuyết xác suất, q trình Markov q trình mang tính ngẫu nhiên (stochastic process) với đặc tính sau: trạng thái c k thời điểm k giá trị tập hữu hạn {1,…,M} Với giả thiết trình diễn từ thời điểm đến thời điểm N trạng thái trạng thái cuối biết, chuỗi trạng thái biểu diễn vecto hữu hạn C={c0,…,cN} Nếu P(ck | Công nghệ MPEG-4 ứng dụng Truyền thông đa phương tiện c0,c1, ,c(k − 1)) biểu diễn xác suất (khả xảy ra) trạng thái c k thời điểm k qua trạng thái (k-1) Giả sử thời điểm c k phụ thuộc vào trạng thái trước ck-1 độc lập với trạng thái trước khác Quá trình gọi q trình Markov bậc một(first order Markov process) Có nghĩa xác suất để xảy trạng thái ck thời điểm k, biết trước trạng thái thời điểm k-1 phụ thuộc vào trạng thái trước, ví dụ trạng thái ck-1 thời điểm k-1 Khi ta có cơng thức: P(ck | c0,c1, ,c(k − 1))= P(ck| c(k − 1)) Nói tóm lại hệ có thuộc tính Markov gọi trình Markov (bậc1) Như vậy, với trình Markov bậc n: P(ck | c0,c1, ,c(k − 1))= P(ck| ck-n,ck-n-1,…,c(k − 1)) Nói chung với giả thuật Viterbi trình xảy bên xem trình Markov: Trạng thái hữu hạn nghĩa số m hữu hạn Thời gian rời rạc, nghĩa việc chuyển từ trạng thái sang trạng thái khác đơn vị thời gian Quan sát không tốn nhớ, nghĩa chuỗi quan sát có xác suất phụ thuộc vào trạng thái trước (nên khơng cần lưu nhớ nhiều) 1.2 Các thơng số mơ hình Markov ẩn Một mơ hình Markov ẩn bao gồm thông số như: Số trạng thái ‘state’ N có mơ hình trạng thái ẩn Các trạng thái biểu thị tương ứng với giá trị S=(S1, …., SN) gọi tập tất trạng thái ẩn M, Số symbol dãy quan sát ‘State’ Các symbol biểu thị tương ứng giá trị V=(V¬1, …, VM) gọi tập tất ký hiệu quan sát Công nghệ MPEG-4 ứng dụng Truyền thông đa phương tiện A= [aij] xác suất chuyển trạng Trong trường hợp đặc biệt, trạng thái bước đơn, ta có aij > tất giá trị i j Trong vài loại hình khác HMM, ta chi aij = cho vài căp (i,j) B=[bij] xác suất nhả ký hiệu p= [pi] xác suất khởi trạng qt - Trạng thái thời điểm t Ot= (ký hiệu) Quan sát thời điểm t Kĩ thuật mã hóa video nén theo hướng đối tượng MPEG-4 mà đuợc sử dụng nhiều cơng cụ mã hóa với nhiều tính ưu việt 1.3 Các chuyển tiếp trạng thái mơ hình Markov ẩn Hình 1.1 Ví dụ mơ hình Markov Trong đó: x – trạng thái mơ hình Markov a – xác suất chuyển b – xác suất đầu Công nghệ MPEG-4 ứng dụng Truyền thông đa phương tiện y – liệu quan sát Ví dụ cụ thể minh hoạ chuyển tiếp trạng thái mơ hình Markov ẩn: Giả sử tơi có người bạn sống xa Hàng ngày gọi điện thoại cho kể cho tơi nghe làm ngày Người bạn tơi có cơng việc mà anh thích làm 1) dạo, 2) chợ 3) dọn phòng Hiển nhiên lựa chọn phải làm phụ thuộc trực tiếp vào thời tiết hôm Như vậy, không nhận thông tin cụ thể thời tiết nơi anh bạn sống lại biết xu hướng chung Dựa vào lời kể công việc hàng ngày anh ta, tơi đốn thời tiết hơm Mơ hình Markov ẩn 2/4 Như vậy, thời tiết vận hành chuỗi Markov cụ thể Có trạng thái thời tiết, "Mưa" "Nắng", khơng quan sát trực tiếp, đó, chúng ẩn Vào ngày, anh bạn làm việc sau phụ thuộc vào thời tiết hơm "đi dạo", "đi chợ" "dọn phịng" Vì anh bạn tơi tường thuật lại hoạt động mình, liệu quan sát Tồn hệ thống mơ hình Markov ẩn (HMM) Tơi biết xu hướng thời tiết nói chung tơi biết bạn tơi thường thích làm Nói cách khác, thơng số HMM biết Thực tế, mơ tả điều ngơn ngữ lập trình Python: trạng thái = ('Mưa', 'Nắng') liệu quan sát = ('đi dạo', 'đi chợ', 'dọn phòng') khả_năng_ban_đầu = {'Mưa': 0.6, 'Nắng': 0.4} khả_năng_chuyển_dịch = { 'Mưa' : {'Mưa': 0.7, 'Nắng': 0.3}, 'Nắn' : {'Mưa': 0.4, 'Nắng': 0.6}, } khả_năng_loại_bỏ = { 'Mưa' : {'đi dạo': 0.1, 'đi chợ': 0.4, 'dọn phòng': 0.5}, 'Nắng' : {'đi dạo': 0.6, 'đi chợ': 0.3, 'dọn phòng': 0.1}, } Trong đoạn câu lệnh trên, khả_năng_ban_đầu cho thấy không trạng thái HMM người bạn gọi điện cho (tất biết trời mưa) khả_năng_chuyển_dịch cho thấy thay đổi thời tiết chuỗi Markov Trong ví dụ này, có 30% khả ngày mai trời nắng hôm 10 Công nghệ MPEG-4 ứng dụng Truyền thơng đa phương tiện Như trình bày việc tính tốn P(O|λ) tính tổng tất P(O,I|λ) tất chuỗi trạng thái I cho chuỗi riêng biệt Phần quan trọng thuật toán Baum-Welchlà hàm cực đại hoá kỳ vọng (expectation maximization - EM) Thuật toán sử dụng để giải tình trạng thơng tin không đầy đủ liệu huấn luyện (tức chuỗi trạng thái) Hàm EM thường sử dụng nhận dạng tiếng nói là chuẩn hợp lý cực đại (maximum likelihood - ML) Giải pháp giải thuật ML đưa công thức nhằm cập nhật giá trị tham số cũ HMM Để trình huấn luyện đạt tham số tốt cần có tập tham số khởi tạo HMM tốt, Baum-Welch thuật toán cho kết tốt cục Ý tưởng ML ước lượng tham số HMM λ cho xác suất P(O|λ) lớn với tập hợp chuỗi quan sát {O} Một điểm ML thuật tốn khơng thực tính P(O|λ) tất chuỗi quan sát mà số chuỗi S có P(λ| S) vượt trội Điều làm giảm chi phí tính tốn nhiều kết đạt không giảm Trong thực tế để thuận tiện cho tính tốn người ta không dùng độ hợp lý (likelihood) nguyên thủy mà dùng xác suất log_likelihood (lấy logarith likelihood) Trong thực tế để ước lượng tham số HMM người ta sử dụng thuật tốn Baum-Welch ngun thủy chi phi tính tốn q lớn Thay vào thuật tốn Baum-Welch tính dựa vào thuật tốn Forward Backward Vì thường hay nhầm thuật toán Baum-Welch với thuật toán Forward- Backward 1.4.2.3 Giải vấn đề decoding Thuật toán Viterbi Thuật toán tìm chuỗi S=s1,s2, …, sT cho xuất chuỗi vectơ đặc trưng O=O1, O2, …, OT chuỗi trạng thái I lớn Có nghĩa phải tìm chuỗi trạng thái S cho P(O,S| λ) lớn Đây thuật toán qui nạp sử dụng q trình nhận dạng sau quá trình huấn luyện tìm mơ hình HMM Thuật tốn Viterbi tránh tìm kiếm khơng gian trạng thái lớn mơ hình HMM nên giảm thiểu chi phí tính tốn P(O| λ)=P(O|S, λ)P(S| λ) = bS1(O1) aS1S2 bS2(O2)… aST-1 S T bST(OT) Thuật tốn Viterbi mô tả sau: Giả sử vectơ đặc trưng thứ t chuỗi vectơ đặc trưng trạng thái i mơ hình HMM, muốn chuyển qua trạng thái j mô hình HMM Chi phí để chuyển từ trạng thái i sang trạng thái j trọng số - ln(aijbj(Ot)) (với aijbj(Ot) xác suất chuyển từ trạng thái i sang trạng thái j thời điểm t vectơ đặc trưng Ot đạt trạng thái j) với Ot vectơ đặc trưng chọn chuỗi O=O1, O2, 15 Công nghệ MPEG-4 ứng dụng Truyền thông đa phương tiện …, OT chuyển tới trạng thái j Tại thời điểm t=1 trọng số –ln(bi(O1)), trọng số gọi trọng số khởi đầu Như tổng trọng số chuỗi trạng thái tổng trọng số chuyển trạng thái hai trạng thái kề Như tốn tìm chuỗi trạng thái có xác suất cao tương ứng với toán tìm chuỗi trạng thái có tổng trọng nhỏ 16 Công nghệ MPEG-4 ứng dụng Truyền thông đa phương tiện CHƯƠNG 2: TIỀN XỬ LÝ TÍN HIỆU TIẾNG NĨI Để nhận dạng tiếng nói, trước tiên cần thu tiếng nói Chất lượng tiếng nói thu tốt nhận dạng xác Tuy nhiên thực tế, dù phịng thí nghiệm hay mơi trường sinh hoạt hàng ngày, người ta thu tiếng nói kèm theo nhiều tín hiệu khơng mong muốn khác, bao gồm tiếng ồn (tiếng quạt máy, xe cộ, …), nhiễu (tiếng nhép môi, tiếng thở, nhiễu điện từ, tiếng đĩa CD-ROM PC quay,…), tiếng vang,… Ngoài ra, âm thu bị bóp méo thiết bị (microphone, card âm thanh,…), âm nhỏ, lớn,… Vì vậy, trình tiền xử lý đưa vào q trình nhận dạng tiếng nói (ngay sau giai đoạn thu âm thanh) nhằm đưa chất lượng âm lên cao có lợi cho q trình nhận dạng sau (khi học mẫu, nhận dạng,…) Về mặt kỹ thuật, trình tiền xử lý áp dụng phương pháp máy học, Thuật toán áp dụng hay nhiều lọc lên tín hiệu tiếng nói vừa thu 2.1 Qúa trình tiền xử lý tín hiệu tiếng nói Gọi: Yi tín hiệu thu thời điểm i Xi tín hiệu tiếng nói thời điểm i Ni tín hiệu khác (tín hiệu nhiễu, làm méo tiếng, …) thời điểm i ta có: Yi = Xi + Ni Trong đó, Ni tập hợp M nguồn tín hiệu nhiễu khác nhau: Như vậy, đầu vào q trình tiền xử lý dãy tín hiệu âm thu có chiều dài k: Y = {Y1, Y2, …, Yk } 17 Công nghệ MPEG-4 ứng dụng Truyền thông đa phương tiện Và đầu dãy tín hiệu tiếng nói lý tưởng có chiều dài: X = {X1, X2, … , Xk } Thực tốt trình tiền xử lý nâng cao đáng kể chất lượng nhận dạng Tuy nhiên thực tế, trình tiền xử lý hạn chế ảnh hưởng không mong muốn tác động xấu đến kết nhận dạng triệt tiêu hết chúng 2.2 Một số thao tác tiền xử lý tín hiệu 2.3.1 Làm tín hiệu (pre-emphais) Thực lọc thông cao nhằm hạn chế việc giảm cường độ tín hiệu liệu tiếng nói Như tên gọi nó, lọc thơng cao giữ lại thành phần có tần số cao loại bỏ thành phần có tần số thấp Trong tiếng nói, thành phần có tần số cao mang lượng nhiều so với thành phần có tần số thấp, vùng lại lưu giữ phần tín hiệu quan trọng tiếng nói, tăng cường độ tín hiệu vùng tần số cao, làm cân tần số vùng Người ta cịn gọi q trình làm phẳng tín hiệu tiếng nói Q trình lọc thực sau: Ứng với giá trị Xi chuỗi liệu đầu vào X = {X1, X2, …, Xk}, áp dụng công thức: Yi = Xi – α*Xi-1 Trong đó: Y = {Y1, Y2, …, Yk} i = k: chuỗi tín hiệu xử lý α hệ số làm nổi, thường chọn từ 0,95 đến 0,97 Hệ số làm α cao, thành phần có tần số thấp bị loại nhiều 18 Công nghệ MPEG-4 ứng dụng Truyền thông đa phương tiện Hình 2.1 Sóng âm chữ “hai” trước (hình trái) sau (hình phải) làm phẳng 2.3.2 Lọc tiếng ồn  Thuật toán Trừ âm phổ phi tuyến (Nonlinear Spectral Subtraction – NSS) Thuật toán NSS [9] sử dụng đến tỉ lệ tiếng ồn (Signal to noise ratio - SNR) phụ thuộc tần số Sử dụng phép tuyến, hệ số trừ giảm thành phần phổ có tỉ lệ SNR cao tăng thành phần phổ có tỉ lệ SNR thấp Thêm vào đó, mơ hình tiếng ồn mở rộng cách sử dụng phổ tiếng ồn trung bình phổ tiếng ồn vượt ngưỡng NSS thể cơng thức sau: đó, H i (w) phụ thuộc vào ước lượng làm trơn phổ cường độ tiếng ồn Y (w) , hệ số tuyến fi (w) , Hệ số tuyến fi (w) tính sau: Khoảng biến thiên Φi(ω):  Thuật tốn ước lượng bình phương cực tiểu lỗi (Minimum Mean Square Error Estimator - MMSE) Ephraim Malah đề xuất thuật toán [9] để áp dụng cho thành phần biên độ có phổ tiếng ồn ngắn kỳ Trong phương pháp này, thành phần phổ tiếng nói 19 Cơng nghệ MPEG-4 ứng dụng Truyền thông đa phương tiện tiếng ồn mơ hình thành biến ngẫu nhiên Gauss Thuật toán ước lượng thành phần biên độ phổ thứ k lọc sau: v k tính sau: ξ k γk tỉ lệ SNR a priori a posteriori thành phần phổ thứ k 2.3 Trích rút đặc trưng 2.3.1 Giới thiệu Quá trình nhận dạng mẫu (cả pha huấn luyện hay pha nhận dạng) trải qua bước trích rút đặc trưng (feature extraction) Bước thực phân tích phổ (spectral analysis) nhằm xác định thông tin quan trọng, đặc trưng, ổn định tín hiệu tiếng nói, tối thiểu hoá ảnh hưởng nhiễu; xúc cảm, trạng thái, cách phát âm người nói; giảm khối lượng liệu cần xử lí Mặc dù khơng mang tính định giai đoạn trích chọn đặc trưng ảnh hưởng lớn đến hiệu nhận dạng Vì việc lựa chọn đặc trưng cho tín hiệu tiếng nói quan trọng Tín hiệu tiếng nói thu từ micro vốn có kích thước lớn Máy tính cá nhân khơng có đủ tốc độ nhớ cho q trình nhận dạng lượng liệu lớn Để giải vấn đề này, người ta trích xử lý thông tin cần thiết từ dãy tín hiệu thu Các tín hiệu trích gọi đặc trưng dãy tín hiệu gốc Đặc trưng phải thoả điều kiện sau: Nhỏ nhiều so với tín hiệu gốc (để khơng chiếm nhớ, giảm thời gian xử lý,…) Vẫn giữ lại đặc điểm quan trọng dãy tín hiệu ban đầu Có nhiều dạng đặc trưng, chia thành nhóm sau:  Nhóm 1: Đặc trưng trích nhờ mơ theo mơ hình máy phát âm người Các đặc trưng nhóm sử dụng phương pháp dự báo tuyến tính để rút đặt trưng Các 20 Công nghệ MPEG-4 ứng dụng Truyền thông đa phương tiện phương pháp thường dùng là: mã hố dự báo tuyến tính (Linear Predictive Coding – LPC), tri thức dự báo tuyến tính (Perceptional Linear Prediction - PLP),…  Nhóm 2: Đặc trưng trích dựa khả cảm nhận âm thính giác người Các đặc trưng nhóm sử dụng phương pháp phân tích hệ số cepstral phổ âm (spectral), gọi phương pháp dãy lọc Phương pháp thường sử dụng mã hoá hệ số cepstral tần số mel (Mel Frequency Cepstral Coding - MFCC)  Nhóm 3: Một số đặc trưng âm học khác cao độ, ngữ điệu, dấu nhấn: thích hợp cho nhận dạng ngơn ngữ nói, điệu, tâm trạng người nói, … Các đặc trưng nhóm dùng việc nhận dạng âm tiết Người ta dùng chủ yếu đặc trưng nhóm nhóm 2.3.2 Một số phương pháp trích rút đặc trưng 2.3.2.1 Phương pháp Mã hoá dự báo tuyến tính (LPC) Phương pháp mã hố dự báo tuyến tính LPC kỹ thuật sử dụng rộng rãi trích rút mơ hình tín hiệu tiếng nói tương đối tốt chạy tương đối nhanh so với kỹ thuật dùng dãy lọc (Tuy nhiên, với máy tính ngày nay, tốc độ khơng cịn vấn đề đáng quan tâm) Trong phương pháp này, người ta hướng giả định:  Dây âm độc lập với máy phát âm  Bộ máy phát âm có cấu tạo tuyến tính Trong môi trường cộng hưởng máy phát âm tuyến tính, giá trị tín hiệu phụ thuộc vào giá trị trước đó, tức tín hiệu s(t) thời điểm t biểu diễn phương trình tổng tích p giá trị tín hiệu trước khung hệ số: p s(t) = a1*s(t - 1)+ a2*s(t - 2) + … + ap*s(t-p)=∑ s (t −i) i=1 Chúng ta khơng thể tìm dãy số a i xác mà ước lượng tìm giá trị gần Giả định tính giá trị tín hiệu khơng xác tính cộng hưởng quan phát âm biến thiên chậm theo thời gian Vì vậy, giá trị lỗi cộng thêm vào kết quả: 21 Công nghệ MPEG-4 ứng dụng Truyền thông đa phương tiện p S(t)=∑ s (t −i)+e (n) i=1 Hàm truyền xây dựng lọc tồn cực, có dạng: Trong đó, p số lượng cực a0 ≡ hệ số lọc {ai}được chọn cho sai số dự đốn bình phương đạt giá trị tối thiểu Có phương pháp sử dụng: tự tương quan hiệp phương sai Phương pháp hiệp phương sai sử dụng tín hiệu Chúng ta xem xét đến phương pháp tự tương quan: ứng với frame, p+1 hệ số tương quan tính sau: Sau đó, hệ số lọc tính tốn đệ quy sử dụng hệ số tương phản Gọi E lỗi dự báo Ban đầu, E = r0, gọi k(i-1) a(i-1) hệ số tương phản hệ số lọc cho lọc thứ (i-1) Bộ lọc thứ (i) tính qua bước: Bước 1: Tạo hệ số tương phản mới: Bước 2: Cập nhật lượng dự đoán: Bước 3: Tính hệ số lọc mới: Các hệ số lọc tính qua p bước lập 2.3.2.2 Phương pháp Mã hoá cepstral tần số Mel (MFCC) Các hệ nhận dạng tiếng nói thường tách đặc trưng từ tín hiệu cách: chia tín hiệu thành đoạn độ dài 5-15 ms, đoạn gọi khung (frame) Trong khoảng thời gian ngắn vậy, phổ tín hiệu đủ ổn định để tiến hành tách đặc trưng Mỗi frame cho đặc trưng vectơ đặc trưng tồn tín hiệu dãy vectơ Davis Mermelstein đưa thuật ngữ hệ số cepstral theo tần số Mel (Melfrequency Cepstral Coefficients - MFCC) vào năm 1980 họ kết hợp lọc cách 22 Công nghệ MPEG-4 ứng dụng Truyền thông đa phương tiện khoảng không với biến đổi Cosine rời rạc (DCT) thành thuật toán đầu-cuối ứng dụng lĩnh vực nhận dạng tiếng nói liên tục Phương pháp MFCC phương pháp sử dụng dãy lọc MFCC phương pháp trích đặc trưng dựa đặc điểm cảm thụ tần số âm tai người: tuyến tính tần số nhỏ 1kHz phi tuyến tần số 1kHz (theo thang tần số mel, theo Hz) MFCC phương pháp tách đặc trưng dựa cảm thụ người nên thường cho kết nhận dạng cao (theo [12]) Vì lẽ nhiều hệ thống nhận dạng tiếng nói sử dụng MFCC làm đặc trưng • Sơ đồ khối q trình tính MFCC Hình 2.2 Sơ đồ khối q trình trích chọn đặc trưng MFCC Q trình tính tốn sau: tín hiệu tiếng nói chia thành frame có độ dài 10ms Mỗi frame nhân với hàm cửa sổ, thường cửa sổ Hamming sau chuyển sang miền tần số nhờ biến đổi Fourier Tín hiệu miền tần số nhân với lọc mel-scale, lấy logarit biến đổi Fourier ngược (để chuyển sang miền cepstral) hệ số MFCC 2.3.2.1 Phương pháp Mã hoá cepstral tần số Mel dựa LPC (MFCC) Phương pháp giống phương pháp MFCC Điểm khác biệt sau bước phân chia cửa sổ, phổ tín hiệu tính thơng qua phép biến đổi dự báo tuyến tính LPC thay dùng phép biến đổi Fourier: 23 Công nghệ MPEG-4 ứng dụng Truyền thơng đa phương tiện Hình 2.3 Sơ đồ lọc MFCC dựa biến đổi dự báo tuyến tính biến đổi Fourier 24 Công nghệ MPEG-4 ứng dụng Truyền thông đa phương tiện CHƯƠNG 3: MƠ HÌNH HMM NHẬN DẠNG TIẾNG NĨI 3.1 Mơ hình nhận dạng Giai đoạn huấn luyện: Hình 3.1 Sơ đồ huấn luyện mơ hình HMM Giai đoạn nhận dạng: Hình 3.2 Sơ đồ nhận dạng từ mơ hình HMM huấn luyện Trong giai đoạn huấn luyện sử dụng thuật toán Baum-Welch để ước lượng tham số cho HMM Việc huấn luyện thực liệu gán nhãn khơng có 25 Công nghệ MPEG-4 ứng dụng Truyền thông đa phương tiện liệu gán nhãn Dữ liệu tiếng nói gán nhãn theo âm vị liệu mà xác định biên âm vị từ chuỗi sóng âm Các nhãn được gán tay Cịn liệu khơng gán nhãn có nhiều mức độ Trong luận văn chúng tơi liệu khơng gán nhãn hiểu theo nghĩa xác định chuỗi âm tiết (tương ứng ta xác định chuỗi âm vị) tương ứng với chuỗi sóng âm Q trình huấn luyện huấn luyện cho mơ hình âm vị HMM ứng với tập hợp tất chuỗi sóng âm gán nhãn tương ứng với Các tham số ước lượng cho HMM xác suất chuyển trạng thái từ trạng thái i sang trạng thái j trạng thái HMM a i j tham số trạng thái vectơ trung bình m vectơ hiệp phương sai Trong nhận dạng hệ thống dựa vào mơ hình HMM học mơ hình ngơn ngữ áp dụng chiến lược tìm kiếm để chuỗi âm tiết tương ứng với chuỗi sóng âm đưa vào Ta thấy lúc huấn luyện huấn luyện mơ hình âm vị, cịn lúc nhận dạng nhận dạng âm tiết Như trình nhận dạng theo ba cấp hình HÌNH Chiến lược tìm kiếm xây dựng dựa thuật tốn Viterbi Hình 3.3 Mơ hình nhận dạng theo cấp 26 Cơng nghệ MPEG-4 ứng dụng Truyền thông đa phương tiện KẾT LUẬN MPEG-4 AVC đánh dấu bước ngoặt lĩnh vực nén video, áp dụng kỹ thuật tiên tiến nhằm mục đích sử dụng băng thơng hiệu đem lại chất lượng ảnh cao Với kỹ thuật này, MPEG-4 AVC giảm tốc độ bit xuống 50% so với chuẩn MPEG-2 Tuy nhiên, MPEG-4 AVC đòi hỏi cấp độ phức tạp cao trình lập mã lẫn giải mã Mặc dù vậy, thử thách hồn tồn chinh phục nhờ có tiến liên tiếp khả xử lý phần mềm phần cứng Ngày này, công nghệ tiêu chuẩn MPEG-4 ứng dụng rộng rãi nhiều lĩnh vực đặc biệt truyền hình, thơng tin di động Nhờ vào phát triển ứng dụng truyền thơng đa phương tiện mà đưa âm thanh, hình ảnh, hay đoạn video xa cách nhanh chóng thuận tiện, tiến gần đến cách mạng 4.0 27 Công nghệ MPEG-4 ứng dụng Truyền thông đa phương tiện TÀI LIỆU THAM KHẢO [1] Xử lý ảnh, PGS.TS Nguyễn Quang Hoan, Học Viện Cơng Nghệ Bưu Chính Viễn Thơng 2006 [2]Compressed Video Communications, Biên soạn : Abdul H Sadka Trường đại học Surrey, Guildford UK năm 2002 [3] H.264 and MPEG-4, Iain E.G.Richardson Trường đại học Robert Gordon Aberdeen ,UK năm 2003 [4] Audio & Video số, T.S Đỗ Hoàng Tiến, Nhà xuất khoa học kỹ thuật năm 2002 28 ... tiền xử lý áp dụng phương pháp máy học, Thuật toán áp dụng hay nhiều lọc lên tín hiệu tiếng nói vừa thu 2.1 Qúa trình tiền xử lý tín hiệu tiếng nói Gọi: Yi tín hiệu thu thời điểm i Xi tín hiệu tiếng. .. nghệ MPEG-4 ứng dụng Truyền thông đa phương tiện CHƯƠNG 2: TIỀN XỬ LÝ TÍN HIỆU TIẾNG NĨI Để nhận dạng tiếng nói, trước tiên cần thu tiếng nói Chất lượng tiếng nói thu tốt nhận dạng xác Tuy nhiên... công nghệ Bài tiểu luận gồm chương chính: Chương 1: Tổng quan HMM Chương 2: Tiền xử lý tín hiệu tiếng nói Chương 3: Mơ hình nhận dạng tiếng nói sử dụng HMM Cơng nghệ MPEG-4 ứng dụng Truyền thông

Định dạng
Số trang	29
Dung lượng	688,05 KB