HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG XỬ LÝ ÂM THANH, HÌNH ẢNH (Dùng cho sinh viên hệ đào tạo đại học từ xa) Lưu hành nội HÀ NỘI - 2007 HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG XỬ LÝ ÂM THANH, HÌNH ẢNH Biên soạn : TS NGUYỄN THANH BÌNH THS VÕ NGUYỄN QUỐC BẢO LỜI NÓI ĐẦU Tài liệu hướng dẫn học tập môn "Xử lý âm hình ảnh" dành cho khối đào tạo từ xa chuyên ngành điện tử viễn thông Tài liệu giới thiệu kiến thức xử lý âm hình ảnh Đặc biệt, tác giả trọng tới vấn đề xử lý tín hiệu ứng dụng mạng viễn thông: phương pháp nén tín hiệu, lưu trữ, tiêu chuẩn nén tín hiệu âm hình ảnh Những kiến thức trình bày tài liệu giúp học viên tiếp cận nhanh với vấn đề thực tiễn thường gặp mạng viễn thông Vì khối lượng kiến thức lĩnh vực xử lý âm hình ảnh lớn, với quỹ thời gian eo hẹp dành cho biên soạn, tài liệu hướng dẫn chưa thâu tóm toàn kiến thức cần có lĩnh vực xử lý âm hình ảnh Để tìm hiểu số vấn đề có đề cương môn học đòi hỏi học viên phải nghiên cứu thêm số sách tham khảo tác giả đề cập tới phần cuối tài liệu Nội dung sách chia làm hai chương: - Chương 1: Kỹ thuật xử lý âm - Chương 2: Kỹ thuật xử lý hình ảnh Để học tốt môn này, sinh viên cần phải có kiến thức xử lý tín hiệu số Các kiến thức bạn tìm hiểu “Xử lý tín hiệu số” dành cho sinh viên Đại học từ xa Học viện Đây lần biên soạn đầu tiên, chắn tài liệu nhiều sơ sót, mong bạn đọc trình học tập thày cô giảng dạy môn học đóng góp ý kiến xây dựng Trong thời gian gần nhất, tác giả cố gắng cập nhập, bổ xung thêm để tài liệu hướng dẫn hoàn chỉnh Mọi ý kiến đóng góp đề nghị gửi theo địa email: binhntptit@yahoo.com Tp Hồ Chí Minh 19/05/2007 Nhóm biên soạn CHƯƠNG KỸ THUẬT XỬ LÝ ÂM THANH 1.1 TỔNG QUAN VỀ XỬ LÝ ÂM THANH 1.1.1 Giới thiệu sơ lược âm & hệ thống xử lý âm 1.1.1.1 Đặc tính âm tương tự [1] Mục đích lời nói dùng để truyền đạt thông tin Có nhiều cách mô tả đặc điểm việc truyền đạt thông tin Dựa vào lý thuyết thông tin, lời nói đại diện thuật ngữ nội dung thông điệp, thông tin Một cách khác để biểu thị lời nói tín hiệu mang nội dung thông điệp, dạng sóng âm Hình 1.1 Dạng sóng tín hiệu ghi nhận từ âm người Kỹ thuật dùng việc ghi âm sử dụng thông số cơ, điện trường làm nên nhiều cách thức ghi âm ứng với loại áp suất không khí khác Điện áp đến từ microphone tín hiệu tương tự áp suất không khí (hoặc vận tốc) Dù phân tích cách thức nào, phương pháp so sánh với phải dùng tỉ lệ thời gian Trong thiết bị tương tự đại trông xử lý âm tốt thiết bị cổ điển, tiêu chuẩn xử lý thay đổi, công nghệ xử lý tốt Trong hệ thống xử lý âm tương tự, thông tin truyền đạt thông số liên tục biến thiên vô hạn Hệ thống xử lý âm số lý tưởng có tính tương tự hệ thống xử lý âm tương tự lý tưởng: hai hoạt động cách “trong suốt” tạo lại dạng sóng ban đầu không lỗi Tuy nhiên, giới thực, điều kiện lý tưởng tồn tại, hai loại hệ thống xử lý âm hoạt động khác thực tế Tín hiệu số truyền khoảng cách ngắn tín hiệu tương tự với chi phí thấp Trong giáo trình này, tập trung đề cập đến hệ thống số xử lý âm Thông tin dùng để truyền đạt âm thoại chất có tính rời rạc [2], biểu diễn chuỗi ghép gồm nhiều phần tử từ tập hữu hạn ký hiệu (symbol) Các ký hiệu từ âm phân loại thành âm vị (phoneme) Mỗi ngôn ngữ có tập âm vị khác nhau, đặc trưng số có giá trị từ 30 đến 50 Ví dụ tiếng Anh biểu diễn tập khoảng 42 âm vị Tín hiệu thoại truyền với tốc độ nào? Đối với tín hiệu âm thoại nguyên thủy chưa qua hiệu chỉnh tốc độ truyền ước lượng tính cách lưu ý giới hạn vật lý việc nói lưu loát người nói tạo âm thoại khoảng 10 âm vị giây Mỗi âm vị biểu diễn số nhị phân, mã gồm bit biểu diễn tất âm vị tiếng Anh Với tốc độ truyền trung bình 10 âm vị/giây, không quan tâm đến vấn đề luyến âm âm vị kề nhau, ta ước lượng tốc độ truyền trunh bình âm thoại khoảng 60bit/giây Trong hệ thống truyền âm thoại, tín hiệu thoại truyền lưu trữ xử lý theo nhiều cách thức khác Tuy nhiên loại hệ thống xử lý âm có hai điều cần quan tâm chung là: Việc trì nội dung thông điệp tín hiệu thoại Việc biểu diễn tín hiệu thoại phải đạt mục tiêu tiện lợi cho việc truyền tin lưu trữ, dạng linh động cho việc hiệu chỉnh tín hiệu thoại cho không làm giảm nghiêm trọng nội dung thông điệp thoại Việc biểu diễn tín hiệu thoại phải đảm bảo việc nội dung thông tin dễ dàng trích người nghe, thiết bị phân tích cách tự động 1.1.1.2 Khái niệm tín hiệu Là đại lượng vật lý biến thiên theo thời gian, theo không gian, theo nhiều biến độc lập khác, ví dụ như: ¾ Âm thanh, tiếng nói: dao động sóng theo thời gian (t) ¾ Hình ảnh: cường độ sáng theo không gian (x, y, z) ¾ Địa chấn: chấn động địa lý theo thời gian Biểu diễn toán học tín hiệu: hàm theo biến độc lập Ví dụ: ¾ u (t ) = 2t − ¾ f ( x, y ) = x − xy − y Thông thường tín hiệu tự nhiên không biểu diễn hàm sơ cấp, tính toán, người ta thường dùng hàm xấp xỉ cho tín hiệu tự nhiên Hệ thống: thiết bị vật lý, thiết bị sinh học, chương trình thực phép toán tín hiệu nhằm biến đổi tín hiệu, rút trích thông tin, … Việc thực phép toán gọi xử lý tín hiệu 1.1.1.3 Phân loại tín hiệu: Tín hiệu đa kênh: gồm nhiều tín hiệu thành phần ,cùng chung mô tả đối tượng (thường biểu diễn dạng vector, ví dụ tín hiệu điện tim (ECG-ElectroCardioGram) , tín hiệu điện não (EEG – ElectroEncephaloGram), tín hiệu ảnh màu RGB Tín hiệu đa chiều: biến thiên theo nhiều biến độc lập, ví dụ tín hiệu hình ảnh, tín hiệu tivi trắng đen Tín hiệu liên tục theo thời gian: tín hiệu định nghĩa điểm đoạn thời gian [a,b], ký hiệu x (t ) Hình 1.2 Tín hiệu liên tục theo thời gian Tín hiệu rời rạc thời gian: tín hiệu định nghĩa thời điểm rời rạc khác nhau, ký hiệu x(n) Hình 1.3 Tín hiệu rời rạc theo thời gian Tín hiệu liên tục giá trị: tín hiệu nhận trị đoạn [Ymin , Ymax ] , ví dụ tín hiệu tương tự (analog) Hình 1.4 Tín hiệu liên tục giá trị Tín hiệu rời rạc giá trị: tín hiệu nhận trị tập trị rời rạc định trước (tín hiệu số) Hình 1.5 Tín hiệu rời rạc giá trị Tín hiệu analog: tín hiệu liên tục thời gian, liên tục giá trị Hình 1.6 Tín hiệu analog Tín hiệu số: tín hiệu rời rạc thời gian, rời rạc giá trị Hình 1.7 Tín hiệu số Tín hiệu ngẫu nhiên: giá trị tín hiệu tương lai biết trước Các tín hiệu tự nhiên thường thuộc nhóm Tín hiệu tất định: giá trị tín hiệu khứ, tương lại xác định rõ, thông thường có công thức xác định rõ ràng 1.1.1.4 Phân loại hệ thống xử lý Gồm hai loại hệ thống hệ thống tương tự hệ thống số Trong hệ thống xử lý số: hệ thống lập trình được, dễ mô phỏng, cấu hình, sản xuất hàng loạt với độ xác cao, giá thành hạ, tín hiệu số dễ lưu trữ, vận chuyển lưu, nhược điểm khó thực với tín hiệu có tần số cao 1.1.1.5 Hệ thống số xử lý âm [3] Độ nhạy tai người cao, phân biệt số lượng nhiễu nhỏ chấp nhận tầm biên độ âm lớn Các đặc tính tín hiệu tai người nghe được đo đạc công cụ phù hợp Thông thường, tai người nhạy tầm tần số 2kHz 5kHz, có người nhận dạng tín hiệu 20kHz Tầm động nghe tai người phân tích người ta nhận kết có dạng đáp ứng logarith Tín hiệu âm truyền qua hệ thống số chuỗi bit Bởi bit có tính chấtt rời rạc, dễ dàng xác định số lượng cách đếm số lượng giây, dễ dàng định tốc độ truyền bit cần thiết để truyền tín hiệu mà không làm thông tin Hình 1.8 Để nhận tám mức tín hiệu khác cách phân biệt, tín hiệu đỉnhđỉnh tín hiệu nhiểu phải nhỏ độ sai biệt mức độ Tỉ số tín hiệu nhiễu phải tối thiểu 8:1 18dB, truyền bit.Ở 16 mức tỉ số tín hiệu nhiễu phải 24dB, truyền bit 1.1.1.6 Mô hình hóa tín hiệu âm [4] Có nhiều kỹ thuật xử lý tín hiệu mô hình hóa áp dụng giải thuật việc khôi phục âm Chất lựơng âm thoại phụ thuộc lớn vào mô hình giả định phù hợp với liệu Đối với tín hiệu âm thanh, bao gồm âm thoại, nhạc nhiễu không mong muốn, mô hình phải tổng quát không sai lệnh so với giả định Một điều cần lưu ý hầu hết tín hiệu âm thoại tín hiệu động thực tế, mô hình thực tiễn thường giả định phân tích tín hiệu tín hiệu có tính chất tĩnh khoảng thời gian xét Mô hình phù hợp với hầu hết nhiều lãnh vực việc xử lý chuỗi thời gian, bao gồm việc phục hồi âm mô hình Autoregressive (viết tắt AR), dùng làm mô hình chuẩn cho việc phân tích dự đoán tuyến tính Tín hiệu biểu diễn tổng giá trị P tín hiệu trước tín hiệu nhiễu trắng, P bậc mô hình AR: P s[u ] = ∑ s[n − i ]ai + e[n] (1.1) i =1 Mô hình AR đại diện cho trình tuyến tính tĩnh, chấp nhận tín hiệu tương tự nhiễu tín hiệu tương tự điều hòa Một mô hình khác phù hợp nhiều tình phân tích mô hình auto regressive moving-average (ARMA) cho phép điểm cực điểm Tuy nhiên mô hình AR có tính linh động phân tích mô hình ARMA, ví dụ tín hiệu nhạc phức tạp cần mô hình có bậc P > 100 để biểu diễn dạng sóng tín hiệu, tín hiệu đơn giản cần biểu diễn bậc 30 Trong nhiều ứng dụng, việc lựa chọn bậc mô hình phù hợp cho toán cho đảm bảo việc biểu diễn tín hiệu thỏa việc không làm thông tin tín hiệu việc phức tạp Có nhiều phương pháp dùng để ước lượng bậc mô hình AR phương pháp maximum likelihood/least-squares [Makhoul, 1975], phương pháp robust to noise [Huber, 1981, Spath, 1991], v.v… Tuy nhiên, việc xử lý tín hiệu âm nhạc phức tạp thông thường sử dụng mô hình Sin (Sinusoidal) có hiệu ứng dụng âm thoại Mô hình Sin phù hợp phương pháp dùng để giảm nhiễu Tín hiệu cho công thức sau ⎛ nT ⎞ s[n]∑ [n]sin ⎜⎜ ∫ ωi (t )dt + φi ⎟⎟ i =1 ⎝0 ⎠ Pn (1.2) Đây mô hình tổng quát điều chế biên độ điều chế tần số, nhiên lại không phù hợp tín hiệu tương tự nhiễu, việc biểu diễn tín hiệu nhiễu biểu diễn số lượng hàm sin lớn 1.1.1.7 Kiến trúc hệ thống số xử lý âm Đối với máy tính số xử lý âm thanh, người ta thường dùng phương pháp Điều chế xung (Pulse Code Modulation , viết tắt PCM) Dạng sóng âm chuyển sang dãy số PCM sau, xét tín hiệu hình sin làm ví dụ: Tín hiệu gốc tín hiệu Hình 1.9 Air Displacement Time Hình 1.9 Dạng sóng âm nguyên thủy Kế đến, sử dụng microphone để thu tín hiệu âm (trong không khí) chuyển đổi thành tín hiệu điện, tầm điện áp ngõ microphone ±1 volt Hình 1.10 ... NGHỆ BƯU CHÍNH VIỄN THÔNG XỬ LÝ ÂM THANH, HÌNH ẢNH Biên soạn : TS NGUYỄN THANH BÌNH THS VÕ NGUYỄN QUỐC BẢO LỜI NÓI ĐẦU Tài liệu hướng dẫn học tập môn "Xử lý âm hình ảnh" dành cho khối đào tạo... thiệu kiến thức xử lý âm hình ảnh Đặc biệt, tác giả trọng tới vấn đề xử lý tín hiệu ứng dụng mạng viễn thông: phương pháp nén tín hiệu, lưu trữ, tiêu chuẩn nén tín hiệu âm hình ảnh Những kiến... lượng kiến thức lĩnh vực xử lý âm hình ảnh lớn, với quỹ thời gian eo hẹp dành cho biên soạn, tài liệu hướng dẫn chưa thâu tóm toàn kiến thức cần có lĩnh vực xử lý âm hình ảnh Để tìm hiểu số vấn