1. Trang chủ
  2. » Giáo Dục - Đào Tạo

Lược đồ mã hóa MPEG hình ảnh động theo chuẩn lưu trữ số -2 pot

41 420 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 41
Dung lượng 182,13 KB

Nội dung

32, 48, 56, 64, 80, 96, 112, 128, 160, 192, 224, 256, 320, 384 kbps. 32, 48, 56, 80 kbps chỉ có thể ở chế độ Mono; 64, 96, 112, 128, 160, 192 kbps có thể ở cả hai chế độ Mono và Stereo;224, 256, 320, 384 kbps chỉ có thể ở chế độ Stereo. • MPEG 2 : 16 kHz, 22.05 kHz và 24 kHz - Layer I : 32, 48, 56, 64, 80, 96, 112, 128, 144, 160, 176, 192, 224, 256 kbps Những tốc độ này là có thể ở chế độ Mono hay stereo - Layer II : 8, 16, 24, 32, 40, 48, 56, 64, 80, 96, 112, 128, 144, 160 kbps. Những tốc độ này là có thể ở chế độ Mono hay stereo. d. Layers. Chuẩn MPEG có ba layer. Khi chọn lựa tốc độ bit cần xem xét các vấn đề: • Ở cùng tốc độ bit, Layer II mang lại chất lượng âm thanh tốt hơn Layer I. Kết luận này là chủ quan, vì sự chênh lệch là rất khó phân biệt ở tốc độ bit 128 kbps và lớn hơn. • Dùng Layer I thì việc chọn lọc chính xác hơn Layer II bởi vì độ phân giải của Layer I gấp ba lần Layer II. Resolution Table Sampling frequency Layer I (384 samples) Layer II (1152 samples) 32 kHz 12 ms 36 ms 44.1 kHz # 8.71 ms # 26.12 ms 48 kHz 8 ms 24 ms 16 kHz 24 ms 72 ms 22.05 kHz # 17.42 ms # 52.24 ms 24 kHz 16 ms 48 ms Các điểm kỹ thuật mấu chốt. Chuẩn mã hóa âm thanh MPEG chỉ định việc ghi một số cố định các mẫu (384 cho Layer I và 1152 cho Layer II) để tạo ra một chuỗi các bytes gọi là “frame”. “Frame” là thực thể nhỏ nhất được điều khiển bởi một ứng dụng. Việc chọn tốc độ bit(kbps) thiết lập nên kích thước của frame đó theo byte. Ví dụ: Ở 48 kHz, 128 kbps, chế độ Mono, Layer II: • 48,000 mẫu, tương ứng 1000 ms hay 1s, 1152 mẫu tương ứng 24 ms. • Ở tốc độ bit 128,000 bits/s, 3072 bits (384 bytes) cần cho 24 ms. • Chiều dài frame vì thế là 384 byte. • Để lưu 1 phút, cần 960,000 byte (hay khoảng 1 Megabyte) đĩa trống. CHƯƠNG 5. CÁC GIẢI THUẬT NÉN ÂM THANH. I. NỀN TẢNG LÝ THUYẾT THÔNG TIN. Theo Shannon, entropy của một nguồn thông tin S được định nghĩa: H(S) =ipilog2(1/pi) Trong đó: - pi là xác suất mà ký hiệu Si xuất hiện trong S. - log2(1/pi) chỉ ra số lượng thông tin chứa đựng trong Si, nghĩa là số bit cần thiết để mã hóa Si. • Ví dụ: một hình ảnh được tô đều với cùng một cường độ màu xám, tức là pi=1/256, thì số bit cần thiết để mã hóa cho mỗi mức xám là 8 bits. Entropy của hình này là 8. Giải thuật Shannon - Fano: Ta dùng một ví dụ đơn giản để mô tả giải thuật: Ký hiệu A B C D E Số lần 15 7 6 6 5 Mã hóa cho giải thuật Shannon - Fano: Dùng cách tiếp cận từ trên xuống. • Sắp thứ tự các ký hiệu theo tần số xuất hiện của nó, nghĩa là: ABCDE. • Chia thành hai phần, mỗi phần tương đương với cùng số lần đếm. Hình 5.1 Ký hiệu Số lần log(1/p) Mã Cộng(số bit) A 15 1.38 00 30 B 7 2.48 01 14 C 6 2.70 10 12 D 6 2.70 110 18 E 5 2.96 111 15 Tổng cộng(số bit) : 89 II. CÁC GIẢI THUẬT NÉN KHÔNG CÓ TỔN THẤT. 1. Mã hóa Huffman. • Khởi tạo: đưa tất cả các node vào danh sách OPEN theo thứ tự tại mọi thời điểm. Ví dụ: ABCDE. • Lặp lại cho đến khi danh sách OPEN chỉ còn một node bên trái như sau: - Từ danh sách OPEN, chọn hai node có xác suất thấp nhất, tạo node cha cho chúng. - Gán tổng các xác suất cho node cha và đưa node cha vào danh sách OPEN. - Gán các mã 0, 1 vào các nhánh của cây, xóa các node con khỏi danh sách OPEN. Hình 5.2 Ký hiệu Số lần log(1/p) Mã Cộng(số bit) A 15 1.38 0 30 B 7 2.48 100 14 C 6 2.70 101 12 D 6 2.70 110 18 E 5 2.96 111 15 Tổng cộng (số bit) : 87 • Việc giải mã cho cả hai giải thuật trên là tầm thường chừng nào mà bảng mã (thống kê) được gửi trước dữ liệu. Có một bit bên trên công việc truyền này, nhưng không đáng kể nếu file dữ liệu lớn. • Tính chất tiền tố duy nhất: không có mã nào là tiền tố cho một mã khác (tất cả các ký hiệu đều là node lá) rõ ràng là lớn đối với bộ giải mã. • Nếu việc thống kê có thể tiến hành được trước đó và với độ chính xác cao, thì mã Huffman là rất tốt. Trong ví dụ trên:Entropy=(15x1.38+7x2.48+ 6x2.7 + 6x2.7 + 5x2.96)/39 = 85.26 / 39 = 2.19. Số bit cần thiết cho mã hóa Huffman là : 87 / 39 = 2.23 2. Mã Huffman sửa đổi. (a) Các giải thuật trên đây yêu cầu kiến thức về thống kê là điều mà khó có thể thực hiện (ví dụ âm thanh, hình ảnh sống ). (b) Ngay cả khi nếu điều đó là có thể làm được thì chi phí cho nó khá nặng, đặc biệt khi có nhiều bảng phải được truyền mà mô hình non-order() được sử dụng, nghĩa là việc đưa vào tính toán sự ảnh hưởng của các ký hiệu trước đó với xác suất của ký hiệu hiện hành (ví dụ: “qu” thường đi với nhau, ). Giải pháp đưa ra là dùng giải thuật sửa đổi cho thích hợp. Như ví dụ, việc mã hóa Huffman sửa đổi được khảo sát sau đây với ý tưởng là làm thế nào có thể áp dụng vào các giải thuật nén thích hợp khác. • Mấu chốt ở đây là cả hai bộ mã hóa và giải mã đều dùng cùng các hàm Initialize_model và update_model . • Hàm update_model có hai lưu ý: (a) Tăng biến đếm. (b) Cập nhật cây Huffman. - Trong suốt qúa trình cập nhật, cây Huffman sẽ được duy trì tính kế thừa, các nodes (node trong và lá) được sắp xếp theo thứ tự tăng dần của trọng lượng . - Khi cần thiết trao đổi (swapping), node xa nhất với trọng lượng W được trao đổi với node mà trọng lượng của nó tăng lên 1 đơn vị W+1. Lưu ý: nếu node trọng lượng W có cây con bên dưới nó thì cây con đó cũng phải dời cùng với nó. Cây Huffman có thể nhìn rất khác so với trước khi trao đổi, ví dụ trong cây thứ 3 , node A được trao đổi và trở thành node 5. Bây giờ nó được mã hóa chi bằng 2 bit. 3. Mã hóa số học. Mã hóa Huffman sử dụng một số nguyên k các bit cho mỗi ký hiệu, vì thế k không bao giờ nhỏ hơn 1. Đôi khi, ví dụ phải truyền một hình ảnh 1 bit, thì không thể nén được. Ý tưởng: giả sử mẫu tự là [X,Y] và P(X) = 2/3 P(Y) = 1/3. • Nếu ta chỉ quan tâm với chiều dài mã hóa là 2 thông điệp, thì ta có thể ánh xạ tất cả thông điệp có thể có vào những đoạn trong phạm vi [0 1] • Để mã hóa thông điệp, chỉ dùng vừa đủ số bit cần thiết cho mỗi đoạn. • Tương tự, ta có thể ánh xạ tất cả chiều dài 3 thông điệp vào các đoạn trong [0 1]. • Nói chung, số bit được xác định bằng kích thước của đoạn. Ví dụ: Đoạn đầu tiên là 8/27, cần 2 bit 2/3 bit cho mỗi ký tự. Đoạn cuối là 1/27, cần 5 bit. • Tóm lại, cần -[logp] bit để biểu diễn cho đoạn có kích thước p. • Vấn đề đặt ra là làm thế nào để xác định được xác suất? Ý tưởng đơn giản là dùng mô phỏng: bắt đầu bằng việc đoán tần số của một ký hiệu. Cập nhật tần số cho mỗi ký hiệu mới. 4. Giải thuật Lempel-Ziv-Welch(LZW). Giả sử chúng ta muốn mã hóa cho một cuốn tự điển Tiếng Anh 159,000 từ. Như vậy mỗi từ cần 18 bit để mã hóa. Nhược: - Dùng qúa nhiều bit. - Chỉ làm việc cho ký tự tiếng Anh. Giải pháp: - Cần phải tìm một cách mã hóa cuốn từ điển cho thích hợp. - Các phương pháp ban đầu được đề xuất bởi Ziv và Lempel vào năm 1978 và 1979. Terry Welch phát triển lược đồ vào năm 1981 và trở thành giải thuật LZW. Giải thuật: w = NIL; while (read a character k) { if wk exists in the dictionary w = wk; else add wk to the dictionary; output the code for w; w = k; } LZW nguyên gốc sử dụng từ điển với 4K mục từ, 256 từ đầu tiên là mã ASCII. Ví dụ: chuỗi ký tự là “^WED^WE^WEE^WEB^WET”. w k output index symbol NIL ^ ^ W ^ 256 ^W W E W 257 WE E D E 258 ED D ^ D 259 D^ ^ W ^W E 256 260 ^WE E ^ E 261 E^ ^ W ^W E ^WE E 260 262 ^WEE E ^ E^ W 261 263 E^W W E WE B 257 264 WEB B ^ B 265 B^ ^ W ^W E ^WE T 260 266 ^WET T EOF T 19 ký hiệu nhập được giảm xuống 7 ký tự và 5 mã. Mỗi mã/ký hiệu sẽ cần nhiều hơn 8 bit, ta lấy 9 bit. Thông thường, công việc nén chỉ được bắt đầu khi có một số lớn byte được đọc vào (ví dụ >100). Giải thuật giải nén LZW: read a character k; output k; w = k; while ( read a character k ) /* k could be a character or a code. */ {entry = dictionary entry for k; output entry; add w + entry[0] to dictionary; w = entry;} III. CÁC GIẢI THUẬT NÉN CÓ TỔN THẤT. 1. Các phương pháp nén âm thanh đơn giản: • Các phương pháp nén khảo sát ở trên không hiệu quả trong việc nén âm thanh. • Sau đây là các phương pháp nén có tổn thất: - Nén “silence” : dò các khoảng “yên lặng”, giống như mã hoá run-length. - LPC (Linear Predictive Coding). - CELP (Code Excited Linear Predictor). 2. Nén âm thanh dùng mô hình ââm - tâm lý. a. Hệ thống nghe và phát âm của con người. • Phạm vi nghe được từ 20 Hz đến 20 kHz, nhạy cảm ở 2 - 5kHz. • Phạm vi phát âm bình thường từ 500 Hz đến 2 kHz. b. Che tần số (Frequency masking) “Ngưỡng che” (Threshold masking): sinh ra từ hiệu ứng che, mỗi âm với một tần số và mức to (dB) xác định sẽ có một “ngưỡng che” (xem hình 4.3 và 4.4) c. Băng giới hạn. • Thước đo tần số đồng bộ không tương xứng với độ rộng của đường cong che. • Băng giới hạn có độ rộng là 100Hz đối với các tần số che < 500Hz, và càng tăng lên đối với các tần số >500Hz. • Định nghĩa một đơn vị mới cho tần số là bark ( Barkhausen) 1 Bark = bề rộng của băng giới hạn: - Tần số <500Hz : 1 bark = freq/100. - Tần số >500Hz : 1 bark = 9 + 4log(freq/1000). • Ngưỡng che trên thước đo băng giới hạn: Hình 5.3 d. Che nhất thời (Temporal masking): che theo thời gian. Tai người cũng có đặc tính lưu âm. Nếu có một âm thanh lớn, rồi ngưng nó lại, mãi một lúc sau ta mới có thể nghe được một âm lân cận nhỏ hơn (xem hình 4.5 và 4.6). 3. Nén âm thanh MPEG. Vài thông số: • MPEG-1 : 1.5Mbits/s cho âm thanh và hình ảnh. Khoảng 1.2 Mbits cho hình ảnh và 0.3Mbits/s cho âm thanh. Aâm thanh CD không nén dùng: (44,100 mẫu/s * 16bit/mẫu * 2 kênh) > 1.4 Mbits/s • Aâm thanh MPEG cung cấp các tần số lấy mẫu là 32, 44.1 và 48 kHz. • Giải thuật: 1. Dùng bộ lọc thông để chia tín hiệu âm thanh thành các sub-band theo tần số, tương ứng với 32 băng giới hạn lọc sub-band. 2. Xác định số lượng che của mỗi band gây bởi các band lân cận bằng các kết qủa bước 1 mô hình âm - tâm lý. 3. Nếu mức to của một băng mà nhỏ hơn ngưỡng che thì không mã hóa nó. 4. Ngược lại, xác định số bit cần thiết để mã hóa sao cho nhiễu sinh ra bởi việc lượng tử hóa này thấp hơn đường cong che. 5. Định dạng dòng dữ liệu bit : Hình 5.4 [...]... = FALSE; bSave = FALSE; // Gán các hằng cho các đối tượng config .mpeg. type = TYPE _MPEG_ I; config .mpeg. layr = LAYR_III; config .mpeg. mode = MODE_STEREO; config .mpeg. bitr = 128; config .mpeg. psyc = PSYC_ATT; config .mpeg. emph = EMPH_NONE; config .mpeg. crc = 0; config .mpeg. ext = 0; config .mpeg. mode_ext = 0; config .mpeg. copyright = 0; config .mpeg. original = 0; GetDlgItem(IDC_COMPRESS)->EnableWindow(FALSE);... TRUE; // Gán giá trị cấu hình bitrates cho biến config .mpeg. bitr tuỳ theo giá trị đã // chọn trên hộp thoại if (m_bitrates_out.GetCurSel()==0) config .mpeg. bitr = 32; if (m_bitrates_out.GetCurSel()==1) config .mpeg. bitr = 40; if (m_bitrates_out.GetCurSel()==2) config .mpeg. bitr = 48; if (m_bitrates_out.GetCurSel()==3) config .mpeg. bitr = 56; if (m_bitrates_out.GetCurSel()==4) config .mpeg. bitr = 64; if (m_bitrates_out.GetCurSel()==5)... (m_bitrates_out.GetCurSel()==5) config .mpeg. bitr = 80; if (m_bitrates_out.GetCurSel()==6) config .mpeg. bitr = 96; if (m_bitrates_out.GetCurSel()==7) config .mpeg. bitr = 112; if (m_bitrates_out.GetCurSel()==8) config .mpeg. bitr = 128; if (m_bitrates_out.GetCurSel()==9) config mpeg. bitr= 160; if (m_bitrates_out.GetCurSel()==10) config .mpeg. bitr = 192; if (m_bitrates_out.GetCurSel()==11) config .mpeg. bitr = 224; if (m_bitrates_out.GetCurSel()==12)... hàm chính đều được đặt trong lớp CMp3Dlg Sau đây ta sẽ lần lược khảo sát một số hàm quan trọng 1 OnInitDialog( ) : Hàm này khởi tạo một số giá trị mặc định cho hộp thoại, nhằm giúp cho người sử dụng có một cái nhìn toàn cục và hiểu được ngay ứng dụng, để từ đó có thể chọn lựa các thông số thích hợp cho ứng dụng Đồng thời, cũng cài đặt sẵn một số giá trị ban đầu cho các đối tượng được dùng cho chương... độ rộng tần số như nhau trên mỗi sub-band Mô hình âm-tâm lý chỉ sử dụng hiệu quả che tần số (Frequency masking) • Layer II: sử dụng 3 frame trong bộ lọc (trước, hiện tại và kế tiếp, tổng cộng 1152 mẫu) Mô hình âm-tâm lý có sử dụng hiệu quả che nhất thời (Temporal masking) • Layer III: dùng bộ lọc băng giới hạn tốt hơn, mô hình âm-tâm lý có sử dụng hiệu quả che nhất thời, và có dùng bộ mã hoá Huffman... định là *.wav 4 Bitrates Cho biết chỉ số tốc độ bit của tập tin nguồn wav đã chọn trên mục 2 hoặc 3 Chỉ số mặc định là 128 Không sửa bằng tay được 5 Samplerates Cho biết tần số lấy mẫu của tập tin nguồn wav đã chọn trên mục 2 hoặc 3 Tần số mặc định là 44100 Hz Không sửa bằng tay được Các tần số có thể bao gồm : 32000, 44100 và 48000 Hz 6 Output Nhóm các thông tin cấu hình và lệnh về tập tin đích ( *.mp3)... trong ô này sẽ tự động xuất hiện đường dẫn và tên tập tin đích 9 Bitrates Định chỉ số tốc độ bit của tập tin đích đã chọn trên mục 7 hoặc 8 Chỉ số mặc định là 128 Có thể chọn các chỉ số khác trong ô kéo xuống, bao gồm các giá trị : 16, 32, 40, 48, 56, 64, 80, 96, 112, 128, 156, 160, 192, 224, 256, 320 10 Samplerates Cho biết tần số lấy mẫu của tập tin đích, phụ thuộc và bằng với tần số lấy mẫu của tập... (m_bitrates_out.GetCurSel()==11) config .mpeg. bitr = 224; if (m_bitrates_out.GetCurSel()==12) config .mpeg. bitr = 256; if (m_bitrates_out.GetCurSel()==13) config .mpeg. bitr = 320; config .mpeg. bitrate_index = find_bitrate_index(config .mpeg. bitr); bOpen = FALSE; bSave = FALSE; // Hàm GetDlgItem(IDC_ ) cho phép phím nhấn có IDC_ làm thông số có thể // hoạt động được if (bWaveOpen) GetDlgItem(IDC_COMPRESS)->EnableWindow(); UpdateData(FALSE);}... những sai lầm khi sử dụng Lập trình trong Windows là lập trình theo tình huống Mọi nút nhấn, ô đối thoại trên giao diện đều có thể được truy cập tới bất kỳ lúc nào mà không theo một trình tự nhất định Do đó người lập trình cần phải dự trù đến mọi tình huống và cần phải đưa ra một số đề nghị dưới dạng những thông số định sẵn cho người sử dụng theo đó mà vận hành Ngoài ra, giao diện cần có phần trợ giúp... người sử dụng theo đó mà vận hành Ngoài ra, giao diện cần có phần trợ giúp để hướng dẫn cho người sử dụng ở bất kỳ lúc nào II Giao diện Dựa trên sơ đồ khối và lưu đồ giải thuật Giao diện bao gồm các phần như hình vẽ sau: 1 Input group Nhóm các thông tin cấu hình và lệnh về tập tin nguồn ( *.wav) Bao gồm các thông tin như : bitrates, samplerates, mode, File path name 2 Open button Mở hộp thoại File Open . nó được mã hóa chi bằng 2 bit. 3. Mã hóa số học. Mã hóa Huffman sử dụng một số nguyên k các bit cho mỗi ký hiệu, vì thế k không bao giờ nhỏ hơn 1. Đôi khi, ví dụ phải truyền một hình ảnh 1. ra số lượng thông tin chứa đựng trong Si, nghĩa là số bit cần thiết để mã hóa Si. • Ví dụ: một hình ảnh được tô đều với cùng một cường độ màu xám, tức là pi=1/256, thì số bit cần thiết để mã. một âm lân cận nhỏ hơn (xem hình 4.5 và 4.6). 3. Nén âm thanh MPEG. Vài thông số: • MPEG- 1 : 1.5Mbits/s cho âm thanh và hình ảnh. Khoảng 1.2 Mbits cho hình ảnh và 0.3Mbits/s cho âm thanh.

Ngày đăng: 09/08/2014, 08:20

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w