Kỹ thuật mã hóa thụ cảm

73 1.1K 7
Kỹ thuật mã hóa thụ cảm

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

tài liệu tham khảo công nghệ thông tin Kỹ thuật mã hóa thụ cảm

Phân tích và ứng dụng chuẩn MP3MỤC LỤCMục lục…… .1Lời mở đầu 5Các thuật ngữ thường dùng .6PHẦN 1 : LÝ THUYẾT .7CHƯƠNG I: CÁC ĐẶC ĐIỂM CƠ BẢN CỦA ÂM THANH 7I. Các đặc tính cơ bản của âm thanh .71. Tần số sóng âm .72. Biên độ sóng âm 8II. Khái quát về âm thanh số 91. Lấy mẫu rời rạc thời gian, tín hiệu audio tương tự 92. Lượng tử hoá và các mẫu rời rạc thời gian 93. Tỉ số tín hiệu trên sai số (Signal-to-error ratio) .10CHƯƠNG II: GIỚI THIỆU VỀ MPEG .11I. GIỚI THIỆU 111. MPEG là gì? 112. So sánh các chuẩn MPEG: .113. Âm thanh MPEG .124. Hoạt động: .13II. CÁC KHÁI NIỆM CƠ BẢN VỀ MPEG 141. Lược đồ hóa Perceptual Subband 142. Giải thích về hiệu qủa che (masking effect) .14a. Nén âm thanh MPEG .15b. Hiệu quả che 163. Các lớp âm thanh MPEG 17a. Lớp I (Layer I) 18b. Lớp II (Layer II) .18c. Lớp III (Layer III) 19 III. CÁC THÔNG SỐ DÙNG TRONG MPEG .201. Mode 202. Sampling Frequency (tốc độ lấy mẫu) .213. Bit Rate 21CHƯƠNG III: HÓA THỤ CẢM .23Trang 1 Phân tích và ứng dụng chuẩn MP3I. CƠ SƠÛ ÂM TÂM LÝ .231. Ngưỡng nghe tuyệt đối (absolute threshold of hearing) .232. Các băng tới hạn(critical bands) .233. Hiện tượng che (masking) 24II. HÓA BĂNG PHỤ .26III. HOÁ BIẾN ĐỔI .26IV. HOÁ MP3 ( MP3 ENCODING) .271. Phân tích phép biến đổi Fourier nhanh (FFT analysis) .272. Ngưỡng che(Masking Threshold) .283. Băng lọc phân tích (Analysis Filterbank) .284. MDCT với cửa sổ động 285. Chia tỉ lệ và lượng tử hóa (Scaling và Quantization) 296. hóa Huffman và sinh ra dòng bit (Huffman Coding and Bitstream Generation) .307. Thông tin (Side Information) 32CHƯƠNG IV: GIẢI MPEG1 LỚP 3 .33I. GIẢI MP3 (MP3 DECODING) .331. Đònh dạng khung (Frame Format) 33a. Tiêu đề 34b. Thông tin (side infomation) .38c. Dữ liệu chính (main data) .39d. Dữ liệu phụ (Ancillary Data) 402. Giải Huffman .403. Lượng tử hoá lại (requantization) .414. Sắp xếp lại thứ tự ( reordering) 425. Giải stereo 42a.Giải Stereo MS .42b.Giải cường độ stereo 436. Giảm biệt danh (Alias Redution) 437. IMDCT .448. Khối lọc đa pha tổng hợp ( Synthesis Polyphase Filterbank) .46II. NHÌN CHUNG VỀ HIỆU QUẢ CÁC GIẢI THUẬT GIẢI MP3 461 . Giải Huffman .462 . Bộ lượng tử hóa lại (Requantizer) .483. Phép biến đổi cosin rời rạc cải tiến đảo ngược (IMDCT) 514. Băng lọc đa pha ( Polyphase Filterbank) 53Trang 2 Phân tích và ứng dụng chuẩn MP3PHẦN 2: XÂY DỰNG PHẦN MỀM .57CHƯƠNG I:GIAO DIỆN VÀ THUYẾT MINH CHƯƠNG TRÌNH 571. Thanh SkinProgress .582. Nút Minimize 583. Nút Colse .584. Timer .585. Tổng thời gian .586 .Nút Open .587 .Nút Play .588. Nút Pause 599. Nút Stop 5910. Thanh tiến trình .5911. Nút Volume 59CHƯƠNG II : LƯU ĐỒ GIẢI THUẬT VÀ CẤU TRÚC DỮ LIỆU 60I. SƠ ĐỒ KHỐI .60II. LƯU ĐỒ GIẢI THUẬT 61III. CẤU TRÚC DỮ LIỆU .631. File Agrs.h .63a. Lớp MPArgs 63b. Cấu trúc MPInfo 66c. Cấu trúc frame 662. File Common.h .67a. Cấu trúc ID3TagStruct .67b. Cấu trúc gr_info_s 67c. Cấu trúc bandInfoStruct .68d. Cấu trúc III_sideinfo 683. File Elsound.h 69a. Cấu trúc esInputMode 69b. Cấu trúc esOutputMode .69c. Cấu trúc esPlayerMode 69d. Cấu trúc esPlayerError 694. File Huffman.h 70IV. ĐỊNH NGHĨA 701. Các đònh nghóa dùng trong tập tin <Common.h> .702. Các đònh nghóa dùng trong Player.h .71Trang 3 Phân tích và ứng dụng chuẩn MP33. Các đònh nghóa dùng trong Resource.h 71PHẦN 3 : TỔNG KẾT .72Tài liệu tham khảo .73Trang 4 Phân tích và ứng dụng chuẩn MP3LỜI MƠÛ ĐẦUTrong thời đại bùng nổ của công nghệ thông tin, việc truyền tải dữ liệu là nhu cầu cần thiết. Đặc biệt là việc gởi dữ liệu theo đường Internet, vì chất lượng đường truyền thấp nên cần phải nén dữ liệu nhỏ gọn để thuận lợi cho việc upload hay download. Đối với lónh vực âm nhạc cũng vậy, nhu cầu gởi tặng bài hát cho nhau , nghe nhạc trực tuyến trên mạng rất phổ biến vì vậy việc nén file nhạc vô cùng cần thiết để tiết kiệm đường truyền, thời gian và tiền bạc.Để giải quyết vấn đề này MPEG có rất nhiều chuẩn để nén như MPEG 1, MPEG 2,… dùng để nén file theo nhiều cách khác nhau. Một trong những chuẩn phổ biến là chuẩn MPEG 1, trong khuôn khổ đề tài này chúng em chỉ tìm hiểu về chuẩn MPEG 1 Layer 3 hay còn gọi là mp3 và minh hoạ bằng một chương trình giải file mp3, sau đó phát ra loa.Trang 5 Phân tích và ứng dụng chuẩn MP3CÁC THUẬT NGỮ THƯỜNG DÙNG MDCT Modified Discrete Cosine Transform.IMDCT Inverse Modified Discrete Cosine Transform.Sample rate Tốc độ lấy mẫu.FFT Fast Fourier Transform.DFT Discrete Fourier Transform.Signal-to-noise (S/N) Tỉ số giữa tín hiệu và nhiễu.CRC Cyclic Redundancy Check.ADC Analog to Digital Converter.CODEC CODer/DECoder.CPU Central Processing Unit.DCT Discrete Cosine Transform .DSP Digital Signal Processor.FS Sampling Frequency, e.g. 44100 Hz for CD audio.FIFO First in, first out.FLOP Floating-point operation.FPU Floating point unit. Hardware math acceleration. inside a CPU.ISO International Standards Organisation.MFLOPS Million floating-point operations per second.MPEG Motion Picture Expert Group. Working group within ISO.PCM Pulse Code Modulation. Output from an ADC.Trang 6 Phân tích và ứng dụng chuẩn MP3PHẦN I : LÝ THUYẾTCHƯƠNG I : CÁC ĐẶC ĐIỂM CƠ BẢN CỦA ÂM THANHÂm thanh được tạo bởi một thực thể dao động. Không có dao động thì không có âm thanh. Thực thể dao động thì được gọi là nguồn âm. Nguồn âm làm cho các phần tử của môi trường bên cạnh nó dao động. Các phần tử này lại làm cho các phần tử kế nó dao động. Bằng cách này các phần tử của môi trường truyền đến tai của người nghe. Khi chúng ta cảm nhận một âm thanh nào đó, các phần tử dao động làm cho màng nhó của chúng ta cũng dao động. Các dao động này được tiếp nhận và phân tích bởi bộ não của chúng ta.Âm thanh có thể truyền qua môi trường không khí, nước hoặc các cấu trúc xây dựng… âm thanh truyền đi dưới dạng sóng âm, sự truyền âm thanh thực chất là sự truyền năng lượng từ nơi này đến nơi khác. I. CÁC ĐẶC TÍNH CƠ BẢN CỦA ÂM THANH Bất kỳ âm thanh đơn giản nào chẳng hạn như một nốt nhạc đều có thể hoàn toàn được mô tả bởi 3 đặc tính cảm nhận sau: cao độ (pitch ), cường độ (intensity), âm sắc (timbre). Những đặc tính này lần lượt tương ứng với các đặc tính vật lý sau của âm thanh: tần số (frequency), biên độ (amplitude), sự cấu thành của các hài (harmonic constitution).1. Tần số sóng âm Âm thanh được truyền đi dưới dạng sóng âm. Khi sóng âm truyền đi sự truyền dao động của các phần tử dao động theo hướng truyền sóng. Sự dòch chuyển của các phần tử của môi trường tạo ra các vùng có mật độ phần tử cao thấp khác nhau. Các vùng có mật độ phần tử cao được gọi là các vùng đậm đặc (compression). Các vùng có mật độ phần tử thấp được gọi là vùng loãng (rarefaction). Các vùng loãng và vùng đậm đặc lan truyền theo hướng truyền của sóng. Các phần tử dao động không lan truyền theo hứơng truyền sóng, Trang 7 Phân tích và ứng dụng chuẩn MP3chúng dao động xung quanh vò trí cân bằng của chúng. Mỗi một dao động hoàn chỉnh được gọi là chu kỳ dao động (từ điểm bắt đầu của nó, tới một khoảng cách tối đa theo một hứơng, sau đó trở về vò trí ban đầu, tới một khoảng cách theo hướng ngược lại, và cuối cùng là trở về vò trí ban đầu ).Số chu kỳ dao động được thực hiện trong một giây được gọi là tần số dao động, đây cũng chính là tần số của âm thanh. Một trong những khác biệt chính giữa hai âm thanh là sự khác biệt về cao độ, và cũng chính tần số của âm thanh quyết đònh cao độ của nó .Tần số được tính bằng Hertz (Hz), KiloHertz (kHz,1kHz=1000Hz)…Một người bình thường có thể nghe được các nguồn âm có dải tần số từ 20Hz đến 20kHz.2. Biên độ sóng âm Biên độ sóng âm chính là khoảng cách dòch chuyển tối đa của các phần tử dao động. Tương quan giữa biên độ sóng âm với các vùng loãng và vùng đậm đặc .Biên độ của sóng âm thể hiện mức độ dao động của các phần tử của môi trường tạo nên sóng âm. Biên độ sóng âm càng lớn thì các phần tử dao động có năng lượng càng lớn và âm thanh sẽ có cường độ càng lớn. Cường độ âm thanh tỉ lệ nghòch với khoảng cách tính từ nguồn âm. Càng xa nguồn âm cường độ âm thanh càng giảm, kết quả là tai ta nghe càng khó .Cường độ âm được biểu diễn bởi mức áp suất âm thanh SPL (Sound Pressure Level). Mức SPL của một nguồn âm nào đó được tính như sau:SPL(dB)= 20 log(P/P0)Trong đó P : áp suất của nguồn âm (N/m2) P0: áp suất chuẩn qui chiếu, Po =2* 10-5 N/m2m thanh SPL(dB)Trang 8 Phân tích và ứng dụng chuẩn MP3Ngưỡng im lặng 0Tiếng thì thầm 10Phòng thu âm 20Nói bình thường 60Tiếng la hét 80Tiếng xe tải 90Nhạc rock 100Ngưỡng cảm nhận 120Ngưỡng đau 140 Một số mức SPL của vài dạng âm thanh.II. KHÁI QUÁT VỀ ÂM THANH SỐ1. Lấy mẫu rời rạc thời gian, tín hiệu Audio tương tự Tín hiệu audio tương tự thay đổi liên tục theo thời gian, nghóa là biên bộ của tín hiệu thay đổi liên tục theo thời gian. Lấy mẫu tín hiệu audio tương tự là xác đònh biên độ của tín hiệu ở những thời điểm theo những khoảng thời gian cách điều nhau vì vậy các mẫu là các xung có biên độ nhất đònh. Khoảng thời gian cách đều này gọi là chu kỳ lấy mẫu Ts , tần số lấy mẫu (tốc độ lấy mẫu ) fs = (1 / Ts).2. Lượng tử hoá và các mẫu rời rạc thời gian Lượng tử hoá là biểu diễn biên độ của các xung tín hiệu thành 1 giá trò số sử dụng hệ thống số nhò phân. Người ta dùng một từ ( word) có độ dài n bit để biểu diễn các giá trò đó. Số bits n được chọn tùy thuộc vào giá trò của các mẫu và n được gọi là độ phân giải lượng tử hoá( quantization resolution). Giá trò của 1 word xác đònh 1 mức lïng tử hoá (quantization level) và độ chênh lệch giữa 2 mức liên tiếp gọi là khoảng lượng tử hoá (quantization interval).Ví dụ: ta sử dụng n=8 bit để biểu diễn các giá trò điện thế liên tục từ 0 -> 25,5 V như sau:V1=0 thì word= 0000 0000 ( mức 0)V2=0,1 thì word= 0000 0001 ( mức 1)Trang 9 Phân tích và ứng dụng chuẩn MP3V3 = 0,2 thì word= 0000 0010 ( mức 2)…………………………………………………………………….V255= 25,5 thì word =1111 1111 (mức 255)Giả sử ta có Va =0,15 V thì word ở mức 1 (0000 0001 ) hoặc mức 2 (0000 0010) tuỳ thuộc vào sự lựa chọn của chúng ta. Nhưng nếu V a =0.12 thì nó thuộc mức 1 vì gần giá trò ở mức 1 hơn.Các giá trò lượng tử hoá chỉ là xấp xỉ gần bằng giá trò thực tế của các mẫu. Độ sai biệt giữa giá trò lượng tử hoá và giá trò thực được gọi là sai số lượng tử hoá ( quantization error).3. Tỉ số tín hiệu trên sai số (Signal-to-error ratio) Để đánh giá chất lượng của hệ thống lượng tử hóa, một thông số quan trọng được đònh nghóa là tỉ số của biên độ tín hiệu cực đại trên sai số lượng tử hóa cực đại, tỉ số này được gọi là tỉ số tỉ hiệu trên sai số (S/E). Trang 10 [...]... MP3 CHƯƠNG III: HÓA THỤ CẢM I CƠ SỞ ÂM TÂM LÝ Các thuật toán hoá thụ cảm đều dựa trên mô hình tiếp nhận âm thanh để tối ưu hiệu qủa hoá Đó chính là tai người , sự cảm nhận âm thanh bò ảnh hưởng bởi các tính chất che m tâm lý học là 1 lónh vực khoa học nghiên cứu và giải thích sự cảm nhận âm thanh của tai người đối với sự kích thích của nguồn âm Các phương pháp hoá thụ cảm đều dựa vào các... được lượng tử hóa theo cách sự lượng tử hóa tiếng ồn được bắt đầu bởi việc mã hóa sẽ không vượt quá đường cong che của subband đó Sự lượng tử hóa phổ tiếng ồn vì thế thích nghi động với phổ của tín hiệu Thông tin trên bộ số hóa được dùng trong mỗi subband được truyền dọc theo các mẫu subband được hóa Bộ giải sẽ giải dòng bit (bitstream) không cần phải biết cách bộ hóa xác đònh những... các giá trò MDCT để loại bỏ sự dư thừa do sự chồng lấp giữa các băng • Lượng tử hóa phi tuyến :Bộ lượng tử hóa lớp 3 nâng các lối vào của nó lên ¾ năng lượng trứơc khi lượng tử hóa để cung cấp tỉ số tín hiệu trên nhiễu (SNR) cao hơn • hóa entropy các giá trò dữ liệu : Lớp 3 sử dụng Huffman để hóa các mẫu lượng tử hóa cho việc nén dữ liệu tốt hơn • Sử dụng một bộ dữ trữ bit (bit reservoir):... bộ hóa Bằng cách này ta sẽ lấy mật độ bit cao hơn đối với các tần số thấp tai người nhạy cảm hơn Còn nhiều vấn đề cần phải bàn tới Chúng ta chỉ mới giải thích sự che đồng bộ, hiệu qủa che còn xảy ra trước và sau một âm mạnh 3 Các lớp âm thanh MPEG Có nhiều sự nhầm lẫn về lớp âm thanh MPEG Tất cả các lớp đều dựa trên cùng một lược đồ hóa (mã hóa theo nhận thức) Mức độ phức tạp của bộ hóa. .. lượng tử hóa (Scaling và Quantization) Ngưỡng che được sử dụng để tính toán có bao nhiêu bit cần thiết trong mỗi băng tới hạn để hóa mẫu sao cho nhiễu lượng tử hóa không thể nghe được Bộ hoá thường sử dụng tốc độ bit phù hợp với yêu cầu hoá Huffman là một phần của phép lặp bởi vì nó không có khả năng xác đònh số bit cần thiết cho việc hoá Trang 29 Phân tích và ứng dụng chuẩn MP3 6 hóa Huffman... Lớp 3 không giống lớp 2 ở chỗ dữ liệu hóa không nhất thiết phải vừa vặn trong Trang 19 Phân tích và ứng dụng chuẩn MP3 một khung cố đònh Bộ hóa có thể lấy hoặc mượn các bit từ bộ dự trữ bit nếu cần thiết • Sự phân bố nhiễu hay sự phân bố bit : Quá trình phân bố bit trong lớp 1 và lớp 2 chỉ xấp xỉ lượng nhiễu gây bởi lượng tử hóa theo số bit cho trước Bộ hóa lớp 3 sử dụng một vòng lặp phân bố... phức tạp của bộ hóa, một âm thanh chất lượng cao (gần với âm thanh CD) yêu cầu tốc độ bit khoảng 256 - 384 kb/s trên Trang 18 Phân tích và ứng dụng chuẩn MP3 một chương trình stereo Mức độ phức tạp của bộ giải 25% cao hơn so với lớp I, và bộ mã hóa có mức phức tạp cao hơn 2 - 4 lần c Lớp III (Layer III) Lớp III còn đưa ra mức độ nén và lọc cao hơn cả lớp II và sử dụng một bộ mã hóa Huffman Complexity... một tone xảy ra sau đó Bộ hoá thụ cảm phân tích thành phần tần số và biên độ của tín hiệu audio vào và so sánh với mô hình âm sinh lý của tai người Bộ hoá loại bỏ các thành phần dư thừa không cần thiết ( phần tai người không cảm nhận được) vì vậy giảm 1 lượng đáng kể dữ liệu cần hoá Về mặt lý thuyết, phương pháp này làm hao hụt thông tin nhưng tai người vẫn không cảm thấy được sự suy giảm... độ bit từ 32 kbit/s (mono) đến 448 kbit/s (stereo) Tùy thuộc vào mức độ phức tạp của bộ mã hóa, một âm thanh chất lượng cao (gần với âm thanh CD) yêu cầu tốc độ bit khoảng 256 - 384 kb/s trên một chương trình stereo Không nên hóa với mức nén cao hơn 384 kb/s Độ phức tạp của bộ giải thấp, độ phức tạp của bộ hóa cao hơn 1.5 - 3 lần Lớp I được dùng nhiều trong DDC và Solid State Audio b Lớp II... nhiễu Theo cách này , các bộ lượng tử hóa được thay đổi theo thứ tự , và lượng tử hóa có được là do tính toán và được phân bố cho mỗi băng phụ III CÁC THÔNG SỐ DÙNG TRONG MPEG Chuẩn MPEG cho phép ta chọn lựa các thông số cho việc nén âm thanh tốt nhất phù hợp với ứng dụng ta sử dụng Lược đồ hóa cho các loại là tổng quát Các thông số có thể chọn lựa trong bộ hóa MPEG bao gồm : Mode, Sampling frequency, . cả các lớp đều dựa trên cùng một lược đồ mã hóa (mã hóa theo nhận thức). Mức độ phức tạp của bộ mã hóa và giải mã tuỳ thuộc vào mỗi lớp. Sau đây là hình. hiệu trên nhiễu (SNR) cao hơn.• Mã hóa entropy các giá trò dữ liệu : Lớp 3 sử dụng mã Huffman để mã hóa các mẫu lượng tử hóa cho việc nén dữ liệu tốt hơn

Ngày đăng: 01/12/2012, 08:41

Hình ảnh liên quan

Trong bảng trên, độ phức tạp của bộ giải mã lớ pI được dùng để so sánh với lớp II và III - Kỹ thuật mã hóa thụ cảm

rong.

bảng trên, độ phức tạp của bộ giải mã lớ pI được dùng để so sánh với lớp II và III Xem tại trang 19 của tài liệu.
Bảng các băng tới hạn - Kỹ thuật mã hóa thụ cảm

Bảng c.

ác băng tới hạn Xem tại trang 24 của tài liệu.
1. Phân tích phép biến đổi Fourier nhanh (FFT analysis) - Kỹ thuật mã hóa thụ cảm

1..

Phân tích phép biến đổi Fourier nhanh (FFT analysis) Xem tại trang 27 của tài liệu.
hình âm tâm lý - Kỹ thuật mã hóa thụ cảm

h.

ình âm tâm lý Xem tại trang 27 của tài liệu.
Giải thuật mã hoá Huffman dựa trên mô hình cây mã hoá (coding tree) dùng để phân biệt các symbol thông qua code word - Kỹ thuật mã hóa thụ cảm

i.

ải thuật mã hoá Huffman dựa trên mô hình cây mã hoá (coding tree) dùng để phân biệt các symbol thông qua code word Xem tại trang 30 của tài liệu.
Điều đó có nghĩa là bảng tìm kiếm sẽ là sự lựa chọn tốt nhất, lưu ý rằng bảng có thể tạo ra thậm chí nhỏ hơn (196 giá trị )  bằng cách làm tròn giá trị nhỏ  (&lt; 2-35) khi hàm giảm xuống  gần zero  bởi vì không ảnh hưởng đến kết quả cuối cùng. - Kỹ thuật mã hóa thụ cảm

i.

ều đó có nghĩa là bảng tìm kiếm sẽ là sự lựa chọn tốt nhất, lưu ý rằng bảng có thể tạo ra thậm chí nhỏ hơn (196 giá trị ) bằng cách làm tròn giá trị nhỏ (&lt; 2-35) khi hàm giảm xuống gần zero bởi vì không ảnh hưởng đến kết quả cuối cùng Xem tại trang 50 của tài liệu.
Giao diện bao gồm các phần như hình vẽ sau: - Kỹ thuật mã hóa thụ cảm

iao.

diện bao gồm các phần như hình vẽ sau: Xem tại trang 57 của tài liệu.
Lấy vào cấu hình mặc định - Kỹ thuật mã hóa thụ cảm

y.

vào cấu hình mặc định Xem tại trang 60 của tài liệu.

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan