Chẳng hạn như để duy trì cùng một độ ồn của một tínhiệu tần số thấp với một tín hiệu khác có tần số cao thì tín hiệu tần số thấp cần có cường độ lớn hơn nhiều.. Đây là hiện tượng khi một
Trang 1─────── * ───────
BÁO CÁO BÀI TẬP LỚN
MÔN HỌC: XỬ LÝ DỮ LIỆU ĐA PHƯƠNG TIỆN
ĐỀ TÀI 17 Nén âm thanh tiếng nói dải rộng (audio HiFi)
Giảng viên hướng dẫn: PGS.TS Nguyễn Thị Hoàng Lan
Nhóm sinh viên thực hiện:
Trần Văn Tùng 20122760Nguyễn Tú Chi 20121301Chu Thế Anh 20121177Chu Văn Huy 20121786
Trang 2Mục lục
Danh mục hình vẽ
Trang 3Lời nói đầu
Trong học phần Xử Lý Dữ Liệu Đa Phương Tiện này chúng em được học về
dữ liệu đa phương tiện và các phương pháp xử lí dữ liệu dùng trong nén, giải nén dữliệu đa phương tiện Dữ liệu đa phương tiện bao gồm văn bản, hình ảnh, các đốitượng đồ họa (bao gồm bản vẽ, phác thảo và hình minh họa) các chuỗi hình ảnhđộng, âm thanh và video Trong đó nén âm thanh audio là một công nghệ vô cùngquan trọng Tại sao ta phải nén audio? Những file audio gốc với dung lượng lớn khótruyền tải, lưu trữ nếu không có nén Tùy theo nhu cầu và các kĩ thuật thực hiện,chúng ta đã phát minh ra nhiều chuẩn nén audio khác nhau, phù hợp với nhiều mụcđích sử dụng
Chính vì vậy nhóm em đã chọn đề tài “Nén âm thanh tiếng nói dải rộng(Audio HiFi) để tìm hiểu, và trình bày trong báo cáo này Tuy nhóm đã rất cố gắngtìm hiểu, thực hiện đề tài, nhưng không thể tránh khỏi những sai sót, và hạn chế vềmặt hiểu biết, nên rất mong được cô nhận xét, đánh giá để chúng em rút kinhnghiệm
Chúng em xin chân thành cảm ơn!
Trang 4Phần 1 Tín hiệu âm thanh dải rộng
1.1 Đặc điểm âm thanh dải rộng
Âm thanh có bản chất là tín hiệu, dựa trên dải tần của tín hiệu người ta chiathành 2 loại như sau:
• Âm thanh dải tần cơ sở (âm thanh tiếng nói thoại) với dải tần số từ 300Hzđến 4KHz
• Âm thanh tiếng nói dải rộng (tiếng nói trình diễn, hát, âm nhạc …) với dảitần số từ 100Hz đến 20KHz
Tiếng nói thoại Tiếng nói dải rộng
Giới hạn dải phổ tín hiệu 4kHz 20kHz
Tần số lấy mẫu Fs = 8 kHz, Ts= 125µs Fs = 44.1 kHzFs chuyên dụng = 48 kHz
Tốc độ cần thiết 8bits x 8 kHz= 64Kbit/s 176Kbyte/s
Các chuẩn nén GSM 15,2Kbit/s, ADPCM: 32Kbit/s MPEG-1, MPEG-2, MPEG-3
Hình 1 So sánh giữa tiếng nói thoại và tiếng nói dải rộng
Âm thanh đầu vào của quá trình nén MP3 là âm thanh dải rộng Âm thanh dảirộng là một công nghệ âm thanh được sử dụng phổ biến trong điện thoại và mở rộngphạm vi tần số của tín hiệu âm thanh truyền qua đường dây điện thoại với phạm vicủa tiếng nói của con người kéo dài từ 80Hz đến 14 kHz Âm thanh tiếng nói dảirộng giới hạn về băng thông và truyền thông với phạm vi tần số từ 50 Hz đến 7 kHz
Âm thanh dải rộng được đưa ra nhằm cải thiện chất lượng cũng như độ tự nhiên của
âm thanh bằng cách mở rộng dải phổ so với tiếng nói thoại bình thường Việc mở
Trang 5âm nhạc, trong mạng điện thoại từ dải tần cơ bản để cải thiện chất lượng người ta đã
mở rộng lên dải tần 200-700Hz, còn trong âm nhạc có thể nên tới 20kHz
1.2 Mô hình cảm thụ âm thanh
Thính giác của con người có mô hình giống như bộ lọc băng thông với 25 bộ lọc con được xếp chồng lên nhau với tần số từ 0- 20 kHz Tai người không thể phân biệt những âm thanh ở cùng một dải tần và xảy ra cùng một lúc Mỗi dải được gọi làmột dải tần tới hạn Độ rộng của mỗi dải tần tới hạn là khoảng 100Hz đối với tín hiệu số dưới 500 Hz và tăng tuyến tính với tín hiệu có tần số từ 500 Hz đến 5000 Hz
Dựa vào đặc điểm của tai người nghe mà người ta xây dựng nên mô hình cảm thụ
âm thanh Trong đó các đặc điểm được sử dụng như ngưỡng nghe, cảm nhận con người về mức độ ồn, các hiện tượng che…
1.2.1 Độ ồn và ngưỡng nghe tối thiểu
Đơn vị thể hiện độ lớn của âm thanh theo như con người cảm nhận thấy gọi là
độ ồn Giá trị này phụ thuộc nhiều vào cảm giác của con người về cường độ của âmthanh vì vậy việc đo lường là không hề dễ dàng Có nhiều yếu tố của độ ồn mà tacần chú ý đến khi khi xây dựng bộ mã hóa âm thanh Một trong những yếu tố đó làngưỡng nghe tối thiểu:
- Là mức mà dưới nó âm thanh không thể nghe được
- Thay đổi theo tần số âm thanh
- Có tính thích nghi
Một yếu tố khác đó là cách mà cơ chế cảm nhận âm thanh của con người pháthiện ra sự thay đổi của độ ồn khi mà các thông số khác như phổ và chu kì là khôngđổi
Các công thức liên quan:
- Mức độ sức ép âm thanh của một nguồn âm thanh với cường độ I
Trang 6- Độ lớn âm thanh mà con người cảm nhận được H và cường độ âm thanh I
(2.7)
Tính chất quan trọng nhất của độ ồn là sự phụ thuộc của độ ồn vào tần số Để duy trì một độ ồn như nhau khi tần số âm thanh thay đổi ta sẽ phải sử dụng các cường độ âm thanh khác nhau Chẳng hạn như để duy trì cùng một độ ồn của một tínhiệu tần số thấp với một tín hiệu khác có tần số cao thì tín hiệu tần số thấp cần có cường độ lớn hơn nhiều Mức cường độ tương ứng mà mỗi tần số cần có để độ ồn bằng một giá trị cho trước được gọi là mức độ ồn cân bằng Tất cả những mức độ ồncân bằng của những cường độ tuyệt đối khác nhau hợp thành đường độ ồn cân bằng
Ví dụ: ở mức 20 phon (1 phon là đơn vị cường độ 1dB khi tần số là 1kHz) ta thấy
rằng một tín hiệu với tần số 50Hz cần phải có cường độ lớn hơn 30dB so với một tínhiệu ở 1kHz để tạo ra cùng một độ ồn Đường cong thấp nhất trong hình được gọi làtrường nghe tối thiểu và tương ứng với một ngưỡng nghe được trung bình của conngười
Trang 7Hình 2 Mức sức ép âm thanh cần thiết ở từng tần số
1.2.2 Hiện tượng che
Một tính chất cơ bản khác của thính giác con người mà các phương pháp mã hóa âm thanh hay lợi dụng đó là hiện tượng che Đây là hiện tượng khi một hoặc một số âm thanh tuy tồn tại trong không gian (vẫn nằm trong dải tần mà con người
có thể cảm nhận được) nhưng ta không thể nghe thấy do một số lý do nhất định (biên độ nhỏ hoặc bị âm thanh khác lấn át mất)
Hình 3 Hiện tượng che.
Theo những thử nghiệm của Fletcher về ảnh hưởng của hiện tượng che và vai trò của những thông số như phổ, mức độ và chu kì của tín hiệu che thì những âm thanh với tần số cao dễ bị che hơn là những âm thanh với tần số thấp Điều này nghĩa là nếu ta mã hóa một tín hiệu âm thanh là hợp của nhiều nguồn với tần số khácnhau thì hiện tượng che sẽ khiến ta có cảm giác rằng những tín hiệu ở tần số thấp được tăng mức cường độ (do các tín hiệu ở tần số cao dễ bị che phủ hơn và gây cho
Trang 8người nghe cảm giác là nó có cường độ thấp hơn) Nếu tín hiệu che được tiếp nhận bởi một tai còn tín hiệu bị che được tiếp nhận độc lập bởi tai còn lại thì ta sẽ không cảm thấy cường độ các âm tần số thấp được tăng lên.
Phân loại hiện tượng che:
a) Hiện tượng che theo tần số
Hiện tượng che đối với các âm thanh phức tạp hợp của nhiều âm thanh đơn lẻ không chỉ là sự hợp nhất của kết quả trên từng âm thanh đơn lẻ mà còn là kết quả của tổng cũng như sự chênh lệch giữa các âm thanh đó Phổ của tín hiệu che luôn đóng một vai trò quan trọng trong quá trình che, một tín hiệu đơn nhất (tức là phổ chỉ bao gồm 1 đường) có thể đóng vai trò như 1 tín hiệu che
Các tín hiệu tần số thấp có thể che phủ các tín hiệu tần số cao nhưng các tín hiệutần số cao không thích hợp để đóng vai trò tín hiệu che cho các tín hiệu tần số thấp Khi cường độ của tín hiệu che tăng lên, tác dụng che phủ của nó chỉ tăng về phía các tín hiệu có tần số cao mà không tăng về phía các tín hiệu có tần số thấp, hơn nữa các tín hiệu che ở tần số thấp có khoảng che phủ cao hơn nhiều so với các tín hiệu có tần số cao
⇒ Các tín hiệu che tần số thấp có thể ảnh hưởng lên một vùng tần số rộng hơn nhiều so với khả năng của tín hiệu che có tần số cao
Hình 4 Hiện tượng che theo tần số
Ngưỡng che phủ của một giai điệu là tỉ lệ thuận với cả băng thông của nhiếu che, tuy nhiên khi tín hiệu che đạt đến một độ rộng nhất định thì tác dụng che phủ của
nó không tăng thêm nữa Điều này cho phép đặt ra giả thuyết rằng mỗi bộ lọc nghe được có một vùng găng xác định Fletcher định nghĩa vùng găng như là tỉ lệ giữa
Trang 9cường độ của tín hiệu và cường độ của nhiễu, thể hiện bằng độ chênh lệch tính bằng
dB giữa tín hiệu âm thanh và tín hiệu che
b) Hiện tượng che trên miền thời gian
Với hiện tượng che về mặt tần số hai âm thanh cùng xuất hiện đồng thời thì hiệntượng che về mặt thời gian hai âm thanh che và bị che có thể xuất hiện ở các thờiđiểm khác nhau Hiện tượng che về mặt thời gian có thể chia làm 2 loại:
Hình 5 Hiện tượng che trên miền thời gian
Che thuận: Tín hiệu che xuất hiện trước tín hiệu bị che Với hiện tượng che thuận
khi âm thanh che có cường độ lớn xuất hiện thì sau đó một lúc tai ta mới có thể nghe được âm thanh khác Nếu âm thanh bị che xuất hiện trong khoảng thời gian này thì ta không thể nghe thấy được Đây là dạng thường thấy của hiện tượng che
về mặt thời gian Hiện tượng này xuất hiện khi khoảng cách giữa 2 tín hiệu che và
bị che là nhỏ hơn 200 ms
Che ngược: Tín hiệu che xuất hiện sau tín hiệu bị che Đây là hiện tượng âm thanh
che sẽ che mất phần cuối của âm thanh trước đó được phát ra Hiện tượng này ít xảy ra hơn và ngược chỉ có thể xảy ra khi mức độ của tín hiệu che cao hơn tương đối nhiều so với mức độ của tín hiệu âm thanh bị che phủ và khoảng cách thời gian giữa 2 tín hiệu này nhỏ hơn 25ms Mặc dù tín hiệu âm thanh tới tai trước nhưng do não bộ lại xủa lý tín hiệu che (có độ ồn cao) trước nên hiện tượng che ngược xuất hiện
c) Hiện tượng che chênh lệch
Trang 10Hiện tượng này xuất hiện khi tín hiệu che đến một bên tai còn tín hiệu còn lạiđến tai còn lại Khi cường độ của tín hiệu che tăng đến một ngưỡng nào đó, nó cóthể che phủ được tín hiệu âm thanh ở bên tai còn lại Hiện tượng che chênh lệch cóhiệu quả thấp hơn rất nhiều so với hiện tượng che cùng một bên tai Tuy nhiêntrong trường hợp này, các tín hiệu ở tần số cao lại có tác dụng che phủ lớn hơnnhiều so với các tín hiệu ở tần số thấp (tín hiệu che cần phải có biên độ lớn hơn rấtnhiều so với tín hiệu bị che)
Trang 11Phần 2 Phương pháp nén Audio kết hợp mô hình cảm thụ âm thanh
có một ngưỡng nghe mới nhất định Nếu như dải nào có cường độ thấp hơn ngưỡngnghe đó thì ta có thể loại bỏ nó đi (vì dải này đã bị che bởi các dải lân cận và taingười không thể cảm nhận được nó nữa) Đối với những dải có cường độ cao hơnngưỡng nghe mới thì quá trình mã hóa sẽ được thực hiện Tín hiệu có cường độ càngcao thì con người sẽ càng cảm nhận được nó một các rõ ràng, vì vậy nó sẽ được mãhóa bởi nhiều bit hơn so với những tín hiệu có cường độ thấp Cuối cùng, bộ mã hóa
sẽ thực hiện việc format dòng dữ liệu, giảm thiểu kích thước dữ liệu và tổ chứcchúng thành các dòng bit dữ liệu để bộ giải mã có thể hiểu được Ngoài ra bộ mãhóa cũng sẽ bổ sung thêm một số thông tin điều khiển để đảm bảo rằng quá trình
Trang 12nhận dạng dữ liệu có thể được thực hiện một cách dễ dàng, các thông tin được bổsung có thể là tần số lấy mẫu hay tần số bit… Ở bước này nếu cần thiết ta cũng cóthể bổ sung thêm các thông tin phát hiện và sửa lỗi.
• Khối Time/Frequency Mapping
Khối có đầu vào là tín hiệu gốc Được sử dụng để chia tín hiệu đầu vào thành cácsubband Khối này thường là băng lọc với nhiều bộ lọc với đáp ứng tần số khácnhau
• Khối Psychoacoustic Model
Khối này có đầu vào là tín hiệu gốc và tín hiệu sau khi đã được chia thành cácsubbands Khối được sử dụng để tính toán các hiệu ứng che của tín hiệu đưa vào dựavào mô hình cảm thụ âm thanh của con người Từ đó tính ra masking level cho mỗibang tần và đưa tới khối lượng tử hóa để tiến hành lượng tử hóa
• Khối lượng tử hóa và mã hóa (Quantizer and Coding)
Khối có đầu vào là các subband được chia sau khi tín hiệu gốc đi qua băng lọc vàcác hiệu ứng che được tính toán từ khối Psychoacoustic Model Nhiệm vụ của khốinày là tiến hành lượng tử hóa tín hiệu trên các subbands một cách phù hợp sao cho
số bit sử dụng cho mỗi subband là ít nhất (tất nhiên vẫn cần đảm bảo chất lượng tínhiệu) và sau đó mã hóa tín hiệu trên các subband với các phương pháp mã hóa nhưhuffman, mã hóa đại số …
Ví dụ: Giả sử ta có một tín hiệu mà 16 dải tần số đầu tiên có cường độ như ở
bảng dưới đây:
Với cường độ là 60dB, tín hiệu dải tần thứ 8 sẽ gây ra hiện tượng che làmngưỡng nghe ở dải 7 chở thành 12dB và ngưỡng nghe ở dải 9 trở thành 15dB Vìcường độ tín hiệu ở dải 7 chỉ là 10dB nên ta không cần mã hóa dải này mà bỏ qua nóluôn Vì cường độ dải 9 là 35dB nên ta cần phải mã hóa dải này
Trang 13Ta có sai số lượng tử với trường hợp lượng tử đều và bước lượng tử là Q gần nhưxấp xỉ với phân bố đều trong khoảng ( với phương sai là (Đây là nhiễu gây ra dolượng tử)
Giả sử tín hiệu gốc có phân phối đều trên khoảng B Với R bits/mẫu ta sẽ có mứclượng tử có thể sử dụng Mối liên hệ giữa bước lượng tử Q và R :
Nhiễu do lượng tử hóa sẽ giảm đi 6 dB với việc ta sử dụng thêm một bit cho việclượng tử :
Như ta đã biết mỗi subband có ngưỡng che riêng (masking threshold – maskinglevel) Khối lượng tử hóa làm nhiệm vụ lượng tử tín hiệu của mỗi subband với đủ sốbit để duy trì khoảng cách giữa nhiễu do lượng tử và ngưỡng che của mỗi subband(giữ cho nhiễu lượng tử nhỏ hơn ngưỡng che của subband để các thành phần nhiễunày không thể nghe thấy được bởi tai con người) Như vậy ta có thể giảm được sốbit cần để lượng tử hóa mỗi mẫu tín hiệu của subband tùy thuộc vào ngưỡng che củasubband tương ứng nhờ vậy ta có thể tăng được hiệu quả nén dữ liệu (việc giảm mỗibit làm tăng nhiễu lượng tử lên 6 dB ta cần giữ cho giá trị nhiễu này nhỏ hơnngưỡng che) Bên cạnh đó, ta cũng thấy được một trong những giới hạn của mã hóatín hiệu âm thanh là khi nhiễu do lượng tử hóa vượt quá ngưỡng che và trở thànhmột phần của tín hiệu âm thanh mà tai có thể nghe được Ta luôn phải cố gắng giảm
số bit sử dụng để lượng tử hóa giá trị của mẫu sao cho giá trị của nhiễu do lượng tửxấp xỉ với giá trị của ngưỡng che nhưng luôn phải nhỏ hơn giá trị của ngưỡng che.Sau khi tiến hành lượng tử hóa với số bit tương ứng cho từng subband ta tiến hànhencode cho từng subband bằng các phương pháp mã hóa đã nêu
• Khối Frame Packing
Trang 14Dữ liệu sau khi ta lượng tử và mã hóa được đưa vào khối này để đóng gói thành cácframe và chuyển đi trong hệ thống mạng.
2.2 Mã hóa Audio HiFi dựa trên mô hình cảm thụ âm thanh.
Nén audio kết hợp với mô hình cảm nhận âm thanh là phương pháp giảm lượng dữ liệu cần thiết khi số hóa các tín hiệu âm thanh Điểm khác biệt giữa phương pháp này và các phương pháp nén thông thường khác đó là mặc dù những âm thanh bị cắt
bỏ có thể dễ dàng bị nhận ra nếu ta phát nó riêng rẽ nhưng chúng lại không thể đượcnghe thấy nếu như ta phát toàn bộ tín hiệu ban đầu Phương pháp này ưu việt hơn những phương pháp nén khác ví dụ như nó khác với ADPCM ở chỗ nó có thể dựa vào cơ chế cảm nhận âm thanh của tai người nhằm làm tăng tỉ số nén Cơ sở của phương pháp nén này là một số tín hiệu âm thanh có khả năng gây kích thích mạnh lên não bộ và khiến não bộ bỏ qua không xử lí những tín hiệu âm thanh khác.Nghĩa
là một âm thanh có thể che lấp những âm thanh khác, vì vậy ta có thể lợi dụng điểm này và bỏ qua không mã hóa những âm thanh đó
Trang 15Phần 3 Phân tách các dải tần con trong nén audio theo chuẩn MP3
3.1 Kỹ thuật phân tách tín hiệu nguồn thành tín hiệu trên các dải tần con
Bao gồm các bộ lọc thông dải dùng để phân tích tín hiệu số audio số thành tín hiệuthành phần với tần số lấy mẫu nhỏ hơn 32 lần
Hình 7 Sơ đồ phân tách tín hiệu thành các dải tần con
Đầu vào của hệ thống băng lọc là mẫu tín hiệu âm thanh PCM được kí hiệu là s(n) Tín hiệu PCM này được đưa qua băng lọc thông dải với 32 dải tần con phụ thuộc vào tần số Nyquist của tín hiệu PCM
- Nếu lấy tần số lấy mẫu của tín hiệu PCM là 44,1 kHz thì tần số Nyquist sẽ là 22,05 kHz
- Mỗi dải tần con sẽ có độ rộng xấp xỉ 22050 Hz/32=689 Hz như vậy subband đầu tiên có dải tần từ 0 - 689 Hz, tiếp theo là 689 -1378 Hz
Tín hiệu có tần số lấy mẫu là 44,1kHz có dải tần 0 - 22,05 kHz sẽ được băng lọc phân tách thành 32 tín hiệu dải tần con Đầu ra của hệ thống là 32 tín hiệu dải tần con theo sơ đồ có nghĩa là tần số lấy mẫu mỗi dải tần giảm theo một nhân tố 32 hay