Có nhiều yếu tố của độ ồn mà ta cần chú ý đến khi khi xây dựng bộ mã hóa âmthanh.Một trong những yếu tố đó là ngưỡng nghe tối thiểu và cách mà ngưỡngnghe đó biến đổi khi tần số thay đổi.
Trang 1TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI VIỆN CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG
BÁO CÁO
XỬ LÝ DỮ LIỆU ĐA PHƯƠNG TIỆN
Đề tài 16: Nén âm thanh tiếng nói dải rộng (audio HiFi)
Giảng viên hướng dẫn: PGS.TS Nguyễn Thị Hoàng Lan
Sinh viên thực hiện:
Nguyễn Thành Trung MSSV: 20112384 Trần Anh Tuấn MSSV: 20112451 Trần Xuân Sơn MSSV: 20112090
Hà Nội 05/2015
Trang 2MỤC LỤC
Trang 3LỜI NÓI ĐẦU
Trong học phần Xử Lí Dữ Liệu Đa Phương Tiện này chúng em được học về dữ liệu đa phương tiện và các phương pháp xử lí dữ liệu dùng trong nén, giải nén dữ liệu đa phương tiện Dữ liệu đa phương tiện bao gồm văn bản, hình ảnh, các đối tượng đồ họa (bao gồm bản vẽ, phác thảo và hình minh họa) các chuỗi hình ảnh động, âm thanh và video
Trong đó nén âm thanh audio là một công nghệ vô cùng quan trọng Tại sao ta phải nén audio? Những file audio gốc với dung lượng lớn khó truyền tải, lưu trữ nếu không có nén Tùy theo nhu cầu và các kĩ thuật thực hiện, chúng ta đã phát minh ra nhiềuchuẩn nén audio khác nhau, phù hợp với nhiều mục đích sử dụng
Trong bài báo cáo này chúng em sẽ trình bày về nén âm thanh dải rộng (audio Hifi)
Chúng em xin cảm ơn cô Nguyễn Thị Hoàng Lan đã giúp chúng em hoàn thành báo cáo này
Trang 41. Đặc điểm của âm thanh tiếng nói dải rộng
Âm thanh có bản chất là tín hiệu, dựa trên dải tần của tín tín hiệu người ta chiathành 2 loại như sau:
• Âm thanh dải tần cơ sở (âm thanh tiếng nói thoại) với dải tần số từ300Hz đến 4KHz
• Âm thanh tiếng nói dải rộng (tiếng nói trình diễn, hát, âm nhạc …)với dải tần số từ 100Hz đến 20KHz
Âm thanh tiếng nói dải rộng là một công nghệ âm thanh được sử dụng phổbiến trong điện thoại Nó mở rộng phạm vi tần số của tín hiệu âm thanh truyềnqua đường dây điện thoại cho chất lượng cao hơn Phạm vi của các tiếng nóicủa con người kéo dài từ 80Hz đến 14 kHz, nhưng trong các cuộc gọi điệnthoại truyền thống, voiceband hoặc hẹp giới hạn tần só âm thanh khoảng300Hz đến 3,4 kHz Âm thanh tiếng nói dải rộng giới hạn bang thông vàtruyền thông phạm vi tần số âm thanh từ 50 Hz đến 7 kHz hoặc cao hơn
Một số lợi ích âm thanh tiếng nói dải rộng so với truyền thống (hẹp):
• Chất lượng âm thanh tổng thể rõ ràng hơn
• Dễ dàng hơn để nhận ra tiếng nói, phân biệt âm thanh khó hiểu và hiểunhững từ có dấu
• Dễ dàng giải mã những từ có âm thanh gần nhau “s” và “f” và những từkhác, thường không thể phân biệt qua đường dây điện thoại
• Sự nhận diện tốt hơn khi trong tạp âm, chẳng hạn như khi người ta nóiđang sử dụng một loa ngoài
Âm thanh tiếng nói dải rộng được đưa ra như một giải pháp nhằm cải thiệnchất lượng cũng như độ tự nhiên của âm thanh bằng cách mở rộng dải phổ sovới tiếng nói thoại bình thường Việc mở rộng tần số âm thanh được áp dụngrất nhiều trong mạng điện thoại cũng như trong âm nhạc, trong mạng điệnthoại từ dải tần cơ bản để cải thiện chất lượng người ta đã mở rộng lên dải tần200-700Hz, còn trong âm nhạc có thể nên tới 20kHz
Cụ thể với sự phát triển của công nghệ âm thanh tiếng nói dải rộng đã giúpchúng ta cải tạo được chất lượng tiếng nói, và độ tự nhiên đối với những âm
Trang 5có tần số <300Hz, và làm tăng độ rõ với những âm có tần số >3400Hz Mở ra
nhiều công nghệ mới đối với âm thanh tiếng tnói dải rộng
Ta có thể so sánh một số đặc điểm chính giữa âm thanh tiếng nói dải rộng và
âm thanh tiếng nói thoại như sau:
Tiếng nói thoại Tiếng nói dải rộng
Giới hạn dải phổ
Tần số lấy mẫu fs=8KHz, Ts= 125µs fs=44.1KHz,
fs chuyên dụng = 48KHz
Lượng tử hóa giá
Tốc độ cần thiết 8bits x 8KHz= 64Kbit/s 176Kbyte/s
Các chuẩn nénGSM
15,2Kbit/s, ADPCM:
32Kbit/s
1, 2, 3…
Trang 6MPEG-2. Mô hình cảm nhận âm thanh.
Trong truyền thông đa phương tiện,một trong những nền tảng của việc xử lí âmthanh là sự hiểu biết về quá trình cảm thụ âm thanh của con người Tất cả cácphương pháp nén âm thanh với tỉ lệ cao hiện nay đều được phát triển trên nguyêntắc là nếu một tín hiệu âm thanh mà ngay cả những nhà thẩm âm chuyên nghiệpcũng không thể nhận ra thì nó có thể được loại bỏ Nhiều yếu tố của cảm âm họcnhư ngưỡng nghe và che đã được tích hợp vào quá trình thiết kế các phương phápnén.Sau đây ta sẽ phân tích một vài yếu tố cảm âm học cơ bản thường được sửdụng trong mã hóa âm thanh
2.1. Ngưỡng nghe tối thiểu
Đơn vị thể hiện độ lớn của âm thanh theo như con người cảm nhận thấy đượcgọi là độ ồn Giá trị này phụ thuộc nhiều vào cảm giác của con người về cường độcủa âm thanh vì vậy việc đo lường là không hề dễ dàng Ví dụ thường gặp trongcuộc sống hàng ngày đó là khi nghe nhạc, tùy thuộc vào cách chúng ta thay đổi giátrị equalization mà sự cân bằng giữa các tính hiệu tần số cao và thấp thay đổi theo,khiến ta cảm thấy rằng độ ồn của âm thanh tăng lên hay giảm đi
Có nhiều yếu tố của độ ồn mà ta cần chú ý đến khi khi xây dựng bộ mã hóa âmthanh.Một trong những yếu tố đó là ngưỡng nghe tối thiểu và cách mà ngưỡngnghe đó biến đổi khi tần số thay đổi.Một yếu tố khác đó là cách mà cơ chế cảmnhận âm thanh của con người phát hiện ra sự thay đổi của độ ồn khi mà các thông
số khác như phổ và chu kì là không đổi
Mức độ sức ép âm thanh (SPL):
L = 20log db (SPL) (2.1) p: sức ép mà nguồn âm thanh tạo ra
p0: hằng số = 20microPa, tương đương ngưỡng sức ép tốithiểu mà một tín hiệu có tần số 1 kHz cần đạt được để conngười có thể nghe thấy
Ta cũng có thể định nghĩa SPL thông qua cường độ âm thanh Ta có thểviết cường độ tức thời của âm thanh như sau:
I(t) = p(t)u(t) (2.2)p(t): sức ép tức thời của âm thanhu(t): tốc độ truyền
Trang 7Đối với song bình thường, tốc độ truyền và sức ép có liên hệ với nhau quacông thức:
Giá trị này thường được làm tròn là 10-12 W/m2 Và lúc này mức độ sức ép
âm thanh của một nguồn âm thanh với cường độ I được tính như sau:
(2.6)
Độ lớn âm thanh mà con người cảm nhận được H và cường độ âm thanh Iliên hệ với nhau theo công thức:
(2.7)
Trang 8Công thức này có thể được áp dụng khi SPL biến thiên trong khoảng 40dBcho tới 120dB, đối với các mức âm thanh thấp hơn thì sẽ có một vài sự sai khácnhỏ
Tính chất quan trọng nhất của độ ồn là sự phụ thuộc của độ ồn vào tầnsố.Để duy trì một độ ồn như nhau khi tần số âm thanh thay đổi ta sẽ phải sử dụngcác cường độ âm thanh khác nhau.Để duy trì cùng một độ ồn của 1 tín hieuejt ần
số thấp với 1 tín hiệu khác có tần số cao thì tín hiệu tần số thấp cần có cường độlớn hơn nhiều Mức cường độ tương ứng mà mỗi tần số cần có để độ ồn bằngmột giá trị cho trước được gọi là mức độ ồn cân bằng Tất cả những mức độ ồncân bằng của những cường độ tuyệt đối khác nhauhợp thành đường độ ồn cânbằng (hình 2.1) Mỗi đường cong tương ứng với SPL của tần số tương ứng cần đạtđược để độ ồn của nó bằng với độ ồn của một tín hiệucó tần số 1kHz Ví dụ, ởmức 20 phon (1 phon là đơn vị cường độ 1dB khi tần số là 1kHz) ta thấy rằng mộttín hiệu với tần số 50Hz cần phải có cường độ lớn hơn 30dB so với một tín hiệu ở1kHz để tạo ra cùng một độ ồn Đường cong thấp nhất trong hình được gọi làtrường nghe tối thiểu và tương ứng với một ngưỡng nghe được trung bình của conngười
Hình 2.1 Đường cong cho thấy mức sức ép âm thanh cần thiết ở từng tần số
để tạo ra độ ồn tương đương với một tín hiệu ở 1kHz
Từ hình trên ta thấy khi âm thanh có cường độ càng cao sự ảnh hưởngcủa tần số lên độ ồn càng giảm, thể hiện ở càng lên cao các đường cong càng gầnvới đường thằng
Trang 92.2. Hiện tượng che
Một tính chất cơ bản khác của hệ thính giác con người mà các phương pháp mãhóa âm thanh hay lợi dụng đó là che Đây là hiện tượng khi 1 hoặc 1 số âm thanhtuy tồn tại trong không gian (vẫn nằm trong dải tần mà con người có thể cảm nhậnđược) nhưng ta không thể nghe thấy do 1 số lý do nhất định (biên độ nhỏ hoặc bị
Sự chênh lệch giữa cường độ ban đầu và cường độ cần thiết để vượt qua ảnhhưởng của che được gọi là mức thay đổi ngưỡng (threshold shift)
Thử nghiệm của Fletcher đã chứng minh nhận xét của Mayer rằng những âmthanh với tần số cao dễ bị che hơn là những âm thanh với tần số thấp Điều nàynghĩa là nếu ta mã hóa một tín hiệu âm thanhlà hợp của nhiều nguồn với tần sốkhác nhau thì hiện tượng che sẽ khiến ta có cảm giác rằng những tín hiệu ở tần sốthấp được tăng mức cường độ (do các tín hiệu ở tần số cao dễ bị che phủ hơn vàgây cho người nghe cảm giác là nó có cường độ thấp hơn) Một điều thú vị là nếunhư tín hiệu che được tiếp nhận bởi 1 tai còn tín hiệu bị che được tiếp nhận độc
Trang 10lập bởi tai còn lại thì ta sẽ không cảm thấy cường độ các âm tần số thấp được tănglên.
2.2.1. Hiện tượng che theo tần số (Frequency masking)
Hiện tượng che đối với các âm thanh phức tạp hợp của nhiều âm thanh đơn
lẻ không chỉ là sự hợp nhất của kết quả trên từng âm thanh đơn lẻ mà còn là kếtquả của tổng cũng như sự chênh lệch giữa các âm thanh đó
Phổ của tín hiệu che luôn đóng một vai trò quan trọng trong quá trình che,một tín hiệu đơn nhất (tức là phổ chỉ bao gồm 1 đường) có thể đóng vai trò như 1tín hiệu che.Các tín hiệu tần số thấp có thể che phủ các tín hiệu tần số cao nhưngcác tín hiệu tần số cao không thích hợp để đóng vai trò tín hiệu che cho các tínhiệu tần số thấp Những nghiên cứu sau này xác nhận kết luận trên đồng thời chỉ rathêm rằng khi cường độ của tín hiệu che tăng lên, tác dụng che phủ của nó chỉ tăng
về phía các tín hiệu có tần số cao mà không tăng về phía các tín hiệu có tần sốthấp, hơn nữa các tín hiệu che ở tần số thấp có khoảng che phủ cao hơn nhiều sovới các tín hiệu có tần số cao Điều này cho thấy rằng các tín hiệu che tần số thấp
có thể ảnh hưởng lên một vùng tần số rộng hơn nhiều so với khả năng của tín hiệuche có tần số cao
Hình 2.3 Với tín hiệu che băng thông rộng, chỉ có phần năng lượng trong
vùng găng có tác dụng làm xuất hiện hiện tượng che
Cơ quan thính giác của con người có khả năng hoạt động như một thiết bịphân tích phổ và nó có thể phân tách những tần số trong tin hiệu âm thanh sử dụngmột ngưỡng lọc gọi là lọc nghe được Độ rộng của bộ lọc này là thay đổi tùy thuộcvào tần số của âm thanh đến Trong những công trình của mình, Fletcher đã chỉ rarằng ngưỡng che phủ của một giai điệu là tỉ lệ thuận với cả băng thông của nhiếuche, tuy nhiên khi tín hiệu che đạt đến một độ rộng nhất định thì tác dụng che phủcủa nó không tăng thêm nữa Điều này cho phép đặt ra giả thuyết rằng mỗi bộ lọcnghe được có một vùng găng xác định.Fletcher định nghĩa vùng găng như là tỉ lệgiữa cường độ của tín hiệu và cường độ của nhiễu, thể hiện bằng độ chênh lệchtính bằng dB giữa tín hiệu âm thanh và tín hiệu che (hình 2.3)
2.2.2. Hiện tượng che trên miền thời gian
Trang 11Với hiện tượng che về mặt tần số hai âm thanh cùng xuất hiện đồng thời thìhiện tượng che về mặt thời gian hai âm thanh che và bị che có thể xuất hiện ở cácthời điểm khác nhau.Hiện tượng che về mặt thời gian có thể chia làm 2 loại: chethuận khi tín hiệu bị che xuất hiện sau tín hiệu che và che ngược khi tín hiệu bị chesinh ra trước tín iệu che.
Hình 2.4 Hiện tượng che theo miền thời gian (che thuận và che ngược)
Che thuận: Tín hiệu che xuất hiện trước tín hiệu bị che Với hiệntượng che thuận khi âm thanh che có cường độ lớn xuất hiện thì sau
đó một lúc tai ta mới có thể nghe được âm thanh khác Nếu âm thanh
bị che xuất hiện trong khoảng thời gian này thì ta không thể nghe thấyđược Đây là dạng thuồng thấy của hiện tượng che về mặt thời gian.Hiện tượng này xuất hiện khi khoảng cách giữa 2 tín hiệu che và bịche là nhỏ hơn 200 ms
Che ngược: Tín hiệu che xuất hiện sau tín hiệu bị che Đây là hiệntượng âm thanh che sẽ che mất phần cuối của âm thanh trước đó đượcphát ra Hiện tượng này ít xảy ra hơn và ngược chỉ có thể xảy ra khimức độ của tín hiệu che cao hơn tương đối nhiều so với mức độ củatín hiệu âm thanh bị che phủ và khoảng cách thời gian giữa 2 tín hiệunày nhỏ hơn 25ms Mặc dù tín hiệu âm thanh tới tai trước nhưng donão bộ lại xủa lý tín hiệu che (có độ ồn cao) trước nên hiện tượng chengược xuất hiện
Một ví dụ cho hiện tượng che thuận với âm thanh che có tần số 1 kHz và biên độ60dB.Âm thanh sử dụng để thí nghiệm (test tone) có tần số 1.1 kHz Giảm dầnbiên độ của test tone từ 50dB xuống ta có kết quả sau:
Trang 12Hình 4.
2.2.3. Hiện tượng che chênh lệch
Hiện tượng này xuất hiện khi tín hiệu che đến một bên tai còn tín hiệu còn lạiđến tai còn lại Khi cường độ của tín hiệu che tăng đến một ngưỡng nào đó, nó cóthể che phủ được tín hiệu âm thanh ở bên tai còn lại
Hiện tượng che chênh lệch có hiệu quả thấp hơn rất nhiều so với hiện tượng checùng một bên tai Tuy nhiên trong trường hợp này, các tín hiệu ở tần số cao lại cótác dụng che phủ lớn hơn nhiều so với các tín hiệu ở tần số thấp (tín hiệu che cầnphải có biên độ lớn hơn rất nhiều so với tín hiệu bị che).Trong trường hợp chechênh lệch, các tín hiệu ở tần số cao lại có tác dụng che phủ lớn hơn rất nhiều sovới các tín hiệu ở tần số thấp
Nén âm thanh tiếng nói kết hợp với mô hình cảm nhận âm thanh là phươngpháp giảm lượng dữ liệu cần thiết khi số hóa các tín hiệu âm thanh Điểm khácbiệt giữa phương pháp này và các phương pháp nén thông thường khác đó là mặc
Trang 13dù những âm thanh bị cắt bỏ có thể dễ dàng bị nhận ra nếu ta phát nó riêng rẽnhưng chúng lại không thể được nghe thấy nếu như ta phát toàn bộ tín hiệu banđầu Phương pháp này ưu việt hơn những phương pháp nén khác ví dụ nhưADPCM là ở chỗ nó có thể lợi dụng được những Skhiếm khuyết trong cơ chế cảmnhận âm thanh của con người nhằm làm tăng tí số nén.
Cơ sở chính của phương pháp nén này đó là một số tín hiệu âm thanh có khả nănggây kích thích mạnh lên não bộ và khiến não bộ bỏ qua không xử lí những tín hiệu
âm thanh nhất định khác.Nói cách khác, một âm thanh có thể che lấp những âmthanh khác, vì vậy ta có thể lợi dụng điểm này và bỏ qua không mã hóa những âmthanh đó
Hình 2.5 Sơ đồ quá trình nén mã hóaTrong hình 2.5 ở trên ta có thể thấy các bước chính của quá trình nén.Tín hiệu đầuvào được chia ra thành nhiều dải tần số khác nhau, trải rộng trên khắp phổ tần số.Sau khi thực hiện xong việc phân chia, ta có thể xử lí từng dải tần số đó một cách
riêng rẽ, dựa vào các đặc điểm của quá trình cảm nhận âm thanh của cơ quan thính
giác của con người và từ ảnh hưởng che của các dải tần số xung quanh, từng dải sẽ
có 1 ngưỡng nghe mới nhất định Nếu như dải nào có cường độ thấp hơn ngưỡngnghe đó thì ta có thể loại bỏ nó đi (vì dải này đã bị che bởi các dải lân cận và taingười không thể cảm nhận được nó nữa)
Đối với những dải có cường độ cao hơn ngưỡng nghe mới thì quá trình mã hóa sẽđược thực hiện Tín hiệu có cường độ càng cao thì con người sẽ càng cảm nhậnđược nó một các rõ ràng, vì vậy nó sẽ được mã hóa bởi nhiều bit hơn so với nhữngtín hiệu có cường độ thấp
Cuối cùng, bộ mã hóa sẽ thực hiện việc format dòng dữ liệu, giảm thiểu kíchthước dữ liệu và tổ chức chúng thành các dòng bit dữ liệu để bộ giải mã có thểhiểu được Ngoài ra bộ mã hóa cũng sẽ bổ sung thêm một số thông tin điều khiển
Trang 14để đảm bảo rằng quá trình nhận dạng dữ liệu có thể được thực hiện một cách dễ
dàng, các thông tin được bổ sung có thể là tần số lấy mẫu hay tần số bit… Ở bước
này nếu cần thiết ta cũng có thể bổ sung thêm các thông tin phát hiện và sửa lỗi
Ví dụ: Giả sử ta có một tín hiệu mà 16 dải tần số đầu tiên có cường độ như ở bảngdưosi đây:
Với cường độ là 60dB, tín hiệu dải tần thứ 8 sẽ gây ra hiện tượng che làm ngưỡngnghe ở dải 7 chở thành 12dB và ngưỡng nghe ở dải 9 trở thành 15dB
Vì cường độ tín hiệu ở dải 7 chỉ là 10dB nên ta không cần mã hóa dải này mà bỏqua nó luôn
Vì cường độ dải 9 là 35dB nên ta cần phải mã hóa dải này
Khối Time/Frequency Mapping:
Khối có đầu vào là tín hiệu gốc.Được sử dụng để chia tín hiệu đầu vào thành
các subband Khối này thường là băng lọc với nhiều bộ lọc với đáp ứng tần sốkhác nhau
Khối Psychoacoustic Model:
Khối này có đầu vào là tín hiệu gốc và tín hiệu sau khi đã được chia thành cácsubbands Khối được sử dụng để tính toán các hiệu ứng che của tín hiệu đưa vàodựa vào mô hình cảm thụ âm thanh của con người Từ đó tính ra masking levelcho mỗi bang tần và đưa tới khối lượng tử hóa để tiến hành lượng tử hóa
Khối lượng tử hóa và mã hóa (Quantizer and Coding):
Khối có đầu vào là các subband được chia sau khi tín hiệu gốc đi qua băng lọc
và các hiệu ứng che được tính toán từ khối Psychoacoustic Model Nhiệm vụ củakhối này là tiến hành lượng tử hóa tín hiệu trên các subbands một cách phù hợpsao cho số bit sử dụng cho mỗi subband là ít nhất (tất nhiên vẫn cần đảm bảo chấtlượng tín hiệu) và sau đó mã hóa tín hiệu trên các subband với các phương pháp
mã hóa như huffman, mã hóa đại số …
Ta có sai số lượng tử với trường hợp lượng tử đều và bước lượng tử là Q gần nhưxấp xỉ với phân bố đều trong khoảng ( với phương sai là (Đây là nhiễu gây ra dolượng tử)