Tài liệu tham khảo ngành công nghệ thông tin tìm hiểu về các phương pháp mã hố và nén âm thanh theo chuẩn Mpeg
Trang 1Mục lục 1
Lời nói đầu 3
PHẦN I LÝ THUYẾT 4
CHƯƠNG 1 CÁC KIẾN THỨC CƠ BẢN VỀ ÂM THANH 5
I NHỮNG KHÁI NIỆM CƠ BẢN - SÓNG CƠ 6
1.1 Sự hình thành sóng trong môi trường đàn hồi 6
1.2 Các đặc trưng của sóng 7
1.3 Phương trình sóng 8
II SÓNG ÂM VÀ ĐẶC TÍNH ÂM THANH 8
2.1 Dao động âm và sự truyền dao động 8
2.2 Đơn vị vật lý của âm thanh 9
2.3 Đặc tính sinh lý về sự cảm thụ âm 12
CHƯƠNG 2 WAVE FILE 16
I MULTIMEDIA WINDOWS 16
II CẤU TRÚC WAVE FILE 17
2.1 RIFF file 17
2.2 Cấu trúc File Wave 17
III ĐỌC RIFF FILES 21
CHƯƠNG 3 LÝ THUYẾT XỬ LÝ TÍN HIỆU SỐ 25
I TÍN HIỆU VÀ HỆ THỐNG RỜI RẠC 25
1 Giới thiệu 25
2 Đáp ứng xung trong hệ TTBB 25
3 Tính chất của tổng chập của hệ TTBB 26
4 Hệ nhân quả 27
5 Tính ổn định 27
6 Phương trình sai phân tuyến tính hệ số hằng 28
7 Biểu diễn các hệ rời rạc trong miền tần số 28
8 Định lý lấy mẫu Shannon 30
II PHÉP BIẾN ĐỔI FOURIER RỜI RẠC 30
1 Chuỗi Fourier rời rạc của tín hiệu rời rạc tuần hồn 30
2 Biến đổi Fourier rời rạc của tín hiệu có độ dài hữu hạn 31
3 Phép biến đổi nhanh Fourier (FFT) 32
CHƯƠNG 4 GIỚI THIỆU VỀ MPEG 33
I GIỚI THIỆU 33
1 MPEG là gì? 33
2 So sánh các chuẩn MPEG 33
3 Aâm thanh MPEG 34
4 Các khái niệm cơ bản 35
5 Hoạt động 38
II CÁC KHÁI NIỆM TRONG ÂM THANH MPEG 40
1 Lược đồ mã hóa Perceptual Sub-band 40
2 Giải thích hiệu qủa che (masking efficiency) 41
3 Các lớp của âm thanh MPEG 43
III CÁC THÔNG SỐ 45
CHƯƠNG 5 CÁC GIẢI THUẬT NÉN ÂM THANH 50
I LÝ THUYẾT THÔNG TIN 50
II CÁC GIẢI THUẬT NÉN KHÔNG CÓ TỔN THẤT 51
1 Mã hóa Huffman 51
2 Mã hóa Huffman sửa đổi 53
Trang 23 Mã hóa số học 54
4 Giải thuật Lempel-Ziv-Welch (LZW) 55
III CÁC GIẢI THUẬT NÉN CÓ TỔN THẤT 57
1 Các phương pháp nén âm thanh đơn giản 57
2 Nén âm thanh dùng mô hình âm tâm lý 57
3 Nén âm thanh theo chuẩn MPEG 58
PHẦN II THIẾT KẾ CHƯƠNG TRÌNH 60
CHƯƠNG 6 LƯU ĐỒ GIẢI THUẬT VÀ CẤU TRÚC DỮ LIỆU 61
I SƠ ĐỒ KHỐI 61
II CẤU TRÚC DỮ LIỆU VÀ ĐỊNH NGHĨA 62
A CẤU TRÚC DỮ LIỆU 62
1 Các cấu trúc về file 62
2 Các cấu trúc về dòng bít dữ liệu 63
3 Các cấu trúc để định dạng dòng bít dữ liệu 63
4 Các cấu trúc huffmancodetab 67
5 Các cấu trúc tính MDCT 67
6 Các cấu trúc scalefac_struct 67
B CÁC ĐỊNH NGHĨA 68
1 Các định nghĩa dùng trong truy xuất dữ liệu 68
2 Các định nghĩa dùng trong tính tốn FFT 68
3 Các định nghĩa dùng trong định dạng dòng dữ liệu 68
4 Các định nghĩa dùng trong bộ mã hố Huffman 68
5 Các định nghĩa dùng trong phân tích dữ liệu 69
6 Các định nghĩa dùng trong mô hình âm tâm lý 69
7 Các định nghĩa dùng trong truy xuất nhập dữ liệu 69
8 Các định nghĩa dùng trong cấu trúc file Wave và file Mpeg 69
III LƯU ĐỒ 71
CHƯƠNG 7: GIAO DIỆN VÀ THUYẾT MINH CHƯƠNG TRÌNH 75
I GIỚI THIỆU 75
II.GIAO DIỆN 75
III.CHƯƠNG TRÌNH 77
TÀI LIỆU THAM KHẢO 87
Lời nói đầu
Công nghệ thông tin là ngành công nghiệp mũi nhọn của thế giới nói chung và của việt nam nói riêng, nó đã phát triển mạnh mẽ không ngừng trong những năm gần đây Khi đời sống được nâng lên khoa học kỹ thuật phát triển nhu cầu về giải trí cũng đa dạng lên, các loại hình giải trí không ngừng gia tăng và ngày càng phong phú, đa dạng các loại hình giải trí như: trò chơi điện tử, nghe nhạc xem phim, xem ca nhạc(video), và đặc biệt là những trong chơi dạng không gian ba chiều Sự phát triển ồ ạt này đã dẫn tới ngành công nghệ phần cứng đã không thể đáp ứng được những đòi hỏi về lưu trữ, đồng hành với sự phát triển này là mạng máy tính đó chính là Internet ngày càng phát triển số lượng người tham gia truy cập ngày càng lớn và nhu cầu của họ thì ngày càng phong phú và đa
Trang 3mạng được quan tâm hơn để cho người dùng không phải sốt ruột ngồi chờ nhữngtrang web mà mình truy cập, họ không phải bực mình khi download những file
âm thanh và những bài hát mà họ ưa thích vì đường truyền quá chậm trong khicông nghệ phần cứng đã phát triển mạnh Chính vì vậy các nhà nghiên cứu phầnmềm đã chú ý đến việc phát triển phần mềm để hỗ trợ phần cứng Họ đã tạo ranhững chương trình phần mềm hỗ trợ tích cực phần cứng, từ đó đã ra đời nhữngphần mềm nén âm thanh, hình ảnh, nén video, tách âm thanh từ những filevideo…để tạo ra những dạng âm thanh, hình ảnh, video như mindi, mpeg, mp3,mp4… những file ảnh dạng gif, jpeg…với dung lượng lưu trữ vô cùng nhỏ mặc
dù chất lượng có giảm đi đôi chút nhưng không đáng kể so với những gì nó đạtđược để truyền tải, truy cập nhanh hơn
Sự tồn tại của chuẩn JPEG (Joint Photographic Experts Group) chỉ đểgiảm tốc độ bit và chủ yếu phục vụ cho hình ảnh, rõ ràng là không đủ đáp ứngcho hình ảnh động có kèm âm thanh Để đáp ứng nhu cầu của thị trường, mộtnhóm các chuyên gia về hình ảnh động (Moving Picture Experts Group), gọi tắt
là MPEG, được thành lập để nghiên cứu đưa ra những lược đồ mã hóa phù hợpcho việc truyền hình ảnh động và ghi lại chúng theo tiêu chuẩn trong các thiết bịlưu trữ số như CD-ROM, Video CD
Phần trình bày của luận văn chỉ nằm trong khuôn khổ "Aâm thanh" Do đómọi vấn đề liên quan tới hình ảnh sẽ không được đề cập tới, dù chuẩn MPEG làdùng cho cả âm thanh và hình ảnh
Mục tiêu của đề tài chủ yếu chỉ để tìm hiểu về các phương pháp mã hố vànén âm thanh theo chuẩn Mpeg, từ đó dựa trên một số source code (viết bằng C)
đã có trên mạng Internet viết lại bằng ngôn ngữ Visual C++, nhằm hiểu sâu hơn
về giải thuật, đồng thời tạo ra một giao diện thân thiện hơn
Do trình độ và kiến thức có hạn nên không tránh khỏi những thiếu sót, emkính mong thầy tham gia và giúp đỡ em để em hồn thành được tốt hơn
Em xin chân thành cám ơn thầy đã tạo điều kiện thuân lợi nhất giúp emhồn thành báo cáo này
Trang 4
PHẦN I
LÝ THUYẾT CƠ BẢN
Trang 6CHUƠNG 1 CÁC KIẾN THỨC CƠ BẢN VỀ ÂM THANH.
I NHỮNG KHÁI NIỆM CƠ BẢN - SÓNG CƠ
1.1 Sự hình thành sóng trong môi trường đàn hồi
a Định nghĩa:
Các môi trường chất khí, chất lỏng, chất rắn là môi trường đàn hồi
Môi trường đàn hồi có thể coi là những môi trường liên tục gồm nhữngphân tử liên kết chặt chẽ với nhau, lúc bình thường mỗi phân tử có một vịtrí cân bằng bền
b Sự hình thành sóng trong môi trường đàn hồi:
Do tính chất của môi trường đàn hồi, cho nên nếu tác dụnglên phân tử nào đó của môi trường thì phân tử này rời khỏi vị trí cân bằngbền
Do tương tác, các phân tử lân cận một mặt kéo phân tử A về
vị trí cân bằng, mặt khác nhận một phần năng lượng do phân tử A truyềnsang, do đó cũng dao động theo, hiện tượng này xảy ra liên tiếp tạo thànhsóng Sóng đàn hồi (sóng cơ) là sự lan truyền dao động trong môi trườngđàn hồi Sóng cơ không thể truyền được trong chân không, vì chân khôngkhông phải là môi trường đàn hồi
Cần lưu ý trong khi truyền dao động, các phân tử của môitrường không di chuyển theo các dao động được lan truyền mà chỉ daođộng quanh vị trí cân bằng của nó
c Một số khái niệm về sóng:
Nguồn sóng: là ngoại vật gây ra kích động sóng
Tia sóng: là phương truyền sóng
Môi trường sóng: là không gian mà sóng truyền qua
Mặt sóng: là mặt chứa những điểm (phân tử) có cùng trạngthái dao động tại một thời điểm nào đó Tia sóng luôn vuông góc với mặtsóng
Sóng cầu: mặt sóng là những mặt cầu phân bố đều trongkhông gian, tâm là nguồn sóng Trong môi trường đồng chất và đẳnghướng sẽ có sóng cầu Đối với sóng cầu tia sóng trùng với bán kính củamặt cầu
Trang 7 Sóng phẳng: mặt sóng là những mặt phẳng song song nhau,tia sóng vuông góc với mặt sóng Nếu nguồn sóng ở rất xa môi trườngđang xét thì mặt sóng có thể coi là những mặt phẳng song song.
Sóng dọc: là sóng trong đó các phân tử của môi trường daođộng quanh vị trí cân bằng trên phương trùng với tia sóng Khi có sóngdọc, trên phương của tia sóng các phân tử của môi trường khi thì bị nénchặt, khi thì giãn ra làm cho các phân tử của môi trường có chỗ dày chỗthưa
Sóng ngang: là sóng trong đó các phân tử của môi trườngdao động quanh vị trí cân bằng trên phương vuông góc với tia sóng
d Nguyên nhân gây ra sóng ngang và sóng dọc:
Tùy tính chất của môi trường đàn hồi mà trong đó có thểxuất hiện sóng ngang hay sóng dọc
- Khi một lớp của môi trường bị lệch đối với lớp khác làm xuất hiện cáclực đàn hồi có xu hướng kéo lớp bị lệch về vị trí cân bằng thì trong môitrường đó có thể truyền được sóng ngang Vậy vật rắn là một môi trường
có tính chất đó
- Nếu trong môi trường không có các lực đàn hồi khi các lớp song song bịlệch đối với nhau thì sóng ngang không thể hình thành được Chất lỏng vàchất khí là những môi trường đó
- Khi bị biến dạng nén hay căng mà trong môi trường có các lực đàn hồixuất hiện thì trong môi trường đó có thể truyền được sóng dọc Chẳng hạnkhi bị nén, chất lỏng hay chất khí sẽ tăng áp suất, lực nén giữ vai trò lựcđàn hồi
Như vậy trong chất lỏng và chất khí chỉ có sóng dọc truyềnđược, còn trong chất rắn có thể truyền được cả hai loại sóng
c Chu kỳ và tần số:
Trang 8 Chu kỳ T là thời gian cần thiết để sóng truyền được 1 bước sóng .
Tần số f là số chu kỳ thực hiện được trong 1 giây :
F = 1/T (Hz) 1.3 Phương trình sóng
Sóng phẳng truyền dọc theo phương OY với vận tốc C thì phương trìnhsóng biểu thị mối quan hệ giữa độ chuyển dời X của phân tử dao động kể
từ vị trí cân bằng với thời gian t và khoảng cách y đến các vị trí cân bằngcác phân tử dao động trên phương truyền sóng như sau :
2.1 Dao động âm và sự truyền dao động
Sóng âm là một loại sóng cơ có biên độ dao động nhỏ mà thính giácnhận biết được Thí dụ dao động phát ra từ dây đàn, mặt trống đang rungđộng Sóng âm là một loại sóng cơ nên mọi khái niệm và hiện tượng vềdao động và sóng cơ trên đây đều áp dụng cho sóng âm
Trong không khí cũng như trong mọi chất khí khác, những dao độngtruyền đi dưới dạng sóng dọc, khi đến tai người những dao động có tần số
từ 16 đến 20000 Hz sẽ gây cảm giác đặc biệt về âm
Các dao động đàn hồi có tần số f>20.000 Hz là sóng siêu âm
Các dao động đàn hồi có tần số f<16 Hz là sóng hạ âm
Mỗi âm có một tần số riêng, đơn vị của tần số là héc (Hz) với địnhnghĩa:”Héc là tần số của một qúa trình dao động âm trong đó mỗi giâythực hiện được một dao động”
1 Héc (Hz) = 1 dao động / 1 giây
Trang 9 Việc phân chia sĩng hạ âm, sĩng siêu âm và sĩng âm (âm thanh) liênquan tới khả năng sinh lý của thính giác
2.2 Đơn vị vật lý của âm thanh
Âm thanh hay tiếng động mà con người nhận biết được do tác độngcủa sĩng âm lên màng nhĩ tai
Các dao động âm phát ra từ nguồn lan truyền trong mơi trường đànhồi như khơng khí dưới dạng sĩng đàn hồi gọi là sĩng âm Sĩng âm đếnkích động màng nhĩ tai gây cảm giác về âm, do đĩ cần phân biệt hai loạiđại lượng về âm:
- Đại lượng âm khách quan: những đại lượng thuần túy vật lý, khơng phụthuộc vào tai người
- Đại lượng âm chủ quan: những đại lượng tâm lý vật lý phụ thuộc vào taingười
2.2.1 Đơn vị âm khách quan:
a Aùp suất âm:
Khi sĩng âm tới một mặt nào đĩ, do các phân tử mơi trường daođộng tác dụng lên mặt đĩ một lực gây ra áp suất Aùp suất ở đây là áp suất
dư do sĩng âm gây ra ngồi áp suất khí quyển
Trong phạm vi nghe được, áp suất âm trong khoảng từ 2.10-4 đến2.102 bar, chênh lệch 106 lần, đĩ là một phạm vi rất rộng
b Cường độ âm (I):
- Cường độ âm ở một điểm nào đĩ trên phương đã cho trong trường âm là
số năng lượng âm đi qua đơn vị diện tích của mặt S vuơng gĩc với phươngtruyền âm, tại điểm đĩ trong đơn vị thời gian
- Một vài cường độ âm đáng chú ý:
Người nĩi thường I = 2.10-3 W/m2
Cịi ơ-tơ I = 5 W/m2
Cịi báo động I = 3.000 W/m2
- Trong điều kiện chuẩn (to = 20oC, áp suất 760mmHg):
Vận tốc âm trong khơng khí : C = 340 m/s
Trang 10 = 0,00121 gr/cm3.
= Cp/Cv = 1,4
- Trong tính tốn người ta quy ước lấy âm đơn tần số f = 1000 Hz làmchuẩn để so sánh (gọi là âm chuẩn)
- Đối với âm chuẩn, trong phạm vi nghe được
Áp suất âm nhỏ nhất Pmin = 2.10-4 bar
Cường độ âm nhỏ nhất Imin = 10-16 W/cm2
- Aùp suất âm và cường độ âm lớn nhất mà tai người cĩ thể chịu được là:
Pmax = 2.102 bar
Imax = 10-4 W/cm2
- Cơng suất âm nhỏ nhất cĩ thể nghe thấy được Wmin = 10-12 Watt
2.2.2 Đơn vị âm chủ quan:
Tai người trung bình cĩ thể nhận được những sĩng âm cĩ tần số từ
16 đến 20000 Hz, hiệu qủa này cĩ liên quan tới khả năng sinh lý của taingười
Như vậy, âm thanh là một hiện tượng tâm lý vật lý, khơng phải bất
cứ sĩng âm nào tới tai cũng gây ra cảm giác âm thanh như nhau Aâm cĩtần số khác nhau gây ra cảm giác khác nhau
Cường độ âm nhỏ nhất của một sĩng âm xác định mà tai ngườinghe thấy được gọi là “Ngưỡng nghe” Aâm cĩ tần số khác nhau giá trịngưỡng nghe cũng khác nhau Tai người thính nhất với âm cĩ tần số trongkhoảng từ 1000 đến 3000 Hz, trong phạm vi này cường độ âm ngưỡngnghe nhỏ nhất Những tần số khác, tai kém thính hơn, ngưỡng nghe cĩ giátrị lớn hơn
Đối với âm chuẩn, cường độ và áp suất ở ngưỡng nghe bằng:
Po = 2.10-5 N/ m2
Io = 10-12 W/m2
Do cảm giác âm thanh phụ thuộc vào đặc tính sinh lý của tai người,cho nên phải cĩ một số đại lượng đặc trưng cho cảm giác âm thanh phụ
Trang 11thuộc vào tai người, những đại lượng như vậy gọi là đại lượng âm chủquan.
P :áp suất âm có ích của âm đang xét (N/m2)
Po:áp suất âm của âm chuẩn ở ngưỡng nghe
Thực tế áp suất âm là đại lượng cơ bản hơn cường độ âm, nên thườngdùng mức áp suất âm sau đó suy ra mức cường độ âm Đơn vị chung là belhay db Đơn vị này cũng dùng để đo mức công suất, mức năng lượng âm.Vài mức áp suất âm đáng chú ý :
Nói chuyện thường : 30db
Nói chuyện to : 70db
2.2.3 Quãng độ cao (quãng tần số):
SVTH: Đỗ Văn Tuấn Trang
Trang 12 Quãng tần số của hai âm là khoảng cách tần số của hai âm đó Nếu một
âm tần số là f1, một âm khác tần số là f2 (f2 > f1) thì f2 / f1 = 2x
Khi x=1 tức f2 / f1 = 2 gọi là 1 quãng tần số (hay 1 ốc-ta)
Khi x=1/2 tức f2 / f1 = 1.41 gọi là nửa ốc-ta
Khi x=1/3 tức f2 / f1 = 1.26 gọi là 1/3 ốc-ta
- Mức áp suất âm của 1 ốc-ta bằng mức áp suất âm của 1/2 ốc-ta cộngthêm 3db
- Mức áp suất âm của 1 ốc-ta bằng mức áp suất âm của 1/3 ốc-ta cộngthêm 5db
Vì quãng tần số của một âm qui định độ cao của âm đó nên còn gọi
là quãng độ cao Theo tập quán âm nhạc thì quãng độ cao gọi là quãng 8(bát độ)
Chẳng hạn âm LA, tần số f=440 Hz tăng 1 bát độ là tăng gấp đôitần số, tức là 880 Hz
Trong thực tế thường gặp những âm phức tạp bao gồm nhiều tần số.Tập hợp tất cả những tần số cấu tạo trong một âm thanh gọi là “tần phổ”của âm đó, tần phổ có thể gián đoạn hay liên tục Một âm có tần phổ liêntục được đặc trưng bằng “Mức tần phổ B” với định nghĩa:
- Mức tần phổ là mức áp suất âm trong chiều rộng của dải tần số bằng 1
- Một âm có mức tần phổ B không đổi với mọi tần số gọi là tiếng ồn trắng
- Một âm có tần phổ gián đoạn được đặc trưng bằng “mức dải tần số” vớiđịnh nghĩa: mức dải tần số là mức áp suất âm trong chiều rộng của dải tần
số lớn hơn 1 Hz
2.3 Đặc tính sinh lý về sự cảm thụ âm thanh
2.3.1 Mức to, độ to, mức âm cảm giác:
Mức áp suất âm, mức cường độ âm trên đây vừa mang tính chất chủquan vừa mang tính chất khách quan vì những đại lượng này xác định từnhững đại lượng thuần túy vật lý Vấn đề có ý nghĩa to lớn trong thực tế làcần biết được sức mạnh của âm thanh đo bằng tai người
Mức to, độ to của một âm là sức mạnh cảm giác do âm thanh gâynên trong tai người, nó không những phụ thuộc vào áp suất âm mà còn phụthuộc vào tần số của âm đó Thí dụ 2 âm có tần số 100 Hz và 1000 Hz áp
Trang 13suất âm đều bằng 0,02 bar nhưng nghe to nhỏ khác nhau, âm 1000 Hznghe to hơn âm 100 Hz Muốn nghe to bằng âm 1000 Hz thì âm 100 Hzphải có áp suất bằng 0,25 bar Như vậy tai người không nhạy đối với âm
100 Hz bằng âm 1000 Hz Tần số càng thấp tai người càng kém nhạy
- Vậy mức to của một âm bất kỳ đo bằng Fôn, về giá trị bằng mức áp suất
âm của âm chuẩn đo bằng db có cùng mức to với âm đó Thí dụ: âm có tần
số 500 Hz mức áp suất âm bằng 25 db và âm có tần số 50 Hz mức áp suất
âm bằng 64 db sẽ có cùng mức to bằng 20 Fôn, bằng mức to của âm 1000
Hz mức áp suất bằng 20 db
- Muốn biết mức to của một âm bất kỳ phải so sánh với âm chuẩn
- Đối với âm chuẩn, mức to ở ngưỡng nghe là 0 Fôn, ngưỡng chói tai là
- Mức to tăng 10 Fôn thì độ to tăng gấp đôi và ngược lại
2.3.2 Aâm điệu và âm sắc:
Âm điệu chỉ âm cao hay thấp, trầm hay bổng Âm điệu chủ yếu phụthuộc vào tần số của âm, tần số càng cao, âm nghe càng cao, tần số càngthấp âm nghe càng trầm
SVTH: Đỗ Văn Tuấn Trang
Trang 14 Âm sắc chỉ sắc thái của âm du dương hay thô kệch, thanh hay rè,trong hay đục Âm sắc phụ thuộc vào cấu tạo của sóng âm điều hòa, biểuthị bằng số lượng các loại tần số, cường độ và sự phân bố của chúng quanh
âm cơ bản Âm sắc có quan hệ mật thiết với cường độ, âm điệu và thờigian âm vang, sự trưởng thành và tắt dần của trường âm
Khi hai ca sĩ cùng hát một câu ở cùng một độ cao, ta vẫn phân biệtđược giọng hát của từng người Khi đàn ghi-ta, sáo, kèn cùng tấu lên mộtđoạn nhạc ở cùng một độ cao, ta vẫn phân biệt được tiếng của từng nhạc
cụ Mỗi người, mỗi nhạc cụ phát ra những âm có sắc thái khác nhau mà tai
ta phân biệt được Đặc tính đó của âm chính là âm sắc
Âm sắc là một đặc tính sinh lý của âm, được hình thành trên cơ sởcác đặc tính vật lý của âm là tần số và biên độ Thực nghiệm chứng tỏ rằngkhi một nhạc cụ phát ra một âm có tần số f1 thì đồng thời cũng phát ra các
âm có tần số f2=2f1, f3=3f1
Âm có tần số f1 gọi là âm cơ bản hay họa âm thứ nhất, các âm cótần số f2 , f3 gọi là các họa âm thứ hai, thứ ba Âm cơ bản bao giờ cũngmạnh nhất, các họa âm có tác dụng quyết định âm sắc của âm cơ bản, giúp
ta phân biệt các nguồn âm khác nhau Chẳng hạn tiếng đàn Pi-a-nô vàtiếng sáo tuy cùng một âm cơ bản nhưng lại rất dễ phân biệt, nguyên nhân
là do số lượng, cấu trúc những họa âm quanh âm cơ bản của chúng khácnhau Họa âm càng nhiều âm nghe càng du dương phong phú
3 Thính giác định vị (hiệu ứng Stereo):
Khi nghe âm tuy mắt không nhìn thấy nguồn âm nhưng có thể xácđịnh chính xác vị trí của nguồn âm Đặc điểm này là kết qủa của hai tácdụng:
- Do cường độ, độ to, âm sắc của âm đến hai tai không giống nhau
- Do âm đến hai tai lệch pha nhau, vì thời gian đến hai tai không giốngnhau
Cường độ, độ to của âm đến hai tai chênh lệch nhau là do nhiễu xạgây ra Âm có tần số f < 1000 Hz sự chênh lệch cường độ do nhiễu xạ gây
ra rất bé nhưng ở những tần số cao, sự chênh lệch này có thể đạt tới 20 - 30db
Do khả năng định vị của tai như vậy cho nên khi nghe âm có thể tậptrung chú ý vào nguồn âm cần nghe, bỏ qua một cách tự nhiên những âmkhông cần nghe Nhờ hiệu qủa này mà tiếng ồn bị phủ lấp hoặc giảm nhỏmột cách tự nhiên Nếu chỉ nghe âm một tai thì hiệu qủa này mất
Trang 154 Nghe âm và chênh lệch thời gian:
Tương tự như tác dụng lưu ảnh của mắt, tai người cũng có tác dụnglưu âm
Thí nghiệm với nhiều thính giác bình thường cho thấy rằng, nếu hai
âm như nhau đến tai người cách nhau < 50 ms thì tai người không phânbiệt được, nghe như một âm duy nhất
SVTH: Đỗ Văn Tuấn Trang
Trang 16CHƯƠNG 2 TẬP TIN DẠNG SÓNG (WAVE FILE).
Với Multimedia Windows, hãng Microsoft đã thực hiện được ba điều :
Định nghĩa một tiêu chuẩn phần cứng tối thiểu cho loại máy Multimedia
PC (viết tắt là MPC) Tiêu chuẩn này dựa trên chức năng tổng quát hơn làsản phẩm cụ thể Ví dụ nếu PC có thêm ổ đĩa CD-ROM và một card âmthanh thì trở thành MPC cấp 1
Microsoft đã cung cấp phần mềm Multimedia Extension cho Windows3.0 và đã được ghép luôn vào hệ điều hành Windows từ phiên bản 3.1.Phần mềm này bao gồm các bộ điều khiển thiết bị dành cho việc truy xuấtđến các phần cứng gắn thêm vào MPC
Microsoft đưa ra công cụ phát triển Multimedia Development Kit(MDK) Lập trình viên kết hợp công cụ trên với bộ Windows SoftwareDevelopment Kit (SDK) để viết các ứng dụng về Multimedia
Có hai dạng xử lý âm thanh số hóa trên Windows Loại thứ nhấtmicrosoft gọi là “Wave Form Audio” (Aâm thanh dạng sóng), dựa trênnguyên tắc số hóa sóng âm, MPC lưu chúng trên bộ nhớ hay tập tin WAVtrên đĩa Các dữ liệu số này có thể thông qua phần cứng biến đổi lại thành
âm thanh
Dạng thứ hai là MIDI Khác với âm thanh dạng sóng, MIDI chỉ lưulại những thông điệp điều khiển bộ tổng hợp phát ra âm thanh Do đó kíchthước của tập tin MID nhỏ hơn nhiều so với tập tin.WAV
II CẤU TRÚC WAVE FILE
1 RIFF file
Trang 17Wave File là tập tin chứa các dữ liệu của mẫu âm thanh đã được sốhóa Phương pháp số hóa âm thanh hiện nay là phương pháp PCM.Phương pháp này sẽ lấy mẫu âm thanh với tần số khoảng 11.025 kHz chođến 44.1 kHz Mỗi lần lấy mẫu, số liệu này lại được lượng tử hóa bằngmột hay hai byte cho một mẫu âm thanh Như vậy tần số lấy mẫu càngcao, số byte dùng lượng tử hóa càng nhiều thì âm thanh phát lại càng trungthực, nhưng lại tăng số byte cần lưu trữ Với một mẫu âm thanh phát ratrong một phút cần phải lưu trữ ít nhất 660 kB Đó là lý do tại sao các FileWave luôn có kích thước khá lớn so với MIDI File.
Cấu trúc của Wave File thuộc vào lớp file được sử dụng bởi cáchàm Multimedia của Windows: đó là RIFF FILE RIFF là chũ viết tắt củaResource Interchange File Format (dạng file trao đổi tài nguyên) MộtRIFF file gồm một hoặc nhiều loại chunks, trong mỗi chunk lại chứa contrỏ chỉ đến chunk kế tiếp Mỗi chunk bao gồm loại chunk và dữ liệu theosau loại chunk đó Một ứng dụng muốn đọc RIFF file có thể đi qua lầnlượt từng chunk, đọc dữ liệu ở chunk nó quan tâm và có thể bỏ qua cácchunk mà nó không quan tâm, một chunk của RIFF file luôn bắt đầu bởimột header có cấu trúc như sau:
Chunk có thể chứa các subchunks Subchunk cũng là một chunk
Một RIFF file luôn bắt đầu bằng một chunk loại “RIFF”
2 Cấu trúc Wave file
Wave file bắt đầu là chunk loại “RIFF”
Hai subchunk trong wave chunk đặc tả thông tin về âm thanh của wave file
và tiếp đó là dữ liệu của từng subchunk Đó là subchunk “fmt” vàsubchunk “data”
a subchunk “fmt”:
SVTH: Đỗ Văn Tuấn Trang
Trang 18Dữ liệu của “fmt” chunk là đối tượng WAVEFORMAT có cấu trúc nhưsau:
Typedef struct waveformat_tag
Giá trị này báo cho phần mềm đang đọc Wave File biết kiểu mã hóa
dữ liệu âm thanh sang dữ liệu số là kiểu mã hóa PCM Hiện nay đây làkiểu mã hóa duy nhất của Wave file
- nChannels: có hai giá trị bằng 1 cho âm thanh mono và bằng 2 cho âmthanh stereo
- nSamplesPerSec: cho biết tốc độ lấy mẫu, có các giá trị:
Ta thấy trong WAVEFORMAT chưa có thông tin về số bit dùng đểlượng tử hóa một mẫu dữ liệu của sóng âm Thực tế Wave File sẽ xác lập
Trang 19số bit dùng cho một mẫu dữ liệu bằng một trường gắn vào cuối cấu trúccủa WAVEFORMAT Cấu trúc đó như sau:
Typedef struct pcmwaveformat_tag
b Subchunk “data”
Dữ liệu của “data” subchunk của wave file chứa các số liệu của âmthanh đã được số hóa Đối với mẫu âm thanh 8 bit, dữ liệu của “data”subchunk bao gồm các giá trị 1 byte (có giá trị từ 0 – 255) của các mẫu âmthanh Đối với mẫu âm thanh 16 bits, mỗi mẫu dữ liệu gồm 2 bytes (có giátrị từ – 32768 đến 32767) Điều này không có nghĩa là file wave 16 bits sẽnghe to hơn 256 lần file wave 8 bits, mà nó có nghĩa là âm thanh đượclượng tử hóa chính xác hơn, nghe trung thực hơn
Trong mẫu mono 8 bits, dữ liệu của subchunk “data” gồm chuỗi cácgiá trị 1 byte Với stereo 8 bits, mỗi mẫu gồm 2 bytes, dữ liệu sẽ được sắpxếp xen kẽ (interleave), với byte đầu (byte chẵn) là mẫu âm thanh củakênh bên trái, byte sau (byte lẻ) là của kênh bên phải
Tóm laị cấu trúc của Wave File như sau:
Trang 202 Kiểu mã hóa dữ liệu của file
wave (thường là PCM) WORD nFormatTag
III ĐỌC RIFF FILES
Để làm việc với file RIFF, ta phải mở nó và “descend” vào chunk
mà ta cần Điều này có nghĩa là ta cần phải định vị được chunk này, rồichuyển con trỏ file vào đầu khối dữ liệu của chunk Khi làm việc xong với
1 chunk, ta phải “ascend” ra khỏi chunk và “descend” xuống chunk khác
Các hàm dùng xử lý RIFF file đều có tiền tố là mmio và làm việcvới file handle dạng HMMIO, để bắt đầu, ta phải mở file bằng đoạn mãsau:
HMMIO h;
If ((h=mmioOpen(path,NULL,MMIO_READ))==NULL){
/*báo lỗi*/
return(0);
}Thông số path chứa đường dẫn của file wave Cờ MMIO_READbáo cho mmioOpen mở file để đọc Ta cũng có thể mở nó để ghi bằngthông số MMIO_WRITE hay cả đọc và ghi bằng thông sốMMIO_READWRITE Nếu mở file thành công, mmioOpen sẽ trả về một
Trang 21handle loại HMMIO Nếu thất bại, nó sẽ trả về trị NULL Sau khi mở filexong, ta bắt đầu định vị WAVE chunk bằng đoạn mã sau:
MMCKINFO mmParent;
MmParent.fccType=mmioFOURCC(‘W’,’A’,’V’,’E’);
If (mmioDescend(h,(LPMMCKINFO)&mmParent, NULL,
MMIO_FINDRIFF)){
Trường cksize định nghĩa kích thước tính bằng byte của chunk.Đối số thứ ba của mmioDescend là cờ MMIO_FINDRIFF Cờ nàychỉ thị cho mmioDescend tìm một file có ID là RIFF với loại chunk đượcxác định bởi ckid Nếu muốn tìm một chunk trong Wave file ta cho cờ này
mmioClose(h,0);
/* báo lỗi */
SVTH: Đỗ Văn Tuấn Trang
Trang 22 Sau khi đã đọc nội dung của chunk, ta đi ra khỏi chunk để chuẩn bịđọc chunk kế tiếp:
MmAscend(h,(LPMMCKINFO)&mmSub,0);
Đối số thứ hai của mmAscend là đối tượng MMCKINFO của chunk mà ta
“đi ra” Đối số thứ ba là đối số giả
Công việc còn lại là đọc dữ liệu mã hóa mẫu âm thanh của Wavefile vào bộ nhớ Chú ý rằng giá trị cksize trả về bởi mmioDescend được sửdụng để xác định kích thước vùng đệm cần cấp phát để chứa dữ liệu
GLOBALHANDLE wavehandle;
HPSTR wavepointer;
MmSub.ckid=mmioFOURCC(‘d’,’a’,’t’,’a’);
If(mmioDescend(h,(LPMMCKINFO)&mmSub,(LPMMCKINFO)&mmParent,MMIO_FINDCHUNK)){
mmioClose(h,0);
/* báo lỗi */
Trang 23}if((wavehandle=GlobalAlloc(GMEM_MOVEBLEIGMEM_
==null){
mSub.cksize){
SVTH: Đỗ Văn Tuấn Trang
Trang 24CHƯƠNG 3 LÝ THUYẾT XỬ LÝ TÍN HIỆU SỐ.
I TÍN HIỆU VÀ HỆ THỐNG RỜI RẠC
1 Giới thiệu
Tín hiệu là biểu hiện vật lý của thông tin, thường là thông tin vềtrạng thái hay hành vi của một hệ vật lý nào đó Về mặt tốn học, tín hiệuđược coi là hàm của của một hay vài biến độc lập Ví dụ: tín hiệu âm thanh
là sự thay đổi áp suất không khí theo thời gian; tín hiệu hình ảnh là hàm độsáng theo hai biến không gian
Theo qui ước chung, tín hiệu được coi là hàm theo một biến độc lập
và là biến thời gian
Tín hiệu số (Digital signal) là tín hiệu rời rạc (theo biến độc lập thờigian) đồng thời có biên độ cũng rời rạc hóa (lượng tử hóa)
2 Đáp ứng xung trong hệ tuyến tính bất biến
Tín hiệu vào x(n) được gọi là tác động, tín hiệu ra y(n) được gọi làđáp ứng của hệ xử lý Ta có quan hệ:
y(n) Tx(n)
T : phép biến đổi x(n) y(n)
Một hệ thống là tuyến tính nếu thỏa nguyên lý xếp chồng: giả sử
y1(n) và y2(n) là đáp ứng của hệ tương ứng với tác động vào là x1(n) và
x2(n) Hệ là tuyến tính nếu và chỉ nếu :
a.x1(n) b.x2(n) a.y1(n) b.y2(n)
Như vậy, một hệ tuyến tính có thể xử lý tổng tác động như là cáctác động này được xử lý độc lập, sau đó các đáp ứng tương ứng sẽ đượccộng lại
Một tín hiệu x(n) bất kỳ có thể biểu diễn :
y( ) ( ) ( )
Trang 25hk(n) gọi là đáp ứng xung của hệ đối với tác động là xung (n-k)
Theo công thức trên, hệ tuyến tính vẫn còn tùy thuộc vào thời điểmtác động k Một hệ tuyến tính là bất biến(theo thời gian) nếu tín hiệu vào bịdịch đi một đoạn thời gian là k thì tín hiệu ra cũng chỉ dịch một đoạn k,tức mọi hk(n) trở thành h(n-k)
Như vậy mọi hệ tuyến tính bất biến đều được đặc trưng hồn tồnbằng đáp ứng h(n), biết h(n) ta hồn tồn tính được đáp ứng y(n) của tín hiệuvào x(n)
x( ) ( )
h(n) *x(n)
và thứ tự mắc nối tiếp không quan trọng
Từ tính chất phân phối, hai hệ TTBB mắc song song nhau sẽ tươngđương với một hệ có đáp ứng xung bằng tổng hai đáp ứng xung:
) ( ) ( ) (n h1 n h2 n
h
SVTH: Đỗ Văn Tuấn Trang
Trang 26) ( ) (
) ( ) (
2
1 y n n
h
n h n
x
) ( ) ( ) ( ) (n h1 n h2 n y n
x
4 Hệ nhân quả (causal system)
Các hệ có tín hiệu ra chỉ phụ thuộc vào tín hiệu trong quá khứ vàhiện tại được gọi là các hệ nhân quả, tức phải có tác động vào (nguyênnhân) thì mới có tác động ra (kết quả)
Định lý : Hệ tuyến tính bất biến (TTBB) là nhân quả nếu đáp ứngxung h(n) = 0 với mọi n<0
Đối với một hệ TTBB và nhân quả, dạng chung của công thức tổng chập
) ( ).
( )
(
k
k h k n x n
)()
()
k
k h k n x n
S | ( ) |
6 Phương trình sai phân tuyến tính hệ số hằng
x(n)
Trang 27Ta chỉ khảo sát các hệ thống tuyến tính bất biến và có thể đặc trưng bởi cácphương trình sai phân có hệ số hằng Mối liên hệ giữa tín hiệu vào x(n) vàtín hiệu ra y(n) có dạng như sau:
M r r
k y n k b x n r a
)()
(
Trong đó tập các hệ số ak và br đặc trưng cho hệ TTBB
7 Biểu diễn các hệ rời rạc trong miền tần số
7.1 Phép biến đổi Fourier của tín hiệu rời rạc
e k h k
n x k h n
H(ej) là một hàm số phức và có thể biểu diễn theo phần thực và ảo:
H(ej)= Hr(ej)+ jHi(ej) (r: real; i: image)Hoặc theo biên độ và pha:
H(ej)= | H(ej)| ejargH(ej ) (02)
H(ej) là hàm liên tục theo và tuần hồn với chu kỳ 2 Ta có thể khaitriển nó thành chuỗi Fourier, ngược lại h(n) có thể được tính tốn từ H(ej)bằng các công thức tính hệ số khai triển chuỗi Fourier:
k e A t
S( ) ( 2 )
SVTH: Đỗ Văn Tuấn Trang
Trang 28Đối với tín hiệu tuần hồn
T t
T jk
k T s t e dt A
0
0
) / 2
x( ) 1 / 2 ( j ). j n
7.4 Phổ biên độ, phổ pha và phổ năng lượng
Do X(f) là một hàm phức nên ta có thể biểu diễn dưới dạng modul vàargument:
( )
arg
| ) (
| ) (f X f e j X f
X
Hàm modul X(f) theo f được gọi là phổ biên độ của tín hiệu x(n), còn hàm
(f)=arg[X(f)] được gọi là phổ pha
Cuối cùng (f)=|X(f)|2 được gọi là phổ năng lượng, biểu diễn sự phân bốtheo tần số của năng lượng tín hiệu x(n)
8 Định lý lấy mẫu Shannon
Một tín hiệu tương tự xa(t) có dải phổ hữu hạn với giới hạn trên là Fmax(Hz)(tức là phổ bằng 0 khi f nằm ngồi dải - Fmax Fmax) Ta sẽ chỉ có thể khôiphục lại xa(t) một cách chính xác từ các mẫu xa(n.Ts) nếu như :
Fs 2Fmax
hay Ts 1/(2Fmax)
Khôi phục lại tín hiệu tương tự từ tín hiệu lấy mẫu:
Ta có thể khôi phục lại tín hiệu xa(t) bằng cách cho tín hiệu lấy mẫu đi quamột mạch lọc (tương tự) thông thấp lý tưởng (low-pass filter) có đáp ứngtần số Hlp(f) với tần số cắt là fc = Fs/2 Phổ của tín hiệu xa(t) sẽ được lọc lạichính xác chỉ với điều kiện :
Fs 2Fmax
Trang 29Nghĩa là thỏa mãn định lý lấy mẫu Khi đó trong không gian tần số:
Xa(f) = X(f).Hlp(f)Còn trong không gian thời gian:
Xa(t) = x(nTs)*hlp(t)Trong đó hlp(t) là đáp ứng xung của mạch lọc thông thấp lý tưởng có biên
độ dải thông là Ts
II PHÉP BIẾN ĐỔI FOURIER RỜI RẠC
1 Chuỗi Fourier rời rạc của tín hiệu rời rạc tuần hồn
Tín hiệu tuần hồn xp(n) là tuần hồn với chu kỳ N nếu:
SVTH: Đỗ Văn Tuấn Trang
Trang 30M = N2 - N1+1.
Với tín hiệu x(n) này được dùng như là một chu kỳ tín hiệu, ta có thể xâydựng tín hiệu xp(n) tuần hồn với chu kỳ N bằng cách xếp chồng tuần hồn:
xp(n) 0 n N-1x(n)=
0 n còn lại
3 Phép biến đổi nhanh fourier
Fast Fourier Transform (FFT) là một giải thuật rất hiệu quả để tính DFT.Công thức biến đổi DFT:
1 0
/ ) 2 ()
()
k
N kn j
e n x k
()
k
nk
W n x k
1 2 / 0
) 1 2 (
2 (2 1)
)
2()
n
N n
k n N
nk
N x n W W
n x k
1 2 / 0 2
)
()
n
N n
nk N od
nk N
ev n W x n W x
k X
Trang 31Xev(k) và Xod(k) tuần hồn với chu kỳ N/2: Xev(k) = Xev(k - N/2),N/2 k N-1.
SVTH: Đỗ Văn Tuấn Trang
Trang 32CHƯƠNG 4 GIỚI THIỆU VỀ MPEG.
I GIỚI THIỆU
1 MPEG là gì?
MPEG, viết tắt của cụm từ “Moving Picture Experts Group”, là một nhómchuyên nghiên cứu phát triển các tiêu chuẩn về hình ảnh số và nén âmthanh theo chuẩn ISO/IEC Ngày nay, nhóm làm việc MPEG đã phát triển
và phát hành các tiêu chuẩn MPEG-1, MPEG-2 và MPEG-4 ChuẩnMPEG-3 được kết hợp vào MPEG-2 và không còn tách riêng nữa NhómMPEG hiện nay đã phát triển đến chuẩn MPEG-7 MPEG chỉ là một tênriêng, tên chính thức của nó là : ISO/IEC JTC1 SC29 WG11
ISO : International Organization for Standardization
IEC : International Electro-technical Commission
JTC1 : Joint Technical Committee 1
MPEG-2 định nghĩa cho một tiêu chuẩn kỹ thuật truyền hình số ChuẩnMPEG-2 khắc phục một vài nhược điểm của chuẩn MPEG-1 Ví dụ,MPEG-2 có thể tạo hình ảnh lớn gấp 4 lần MPEG-1 với độ nét cao hơn và
rõ hơn (720 x 480 và 1280 x 720) Các đặc tính của MPEG-2 bao gồmhình ảnh chất lượng cao và âm thanh nổi
MPEG-3 định nghĩa một tiêu chuẩn cho High Difinition Television(HDTV), là thế hệ tiếp theo của công nghệ truyền hình theo định dạng sốđầy đủ Tiêu chuẩn này đã không được phát triển hồn thiện và cuối cùngđược kết hợp vào với chuẩn MPEG-2 MPEG-3 đi đến mục tiêu là các ứngdụng HDTV với kích thước mẫu lên đến 1920x1080x30 Hz và được mã hố
ở tốc độ bit 20 đến 40 Mbits/s Cuối cùng người ta đã nhận ra rằng với một
Trang 33vài điều chỉnh thích hợp, MPEG-1 và MPEG-2 làm việc rất tốt đối vớiHDTV.
MPEG-4 định nghĩa một tiêu chuẩn cho các ứng dụng Multi-media Đặcbiệt nó định nghĩa tiêu chuẩn truyền cho dòng phức tạp các hình ảnh, âmthanh và dữ liệu đồ hoạ và việc tái hợp chúng trên thiết bị thu MPEG-4được phát triển theo 2 giai đoạn, 1 và 2 Chuẩn MPEG-4 định nghĩa cácđối tượng hình ảnh mà trong đó các phần của một cảnh có thể được thaotác trong khi những phần khác vẫn không đổi
MPEG-5 và MPEG-6 vẫn chưa được công bố
MPEG-7 định nghĩa một tiêu chuẩn về việc biểu diễn nội dung cho cácnghiên cứu thông tin hình ảnh và âm thanh Tên chính thức là “MultimediaContent Description Interface” Mục tiêu của MPEG-7 là chuẩn hố việcbiểu diễn các mô tả về nội dung nghe nhìn Tuy nhiên chuẩn không địnhnghĩa các công cụ để nhận ra nội dung nghe nhìn thật sự
3 Âm thanh MPEG
Khả năng của âm thanh MPEG, về cơ bản, âm thanh MPEG sẽ làm giảmkích thước lưu trữ 1 tâp tin âm thanh đi rất nhiều Một đĩa Audio-CD lưutrữ được khoảng 650 Mbyte dữ liệu âm thanh thô với cách mã hóa 16 bit(bitdepth) và tần số lấy mẫu (sample rate) 44.1 kHz Nếu đem phát ra thìcũng chỉ được 60 đến 72 phút
- bitdepth: mô tả mức biên độ lớn nhất mà một mẫu âm thanh có thể đạttới Ví dụ: 8 bit = 256 mức, 16 bit = 65536 mức, về hình ảnh thì đó chính
SVTH: Đỗ Văn Tuấn Trang
Trang 34Hình 4.1
4 Các khái niệm trong âm thanh MPEG
a Hiệu ứng che (masking): nói đơn giản là âm lớn át âm bé, âm mạnh át
âm yếu
b Ngưỡng nghe và mức nhạy cảm
Thí nghiệm: đặt một người trong phòng yên tĩnh Tăng mức to của âm1kHz lên cho đến ngay khi có thể nghe được rõ ràng Lặp lại thí nghiệmvới các tần số khác nhau, ta vẽ được đồ thị sau:
Trang 35Hình 4.2
“Ngưỡng nghe” : là mức mà dưới nó 1 âm thanh không thể nghe được Nóthay đổi theo tần số âm thanh, và dĩ nhiên giữa mỗi người khác nhau Hầuhết mọi người đều nhạy cảm ở mức 2 đến 5 kHz Một người có nghe được
âm thanh hay không tùy thuộc vào tần số của âm và độ to của âm đó ở trênhay dưới ngưỡng nghe tại tần số đó Tai nhạy cảm ở mức 2 đến 5 kHz
Ngưỡng nghe cũng có tính thích nghi, thay đổi cố định bởi âm thanh mà tanghe được Ví dụ, một cuộc nói chuyện bình thường trong một phòng thì
có thể nghe được rõ ràng ở điều kiện bình thường Tuy nhiên, cũng cuộctrò chuyện đó nằm trong vùng lân cận của những tiếng ồn lớn, như là tiếng
ồn do một chiếc phản lực bay ngang bên trên, là hồn tồn không thể ngheđược do lúc này ngưỡng nghe đã bị sai lệch Khi chiếc phản lục đã đi rồithì ngưỡng nghe trở lại bình thường Aâm thanh mà ta không thể ngheđược do sự thích nghi động của ngưỡng nghe gọi là bị “che” (masked)
c Che tần số (Frequency Masking)
Thí nghiệm:
Phát ra 1 âm có tần số 1 kHz với mức to cố định là 60dB, gọi là “âm che”(masking tone) Phát ra một âm khác (gọi là test tone) ở mức tần số khác(ví dụ 1.1kHz), và tăng mức to của âm này cho đến khi có thể nghe được
nó (phân biệt được âm 1.1 kHz và âm che 1kHz)
Làm lại thí nghiệm với các âm thử (test tone) và vẽ ra một ngưỡng mà tại
đó các âm thử bắt đầu có thể phân biệt được:
SVTH: Đỗ Văn Tuấn Trang
Trang 36Hình 4.3
Làm thí nghiệm với các “masking tones” có các tần số khác nhau, ta cóđược hình vẽ:
d Che nhất thời (che thời gian)
Nếu ta nghe một âm thanh lớn, rồi ngưng nó lại, mãi một lúc sau ta mới cóthể nghe được một âm lân cận nhỏ hơn
Thí nghiệm: phát ra một âm che “masking tone” có tần số 1kHz ở mức60dB, kèm một âm thử (test tone) 1.1kHz ở mức 40dB Ta không ngheđược âm thử này (nó đã bị che)
Dừng âm che lại, đợi một lúc (delay time) ta dừng tiếp âm thử (test tone)
Trang 37Điều chỉnh thời gian delay để cho ta vừa có thể nghe được âm chủ (ví dụkhoảng 5ms).
Lặp lại thí nghiệm cho các mức to khác nhau của âm thử, ta vẽ được đồ thịsau:
Trang 38hảo để nhận biết âm thanh nhưng là thiết bị duy nhất chúng ta có được.Nhưng chúng ta có thể chuyển những khuyết điểm của nó thành ưu điểm :
đó là đặc tính phi tuyến của ngưỡng nghe và khả năng thích hợp của nó
MPEG hoạt động dựa trên hệ thống nghe của con người, đó là cảm giác về
âm mang đặc tính sinh lý và tâm lý
Aâm thanh CD ghi lại tất cả tần số, kể cả những tần số bị ‘che’
Aâm thanh MPEG chỉ ghi lại những tần số mà tai người có thể nghe
Như vậy, MPEG sẽ bỏ qua những thông tin không quan trọng Dựa trênnghiên cứu về nhận thức âm thanh của con người, bộ mã hóa sẽ quyết địnhnhững thông tin nào là căn bản và những thông tin nào có thể bỏ qua
Hiệu qủa này là bao quát nhưng đặc biệt quan trọng trong âm nhạc Nếutrong một dàn nhạc có một nhạc cụ chơi cực mạnh, làm át tiếng của cácnhạc cụ khác ta không thể nghe được Nhưng máy thâu âm vẫn ghi lại đầy
đủ tất cả tần số của tất cả nhạc cụ, nghĩa là thiết bị thâu âm hồn tồn không
có khả năng thích nghi động như con người Nhưng khi phát lại, ta vẫnkhông nghe được âm thanh của những nhạc cụ bị át Vì vậy việc lưutrữ/ghi lại những tần số này là thừa, làm chiếm dung lượng khá nhiều.Cách ghi âm tuyến tính trên đĩa CD là hồn tồn không hiệu qủa về khíacạnh này Do đó thay vì phải ghi lại thông tin của những âm không ngheđược, ta sẽ dành chỗ cho các âm có thể nghe được Theo cách này, dunglượng của thiết bị ghi âm cần thiết có thể xem như giảm đi mà không làmgiảm chất lượng âm thanh
Trước khi chúng ta nghe được điều gì, thông tin sẽ được phân tích bởi bộnão của chúng ta Não bộ sẽ dịch âm thanh và lọc bỏ những thông tinkhông cần thiết Kỹ thuật âm thanh MPEG làm việc này thay thế cho não
bộ Như vậy, những thông tin lẽ ra phải được lọc bởi não bộ bây giờ khôngcòn cần phải lưu trữ chiếm giữ không gian đĩa nữa
II CÁC KHÁI NIỆM CƠ BẢN VỀ MPEG
1 Lược đồ mã hóa Perceptual Subband
Bộ mã hóa âm thanh theo “perceptual subband” phân tích liên tục các tínhiệu vào và xác định ra đường cong che (masking curve), đó là mứcngưỡng mà những âm thanh ở dưới nó không thể nghe được bởi hệ thốngnghe của con người
Trang 39Hình 4.7Tín hiệu vào được chia thành 1 số dải tần số, gọi là “subband” Mỗi tínhiệu “subband” được lượng tử hóa theo cách mà sự lượng tử hóa tiếng ồnđược bắt đầu bởi việc mã hóa sẽ không vượt qúa đường cong che củasubband đó Sự lượng tử hóa phổ tiếng ồn vì thế thích nghi động với phổcủa tín hiệu.Thông tin trên bộ số hóa được dùng trong mỗi subband đượctruyền dọc theo các mẫu subband được mã hóa Bộ giải mã sẽ giải mãdòng bit (bitstream) mà không cần phải biết cách mà bộ mã hóa xác địnhnhững thông tin này Điều này cho phép bộ mã hóa hoạt động với nhữngmức độ khác nhau về chất lượng và độ phức tạp, và cũng cho phép sự pháttriển trong tương lai của bộ mã hóa.
2 Giải thích về hiệu qủa che (masking effect)
a Nén âm thanh MPEG
MPEG có thể nén 1 dòng bit 32 kbit/s đến 384 kbit/s Một dòng bit âmthanh PCM thô thì khoảng 705 kbit/s, do đó tỉ số nén tối đa có thể là 22 Tỉ
số nén bình thường là 1:6 hay 1:7 96 kbit/s là xem như trong suốt cho hầuhết các mục đích thực tế Có nghĩa rằng ta không cần phải lưu tâm đến bất
SVTH: Đỗ Văn Tuấn Trang
Trang 40kỳ sự khác biệt nào giữa tín hiệu gốc và tín hiệu nén đối với nhạc pop haynhạc rock’n roll Đối với một số ứng dụng khác như là hòa tấu piano, tốc
độ bit có thể lên tới 128 kbit/s
Để đạt được tỉ số nén này, đối với âm thanh, về cơ bản ta có hai chọn lựa:hoặc giảm số lần lấy mẫu, hoặc giảm số bit để lượng tử hố Con người cóthể nghe âm thanh với tần số từ 20 Hz đến 20 kHz Theo thuyết củaNyquist, ta phải lấy mẫu âm thanh ở tần số tối thiểu là hai lần tần số caonhất mà ta muốn phát lại Tần số lấy mẫu 44,1 kHz là thích hợp Vấn đềcòn lại là phải chọn số bit cho một mẫu mã hóa là bao nhiêu Thôngthường là 16 bit
Lý do để chọn con số 16 bit bắt nguồn từ tỉ số tín hiệu và nhiễu (s/n).Nhiễu nói ở đây sinh ra do qúa trình số hóa Cứ mỗi bit thêm vào, ta có tỉ
số s/n tốt hơn 6dB (đối với tai người, 6 dB tương ứng với mức to gấp đôi).Aâm thanh CD đạt tới khoảng 90 dB s/n Mức này phù hợp với phạm viđộng của tai người còn tốt Nghĩa là ta không thể nghe được bất kỳ nhiễunào đến từ bản thân hệ thống Điều gì xảy ra nếu ta lấy mẫu với 8 bit? Ta
sẽ nghe thấy rất nhiều tiếng sôi trong bản ghi Dễ dàng nghe thấy nhiễutrong khoảng nghỉ của bản nhạc hoặc giữa các từ nếu ta ghi âm một giọngnói
b Hiệu qủa che
Giả sử có một âm mạnh với tần số 1000Hz, và một âm kèm theo có tần số1100Hz nhưng với cường độ âm nhỏ hơn 18dB Ta sẽ không thể nghe thấy
âm này vì nó đã bị che hồn tồn bởi âm chủ 1000Hz Nói một cách khác,một âm thanh yếu gần một âm thanh mạnh sẽ bị che Nếu có một âm thanhkhác tần số 2000Hz cũng có mức to thấp hơn âm 1000Hz là 18dB thì ta sẽnghe được âm này Để không nghe được âm này ta phải giảm mức to của
âm này xuống còn thấp hơn 45dB so với âm chủ 1000Hz Hiệu qủa che có
ý nghĩa rằng ta có thể gia tăng mức ồn nền xung quanh một âm mạnh màvẫn không nghe được tiếng ồn vì chúng sẽ bị che hồn tồn Tăng mức ồnnền còn có nghĩa là dùng ít bit để số hóa Và điều này cũng giống như là ta
đã nén âm thanh vậy
Bây giờ hãy xem bộ mã hố âm thanh MPEG hoạt động như thế nào Bộ mãhóa chia phổ tần số (20Hz đến 20kHz) thành 32 dải nhỏ (sub-band) Mỗisub-band giữ 1 phần nhỏ của phổ Trong vùng trên của sub-band 8 ta phátmột âm có tần số 1000Hz với mức to 60dB Bộ mã hóa sẽ tính tốn hiệuqủa che của âm này và nhận ra rằng có một ngưỡng che cho tồn bộ sub-band thứ 8 (tất cả những âm có cùng tần số) Ngưỡng che này thấp hơn âmphát ra 35 dB Tỉ số s/n có thể chấp nhận được là 60 - 35 = 25 dB, tươngđương với 4 bit Ngồi ra nó còn ảnh hưởng trên các sub-band 9-13 và 5-7với hiệu qủa che giảm dần từ sub-band 8 Hơn nữa, bộ mã hóa cũng xem