Tiểu luận môn học truyền thông đa phương tiện
Trang 1LỜI NÓI ĐẦU
số đặc trưng nhưng nhìn chung các phương pháp này dựa trên hai cơ chế:
Mô phỏng lại quá trình cảm nhận âm thanh của tai người Mô phỏng lại quá trình tạo
âm của cơ quan phát âm
Dưới sự hướng dẫn tận tình của Cô Nguyễn Hoàng Lan em đã cố gắn hoàn thành tốt
bài tiểu luận Nhưng trong quá trình thực hiện không tránh khỏi nhữnh sai sót, mongthày góp ý để bài tiểu luận được hoàn thiện hơn
Em xin chân thành cảm ơn !
Hà Nội, tháng 6 năm 2010
Trang 2PHẦN I: NHỮNG VẤN ĐỀ CƠ BẢN CỦA TIẾNG NÓI
I Bộ máy phát âm của con người
1 Cơ chế phát âm
Sơ đồ hệ thống phát âm của người được minh họa như hình vẽ:
Hình 1: Bộ máy phát âm
(1) Khoang mũi, (2) Vòm miệng cứng, (3) Ổ răng, (4) Vòm miệng mềm, (5)-(6)-(8)Lưỡi, (7) Lưỡi gà, (9) Họng, (10) Nắp thanh quản, (11)-(12) Dây thanh âm, (13)
Thanh quản, (14) Thực quản, (15) Khí quản
Hệ thống phát âm ở người bao gồm: phổi (lung), khí quản (trachea), thanh quản(thanh quản), khoang miệng (oral cavity) và khoang mũi (nasal cavity) Thanh quản chứahai nếp gấp gọi là dây thanh âm (vocal cords), sẽ kéo căng khi phát ra tiếng nói Khoangmiệng gồm một ống âm thanh (acoustic tube) dài khoảng 17 cm ở người nam, phần trướckết thúc ở môi và phần sau kết thúc ở dây thanh âm hoặc thanh quản Khoang miệngđóng vai trò là một hộp cộng hưởng động, thể tích của nó có thể được điều khiển bởi bộmáy phát âm ( môi, lưỡi, quai hàm, và vòm miệng mềm) Khoang mũi là một ống dài
Học Viên: Nguyễn Ngọc Đăng 2
Trang 3(velum) sẽ điều khiển hơi phát ra theo đường miệng hoặc đường mũi Đối với những âmkhông theo giọng mũi (non-nasalised), vòm miệng mềm sẽ đóng khoang mũi và hơi chỉphát ra theo đường miệng Đối với những âm có giọng mũi, vòm miệng mềm sẽ dịchchuyển xuống phía dưới, đóng đường miệng và hơi chỉ phát ra theo đường mũi Trườnghợp thứ ba là hơi được phát ra theo cả hai đường.
Quá trình phát âm: khi nói, phổi chứa đầy không khí Lượng không khí này sẽ đượcđẩy qua khí quản và thanh môn (glottis) Luồng không khí qua thanh môn sẽ kích thíchdây thanh âm dao động tạo ra sự phát âm Âm thanh này được truyền ra ngoài quakhoang miệng và khoang mũi Các khoang này có tác dụng như bộ lọc làm suy hao mộtvài tần số trong khi cho các tần số khác đi qua
2 Đặc trưng vật lý
- Độ cao:
Là mức độ cao thấp của âm, phụ thuộc vào sự chấn động nhanh hay chậm của khôngkhí trong một khoảng thời gian nhất định, được gọi là tần số dao động Tần số dao độngcàng lớn thì âm thanh càng cao
- Độ mạnh:
Thường được gọi là cường độ, do biên độ dao động quyết định Trong ngôn ngữ, phụ
âm thường mạnh hơn nguyên âm, đây chính là một trong những đặc điểm góp phần nhậndiện sự khác biệt giữa phụ âm và nguyên âm trong âm thanh tiếng nói
- Tiếng ồn và tiếng thanh:
Tiếng ồn là do sự chuyển động không nhịp nhàng (không có chu kỳ ổn định) của cácphần tử không khí gây ra Tiếng thanh là do sự chuyển động nhịp nhàng (có chu kỳ ổnđịnh) của các phần tử không khí gây ra
3 Phân loại tiếng nói
- Âm hữu thanh:
Được tạo ra khi dây thanh âm căng lên và rung khi áp suất không khí tăng lên, làm chothanh môn mở ra rồi đóng lại khi luồng không khí đi qua Bộ phận phát âm hoạt động
Trang 4giống như hộp cộng hưởng, khuyếch đại những thành phần hài này và làm suy giảmnhững thành phần hài khác để tạo ra âm hữu thanh Mức độ rung của dây thanh âm tùythuộc vào áp suất không khí ở phổi và sức căng của dây thanh âm Người nói có thể điềukhiển 2 yếu tố trên để thày đổi chu kì cơ bản (được gọi là pitch) của âm thanh Ở ngườiđàn ông, tần số cơ bản khoảng từ 50÷250 Hz, trong khi ở phụ nữ là thường rơi vàokhoảng 120÷500 Hz
Trong ngôn ngữ, các nguyên âm về bản chất âm học là những âm hữu thanh
- Âm vô thanh:
Được tạo ra khi dây thanh âm không rung Có hai loại âm vô thanh cơ bản: âm xát và
âm bật hơi
Đối với âm xát, ví dụ khi nói “s”, “x”, một số điểm trên bộ phận phát âm bị colại khi luồng không khí đi ngang qua nó, hỗn loạn xảy ra tạo nên nhiễu ngẫunhiên Bởi vì những điểm co thường ở phía trước miệng, cộng hưởng của bộphận phát âm có ảnh hưởng nhỏ đến đặc tính của âm xát
Đối với âm bật hơi, như khi ta nói ‘h’ trong ₡hùng?, hỗn loạn xảy ra ở gầnthanh môn khi dây thanh âm bị giữ nhẹ một phần Trường hợp này, cộng hưởngcủa bộ phận phát âm sẽ biến điệu phổ của nhiễu ngẫu nhiên Hiệu ứng này cóthể nghe rõ khi nói thì thầm
Cấu tạo cơ bản của phụ âm trong mọi ngôn ngữ là âm vô thanh
Ngoài hai loại âm cơ bản ở trên, còn có một loại âm trung gian vừa mang tính chấtnguyên âm, vừa mang tính chất phụ âm, được gọi là bán nguyên âm hay bán phụ âm Ví
dụ như âm ‘i’ và ‘u’ trong những từ ‘ai’, ‘âu’
- Âm bật hơi:
Khi phát các âm này, bộ máy phát âm sẽ được đóng lại hoàn toàn tại một điểm nào đótrong bộ máy phát âm Ap suất không khí trong bộ máy phát âm sẽ tăng lên tức thời vàđược giải phóng một cách đột ngột Sự giải thoát nhanh chóng của áp suất này sẽ tạo nênmột sự kích thích tạm thời của bộ máy phát âm
4 Mô hình lọc nguồn tạo tiếng nói
(Hình 2) minh họa mô hình rất đơn giản của bộ phận phát ra nguyên âm “e” là một ốngđều có chiều dài L, một đầu nguồn âm thanh(dây thanh âm) và đầu kia được mở ra(môi).Ống này cộng hưởng ở các tần số lẻ f0, 3f0, 5f0… với f0=c/4L với c là vận tốc âm thanhtrong không khí Ví dụ, L=17cm, c=300m/s, thì sẽ cộng hưởng ở các tần số: 500Hz,1500Hz, 2500Hz,… những đỉnh cộng hưởng này được gọi là các Formant Bộ phận phát
âm có thể nhiều dạng khác nhau và tạo ra những đỉnh cộng hưởng khác nhau hay các giátrị Formant khác nhau nên âm thanh phát ra khác nhau Trong tiếng nói, các tần sốFormant luôn thay đổi từ âm này sang âm khác
Học Viên: Nguyễn Ngọc Đăng 4
Trang 5Hình 2: Mô hình ống đều của bộ phận phát âm
Quá trình hình thành tiếng nói được biểu diễn bằng mô hình Source-filter:
Hình 3: Tạo tiếng nói theo mô hình lọc nguồn
Tín hiệu vào là tín hiệu từ nguồn âm thanh(cũng có thể là có chu kì hay nhiễu) đượclọc bằng bộ lọc có tính chất cộng hưởng tương tự với bộ phận phát âm Phổ của tín hiệutiếng nói thu được bằng cách nhân phổ của bộ lọc với phổ của tín hiệu AV, AN là các độlợi biểu thị cường độ của âm thanh và cường độ nhiễu
Một bộ phận phát âm có một số hữu hạn Formant, nhưng chỉ cần quan tâm đến 3 hay 4Formant đầu tiên trên băng tần từ 100Hz đến 3.5kHz do biên độ của các Formant cao hơn
bị suy giảm gần như hoàn toàn với độ suy giảm -12dB/octave Trường hợp tiếng nói vôthanh, phổ tương đối bằng phẳng, số lượng các Formant như vậy vẫn đủ mặc dù tiếng nói
vô thanh có băng tần mở rộng lên đến 7-8kHz Ngoài ra, do ảnh hưởng bức xạ của miệngnên biên độ được tăng lên chừng 6dB/octave trong băng tần 0-3kHz Chình vì vậy màđến phần tiền xử lý tín hiệu ta phải dùng bộ lọc tiền nhấn để bù thêm +6dB/octave
Trang 6II Cơ quan thính giác của con người:
Tai giữa:
Có một xương nhỏ gọi là xương búa áp sát vào màng nhĩ Trong lúc màng nhĩ runglên, vì xương búa liên kết với các xương khác, gọi là xương đe, làm xương này có thểquay Trong lúc quay, xương đe lại liên kết với một xương khác, gọi là xương bàn đạp,
nó áp sát vào cửa sổ hình ovan của vùng trong tai Ba xương này (búa, đe, bàn đạp) lànhững xương nhỏ nhất trong cơ thể con người và được gọi chung là xương nhỏ Chứcnăng của nó là truyền tải sự rung động của màng nhĩ đến cửa sổ hình oval ở trong tai
Tai trong:
Cửa sổ hình oval là một màng phủ nhầy, mở rộng trong bức tường xương có cấu trúcxoắn ốc, được gọi là ốc tai Chất lỏng trong ốc tai được chia theo chiều dài của nó thànhhai màng nhầy, gọi là màng nhầy Reissner và màng nhầy cơ bản(màng đáy) Sự rungđộng của cửa sổ oval gây nên sóng áp suất truyền đến chất lỏng ở trong xương nhỏ và ápsuất của sóng gây trên màng nhầy cơ bản một độ lệch tại những điểm khác nhau dọc theochiều dài của nó Áp chặt vào màng nhầy cơ bản là cơ quan vỏ não Cơ quan này chứakhoảng 30000 tế bào hình sợi Mỗi tế bào này có nhiều sợi nhỏ li ti nhô ra Các sợi dâynày uốn cong nhờ sự vận động của màng nhầy cơ bản và nhờ đó các tế bào hình sợi hoạt
Học Viên: Nguyễn Ngọc Đăng 6
Trang 7truyền tín hiệu về não.
2 Cơ chế nghe
Khi ta nghe một sóng âm thuần tuý tức âm đơn (sóng sine), những điểm khác nhautrên màng đáy sẽ rung động thao tần số của âm đơn đi vào tai Điểm lệch lớn nhất trênmàng đáy phụ thuộc tần số âm đơn Tần số càng cao tạo ra điểm lệch lớn nhất ở phía đáy
và tần số thấp tạo ra điểm lệch lớn nhất phía đỉnh Như vậy màng đáy đóng vai trò phântích tần số tín hiệu vào phức tạp, bằng cách tách những tần số khác nhau ở những điểmkhác nhau dọc theo chiều dài của nó Mỗi điểm như vậy có thể xem là một bộ lọc thôngdải có tần số trung tâm và băng thông xác định Những đáp ứng này không đối xứngquanh tần số trung tâm, vùng tần số cao có tốc độ suy giảm dốc hơn nhiều so với vùngtần số thấp Vị trí của độ lệch cực đại dọc theo màng nhày biến thiên phi tuyến theo tần
Có thể xem quá trình nghe của hệ thính giác là một dãy cac bộ lọc băng thông, có đápứng phủ lấp lên nhau và băng thông hiệu quả của chúng xấp xỉ băng thông tới hạn Đây
là cơ sở cho việc thiết kế dãy băng lọc sau này
III Ngữ âm tiếng Việt
1 Âm vị
Về mặt ngôn ngữ học, có thể xem tiếng nói là một chuỗi các âm cơ bản được gọi là âm
vị Âm vị là đơn vị ngôn ngữ trừu tượng và không thể quan sát trực tiếp trong tín hiệutiếng nói Nhiều âm vị khác nhau kết hợp với nhau một cách nào đó để tạo ra những âmthanh khác nhau
Trang 8 Phụ âm tắc: Đặc trưng là một tiếng nổ, do luồng không khí bị cản trở hoàn toàn,
phải phá vỡ sự cản trở để thoát ra ngoài Phụ âm tắc được chia làm phụ âm bậthơi (như ‘th’)và phụ âm mũi (như ‘m’, ‘n’, ‘ng’, ‘nh’)
Phụ âm xát: Đặc trưng là tiếng cọ xát, phát sinh do luồng không khi đi ra bị cản
trở không hoàn toàn(chỉ bị khó khăn) phải lách qua một khe hở nhỏ và trong khithoát ra ngoài cọ xát vào thành của bộ phận phát âm
b Thanh điệu
Thanh điệu là sự nâng cao hay hạ thấp “giọng nói” trong một âm tiết Âm tiết là đơn
vị phát âm nhỏ nhất, trong tiếng Việt âm tiết là một từ Thanh điệu là sự thay đổi cao độcủa giọng nói, điều đó có nghĩa thay đổi biên độ tần số cơ bản trong âm hữu thanh.Thanh điệu được xác định bằng tần số cơ bản
Học Viên: Nguyễn Ngọc Đăng 8
Trang 9PHẦN II: CÁC PHƯƠNG PHÁP TRÍCH CHỌN THAM SỐ ĐẶC TRƯNG
CỦA TIẾNG NÓI
Qua phần phân tích ngữ âm, ta thấy rằng, khi phát âm một từ (tổng quát gồm phụ âm,nguyên âm, thanh điệu), dây thanh âm rung tạo ra dạng sóng của luồng không khí, đếnlượt bộ phận cấu âm và mũi biến đổi chậm làm thay đổi dạng sóng phát ra bên ngoài đểtạo ra những từ khác nhau Như vậy tín hiệu tiếng nói là do xung bước sóng chập với tínhiệu biến thiên chậm của bộ phận cấu âm Điều này dẫn tới việc trích tham số tiếng nóirất hiệu quả là phân tích cepstral, trong phương pháp này người ta muốn lấy phần tínhiệu có tần số thấp do bộ phận cấu âm tạo ra
I Phân tích cepstral theo thang đo mel
Phương pháp tính các hệ số MFCC là phương pháp trích chọn tham số tiếng nóiđược sử dụng rộng rãi bởi tính hiệu quả của nó thông qua phân tích cepstral theo thang
đo mel
Phương pháp được xây dựng dựa trên sự cảm nhận của tai người đối với các dải tần sốkhác nhau Với các tần số thấp (dưới 1000 Hz), độ cảm nhận của tai người là tuyếntính Đối với các tần số cao, độ biến thiên tuân theo hàm logarit Các băng lọc tuyếntính ở tần số thấp và biến thiên theo hàm logarit ở tần số cao được sử dụng để tríchchọn các đặc trưng âm học quan trọng của tiếng nói Mô hình tính toán các hệ số MFCCđược mô tả như (Hình 5)
Hình 5: Sơ đồ tính toán các hệ số MFCC
Ý nghĩa và phương pháp xác định tham số ở các khối trong sơ đồ trên mô tả như sau:
Khối 1: Bộ lọc hiệu chỉnh (Preemphasis)
Tín hiệu tiếng nói s(n) được đưa qua bộ lọc số bậc thấp để phổ đồng đều hơn, giảmảnh hưởng gây ra cho các xử lý tín hiệu sau này Thường bộ lọc này cố định bậc một, códạng:
Trang 10H(z) = 1 – az-1 0.9 ≤ a ≤ 1.0
Học Viên: Nguyễn Ngọc Đăng 10
Trang 12Quan hệ giữa tín hiệu ra với tín hiệu vào tuân theo phương trình
~
s (n) = s(n)-a.s(n-1)
Giá trị a thường được chọn là 0.97.
Khối 2: Phân khung (Frame Blocking)
Trong khối này tín hiệu hiệu chỉnh được phân thành các khung, mỗikhung có N mẫu; hai khung kề lệch nhau M mẫu Khung đầu tiên chứa N mẫu, khungthứ hai bắt đầu chậm hơn khung thứ nhất M mẫu và chồng lên khung thứ nhất N-M mẫu.Tương tự, khung thứ ba chậm hơn khung thứ nhất 2M mẫu (chậm hơn khung thứ hai Mmẫu) và chờm lên khung thứ nhất N-2M mẫu Quá trình này tiếp tục cho đến khi tất cảcác mẫu tiếng nói cần phân tích thuộc về một hoặc nhiều khung
Khối 3: Lấy cửa sổ (Windowing)
Bước tiếp theo là lấy cửa sổ cho mỗi khung riêng rẽ nhằm giảm sự gián đoạn của tín
hiệu tiếng nói tại đầu và cuối mỗi khung Nếu w(n), 0 n N-1
Học Viên: Nguyễn Ngọc Đăng 12
Trang 14Thông thường, của sổ Hamming được sử dụng Cửa sổ này có dạng:
Học Viên: Nguyễn Ngọc Đăng 14
Trang 15Tác dụng của FFT là chuyển đổi mỗi khung với N mẫu từ miền thời gian sang miềntần số FFT là thuật toán tính DFT nhanh DFT được xác định
Khối 5: Biến đổi sang thang đo Mel trên miền tần số
Như đã nói ở trên, tai người không cảm nhận sự thay đổi tần số của tiếng nói tuyếntínhmà theo thang Mel Người ta chọn tấn số 1kHz, 40 dB trên ngưỡng nghe là 1000Mel Do đó, công thức gần đúng biểu diễn quan hệ tần số ở thang mel và thang tuyếntính như sau:
Trang 16Một phương pháp để chuyển đổi sang thang mel là sử dụng băng lọc (Hình 6), trong
đó mỗi bộ lọc có đáp ứng tần số dạng tam giác Số băng lọc sử dụng thường trên 20băng Thông thường, người ta chọn tần số từ 0 dến Fs/2 (Fs là tần số lấy mẫu tiếngnói) Nhưng cũng có thể một dải tần giới hạn từ LOFREQ đến HIFREQ sẽ được dùng
để lọc đi các tần số không cần thiết cho xử lý Chẳng hạn, trong xử lý tiếng nói quađường điện thoại có thể lấy giới hạn dải tần từ LOFREQ=300 đến HIFREQ=3400
Sau khi tính FFT ta thu được phổ tín hiệu S(fn) Thực chất đây là một dãy năng lượngW(m)=|s(fn)|2 Cho W(m) đi qua một dãy K băng lọc dạng tam giác, ta được một dãy các Tính tổng của các dãy trong từng băng lọc, ta thu được một dãy các hệ sốmk(k=1,2,3…,K)
Khối 6: Biến đổi Cosine rời rạc (DCT)Trong bước này ta sẽ chuyển log của các giá
trị mk về miền thời gian bằng cách biến đổi Cosine rời rạc (DCT) Kết quả của phép biến
đổi này ta thu được các hệ số MFCC
Thông thường, chỉ có một số giá trị đầu tiên của ci được sử dụng Trong các ứng dụng nhận dạng tiếng nói, người ta thường lấy 12 hệ số MFCC và thêm 1 hệ số năng lượng củakhung sau khi đã được chuẩn hóa làm tham số đặc trưng cho tín hiệu tiếng nói (như vậy tổng cộng có Q=13 hệ số)
Khối 7: Cepstral có trọng số
Vì độ nhạy của các hệ số cepstral bậc thấp làm cho phổ toàn bộ bị đổ dốc, độ nhạy củacác cepstral bậc cao gây ra nhiễu nên người ta thường sử dụng cửa sổ cepstral để cực tiểuhóa độ nhạy này Công thức biểu diễn các hệ số cepstral có trọng số:
Học Viên: Nguyễn Ngọc Đăng 16
Trang 17Trong đó; θ: là độ dài cửa sổ tính delta (thường chọn là 2 hoặc 3).
Kết thúc các bước trên với mỗi khung ta thu được một vector có 2Q thành phần biểudiễn tham số đặc trưng của tiếng nói
II Phương pháp mã dự đoán tuyến tính LPC(Linear Predictive Coding)
Mô hình LPC được sử dụng để trích lọc các tham số đặc trưng của tín hiệu tiếng nói.Kết quả của quá trình phân tích tín hiệu thu được một chuỗi gồm các khung tiếng nói.Các khung này được biến đổi nhằm sử dụng cho việc phân tích âm học
Nội dung phân tích dự báo tuyến tính là: một mẫu tiếng nói được xấp xỉ bởi tổ hợptuyến tính của các mẫu trước đó Thông qua việc tối thiểu hóa tổng bình phương sai sốgiữa các mẫu hiện tại với các mẫu dự đoán có thể xác định được một tập duy nhất các hệ
số dự báo Các hệ số dự báo này là các trọng số được sử dụng trong tổ hợp tuyến tính.Với dãy tín hiệu tiếng nói s(n) giá trị dự báo được xác định bởi:
Trong đó; ak : là các hệ số đặc trưng cho hệ thống
Hình 7: Sơ đồ xử lý LPC dùng trích chọn đặc trưng tiếng nói
Sơ đồ khối bộ phân tích LPC dùng cho trích chọn các tham số đặc trưng của tín hiệutiếng nói (Hình 7) Hàm sai số dự báo được tính theo công thức:
Để cực tiểu hóa lỗi cần tìm tập giá trị { k } phù hợp nhất.
Do tín hiệu tiếng nói thay đổi theo thời gian nên các hệ số dự báo phải được ước