Quá trình tạo rati ếng nó

Một phần của tài liệu BÀI GIẢNG XỬ LÝ ÂM THANH VÀ HÌNH ẢNH docx (Trang 26 - 31)

4. Các dải băng tần tới hạn

2.2.1. Quá trình tạo rati ếng nó

Tiếng nói là âm thanh mang mục đích diễn đạt thông tin, rất uyển chuyển và đặc biệt. Là công cụ của tư duy và trí tuệ, tiếng nói mang tính đặc trưng của loài người. Nhờ

có ngôn ngữ tiếng nói mà loài người sống thành xã hội tiến bộ, có văn hoá, văn minh như

ngày nay. Trong quá trình giao tiếp người nói có nhiều câu nói. Mỗi câu gồm nhiều từ, ở

tiếng Việt, số từ thường được sử dụng vào khoảng 6700 âm tiết.

Tiếng nói thường xuất hiện dưới nhiều hình thức mà ta gọi là đàm thoại, việc đàm thoại thể hiện kinh nghiệm của con người. Đàm thoại là một quá trình gồm nhiều người, có sự hiểu biết chung và một nghi thức luân phiên nhau nói. Những người có điều kiện thể chất và tinh thần bình thường thì rất dễ diễn đạt tiếng nói của mình, do đó tiếng nói là phương tiện giao tiếp chính trong lúc đàm thoại. Tiếng nói có rất nhiều yếu tố khác hỗ trợ

nhằm giúp người nghe hiểu được ý cần diễn đạt như biểu hiện trên gương mặt, cử chỉ,

điệu bộ. Vì có đặc tính tác động qua lại, nên tiếng nói được sử dụng trong nhu cầu giao tiếp nhanh chóng.

Sóng âm thoại là một sóng áp suất âm thanh được tạo ra từ những chuyển động có

điều khiển của các bộ phận cơ thể con người hình thành nên hệ thống tạo âm thoại. Một cấu trúc đơn giản của hệ thống tạo âm thoại được minh họa ở hình vẽ 2.7. Cơ

bản, thoại được tạo ra như là một sóng âm từ các hốc mũi và miệng khi không khí bị bật ra từ các lá phổi với kết quả là luồng không khí bị xáo trộn bởi sự co thắt ở bên trong cơ

thể con người. Sẽ rất là hữu ích khi thể hiện quá trình tạo âm thoại ở dạng bộ lọc âm thanh. Có ba hốc quan trọng trong hệ thống tạo âm thoại là hốc mũi, miệng và hầu để

hình thành nên một bộ lọc âm thanh. Bộ lọc được kích thích bởi không khí từ các lá phổi và gánh tải tại đầu ra chính của nó bởi trở kháng bức xạ gắn kết với môi.

Cuống họng (vocal tract) liên quan tới hầu và các hốc miệng được nhóm lại với nhau. Cuống khứu giác (nasal tract) bắt đầu tại vòm miệng và kết thúc tại các hốc mũi. Khi vòm miệng thấp xuống, cuống khứu giác được ghép nối về mặt âm thanh với cuống họng để hình thành nên các âm thoại giọng mũi.

Sự hình thành và khuôn dạng của cuống họng, cuống khứu giác thay đổi liên tục theo thời gian để tạo ra một bộ lọc âm thanh với đáp ứng tần số biến đổi theo thời gian.

21

Khi mà không khí từ các lá phổi chuyển động qua các cuống họng, khứu giác, phổ tần số được định dạng bởi sự lựa chọn tần số của những cuống họng và khứu giác này

Hình 2.7: Bộ phận phát âm của con người

Thoại được tạo ra khi không khí đi từ phổi, qua các dây thanh âm (bộ phận phát ra tiếng của thanh quản) và dọc theo cuống họng. Cuống họng bắt đầu từ vị trí mở các dây thanh âm cho tới miệng với chiều dài trung bình khoảng 16cm. Dây thanh âm của người có cấu trúc gồm hai sợi cơ, mỗi sợi cơ được giữ bởi một màng cơ – một khối cơđủ mạnh. Bình thường hai dây cơ khép lại, không khí từ buồng phổi bị đóng kín không ra

được. Khi phổi đầy khí, dưới sựđiều khiển của hệ dây thần kinh, khi cần nói, không khí ép vào cơ cấu dây thanh âm, hai dây thanh âm có thể mở ra hoặc không mở.

Khi các dây thanh âm mở, không khí được đẩy ra từ phổi từng lớp một theo một chu kỳ nhất định T0tạo ra các nguyên âm.

Nếu các dây thanh âm không mở, nó sẽ bị tách bật ra để không khí có thể lọt qua tạo ra các phụ âm nổ hoặc không khí có thể lách xuyên qua khe hẹp giữa hai dây để tạo ra các phụ âm xát - rít.

Chúng ta có thể xem cơ quan phát âm như là một bộ lọc với nhiều tần số cộng hưởng khác nhau và được gọi là những tần số formant hoặc đơn giản là formant. Các tần

22

số formant được điều khiển bởi việc thay đổi hình dạng của cuống họng, chẳng hạn thông qua sự chuyển động của lưỡi.

Formant là dải tần số được tăng cường do hiện tượng cộng hưởng trong ống dẫn thanh, đặc trưng cho âm sắc của mỗi nguyên âm. Trong mỗi dải tần như thế có một tần số được tăng cường hơn cả gọi là đỉnh formant. Một nguyên âm do một người phát ra có nhiều formant:

• F1: ứng với cộng hưởng vùng yết hầu • F2: ứng với cộng hưởng khoang miệng

Khi ta nói, các âm mũi sẽ có sự xuất hiện của formant F3, các formant khác F4, F5,…liên quan đến các đặc trưng giọng nói riêng của mỗi cá nhân. Mỗi lần môi, lưỡi, hàm ở những vị trí khác nhau là một lần hộp cộng hưởng miệng và yết hầu thay đổi hình dáng, thể tích, lối thoát của không khí làm biến đổi âm sắc của âm thanh đi qua chúng. Chính vì vậy, hai khoang miệng và yết hầu là hai hộp cộng hưởng quan trọng nhất, chúng tạo nên hai formant chính formant F1 và F2 đặc trưng của mỗi nguyên âm.

Bộ lọc cuống họng bị kích thích bởi luồng không khí tác động vào nó từ các dây thanh âm. Theo đó các âm thanh thoại phát ra được phân chia thành ba loại phụ thuộc vào phương thức kích thích.

• Các âm hữu thanh (voiced sound): được tạo ra khi các dây thanh âm rung động mở

hoặc đóng, do vậy mà làm gián đoạn (ngắt) luồng không khí được tạo ra từ phổi tới cuống họng và tạo ra các các xung không khí có chu kỳ (quasi-periodic) khi bị

kích thích. Tốc độ của việc đóng hoặc mở các dây thanh âm xác định độ cao thấp của âm thanh (pitch). Pitch có thểđược điều chỉnh qua việc thay đổi hình dạng, độ

căng của các dây thanh âm cũng như áp suất của luồng không khí tác động lên chúng từ phổi. -> nguyên âm. Các âm hữu thanh thường có tính chu kỳ cao, điển hình trong khoảng 2 đến 20 ms như được minh họa ở hình 2.8. của một đoạn âm hữu thanh lấy mẫu tại tần số 8KHz. Hàm mật độ phổ công suất – PSD (Power Spectral Density) của đoạn âm hữu thanh này được minh họa ở hình 2.9.

• Các âm vô thanh (unvoiced sound): được tạo ra khi kích thích là một nhiễu loạn từ

việc ép luồng không khí ở tốc độ cao qua khe hẹp ở cuống họng trong khi các dây thanh âm ở trạng thái mở. Lưu ý âm vô thanh là các tín hiu không có chu k, nó có thểở dng tp âm, nhiu… Tính chu kỳ của những âm vô thanh cũng được thể

hiện ở các hình vẽ 2.10 và 2.11.

• Các âm bật - nổ (plosive sound): được tạo ra khi có sự đóng hoàn toàn ở cuống họng, và áp suất không khí được hình thành ở phía sau được giải phóng đột ngột.- > ph âm.

23

Hình 2.8: Một đoạn điển hình của các âm hữu thanh

24

Hình 2.10: Một đoạn điển hình của các âm vô thanh

Hình 2.11: Mật độ phổ công suất cho đoạn thoại vô thanh

Một số âm thanh không được xem như thuộc vào một trong ba loại âm thanh nói trên, tuy nhiên chúng là sự hỗn hợp. Ví dụ như các âm xát (phụ âm xát hoặc rít – cọ xát)

được hình thành khi các có sự rung động của dây thanh âm và khe hẹp trong cuống họng

được hình thành.

Dựa vào phương thức cấu âm, người ta chia phụ âm làm 3 loại chính: âm tắc, xát và rung. Phụ âm tiếng Việt gồm có 22 âm và người ta có thể chia theo bảng sau:

25

Bng 2.1: Các loại phụ âm trong tiếng Việt

Mặc dầu rất nhiều âm thanh thoại có thểđược tạo ra, nhưng hình dạng của cuống họng và phương thức kích thích lên nó thay đổi tương đối chậm. Do vậy, thoại - tiếng nói có thể xem như là quá trình dừng (quasi-stationary) qua những chu kỳ thời gian ngắn (khoảng chừng 20ms). Trên cơ sở các hình vẽ (2.8 – 2.11), chúng ta có thể thấy được các tín hiệu thoại có tính dự đoán trước cao do những sự rung động có tính chu kỳ của các dây thanh âm và do những sự cộng hưởng âm trong cuống họng. Các bộ mã hóa thoại

đang cố gắng khai thác những đặc tính dự đoán trước này của tín hiệu thoại để giảm tốc

độ truyền dẫn thoại ở mức cần thiết cho đảm bảo chất lượng truyền dẫn thoại.

Một phần của tài liệu BÀI GIẢNG XỬ LÝ ÂM THANH VÀ HÌNH ẢNH docx (Trang 26 - 31)

Tải bản đầy đủ (PDF)

(151 trang)