Khái niệm về âm thanh và các tham số đánh giá Âm thanh trong thế giới tự nhiên về bản chất là những sóng âm được tạo ra từ dao động của vật thể và được truyền đi trong một môi trường tr
Trang 1Chương 2: Kỹ thuật xử lý âm thanh
2.1 Các đặc trưng cơ bản của âm thanh
2.1.1 Khái niệm về âm thanh và các tham số đánh giá
Âm thanh trong thế giới tự nhiên về bản chất là những sóng âm được tạo ra từ dao động của vật thể và được truyền đi trong một môi trường truyền âm nhất định
Âm thanh của tiếng nói, tương tự, là những sóng âm được tạo ra từ dao động của các bộ phận trong bộ máy phát âm và được truyền đi trong môi trường truyền âm (thường
là không khí) Những sóng âm này truyền đến tai người nghe, đập vào màng nhĩ - một màng mỏng rất nhạy cảm của tai người – làm cho màng nhĩ cũng dao động, các dây thần kinh của màng nhĩ sẽ nhận được cảm giác âm khi tần số dao động của sóng đạt đến một
độ lớn nhất định và người nghe nhận biết được lời nói Liên lạc thông tin bằng tiếng nói
là truyền thông tin từ não người nói sang não người nghe Có thể xem như tiếng nói (thoại) là một trường hợp riêng nhưng phổ biến của âm thanh
Âm thanh có các tham số đánh giá đặc trưng sau đây:
1 Tần số: Tần số của âm đơn là số lần dao động của không khí truyền dẫn âm trong một
đơn vị thời gian là 1 giây Tần số biểu thị độ cao (pitch) của âm thanh Tần số càng lớn thì âm thanh càng cao và ngược lại Ðơn vị để đo tần số của âm thanh là Hertz (viết tắt là Hz)
Tai con người chỉ cảm thụ được những dao động có tần số từ khoảng 16Hz đến khoảng 20000Hz Dải tần số từ 16Hz đến 20000Hz được gọi là dải tần số âm thanh hay
âm tần hoặc sóng âm Những âm có tần số nhỏ hơn 16Hz gọi là sóng hạ âm, còn những
âm có tần số lớn hơn 20000 Hz gọi là sóng siêu âm và con người không cảm nhận được các sóng âm này nhưng có khá nhiều loài vật có thể cảm nhận được (ví dụ loài dơi có thể nghe được sóng siêu âm) Sóng âm, sóng siêu âm và hạ âm không chỉ truyền trong không khí mà còn có thể lan truyền tốt ở những môi trường rắn, lỏng, do đó sử dụng rất nhiều trong các thiết bị máy móc hiện nay
Ứng với mỗi tần số dao động f, có chu kỳ dao động T là một bước sóng λ của âm
thanh được xác định theo biểu thức λ = c.T (c là tốc độ lan truyền của âm thanh trong
không khí = 340m/s) Do đó, bước sóng của âm thanh trong dải âm tần là từ 21.25m đến 0.017m
Trong thực tế, một âm phát ra thường không phải là một âm đơn mà là một âm phức bao gồm một âm đơn và một số âm hài có tần số gấp 2, 3 hoặc 4… lần âm đơn Ngoài ra, trong dải âm tần người ta chia ra: tiếng trầm từ 16Hz đến 300Hz; tiếng vừa từ
Trang 2300Hz đến 3000Hz và tiếng bổng (tiếng thanh) 3000Hz đến 12000Hz Tiếng nói con người thường có dải tần số từ 300Hz đến 3400Hz
2 Áp suất âm thanh: Áp suất âm thanh hay còn gọi là thanh áp Âm thanh truyền lan
đến đâu thì làm thay đổi áp suất không khí ở đó Áp suất do âm thanh tạo thêm ra ở một điểm gọi là thanh áp ở điểm đó Đơn vị đo thanh áp là bar Một bar là thanh áp tác động lên một diện tích 1cm2 một lực là 1dyn 1 bar = 1dyn/cm2 Tuy nhiên, ngày nay, người ta thường dùng đơn vị Pascan (Pa) để đo thanh áp 1 bar = 10 Kpa; 1 Pa = 1 N/m2
3 Công suất âm thanh: Là năng lượng âm thanh đi qua một diện tích S trong thời gian
một giây Công suất âm thanh P có thể tính bằng biểu thức:
Trong đó p là thanh áp, v là tốc độ dao động của một phần tử không khí tại đó và S
là diện tích Công suất âm thanh tính theo đơn vị oát (W)
Thông thường máy bay phản lực có công suất âm thanh là 10.000W; ô tô vận tải phóng nhanh: 0.12W; nói chuyện bình thường: 0.0003W
4 Cường độ âm thanh: Cường độ âm thanh I là công suất âm thanh đi qua một đơn vị
diện tích là 1cm2
Ba đại lượng: áp suất âm thanh, công suất âm thanh; cường độ âm thanh gắn liền với nhau Cả ba đều biểu thị độ lớn nhỏ của âm thanh Âm thanh có năng lượng càng lớn thì công suất, cường độ và áp suất của âm thanh càng lớn
5 Ðộ mạnh (Intensity): Do biên độ dao động của vật thể quyết định Biên độ dao động
là trị số lớn nhất mà dao động đạt tới trong một nửa chu kì Biên độ dao động càng lớn,
âm thanh càng vang to và ngược lại Ðơn vị đo độ mạnh của âm thanh là décibel (viết tắt
là dB) Trong lời nói của một người, độ mạnh của âm thanh là yếu tố cơ bản tạo nên âm lượng của âm và trọng âm của từ
6 Ðộ dài (Length): Do thời gian dao động của vật thể quyết định Ðộ dài của âm thanh
tạo nên sự tương phản giữa các bộ phận của lời nói, là yếu tố tạo nên trọng âm, tạo nên các nguyên âm đối lập nhau về độ dài Hai từ "tang" và "tăng" trong tiếng Việt có sự đối lập âm a dài (trong "tang") và âm a ngắn (trong "tăng")
7 Âm sắc (Timbre): Phụ thuộc vào độ cao, độ dài và độ mạnh tham gia bổ sung vào các
thành phần kết cấu của âm Ðây là vẻ riêng biệt của một âm Âm sắc được quyết định bởi: thể chất của vật thể dao động, tính chất phức hợp do hiện tượng cộng hưởng âm thanh và phương pháp làm cho vật thể dao động Một âm có cùng độ cao, độ mạnh, độ dài được phát ra từ dây tơ sẽ khác với từ một dây đồng; từ một ống sáo to dài, sẽ khác với
Trang 3Âm sắc chính là cái sắc thái riêng của từng âm Âm sắc còn được quyết định bởi vật thể dao động theo chu kì đều đặn hay không đều đặn; dao động theo chu kì đều đặn thì tạo ra
âm vang (sonants), chu kì không đều đặn thì tạo ra âm ồn hay âm có nhiều tiếng động (non - sonants hoặc bruyants)
Xử lý âm thanh bao gồm nhiều lĩnh vực khác nhau, và tất cả đều liên quan đến sự hiện diện của âm thanh đối với người nghe Chúng bao gồm: (1) Tái tạo lại âm nhạc với
độ trung thực cao (high fidelity music) như là âm thanh ở các đĩa Compact (CD – audio compact discs); (2) Viễn thông thoại hoặc là các mạng điện thoại; (3) tổng hợp thoại (synthetic speech) mà ở đó các máy tính tạo và nhận dạng các mẫu thoại của con người
Các lĩnh vực cụ thể liên quan đến xử lý âm thanh (trong đó có thoại) bao gồm: Nén âm thanh, thoại, nhận dạng tiếng nói; tổng hợp tiếng nói; nâng cao chất lượng (enhancement) và hồi phục tiếng nói (restoration)
Nén các tín hiệu thoại có rất nhiều ứng dụng, ví dụ như trong công nghệ thông tin
di động số có nhiều người sử dụng dùng chung băng tần số Nói cách khác, kỹ thuật nén cho phép nhiều người sử dụng chia sẻ tài nguyên của hệ thống hơn và làm cho việc sử dụng tài nguyên hệ thống có hiệu quả hơn Một ví dụ khác nữa là lưu trữ thoại số (các máy trả lời điện thoại tự động), với một dung lượng bộ nhớ cho trước, nén cho phép lưu nhiều bản tin dài hơn
Để có thể xử lý âm thanh/thoại cần hiểu rõ được các cơ sở của quá trình tạo ra tiếng nói và đặc trưng hệ thống thính giác con người
2.1.2 Các đặc điểm của hệ thống thính giác con người
2.1.2.1 Cấu trúc tai người
Hệ thống thính giác của con người - Tai người là một cơ quan cực kỳ phức tạp Hình 2.1 minh họa những kết cấu chính của tai người Tai ngoài (outer ear) gồm có hai phần, vành tai – lớp da và sụn, gắn vào phía cạnh bên của đầu và ống tai có đường kính 0.5cm và cắm sâu vào trong đầu khoảng chừng 3cm Cơ cấu tai ngoài này dẫn hướng âm thanh từ môi trường bên ngoài tới các cơ quan nhạy cảm là tai giữa và tai trong nằm an toàn ở trong hộp sọ của người Cuối ống tai là một màng mỏng được gọi là màng nhĩ
(tympanic membrane) hay còn gọi là trống tai (ear drum) Các sóng âm thanh đập vào
màng nhĩ và làm cho nó rung động
Tai giữa là một tập hợp các xương nhỏ có nhiệm vụ truyền những rung động của
màng nhi tới ốc tai (cochlea) hay còn gọi là tai trong (inner ear), mà ở đó những rung
động được biến đổi thành các xung thần kinh (neural impulses) Tai trong là một ống nhỏ
có chứa dung dịch chất lỏng, có đường kính khoảng 2 mm và dài khoảng 3 cm Mặc dầu được minh họa ở dạng duỗi thẳng ở hình 2.1, trên thực tế, tai trong được cuộn lại và trông
Trang 4giống như một vỏ ốc sên nhỏ Nói cách khác, từ ốc tai (cochlea) xuất phát từ tiếng Hy lạp
có nghĩa là ốc sên (snail) – hình 2.2
Khi một sóng âm thử truyền qua môi trường không khí vào môi trường chất lỏng, chỉ có một phần nhỏ của âm thanh được phát đi qua lớp giao tiếp giữa hai môi trường, trong khi đó phần năng lượng còn lại bị phản xạ trở lại Điều này là do không khí có trở kháng cơ học thấp (áp suất âm thanh thấp và vận tốc cao dẫn đến tỷ trọng thấp và hệ số nén cao), trong khi đó chất lỏng có trở kháng cơ học cao Xét về khía cạnh mang ít tính
kỹ thuật, người ta phải nỗ lực nhiều hơn khi vẫy tay trong nước so với khi vẫy tay trong không khí Chính sự khác nhau về trở kháng cơ học dẫn đến phần lớn các sóng âm bị phản xạ trở lại tại giao tiếp không khí/chất lỏng
Tai giữa được xem như là một mạng phối hợp trở kháng để gia tăng phần năng lượng sóng âm đi vào dung dịch chất lỏng của tai trong Chẳng hạn, cá không có trống tai hoặc tai giữa bởi vì chúng không cần phải nghe trong môi trường không khí Phần lớn những biến đổi trở kháng xuất phát từ sự khác nhau trong vùng phạm vi giữa trống tai
(màng nhĩ) (thu nhận sóng âm từ không khí) và cửa sổ oval (oval window) – phát dẫn âm
thành vào trong dung dịch chất lỏng Màng nhĩ có diện tích khoảng chừng 60 mm2, trong khi đó cửa sổ ovalcó diện tích khoảng chừng 4 mm2.Vì áp suất bằng lực đẩy chia cho diện tích, chính sự khác nhau về diện tích này làm tăng áp suất sóng âm thanh khoảng 15 lần
Cùng với ốc tai là màng nền (basilar membrance), cấu trúc hỗ trợ cho khoảng 12,000 tế bào cảm giác (giác quan) – sensory cells và hình thành nên dây thần kinh ốc tai (cochlear nerve) Màng nền cứng nhất ở gần cửa sổ oval, và trở nên linh hoạt dần hơn về phía đối diện, nó hoạt động như là một bộ phân tích phổ tần số (frequency spectrum
analyzer) Khi gặp một tín hiệu tần số cao, màng nền cộng hưởng khi nó ở trạng thái cứng, dẫn đến sự kích thích của các tế bào thần kinh ở gần cửa sổ oval Tương tự như vậy, các âm tần số thấp kích thích các tế bào thần kinh ở phía đầu xa của màng nền Điều này làm cho các sợi riêng biệt trong thần kinh ốc tai đáp ứng lại với các tần số riêng biệt
Tổ chức tuân theo nguyên lý vị trí (place principle) và được dành riêng cho các đường
dẫn âm tới bộ não
Trang 51 Ống tai 2 Trống tai 3-5 Xương
tai giữa 6 Cửa sổ oval 7 Ống thông
xuống mũi
8 Ốc tai 9 Thần
kinh âm thanh
Hình 2.2: Cấu tạo của tai người 2.1.2.2 Sự cảm thụ của tai người đối với âm thanh
Tai người rất nhạy cảm âm thanh Chúng ta có thể nghe những sóng âm kéo dài chỉ vài ms (mili giây) trong khi đôi mắt thì ngược lại Mắt người không cảm nhận được những thay đổi về mức độ ánh sáng trong một vài ms Kết quả là trong quá trình truyền thông tin đa phương tiện, nếu có thay đổi trong một vài ms thì ảnh hưởng của chất lượng
âm thanh lớn hơn hình ảnh
1 Ngưỡng nghe
Tai người phát hiện những âm thanh biến đổi cục bộ trong áp suất không khí được
đo bằng mức áp suất âm- SPL (Sound Pressure Level) Nếu như những biến đổi của mức
áp suất âm (SPL) là dưới một ngưỡng nào đó về biên độ thì tai người không thể phát hiện được Ngưỡng nghe này được minh họa trong hình 2.3 dưới đây Ngưỡng này là một hàm của tần số âm thanh Lưu ý là trong hình 2.3 này, có các thành phần tần số thấp ở dưới mức ngưỡng nên các âm thanh có tần số này sẽ không nghe được Tai người nhạy nhất trong phạm vi tần số từ 2 – 4KHz
Trang 6Hình 2.3: Ngưỡng nghe
2 Mặt nạ tần số (frequency masking)
Cho dù một thành phần tín hiệu cao hơn mức ngưỡng nghe, thì nó vẫn có thể bị che khuất bởi các thành phần lớn hơn mà gần tín hiệu đó trong miền tần số Hiện tượng này là gọi là mặt nạ tần số Mỗi một thành phần trong một tín hiệu có thể lấy ra “phần bóng” qua các thành phần bên cạnh Nếu như thành phần tần số bên cạnh bị che phủ bởi “phần bóng” này thì các thành phần tín hiệu tần số này sẽ không nghe được Kết quả là có một thành phần – thành phần che khuất làm dịch ngưỡng nghe Hình 2.4 minh họa hiện tượng này
Hình 2.4: Mặt nạ tần số
Trang 73 Mặt nạ thời gian
Chỉ khi các tiếng đưa ra vùng các “bóng” lên những thành phần bên cạnh trong miền tần số, thì âm lượng tăng đột biến có thể che khuất âm thanh nhỏ hơn, gần với âm thanh che khuất về mặt thời gian Ở đây, những âm thanh xuất hiện cả trước lẫn sau khi tăng âm lượng có thể bị che khuất Hình 2.5 minh họa hiện tượng mặt nạ thời gian điển hình Lưu ý là khoảng mặt nạ phía trước ngắn hơn rất nhiều so với khoảng mặt nạ sau
Hình 2.5: Mặt nạ thời gian
4 Các dải băng tần tới hạn
Dải tần số nghe được của con người được phân chia tự nhiên thành các dải băng tần tới hạn, với đặc tính là hệ thống thính giác của con người không thể phân biệt được các âm trong cùng một băng và diễn ra đồng thời Băng thông của mỗi băng tần tới hạn là khoảng 100Hz trong dải tần dưới 500Hz, và tăng tuyến tính trong dải 500 đến 5000Hz Thông thường, dải tần số âm thanh có thể được phân chia thành 24 băng tới hạn (25 băng thường được sử dụng cho các ứng dụng mã hóa), như biểu diễn ở Bảng 2.1 dưới đây
Do đó, tai hoạt động giống như các bộ lọc thông dải, mỗi bộ lọc cho phép một dải tần số nhất định đi qua và khóa tất cả các tần số khác (hình 2.6) Nói cách khác, hệ thống thính giác có thể được mô hình như một băng lọc, gồm 25 bộ lọc thông dải chồng lấn nhau, trong dải tần từ 0 đến 20kHz Các thí nghiệm dựa trên quan sát chỉ ra rằng một âm thanh có âm lượng không đổi sẽ có vẻ to hơn nếu nó kéo dài ranh giới giữa hai dải tần tới hạn thay vì chỉ nằm trong một dải tần Trong thực tế, tai người không có khả năng biết phân biệt trong cùng một dải tần tới hạn do sự che tần số
Dải tần #
Tần số giới hạn dưới (Hz)
Tần số trung tâm (Hz)
Tần số giới hạn trên (Hz)
Trang 8Việc chuyển đổi giữa tần số f với số dải tần tới hạn tương ứng b được thể hiện qua đơn vị
Bark như sau:
(2.3)3)
Trang 9Theo đơn vị đo tần số mới này, số dải tần tới hạn b tương đương với 5 khi f = 500 Hz
Trong thực tế, các đặc điểm ngưỡng nghe, mặt nạ tần số, mặt nạ thời gian và các dải băng tần giới hạn đặc trưng cho mô hình tâm sinh lý nghe (Psychoacoustics) Người
ta đã lợi dụng các đặc điểm trên để nén thông tin âm thanh (Audio) mà ứng dụng phổ biến nhất trong các chuẩn nén âm thanh MPEG
2.2 Mã hóa tín hiệu thoại
2.2.1 Quá trình tạo ra tiếng nói
Tiếng nói là âm thanh mang mục đích diễn đạt thông tin, rất uyển chuyển và đặc biệt Là công cụ của tư duy và trí tuệ, tiếng nói mang tính đặc trưng của loài người Nhờ
có ngôn ngữ tiếng nói mà loài người sống thành xã hội tiến bộ, có văn hoá, văn minh như ngày nay Trong quá trình giao tiếp người nói có nhiều câu nói Mỗi câu gồm nhiều từ, ở tiếng Việt, số từ thường được sử dụng vào khoảng 6700 âm tiết
Tiếng nói thường xuất hiện dưới nhiều hình thức mà ta gọi là đàm thoại, việc đàm thoại thể hiện kinh nghiệm của con người Đàm thoại là một quá trình gồm nhiều người,
có sự hiểu biết chung và một nghi thức luân phiên nhau nói Những người có điều kiện thể chất và tinh thần bình thường thì rất dễ diễn đạt tiếng nói của mình, do đó tiếng nói là phương tiện giao tiếp chính trong lúc đàm thoại Tiếng nói có rất nhiều yếu tố khác hỗ trợ nhằm giúp người nghe hiểu được ý cần diễn đạt như biểu hiện trên gương mặt, cử chỉ, điệu bộ Vì có đặc tính tác động qua lại, nên tiếng nói được sử dụng trong nhu cầu giao tiếp nhanh chóng
Sóng âm thoại là một sóng áp suất âm thanh được tạo ra từ những chuyển động có điều khiển của các bộ phận cơ thể con người hình thành nên hệ thống tạo âm thoại
Một cấu trúc đơn giản của hệ thống tạo âm thoại được minh họa ở hình vẽ 2.7 Cơ bản, thoại được tạo ra như là một sóng âm từ các hốc mũi và miệng khi không khí bị bật
ra từ các lá phổi với kết quả là luồng không khí bị xáo trộn bởi sự co thắt ở bên trong cơ thể con người Sẽ rất là hữu ích khi thể hiện quá trình tạo âm thoại ở dạng bộ lọc âm thanh Có ba hốc quan trọng trong hệ thống tạo âm thoại là hốc mũi, miệng và hầu để hình thành nên một bộ lọc âm thanh Bộ lọc được kích thích bởi không khí từ các lá phổi
và gánh tải tại đầu ra chính của nó bởi trở kháng bức xạ gắn kết với môi
Cuống họng (vocal tract) liên quan tới hầu và các hốc miệng được nhóm lại với nhau Cuống khứu giác (nasal tract) bắt đầu tại vòm miệng và kết thúc tại các hốc mũi Khi vòm miệng thấp xuống, cuống khứu giác được ghép nối về mặt âm thanh với cuống họng để hình thành nên các âm thoại giọng mũi
Sự hình thành và khuôn dạng của cuống họng, cuống khứu giác thay đổi liên tục theo thời gian để tạo ra một bộ lọc âm thanh với đáp ứng tần số biến đổi theo thời gian
Trang 10Khi mà không khí từ các lá phổi chuyển động qua các cuống họng, khứu giác, phổ tần số được định dạng bởi sự lựa chọn tần số của những cuống họng và khứu giác này
Hình 2.7: Bộ phận phát âm của con người
Thoại được tạo ra khi không khí đi từ phổi, qua các dây thanh âm (bộ phận phát ra tiếng của thanh quản) và dọc theo cuống họng Cuống họng bắt đầu từ vị trí mở các dây thanh âm cho tới miệng với chiều dài trung bình khoảng 16cm Dây thanh âm của người
có cấu trúc gồm hai sợi cơ, mỗi sợi cơ được giữ bởi một màng cơ – một khối cơ đủ mạnh
Bình thường hai dây cơ khép lại, không khí từ buồng phổi bị đóng kín không ra được Khi phổi đầy khí, dưới sự điều khiển của hệ dây thần kinh, khi cần nói, không khí
ép vào cơ cấu dây thanh âm, hai dây thanh âm có thể mở ra hoặc không mở
Khi các dây thanh âm mở, không khí được đẩy ra từ phổi từng lớp một theo một
chu kỳ nhất định T 0tạo ra các nguyên âm
Nếu các dây thanh âm không mở, nó sẽ bị tách bật ra để không khí có thể lọt qua tạo ra các phụ âm nổ hoặc không khí có thể lách xuyên qua khe hẹp giữa hai dây để tạo ra các phụ âm xát - rít
Chúng ta có thể xem cơ quan phát âm như là một bộ lọc với nhiều tần số cộng hưởng khác nhau và được gọi là những tần số formant hoặc đơn giản là formant Các tần
Trang 11số formant được điều khiển bởi việc thay đổi hình dạng của cuống họng, chẳng hạn thông qua sự chuyển động của lưỡi
Formant là dải tần số được tăng cường do hiện tượng cộng hưởng trong ống dẫn thanh, đặc trưng cho âm sắc của mỗi nguyên âm Trong mỗi dải tần như thế có một tần số được tăng cường hơn cả gọi là đỉnh formant Một nguyên âm do một người phát ra có nhiều formant:
• F1: ứng với cộng hưởng vùng yết hầu
• F2: ứng với cộng hưởng khoang miệng
Khi ta nói, các âm mũi sẽ có sự xuất hiện của formant F3, các formant khác F4, F5,…liên quan đến các đặc trưng giọng nói riêng của mỗi cá nhân Mỗi lần môi, lưỡi, hàm ở những vị trí khác nhau là một lần hộp cộng hưởng miệng và yết hầu thay đổi hình dáng, thể tích, lối thoát của không khí làm biến đổi âm sắc của âm thanh đi qua chúng Chính vì vậy, hai khoang miệng và yết hầu là hai hộp cộng hưởng quan trọng nhất, chúng tạo nên hai formant chính formant F1 và F2 đặc trưng của mỗi nguyên âm
Bộ lọc cuống họng bị kích thích bởi luồng không khí tác động vào nó từ các dây thanh âm Theo đó các âm thanh thoại phát ra được phân chia thành ba loại phụ thuộc vào phương thức kích thích
• Các âm hữu thanh (voiced sound): được tạo ra khi các dây thanh âm rung động mở hoặc đóng, do vậy mà làm gián đoạn (ngắt) luồng không khí được tạo ra từ phổi tới cuống họng và tạo ra các các xung không khí có chu kỳ (quasi-periodic) khi bị kích thích Tốc độ của việc đóng hoặc mở các dây thanh âm xác định độ cao thấp của âm thanh (pitch) Pitch có thể được điều chỉnh qua việc thay đổi hình dạng, độ căng của các dây thanh âm cũng như áp suất của luồng không khí tác động lên
chúng từ phổi -> nguyên âm Các âm hữu thanh thường có tính chu kỳ cao, điển
hình trong khoảng 2 đến 20 ms như được minh họa ở hình 2.8 của một đoạn âm hữu thanh lấy mẫu tại tần số 8KHz Hàm mật độ phổ công suất – PSD (Power Spectral Density) của đoạn âm hữu thanh này được minh họa ở hình 2.9
• Các âm vô thanh (unvoiced sound): được tạo ra khi kích thích là một nhiễu loạn từ việc ép luồng không khí ở tốc độ cao qua khe hẹp ở cuống họng trong khi các dây
thanh âm ở trạng thái mở Lưu ý âm vô thanh là các tín hiệu không có chu kỳ, nó
hiện ở các hình vẽ 2.10 và 2.11
• Các âm bật - nổ (plosive sound): được tạo ra khi có sự đóng hoàn toàn ở cuống
họng, và áp suất không khí được hình thành ở phía sau được giải phóng đột
ngột.-> phụ âm
Trang 12Hình 2.8: Một đoạn điển hình của các âm hữu thanh
Hình 2.9: Mật độ phổ công suất cho đoạn thoại hữu thanh
Trang 13Hình 2.10: Một đoạn điển hình của các âm vô thanh
Hình 2.11: Mật độ phổ công suất cho đoạn thoại vô thanh
Một số âm thanh không được xem như thuộc vào một trong ba loại âm thanh nói trên, tuy nhiên chúng là sự hỗn hợp Ví dụ như các âm xát (phụ âm xát hoặc rít – cọ xát) được hình thành khi các có sự rung động của dây thanh âm và khe hẹp trong cuống họng được hình thành
Dựa vào phương thức cấu âm, người ta chia phụ âm làm 3 loại chính: âm tắc, xát
và rung Phụ âm tiếng Việt gồm có 22 âm và người ta có thể chia theo bảng sau:
Trang 14Bảng 2.1: Các loại phụ âm trong tiếng Việt
Mặc dầu rất nhiều âm thanh thoại có thể được tạo ra, nhưng hình dạng của cuống họng và phương thức kích thích lên nó thay đổi tương đối chậm Do vậy, thoại - tiếng nói
có thể xem như là quá trình dừng (quasi-stationary) qua những chu kỳ thời gian ngắn (khoảng chừng 20ms) Trên cơ sở các hình vẽ (2.8 – 2.11), chúng ta có thể thấy được các tín hiệu thoại có tính dự đoán trước cao do những sự rung động có tính chu kỳ của các dây thanh âm và do những sự cộng hưởng âm trong cuống họng Các bộ mã hóa thoại đang cố gắng khai thác những đặc tính dự đoán trước này của tín hiệu thoại để giảm tốc
độ truyền dẫn thoại ở mức cần thiết cho đảm bảo chất lượng truyền dẫn thoại
2.2.2 Tổng quan về mã hóa tín hiệu thoại
Từ những năm 1930, mã hoá tiếng nói được phát triển trở thành một đặc tính quan trọng của những nhà vận hành hệ thống điện thoại ngày ngày Sự mã hóa tiếng nói bây giờ được ứng dụng trong truyền thông tế bào, những hệ thống máy tính, tự động hóa, truyền thông quân sự, những hệ thống sinh địa, và ở khắp nơi mà thông tin số chiếm giữ
Mã hoá tiếng nói bao gồm lấy mẫu và lượng tử hóa biên độ tín hiệu tiếng nói Mục tiêu là sẽ sử dụng một cực tiểu số lượng mẫu, trong khi giữ gìn chất lượng tiếng nói được xây dựng lại tại phía thu Nghiên cứu mã hoá bây giờ tập trung vào các kỹ thuật tốc
độ thấp (8 tới 2.4 kbits/s) và tốc độ rất thấp (ở dưới 2.4 kbits/s)
Hình 2.12 minh họa sơ đồ khối một hệ thống mã tiếng nói Ở đây, tín hiệu thoại tương tự và liên tục theo thời gian từ một nguồn thoại đã cho (chưa nén) được số hóa thông qua bộ lọc (loại bỏ băng tần thừa ở tần số cao), bộ lấy mẫu (biến đổi thành tín hiệu rời rạc theo thời gian) và bộ biến đổi tương tự/số (lượng tử hóa) và sau đó được mã hoá (nén): đó là quá trình mã hoá nguồn Tín hiệu đã mã hoá nguồn sau đó được tiếp tục mã
Trang 15Tại đầu thu, một bộ giải mã kênh sẽ tách và (hoặc) sửa những lỗi trong quá trình truyền dẫn và một bộ giải mã nguồn sẽ giải nén tín hiệu Tín hiệu đã được giải nén có thể giống hệt như tín hiệu ban đầu (nén không tổn thất) hoặc nó cũng có thể bị méo hoặc suy biến
theo một vài cách nào đó (nén có tổn thất)
Hình 2.12: Sơ đồ khối hệ thống mã hóa thoại
Thông thường, đa số những hệ thống mã tiếng nói được thiết kế để hỗ trợ những ứng dụng viễn thông, với tần số giới hạn trong khoảng 300 - 3400Hz Theo định lý Nyquist, tần số lấy mẫu phải lớn hơn ít nhất là hai lần băng thông của tín hiệu liên tục để tránh méo, nên 8 kHz thường được chọn là tần số mẫu tiêu chuẩn (cho) tiếng nói Nếu sử dụng từ mã 8 bít/ mẫu thì tốc độ đầu ra của kênh thoại số sẽ là 64 Kbit/s
Như ta đã biết, tín hiệu số ưu điểm hơn hẳn so với tín hiệu tương tự trong việc truyền dẫn và xử lý tín hiệu nhất là khả năng chống lỗi đường truyền PCM là kỹ thuật điều chế xung mã được sử dụng rất phổ biến trong mạng thoại truyền thống để biến đổi tín hiệu tương tự thành tín hiệu số Bình thường, một kênh thoại tương tự được biến đổi thành một kênh PCM cơ sở có tốc độ 64 Kbit/s Kỹ thuật PCM (chuẩn G.711) sử dụng trong mạng thoại truyền thống đảm bảo chất lượng âm khá trung thực nhưng băng tần sử dụng còn khá lớn Cho nên, nén thoại là cần thiết cho các ứng dụng như điện thoại di động (tốc độ của một cuộc gọi càng thấp thì càng cung cấp được thêm các dịch vụ khác-
dữ liệu; hình ảnh; video) và và các ứng dụng cho phép truyền dữ liệu tốc độ thấp (thường thấp hơn <16 Kbit/s) Ngoài ra, nén thoại cũng cần thiết cho các ứng dụng như truyền thoại qua IP (VoIP), thoại hội nghị… để giảm băng thông sử dụng trên mạng Internet
Một kỹ thuật nén khác cũng thường được sử dụng là điều chế xung mã vi sai thích ứng (ADPCM) theo chuẩn G.726 ITU-T ADPCM chỉ sử dụng các mẫu 4 bit để mã hóa (tạo ra băng thông 32 Kbit/s) Khác với PCM, 4 bit không phải do trực tiếp mã hóa biên
Bộ lọc Bộ lấy
mẫu
Bộ biến đổi A/D