Một số định dạng âm thanh

Một phần của tài liệu Đồ án truyền âm thanh qua mạng 4g sd mã nguồn mở board nhúng raspberry (Trang 27 - 34)

L ỜI NÓI ĐẦU

2.4. Tìm hiểu về xử lí âm thanh và các chuẩn âm thanh

2.4.2. Một số định dạng âm thanh

2.4.2.1. WAV

WAV file là tập tin chứa các dữ liệu của mẫu âm thanh được số hoá. Phương pháp mã hoá PCM sẽ lấy mẫu âm thanh với tần số khoảng 11.025 kHz cho đến 44.1 kHz. Mỗi lần lấy mẫu, số hiệu này lại được lượng tử hoá bằng 1 hay 2 byte cho mỗi mẫu âm thanh. Với mỗi mẫu âm thanh phát ra trong một phút cần phải lưu trữ ít nhất 660 Kb. Đó là lý do tại sao các file Wav ln có kích thước lớn hơn so với các file Midi. Cấu trúc của file thuộc lớp các file được sử dụng bởi hàm Multiemdia của Windows: đó là RIFF file (Resoure Interchange File Format). Một RIFF file gồm một hoặc nhiều loại Chunk và dữ liệu theo sau loại chunk đó và dữ liệu theo sau loại chunk đó.

2.4.2.2. PCM Audio

“Điều biến mã xung” (PCM) được tạo ra từ năm 1937 và là tiền thân cho các loại âm thanh analog. PCM được đặc trưng bởi hai thành phần: tần số mẫu (sample rate) và độ dày của bit (bit depth).

“Tần số mẫu” (sample rate) cho ta biết số lần biên độ rung mỗi giây của sóng âm thanh, cịn “độ dày bit” (bit depth) thể hiện số lượng bit của thông tin đo được từ mỗi mẫu âm thanh, nó tương ứng với độ phân giải của mỗi bộ dữ liệu âm thanh số.

“Âm thanh thực” như chúng ta vẫn nghe thấy hàng ngày là một dải tần kéo dài liên tục. Đối với thể giới số chuyện lại khác, để làm rõ cách hoạt động của âm thanh số, chúng ta hãy so sánh nó với hình ảnh số. Trong các đoạn video sử dụng công nghệ số, những gì chúng ta nghĩ là đang vận động hay trơi chảy thực chất chỉ là một chuỗi các hình ảnh tĩnh.

Âm thanh sốcũng như vậy, biên độ của sóng âm thanh khơng hề “trôi chảy” hay “vận động” mà thay đổi theo những chuẩn nhất định trong một khoảng thời gian cho trước.

2.4.2.3. Âm thanh ca CD-ROM

Âm thanh được ghi trên đĩa CD và định dạng file âm thanh WAV được sử dụng chuẩn định dạng pulse-code modulation (PCM) (nghĩa là trong analog ta thấy 1 tần số sine diễn tả âm thanh, nhưng trong kĩ thuật số ta khơng thể có sóng sine mà người ta sử dụng những "nhịp đập" cao thấp khác nhau 1 cách liên tục để diễn tả gần đúng nhất hình dạng sóng sine"). Đây là những tín hiệu âm thanh gốc và hồn tồn khơng được nén.

Theo chuẩn PCM, mỗi giây âm thanh được lấy mẫu với tần số lấy mẫu 44.1KHz, và mỗi mẫu được diễn tả bởi 16 bit dữ liệu. Có nghĩa là trong 1 phút nhạc/âm thanh ta có:

44100 đợt lấy mẫu x 2 kênh trái phải x 2 bytes (16 bit = 2 bytes)x 60 giây= 10.584.000 bytes= 10.1 Mb

Như ta đã biết, 1 CD thường có dung lượng là 750Mb, hoặc lưu được 74 phút nhạc, vì thế nếu bạn nhân con số 10Mb của mỗi phút nhạc cho 74 bạn sẽ thấy rõ tại sao CD nó lại như vậy. Như vậy tóm lại, 1 giây của âm thanh gốc sẽ có bit rate là 1411kbps.

2.4.2.4. Lossless và các định dng Lossless

2.4.2.4.1. Lossless Compression (Nén không mt d liu)

Trong công việc hàng ngày với máy tính, hẳn khơng ít lần bạn đã nén 1 file tài liệu gửi cho đồng nghiệp. Có thể bạn đã sử dụng Zip hoặc Rar làm định dạng nén.

File tài liệu được bạn nén sau khi qua Zip hoặc Rar sẽ trở nên nhỏ hơn rất nhiều nhưng khi người nhận nhận được file, họ sẽ giải nén và có được file tài liệu gốc mà bạn đã tạo. Vậy Zip và Rar đã làm gì? Nói đơn giản, đó là những thuật tốn nhằm tìm ra những quy luật lặp của dữ liệu từ đó tìm 1 cách hiển thị khác tối ưu hơn, tốn ít dữ liệu hơn. (ví dụ ta có chuỗi: aaaaa bbbbbbb aaa 11111, bạn thấy rằng cách diễn giải tốt hơn nhiều mà tốn ít chữ hơn là ax5 bx7 ax3 1x5). Như vậy khi người nhận nhận file và giải nén, Zip và Rar đóng nhiệm vụ sử dụng những chuỗi dữ liệu nén đấy tập hợp và tạo lại file gốc ban đầu.

Đó cũng là mục đích của định dạng âm thanh nén không mất dữ liệu (lossess). Với cấu trúc trên của zip hoặc rar thì bạn có thể thấy rõ rằng đầu vào lossless audio, nó lấy đầu vào là âm thanh gốc của CD, cố gắng tìm ra những quy luật âm thanh và nén nó lại. Việc nén lại này là khơng cao vì dữ liệu âm thanh rất đa dạng và sử dụng nhiều dữ liệu. Hiện tại mức độ nén cao nhất có thể của kĩ thuật nén khơng mất dữ liệu là bằng khoảng 1/3 dung lượng gốc của âm thanh gốc, thường sẽ là 1/2. Do đó mỗi album lossless sẽ có dung lượng khoảng 200 đến 300 Mb. Khi giải nén hoặc khi nghe lossless điều chắc chắn ta đạt được đó chính là tín hiệu gốc của âm thanh CD (44.1 Khz, 16 bit, 1411 Kbps). Điều này là cứu nhân cho mọi người yêu âm nhạc ln địi hỏi âm thanh trung thực nhưng khơng có điều kiện có CD gốc hoặc muốn sử dụng máy tính làm nơi lưu trữ albums.

2.4.2.4.2. Các định dng Lossless: FLAC, ALAC, APE

 FLAC (Free lossless audio codec):Là một định dạng khá được ưa chuộng hiện nay và cũng có khá nhiều máy nghe nhạc hỗ trợ định dạng này, việc

giải mã flac khơng phụ thuộc vào q trình mã hóa, tức là mã hóa chậm nhưng giải mã vẫn khá nhanh, flac hiện nay có 9 level chia theo mức độ từ 0-8, và bitrate giao động trong khoảng 600÷1100kbps, ở level càng cao thì thời gian mã hóa càng lâu đểdung lượng giảm xuống.

 APE (Monkey's audio): Đây cũng là một định dạng lossless thông dụng, tuy nhiên nó chưa phổ biến trên các máy mp3 bằng flac vì một chip âm thanh giải mã mp3 là hiển nhiên và việc giải mã flac không phức tạp hơn mp3 bao nhiêu, vì thế chẳng ngại gì mà các nhà sản xuất không hộ trợ flac vào chip âm thanh, với APE thì khó hơn, hiện nay có các máy cowon và sansa có hỗ trợđịnh dạng APE.

 ALAC còn gọi là M4A (Apple lossless audio code):Định dạng này được sáng lập bởi apple, dành riêng cho các thiết bị của họ, sau này nó trở nên phổ biến hơn khi được sử dụng trên các thiết bị của hãng khác, tuy nhiên vẫn không phổ biến như flac hay Ape.

2.4.2.5. Lossy và các định dng Lossy

2.4.2.5.1. Lossy compression (Nén mt d liu)

Với sự phát triển của PC và internet, nhu cầu chia sẻ thông tin và nhạc càng ngày càng được địi hỏi cao. Nhưng người ta khơng thể nào gửi cả album nhạc đến 700Mb qua internet với tốc độ èo uột 56kps thời đấy được. Do đó các nhóm nghiên cứu, các tổ chức, và nhiều công ty khác nhau đã cố gắng tìm ra những định dạng âm thanh mới sử dụng những thuật toán riêng để nhằm giảm bớt dung lượng dữ liệu cần đề diễn tả âm thanh gốc cùng lúc đó cố gắng giữ cho âm thanh gần với âm thanh gốc nhất.

Có rất nhiều định dạng khác nhau đã ra đời như: mp3, wma, aac, ogg, mpc, atrac... Chúng hoạt động gần giống nhau nhưng mỗi định dạng có 1 thuật tốn khác nhau để xác định xem giữ lại mẫu âm thanh nào, bỏ mẫu âm thanh nào, hoặc điều chỉnh mẫu âm thanh thế nào. Thế thì tại sao lại có thể bỏ, hoặc giữ? Vì theo lí thuyết tai con người sẽ rất khó nhận ra sự hiện diện của 1 tần số âm thanh nhất định nào đó (có thể là quá 20Khz). Việc bỏ đi 1 phần dữ liệu âm

thanh này giúp cho các định dạng âm thanh mất dự liệu như Mp3 có thể giảm dữ liệu cần thiết để diễn tả 1 lần lấy mẫu (sẽ ít hơn rất nhiều so với 16bit cho 44100 lần 1 giây như của âm thanh gốc).

Ngoài ra các định dạng âm thanh này còn tạo ra những âm thanh giả nhằm đắp vào những phần nó đã loại bỏ, điều này là thực sự không thể chấp nhận được, nó tạo ra những âm thanh ta hay gọi là "éo éo" hoặc vang hoặc méo hẳn so với âm chuẩn, đối với những file được nén với bitrate càng thấp thì hiện tượng này xảy ra càng nhiều (ví dụ điển hình nhất: bạn hãy nghe thử 1 đoạn khán giả vỗ tay của 1 file mp3 và 1 track trong CD gốc hoặc 1 file nén không mất dữ liệu (lossless) sẽ ngay lập tức nhận ra. Vì sao tiếng vỗ tay lại gây ra nhiều vấn đềnhư vậy? Bởi vì tiếng vỗ tay là 1 âm thanh hỗn hợp ngẫu nhiên, nếu trong âm thanh chuẩn gốc nó sẽ được diễn ta đầy đủ, thế nhưng với âm thanh nén, định dạng nén buộc phải "ép" bit rate của mình vào khoảng cho phép do đó nó tạo ra những âm thanh vỗtay đều đều nhau rất ít sự khác biệt hoặc bị hiệu ứng vang).

Chúng ta thường thấy rằng Mp3 hay được nén với bitrate là 128, hoặc 192, hoặc 320 kilobit 1 giây (kbps). Bạn có thể nhận thấy rằng nó chỉ bằng 1/10 so với biterate của WAV (1411kbps) đó là lí do tại sao 1 phút nhạc mp3 128kbps chỉ tốn khoảng 1Mb.

Chính xác là trong 1 số trường hợp nhất định, hoặc 1 dạng âm thanh/nhạc nào đó, sẽ rất khó phân biệt sự khác nhau giữa âm thanh gốc và Mp3. Bên cạnh đó các thuật tốn nén của các định nhạc mất dữ liệu đã được cải thiện rất nhiều. Thế nhưng khơng có gì hồn hảo, và chắc chắn cái gì đã mất đi thì sẽ làm cho nó hỏng đi, đặc biệt là âm thanh. Đối với những album nhạc như vocal, nhạc cụ, hay đặc biệt là nhạc cổđiển thì đây là một tai họa, vì với những album nhạc này, thường những nhạc cụ được sử dụng hoặc giọng hát có tần số âm thanh rất cao hay rất trầm do đó rất nhiều dự liệu đã bị loại bỏ hoặc điều chỉnh khác đi so với thực tế.

Do vậy với định dạng Mp3- âm thanh nén, nhiều người cho rằng chỉ thích hợp với nhạc Pop hoặc các dạng nhạc bình thường khác.

2.4.2.5.2 Các định dng Lossy: MP3 MPEG 1 Audio Layer 3, Vorbris, AAC, WMA

 MP3 – MPEG 1 Audio Layer 3: là định dạng âm thanh “dễ mất dữ liệu” phổ biến nhất hiện nay. Cho dù vấn đề về bằng sáng chế đối với sản phầm này vẫn còn chưa được giải quyết.

 Vorbris - Một loại định dạng “dễ mất dữ liệu” miễn phí với mã nguồn mở. Thường được sử dụng cho các game PC như Unreal Tournament 3.

 AAC – Advanced Audio Coding: một loại định dạng chuẩn hiện nay được sử dụng cho loại video MPEG 4. Nó được rất nhiều người ưa chuộng nhờ khả năng tương thích với các hệ thống quản lý quyền sử dụng kĩ thuật số (Digital rights management – DRM) chẳng hạn như phần mềm Fairplay của Apple. Sự vượt trội so với định dạng MP3, và đặc biệt là người ta có thể chia sẻ những nội dung trong định dạng này một cách thoải mái mà không cần thủ tục nào cả.

 WMA - Windows Media Audio: định dạng âm thanh “dễ mất dữ liệu” của Microsoft. Định dạng này đầu tiên được phát triển và sử dụng nhằm tránh những vấn đề giấy phép cho các sản phẩm sử dụng định dạng MP3. Tuy nhiên, nhờ những cải tiến liên tục cùng khả năng tương thích với các hệ thống kiểm duyệt quyền quản lý kĩ thuật số (DRM), WMA vẫn rất phổ biến cho đến khi iTunes trở lên phổ biến trong thế giới nhạc DRM.

Kết luận chương

Chương 2 cho ta cái nhìn tổng quan về mạng cũng như các giao thức liên quan khi truyền âm thanh qua mạng. Nó cũng cho ta biết được phương thức lấy mẫu âm thanh và một số định dạng âm thanh cơ bản. Nó là những kiến thức cơ bản để ta xây dựng hệ thống truyền âm thanh qua mạng.

CHƯƠNG 3

TNG QUAN BOARD NHÚNG RASPBERRY PI 3 Model B+ 3.1. Gii thiu v máy tính nhúng Raspberry Pi 3 Model B+

Raspberry Pi là cái máy tính nhúng kích cỡ như iPhone và chạy HĐH Linux. Với mục tiêu chính của chương trình là giảng dạy máy tính cho trẻ em. Được phát triển bởi Raspberry Pi Foundation – là tổ chức phi lợi nhuận với tiêu chí xây dựng hệ thống mà nhiều người có thể sử dụng được trong những cơng việc tùy biến khác nhau.

Hình 3.1: Bo mạch Raspberry Pi

Raspberry Pi sản xuất bởi 3 OEM: Sony, Qsida, Egoman. Và được phân phối chính bởi Element14, RS Components và Egoman.

Nhiệm vụ ban đầu của dự án Raspberry Pi là tạo ra máy tính rẻ tiền có khả năng lập trình cho những sinh viên, nhưng Pi đã được sự quan tâm từ nhiều đối tượng khác nhau. Đặc tính của board Raspberry Pi xây dựng xoay quanh bộ xử lí SoC Broadcom BCM2837B0 (là chip xử lí mobile mạnh mẽ có kích thước nhỏ

hay được dùng trong điện thoại di động ) bao gồm CPU, GPU, bộ xử lí âm thanh /video, và các tính năng khác … tất cả được tích hợp bên trong chip có điện năng thấp này..

Raspberry Pi khơng thay thế hồn toàn hệ thống để bàn hoặc máy xách tay. Bạn khơng thể chạy Windows trên đó vì BCM2837B0 dựa trên cấu trúc ARM nên không hỗ trợ mã x86/x64, nhưng vẫn có thể chạy bằng Linux với các tiện ích như lướt web, mơi trường Desktop và các nhiệm vụ khác. Tuy nhiên Raspberry Pi là một thiết bị đa năng đáng ngạc nhiên với nhiều phần cứng có giá thành rẻ nhưng rất hồn hảo cho những hệ thống điện tử, những dự án DIY, thiết lập hệ thống tính tốn rẻ tiền cho những bài học trải nghiệm lập trình …

Một phần của tài liệu Đồ án truyền âm thanh qua mạng 4g sd mã nguồn mở board nhúng raspberry (Trang 27 - 34)

Tải bản đầy đủ (PDF)

(83 trang)