Trong bài báo cáo này, chúng tôi sẽ đi sâu vào việc nghiên cứu về âm thanh, từ việc hiểu rõ hơn về nó và cách nó được biểu diễn số hóa, đến việc khám phá các phương pháp xác định và so s
Trang 1ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN
KHOA CÔNG NGHỆ PHẦN MỀM
BÁO CÁO ĐỒ ÁN Môn học: Đồ án 1 – SE121.O11.PMCL
ĐỀ TÀI: TÌM HIỂU CÁC PHƯƠNG PHÁP XÁC ĐỊNH
VÀ SO SÁNH ÂM THANH
GIẢNG VIÊN HƯỚNG DẪN
ThS HUỲNH HỒ THỊ MỘNG TRINH
SINH VIÊN THỰC HIỆN
HUỲNH PHƯỚC TÀI – 21521392 NGUYỄN THIỆN – 21521461
Trang 2LỜI MỞ ĐẦU
Âm thanh, một phần không thể thiếu của cuộc sống hàng ngày, mang đến cho chúng ta một nguồn thông tin quan trọng về thế giới xung quanh Từ tiếng chim hót trong rừng, tiếng sóng biển vỗ vào bờ, đến những giai điệu âm nhạc hay giọng nói của một người bạn, mỗi âm thanh đều mang một thông điệp riêng
Trong thế giới số hóa ngày nay, việc xác định và so sánh âm thanh đã trở thành một lĩnh vực nghiên cứu quan trọng Xác định âm thanh đề cập đến việc nhận biết một âm thanh cụ thể dựa trên các đặc điểm riêng biệt của nó Ví dụ, hệ thống xác định giọng nói có thể xác định một người dựa trên giọng nói độc đáo của họ Trong khi đó, so sánh âm thanh liên quan đến việc đánh giá mức độ tương tự hoặc khác biệt giữa hai hoặc nhiều âm thanh
Cả hai khía cạnh này đều có nhiều ứng dụng trong Công nghệ Thông tin, từ xác định giọng nói trong các hệ thống trợ lý ảo, đến phân loại âm nhạc trong các dịch
vụ phát nhạc trực tuyến, và thậm chí là xác định âm thanh môi trường trong các hệ thống IoT Sự tiến bộ trong lĩnh vực này đã mở ra nhiều khả năng mới trong việc tạo ra, chia sẻ và tận hưởng thông tin
Trong bài báo cáo này, chúng tôi sẽ đi sâu vào việc nghiên cứu về âm thanh, từ việc hiểu rõ hơn về nó và cách nó được biểu diễn số hóa, đến việc khám phá các phương pháp xác định và so sánh âm thanh Chúng tôi hy vọng rằng bài báo cáo này sẽ cung cấp cho bạn một cái nhìn sâu sắc về lĩnh vực nghiên cứu này và khám phá tiềm năng của nó
Trang 3LỜI CẢM ƠN
Trước hết, em xin gửi lời cảm ơn chân thành và sâu sắc nhất đến cô Huỳnh Hồ Thị Mộng Trinh, người đã không chỉ là một giảng viên hướng dẫn, mà còn là nguồn động lực và sự khích lệ lớn lao cho em trong suốt quá trình thực hiện đồ án này Những kiến thức, kỹ năng và tư duy mà cô đã truyền đạt không chỉ giúp em hoàn thành tốt đồ án này, mà còn sẽ là hành trang quý giá cho em trong tương lai
Em cũng xin gửi lời cảm ơn đến Khoa Công nghệ phần mềm, Trường Đại học Công nghệ Thông tin - ĐHQGHCM, nơi đã tạo ra một môi trường học tập lý tưởng, giúp em có được những kiến thức chuyên môn sâu rộng và những kỹ năng thực tế quan trọng
Cuối cùng, em xin cảm ơn tất cả những người đã giúp đỡ và hỗ trợ em trong quá trình thực hiện đồ án với đề tài ‘Tìm hiểu các phương pháp xác định và so sánh âm’ Những kiến thức và kỹ năng mà em đã học được từ việc thực hiện đồ án này chắc chắn sẽ là hành trang quý giá cho em trên con đường học tập và phát triển sự nghiệp sau này
Xin chân thành cảm ơn!
Trang 4NHẬN XÉT
Trang 5MỤC LỤC
Trang 6I GIỚI THIỆU
Trong bài báo cáo này, chúng tôi sẽ đi sâu vào việc nghiên cứu về âm thanh, từ việc hiểu rõ hơn về nó và cách nó được biểu diễn số hóa, đến việc khám phá các phương pháp xác định và so sánh âm thanh
Âm thanh có thể được định nghĩa là những dao động trong môi trường truyền âm, như không khí, tạo ra những sóng âm mà tai của chúng ta có thể nghe được Trong thế giới
số hóa, âm thanh được biểu diễn dưới dạng dữ liệu số hóa thông qua quá trình lấy mẫu
và lượng tử hóa Chúng tôi sẽ thảo luận về sự khác biệt giữa âm thanh tương tự và số hóa, cũng như quá trình chuyển đổi âm thanh tương tự thành định dạng số hóa Ví dụ, khi bạn nghe một bản nhạc trên chiếc điện thoại thông minh của mình, bạn đang nghe
âm thanh số hóa được chuyển đổi từ âm thanh tương tự gốc
Chúng tôi cũng sẽ thảo luận về các phương pháp xác định âm thanh Điều này bao gồm việc sử dụng học máy để xác định, phân biệt giọng nói và âm nhạc nền, và ảnh hưởng của các phương pháp ghi âm đối với việc xác định âm thanh Ví dụ, một hệ thống xác định giọng nói có thể được huấn luyện để nhận biết giọng nói của một người cụ thể, trong khi một hệ thống phân loại âm nhạc có thể phân biệt giữa các thể loại âm nhạc khác nhau dựa trên các đặc điểm âm thanh
Ngoài ra, chúng tôi sẽ khám phá các phương pháp so sánh âm thanh, từ việc so sánh dựa trên biểu đồ hoặc dữ liệu số, đến việc so sánh âm thanh trong miền tương tự và số hóa Chúng tôi cũng sẽ thảo luận về độ chính xác của việc so sánh âm thanh trong các tình huống khác nhau Ví dụ, một hệ thống có thể so sánh hai đoạn âm nhạc để xác định mức độ tương tự của chúng, hoặc so sánh giọng nói của một người với một cơ sở
dữ liệu giọng nói để xác định danh tính của họ
Các ứng dụng thực tế của việc xác định và so sánh âm thanh rất đa dạng Các trợ lý ảo như Siri, Alexa, và Google Assistant đều sử dụng công nghệ xác định âm thanh để nhận biết lệnh giọng nói của người dùng Các dịch vụ như Spotify và Apple Music sử dụng công nghệ so sánh âm thanh để phân loại âm nhạc và tạo ra danh sách phát cá nhân hóa cho người dùng Trong lĩnh vực an ninh, công nghệ xác định âm thanh có thể được sử dụng để phát hiện các hoạt động bất thường, như tiếng kính vỡ Trong y tế, công nghệ xác định âm thanh có thể được sử dụng để phân tích âm thanh hô hấp và tim mạch, giúp phát hiện sớm các bệnh lý Các xe tự lái sử dụng công nghệ xác định âm thanh để nghe và phân biệt các âm thanh từ môi trường xung quanh, như tiếng còi xe, tiếng người đi bộ, và tiếng động cơ của các xe khác
Cuối cùng, chúng tôi sẽ trình bày về cách thức triển khai và kiểm tra các phương pháp này, cũng như kết quả thu được Chúng tôi hy vọng rằng bài báo cáo này sẽ cung cấp
Trang 7cho bạn một cái nhìn sâu sắc về lĩnh vực nghiên cứu này và khám phá tiềm năng của
nó Chúng tôi tin rằng việc hiểu rõ hơn về âm thanh và cách nó được xử lý trong thế giới số hóa sẽ mở ra nhiều cơ hội mới trong việc tạo ra, chia sẻ và tận hưởng thông tin
II HIỂU VỀ ÂM THANH
1 Định nghĩa âm thanh và cách thể hiện âm thanh trong dạng số
1.1 Định nghĩa
Âm thanh là hiện tượng vật lý phát sinh từ sự rung động của các phần tử trong môi trường, tạo ra sóng âm lan truyền trong không gian Sóng âm có thể lan truyền qua nhiều môi trường khác nhau như không khí, nước, và vật rắn Khi sóng âm đến tai của chúng ta, nó làm rung động các cấu trúc trong tai và được não bộ giải mã thành âm thanh mà chúng ta nghe được
Trong ngữ cảnh âm nhạc, âm thanh được tạo ra từ sự rung động của các dây đàn, cơ thể người (như giọng hát), hoặc các thiết bị điện tử Mỗi loại âm thanh tạo ra một “màu sắc” âm thanh riêng, tạo nên sự đa dạng trong âm nhạc
Sóng âm có hai đặc tính chính là tần số và biên độ Tần số (được đo bằng Hertz) xác định độ cao hoặc thấp của âm thanh, trong khi biên độ liên quan đến cường độ hoặc độ lớn của âm thanh Trong âm nhạc, tần số tương ứng với độ cao của nốt nhạc, và biên độ tương ứng với độ lớn của âm thanh
• Phương pháp dấu lượng (sign-and-magnitude): Bit cực trái được dùng làm bit dấu (sign bit) – tức đại diện cho dấu của số Nếu bit dấu là 1 thì số là số âm (1 tương đương với dấu “-”), ngược lại, nếu nó là 0 thì
số là số dương (0 tương đương với dấu “+”)1 Các bit còn lại được dùng để biểu diễn độ lớn của số (hay giá trị tuyệt đối – absolute value – của số)
• Phương pháp bù 1: Biểu diễn số âm bằng cách đảo tất cả các bit của
số nhị phân dương (tính bit dấu) để biểu diễn số âm tương ứng1
Dữ liệu tín hiệu âm thanh (Audio Signal Data): Khi âm thanh được lưu trong một tệp, nó sẽ ở định dạng nén Khi tệp được tải, nó sẽ được giải nén và chuyển đổi thành một mảng Numpy2 Mỗi phần tử trong mảng này đại diện cho
Trang 8biên độ của sóng âm thanh ở 1/sample_rate khoảng thời gian của giây2 Ví dụ với file âm thanh ở trên dài 278.521s với sample rate là 16000hz thì số lượng samples của file sẽ là 278.52 * 16000=44563362
2 Âm thanh analog và âm thanh số
2.1 Điểm khác biệt
a) Âm thanh Analog
Âm thanh analog là một loại tín hiệu âm thanh có thể truyền đi xa, ở nhiều dạng hình thức khác nhau, có cả dạng con người nghe được và không nghe được Từ analog trong tiếng anh có nghĩa là liên tục nhưng trong âm thanh
có nghĩa là âm thanh lúc sau sẽ tương tự âm thanh lúc trước nhưng chỉ giống về tần số chứ cường độ, độ lớn của tín hiệu thì có sự thay đổi
Âm thanh analog hiện nay được chia thành hai loại chính, sự phân loại này dựa trên đặc điểm nhận biết âm thanh và các dạng sóng của con người: Tín hiệu âm thanh analog trực tiếp: dạng này con người có thể trực tiếp nghe và
sử dụng được luôn Nó chính là dạng sóng và giao động không khí mà chúng ta
đã nói phía trên Đây là dạng cuối cùng mà chúng ta sử dụng để cảm nhận tất cả các âm thanh hiện nay
Tín hiệu âm thanh analog gián tiếp: là dạng mà con người không thể nghe và cảm nhận được trực tiếp nhưng sau khi qua các thiết bị chuyển đổi thì
có thể nghe được dạng này là những dạng sóng có thể truyền đi xa và rất xa, Ví
dụ như sóng vô tuyến, dòng điện… Nó không bị giới hạn nhiều bởi khoảng cách như dạng trực tiếp nhưng nó vẫn bị tác động trong quá trình truyền tải
Những đặc điểm của âm thanh analog bao gồm:
• Độ chân thực và truyền cảm cao tới con người cũng như các loài động vật
• Là dạng tín hiệu âm thanh cơ bản và luôn trường tồn từ trước khi con người biết tới nó cho đến khi con người phát triển nó
• Có tính tương tự và liên tục, bị ảnh hưởng nhiều bởi yếu tố môi trường và khoảng cách
• Có thể nghe trực tiếp, truyền đi xa hoặc lưu trữ lâu dài
• Luôn tồn tại dưới dạng động chứ không tồn tại dưới dạng tĩnh Về bản chất, chỉ khi tín hiệu âm thanh được truyền tải dưới dạng sóng thì mới được xem là dạng âm thanh analog, hoặc các dạng lưu trữ trước đây như trên đĩa than Vinyl, băng từ cassette… tới phim nhựa quang học
b) Âm thanh Kỹ thuật số
Khi nói về thiết bị hay bất cứ thứ gì liên quan đến kỹ thuật số bạn có thể nhớ ngay tới những dãy nhị phân Đó cũng chính là nền tảng của âm thanh digital hay người ta còn gọi là âm thanh kỹ thuật số Âm thanh digital là tín hiệu
Trang 9âm thanh được chuyển đổi, truyền tải và lưu trữ dưới dạng mã hóa bởi các dãy nhị phân, đơn vị đo là bit, Từ các giao động sóng âm thực tế, qua các công cụ chuyển đổi ban đầu như micro, máy ghi âm… sẽ được chuyển đổi thành các dãy nhị phân tương đường để truyền tải hoặc lưu trữ lại
Những đặc điểm riêng biệt mà âm thanh digital có đó là:
• Lưu trữ bằng dữ liệu mã hóa nên sẽ không bị biến đổi và tác động bởi môi trường hay khoảng cách
• Con người không thể hiểu hay nghe trực tiếp tín hiệu âm thanh digital
• Truyền đạt hay lưu trữ được nhiều hơn trên một đường dây
• Có thể phát triển hơn nữa ở tương lai
c) Ưu và nhược điểm
- Chi phí tạo ra các thiết bị sử dụng tín hiệu âm thanh analog thấp
- Dễ bị nhiều hay bị kém tín hiệu khi truyền đi xa hay sao chép qua nhiều thiết bị
- Bị giới hạn bởi khoảng cách Không thể truyền đi quá xa
- Có thể lần khá nhiều tạp âm
- Lượng tín hiệu lưu trữ không được nhiều trên môi thiết bị, cồng kềnh, tốn diện tích
- Không bị giới hạn bởi khoảng cách, chỉ cần có đường truyền, bạn
có thể gửi đi xa nửa vòng trái đất
mà âm thanh vẫn chuẩn
- Có thể truyền tải được nhiều đường âm thanh trên một đơn vị
- Có độ trẻ âm thanh cao vì nó không thể dùng trực tiếp như sóng
âm mà nó còn phải mã hóa tại tiết bị đầu vào, sau đó lại phải giải mã tại thiết bị đầu ra, nên sẽ tạo ra độ trẻ nhất định
- Chi phí chế tạo sản xuất thiết bị đất đó dẫn đến giá thành cao
- Không thể nghe hiểu một cách trực tiếp
- Yêu cầu các thiết bị hiện đại
- Dễ bị sao chép và đánh cấp hơn
- Chất lượng bị ảnh hưởng nhiều
Trang 10thời gian
- Quá trình trao đổi gọn nhẹ và nhanh chóng
bởi tốc độ đường truyền tín hiệu
Bảng 1 Ưu và nhược điểm của âm thanh Analog và Âm thanh số
2.2 Chuyển đổi âm thanh analog sang định dạng số
3 Sự khác biệt giữa âm thanh trong định dạng video và định dạng chỉ có
Đa Dạng Định dạng: Có nhiều định dạng video khác nhau, mỗi định dạng có cách xử lý và lưu trữ âm thanh riêng Điều này bao gồm cả codec âm thanh và video
Xử lý Phức tạp: Việc xử lý âm thanh trong video thường phức tạp hơn do cần phải tính đến các yếu tố như đồng bộ hóa, hiệu ứng âm thanh,
và cân nhắc về mặt nghệ thuật để hỗ trợ hình ảnh
b) Âm thanh trong định dạng video thường được đồng bộ hóa với dữ liệu hình ảnh:
• Đồng Bộ Hóa Âm Thanh và Hình Ảnh
Tính Chất Đồng Thời: Âm thanh và hình ảnh cần phải được ghi và phát lại một cách đồng thời Điều này đặc biệt quan trọng trong cảnh quay có lời nói, nơi mà tiếng nói cần phải khớp với chuyển động môi của nhân vật
Sử Dụng Timecode và Clapboard: Để đảm bảo sự đồng bộ, các nhà sản xuất thường sử dụng timecode và clapboard trong quá trình quay phim Điều này giúp chỉnh sửa sau này dễ dàng hơn trong việc ghép nối âm thanh với hình ảnh
• Chất Lượng và Xử Lý Âm Thanh
Xử Lý Âm Thanh Đa Dạng: Trong video, âm thanh có thể bao gồm lời nói, âm nhạc nền, và hiệu ứng âm thanh Mỗi loại đều cần được xử lý một cách cẩn thận để đảm bảo rằng chúng hỗ trợ
và tăng cường chất lượng hình ảnh
Kỹ Thuật Âm Thanh Phức Tạp: Các kỹ thuật như lồng tiếng, chỉnh sửa âm thanh, và cân bằng âm lượng là quan trọng để đạt được một dòng âm thanh chất lượng trong video
• Tính Tương Thích và Định Dạng
Trang 11Định Dạng Video Đa Dạng: Có nhiều định dạng video, mỗi loại hỗ trợ các loại codec âm thanh khác nhau Sự lựa chọn codec phụ thuộc vào nhu cầu về chất lượng và kích thước tệp
Tích Hợp Âm Thanh và Hình Ảnh: Trong video, âm thanh không tồn tại độc lập mà là một phần không thể tách rời của dữ liệu video, yêu cầu tính tương thích cao giữa âm thanh và hình ảnh
lý, nhất là trong môi trường phát trực tuyến hoặc lưu trữ hạn chế
3.2 Âm thanh trong Định dạng Chỉ Có Âm thanh
Xử lý Đơn giản hơn: Xử lý âm thanh trong định dạng này thường đơn giản hơn so với trong video Các thao tác chủ yếu bao gồm cắt, ghép,
và điều chỉnh chất lượng âm thanh
• Mục Đích và Tính Chất
Chuyên Biệt về Âm Thanh: Các định dạng này được tối ưu hóa để lưu trữ, truyền tải, và tái tạo âm thanh, từ âm nhạc đến lời nói
Không Bao Gồm Dữ Liệu Khác: Khác với định dạng video, chúng không tích hợp dữ liệu hình ảnh, văn bản, hoặc dữ liệu không gian (như 3D)
• Cách Thức Lưu Trữ và Mã Hóa
Mã Hóa Dữ Liệu Âm Thanh: Dựa trên quá trình chuyển đổi tín hiệu âm thanh từ dạng analog sang digital, qua đó lưu trữ dưới dạng dữ liệu số
Nén và Không Nén: Một số định dạng sử dụng nén có mất mát (như MP3, AAC) để giảm kích thước tệp, trong khi những định dạng khác như FLAC, WAV giữ lại dữ liệu âm thanh một cách đầy đủ, không nén
Trang 12• Ứng Dụng và Sử Dụng
Nghe Nhạc và Phát Thanh: Rất phổ biến trong việc nghe nhạc, podcast, sách nói, và trong phát thanh
Sản Xuất và Ghi Âm: Các studio và nhà sản xuất âm nhạc
sử dụng các định dạng này để ghi âm và chỉnh sửa âm thanh
• Thách Thức và Tiêu Chuẩn
Chất Lượng và Kích Thước Tệp: Cần cân nhắc giữa chất lượng âm thanh và kích thước tệp, đặc biệt quan trọng trong môi trường có hạn chế về dung lượng lưu trữ và băng thông truyền tải
Tính Tương Thích: Một số định dạng có thể không tương thích với tất cả các thiết bị và phần mềm, yêu cầu người dùng lựa chọn định dạng phù hợp với nhu cầu sử dụng cụ thể của họ
3.3 Định dạng tệp và mã hóa dữ liệu âm thanh
a) Định dạng tệp âm thanh
▪ MP3 (MPEG Audio Layer III):
Mã Hóa: Sử dụng nén có mất mát, loại bỏ thông tin âm thanh mà tai người ít nhận biết được
Ứng Dụng: Rất phổ biến cho âm nhạc di động và trực tuyến
▪ WAV (Waveform Audio File Format):
Mã Hóa: Không nén, lưu trữ dữ liệu âm thanh ở dạng nguyên gốc
Ứng Dụng: Thường được sử dụng trong sản xuất âm nhạc và chỉnh sửa
âm thanh chuyên nghiệp
▪ AAC (Advanced Audio Coding):
Mã Hóa: Nén có mất mát, hiệu quả hơn MP3 ở cùng một bitrate
Ứng Dụng: Rộng rãi trong các thiết bị Apple và phát trực tuyến
▪ FLAC (Free Lossless Audio Codec):
Mã Hóa: Nén không mất mát, giữ lại toàn bộ chất lượng âm thanh gốc Ứng Dụng: Lựa chọn ưa thích cho những người yêu âm nhạc mong muốn chất lượng cao
b) Định dạng tệp Video
▪ MP4 (MPEG-4 Part 14):
Mã Hóa Âm Thanh: Thường kết hợp với AAC
Ứng Dụng: Rất phổ biến cho video trực tuyến, linh hoạt và tương thích rộng rãi
▪ AVI (Audio Video Interleave):
Mã Hóa Âm Thanh: Hỗ trợ nhiều codec âm thanh khác nhau, bao gồm cả không nén
Ứng Dụng: Được sử dụng rộng rãi trong quá khứ, giờ ít phổ biến hơn
▪ MOV (QuickTime File Format):