đồ án 1 tìm hiểu các phương pháp xác định và so sánh âm thanh

25 0 0
Tài liệu đã được kiểm tra trùng lặp
đồ án 1 tìm hiểu các phương pháp xác định và so sánh âm thanh

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Trong bài báo cáo này, chúng tôi sẽ đi sâu vào việc nghiên cứu về âm thanh, từ việc hiểu rõ hơn về nó và cách nó được biểu diễn số hóa, đến việc khám phá các phương pháp xác định và so s

Trang 1

ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN

KHOA CÔNG NGHỆ PHẦN MỀM

BÁO CÁO ĐỒ ÁNMôn học: Đồ án 1 – SE121.O11.PMCL

ĐỀ TÀI: TÌM HIỂU CÁC PHƯƠNG PHÁP XÁC ĐỊNH VÀ SO SÁNH ÂM THANH

GIẢNG VIÊN HƯỚNG DẪN

ThS HUỲNH HỒ THỊ MỘNG TRINH

SINH VIÊN THỰC HIỆN

HUỲNH PHƯỚC TÀI – 21521392 NGUYỄN THIỆN – 21521461

Trang 2

LỜI MỞ ĐẦU

Âm thanh, một phần không thể thiếu của cuộc sống hàng ngày, mang đến cho chúng ta một nguồn thông tin quan trọng về thế giới xung quanh Từ tiếng chim hót trong rừng, tiếng sóng biển vỗ vào bờ, đến những giai điệu âm nhạc hay giọng nói của một người bạn, mỗi âm thanh đều mang một thông điệp riêng

Trong thế giới số hóa ngày nay, việc xác định và so sánh âm thanh đã trở thành một lĩnh vực nghiên cứu quan trọng Xác định âm thanh đề cập đến việc nhận biết một âm thanh cụ thể dựa trên các đặc điểm riêng biệt của nó Ví dụ, hệ thống xác định giọng nói có thể xác định một người dựa trên giọng nói độc đáo của họ Trong khi đó, so sánh âm thanh liên quan đến việc đánh giá mức độ tương tự hoặc khác biệt giữa hai hoặc nhiều âm thanh

Cả hai khía cạnh này đều có nhiều ứng dụng trong Công nghệ Thông tin, từ xác định giọng nói trong các hệ thống trợ lý ảo, đến phân loại âm nhạc trong các dịch vụ phát nhạc trực tuyến, và thậm chí là xác định âm thanh môi trường trong các hệ thống IoT Sự tiến bộ trong lĩnh vực này đã mở ra nhiều khả năng mới trong việc tạo ra, chia sẻ và tận hưởng thông tin

Trong bài báo cáo này, chúng tôi sẽ đi sâu vào việc nghiên cứu về âm thanh, từ việc hiểu rõ hơn về nó và cách nó được biểu diễn số hóa, đến việc khám phá các phương pháp xác định và so sánh âm thanh Chúng tôi hy vọng rằng bài báo cáo này sẽ cung cấp cho bạn một cái nhìn sâu sắc về lĩnh vực nghiên cứu này và khám phá tiềm năng của nó

Trang 3

LỜI CẢM ƠN

Trước hết, em xin gửi lời cảm ơn chân thành và sâu sắc nhất đến cô Huỳnh Hồ Thị Mộng Trinh, người đã không chỉ là một giảng viên hướng dẫn, mà còn là nguồn động lực và sự khích lệ lớn lao cho em trong suốt quá trình thực hiện đồ án này Những kiến thức, kỹ năng và tư duy mà cô đã truyền đạt không chỉ giúp em hoàn thành tốt đồ án này, mà còn sẽ là hành trang quý giá cho em trong tương lai Em cũng xin gửi lời cảm ơn đến Khoa Công nghệ phần mềm, Trường Đại học Công nghệ Thông tin - ĐHQGHCM, nơi đã tạo ra một môi trường học tập lý tưởng, giúp em có được những kiến thức chuyên môn sâu rộng và những kỹ năng thực tế quan trọng

Cuối cùng, em xin cảm ơn tất cả những người đã giúp đỡ và hỗ trợ em trong quá trình thực hiện đồ án với đề tài ‘Tìm hiểu các phương pháp xác định và so sánh âm’ Những kiến thức và kỹ năng mà em đã học được từ việc thực hiện đồ án này chắc chắn sẽ là hành trang quý giá cho em trên con đường học tập và phát triển sự nghiệp sau này

Xin chân thành cảm ơn!

Trang 4

NHẬN XÉT

Trang 5

MỤC LỤC

Trang 6

I GIỚI THIỆU

Trong bài báo cáo này, chúng tôi sẽ đi sâu vào việc nghiên cứu về âm thanh, từ việc hiểu rõ hơn về nó và cách nó được biểu diễn số hóa, đến việc khám phá các phương pháp xác định và so sánh âm thanh

Âm thanh có thể được định nghĩa là những dao động trong môi trường truyền âm, như không khí, tạo ra những sóng âm mà tai của chúng ta có thể nghe được Trong thế giới số hóa, âm thanh được biểu diễn dưới dạng dữ liệu số hóa thông qua quá trình lấy mẫu và lượng tử hóa Chúng tôi sẽ thảo luận về sự khác biệt giữa âm thanh tương tự và số hóa, cũng như quá trình chuyển đổi âm thanh tương tự thành định dạng số hóa Ví dụ, khi bạn nghe một bản nhạc trên chiếc điện thoại thông minh của mình, bạn đang nghe âm thanh số hóa được chuyển đổi từ âm thanh tương tự gốc

Chúng tôi cũng sẽ thảo luận về các phương pháp xác định âm thanh Điều này bao gồm việc sử dụng học máy để xác định, phân biệt giọng nói và âm nhạc nền, và ảnh hưởng của các phương pháp ghi âm đối với việc xác định âm thanh Ví dụ, một hệ thống xác định giọng nói có thể được huấn luyện để nhận biết giọng nói của một người cụ thể, trong khi một hệ thống phân loại âm nhạc có thể phân biệt giữa các thể loại âm nhạc khác nhau dựa trên các đặc điểm âm thanh

Ngoài ra, chúng tôi sẽ khám phá các phương pháp so sánh âm thanh, từ việc so sánh dựa trên biểu đồ hoặc dữ liệu số, đến việc so sánh âm thanh trong miền tương tự và số hóa Chúng tôi cũng sẽ thảo luận về độ chính xác của việc so sánh âm thanh trong các tình huống khác nhau Ví dụ, một hệ thống có thể so sánh hai đoạn âm nhạc để xác định mức độ tương tự của chúng, hoặc so sánh giọng nói của một người với một cơ sở dữ liệu giọng nói để xác định danh tính của họ

Các ứng dụng thực tế của việc xác định và so sánh âm thanh rất đa dạng Các trợ lý ảo như Siri, Alexa, và Google Assistant đều sử dụng công nghệ xác định âm thanh để nhận biết lệnh giọng nói của người dùng Các dịch vụ như Spotify và Apple Music sử dụng công nghệ so sánh âm thanh để phân loại âm nhạc và tạo ra danh sách phát cá nhân hóa cho người dùng Trong lĩnh vực an ninh, công nghệ xác định âm thanh có thể được sử dụng để phát hiện các hoạt động bất thường, như tiếng kính vỡ Trong y tế, công nghệ xác định âm thanh có thể được sử dụng để phân tích âm thanh hô hấp và tim mạch, giúp phát hiện sớm các bệnh lý Các xe tự lái sử dụng công nghệ xác định âm thanh để nghe và phân biệt các âm thanh từ môi trường xung quanh, như tiếng còi xe, tiếng người đi bộ, và tiếng động cơ của các xe khác

Cuối cùng, chúng tôi sẽ trình bày về cách thức triển khai và kiểm tra các phương pháp này, cũng như kết quả thu được Chúng tôi hy vọng rằng bài báo cáo này sẽ cung cấp

Trang 7

cho bạn một cái nhìn sâu sắc về lĩnh vực nghiên cứu này và khám phá tiềm năng của nó Chúng tôi tin rằng việc hiểu rõ hơn về âm thanh và cách nó được xử lý trong thế giới số hóa sẽ mở ra nhiều cơ hội mới trong việc tạo ra, chia sẻ và tận hưởng thông tin

II HIỂU VỀ ÂM THANH

1 Định nghĩa âm thanh và cách thể hiện âm thanh trong dạng số

1.1 Định nghĩa

Âm thanh là hiện tượng vật lý phát sinh từ sự rung động của các phần tử trong môi trường, tạo ra sóng âm lan truyền trong không gian Sóng âm có thể lan truyền qua nhiều môi trường khác nhau như không khí, nước, và vật rắn Khi sóng âm đến tai của chúng ta, nó làm rung động các cấu trúc trong tai và được não bộ giải mã thành âm thanh mà chúng ta nghe được

Trong ngữ cảnh âm nhạc, âm thanh được tạo ra từ sự rung động của các dây đàn, cơ thể người (như giọng hát), hoặc các thiết bị điện tử Mỗi loại âm thanh tạo ra một “màu sắc” âm thanh riêng, tạo nên sự đa dạng trong âm nhạc

Sóng âm có hai đặc tính chính là tần số và biên độ Tần số (được đo bằng Hertz) xác định độ cao hoặc thấp của âm thanh, trong khi biên độ liên quan đến cường độ hoặc độ lớn của âm thanh Trong âm nhạc, tần số tương ứng với độ cao của nốt nhạc, và biên độ tương ứng với độ lớn của âm thanh

1.2 Biểu diễn

Biểu diễn số âm: Trong máy tính, mọi ký hiệu, con số,… đều được biểu diễn dưới hệ nhị phân thông qua hai chữ số 0 và 1 Có nhiều cách được sử dụng để biểu diễn số âm trong máy tính Bài này chỉ giới thiệu bốn phương pháp chủ yếu nhất, đó là: phương pháp dấu lượng (sign-and-magnitude), bù 1, bù 2 và số quá N (excess-N)

• Phương pháp dấu lượng (sign-and-magnitude): Bit cực trái được dùng làm bit dấu (sign bit) – tức đại diện cho dấu của số Nếu bit dấu là 1 thì số là số âm (1 tương đương với dấu “-”), ngược lại, nếu nó là 0 thì số là số dương (0 tương đương với dấu “+”)1 Các bit còn lại được dùng để biểu diễn độ lớn của số (hay giá trị tuyệt đối – absolute value – của số)

• Phương pháp bù 1: Biểu diễn số âm bằng cách đảo tất cả các bit của số nhị phân dương (tính bit dấu) để biểu diễn số âm tương ứng1 Dữ liệu tín hiệu âm thanh (Audio Signal Data): Khi âm thanh được lưu trong một tệp, nó sẽ ở định dạng nén Khi tệp được tải, nó sẽ được giải nén và chuyển đổi thành một mảng Numpy2 Mỗi phần tử trong mảng này đại diện cho

Trang 8

biên độ của sóng âm thanh ở 1/sample_rate khoảng thời gian của giây2 Ví dụ với file âm thanh ở trên dài 278.521s với sample rate là 16000hz thì số lượng samples của file sẽ là 278.52 * 16000=44563362

2 Âm thanh analog và âm thanh số

2.1 Điểm khác biệt

a) Âm thanh Analog

Âm thanh analog là một loại tín hiệu âm thanh có thể truyền đi xa, ở nhiều dạng hình thức khác nhau, có cả dạng con người nghe được và không nghe được Từ analog trong tiếng anh có nghĩa là liên tục nhưng trong âm thanh có nghĩa là âm thanh lúc sau sẽ tương tự âm thanh lúc trước nhưng chỉ giống về tần số chứ cường độ, độ lớn của tín hiệu thì có sự thay đổi

Âm thanh analog hiện nay được chia thành hai loại chính, sự phân loại này dựa trên đặc điểm nhận biết âm thanh và các dạng sóng của con người: Tín hiệu âm thanh analog trực tiếp: dạng này con người có thể trực tiếp nghe và sử dụng được luôn Nó chính là dạng sóng và giao động không khí mà chúng ta đã nói phía trên Đây là dạng cuối cùng mà chúng ta sử dụng để cảm nhận tất cả các âm thanh hiện nay

Tín hiệu âm thanh analog gián tiếp: là dạng mà con người không thể nghe và cảm nhận được trực tiếp nhưng sau khi qua các thiết bị chuyển đổi thì có thể nghe được dạng này là những dạng sóng có thể truyền đi xa và rất xa, Ví dụ như sóng vô tuyến, dòng điện… Nó không bị giới hạn nhiều bởi khoảng cách như dạng trực tiếp nhưng nó vẫn bị tác động trong quá trình truyền tải

Những đặc điểm của âm thanh analog bao gồm:

• Độ chân thực và truyền cảm cao tới con người cũng như các loài động vật

• Là dạng tín hiệu âm thanh cơ bản và luôn trường tồn từ trước khi con người biết tới nó cho đến khi con người phát triển nó

• Có tính tương tự và liên tục, bị ảnh hưởng nhiều bởi yếu tố môi trường và khoảng cách

• Có thể nghe trực tiếp, truyền đi xa hoặc lưu trữ lâu dài

• Luôn tồn tại dưới dạng động chứ không tồn tại dưới dạng tĩnh Về bản chất, chỉ khi tín hiệu âm thanh được truyền tải dưới dạng sóng thì mới được xem là dạng âm thanh analog, hoặc các dạng lưu trữ trước đây như trên đĩa than Vinyl, băng từ cassette… tới phim nhựa quang học

b) Âm thanh Kỹ thuật số

Khi nói về thiết bị hay bất cứ thứ gì liên quan đến kỹ thuật số bạn có thể nhớ ngay tới những dãy nhị phân Đó cũng chính là nền tảng của âm thanh digital hay người ta còn gọi là âm thanh kỹ thuật số Âm thanh digital là tín hiệu

Trang 9

âm thanh được chuyển đổi, truyền tải và lưu trữ dưới dạng mã hóa bởi các dãy nhị phân, đơn vị đo là bit, Từ các giao động sóng âm thực tế, qua các công cụ chuyển đổi ban đầu như micro, máy ghi âm… sẽ được chuyển đổi thành các dãy nhị phân tương đường để truyền tải hoặc lưu trữ lại

Những đặc điểm riêng biệt mà âm thanh digital có đó là:

• Lưu trữ bằng dữ liệu mã hóa nên sẽ không bị biến đổi và tác động bởi môi trường hay khoảng cách

• Con người không thể hiểu hay nghe trực tiếp tín hiệu âm thanh digital

• Truyền đạt hay lưu trữ được nhiều hơn trên một đường dây • Có thể phát triển hơn nữa ở tương lai

c) Ưu và nhược điểm Loại âm

- Âm sắc độc đáo và có tính nghệ thuật và sáng tạo cao khi tác động - Chi phí tạo ra các thiết bị sử dụng tín hiệu âm thanh analog thấp

- Dễ bị nhiều hay bị kém tín hiệu khi truyền đi xa hay sao chép qua nhiều thiết bị

- Bị giới hạn bởi khoảng cách Không thể truyền đi quá xa - Có thể lần khá nhiều tạp âm - Lượng tín hiệu lưu trữ không được nhiều trên môi thiết bị, cồng kềnh, tốn diện tích

Kỹ thuật số

- Có thể lưu trữ được số lượng dữ liệu âm thanh lớn

- Lưu trữ chuẩn và hoàn toàn không bị sai lệch gì về từng giai điệu hay thanh âm, chuẩn đến từng chi tiết nếu đảm bảo đầy đủ các dữ liệu

- Không bị giới hạn bởi khoảng cách, chỉ cần có đường truyền, bạn có thể gửi đi xa nửa vòng trái đất mà âm thanh vẫn chuẩn

- Có thể truyền tải được nhiều đường âm thanh trên một đơn vị

- Có độ trẻ âm thanh cao vì nó không thể dùng trực tiếp như sóng âm mà nó còn phải mã hóa tại tiết bị đầu vào, sau đó lại phải giải mã tại thiết bị đầu ra, nên sẽ tạo ra độ trẻ nhất định

- Chi phí chế tạo sản xuất thiết bị đất đó dẫn đến giá thành cao - Không thể nghe hiểu một cách trực tiếp

- Yêu cầu các thiết bị hiện đại - Dễ bị sao chép và đánh cấp hơn - Chất lượng bị ảnh hưởng nhiều

Trang 10

thời gian

- Quá trình trao đổi gọn nhẹ và nhanh chóng

bởi tốc độ đường truyền tín hiệu

Bảng 1 Ưu và nhược điểm của âm thanh Analog và Âm thanh số

2.2 Chuyển đổi âm thanh analog sang định dạng số

3 Sự khác biệt giữa âm thanh trong định dạng video và định dạng chỉ có âm thanh

3.1 Âm thanh trong Định dạng Video a) Lý thuyết

Tích hợp với Hình ảnh: Âm thanh trong định dạng video không chỉ là một dòng dữ liệu đơn lẻ mà được tích hợp chặt chẽ với dữ liệu hình ảnh Điều này đòi hỏi sự đồng bộ chính xác giữa âm thanh và hình ảnh

Đa Dạng Định dạng: Có nhiều định dạng video khác nhau, mỗi định dạng có cách xử lý và lưu trữ âm thanh riêng Điều này bao gồm cả codec âm thanh và video

Xử lý Phức tạp: Việc xử lý âm thanh trong video thường phức tạp hơn do cần phải tính đến các yếu tố như đồng bộ hóa, hiệu ứng âm thanh, và cân nhắc về mặt nghệ thuật để hỗ trợ hình ảnh

b) Âm thanh trong định dạng video thường được đồng bộ hóa với dữ liệu hình ảnh:

• Đồng Bộ Hóa Âm Thanh và Hình Ảnh

Tính Chất Đồng Thời: Âm thanh và hình ảnh cần phải được ghi và phát lại một cách đồng thời Điều này đặc biệt quan trọng trong cảnh quay có lời nói, nơi mà tiếng nói cần phải khớp với chuyển động môi của nhân vật

Sử Dụng Timecode và Clapboard: Để đảm bảo sự đồng bộ, các nhà sản xuất thường sử dụng timecode và clapboard trong quá trình quay phim Điều này giúp chỉnh sửa sau này dễ dàng hơn trong việc ghép nối âm thanh với hình ảnh

• Chất Lượng và Xử Lý Âm Thanh

Xử Lý Âm Thanh Đa Dạng: Trong video, âm thanh có thể bao gồm lời nói, âm nhạc nền, và hiệu ứng âm thanh Mỗi loại đều cần được xử lý một cách cẩn thận để đảm bảo rằng chúng hỗ trợ và tăng cường chất lượng hình ảnh

Kỹ Thuật Âm Thanh Phức Tạp: Các kỹ thuật như lồng tiếng, chỉnh sửa âm thanh, và cân bằng âm lượng là quan trọng để đạt được một dòng âm thanh chất lượng trong video

• Tính Tương Thích và Định Dạng

Trang 11

Định Dạng Video Đa Dạng: Có nhiều định dạng video, mỗi loại hỗ trợ các loại codec âm thanh khác nhau Sự lựa chọn codec phụ thuộc vào nhu cầu về chất lượng và kích thước tệp

Tích Hợp Âm Thanh và Hình Ảnh: Trong video, âm thanh không tồn tại độc lập mà là một phần không thể tách rời của dữ liệu video, yêu cầu tính tương thích cao giữa âm thanh và hình ảnh

• Thách Thức và Tiêu Chuẩn

Đồng Bộ Hóa Chính Xác: Thách thức lớn nhất là đảm bảo âm thanh được đồng bộ hóa một cách chính xác với hình ảnh, đặc biệt trong các tình huống có chuyển động nhanh hoặc phức tạp

Chất Lượng Âm Thanh vs Kích Thước Tệp: Cần cân nhắc giữa việc duy trì chất lượng âm thanh cao và kích thước tệp hợp lý, nhất là trong môi trường phát trực tuyến hoặc lưu trữ hạn chế

3.2 Âm thanh trong Định dạng Chỉ Có Âm thanh Lý thuyết

Dữ liệu Đơn lẻ: Ở định dạng này, không có sự phức tạp của hình ảnh; dữ liệu chỉ bao gồm âm thanh

Chất lượng Âm thanh: Trọng tâm ở đây là chất lượng âm thanh Không cần đồng bộ với hình ảnh, các định dạng này thường tập trung vào việc duy trì chất lượng âm thanh tốt nhất có thể

Xử lý Đơn giản hơn: Xử lý âm thanh trong định dạng này thường đơn giản hơn so với trong video Các thao tác chủ yếu bao gồm cắt, ghép, và điều chỉnh chất lượng âm thanh

• Mục Đích và Tính Chất

Chuyên Biệt về Âm Thanh: Các định dạng này được tối ưu hóa để lưu trữ, truyền tải, và tái tạo âm thanh, từ âm nhạc đến lời nói

Không Bao Gồm Dữ Liệu Khác: Khác với định dạng video, chúng không tích hợp dữ liệu hình ảnh, văn bản, hoặc dữ liệu không gian (như 3D)

• Cách Thức Lưu Trữ và Mã Hóa

Mã Hóa Dữ Liệu Âm Thanh: Dựa trên quá trình chuyển đổi tín hiệu âm thanh từ dạng analog sang digital, qua đó lưu trữ dưới dạng dữ liệu số

Nén và Không Nén: Một số định dạng sử dụng nén có mất mát (như MP3, AAC) để giảm kích thước tệp, trong khi những định dạng khác như FLAC, WAV giữ lại dữ liệu âm thanh một cách đầy đủ, không nén

Trang 12

Tính Tương Thích: Một số định dạng có thể không tương thích với tất cả các thiết bị và phần mềm, yêu cầu người dùng lựa chọn định dạng phù hợp với nhu cầu sử dụng cụ thể của họ

3.3 Định dạng tệp và mã hóa dữ liệu âm thanh a) Định dạng tệp âm thanh

MP3 (MPEG Audio Layer III):

Mã Hóa: Sử dụng nén có mất mát, loại bỏ thông tin âm thanh mà tai người ít nhận biết được

Ứng Dụng: Rất phổ biến cho âm nhạc di động và trực tuyến

▪ WAV (Waveform Audio File Format):

Mã Hóa: Không nén, lưu trữ dữ liệu âm thanh ở dạng nguyên gốc Ứng Dụng: Thường được sử dụng trong sản xuất âm nhạc và chỉnh sửa âm thanh chuyên nghiệp

▪ AAC (Advanced Audio Coding):

Mã Hóa: Nén có mất mát, hiệu quả hơn MP3 ở cùng một bitrate Ứng Dụng: Rộng rãi trong các thiết bị Apple và phát trực tuyến

▪ FLAC (Free Lossless Audio Codec):

Mã Hóa: Nén không mất mát, giữ lại toàn bộ chất lượng âm thanh gốc Ứng Dụng: Lựa chọn ưa thích cho những người yêu âm nhạc mong muốn chất lượng cao

b) Định dạng tệp Video

▪ MP4 (MPEG-4 Part 14):

Mã Hóa Âm Thanh: Thường kết hợp với AAC

Ứng Dụng: Rất phổ biến cho video trực tuyến, linh hoạt và tương thích rộng rãi

▪ AVI (Audio Video Interleave):

Mã Hóa Âm Thanh: Hỗ trợ nhiều codec âm thanh khác nhau, bao gồm cả không nén

Ứng Dụng: Được sử dụng rộng rãi trong quá khứ, giờ ít phổ biến hơn

▪ MOV (QuickTime File Format):

Ngày đăng: 15/05/2024, 09:30

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan