1. Trang chủ
  2. » Giáo Dục - Đào Tạo

TIỂU LUẬN ĐỀ TÀI PHÂN LOẠI ÂM THANH Trí Tuệ Nhân Tạo Và Ứng Dụng

53 1 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Phân Loại Âm Thanh Trí Tuệ Nhân Tạo Và Ứng Dụng
Tác giả Vương Kim Thoa, Lưu Minh Thư, Nguyễn Ngọc Quỳnh, Huỳnh Thị Thanh Thảo, Roãn Thị Anh Thư
Người hướng dẫn Giảng viên: Trần Minh Quang
Trường học Trường Giao Thông Vận Tải Thành Phố Hồ Chí Minh
Thể loại tiểu luận
Năm xuất bản 2024-2025
Thành phố Thành phố Hồ Chí Minh
Định dạng
Số trang 53
Dung lượng 1,31 MB

Nội dung

-Đáp ứng nhu cầu nghiên cứu trong lĩnh vực khoa học dữ liệu: với sự phát triển ngày càng vượt bậc của khoa học dữ liệu, như cầu về các ứng dụng kĩ thuật phân loại, nghiên cứu và xử lý â

Trang 1

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG GIAO THÔNG VẬN TẢI THÀNH PHỐ HỒ CHÍ MINH

VIỆN ĐÀO TẠO CHẤT LƯỢNG CAO

**********

TIỂU LUẬN

ĐỀ TÀI: PHÂN LOẠI ÂM THANH

Trí Tuệ Nhân Tạo Và Ứng Dụng – 23-02

Giảng viên : Trần Minh Quang

Lớp học phần : 012008010472

Nhóm 7

Năm học : 2024-2025

Trang 2

Thành phố Hồ Chí Minh ngày 20 tháng 11 năm 2024

THÀNH VIÊN PHỤ TRÁCH NHÓM 7

VƯƠNG KIM THOA

LƯU MINH THƯ

NGUYỄN NGỌC QUỲNH

HUỲNH THỊ THANH THẢO

ROÃN THỊ ANH THƯ

Trang 3

MỤC LỤC

1.4.1 Thu thập và tiền xử lý các dữ liệu của âm 9

2.1.2 Các phương pháp phân tích các loại âm thanh 112.1.2 Các ứng dụng của AI vào phân tích âm thanh 13

2.3.1 Dữ liệu bị nhiễu và chất lượng âm thanh 17

Trang 4

2.3.2 Phướng pháp xử lí dữ liệu nhiễu 20

2.4.1 Đoạn code mẫu về phân biệt âm thanh giữa chó và mèo 29

Trang 5

LỜI MỞ ĐẦU

Âm thanh trong cuộc sống là một điều tất yếu Nhờ âm thanh mà cuộc sống trở nên thú vị, sinh động hơn, tạo nên từng bối cảnh và nhiều khung bậc cảm xúc cho từng khoảng khoảnh khắc cuộc sống thế giới, không riêng gì của con người Âm thanh không dừng lại là trải nghiệm thính giác của con người mà nó còn tác động lên tâm lí

và thói quen sinh hoạt của con người Từ tiếng gà gáy, chim hót, xe cộ hay những tiếng reo từ báo thức hay đến những giai điệu du dương của các loại nhạc cụ, lời ca

Đó là những gì âm thanh gây ra ảnh hưởng lên tâm lí và hoạt động cho con người Để

am hiểu rõ hơn về ý nghĩa cũng như nguồn gốc của âm thanh, việc phân loại âm thanh

là hoàn toàn phù hợp để hiểu rõ vai trò của chúng mang lại và đồng thời đưa chúng ứng dụng vào nhiều mặt lĩnh vực trong đời sống thường ngày, giao tiếp cơ bản giữa người với người, phục vụ cho nhu cầu giải trí, công nghệ số và đặc biệt là sự đóng góp

to lớn cho nền giáo dục loài người Lời mở đầu của bài tiểu luận xin được khép lại để

mở ra một trang mới đưa chúng ta đến với sâu hơn và tìm hiểu một cách chi tiết về cáiphương pháp phân loại âm thanh, những ứng dụng thực tiễn trong đời sống và vai trò đóng góp to lớn của âm thanh trong cuộc sống xã hội loài người trước và nay

Hy vọng lời mở đầu này là một bước đệm giúp người đọc có tinh thần và nền tảng tốt nhất để hiểu sâu và phát triển thêm những nội dung của bài tiểu luận

1.PHẦN MỞ ĐẦU

1.1 GIỚI THIỆU ĐỀ TÀI

Âm thanh là các dao động cơ học (thay đổi vị trí qua lại) của các phân tử, nguyên tử hoặc hạt cấu thành vật chất, và nó lan truyền trong vật chất như những sóng Giống như nhiều loại sóng khác, âm thanh được đặc trưng bởi các yếu tố như tần số, bước sóng, chu kỳ, biên độ, và tốc độ lan truyền (tốc độ âm thanh

Đối với khả năng nghe của con người, âm thanh thường là sự dao động trong dải tần

số từ khoảng 16 Hz đến 20.000 Hz của các phân tử không khí Âm thanh đập vào màng nhĩ, gây rung động cho màng nhĩ và kích thích não bộ Tuy nhiên, âm thanh cũng có thể được định nghĩa rộng hơn, tùy thuộc vào ứng dụng, bao gồm cả các tần sốcao hơn hoặc thấp hơn tần số mà tai người có khả năng nhận biết, không chỉ lan

Trang 6

truyền trong không khí mà còn truyền trong bất cứ vật liệu nào Trong định nghĩa rộngnày, âm thanh là sóng cơ học và theo lưỡng tính sóng hạt của vật chất, sóng này có thểcoi là dòng lan truyền của các hạt phonon, các hạt lượng tử của âm thanh.

Cả tiếng ồn và âm nhạc đều là các âm thanh Trong việc truyền tín hiệu bằng âm thanh, tiếng ồn là các dao động ngẫu nhiên không mang tín hiệu

(Nguồn Wikipedia Tiếng Việt)

Phân tích âm thanh không chỉ là một lĩnh vực khoa học đang phát triển nhanh chóng

mà còn giữ vai trò quan trọng trong nhiều ngành công nghiệp từ giải trí, y tế đến công nghệ thông tin Việc nắm vững các khái niệm cơ bản trong phân tích âm thanh sẽ giúpchúng ta hiểu rõ hơn về quy trình thu thập, xử lý và phân tích âm thanh Nội dung này

sẽ trình bày những khái niệm thiết yếu nhất trong lĩnh vực này, bao gồm tần số, biên

độ, cùng các kỹ thuật phân tích phức tạp như phân tích Fourier, ứng dụng máy học trong phân tích âm thanh và những ứng dụng thực tiễn của chúng trong cuộc sống hàng ngày

Phân loại âm thanh có vai trò quan trọng trong nhiều lĩnh vực từ trước đến nay, đặc biệt là trong xã hội phát triển như hiện nay Nó hiện diện trong nhiều lĩnh vực như công nghệ thông tin, tâm lý học, giải trí và môi trường thực tiễn của con người Nhiều nghiên cứu đã đề xuất các phương pháp khác nhau cho ứng dụng này Tuy nhiên, điềuquan trọng nhất là những thách thức mà chính ứng dụng này phải đối mặt

1.2 LÝ DO CHỌN ĐỀ TÀI NGHIÊN CỨU

Nghiên cứu về phân loại âm thanh là một trong những lĩnh vực đặc biệt thu hút sự quan tâm của độc giả và xứng đáng được lan truyền rộng rãi Đây là một kiến thức mới trong kho tàng tri thức của nhân loại Đối với các nhà nghiên cứu và những ngườiđam mê lĩnh vực này, thông tin về nó có thể đã khá quen thuộc, tuy nhiên vẫn còn nhiều người chưa biết đến Bài luận này sẽ là một bước khởi đầu nhỏ nhằm mở rộng hiểu biết về chủ đề này Chúng ta sẽ cùng tìm hiểu về nguồn gốc, phương pháp nghiêncứu, ý nghĩa và lý do lựa chọn đề tài cho bài luận này

Trang 7

-Lý do để chọn đề tài Phân loại âm thanh làm nghiên

cứu Vẻ đẹp tầm quan trọng của âm thanh hiện diện trong đời sống hàng ngày Từ âm

thanh tự nhiên đến âm thanh nhân tạo: tiếng chim hót bên tai hay tiếng còi xe ồn ào cùng các tín hiệu báo động Nghiên cứu này giúp chúng ta hiểu rõ hơn về môi trường xung quanh, cũng như khả năng cảm nhận và phản hồi đối với những tín hiệu âm thanh đa dạng trong cuộc sống

-Tính ứng dụng đa lĩnh vực công nghệ: Là bước đệm quan trọng trong lĩnh vực

công nghệ hiện nay Một số ứng dụng tiêu biểu bao gồm: trợ lý ảo (Siri, Google Assistant) và hệ thống giám sát Phân loại âm thanh hỗ trợ tối ưu hóa các tác vụ này, nâng cao khả năng ứng dụng và hiệu quả thực tế, đặc biệt là trong các thiết bị thông minh và Internet of Things

-Tác động đến tinh thần sức khỏe và tâm lý của con người: Tùy theo từng âm

thanh mà nó có khả năng tác động đến cảm xúc, tinh thần của con người Từ đó, nghiên cứu có thể đề xuất những cách tiếp cận tốt nhất về sức khỏe và tâm lý Tránh những âm thanh phức tạp gây ảnh hưởng tới sức khỏe con người

-Nâng cao chất lượng môi trường sống: Giảm ô nhiễm tiếng ồn ở đô thị, giảm tác

động tiêu cực và nâng cao chất lượng cuộc sống Thực hiện các bước thiết thực để giảm thiểu tiếng ồn

-Nền tảng cho nghiên cứu lĩnh vực trí tuệ nhân tạo và học máy: Phân loại âm

thanh là một bài toán quan trọng trong lĩnh vực trí tuệ nhân tạo và học máy Đây là nền tảng vững chắc để hỗ trợ các ứng dụng trí tuệ nhân tạo như công nghệ nhận dạng giọng nói, phân tích cảm xúc âm thanh, nhận dạng giọng nói hỗ trợ lái xe tự động Tiềm năng chuyển đổi ngôn ngữ và xử lý máy tính (thị giác máy tính)

-Xử lý hiệu quả âm thanh và các phương pháp trích xuất: tạo cơ hội phát triển cho

các công nghệ tín hiệu và phân tích âm thanh tiên tiến, nâng cao khả năng nhận diện, tối ưu hóa và tách được riêng lẻ các hệ thống âm thanh một cách chính xác

Trang 8

-Thúc đẩy tiềm năng tương tác với người dùng của các hệ thống âm thanh thông minh: đưa ra trải nghiệm tốt nhất cho người dùng trong mảng hệ thống âm thanh

thông minh, ví dụ như người dùng trao tiếp với trợ lý ảo, điều khiển giọng nói và các thiết bị hỗ trợ âm thanh cho người dùng Mở ra tiềm nằng về mặt dịch vụ và sản phẩmkinh tế phục vụ cho con người

-Đáp ứng nhu cầu nghiên cứu trong lĩnh vực khoa học dữ liệu: với sự phát triển

ngày càng vượt bậc của khoa học dữ liệu, như cầu về các ứng dụng kĩ thuật phân loại, nghiên cứu và xử lý âm thanh không ngừng tăng, đề tài không dừng lại ở mức mở rộng kiến thức về dữ liệu âm thanh mà còn đáp ứng những nhu cầu thực tiến cho khai thác và xử lí dữ liệu trong kỉ nguyên công nghệ số mới

Với những nội dung trên chính là lý do thích đáng công nhận việc nghiên cứu đề tài “ Phân loại âm thanh” là một nghiên cứu có ý nghĩa trong nhận thức âm thanh của đời sống mà còn thúc đẩy phát triển công nghệ, cải thiện chất lượng sống và là bước đệm cho nghiên cứu cứu mới trong khoa học và công nghệ

1.3.PHẠM VI VÀ MỤC ĐÍCH NGHIÊN CỨU

1.3.1 Phạm vi nghiên cứu

Âm thanh trong đời sống là một chủ đề rộng lớn mà con người có thể khai thác được

vô vàng nội dung, do đó phạm vi mà chính đề tài này mang lại rất rộng rãi và đa dạng:

*Sự đặc trưng của âm thanh:

-Trích xuất: nghiên cứu ra những phương pháp trích xuất bởi các đặc trưng âm thanh một cách hiệu quả Điển hình như MFCC, Mel-spectrogram, Chroma, những phương pháp này có thể biểu diễn âm thanh dưới dạng các vecto số liệu

-Phân tích sự đặc trưng: cách phân tích này đưa ra được nhưng đặc điểm đặc trưng củatừng loại âm thanh, giúp hỗ trợ phận biệt được chúng với nhau

*Thuật toán phân loại:

-Học máy: xây dựng các mô hình phân loại từ cách ứng dụng các thuật toán học máy như SVM, Random Forest, Neural Network

Trang 9

-Học sâu: sử dụng các mạng thần kinh sâu như CNN, RNN để trình bày những đặc trưng phức tạp và tăng cải thiện độ chính xác cho mô hình.

*Các cơ sở dữ liêu của âm thanh:

-Xây dựng dữ liệu từ cơ sở: ứng dụng vào huấn luyện và đánh giá các mô hình phân loại từcacs cơ sở dữ liệu âm thanh lớn

-Tiền xử lý dữ liệu: loại bỏ được sự nhiễu âm thanh, chuẩn hóa được âm lượng và trích xuất các đoạn âm thanh có ý nghĩa cho những ứng dụng sau này

-Cải thiện độ chính xác: tặng sự chính xác các mô hình phân loai bằng cách sử dụng các thuật toán và đặc trưng mới

-Giảm thiểu được thời gian tính toán: yêu cầu được máy tính cs cấu hình cao và thời gian tính toán lâu dài bằng các thuật toán học sâu

-Mở rộng phạm vi ứng dụng: được áp dụng từ các kĩ thuật phân loại âm thanh vào các lĩnh vực mới và giải quyết được các vấn đề thực tế

Trang 10

-Nâng cao khả năng thích ứng: việc xây dựng các mô hình có khả năng thích ứng với các loại âm thanh mới và các điều kiện từ những môi trường khác nhau

1.3.3 Thách thức nghiên cứu

Độ phức tạp của âm thanh, tình trạng thiếu dữ liệu và tính toán một cách phức tạp.Phân loại âm thanh là một lĩnh vực nghiên cứu đa dạng và sâu rộng đầy tiềm năng, song đó là việc áp dụng thực tiễn cho nhiều ứng dụng Việc này song hành với phát triển kĩ thuật phân loại âm thanh hiệu quả sẽ thúc đẩy đóng góp vào sự phát triển của nhièu ngành công nghiệp và tăng cường cải thiện được chất lượng cuộc sống của con người

1.4 PHƯƠNG PHÁP NGHIÊN CỨU

Phương pháp này đòi hỏi sự kết hợp ăn ý giữa lý thuyết và thực hành Tiếp theo đây làphần nội dung thể hiện cho phương pháp nghiên cứu trong linh vực “Phân loại âm thanh”:

1.4.1 Thu thập và tiền xử lý các dữ liệu của âm

*Thu thập dữ liệu: xây dựng được các cơ sở dữ liệu âm thanh lớn và rất đa dạng,

bao gồm nhiều loại âm thanh khác nhau(giọng nói, tiếng ồn, ), hay từ nhiều nguồn khác(thu âm, âm thanh mở )

Trang 11

1.4.2 Trích xuất đặc trưng âm thanh

*Đặc trưng phổ biến: MFCC, Mel-spectrogram, Chroma, phổ tần số.

*Đặc biệt thời gian: Âm thanh độ dài, năng lượng, tốc độ chuyển mạch bằng 0 *Đặc điểm thống kê: Trung bình, phương pháp sai, độ lệch

*Đặc biệt dựa trên mô hình: Sử dụng các mô hình học sâu để tự động trích xuất

các phức tạp đặc biệt

1.4.3 Phân loại thuật toán

*Học máy truyền thống: SVM, Navie Bayes, K-Nearest Neighbors.

*Học sâu: mạng thần kinh chập (CNN), mạng thần kinh tái diễn(RNN),

Transformer

*Các thuật toán khác: GMM,HMM

1.4.4 Huấn luyện và đánh giá mô hình

*Phân chia dữ liệu: chia dữ liệu thành tập huấn luyện, tập kiểm tra và tập xác

thực

*Huấn luyện: sử dụng thuật toán đã chọn để huấn luyện mô hình trên tập huấn

luyện

*Đánh giá: Đánh giá hiệu suất của màn hình trên kiểm tra và xác thực bằng các

chỉ số như độ chính xác, độ nhạy, đặc điểm kỹ thuật, điểm F1

1.4.5 Tối ưu hóa mô hình

*Điều chỉnh được tham số: tìm kiếm những giá trị siêu tham số để tối ưu cho

thuật toán đã được chọn

*Kỹ thuật tăng cường: áp dụng kĩ thuật như dropout, data augmentation để tăng

khả năng tổng quát mô hình

* Ensemble learning: Kết hợp nhiều mô hình để nâng cao độ chính xác

1.4.6 Ứng dụng và triển khai

* Nhận giọng nói dạng: Xác định người nói, chuyển văn bản thành lời nói.

Trang 12

*Phân tích âm nhạc: Nhận dạng thể loại nhạc, nhạc cụ, cảm xúc trong âm nhạc *Giám sát môi trường: Phân loại tiếng ồn giao thông, tiếng động vật.

*Y tế: Phân loại loại thời gian, loại tiếng ồn để hỗ trợ dự đoán bệnh.

-Thời gian thực: bài toán cần có hiệu suất cao

Một ví dụ điển hình cho xây dựng hệ thống phân loại âm thanh đơn giản:

Ví dụ code đơn giản với Python và thư viện LibROSA, Scikit-learn:

(Lưu ý: Đây chỉ là một ví dụ đơn giản)

Trang 13

2.PHẦN NỘI DUNG

2.1 KHÁI NIỆM VÀ PHÂN BIỆT CÁC LOẠI ÂM THANH

2.1.1 Khái niệm về âm thanh

Âm thanh là các dao động cơ học (thay đổi vị trí qua lại) của các phân tử, nguyên tử hoặc hạt cấu thành vật chất, và nó lan truyền trong vật chất như những sóng Giống như nhiều loại sóng khác, âm thanh được đặc trưng bởi các yếu tố như tần số, bước sóng, chu kỳ, biên độ, và tốc độ lan truyền (tốc độ âm thanh)

2.1.2 Các phương pháp phân tích các loại âm thanh

a) Biến đổi fourier

Biến đổi Fourier là một kỹ thuật toán học quan trọng trong phân tích âm thanh, cho phép chúng ta chuyển đổi tín hiệu thời gian thành miền tần số Biến đổi Fourier nhanh(FFT) là phiên bản được tối ưu hóa, được sử dụng rộng rãi trong xử lý âm thanh kỹ thuật số để phân tích các thành phần tần số chi tiết của tín hiệu Biến đổi Fourier cho phép chúng ta xác định các tần số thành phần trong tín hiệu âm thanh phức tạp, cung cấp góc nhìn chi tiết và rõ ràng hơn về cấu trúc tần số của âm thanh

b) MFCC

Một kỹ thuật trích xuất đặc điểm được sử dụng rộng rãi trong xử lý giọng nói và âm thanh MFCC được sử dụng để biểu diễn các đặc điểm phổ của âm thanh theo cách phù hợp với nhiều tác vụ học máy khác nhau, chẳng hạn như nhận dạng giọng nói và phân tích âm nhạc MFCC là một tập hợp các hệ số xác định hình dạng của phổ công suất của tín hiệu âm thanh Chúng được lấy ra bằng cách biến đổi tín hiệu âm thanh gốc thành miền tần số bằng một kỹ thuật như Biến đổi Fourier rời rạc (DFT), sau đó

áp dụng thang đo mel để mô phỏng chặt chẽ nhận thức thính giác của con người về tần

số âm thanh Cuối cùng, các hệ số cepstral được tính toán từ phổ được chia tỷ lệ mel

Trang 14

c) Phổ âm (Spectrograms)

Phổ âm thanh là sự phân bố biên độ tín hiệu theo tần số, thể hiện cường độ của các thành phần tần số khác nhau trong tín hiệu âm thanh Phổ có thể được biểu diễn dưới dạng phổ biên độ hoặc phổ công suất Phân tích quang phổ giúp xác định cấu trúc tần

số của âm thanh và là công cụ hữu ích và thường được sử dụng để xác định các đặc tính âm thanh, chẳng hạn như trong nhận dạng giọng nói hoặc phân tích giọng nói (thanh#:~:text=Phổ%20âm%20thanh%20(Spectrum),một%20tín%20hiệu%20âm

%20thanh)

2.1.2 Các ứng dụng của AI vào phân tích âm thanh

a) Học máy giám sát (Supervised learning)

Là công cụ hỗ trợ cho bộ phân loại âm thanh, Learning Monitor có tính ứng dụng cao trong quá trình phân tích âm thanh bằng cách huấn luyện các mô hình machine

learning trên dữ liệu âm thanh được gắn nhãn Cần thiết Học máy có giám sát trong phân tích âm thanh có thể bao gồm: nhận dạng giọng nói, phân loại âm thanh, tách giọng nói của con người và nhạc nền,

b) Học sâu (Deep learning)

Deep learning hiện được biết đến như một trợ thủ đắc lực và hữu ích cho con người trong việc phân tích âm thanh Với ưu điểm của mình là có thể xử lý những dữ liệu phức tạp với kích thước lớn (Big data), điều mà các phương pháp học máy truyền thống khó thực hiện được Mô hình deep learning có thể tự động trích xuất các tính

Trang 15

năng từ dữ liệu âm thanh gốc mà không cần phải dựa vào các tính năng được thiết kế sẵn Một số ứng dụng nổi bật mà mô hình deep learning có thể thực hiện trong phân tích âm thanh: nhận dạng người nói, chuyển đổi văn bản thành giọng nói, cải thiện chất lượng âm thanh, phân loại âm thanh,

c) Support Vector Machines (SVM)

Nguyên lý: SVM là một thuật toán học có giám sát được sử dụng cho các bài toán

phân loại và hồi quy SVM tìm ra một siêu phẳng tối ưu để phân tách các điểm dữ liệuthuộc các lớp khác nhau

Ứng dụng trong phân loại âm thanh:

Trích xuất đặc trưng: Đầu tiên, các đặc trưng âm thanh như Mel-Frequency Cepstral

Coefficients (MFCCs), Spectrograms, Chroma Features được trích xuất từ dữ liệu âm thanh

Huấn luyện mô hình: SVM được huấn luyện trên tập hợp đặc trưng này để phân loại

âm thanh thành các lớp khác nhau như tiếng còi xe, tiếng chim hót, tiếng người nói, v.v

d) K-Nearest Neighbors (KNN)

Nguyên lý: KNN là một thuật toán học không tham số được sử dụng cho các bài toán

phân loại và hồi quy KNN phân loại một điểm dữ liệu dựa trên sự gần gũi của nó với các điểm dữ liệu trong tập huấn luyện

Ứng dụng trong phân loại âm thanh:

Trích xuất đặc trưng: Các đặc trưng âm thanh được trích xuất tương tự như đối với

SVM

Huấn luyện mô hình: Mô hình KNN được sử dụng để phân loại điểm dữ liệu mới

dựa trên sự gần gũi của nó với các điểm dữ liệu đã biết trong không gian đặc trưng

e) Convolutional Neural Networks (CNN)

Nguyên lý: CNN là một loại mạng nơ-ron sâu đặc biệt hiệu quả trong việc xử lý dữ

liệu hình ảnh và dữ liệu âm thanh dưới dạng ma trận (spectrogram)

Trang 16

Ứng dụng trong phân loại âm thanh:

Trích xuất đặc trưng: Thay vì sử dụng các kỹ thuật trích xuất đặc trưng truyền

thống, CNN có thể học trực tiếp từ các đặc trưng của âm thanh được biểu diễn dưới dạng spectrograms hoặc các biểu đồ khác

Huấn luyện mô hình: CNN được huấn luyện trên các biểu diễn này để nhận diện và

phân loại các loại âm thanh khác nhau CNN có khả năng tự động phát hiện các mẫu phức tạp trong dữ liệu âm thanh mà không cần phải trích xuất đặc trưng thủ công

f) Recurrent Neural Networks (RNN) và Long Short-Term Memory (LSTM) Nguyên lý: RNN và LSTM là các loại mạng nơ-ron sâu đặc biệt hiệu quả trong việc

xử lý dữ liệu tuần tự như dữ liệu thời gian (time-series data)

Ứng dụng trong phân loại âm thanh:

Trích xuất đặc trưng: Tương tự như CNN, RNN/LSTM có thể xử lý dữ liệu âm

thanh dưới dạng spectrogram hoặc các biểu diễn khác

Huấn luyện mô hình: RNN/LSTM được huấn luyện để phân loại âm thanh bằng cách

học các mẫu và quan hệ tuần tự trong dữ liệu âm thanh LSTM đặc biệt hiệu quả trongviệc xử lý các vấn đề về hồi quy và phụ thuộc thời gian dài

g) Random Forests

Nguyên lý: Random Forests là một thuật toán học có giám sát dựa trên việc xây dựng

nhiều cây quyết định (decision trees) và kết hợp các dự đoán của chúng để cải thiện độchính xác và tránh overfitting

Ứng dụng trong phân loại âm thanh:

Trích xuất đặc trưng: Các đặc trưng âm thanh được trích xuất và sử dụng như đầu

vào cho Random Forests

Huấn luyện mô hình: Mô hình Random Forests được huấn luyện trên các đặc trưng

này để phân loại âm thanh môi trường với độ chính xác cao

Trang 17

h) Deep Belief Networks (DBN)

Nguyên lý: DBN là một loại mạng nơ-ron sâu bao gồm nhiều lớp Boltzmann

(Restricted Boltzmann Machines - RBMs) được huấn luyện để nhận diện các đặc trưng phức tạp từ dữ liệu

Ứng dụng trong phân loại âm thanh:

Trích xuất đặc trưng: DBN có thể học các đặc trưng từ dữ liệu âm thanh mà không

cần trích xuất đặc trưng thủ công

Huấn luyện mô hình: DBN được huấn luyện để phân loại âm thanh dựa trên các đặc

trưng học được từ dữ liệu thô

2.2 ỨNG DỤNG TỪ NGHIÊN CỨU

Âm thanh từ lâu đã là một phần không thể thiếu trong cuộc sống của chúng ta Nó không chỉ là phương tiện giao tiếp hàng ngày mà còn là công cụ để khám phá thế giới xung quanh chúng ta Tuy nhiên, trong thời đại kỹ thuật số, âm thanh đã được đưa lên một tầm cao mới Nhờ những tiến bộ trong nghiên cứu và ứng dụng, âm thanh hiện không chỉ là sóng âm mà còn là ngôn ngữ mà máy móc có thể hiểu và tương tác Từ điện thoại thông minh đến các thiết bị y tế hiện đại, âm thanh đóng vai trò quan trọng trong việc truyền tải thông tin, tương tác và tạo ra những trải nghiệm mới Vậy, làm thế nào công nghệ có thể "hiểu" và sử dụng âm thanh một cách hiệu quả như vậy?

2.2.1 Nhận diện giọng nói

Một trong những ứng dụng nổi bật nhất của nghiên cứu âm thanh là nhận dạng giọng nói Các trợ lý ảo như Siri, Alexa hay Google Assistant đã trở thành người bạn đồng hành không thể thiếu trong cuộc sống hàng ngày Chỉ cần một lệnh thoại đơn giản, chúng ta có thể thực hiện vô số tác vụ, từ tìm kiếm thông tin trên internet đến điều khiển các thiết bị thông minh trong nhà Nhận dạng giọng nói cũng được sử dụng rộngrãi trong lĩnh vực bảo mật, giúp xác thực danh tính người dùng một cách an toàn và tiện lợi

- Ứng dụng Google Translate giúp người dùng dịch nhiều ngôn ngữ khác nhau chỉ bằng cách nói

Trang 18

- Người khiếm thị có thể sử dụng trợ lý ảo để đọc sách và email.

2.2.2 Phân tích âm thanh môi trường

Nhờ các thuật toán phân tích âm thanh, máy tính có thể phát hiện ra những tiếng động bất thường, từ đó giúp chúng ta dự đoán và ngăn ngừa các sự cố nguy hiểm như cháy

nổ, rò rỉ khí gas Ngoài ra, công nghệ này còn được ứng dụng trong lĩnh vực an ninh, giúp phát hiện ra những tiếng động lạ để đảm bảo an toàn cho ngôi nhà của chúng ta Các ví dụ thực tế sau đây: - Giám sát rừng: Sử dụng các thiết bị ghi âm để phát hiện tiếng động của động vật, từ đó giúp các nhà khoa học theo dõi đa dạng sinh học và đánh giá tình trạng của rừng

- Phát hiện sự cố: Các nhà máy công nghiệp sử dụng hệ thống giám sát âm thanh để phát hiện ra những tiếng động bất thường, từ đó ngăn ngừa các sự cố như hỏng máy,

rò rỉ hóa chất

2.2.3 Trong y tế

Âm thanh đóng vai trò quan trọng trong việc chẩn đoán và điều trị nhiều bệnh Siêu

âm, điện tâm đồ và các kỹ thuật y khoa khác dựa vào việc phân tích tín hiệu âm thanh

để chụp ảnh các cơ quan trong cơ thể và phát hiện những bất thường ở bệnh nhân

- Siêu âm giúp bác sĩ theo dõi sự phát triển của thai nhi và phát hiện sớm những bất thường

- Bằng cách phân tích âm thanh tim, bác sĩ có thể phát hiện sớm các bệnh tim mạch như hẹp van tim và suy tim

2.2.4 Trong giải trí và truyền thông

Âm nhạc, phim ảnh và trò chơi điện tử đều sử dụng âm thanh để tạo ra những trải nghiệm nhập vai và hấp dẫn Nhờ công nghệ xử lý âm thanh hiện đại, chúng ta có thể thưởng thức âm nhạc với chất lượng cao hơn, đắm chìm trong những bộ phim bom tấnvới hiệu ứng âm thanh sống động và trải nghiệm trò chơi với âm thanh chân thực đến từng chi tiết

- Âm nhạc: Phần mềm chỉnh sửa âm thanh giúp các nhà sản xuất âm nhạc tạo ra những bản nhạc độc đáo, chất lượng cao

Trang 19

- Podcast: Một hình thức truyền thông mới nổi, cho phép người nghe thưởng thức nhiều nội dung âm thanh đa dạng như truyện, bài giảng và phỏng vấn.

Âm thanh trong cuộc sống của chúng ta ngày càng trở nên thông minh và đa dạng hơnnhờ những tiến bộ trong nghiên cứu và ứng dụng Từ nhận dạng giọng nói đến phân tích âm thanh môi trường, âm thanh tạo ra những thay đổi tích cực trong nhiều lĩnh vực Với sự phát triển liên tục, chúng ta sẽ thấy nhiều ứng dụng mới và thú vị hơn của nghiên cứu âm thanh trong tương lai Âm thanh hứa hẹn sẽ tiếp tục đóng vai trò quan trọng trong việc làm cho cuộc sống của chúng ta tiến bộ hơn, hiện đại hơn và tốt đẹp hơn

2.3 NHỮNG THÁCH THỨC TRONG PHÂN LOẠI ÂM THANH

2.3.1 Dữ liệu bị nhiễu và chất lượng âm thanh

a) Dữ liệu bị nhiễu

- Được hiểu nôm na là một tập dữ liệu chứa dữ liệu vô nghĩa, thuật ngữ này được dùng để diễn tả một tập dữ liệu lỗi, có thể là một tệp dữ liệu mà máy móc không thể hiểu được thì đó cũng gọi là dữ liệu nhiễu

- Tập dữ liệu đó bị nhiễu tức là nó chứa quá nhiều thông tin mà cái bạn cần tìm chỉ là một thông tin nhỏ trong tập dữ liệu lớn ấy, điều đó sẽ dẫn đến quá trình tìm kiếm dữ liệu lâu hơn, tốn kém thời gian và công sức, hiệu năng công việc cũng sẽ giảm đi đáng

kể, nếu giao cho máy móc làm việc thì nó cũng sẽ gặp trở ngại lớn, bởi dữ liệu quá nhiều và không có sự sắp xếp trật tự nên khó mà có thể nhận diện được dữ liệu một cách nhanh chóng Thử nghĩ mà xem, trong một căn phòng lớn có quá nhiều người nóichuyện ồn ào thì lượng thông tin bạn nghe rất nhiều sẽ khiến bạn khó có thể theo dõi thông tin cuộc đối thoại chính của bạn và người trò chuyện đối diện, điều đó khiến bạn bị mất đi một số thông tin quan trọng mấu chốt mà bạn đang cần

https://www.techtarget.com/searchbusinessanalytics/definition/noisy-data

b) Chất lượng âm thanh

Các tiêu chí cơ bản để đánh giá chất lượng âm thanh gồm có:

+Độ trung thực của âm sắc: đây gần như là tiêu chí quan trọng nhất, nó phân biệt được nguồn âm do đâh phát ra, Bởi tính riêng biệt của mỗi âm thanh là khác nhau, nó

Trang 20

là tiêu chí đánh giá sự khác biệt giữa các thể loại âm thanh, có thể phân biệt được các loại âm thanh phát ra từ nhạc cụ, giọng hát của từng cá nhân

+ Sự rộng và sâu của không gian âm thanh: Tầng âm và trường âm là hai khái niệm liên quan đến không gian âm thanh Tầng âm thể hiện chiều sâu, trong khi trường âm

đề cập đến chiều rộng của âm thanh Một hệ thống âm thanh chất lượng cao phải tái tạo được không gian âm thanh một cách chân thực, giúp người nghe cảm nhận được vịtrí của từng nhạc cụ và sự phân bố của âm thanh trong không gian

+ Cường độ và mật độ âm thanh: Mật độ âm thanh là : Mật độ âm thanh, là một kháiniệm trong âm học dùng để chỉ mức độ mạnh mẽ của âm thanh Nó được đo lường bằng năng lượng âm thanh truyền qua một đơn vị diện tích trong một đơn vị thời gian + Sự trong trẻo và chi tiết của âm thanh: đề cập đến khả năng tái tạo âm thanh một cách rõ ràng, không bị méo hoặc nhiễu, cho phép người nghe nhận biết rõ ràng từng chi tiết nhỏ trong âm thanh

c) Đa dạng hóa các nguồn âm thanh

+ Dữ liệu nhiễu ngẫu nhiên: có thể xuất phát từ các lỗi phần cứng, phần mềm, từ các yếu tố ngẫu nhiên từ môi trường, lỗi kĩ thuật trong quá trình thu thập dữ liệu

+ Dữ liệu nhiễu có chủ đích: điều này là do một bộ phận nào đó gây ra, dùng để phá

dữ liệu của bạn, gây trở ngại cho ta khiến việc đưa ra kết quả gặp khó khăn, sắc xuất chính xác thấp

- Nguyên do gây nhiễu dữ liệu xuất phát từ nhiều phía khác nhau điển hình là:

phần cứng: các hệ thống đo lường, ghi nhận dữ liệu có thể bị lỗi

+Phần mềm: sự cố trong phần mềm cũng có thể gây ra sự cố trong xử lý dẫn đến tìnhtrạng dữ liệu nhiễu

+Tác động từ môi trường: có thể do điều kiện ánh sáng, độ ẩm, nhiệt độ có thể ảnh hưỡng đến việc thu thập dữ liệu gây ra tình trạng dữ liệu nhiễu

+Tác động của con người: có thể do sự sai sót trong quá trình thu thập và xử lý dữ liệu nên gây ra dữ liệu nhiễu

Trang 21

d) Yêu cầu về tài nguyên

-Tần số cao: Các tần số cao giúp làm nổi bật sự trong trẻo, vì chúng mang lại các chi tiết sắc nét và rõ ràng cho âm thanh

-Giảm nhiễu: Loại bỏ hoặc giảm thiểu nhiễu và các tạp âm không mong muốn giúp cảithiện sự trong trẻo

-Thiết bị chất lượng cao: Sử dụng thiết bị ghi âm và phát lại âm thanh chất lượng cao giúp đảm bảo sự trong trẻo của âm thanh

Sự chi tiết của âm thanh đề cập đến khả năng tái tạo các yếu tố phức tạp trong âm thanh một cách rõ ràng và phân biệt được từng chi tiết nhỏ như các nhạc cụ, giọng hát,hoặc âm thanh môi trường

- Dải tần số rộng: Hệ thống âm thanh với dải tần số rộng có khả năng tái tạo đầy đủ các yếu tố âm thanh từ âm trầm (bass) đến âm cao (treble)

-Tốc độ phản hồi: Thiết bị có khả năng phản hồi nhanh giúp bắt kịp các chi tiết phức tạp trong âm thanh mà không bị mất đi thông tin quan trọng

- Độ phân giải: Thiết bị ghi âm và phát lại với độ phân giải cao giúp tái tạo âm thanh chính xác và chi tiết hơn

+ Sự sống động và chân thật của âm thanh: âm thanh nghe có sống động chân thật hay không cũng là tiêu chi không kém phần quan trọng, điều này phụ thuộc vào hệ thống chất lượng âm thanh của bạn, sẽ tái tạo âm thanh một cách mạnh mẽ chân thực giúp người nghe cảm nhận được âm thanh một cách chân thực nhất

+Dải tần số: khả năng tái tạo đầy đủ các tần số từ thấp đến cao

+Độ chính xác âm thanh: khả năng tái tạo âm thanh đúng với nguồn gốc mà không bịbiến dạng

2.3.2 Phướng pháp xử lí dữ liệu nhiễu

Bộ lọc Kalman [24] là một tập hợp các phương trình toán học sử dụng dữ liệu đo lường nhiễu và không chính xác và cung cấp phương tiện tính toán hiệu quả (đệ quy)

Trang 22

để ước tính các giá trị quá khứ, hiện tại hoặc tương lai, theo cách giảm thiểu giá trị trung bình của lỗi bình phương.

Để chứng minh hiệu quả của phương pháp này chúng ta sẽ có một phép thử mô phỏngnhư sau

float u0 = 100.0; // giá trị thực (không đổi)

Trang 24

Kết quả hiển thị trên Serial plotter:

Xem lại code bên trên ta thấy có vài điều như sau:

-Gọi u0=100.0 là giá trị thực tế của vật thể, cũng là giá trị mà ta mong muốn thu được,

vì u0 là hằng số, (nếu như không có nhiễu) Lý tưởng thì trên đồ thị ta sẽ thu được mộtđường thẳng song song với trục thời gian t

-Thường thì nhiễu chỉ dao động trong khoảng e=±10% giá trị thực đã được coi là rất

ồn rồi (noise)

-Để tăng độ khó, mình đã cố ý cho e=±100% u0 bằng hàm Random khiến cho giá trị

đo bị nhiễu hoàn toàn và gần như rất khó để thu thập lẫn tính toán sau này

a) Sử dụng bộ lọc Kalman

-Như đã thống nhất, trong thực tế u0 là giá trị chúng ta không biết, việc sử dụng bộ lọc

sẽ phải giúp ta loại bỏ các nhiễu, khi đó giá trị đo được phải gần đường u0=100 hơn

Trang 25

-Vì đây là mô phỏng nên giá trị u0 cần được cho trước (chỉ mình và bạn biết) để có thể kiểm chứng tính đúng đắn của kết quả trước và sau khi lọc (bằng cách trộn u0 với nhiễu rồi cho arduino lọc)

-So với code bên trên ,phần code này chỉ cần thêm một dòng lệnh duy nhất:

Gọi u_kalman  là giá trị đo đã qua bộ lọc Kalman:

float u; // giá trị đo được (có thêm nhiễu)

float u_kalman; // giá được lọc nhiễu

Trang 26

Và đây là kết quả khi sử dụng thêm bộ lọc:

-Đường màu xanh: u

-Đường màu vàng: u_kalman

-Dừng lại một chút để quan sát đồ thị, hẳn bạn cũng đồng ý với mình thuật toán lọc Kalman tỏ ra rất hiệu quả, có những lúc nhiễu dồn ra biên cực đại (±100%u0) nhưng giá trị vẫn khá sát đường u0

Ngày đăng: 03/12/2024, 12:00

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w