-Đáp ứng nhu cầu nghiên cứu trong lĩnh vực khoa học dữ liệu: với sự phát triển ngày càng vượt bậc của khoa học dữ liệu, như cầu về các ứng dụng kĩ thuật phân loại, nghiên cứu và xử lý â
Trang 1BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG GIAO THÔNG VẬN TẢI THÀNH PHỐ HỒ CHÍ MINH
VIỆN ĐÀO TẠO CHẤT LƯỢNG CAO
**********
TIỂU LUẬN
ĐỀ TÀI: PHÂN LOẠI ÂM THANH
Trí Tuệ Nhân Tạo Và Ứng Dụng – 23-02
Giảng viên : Trần Minh Quang
Lớp học phần : 012008010472
Nhóm 7
Năm học : 2024-2025
Trang 2Thành phố Hồ Chí Minh ngày 20 tháng 11 năm 2024
THÀNH VIÊN PHỤ TRÁCH NHÓM 7
VƯƠNG KIM THOA
LƯU MINH THƯ
NGUYỄN NGỌC QUỲNH
HUỲNH THỊ THANH THẢO
ROÃN THỊ ANH THƯ
Trang 3MỤC LỤC
1.4.1 Thu thập và tiền xử lý các dữ liệu của âm 9
2.1.2 Các phương pháp phân tích các loại âm thanh 112.1.2 Các ứng dụng của AI vào phân tích âm thanh 13
2.3.1 Dữ liệu bị nhiễu và chất lượng âm thanh 17
Trang 42.3.2 Phướng pháp xử lí dữ liệu nhiễu 20
2.4.1 Đoạn code mẫu về phân biệt âm thanh giữa chó và mèo 29
Trang 5LỜI MỞ ĐẦU
Âm thanh trong cuộc sống là một điều tất yếu Nhờ âm thanh mà cuộc sống trở nên thú vị, sinh động hơn, tạo nên từng bối cảnh và nhiều khung bậc cảm xúc cho từng khoảng khoảnh khắc cuộc sống thế giới, không riêng gì của con người Âm thanh không dừng lại là trải nghiệm thính giác của con người mà nó còn tác động lên tâm lí
và thói quen sinh hoạt của con người Từ tiếng gà gáy, chim hót, xe cộ hay những tiếng reo từ báo thức hay đến những giai điệu du dương của các loại nhạc cụ, lời ca
Đó là những gì âm thanh gây ra ảnh hưởng lên tâm lí và hoạt động cho con người Để
am hiểu rõ hơn về ý nghĩa cũng như nguồn gốc của âm thanh, việc phân loại âm thanh
là hoàn toàn phù hợp để hiểu rõ vai trò của chúng mang lại và đồng thời đưa chúng ứng dụng vào nhiều mặt lĩnh vực trong đời sống thường ngày, giao tiếp cơ bản giữa người với người, phục vụ cho nhu cầu giải trí, công nghệ số và đặc biệt là sự đóng góp
to lớn cho nền giáo dục loài người Lời mở đầu của bài tiểu luận xin được khép lại để
mở ra một trang mới đưa chúng ta đến với sâu hơn và tìm hiểu một cách chi tiết về cáiphương pháp phân loại âm thanh, những ứng dụng thực tiễn trong đời sống và vai trò đóng góp to lớn của âm thanh trong cuộc sống xã hội loài người trước và nay
Hy vọng lời mở đầu này là một bước đệm giúp người đọc có tinh thần và nền tảng tốt nhất để hiểu sâu và phát triển thêm những nội dung của bài tiểu luận
1.PHẦN MỞ ĐẦU
1.1 GIỚI THIỆU ĐỀ TÀI
Âm thanh là các dao động cơ học (thay đổi vị trí qua lại) của các phân tử, nguyên tử hoặc hạt cấu thành vật chất, và nó lan truyền trong vật chất như những sóng Giống như nhiều loại sóng khác, âm thanh được đặc trưng bởi các yếu tố như tần số, bước sóng, chu kỳ, biên độ, và tốc độ lan truyền (tốc độ âm thanh
Đối với khả năng nghe của con người, âm thanh thường là sự dao động trong dải tần
số từ khoảng 16 Hz đến 20.000 Hz của các phân tử không khí Âm thanh đập vào màng nhĩ, gây rung động cho màng nhĩ và kích thích não bộ Tuy nhiên, âm thanh cũng có thể được định nghĩa rộng hơn, tùy thuộc vào ứng dụng, bao gồm cả các tần sốcao hơn hoặc thấp hơn tần số mà tai người có khả năng nhận biết, không chỉ lan
Trang 6truyền trong không khí mà còn truyền trong bất cứ vật liệu nào Trong định nghĩa rộngnày, âm thanh là sóng cơ học và theo lưỡng tính sóng hạt của vật chất, sóng này có thểcoi là dòng lan truyền của các hạt phonon, các hạt lượng tử của âm thanh.
Cả tiếng ồn và âm nhạc đều là các âm thanh Trong việc truyền tín hiệu bằng âm thanh, tiếng ồn là các dao động ngẫu nhiên không mang tín hiệu
(Nguồn Wikipedia Tiếng Việt)
Phân tích âm thanh không chỉ là một lĩnh vực khoa học đang phát triển nhanh chóng
mà còn giữ vai trò quan trọng trong nhiều ngành công nghiệp từ giải trí, y tế đến công nghệ thông tin Việc nắm vững các khái niệm cơ bản trong phân tích âm thanh sẽ giúpchúng ta hiểu rõ hơn về quy trình thu thập, xử lý và phân tích âm thanh Nội dung này
sẽ trình bày những khái niệm thiết yếu nhất trong lĩnh vực này, bao gồm tần số, biên
độ, cùng các kỹ thuật phân tích phức tạp như phân tích Fourier, ứng dụng máy học trong phân tích âm thanh và những ứng dụng thực tiễn của chúng trong cuộc sống hàng ngày
Phân loại âm thanh có vai trò quan trọng trong nhiều lĩnh vực từ trước đến nay, đặc biệt là trong xã hội phát triển như hiện nay Nó hiện diện trong nhiều lĩnh vực như công nghệ thông tin, tâm lý học, giải trí và môi trường thực tiễn của con người Nhiều nghiên cứu đã đề xuất các phương pháp khác nhau cho ứng dụng này Tuy nhiên, điềuquan trọng nhất là những thách thức mà chính ứng dụng này phải đối mặt
1.2 LÝ DO CHỌN ĐỀ TÀI NGHIÊN CỨU
Nghiên cứu về phân loại âm thanh là một trong những lĩnh vực đặc biệt thu hút sự quan tâm của độc giả và xứng đáng được lan truyền rộng rãi Đây là một kiến thức mới trong kho tàng tri thức của nhân loại Đối với các nhà nghiên cứu và những ngườiđam mê lĩnh vực này, thông tin về nó có thể đã khá quen thuộc, tuy nhiên vẫn còn nhiều người chưa biết đến Bài luận này sẽ là một bước khởi đầu nhỏ nhằm mở rộng hiểu biết về chủ đề này Chúng ta sẽ cùng tìm hiểu về nguồn gốc, phương pháp nghiêncứu, ý nghĩa và lý do lựa chọn đề tài cho bài luận này
Trang 7-Lý do để chọn đề tài Phân loại âm thanh làm nghiên
cứu Vẻ đẹp tầm quan trọng của âm thanh hiện diện trong đời sống hàng ngày Từ âm
thanh tự nhiên đến âm thanh nhân tạo: tiếng chim hót bên tai hay tiếng còi xe ồn ào cùng các tín hiệu báo động Nghiên cứu này giúp chúng ta hiểu rõ hơn về môi trường xung quanh, cũng như khả năng cảm nhận và phản hồi đối với những tín hiệu âm thanh đa dạng trong cuộc sống
-Tính ứng dụng đa lĩnh vực công nghệ: Là bước đệm quan trọng trong lĩnh vực
công nghệ hiện nay Một số ứng dụng tiêu biểu bao gồm: trợ lý ảo (Siri, Google Assistant) và hệ thống giám sát Phân loại âm thanh hỗ trợ tối ưu hóa các tác vụ này, nâng cao khả năng ứng dụng và hiệu quả thực tế, đặc biệt là trong các thiết bị thông minh và Internet of Things
-Tác động đến tinh thần sức khỏe và tâm lý của con người: Tùy theo từng âm
thanh mà nó có khả năng tác động đến cảm xúc, tinh thần của con người Từ đó, nghiên cứu có thể đề xuất những cách tiếp cận tốt nhất về sức khỏe và tâm lý Tránh những âm thanh phức tạp gây ảnh hưởng tới sức khỏe con người
-Nâng cao chất lượng môi trường sống: Giảm ô nhiễm tiếng ồn ở đô thị, giảm tác
động tiêu cực và nâng cao chất lượng cuộc sống Thực hiện các bước thiết thực để giảm thiểu tiếng ồn
-Nền tảng cho nghiên cứu lĩnh vực trí tuệ nhân tạo và học máy: Phân loại âm
thanh là một bài toán quan trọng trong lĩnh vực trí tuệ nhân tạo và học máy Đây là nền tảng vững chắc để hỗ trợ các ứng dụng trí tuệ nhân tạo như công nghệ nhận dạng giọng nói, phân tích cảm xúc âm thanh, nhận dạng giọng nói hỗ trợ lái xe tự động Tiềm năng chuyển đổi ngôn ngữ và xử lý máy tính (thị giác máy tính)
-Xử lý hiệu quả âm thanh và các phương pháp trích xuất: tạo cơ hội phát triển cho
các công nghệ tín hiệu và phân tích âm thanh tiên tiến, nâng cao khả năng nhận diện, tối ưu hóa và tách được riêng lẻ các hệ thống âm thanh một cách chính xác
Trang 8-Thúc đẩy tiềm năng tương tác với người dùng của các hệ thống âm thanh thông minh: đưa ra trải nghiệm tốt nhất cho người dùng trong mảng hệ thống âm thanh
thông minh, ví dụ như người dùng trao tiếp với trợ lý ảo, điều khiển giọng nói và các thiết bị hỗ trợ âm thanh cho người dùng Mở ra tiềm nằng về mặt dịch vụ và sản phẩmkinh tế phục vụ cho con người
-Đáp ứng nhu cầu nghiên cứu trong lĩnh vực khoa học dữ liệu: với sự phát triển
ngày càng vượt bậc của khoa học dữ liệu, như cầu về các ứng dụng kĩ thuật phân loại, nghiên cứu và xử lý âm thanh không ngừng tăng, đề tài không dừng lại ở mức mở rộng kiến thức về dữ liệu âm thanh mà còn đáp ứng những nhu cầu thực tiến cho khai thác và xử lí dữ liệu trong kỉ nguyên công nghệ số mới
Với những nội dung trên chính là lý do thích đáng công nhận việc nghiên cứu đề tài “ Phân loại âm thanh” là một nghiên cứu có ý nghĩa trong nhận thức âm thanh của đời sống mà còn thúc đẩy phát triển công nghệ, cải thiện chất lượng sống và là bước đệm cho nghiên cứu cứu mới trong khoa học và công nghệ
1.3.PHẠM VI VÀ MỤC ĐÍCH NGHIÊN CỨU
1.3.1 Phạm vi nghiên cứu
Âm thanh trong đời sống là một chủ đề rộng lớn mà con người có thể khai thác được
vô vàng nội dung, do đó phạm vi mà chính đề tài này mang lại rất rộng rãi và đa dạng:
*Sự đặc trưng của âm thanh:
-Trích xuất: nghiên cứu ra những phương pháp trích xuất bởi các đặc trưng âm thanh một cách hiệu quả Điển hình như MFCC, Mel-spectrogram, Chroma, những phương pháp này có thể biểu diễn âm thanh dưới dạng các vecto số liệu
-Phân tích sự đặc trưng: cách phân tích này đưa ra được nhưng đặc điểm đặc trưng củatừng loại âm thanh, giúp hỗ trợ phận biệt được chúng với nhau
*Thuật toán phân loại:
-Học máy: xây dựng các mô hình phân loại từ cách ứng dụng các thuật toán học máy như SVM, Random Forest, Neural Network
Trang 9-Học sâu: sử dụng các mạng thần kinh sâu như CNN, RNN để trình bày những đặc trưng phức tạp và tăng cải thiện độ chính xác cho mô hình.
*Các cơ sở dữ liêu của âm thanh:
-Xây dựng dữ liệu từ cơ sở: ứng dụng vào huấn luyện và đánh giá các mô hình phân loại từcacs cơ sở dữ liệu âm thanh lớn
-Tiền xử lý dữ liệu: loại bỏ được sự nhiễu âm thanh, chuẩn hóa được âm lượng và trích xuất các đoạn âm thanh có ý nghĩa cho những ứng dụng sau này
-Cải thiện độ chính xác: tặng sự chính xác các mô hình phân loai bằng cách sử dụng các thuật toán và đặc trưng mới
-Giảm thiểu được thời gian tính toán: yêu cầu được máy tính cs cấu hình cao và thời gian tính toán lâu dài bằng các thuật toán học sâu
-Mở rộng phạm vi ứng dụng: được áp dụng từ các kĩ thuật phân loại âm thanh vào các lĩnh vực mới và giải quyết được các vấn đề thực tế
Trang 10-Nâng cao khả năng thích ứng: việc xây dựng các mô hình có khả năng thích ứng với các loại âm thanh mới và các điều kiện từ những môi trường khác nhau
1.3.3 Thách thức nghiên cứu
Độ phức tạp của âm thanh, tình trạng thiếu dữ liệu và tính toán một cách phức tạp.Phân loại âm thanh là một lĩnh vực nghiên cứu đa dạng và sâu rộng đầy tiềm năng, song đó là việc áp dụng thực tiễn cho nhiều ứng dụng Việc này song hành với phát triển kĩ thuật phân loại âm thanh hiệu quả sẽ thúc đẩy đóng góp vào sự phát triển của nhièu ngành công nghiệp và tăng cường cải thiện được chất lượng cuộc sống của con người
1.4 PHƯƠNG PHÁP NGHIÊN CỨU
Phương pháp này đòi hỏi sự kết hợp ăn ý giữa lý thuyết và thực hành Tiếp theo đây làphần nội dung thể hiện cho phương pháp nghiên cứu trong linh vực “Phân loại âm thanh”:
1.4.1 Thu thập và tiền xử lý các dữ liệu của âm
*Thu thập dữ liệu: xây dựng được các cơ sở dữ liệu âm thanh lớn và rất đa dạng,
bao gồm nhiều loại âm thanh khác nhau(giọng nói, tiếng ồn, ), hay từ nhiều nguồn khác(thu âm, âm thanh mở )
Trang 111.4.2 Trích xuất đặc trưng âm thanh
*Đặc trưng phổ biến: MFCC, Mel-spectrogram, Chroma, phổ tần số.
*Đặc biệt thời gian: Âm thanh độ dài, năng lượng, tốc độ chuyển mạch bằng 0 *Đặc điểm thống kê: Trung bình, phương pháp sai, độ lệch
*Đặc biệt dựa trên mô hình: Sử dụng các mô hình học sâu để tự động trích xuất
các phức tạp đặc biệt
1.4.3 Phân loại thuật toán
*Học máy truyền thống: SVM, Navie Bayes, K-Nearest Neighbors.
*Học sâu: mạng thần kinh chập (CNN), mạng thần kinh tái diễn(RNN),
Transformer
*Các thuật toán khác: GMM,HMM
1.4.4 Huấn luyện và đánh giá mô hình
*Phân chia dữ liệu: chia dữ liệu thành tập huấn luyện, tập kiểm tra và tập xác
thực
*Huấn luyện: sử dụng thuật toán đã chọn để huấn luyện mô hình trên tập huấn
luyện
*Đánh giá: Đánh giá hiệu suất của màn hình trên kiểm tra và xác thực bằng các
chỉ số như độ chính xác, độ nhạy, đặc điểm kỹ thuật, điểm F1
1.4.5 Tối ưu hóa mô hình
*Điều chỉnh được tham số: tìm kiếm những giá trị siêu tham số để tối ưu cho
thuật toán đã được chọn
*Kỹ thuật tăng cường: áp dụng kĩ thuật như dropout, data augmentation để tăng
khả năng tổng quát mô hình
* Ensemble learning: Kết hợp nhiều mô hình để nâng cao độ chính xác
1.4.6 Ứng dụng và triển khai
* Nhận giọng nói dạng: Xác định người nói, chuyển văn bản thành lời nói.
Trang 12*Phân tích âm nhạc: Nhận dạng thể loại nhạc, nhạc cụ, cảm xúc trong âm nhạc *Giám sát môi trường: Phân loại tiếng ồn giao thông, tiếng động vật.
*Y tế: Phân loại loại thời gian, loại tiếng ồn để hỗ trợ dự đoán bệnh.
-Thời gian thực: bài toán cần có hiệu suất cao
Một ví dụ điển hình cho xây dựng hệ thống phân loại âm thanh đơn giản:
Ví dụ code đơn giản với Python và thư viện LibROSA, Scikit-learn:
(Lưu ý: Đây chỉ là một ví dụ đơn giản)
Trang 132.PHẦN NỘI DUNG
2.1 KHÁI NIỆM VÀ PHÂN BIỆT CÁC LOẠI ÂM THANH
2.1.1 Khái niệm về âm thanh
Âm thanh là các dao động cơ học (thay đổi vị trí qua lại) của các phân tử, nguyên tử hoặc hạt cấu thành vật chất, và nó lan truyền trong vật chất như những sóng Giống như nhiều loại sóng khác, âm thanh được đặc trưng bởi các yếu tố như tần số, bước sóng, chu kỳ, biên độ, và tốc độ lan truyền (tốc độ âm thanh)
2.1.2 Các phương pháp phân tích các loại âm thanh
a) Biến đổi fourier
Biến đổi Fourier là một kỹ thuật toán học quan trọng trong phân tích âm thanh, cho phép chúng ta chuyển đổi tín hiệu thời gian thành miền tần số Biến đổi Fourier nhanh(FFT) là phiên bản được tối ưu hóa, được sử dụng rộng rãi trong xử lý âm thanh kỹ thuật số để phân tích các thành phần tần số chi tiết của tín hiệu Biến đổi Fourier cho phép chúng ta xác định các tần số thành phần trong tín hiệu âm thanh phức tạp, cung cấp góc nhìn chi tiết và rõ ràng hơn về cấu trúc tần số của âm thanh
b) MFCC
Một kỹ thuật trích xuất đặc điểm được sử dụng rộng rãi trong xử lý giọng nói và âm thanh MFCC được sử dụng để biểu diễn các đặc điểm phổ của âm thanh theo cách phù hợp với nhiều tác vụ học máy khác nhau, chẳng hạn như nhận dạng giọng nói và phân tích âm nhạc MFCC là một tập hợp các hệ số xác định hình dạng của phổ công suất của tín hiệu âm thanh Chúng được lấy ra bằng cách biến đổi tín hiệu âm thanh gốc thành miền tần số bằng một kỹ thuật như Biến đổi Fourier rời rạc (DFT), sau đó
áp dụng thang đo mel để mô phỏng chặt chẽ nhận thức thính giác của con người về tần
số âm thanh Cuối cùng, các hệ số cepstral được tính toán từ phổ được chia tỷ lệ mel
Trang 14c) Phổ âm (Spectrograms)
Phổ âm thanh là sự phân bố biên độ tín hiệu theo tần số, thể hiện cường độ của các thành phần tần số khác nhau trong tín hiệu âm thanh Phổ có thể được biểu diễn dưới dạng phổ biên độ hoặc phổ công suất Phân tích quang phổ giúp xác định cấu trúc tần
số của âm thanh và là công cụ hữu ích và thường được sử dụng để xác định các đặc tính âm thanh, chẳng hạn như trong nhận dạng giọng nói hoặc phân tích giọng nói (thanh#:~:text=Phổ%20âm%20thanh%20(Spectrum),một%20tín%20hiệu%20âm
%20thanh)
2.1.2 Các ứng dụng của AI vào phân tích âm thanh
a) Học máy giám sát (Supervised learning)
Là công cụ hỗ trợ cho bộ phân loại âm thanh, Learning Monitor có tính ứng dụng cao trong quá trình phân tích âm thanh bằng cách huấn luyện các mô hình machine
learning trên dữ liệu âm thanh được gắn nhãn Cần thiết Học máy có giám sát trong phân tích âm thanh có thể bao gồm: nhận dạng giọng nói, phân loại âm thanh, tách giọng nói của con người và nhạc nền,
b) Học sâu (Deep learning)
Deep learning hiện được biết đến như một trợ thủ đắc lực và hữu ích cho con người trong việc phân tích âm thanh Với ưu điểm của mình là có thể xử lý những dữ liệu phức tạp với kích thước lớn (Big data), điều mà các phương pháp học máy truyền thống khó thực hiện được Mô hình deep learning có thể tự động trích xuất các tính
Trang 15năng từ dữ liệu âm thanh gốc mà không cần phải dựa vào các tính năng được thiết kế sẵn Một số ứng dụng nổi bật mà mô hình deep learning có thể thực hiện trong phân tích âm thanh: nhận dạng người nói, chuyển đổi văn bản thành giọng nói, cải thiện chất lượng âm thanh, phân loại âm thanh,
c) Support Vector Machines (SVM)
Nguyên lý: SVM là một thuật toán học có giám sát được sử dụng cho các bài toán
phân loại và hồi quy SVM tìm ra một siêu phẳng tối ưu để phân tách các điểm dữ liệuthuộc các lớp khác nhau
Ứng dụng trong phân loại âm thanh:
Trích xuất đặc trưng: Đầu tiên, các đặc trưng âm thanh như Mel-Frequency Cepstral
Coefficients (MFCCs), Spectrograms, Chroma Features được trích xuất từ dữ liệu âm thanh
Huấn luyện mô hình: SVM được huấn luyện trên tập hợp đặc trưng này để phân loại
âm thanh thành các lớp khác nhau như tiếng còi xe, tiếng chim hót, tiếng người nói, v.v
d) K-Nearest Neighbors (KNN)
Nguyên lý: KNN là một thuật toán học không tham số được sử dụng cho các bài toán
phân loại và hồi quy KNN phân loại một điểm dữ liệu dựa trên sự gần gũi của nó với các điểm dữ liệu trong tập huấn luyện
Ứng dụng trong phân loại âm thanh:
Trích xuất đặc trưng: Các đặc trưng âm thanh được trích xuất tương tự như đối với
SVM
Huấn luyện mô hình: Mô hình KNN được sử dụng để phân loại điểm dữ liệu mới
dựa trên sự gần gũi của nó với các điểm dữ liệu đã biết trong không gian đặc trưng
e) Convolutional Neural Networks (CNN)
Nguyên lý: CNN là một loại mạng nơ-ron sâu đặc biệt hiệu quả trong việc xử lý dữ
liệu hình ảnh và dữ liệu âm thanh dưới dạng ma trận (spectrogram)
Trang 16Ứng dụng trong phân loại âm thanh:
Trích xuất đặc trưng: Thay vì sử dụng các kỹ thuật trích xuất đặc trưng truyền
thống, CNN có thể học trực tiếp từ các đặc trưng của âm thanh được biểu diễn dưới dạng spectrograms hoặc các biểu đồ khác
Huấn luyện mô hình: CNN được huấn luyện trên các biểu diễn này để nhận diện và
phân loại các loại âm thanh khác nhau CNN có khả năng tự động phát hiện các mẫu phức tạp trong dữ liệu âm thanh mà không cần phải trích xuất đặc trưng thủ công
f) Recurrent Neural Networks (RNN) và Long Short-Term Memory (LSTM) Nguyên lý: RNN và LSTM là các loại mạng nơ-ron sâu đặc biệt hiệu quả trong việc
xử lý dữ liệu tuần tự như dữ liệu thời gian (time-series data)
Ứng dụng trong phân loại âm thanh:
Trích xuất đặc trưng: Tương tự như CNN, RNN/LSTM có thể xử lý dữ liệu âm
thanh dưới dạng spectrogram hoặc các biểu diễn khác
Huấn luyện mô hình: RNN/LSTM được huấn luyện để phân loại âm thanh bằng cách
học các mẫu và quan hệ tuần tự trong dữ liệu âm thanh LSTM đặc biệt hiệu quả trongviệc xử lý các vấn đề về hồi quy và phụ thuộc thời gian dài
g) Random Forests
Nguyên lý: Random Forests là một thuật toán học có giám sát dựa trên việc xây dựng
nhiều cây quyết định (decision trees) và kết hợp các dự đoán của chúng để cải thiện độchính xác và tránh overfitting
Ứng dụng trong phân loại âm thanh:
Trích xuất đặc trưng: Các đặc trưng âm thanh được trích xuất và sử dụng như đầu
vào cho Random Forests
Huấn luyện mô hình: Mô hình Random Forests được huấn luyện trên các đặc trưng
này để phân loại âm thanh môi trường với độ chính xác cao
Trang 17h) Deep Belief Networks (DBN)
Nguyên lý: DBN là một loại mạng nơ-ron sâu bao gồm nhiều lớp Boltzmann
(Restricted Boltzmann Machines - RBMs) được huấn luyện để nhận diện các đặc trưng phức tạp từ dữ liệu
Ứng dụng trong phân loại âm thanh:
Trích xuất đặc trưng: DBN có thể học các đặc trưng từ dữ liệu âm thanh mà không
cần trích xuất đặc trưng thủ công
Huấn luyện mô hình: DBN được huấn luyện để phân loại âm thanh dựa trên các đặc
trưng học được từ dữ liệu thô
2.2 ỨNG DỤNG TỪ NGHIÊN CỨU
Âm thanh từ lâu đã là một phần không thể thiếu trong cuộc sống của chúng ta Nó không chỉ là phương tiện giao tiếp hàng ngày mà còn là công cụ để khám phá thế giới xung quanh chúng ta Tuy nhiên, trong thời đại kỹ thuật số, âm thanh đã được đưa lên một tầm cao mới Nhờ những tiến bộ trong nghiên cứu và ứng dụng, âm thanh hiện không chỉ là sóng âm mà còn là ngôn ngữ mà máy móc có thể hiểu và tương tác Từ điện thoại thông minh đến các thiết bị y tế hiện đại, âm thanh đóng vai trò quan trọng trong việc truyền tải thông tin, tương tác và tạo ra những trải nghiệm mới Vậy, làm thế nào công nghệ có thể "hiểu" và sử dụng âm thanh một cách hiệu quả như vậy?
2.2.1 Nhận diện giọng nói
Một trong những ứng dụng nổi bật nhất của nghiên cứu âm thanh là nhận dạng giọng nói Các trợ lý ảo như Siri, Alexa hay Google Assistant đã trở thành người bạn đồng hành không thể thiếu trong cuộc sống hàng ngày Chỉ cần một lệnh thoại đơn giản, chúng ta có thể thực hiện vô số tác vụ, từ tìm kiếm thông tin trên internet đến điều khiển các thiết bị thông minh trong nhà Nhận dạng giọng nói cũng được sử dụng rộngrãi trong lĩnh vực bảo mật, giúp xác thực danh tính người dùng một cách an toàn và tiện lợi
- Ứng dụng Google Translate giúp người dùng dịch nhiều ngôn ngữ khác nhau chỉ bằng cách nói
Trang 18- Người khiếm thị có thể sử dụng trợ lý ảo để đọc sách và email.
2.2.2 Phân tích âm thanh môi trường
Nhờ các thuật toán phân tích âm thanh, máy tính có thể phát hiện ra những tiếng động bất thường, từ đó giúp chúng ta dự đoán và ngăn ngừa các sự cố nguy hiểm như cháy
nổ, rò rỉ khí gas Ngoài ra, công nghệ này còn được ứng dụng trong lĩnh vực an ninh, giúp phát hiện ra những tiếng động lạ để đảm bảo an toàn cho ngôi nhà của chúng ta Các ví dụ thực tế sau đây: - Giám sát rừng: Sử dụng các thiết bị ghi âm để phát hiện tiếng động của động vật, từ đó giúp các nhà khoa học theo dõi đa dạng sinh học và đánh giá tình trạng của rừng
- Phát hiện sự cố: Các nhà máy công nghiệp sử dụng hệ thống giám sát âm thanh để phát hiện ra những tiếng động bất thường, từ đó ngăn ngừa các sự cố như hỏng máy,
rò rỉ hóa chất
2.2.3 Trong y tế
Âm thanh đóng vai trò quan trọng trong việc chẩn đoán và điều trị nhiều bệnh Siêu
âm, điện tâm đồ và các kỹ thuật y khoa khác dựa vào việc phân tích tín hiệu âm thanh
để chụp ảnh các cơ quan trong cơ thể và phát hiện những bất thường ở bệnh nhân
- Siêu âm giúp bác sĩ theo dõi sự phát triển của thai nhi và phát hiện sớm những bất thường
- Bằng cách phân tích âm thanh tim, bác sĩ có thể phát hiện sớm các bệnh tim mạch như hẹp van tim và suy tim
2.2.4 Trong giải trí và truyền thông
Âm nhạc, phim ảnh và trò chơi điện tử đều sử dụng âm thanh để tạo ra những trải nghiệm nhập vai và hấp dẫn Nhờ công nghệ xử lý âm thanh hiện đại, chúng ta có thể thưởng thức âm nhạc với chất lượng cao hơn, đắm chìm trong những bộ phim bom tấnvới hiệu ứng âm thanh sống động và trải nghiệm trò chơi với âm thanh chân thực đến từng chi tiết
- Âm nhạc: Phần mềm chỉnh sửa âm thanh giúp các nhà sản xuất âm nhạc tạo ra những bản nhạc độc đáo, chất lượng cao
Trang 19- Podcast: Một hình thức truyền thông mới nổi, cho phép người nghe thưởng thức nhiều nội dung âm thanh đa dạng như truyện, bài giảng và phỏng vấn.
Âm thanh trong cuộc sống của chúng ta ngày càng trở nên thông minh và đa dạng hơnnhờ những tiến bộ trong nghiên cứu và ứng dụng Từ nhận dạng giọng nói đến phân tích âm thanh môi trường, âm thanh tạo ra những thay đổi tích cực trong nhiều lĩnh vực Với sự phát triển liên tục, chúng ta sẽ thấy nhiều ứng dụng mới và thú vị hơn của nghiên cứu âm thanh trong tương lai Âm thanh hứa hẹn sẽ tiếp tục đóng vai trò quan trọng trong việc làm cho cuộc sống của chúng ta tiến bộ hơn, hiện đại hơn và tốt đẹp hơn
2.3 NHỮNG THÁCH THỨC TRONG PHÂN LOẠI ÂM THANH
2.3.1 Dữ liệu bị nhiễu và chất lượng âm thanh
a) Dữ liệu bị nhiễu
- Được hiểu nôm na là một tập dữ liệu chứa dữ liệu vô nghĩa, thuật ngữ này được dùng để diễn tả một tập dữ liệu lỗi, có thể là một tệp dữ liệu mà máy móc không thể hiểu được thì đó cũng gọi là dữ liệu nhiễu
- Tập dữ liệu đó bị nhiễu tức là nó chứa quá nhiều thông tin mà cái bạn cần tìm chỉ là một thông tin nhỏ trong tập dữ liệu lớn ấy, điều đó sẽ dẫn đến quá trình tìm kiếm dữ liệu lâu hơn, tốn kém thời gian và công sức, hiệu năng công việc cũng sẽ giảm đi đáng
kể, nếu giao cho máy móc làm việc thì nó cũng sẽ gặp trở ngại lớn, bởi dữ liệu quá nhiều và không có sự sắp xếp trật tự nên khó mà có thể nhận diện được dữ liệu một cách nhanh chóng Thử nghĩ mà xem, trong một căn phòng lớn có quá nhiều người nóichuyện ồn ào thì lượng thông tin bạn nghe rất nhiều sẽ khiến bạn khó có thể theo dõi thông tin cuộc đối thoại chính của bạn và người trò chuyện đối diện, điều đó khiến bạn bị mất đi một số thông tin quan trọng mấu chốt mà bạn đang cần
https://www.techtarget.com/searchbusinessanalytics/definition/noisy-data
b) Chất lượng âm thanh
Các tiêu chí cơ bản để đánh giá chất lượng âm thanh gồm có:
+Độ trung thực của âm sắc: đây gần như là tiêu chí quan trọng nhất, nó phân biệt được nguồn âm do đâh phát ra, Bởi tính riêng biệt của mỗi âm thanh là khác nhau, nó
Trang 20là tiêu chí đánh giá sự khác biệt giữa các thể loại âm thanh, có thể phân biệt được các loại âm thanh phát ra từ nhạc cụ, giọng hát của từng cá nhân
+ Sự rộng và sâu của không gian âm thanh: Tầng âm và trường âm là hai khái niệm liên quan đến không gian âm thanh Tầng âm thể hiện chiều sâu, trong khi trường âm
đề cập đến chiều rộng của âm thanh Một hệ thống âm thanh chất lượng cao phải tái tạo được không gian âm thanh một cách chân thực, giúp người nghe cảm nhận được vịtrí của từng nhạc cụ và sự phân bố của âm thanh trong không gian
+ Cường độ và mật độ âm thanh: Mật độ âm thanh là : Mật độ âm thanh, là một kháiniệm trong âm học dùng để chỉ mức độ mạnh mẽ của âm thanh Nó được đo lường bằng năng lượng âm thanh truyền qua một đơn vị diện tích trong một đơn vị thời gian + Sự trong trẻo và chi tiết của âm thanh: đề cập đến khả năng tái tạo âm thanh một cách rõ ràng, không bị méo hoặc nhiễu, cho phép người nghe nhận biết rõ ràng từng chi tiết nhỏ trong âm thanh
c) Đa dạng hóa các nguồn âm thanh
+ Dữ liệu nhiễu ngẫu nhiên: có thể xuất phát từ các lỗi phần cứng, phần mềm, từ các yếu tố ngẫu nhiên từ môi trường, lỗi kĩ thuật trong quá trình thu thập dữ liệu
+ Dữ liệu nhiễu có chủ đích: điều này là do một bộ phận nào đó gây ra, dùng để phá
dữ liệu của bạn, gây trở ngại cho ta khiến việc đưa ra kết quả gặp khó khăn, sắc xuất chính xác thấp
- Nguyên do gây nhiễu dữ liệu xuất phát từ nhiều phía khác nhau điển hình là:
phần cứng: các hệ thống đo lường, ghi nhận dữ liệu có thể bị lỗi
+Phần mềm: sự cố trong phần mềm cũng có thể gây ra sự cố trong xử lý dẫn đến tìnhtrạng dữ liệu nhiễu
+Tác động từ môi trường: có thể do điều kiện ánh sáng, độ ẩm, nhiệt độ có thể ảnh hưỡng đến việc thu thập dữ liệu gây ra tình trạng dữ liệu nhiễu
+Tác động của con người: có thể do sự sai sót trong quá trình thu thập và xử lý dữ liệu nên gây ra dữ liệu nhiễu
Trang 21d) Yêu cầu về tài nguyên
-Tần số cao: Các tần số cao giúp làm nổi bật sự trong trẻo, vì chúng mang lại các chi tiết sắc nét và rõ ràng cho âm thanh
-Giảm nhiễu: Loại bỏ hoặc giảm thiểu nhiễu và các tạp âm không mong muốn giúp cảithiện sự trong trẻo
-Thiết bị chất lượng cao: Sử dụng thiết bị ghi âm và phát lại âm thanh chất lượng cao giúp đảm bảo sự trong trẻo của âm thanh
Sự chi tiết của âm thanh đề cập đến khả năng tái tạo các yếu tố phức tạp trong âm thanh một cách rõ ràng và phân biệt được từng chi tiết nhỏ như các nhạc cụ, giọng hát,hoặc âm thanh môi trường
- Dải tần số rộng: Hệ thống âm thanh với dải tần số rộng có khả năng tái tạo đầy đủ các yếu tố âm thanh từ âm trầm (bass) đến âm cao (treble)
-Tốc độ phản hồi: Thiết bị có khả năng phản hồi nhanh giúp bắt kịp các chi tiết phức tạp trong âm thanh mà không bị mất đi thông tin quan trọng
- Độ phân giải: Thiết bị ghi âm và phát lại với độ phân giải cao giúp tái tạo âm thanh chính xác và chi tiết hơn
+ Sự sống động và chân thật của âm thanh: âm thanh nghe có sống động chân thật hay không cũng là tiêu chi không kém phần quan trọng, điều này phụ thuộc vào hệ thống chất lượng âm thanh của bạn, sẽ tái tạo âm thanh một cách mạnh mẽ chân thực giúp người nghe cảm nhận được âm thanh một cách chân thực nhất
+Dải tần số: khả năng tái tạo đầy đủ các tần số từ thấp đến cao
+Độ chính xác âm thanh: khả năng tái tạo âm thanh đúng với nguồn gốc mà không bịbiến dạng
2.3.2 Phướng pháp xử lí dữ liệu nhiễu
Bộ lọc Kalman [24] là một tập hợp các phương trình toán học sử dụng dữ liệu đo lường nhiễu và không chính xác và cung cấp phương tiện tính toán hiệu quả (đệ quy)
Trang 22để ước tính các giá trị quá khứ, hiện tại hoặc tương lai, theo cách giảm thiểu giá trị trung bình của lỗi bình phương.
Để chứng minh hiệu quả của phương pháp này chúng ta sẽ có một phép thử mô phỏngnhư sau
float u0 = 100.0; // giá trị thực (không đổi)
Trang 24Kết quả hiển thị trên Serial plotter:
Xem lại code bên trên ta thấy có vài điều như sau:
-Gọi u0=100.0 là giá trị thực tế của vật thể, cũng là giá trị mà ta mong muốn thu được,
vì u0 là hằng số, (nếu như không có nhiễu) Lý tưởng thì trên đồ thị ta sẽ thu được mộtđường thẳng song song với trục thời gian t
-Thường thì nhiễu chỉ dao động trong khoảng e=±10% giá trị thực đã được coi là rất
ồn rồi (noise)
-Để tăng độ khó, mình đã cố ý cho e=±100% u0 bằng hàm Random khiến cho giá trị
đo bị nhiễu hoàn toàn và gần như rất khó để thu thập lẫn tính toán sau này
a) Sử dụng bộ lọc Kalman
-Như đã thống nhất, trong thực tế u0 là giá trị chúng ta không biết, việc sử dụng bộ lọc
sẽ phải giúp ta loại bỏ các nhiễu, khi đó giá trị đo được phải gần đường u0=100 hơn
Trang 25-Vì đây là mô phỏng nên giá trị u0 cần được cho trước (chỉ mình và bạn biết) để có thể kiểm chứng tính đúng đắn của kết quả trước và sau khi lọc (bằng cách trộn u0 với nhiễu rồi cho arduino lọc)
-So với code bên trên ,phần code này chỉ cần thêm một dòng lệnh duy nhất:
Gọi u_kalman là giá trị đo đã qua bộ lọc Kalman:
float u; // giá trị đo được (có thêm nhiễu)
float u_kalman; // giá được lọc nhiễu
Trang 26Và đây là kết quả khi sử dụng thêm bộ lọc:
-Đường màu xanh: u
-Đường màu vàng: u_kalman
-Dừng lại một chút để quan sát đồ thị, hẳn bạn cũng đồng ý với mình thuật toán lọc Kalman tỏ ra rất hiệu quả, có những lúc nhiễu dồn ra biên cực đại (±100%u0) nhưng giá trị vẫn khá sát đường u0