Danh sách hình vẽ Hình 1.1 Thang âm lượng phát ra từ các loại âm thanh khác nhau 4 Hình 1.2 Thông tin cơ bản của một audio 5 Hình 1.3 Biểu diễn số hóa của một tín hiệu âm thanh 6 Hình
Trang 1PHÂN TÍCH TÍN HIỆU ÂM THANH ĐỂ NHẬN DIỆN TÌNH
TRẠNG SỨC KHỎE CỦA NGỰA
Sinh viên: Phạm Đức Long
Mã số sinh viên: 19010018 Khóa: 2019-2023
Ngành: Công nghệ thông tin Hệ: Đại học chính quy
Giảng viên hướng dẫn: TS Phạm Tiến Lâm
Hà Nội – Năm 2023
Copies for internal use only in Phenikaa University
Trang 2BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC PHENIKAA
ĐỒ ÁN TỐT NGHIỆP
PHÂN TÍCH TÍN HIỆU ÂM THANH ĐỂ NHẬN DIỆN TÌNH
TRẠNG SỨC KHỎE CỦA NGỰA
Sinh viên: Phạm Đức Long
Mã số sinh viên: 19010018 Khóa: 2019-2023
Ngành: Công nghệ thông tin Hệ: Đại học chính quy
Giảng viên hướng dẫn: TS Phạm Tiến Lâm
Hà Nội – Năm 2023
Copies for internal use only in Phenikaa University
Trang 3Copies for internal use only in Phenikaa University
Trang 4
Copies for internal use only in Phenikaa University
Trang 5BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC PHENIKAA
CỘNG HOÀ XÃ HỘI CHỦ NGHĨA VIỆT NAM
Độc lập - Tự do - Hạnh phúc
NHẬN XÉT ĐỒ ÁN/KHÓA LUẬN TỐT NGHIỆP
CỦA GIẢNG VIÊN PHẢN BIỆN
Giảng viên phản biện: Bộ môn:
Tên đề tài:
Sinh viên thực hiện: Lớp:
Giảng viên hướng dẫn:
- Đảm bảo tính cấp thiết, hiện đại, không trùng lặp:
- Nội dung:
- Mức độ thực hiện:
II Kết quả đạt được:
Copies for internal use only in Phenikaa University
Trang 6III Ưu nhược điểm:
IV Kết luận: Đồng ý cho bảo vệ: Không đồng ý cho bảo vệ:
Hà Nội, ngày tháng năm 20
GIẢNG VIÊN PHẢN BIỆN
(Ký, ghi rõ họ tên)
Copies for internal use only in Phenikaa University
Trang 7LỜI CAM ĐOAN
Tên tôi là: Phạm Đức Long
Mã sinh viên: 19010018 Lớp: K13-CNTT-KHDL
Ngành: Công nghệ thông tin
Tôi đã thực hiện đồ án/khóa luận tốt nghiệp với đề tài: Phân tích tín hiệu âm thanh
để nhận diện tình trạng sức khỏe của ngựa
Tôi xin cam đoan đây là đề tài nghiên cứu của riêng tôi và được sự hướng dẫn của: TS Phạm Tiến Lâm
Các nội dung nghiên cứu, kết quả trong đề tài này là trung thực và chưa được các tác giả khác công bố dưới bất kỳ hình thức nào Nếu phát hiện có bất kỳ hình thức gian lận nào tôi xin hoàn toàn chịu trách nhiệm trước pháp luật
GIẢNG VIÊN HƯỚNG DẪN
Trang 8Lời cảm ơn
Qua 4 năm học tập và rèn luyện tại trường Trường Đại học Phenikaa, được sự chỉ bảo và giảng dạy nhiệt tình của quý thầy cô, đặc biệt là quý thầy cô khoa Công nghệ thông tin đã truyền đạt cho em những kiến thức về lý thuyết và thực hành trong suốt thời gian học ở trường Và trong thời gian thực tập tại Công ty Cổ phần Phenikaa-
X em đã có cơ hội áp dụng những kiến thức học ở trường vào thực tế ở công ty, đồng thời học hỏi được nhiều kinh nghiệm thực tế tại công ty Cùng với sự nỗ lực của bản thân, em đã hoàn thành khóa tốt nghiệp của mình
Từ những kết quả đạt được này, em xin chân thành cảm ơn:
Quý thầy cô trường Trường Đại học Phenikaa, đã truyền đạt cho em những kiến thức bổ ích trong thời gian qua Đặc biệt, là thầy TS Phạm Tiến Lâm đã tận tình hướng dẫn em hoàn thành tốt báo cáo tốt nghiệp này
Ban Giám đốc công ty Công ty Cổ phần Phenikaa-X và anh em nhân viên phòng Robotics đã tạo mọi điều kiện thuận lợi cho em trong thời gian thực tập
Do kiến thức còn hạn hẹp nên không tránh khỏi những thiếu sót trong cách hiểu, lỗi trình bày Em rất mong nhận được sự đóng góp ý kiến của quý thầy cô và để báo cáo tốt nghiệp đạt được kết quả tốt hơn
Cuối cùng em xin chân thành cảm ơn gia đình, người thân, bạn bè đã quan tâm, động viên, giúp đỡ em trong quá trình học tập, thực tập và thực hiện khóa luận vừa qua
Copies for internal use only in Phenikaa University
Trang 9MỤC LỤC
LỜI CAM ĐOAN i
Lời cảm ơn ii
Danh sách hình vẽ v
Danh sách bảng vii
Danh sách tên viết tắt viii
MỞ ĐẦU 1
CHƯƠNG 1: TỔNG QUAN VỀ TÍN HIỆU ÂM THANH 4
1.1 Định nghĩa âm thanh 4
1.2 Âm thanh số hóa (digital sound – audio) 5
1.3 Các định dạng file audio 7
CHƯƠNG 2: TRÍCH CHỌN ĐẶC TRƯNG CỦA ÂM THANH 8
2.1 Khái quát về đặc trưng chính của âm thanh 8
2.2 Các đặc trưng âm thanh trong miền thời gian 8
2.2.1 Energy 9
2.2.2 Root Mean Square Energy 9
2.2.3 Zero crossing rate 10
2.2.4 Silence ratio 10
2.3 Các đặc trưng âm thanh trong miền tần số 10
2.3.1 Phổ âm thanh 10
2.3.2 Băng thông (Bandwidth) 12
2.3.3 Phân bổ năng lượng 13
2.3.4 Điều hòa (Harmonicity) 13
2.3.5 Cao độ (Pitch) 14
Copies for internal use only in Phenikaa University
Trang 102.3.6 Ảnh phổ (Spectrogram) 14
2.3.7 Các đặc trưng chủ quan 15
2.4 Đặc trưng âm thanh MFCC 15
2.4.1 Khái niệm về MFCC 15
2.4.2 Các bước để tính MFCC của một đoạn âm thanh 16
2.5 Một số phương pháp phân cụm âm thanh 25
2.5.1 Tổng quan về phân cụm 25
2.5.2 Phương pháp phân cụm không phân cấp (Partitioning Clustering) 26 2.5.3 Phương pháp phân cụm K – means 27
2.6 Kỹ thuật PCA (Principal Component Analysis) 30
CHƯƠNG 3: THỰC NGHIỆM, KẾT QUẢ VÀ PHÂN TÍCH 33
3.1 Giới thiệu bài toán thực nghiệm 33
3.1.1 Phát biểu bài toán 33
3.1.2 Thuật toán và hướng giải quyết 33
3.1.3 Ngôn ngữ lập trình và các thư viện cần thiết 34
3.2 Dữ liệu thực nghiệm 36
3.2.1 Thu thập dữ liệu 36
3.2.2 Tiền xử lý dữ liệu 36
3.3 Trích chọn các đặc trưng 41
3.4 Phân cụm dữ liệu 43
3.5 Kết quả và phân tích thực nghiệm 49
KẾT LUẬN VÀ ĐỀ NGHỊ 52
TÀI LIỆU THAM KHẢO ix
Copies for internal use only in Phenikaa University
Trang 11Danh sách hình vẽ
Hình 1.1 Thang âm lượng phát ra từ các loại âm thanh khác nhau 4 Hình 1.2 Thông tin cơ bản của một audio 5 Hình 1.3 Biểu diễn số hóa của một tín hiệu âm thanh 6 Hình 2.1 Tín hiệu âm thanh theo miền thời gian – biên độ được biểu
diễn qua ứng dụng Audacity
một audio mẫu
36
Copies for internal use only in Phenikaa University
Trang 12Hình 3.3 Dữ liệu audio được biểu diễn trong miền thời gian
với sr=16000
37
Hình 3.4 Dữ liệu audio sau khi được chuẩn hóa 38 Hình 3.5 Dữ liệu audio sau khi được lọc nhiễu, lọc ồn 39 Hình 3.6 Biểu diễn của 1 frame tách ra từ audio có độ dài
Hình 3.9 Biểu đồ phân bố các điểm dữ liệu trong của một audio 44
Hình 3.10 Giá trị và biểu diễn Distortion theo số lượng các tâm cụm k 45 Hình 3.11 Giá trị và biểu diễn Inertia theo số lượng các tâm cụm k 46 Hình 3.12 Phân cụm k-means trên một audio 47 Hình 3.13 Cụm thứ 1- Tiếng kêu, tiếng hí của ngựa 48 Hình 3.14 Cụm thứ 2- Tiếng di chuyển của ngựa 48 Hình 3.15 Cụm thứ 3 – Các âm thanh khác 49 Hình 3.16 Biểu diễn của một audio sau khi gán nhãn 50 Hình 3.17 Biểu đồ tần suất xuất hiện của các điểm dữ liệu 50
Copies for internal use only in Phenikaa University
Trang 13Bảng 3.2 Các giá trị Distortion và Inertia với k=3 trong thực nghiệm
số lượng các trích xuất đặc trưng khác nhau
46
Copies for internal use only in Phenikaa University
Trang 14Danh sách tên viết tắt
1 RMSE Root Mean Square Energy
2 MFCC Mel Frequency Cepstral Coefficients
3 FFT Fast Fourier Transform
4 PCA Principal Component Analysis
5 DFT Discrete Fourier Transform
6 STFT Short Time Fourier Transform
7 IDFT Inverse DFT
8 DCT Discrete Cosine Transform
9 RMS Root Mean Square
Copies for internal use only in Phenikaa University
Trang 15MỞ ĐẦU
Âm thanh đóng vai trò rất quan trọng không thể thiếu trong cuộc sống, cùng với sự phát triển của khoa học công nghệ, âm thanh càng được ứng dụng rộng rãi trong nhiều lĩnh vực khác nhau Trong công nghiệp, có rất nhiều các nghiên cứu ứng dụng việc phân tích âm thanh của các chi tiết máy để phát hiện các lỗi trong quy trình sản xuất Trong giải trí, âm thanh đóng vai trò quan trọng nhất, các hệ thống AI tạo ra các bài hát, các bản nhạc ngày càng trở nên thông dụng Đặc biệt trong lĩnh vực y tế,
có thể ứng dụng các công nghệ phân tích âm thanh vào chẩn đoán bệnh và chăm sóc sức khỏe không chỉ với con người mà cho cả các loài động vật, trong đó có loài ngựa
Trong nghiên cứu này, chúng tôi tập trung vào việc phân tích tín hiệu âm thanh
để nhận diện tình trạng sức khỏe của ngựa Sự kết hợp giữa âm thanh và khoa học máy tính mang lại tiềm năng lớn trong việc đưa ra các phân tích chính xác tình trạng sức khỏe của ngựa
Mục tiêu của đề tài "Phân tích tín hiệu âm thanh để nhận diện tình trạng sức khỏe của ngựa" là khai thác tiềm năng của trí tuệ nhân tạo và phân tích tín hiệu âm thanh để đem lại lợi ích trong việc quan sát và chăm sóc sức khỏe của ngựa Bằng cách nghiên cứu và xác định các tín hiệu âm thanh liên quan đến sức khỏe của ngựa, chúng ta có thể phát triển các phương pháp phân tích và thuật toán để nhận diện và đánh giá tình trạng sức khỏe của ngựa Việc áp dụng công nghệ này sẽ mang lại lợi ích lớn cho người nuôi ngựa và những người chăm sóc sức khỏe của chúng, giúp cải thiện chất lượng cuộc sống và tình trạng sức khỏe của ngựa một cách toàn diện và tiên tiến
Đối tượng và phạm vi nghiên cứu của đề tài bao gồm:
- Các khái niệm cơ bản về tín hiệu âm thanh, âm thanh số - audio
- Nghiên cứu các đặc trưng cơ bản của âm thanh theo miền tần số và miền thời gian
Copies for internal use only in Phenikaa University
Trang 16- Các kỹ thuật trích chọn đặc trưng của tín hiệu âm thanh, kỹ thuật phân tích các thành phần chính, thuật toán phân cụm ứng dụng phân tích tín hiệu âm thanh
Hướng nghiên cứu của đề tài:
- Nghiên cứu các kỹ thuật trích chọn đặc trưng của âm thanh, kỹ thuật phân tích các thành phần chính, thuật toán phân cụm
- Tiến hành thực nghiệm trên bộ dữ liệu đã thu thập để so sánh và làm rõ một
số vấn đề liên quan đến phân tích và trích chọn đặc trưng của âm thanh, cụ thể là tín hiệu âm thanh của ngựa
Nội dung nghiên cứu chính:
- Giới thiệu về tín hiệu âm thanh
- Các đặc trưng của âm thanh và cơ sở lý thuyết về các kỹ thuật liên quan đến xử lý âm thanh
- Xây dựng các chương trình thử nghiệm để so sánh và làm rõ các vấn đề liên quan
Phương pháp nghiên cứu
- Tổng hợp các tài liệu đã được công bố về dữ liệu âm thanh
- Thực nghiệm một số thuật toán và kỹ thuật phổ biến trong xử lý âm thanh
- Nhận xét, đánh giá kết quả thử nghiệm
Bố cục của khóa luận:
Khóa luận bao gồm 3 chương cùng với phần Mở đầu, phần Kết luận, phần Mục lục và phần Tài liệu tham khảo
CHƯƠNG 1: TỔNG QUAN VỀ TÍN HIỆU ÂM THANH
Trình bày một số khái niệm về tín hiệu âm thanh Các vấn đề cơ bản được trình bày bao gồm Định nghĩa cơ bản của âm thanh theo các đặc trưng Vật lý và đặc trưng Sinh lý, âm thanh số hóa – các thông số cơ bản và các định dạng file âm thanh
CHƯƠNG 2: TRÍCH CHỌN ĐẶC TRƯNG CỦA ÂM THANH
Copies for internal use only in Phenikaa University
Trang 17Trình bày tổng quan một số phương pháp, trích chọn đặc trưng âm thanh Nghiên cứu các thuộc tính và đặc trưng chính của tín hiệu âm thanh, bao gồm các đặc trưng trong miền thời gian - biên độ và miền tần số Các kỹ thuật lấy thành phần chính, thuật toán phân cụm âm thanh
CHƯƠNG 3: THỰC NGHIỆM, KẾT QUẢ VÀ PHÂN TÍCH
Giới thiệu bài toán thử nghiệm, dữ liệu thử nghiệm, các công cụ thư viện hỗ trợ để phân tích tín hiệu âm thanh Thiết kế các chương trình thí nghiệm, so sánh các kết quả thí nghiệm và đưa ra các nhận xét kết luận về tín hiệu âm thanh
Copies for internal use only in Phenikaa University
Trang 18CHƯƠNG 1: TỔNG QUAN VỀ TÍN HIỆU ÂM THANH
1.1 Định nghĩa âm thanh
Theo wikipedia, âm thanh là các dao động cơ học (biến đổi vị trí qua lại) của các phân tử, nguyên tử hay các hạt làm nên vật chất và lan truyền trong vật chất như các sóng Âm thanh, giống như nhiều sóng, được đặc trưng bởi tần số, bước sóng, chu
kì, biên độ và vận tốc lan truyền (tốc độ âm thanh).[1]
• Các đặc trưng Vật lý:
o Tần số: là số dao động mà nguồn âm có thể thực hiện được trong 1 giây Đơn vị tần số là Hertz (hz) Con người có khả năng nghe âm thanh trong miền tần số 20Hz - 20.000 Hz
o Cường độ âm (I): biểu diễn mức năng lượng của âm thanh Đơn vị đo cường
độ âm là W/m²
Hình 1.1: Thang âm lượng phát ra từ các loại âm thanh khác nhau
Copies for internal use only in Phenikaa University
Trang 19• Các đặc trưng Sinh lý: liên quan đến sự cảm nhận âm thanh của tai người
o Âm sắc: là sắc thái cao thấp, trầm bổng (liên quan đến phổ tần số của sóng âm)
o Âm lượng: cảm giác to nhỏ của tai người khi nghe, âm lượng liên quan đến cường độ của sóng âm Âm lượng là một đại lượng tương đối, được đo bằng Decibel (dB) Người ta quy ước giá trị cường độ ngưỡng nhỏ nhất mà tai người còn có thể cảm nhận được âm thanh là 12 2
10− W m/ ứng với mức âm lượng 0 dB [4]
1.2 Âm thanh số hóa (digital sound – audio)
Âm thanh là dạng tín hiệu liên tục, trong khi máy tính làm việc với các con số rời rạc Vì vậy, để thuận lợi trong việc lưu trữ, truyền tải, xử lý, tín hiệu âm thanh được chuyển sang dạng số (digital sound) - chính là những file audio với định dạng mp3, wav chúng ta thường nghe trên máy tính hoặc điện thoại
Hình 1.2: Thông tin cơ bản của một audio
• Sample rate: tần số lấy mẫu trên giây của tín hiệu (đơn vị Hz) Sample rate càng cao, chất lượng càng tốt Một bản nhạc có sample rate là 44100 Hz thì mỗi giây âm thanh sẽ được lấy mẫu 44100 lần
Về mặt toán học, để biến một sóng âm thanh thành số, chúng ta chỉ cần ghi lại chiều cao của sóng tại các điểm cách đều nhau
Copies for internal use only in Phenikaa University
Trang 20Hình 1.3: Biểu diễn số hóa của một tín hiệu âm thanh
• Channels: mô phỏng âm thanh trong không gian, chanel càng cao, âm thanh càng sống động, giúp ta hình dung giống như cảm nhận được vị trí âm phát ra trong không gian
Stereo là một tập tin âm thanh tích hợp hai kênh âm thanh riêng biệt, chính là biểu tượng cho tai trái và tai phải người Trong khi đó, Mono là một tập tin âm thanh đơn kênh
Khi mở một bản nhạc 360 độ, ta sẽ cảm nhận sự khác biệt trong âm thanh được phát ra ở hai bên tai nghe, đó chính là âm thanh Stereo Ngược lại, Momo lại phát ra âm thanh như nhau trong cả hai bên tai nghe
Trong phân loại âm thanh, thường đưa tín hiệu về dạng mono tức là 1 kênh
• Bitrate: là đơn vị cơ bản để nói đến mức dung lượng mà thiết bị lưu trữ cần có
để xử lý một giây âm thanh (đơn vị kbps - kilobit per second)
Bitrate càng cao sẽ ghi nhận đầy đủ những loại âm thanh, chất lượng tập tin cũng cao hơn do đó dung lượng tập tin cũng sẽ lớn hơn Ngược lại, bitrate càng thấp thì âm thanh bị lược bỏ càng nhiều nên chất lượng thấp hơn do đó dung lượng tập tin nhỏ hơn
Vì vậy nếu giảm bitrate quá nhiều thì dữ liệu âm thanh có khả năng bị mất
Copies for internal use only in Phenikaa University
Trang 21• Nén có mất (lossy compression): mp3, wma, ogg, … Loại bỏ những dữ liệu
“không cần thiết" trong tập tin âm thanh cần nén
• Nén không mất (lossless compression): flac, ape, … Không làm mất dữ liệu của tập tin gốc
Copies for internal use only in Phenikaa University
Trang 22CHƯƠNG 2: TRÍCH CHỌN ĐẶC TRƯNG CỦA ÂM THANH 2.1 Khái quát về đặc trưng chính của âm thanh
Trong thực tế, việc trích chọn các đặc trưng chính của âm thanh đóng vai trò quan trọng trong nhiều lĩnh vực khác nhau Các đặc trưng chính của âm thanh bao gồm biên độ, tần số, thời gian, cao độ và nhiều yếu tố khác Trong công nghiệp âm nhạc, chúng quyết định chất lượng và đa dạng của âm thanh được tạo ra Trong lĩnh vực y học, đặc trưng âm thanh có thể được sử dụng để chẩn đoán và điều trị nhiều tình trạng sức khỏe Trong ngôn ngữ và giao tiếp, chúng hỗ trợ việc phân tích các yếu
tố như tốc độ nói và tần số của giọng nói Ngoài ra, trong an toàn và bảo mật, đặc trưng âm thanh cũng có thể được áp dụng để nhận diện tiếng động không bình thường, đảm bảo an toàn, an ninh trong khu vực Chúng cho thấy đặc trưng quan trọng của các loại tín hiệu âm thanh khác nhau Để nâng cao tính chính xác của việc phân lớp phân cụm âm thanh, ta cần phải lựa chọn các đặc trưng tốt Đa số các phương pháp, giải thuật trích chọn đặc trưng hiện nay đều xem các đặc trưng sau đây là hiệu quả để phân lớp và phân cụm âm thanh
2.2 Các đặc trưng âm thanh trong miền thời gian
Biểu diễn trong miền thời gian hay thời gian – biên độ là kỹ thuật biểu diễn tín hiệu âm thanh cơ bản nhất, trong đó tín hiệu được biểu diễn như biên độ biến đổi theo thời gian [2]
Hình 2.1 là một ví dụ về tín hiệu âm thanh trong miền thời gian – biên độ Im lặng (câm) được biểu diễn bởi giá trị 0 Giá trị tín hiệu âm thanh có thể âm hay dương phụ thuộc vào áp suất âm thanh cao hơn hay thấp hơn áp suất cân bằng khi im lặng Đoạn audio trong hình được mà hóa bằng 32 bit với sample rate là 44100Hz và được chuẩn hóa về biên độ từ -1.0 đến 1.0
Copies for internal use only in Phenikaa University
Trang 23Hình 2.1: Tín hiệu âm thanh theo miền thời gian – biên độ được biểu diễn qua ứng
dụng Audacity
Từ cách biểu diễn trên ta có thể dễ dàng tính được năng lượng trung bình, tốc
độ vượt qua 0 (Zero crossing rate) và tỷ lệ câm (silence ratio)
trong đó, E là năng lượng của đoạn audio, x N( )là giá trị biên độ của mẫu N
2.2.2 Root Mean Square Energy
RMS Energy (RMSE) là một chỉ số thống kê dùng để đo mức độ năng lượng hoặc công suất tổng cộng chứa trong một tín hiệu âm thanh trong một khoảng thời gian [2] Công thức toán học để tính RMSE của một chuỗi tín hiệu âm thanh x với
N mẫu là:
2 1
Trang 242.2.3 Zero crossing rate
Tốc độ vượt qua 0 (Zero crossing rate) chỉ ra tần số thay đổi của dấu biên độ tín hiệu Nói cách khác nó chỉ ra tần số trung bình của tín hiệu [3] Công thức tính Zero crossing rate:
Với ngưỡng biên độ, mẫu được xem như là im lặng khi biên độ của nó nhỏ hơn ngưỡng biên độ Chỉ một mẫu im lặng không được xem như chu kỳ im lặng Chỉ khi tổng các mẫu im lặng liên tục vượt qua ngưỡng thời gian nào đó thì các mẫu này hình thành chu kỳ im lặng (silence period)
Tỷ lệ im lặng được tính bằng tỷ lệ giữa tổng chu kỳ im lặng và tổng độ dài của đoạn âm thanh
2.3 Các đặc trưng âm thanh trong miền tần số
2.3.1 Phổ âm thanh
Phổ âm thanh hiển thị các tần số khác nhau có trong âm thanh Hầu hết các âm thanh được tạo thành từ một hỗn hợp rung động phức tạp [4] Hình 2.2 bên dưới biểu diễn tín hiệu âm thanh 3 được tạo thành từ hỗn hợp 2 tín hiệu rung động 1 và 2
Copies for internal use only in Phenikaa University
Trang 25Hình 2.2: Tín hiệu âm thanh là sự kết hợp của các sóng hình sin hoặc cosin
Biểu diễn miền thời gian không chỉ ra được các thành phần tần số và phân bổ tần số của tín hiệu âm thanh Biểu diễn miền tần số suy diễn từ biểu diễn miền thời gian bằng biến đổi Fourier Biến đổi Fourier tách tín hiệu thành các thành phần tần số riêng lẻ Trong miền tần số, tín hiệu được biểu diễn bởi biên độ biến đổi theo tần số, chỉ ra tổng năng lượng tại các tần số khác nhau Biểu diễn miền tần số của tín hiệu âm thanh được gọi là phổ của tín hiệu âm thanh
Hình 2.3 là phổ của tín hiệu âm thanh Xuất phát từ phổ tín hiệu, dễ dàng nhận
ra phân bổ năng lượng theo dải tần số Ta sử dụng biến đổi Discrete Fourier Transform (DFT) để suy diễn ra phổ tín hiệu:
1
0 ( ) ( )
N
jn k N
= , x n( ) là tín hiệu rời rạc với N mẫu, k là DFT bin
Nếu tần số lấy mẫu tín hiệu là f s Hz thì tần số f k của bin k sẽ là:
Trang 26Nếu x n( ) có giới hạn thời gian là N thì nó có thể khôi phục hoàn toàn IDFT của N mẫu tần số như sau:
x n X k e N
−
=
Các giá trị DFT và IDFT được tính toán hiệu quả bằng bằng thuật toán FFT
Hình 2.3: Phổ của tín hiệu âm thanh
Như đã nói ở trên, DFT làm việc với tín hiệu rời rạc có giới hạn độ dài N Thực
tế, rất nhiều tín hiệu trong khoảng thời gian dài, rất khó tính toán DFT với N lớn Để giải quyết vấn đề này, người ta sử dụng STFT (Short Time Fourier Transform) Trong
đó, tín hiệu với độ dài lớn được chia thành các khối gọi là frame và DFT áp dụng cho từng frame Frame được hình thành bằng cách nhân tín hiệu gốc với hàm cửa sổ Thông thường độ dài frame khoảng 10 đến 20 ms.[15]
Sau đây là một số đặc trưng suy diễn từ phổ tín hiệu
2.3.2 Băng thông (Bandwidth)
Băng thông (Bandwidth) của tín hiệu âm thanh là dải tần số của tín hiệu âm thanh đó Tín hiệu nhạc thường có băng thông cao hơn tín hiệu tiếng nói Để tính băng thông người ta lấy chênh lệch tần số giữa tần số cao nhất với tần số thấp nhất của các thành phần phổ khác không Trong một số trường hợp, “nonzero” được xác định khoảng 3dB trên mức câm [4]
Copies for internal use only in Phenikaa University
Trang 27Băng thông quan trọng trong việc xác định chất lượng âm thanh và cũng ảnh hưởng đến cách mà thông tin âm thanh được truyền tải và xử lý trong các hệ thống
âm thanh
2.3.3 Phân bổ năng lượng
Phân bổ năng lượng của dữ liệu âm thanh là cách mà năng lượng được phân phối trên các tần số khác nhau trong tín hiệu âm thanh Thông thường, phân bổ năng lượng được biểu thị dưới dạng biểu đồ hoặc đồ thị, thể hiện mức độ đóng góp của mỗi tần số đến tổng năng lượng của tín hiệu Từ phổ tín hiệu, ta dễ dàng nhận thấy phân
bổ tín hiệu theo các thành phần tần số Đặc trưng này rất có ích trong việc phân lớp/ phân cụm audio vì mỗi loài khác nhau thường có dải tần số riêng [4]
Việc tính toán năng lượng dải tần số cao và tần số thấp là cần thiết Thực sự, khái niệm “low”, “high” phụ thuộc vào ứng dụng Ví dụ tần số tín hiệu tiếng nói ít khi vượt qua 7kHz Do vậy, ta có thể chia toàn bộ phổ dock theo đường ngang 7kHz: nửa dưới thuộc tần số thấp và nửa trên thuộc tần số cao Tổng năng lượng cho mỗi audio được tính bằng tổng năng lượng mỗi mẫu trong audio
Một đặc trưng quan trọng suy diễn từ phân bổ năng lượng là trọng tâm phổ (centroid) Nó là điểm giữa của phân bổ năng lượng phổ tín hiệu Trọng tâm còn được gọi là độ chói (brightness)
2.3.4 Điều hòa (Harmonicity)
Đặc trưng thứ hai trong miền tần số của âm thanh là điều hòa Điều hòa (Harmonicity) của âm thanh liên quan đến tính chất của âm thanh khi các tần số các bước là các bội số nguyên của một tần số cơ bản (gọi là "tần số căn bản" hoặc "tần số
cơ sở") Cụ thể, khi một âm thanh có tính điều hòa cao, điều này ngụ ý rằng nó chứa các thành phần tần số đáng kể ở các bội số nguyên của tần số cơ bản Các thành phần tần số này được gọi là các "hạt" (harmonics), và chúng tạo nên cấu trúc âm thanh có
âm điệu và âm sắc phong phú.[4]
Một ví dụ rõ ràng về âm thanh điều hòa cao là tiếng nói con người hoặc âm nhạc được chơi trên các nhạc cụ cổ điển Trong các trường hợp này, các tần số của các bước là các bội số nguyên của tần số cơ bản tạo nên âm điệu dễ nhận diện
Copies for internal use only in Phenikaa University
Trang 28Thí dụ, phổ âm thanh nốt G4 của tiếng sáo có dải tần số cao độ (pitch) như sau: 400Hz, 800Hz, 1200Hz, 1600Hz,
Ta có thể viết lại dãy trên như sau:
f, 2f, 3f, 4f
trong đó, f=400 Hz là tần số cơ bản của âm thanh Các thành phần có tần số nf được gọi là điều hòa của nốt nhạc
Tuy nhiên, đối với các âm thanh không điều hòa, tần số các bước không phải
là các bội số nguyên của tần số cơ bản, dẫn đến âm thanh có cấu trúc tần số phức tạp
và không có âm điệu dễ nhận diện
Điều hòa là một thuộc tính quan trọng trong việc phân tích và xử lý tín hiệu âm thanh, đặc biệt trong các ứng dụng như nhận diện giọng nói, nhạc sống, và nghiên cứu
âm thanh
2.3.5 Cao độ (Pitch)
Đặc trưng thứ ba của miền tần số trong dữ liệu âm thanh là cao độ Cao độ (Pitch) của âm thanh là thuộc tính mà người nghe cảm nhận các tần số của một âm thanh Nó liên quan đến cảm giác về sự "cao thấp" của âm thanh và cho biết nó có cao (high-pitched) hay thấp (low-pitched).[4]
• Cao độ thấp: âm thanh có tần số thấp tạo ra cảm giác của một cao độ thấp, thường được miêu tả như "âm thanh trầm" hoặc "âm thanh thấp."
• Cao độ cao: âm thanh có tần số cao tạo ra cảm giác của một cao độ cao, thường được miêu tả như "âm thanh sâu" hoặc "âm thanh cao."
Tần số càng cao thì pitch càng cao và bước sóng càng ngắn Cao độ là đặc trưng chủ quan, nó quan hệ nhưng không tương đương với tần số cơ bản Tuy nhiên, trong thực tế chúng ta sử dụng các tần số cơ bản để xấp xỉ cao độ
2.3.6 Ảnh phổ (Spectrogram)
Ảnh phổ (Spectrogram) của âm thanh là một biểu đồ hai chiều mà trên trục ngang thể hiện thời gian và trên trục dọc thể hiện tần số Màu sắc hoặc cường độ của điểm ảnh trên biểu đồ đại diện cho mức năng lượng của âm thanh tại một thời điểm
và tần số cụ thể [4]
Copies for internal use only in Phenikaa University
Trang 29Thông qua ảnh phổ, có thể hiểu được cách năng lượng của âm thanh được phân phối trên các tần số và thay đổi theo thời gian Điều này cho phép phân tích và biểu
đồ hóa các yếu tố âm thanh như cao độ, độ lớn, và tần số cơ bản
Hình 2.4 chỉ ra ảnh phổ của một tín hiệu âm thanh Ảnh phổ mô tả rõ ràng các quan hệ giữa thời gian, tần số và biên độ Ta có thể xác định tính xuất hiện đều của một vài thành phần tần số từ ảnh phổ
Hình 2.4: Ảnh phổ của tín hiệu âm thanh
2.3.7 Các đặc trưng chủ quan
Trừ cao độ (pitch), mọi đặc trưng mô tả trên có thể đo trực tiếp trong miền thới gian hay miền tần số Còn những đặc trưng khác có tính chủ quan, thí dụ âm sắc (timbre)
Âm sắc liên quan đến chất lượng âm thanh Đặc trưng này quyết định cách mà
âm thanh được nghe thấy và phân biệt giữa các nguồn âm thanh khác nhau, ngay cả khi chúng có cùng tần số và biên độ Điều này đồng nghĩa với việc hai âm thanh có cùng tần số cơ bản và biên độ, nhưng từ các nguồn khác nhau, sẽ có âm sắc khác nhau
Nó chứa đựng mọi chất lượng âm thanh khác với pitch (cao độ), loudness (âm lượng)
và duration (độ dài) Các thành phần quan trọng của âm sắc bao gồm hình bao biên
độ, điều hòa và hình bao phổ
2.4 Đặc trưng âm thanh MFCC
Trang 30toán speech recognition và nhiều bài toán liên quan tới xử lý âm thanh khác Ta có thể hình dung việc tính MFCC theo luồng xử lý [6,7]:
- Cắt chuỗi tín hiệu âm thanh thành các đoạn ngắn bằng nhau (25ms) và overlap lên nhau (10ms)
- Mỗi đoạn âm thanh này được biến đổi, tính toán để thu được 39 features
- 39 feature này có tính độc lập cao, ít nhiễu, đủ nhỏ để đảm bảo tính toán,
đủ thông tin để đảm bảo chất lượng cho các thuật toán phân cụm
Hình 2.5: Các bước để tính MFCC của 1 đoạn âm thanh
Phần dưới đây sẽ đi vào chi tiết từng bước để tính MFCC của 1 đoạn âm thanh
2.4.2 Các bước để tính MFCC của một đoạn âm thanh
• A/D Conversion and Pre-emphasis
o A/D Conversion
Âm thanh là dạng tín hiệu liên tục, trong khi đó máy tính làm việc với các con số rời rạc Ta cần lấy mẫu tại các khoảng thời gian cách đều nhau với
1 tần số lấy mẫu xác định (sample rate) để chuyển từ dạng tín hiệu liên tục
về dạng rời rạc [6,7] VD sample_rate = 8000 → trong 1s lấy 8000 giá trị
Copies for internal use only in Phenikaa University
Trang 31Hình 2.6: Số hóa dữ liệu âm thanh với tần số lấy mẫu xác định
Tai người nghe được âm thanh trong khoảng 20Hz → 20000Hz Theo định
lý lấy mẫu Nyquist-Shannon: với 1 tín hiệu có các tần số thành phần f m,
để đảm bảo việc lấy mẫu không làm mất mát thông tin (aliasing), tần số lấy mẫu f s phải đảm bảo f s 2f m
Vậy để đảm bảo việc lấy mẫu không làm mất mát thông tin, tần số lấy mẫu
số cao, nghĩa là giảm thiểu vai trò của tần số thấp vốn thường chịu ảnh hưởng của các hiệu ứng thu âm không mong muốn.[6,7]
Copies for internal use only in Phenikaa University
Trang 32Hình 2.7: Một ví dụ về tiền nhấn mạnh (Pre-emphasis)
• Spectrogram
Như đã nói qua phần trước, thông thường các tín hiệu âm thanh trong miền thời gian được biến đổi sang miền tần số Hiểu đơn giản là “phân giải 1 tín hiệu bất kì thành 1 tập các tín hiệu có tính chất tuần hoàn - có biên độ, tần số, pha giao động xác định” Để biến đổi từ miền thời gian sang miền tần số, ta cần các bước sau: [6,7]
- Windowing
Thay vì biến đổi Fourier trên cả đoạn âm thanh dài, ta chỉ cần biến đổi Fourier trên từng đoạn,từng đoạn lần lượt Ta trượt 1 cửa sổ dọc theo tín hiệu để lấy ra các frame rồi mới áp dụng DFT trên từng frame này (DFT - Discrete Fourier Transform)
Ta chia 1 giây âm thanh thành 36 - 40 phần, ta chọn độ rộng mỗi frame khoảng 20 - 25ms là vừa đủ rộng để bao 1 phần âm thanh Các frame được overlap lên nhau khoảng 10ms để có thể capture lại sự thay đổi context
Copies for internal use only in Phenikaa University
Trang 33Hình 2.8: Quy trình windowing 1 đoạn audio
Tuy nhiên, việc cắt frame sẽ làm các giá trị ở 2 biên của frame bị giảm đột ngột (về giá trị 0) Theo quy luật, nếu trong miền thời gian tín hiệu càng thay đổi đột ngột, thì bên miền tần số sẽ xuất hiện rất nhiều nhiễu tại các tần số cao Để khắc phục điều này, ta cần làm mượt bằng cách nhân chập frame với 1 vài loại window Có 1 vài loại window phổ biến là Hamming window, Hanning window … có tác dụng làm giá trị biên frame giảm xuống từ từ từ
Hình 2.9: Các loại Window phổ biến
Hình dưới đây sẽ cho ta thấy rõ được tác dụng của các window này Trong các hình nhỏ, hình 1 là 1 đoạn âm thanh được cắt ra từ âm thanh gốc, âm
Copies for internal use only in Phenikaa University
Trang 34thanh gốc là được tạo lên bởi 2 tần số trong hình 2 Nếu áp dụng rectangle window (tức là cắt trực tiếp), tín hiệu miền tần số tương ứng là hình 3, ta
có thể thấy tín hiệu này chứa rất nhiều nhiễu Nếu áp dụng các window như Hanning, Hamming, Blackman, tín hiệu miền tần số thu được khá mượt và gần xấp xỉ tần số gốc ở hình 2
Hình 2.10: Tín hiệu audio qua các window khác nhau
ta nhận thấy tại các tần số thấp thường có magnitude cao, tần số cao thường
có magnitude thấp
Copies for internal use only in Phenikaa University