phân tích tín hiệu âm thanh để nhận diện tình trạng sức khỏe của ngựa

Danh sách hình vẽ Hình 1.1 Thang âm lượng phát ra từ các loại âm thanh khác nhau 4 Hình 1.2 Thông tin cơ bản của một audio 5 Hình 1.3 Biểu diễn số hóa của một tín hiệu âm thanh 6 Hình

Trang 1

PHÂN TÍCH TÍN HIỆU ÂM THANH ĐỂ NHẬN DIỆN TÌNH

TRẠNG SỨC KHỎE CỦA NGỰA

Sinh viên: Phạm Đức Long

Mã số sinh viên: 19010018 Khóa: 2019-2023

Ngành: Công nghệ thông tin Hệ: Đại học chính quy

Giảng viên hướng dẫn: TS Phạm Tiến Lâm

Hà Nội – Năm 2023

Copies for internal use only in Phenikaa University

Trang 2

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC PHENIKAA

ĐỒ ÁN TỐT NGHIỆP

PHÂN TÍCH TÍN HIỆU ÂM THANH ĐỂ NHẬN DIỆN TÌNH

TRẠNG SỨC KHỎE CỦA NGỰA

Sinh viên: Phạm Đức Long

Mã số sinh viên: 19010018 Khóa: 2019-2023

Ngành: Công nghệ thông tin Hệ: Đại học chính quy

Giảng viên hướng dẫn: TS Phạm Tiến Lâm

Hà Nội – Năm 2023

Trang 3

Trang 4

Trang 5

BỘ GIÁO DỤC VÀ ĐÀO TẠO

TRƯỜNG ĐẠI HỌC PHENIKAA

CỘNG HOÀ XÃ HỘI CHỦ NGHĨA VIỆT NAM

Độc lập - Tự do - Hạnh phúc

NHẬN XÉT ĐỒ ÁN/KHÓA LUẬN TỐT NGHIỆP

CỦA GIẢNG VIÊN PHẢN BIỆN

Giảng viên phản biện: Bộ môn:

Tên đề tài:

Sinh viên thực hiện: Lớp:

Giảng viên hướng dẫn:

- Đảm bảo tính cấp thiết, hiện đại, không trùng lặp:

- Nội dung:

- Mức độ thực hiện:

II Kết quả đạt được:

Trang 6

III Ưu nhược điểm:

IV Kết luận: Đồng ý cho bảo vệ: Không đồng ý cho bảo vệ:

Hà Nội, ngày tháng năm 20

GIẢNG VIÊN PHẢN BIỆN

(Ký, ghi rõ họ tên)

Trang 7

LỜI CAM ĐOAN

Tên tôi là: Phạm Đức Long

Mã sinh viên: 19010018 Lớp: K13-CNTT-KHDL

Ngành: Công nghệ thông tin

Tôi đã thực hiện đồ án/khóa luận tốt nghiệp với đề tài: Phân tích tín hiệu âm thanh

để nhận diện tình trạng sức khỏe của ngựa

Tôi xin cam đoan đây là đề tài nghiên cứu của riêng tôi và được sự hướng dẫn của: TS Phạm Tiến Lâm

Các nội dung nghiên cứu, kết quả trong đề tài này là trung thực và chưa được các tác giả khác công bố dưới bất kỳ hình thức nào Nếu phát hiện có bất kỳ hình thức gian lận nào tôi xin hoàn toàn chịu trách nhiệm trước pháp luật

GIẢNG VIÊN HƯỚNG DẪN

Trang 8

Lời cảm ơn

Qua 4 năm học tập và rèn luyện tại trường Trường Đại học Phenikaa, được sự chỉ bảo và giảng dạy nhiệt tình của quý thầy cô, đặc biệt là quý thầy cô khoa Công nghệ thông tin đã truyền đạt cho em những kiến thức về lý thuyết và thực hành trong suốt thời gian học ở trường Và trong thời gian thực tập tại Công ty Cổ phần Phenikaa-

X em đã có cơ hội áp dụng những kiến thức học ở trường vào thực tế ở công ty, đồng thời học hỏi được nhiều kinh nghiệm thực tế tại công ty Cùng với sự nỗ lực của bản thân, em đã hoàn thành khóa tốt nghiệp của mình

Từ những kết quả đạt được này, em xin chân thành cảm ơn:

Quý thầy cô trường Trường Đại học Phenikaa, đã truyền đạt cho em những kiến thức bổ ích trong thời gian qua Đặc biệt, là thầy TS Phạm Tiến Lâm đã tận tình hướng dẫn em hoàn thành tốt báo cáo tốt nghiệp này

Ban Giám đốc công ty Công ty Cổ phần Phenikaa-X và anh em nhân viên phòng Robotics đã tạo mọi điều kiện thuận lợi cho em trong thời gian thực tập

Do kiến thức còn hạn hẹp nên không tránh khỏi những thiếu sót trong cách hiểu, lỗi trình bày Em rất mong nhận được sự đóng góp ý kiến của quý thầy cô và để báo cáo tốt nghiệp đạt được kết quả tốt hơn

Cuối cùng em xin chân thành cảm ơn gia đình, người thân, bạn bè đã quan tâm, động viên, giúp đỡ em trong quá trình học tập, thực tập và thực hiện khóa luận vừa qua

Trang 9

MỤC LỤC

LỜI CAM ĐOAN i

Lời cảm ơn ii

Danh sách hình vẽ v

Danh sách bảng vii

Danh sách tên viết tắt viii

MỞ ĐẦU 1

CHƯƠNG 1: TỔNG QUAN VỀ TÍN HIỆU ÂM THANH 4

1.1 Định nghĩa âm thanh 4

1.2 Âm thanh số hóa (digital sound – audio) 5

1.3 Các định dạng file audio 7

CHƯƠNG 2: TRÍCH CHỌN ĐẶC TRƯNG CỦA ÂM THANH 8

2.1 Khái quát về đặc trưng chính của âm thanh 8

2.2 Các đặc trưng âm thanh trong miền thời gian 8

2.2.1 Energy 9

2.2.2 Root Mean Square Energy 9

2.2.3 Zero crossing rate 10

2.2.4 Silence ratio 10

2.3 Các đặc trưng âm thanh trong miền tần số 10

2.3.1 Phổ âm thanh 10

2.3.2 Băng thông (Bandwidth) 12

2.3.3 Phân bổ năng lượng 13

2.3.4 Điều hòa (Harmonicity) 13

2.3.5 Cao độ (Pitch) 14

Trang 10

2.3.6 Ảnh phổ (Spectrogram) 14

2.3.7 Các đặc trưng chủ quan 15

2.4 Đặc trưng âm thanh MFCC 15

2.4.1 Khái niệm về MFCC 15

2.4.2 Các bước để tính MFCC của một đoạn âm thanh 16

2.5 Một số phương pháp phân cụm âm thanh 25

2.5.1 Tổng quan về phân cụm 25

2.5.2 Phương pháp phân cụm không phân cấp (Partitioning Clustering) 26 2.5.3 Phương pháp phân cụm K – means 27

2.6 Kỹ thuật PCA (Principal Component Analysis) 30

CHƯƠNG 3: THỰC NGHIỆM, KẾT QUẢ VÀ PHÂN TÍCH 33

3.1 Giới thiệu bài toán thực nghiệm 33

3.1.1 Phát biểu bài toán 33

3.1.2 Thuật toán và hướng giải quyết 33

3.1.3 Ngôn ngữ lập trình và các thư viện cần thiết 34

3.2 Dữ liệu thực nghiệm 36

3.2.1 Thu thập dữ liệu 36

3.2.2 Tiền xử lý dữ liệu 36

3.3 Trích chọn các đặc trưng 41

3.4 Phân cụm dữ liệu 43

3.5 Kết quả và phân tích thực nghiệm 49

KẾT LUẬN VÀ ĐỀ NGHỊ 52

TÀI LIỆU THAM KHẢO ix

Trang 11

Danh sách hình vẽ

Hình 1.1 Thang âm lượng phát ra từ các loại âm thanh khác nhau 4 Hình 1.2 Thông tin cơ bản của một audio 5 Hình 1.3 Biểu diễn số hóa của một tín hiệu âm thanh 6 Hình 2.1 Tín hiệu âm thanh theo miền thời gian – biên độ được biểu

diễn qua ứng dụng Audacity

một audio mẫu

36

Trang 12

Hình 3.3 Dữ liệu audio được biểu diễn trong miền thời gian

với sr=16000

37

Hình 3.4 Dữ liệu audio sau khi được chuẩn hóa 38 Hình 3.5 Dữ liệu audio sau khi được lọc nhiễu, lọc ồn 39 Hình 3.6 Biểu diễn của 1 frame tách ra từ audio có độ dài

Hình 3.9 Biểu đồ phân bố các điểm dữ liệu trong của một audio 44

Hình 3.10 Giá trị và biểu diễn Distortion theo số lượng các tâm cụm k 45 Hình 3.11 Giá trị và biểu diễn Inertia theo số lượng các tâm cụm k 46 Hình 3.12 Phân cụm k-means trên một audio 47 Hình 3.13 Cụm thứ 1- Tiếng kêu, tiếng hí của ngựa 48 Hình 3.14 Cụm thứ 2- Tiếng di chuyển của ngựa 48 Hình 3.15 Cụm thứ 3 – Các âm thanh khác 49 Hình 3.16 Biểu diễn của một audio sau khi gán nhãn 50 Hình 3.17 Biểu đồ tần suất xuất hiện của các điểm dữ liệu 50

Trang 13

Bảng 3.2 Các giá trị Distortion và Inertia với k=3 trong thực nghiệm

số lượng các trích xuất đặc trưng khác nhau

46

Trang 14

Danh sách tên viết tắt

1 RMSE Root Mean Square Energy

2 MFCC Mel Frequency Cepstral Coefficients

3 FFT Fast Fourier Transform

4 PCA Principal Component Analysis

5 DFT Discrete Fourier Transform

6 STFT Short Time Fourier Transform

7 IDFT Inverse DFT

8 DCT Discrete Cosine Transform

9 RMS Root Mean Square

Trang 15

MỞ ĐẦU

Âm thanh đóng vai trò rất quan trọng không thể thiếu trong cuộc sống, cùng với sự phát triển của khoa học công nghệ, âm thanh càng được ứng dụng rộng rãi trong nhiều lĩnh vực khác nhau Trong công nghiệp, có rất nhiều các nghiên cứu ứng dụng việc phân tích âm thanh của các chi tiết máy để phát hiện các lỗi trong quy trình sản xuất Trong giải trí, âm thanh đóng vai trò quan trọng nhất, các hệ thống AI tạo ra các bài hát, các bản nhạc ngày càng trở nên thông dụng Đặc biệt trong lĩnh vực y tế,

có thể ứng dụng các công nghệ phân tích âm thanh vào chẩn đoán bệnh và chăm sóc sức khỏe không chỉ với con người mà cho cả các loài động vật, trong đó có loài ngựa

Trong nghiên cứu này, chúng tôi tập trung vào việc phân tích tín hiệu âm thanh

để nhận diện tình trạng sức khỏe của ngựa Sự kết hợp giữa âm thanh và khoa học máy tính mang lại tiềm năng lớn trong việc đưa ra các phân tích chính xác tình trạng sức khỏe của ngựa

Mục tiêu của đề tài "Phân tích tín hiệu âm thanh để nhận diện tình trạng sức khỏe của ngựa" là khai thác tiềm năng của trí tuệ nhân tạo và phân tích tín hiệu âm thanh để đem lại lợi ích trong việc quan sát và chăm sóc sức khỏe của ngựa Bằng cách nghiên cứu và xác định các tín hiệu âm thanh liên quan đến sức khỏe của ngựa, chúng ta có thể phát triển các phương pháp phân tích và thuật toán để nhận diện và đánh giá tình trạng sức khỏe của ngựa Việc áp dụng công nghệ này sẽ mang lại lợi ích lớn cho người nuôi ngựa và những người chăm sóc sức khỏe của chúng, giúp cải thiện chất lượng cuộc sống và tình trạng sức khỏe của ngựa một cách toàn diện và tiên tiến

Đối tượng và phạm vi nghiên cứu của đề tài bao gồm:

- Các khái niệm cơ bản về tín hiệu âm thanh, âm thanh số - audio

- Nghiên cứu các đặc trưng cơ bản của âm thanh theo miền tần số và miền thời gian

Trang 16

- Các kỹ thuật trích chọn đặc trưng của tín hiệu âm thanh, kỹ thuật phân tích các thành phần chính, thuật toán phân cụm ứng dụng phân tích tín hiệu âm thanh

Hướng nghiên cứu của đề tài:

- Nghiên cứu các kỹ thuật trích chọn đặc trưng của âm thanh, kỹ thuật phân tích các thành phần chính, thuật toán phân cụm

- Tiến hành thực nghiệm trên bộ dữ liệu đã thu thập để so sánh và làm rõ một

số vấn đề liên quan đến phân tích và trích chọn đặc trưng của âm thanh, cụ thể là tín hiệu âm thanh của ngựa

Nội dung nghiên cứu chính:

- Giới thiệu về tín hiệu âm thanh

- Các đặc trưng của âm thanh và cơ sở lý thuyết về các kỹ thuật liên quan đến xử lý âm thanh

- Xây dựng các chương trình thử nghiệm để so sánh và làm rõ các vấn đề liên quan

Phương pháp nghiên cứu

- Tổng hợp các tài liệu đã được công bố về dữ liệu âm thanh

- Thực nghiệm một số thuật toán và kỹ thuật phổ biến trong xử lý âm thanh

- Nhận xét, đánh giá kết quả thử nghiệm

Bố cục của khóa luận:

Khóa luận bao gồm 3 chương cùng với phần Mở đầu, phần Kết luận, phần Mục lục và phần Tài liệu tham khảo

CHƯƠNG 1: TỔNG QUAN VỀ TÍN HIỆU ÂM THANH

Trình bày một số khái niệm về tín hiệu âm thanh Các vấn đề cơ bản được trình bày bao gồm Định nghĩa cơ bản của âm thanh theo các đặc trưng Vật lý và đặc trưng Sinh lý, âm thanh số hóa – các thông số cơ bản và các định dạng file âm thanh

CHƯƠNG 2: TRÍCH CHỌN ĐẶC TRƯNG CỦA ÂM THANH

Trang 17

Trình bày tổng quan một số phương pháp, trích chọn đặc trưng âm thanh Nghiên cứu các thuộc tính và đặc trưng chính của tín hiệu âm thanh, bao gồm các đặc trưng trong miền thời gian - biên độ và miền tần số Các kỹ thuật lấy thành phần chính, thuật toán phân cụm âm thanh

CHƯƠNG 3: THỰC NGHIỆM, KẾT QUẢ VÀ PHÂN TÍCH

Giới thiệu bài toán thử nghiệm, dữ liệu thử nghiệm, các công cụ thư viện hỗ trợ để phân tích tín hiệu âm thanh Thiết kế các chương trình thí nghiệm, so sánh các kết quả thí nghiệm và đưa ra các nhận xét kết luận về tín hiệu âm thanh

Trang 18

CHƯƠNG 1: TỔNG QUAN VỀ TÍN HIỆU ÂM THANH

1.1 Định nghĩa âm thanh

Theo wikipedia, âm thanh là các dao động cơ học (biến đổi vị trí qua lại) của các phân tử, nguyên tử hay các hạt làm nên vật chất và lan truyền trong vật chất như các sóng Âm thanh, giống như nhiều sóng, được đặc trưng bởi tần số, bước sóng, chu

kì, biên độ và vận tốc lan truyền (tốc độ âm thanh).[1]

• Các đặc trưng Vật lý:

o Tần số: là số dao động mà nguồn âm có thể thực hiện được trong 1 giây Đơn vị tần số là Hertz (hz) Con người có khả năng nghe âm thanh trong miền tần số 20Hz - 20.000 Hz

o Cường độ âm (I): biểu diễn mức năng lượng của âm thanh Đơn vị đo cường

độ âm là W/m²

Hình 1.1: Thang âm lượng phát ra từ các loại âm thanh khác nhau

Trang 19

• Các đặc trưng Sinh lý: liên quan đến sự cảm nhận âm thanh của tai người

o Âm sắc: là sắc thái cao thấp, trầm bổng (liên quan đến phổ tần số của sóng âm)

o Âm lượng: cảm giác to nhỏ của tai người khi nghe, âm lượng liên quan đến cường độ của sóng âm Âm lượng là một đại lượng tương đối, được đo bằng Decibel (dB) Người ta quy ước giá trị cường độ ngưỡng nhỏ nhất mà tai người còn có thể cảm nhận được âm thanh là 12 2

10− W m/ ứng với mức âm lượng 0 dB [4]

1.2 Âm thanh số hóa (digital sound – audio)

Âm thanh là dạng tín hiệu liên tục, trong khi máy tính làm việc với các con số rời rạc Vì vậy, để thuận lợi trong việc lưu trữ, truyền tải, xử lý, tín hiệu âm thanh được chuyển sang dạng số (digital sound) - chính là những file audio với định dạng mp3, wav chúng ta thường nghe trên máy tính hoặc điện thoại

Hình 1.2: Thông tin cơ bản của một audio

• Sample rate: tần số lấy mẫu trên giây của tín hiệu (đơn vị Hz) Sample rate càng cao, chất lượng càng tốt Một bản nhạc có sample rate là 44100 Hz thì mỗi giây âm thanh sẽ được lấy mẫu 44100 lần

Về mặt toán học, để biến một sóng âm thanh thành số, chúng ta chỉ cần ghi lại chiều cao của sóng tại các điểm cách đều nhau

Trang 20

Hình 1.3: Biểu diễn số hóa của một tín hiệu âm thanh

• Channels: mô phỏng âm thanh trong không gian, chanel càng cao, âm thanh càng sống động, giúp ta hình dung giống như cảm nhận được vị trí âm phát ra trong không gian

Stereo là một tập tin âm thanh tích hợp hai kênh âm thanh riêng biệt, chính là biểu tượng cho tai trái và tai phải người Trong khi đó, Mono là một tập tin âm thanh đơn kênh

Khi mở một bản nhạc 360 độ, ta sẽ cảm nhận sự khác biệt trong âm thanh được phát ra ở hai bên tai nghe, đó chính là âm thanh Stereo Ngược lại, Momo lại phát ra âm thanh như nhau trong cả hai bên tai nghe

Trong phân loại âm thanh, thường đưa tín hiệu về dạng mono tức là 1 kênh

• Bitrate: là đơn vị cơ bản để nói đến mức dung lượng mà thiết bị lưu trữ cần có

để xử lý một giây âm thanh (đơn vị kbps - kilobit per second)

Bitrate càng cao sẽ ghi nhận đầy đủ những loại âm thanh, chất lượng tập tin cũng cao hơn do đó dung lượng tập tin cũng sẽ lớn hơn Ngược lại, bitrate càng thấp thì âm thanh bị lược bỏ càng nhiều nên chất lượng thấp hơn do đó dung lượng tập tin nhỏ hơn

Vì vậy nếu giảm bitrate quá nhiều thì dữ liệu âm thanh có khả năng bị mất

Trang 21

• Nén có mất (lossy compression): mp3, wma, ogg, … Loại bỏ những dữ liệu

“không cần thiết" trong tập tin âm thanh cần nén

• Nén không mất (lossless compression): flac, ape, … Không làm mất dữ liệu của tập tin gốc

Trang 22

CHƯƠNG 2: TRÍCH CHỌN ĐẶC TRƯNG CỦA ÂM THANH 2.1 Khái quát về đặc trưng chính của âm thanh

Trong thực tế, việc trích chọn các đặc trưng chính của âm thanh đóng vai trò quan trọng trong nhiều lĩnh vực khác nhau Các đặc trưng chính của âm thanh bao gồm biên độ, tần số, thời gian, cao độ và nhiều yếu tố khác Trong công nghiệp âm nhạc, chúng quyết định chất lượng và đa dạng của âm thanh được tạo ra Trong lĩnh vực y học, đặc trưng âm thanh có thể được sử dụng để chẩn đoán và điều trị nhiều tình trạng sức khỏe Trong ngôn ngữ và giao tiếp, chúng hỗ trợ việc phân tích các yếu

tố như tốc độ nói và tần số của giọng nói Ngoài ra, trong an toàn và bảo mật, đặc trưng âm thanh cũng có thể được áp dụng để nhận diện tiếng động không bình thường, đảm bảo an toàn, an ninh trong khu vực Chúng cho thấy đặc trưng quan trọng của các loại tín hiệu âm thanh khác nhau Để nâng cao tính chính xác của việc phân lớp phân cụm âm thanh, ta cần phải lựa chọn các đặc trưng tốt Đa số các phương pháp, giải thuật trích chọn đặc trưng hiện nay đều xem các đặc trưng sau đây là hiệu quả để phân lớp và phân cụm âm thanh

2.2 Các đặc trưng âm thanh trong miền thời gian

Biểu diễn trong miền thời gian hay thời gian – biên độ là kỹ thuật biểu diễn tín hiệu âm thanh cơ bản nhất, trong đó tín hiệu được biểu diễn như biên độ biến đổi theo thời gian [2]

Hình 2.1 là một ví dụ về tín hiệu âm thanh trong miền thời gian – biên độ Im lặng (câm) được biểu diễn bởi giá trị 0 Giá trị tín hiệu âm thanh có thể âm hay dương phụ thuộc vào áp suất âm thanh cao hơn hay thấp hơn áp suất cân bằng khi im lặng Đoạn audio trong hình được mà hóa bằng 32 bit với sample rate là 44100Hz và được chuẩn hóa về biên độ từ -1.0 đến 1.0

Trang 23

Hình 2.1: Tín hiệu âm thanh theo miền thời gian – biên độ được biểu diễn qua ứng

dụng Audacity

Từ cách biểu diễn trên ta có thể dễ dàng tính được năng lượng trung bình, tốc

độ vượt qua 0 (Zero crossing rate) và tỷ lệ câm (silence ratio)

trong đó, E là năng lượng của đoạn audio, x N( )là giá trị biên độ của mẫu N

2.2.2 Root Mean Square Energy

RMS Energy (RMSE) là một chỉ số thống kê dùng để đo mức độ năng lượng hoặc công suất tổng cộng chứa trong một tín hiệu âm thanh trong một khoảng thời gian [2] Công thức toán học để tính RMSE của một chuỗi tín hiệu âm thanh x với

N mẫu là:

2 1

Trang 24

2.2.3 Zero crossing rate

Tốc độ vượt qua 0 (Zero crossing rate) chỉ ra tần số thay đổi của dấu biên độ tín hiệu Nói cách khác nó chỉ ra tần số trung bình của tín hiệu [3] Công thức tính Zero crossing rate:

Với ngưỡng biên độ, mẫu được xem như là im lặng khi biên độ của nó nhỏ hơn ngưỡng biên độ Chỉ một mẫu im lặng không được xem như chu kỳ im lặng Chỉ khi tổng các mẫu im lặng liên tục vượt qua ngưỡng thời gian nào đó thì các mẫu này hình thành chu kỳ im lặng (silence period)

Tỷ lệ im lặng được tính bằng tỷ lệ giữa tổng chu kỳ im lặng và tổng độ dài của đoạn âm thanh

2.3 Các đặc trưng âm thanh trong miền tần số

2.3.1 Phổ âm thanh

Phổ âm thanh hiển thị các tần số khác nhau có trong âm thanh Hầu hết các âm thanh được tạo thành từ một hỗn hợp rung động phức tạp [4] Hình 2.2 bên dưới biểu diễn tín hiệu âm thanh 3 được tạo thành từ hỗn hợp 2 tín hiệu rung động 1 và 2

Trang 25

Hình 2.2: Tín hiệu âm thanh là sự kết hợp của các sóng hình sin hoặc cosin

Biểu diễn miền thời gian không chỉ ra được các thành phần tần số và phân bổ tần số của tín hiệu âm thanh Biểu diễn miền tần số suy diễn từ biểu diễn miền thời gian bằng biến đổi Fourier Biến đổi Fourier tách tín hiệu thành các thành phần tần số riêng lẻ Trong miền tần số, tín hiệu được biểu diễn bởi biên độ biến đổi theo tần số, chỉ ra tổng năng lượng tại các tần số khác nhau Biểu diễn miền tần số của tín hiệu âm thanh được gọi là phổ của tín hiệu âm thanh

Hình 2.3 là phổ của tín hiệu âm thanh Xuất phát từ phổ tín hiệu, dễ dàng nhận

ra phân bổ năng lượng theo dải tần số Ta sử dụng biến đổi Discrete Fourier Transform (DFT) để suy diễn ra phổ tín hiệu:

1

0 ( ) ( )

N

jn k N

 = , x n( ) là tín hiệu rời rạc với N mẫu, k là DFT bin

Nếu tần số lấy mẫu tín hiệu là f s Hz thì tần số f k của bin k sẽ là:

Trang 26

Nếu x n( ) có giới hạn thời gian là N thì nó có thể khôi phục hoàn toàn IDFT của N mẫu tần số như sau:

x n X k e N



−

=

Các giá trị DFT và IDFT được tính toán hiệu quả bằng bằng thuật toán FFT

Hình 2.3: Phổ của tín hiệu âm thanh

Như đã nói ở trên, DFT làm việc với tín hiệu rời rạc có giới hạn độ dài N Thực

tế, rất nhiều tín hiệu trong khoảng thời gian dài, rất khó tính toán DFT với N lớn Để giải quyết vấn đề này, người ta sử dụng STFT (Short Time Fourier Transform) Trong

đó, tín hiệu với độ dài lớn được chia thành các khối gọi là frame và DFT áp dụng cho từng frame Frame được hình thành bằng cách nhân tín hiệu gốc với hàm cửa sổ Thông thường độ dài frame khoảng 10 đến 20 ms.[15]

Sau đây là một số đặc trưng suy diễn từ phổ tín hiệu

2.3.2 Băng thông (Bandwidth)

Băng thông (Bandwidth) của tín hiệu âm thanh là dải tần số của tín hiệu âm thanh đó Tín hiệu nhạc thường có băng thông cao hơn tín hiệu tiếng nói Để tính băng thông người ta lấy chênh lệch tần số giữa tần số cao nhất với tần số thấp nhất của các thành phần phổ khác không Trong một số trường hợp, “nonzero” được xác định khoảng 3dB trên mức câm [4]

Trang 27

Băng thông quan trọng trong việc xác định chất lượng âm thanh và cũng ảnh hưởng đến cách mà thông tin âm thanh được truyền tải và xử lý trong các hệ thống

âm thanh

2.3.3 Phân bổ năng lượng

Phân bổ năng lượng của dữ liệu âm thanh là cách mà năng lượng được phân phối trên các tần số khác nhau trong tín hiệu âm thanh Thông thường, phân bổ năng lượng được biểu thị dưới dạng biểu đồ hoặc đồ thị, thể hiện mức độ đóng góp của mỗi tần số đến tổng năng lượng của tín hiệu Từ phổ tín hiệu, ta dễ dàng nhận thấy phân

bổ tín hiệu theo các thành phần tần số Đặc trưng này rất có ích trong việc phân lớp/ phân cụm audio vì mỗi loài khác nhau thường có dải tần số riêng [4]

Việc tính toán năng lượng dải tần số cao và tần số thấp là cần thiết Thực sự, khái niệm “low”, “high” phụ thuộc vào ứng dụng Ví dụ tần số tín hiệu tiếng nói ít khi vượt qua 7kHz Do vậy, ta có thể chia toàn bộ phổ dock theo đường ngang 7kHz: nửa dưới thuộc tần số thấp và nửa trên thuộc tần số cao Tổng năng lượng cho mỗi audio được tính bằng tổng năng lượng mỗi mẫu trong audio

Một đặc trưng quan trọng suy diễn từ phân bổ năng lượng là trọng tâm phổ (centroid) Nó là điểm giữa của phân bổ năng lượng phổ tín hiệu Trọng tâm còn được gọi là độ chói (brightness)

2.3.4 Điều hòa (Harmonicity)

Đặc trưng thứ hai trong miền tần số của âm thanh là điều hòa Điều hòa (Harmonicity) của âm thanh liên quan đến tính chất của âm thanh khi các tần số các bước là các bội số nguyên của một tần số cơ bản (gọi là "tần số căn bản" hoặc "tần số

cơ sở") Cụ thể, khi một âm thanh có tính điều hòa cao, điều này ngụ ý rằng nó chứa các thành phần tần số đáng kể ở các bội số nguyên của tần số cơ bản Các thành phần tần số này được gọi là các "hạt" (harmonics), và chúng tạo nên cấu trúc âm thanh có

âm điệu và âm sắc phong phú.[4]

Một ví dụ rõ ràng về âm thanh điều hòa cao là tiếng nói con người hoặc âm nhạc được chơi trên các nhạc cụ cổ điển Trong các trường hợp này, các tần số của các bước là các bội số nguyên của tần số cơ bản tạo nên âm điệu dễ nhận diện

Trang 28

Thí dụ, phổ âm thanh nốt G4 của tiếng sáo có dải tần số cao độ (pitch) như sau: 400Hz, 800Hz, 1200Hz, 1600Hz,

Ta có thể viết lại dãy trên như sau:

f, 2f, 3f, 4f

trong đó, f=400 Hz là tần số cơ bản của âm thanh Các thành phần có tần số nf được gọi là điều hòa của nốt nhạc

Tuy nhiên, đối với các âm thanh không điều hòa, tần số các bước không phải

là các bội số nguyên của tần số cơ bản, dẫn đến âm thanh có cấu trúc tần số phức tạp

và không có âm điệu dễ nhận diện

Điều hòa là một thuộc tính quan trọng trong việc phân tích và xử lý tín hiệu âm thanh, đặc biệt trong các ứng dụng như nhận diện giọng nói, nhạc sống, và nghiên cứu

âm thanh

2.3.5 Cao độ (Pitch)

Đặc trưng thứ ba của miền tần số trong dữ liệu âm thanh là cao độ Cao độ (Pitch) của âm thanh là thuộc tính mà người nghe cảm nhận các tần số của một âm thanh Nó liên quan đến cảm giác về sự "cao thấp" của âm thanh và cho biết nó có cao (high-pitched) hay thấp (low-pitched).[4]

• Cao độ thấp: âm thanh có tần số thấp tạo ra cảm giác của một cao độ thấp, thường được miêu tả như "âm thanh trầm" hoặc "âm thanh thấp."

• Cao độ cao: âm thanh có tần số cao tạo ra cảm giác của một cao độ cao, thường được miêu tả như "âm thanh sâu" hoặc "âm thanh cao."

Tần số càng cao thì pitch càng cao và bước sóng càng ngắn Cao độ là đặc trưng chủ quan, nó quan hệ nhưng không tương đương với tần số cơ bản Tuy nhiên, trong thực tế chúng ta sử dụng các tần số cơ bản để xấp xỉ cao độ

2.3.6 Ảnh phổ (Spectrogram)

Ảnh phổ (Spectrogram) của âm thanh là một biểu đồ hai chiều mà trên trục ngang thể hiện thời gian và trên trục dọc thể hiện tần số Màu sắc hoặc cường độ của điểm ảnh trên biểu đồ đại diện cho mức năng lượng của âm thanh tại một thời điểm

và tần số cụ thể [4]

Trang 29

Thông qua ảnh phổ, có thể hiểu được cách năng lượng của âm thanh được phân phối trên các tần số và thay đổi theo thời gian Điều này cho phép phân tích và biểu

đồ hóa các yếu tố âm thanh như cao độ, độ lớn, và tần số cơ bản

Hình 2.4 chỉ ra ảnh phổ của một tín hiệu âm thanh Ảnh phổ mô tả rõ ràng các quan hệ giữa thời gian, tần số và biên độ Ta có thể xác định tính xuất hiện đều của một vài thành phần tần số từ ảnh phổ

Hình 2.4: Ảnh phổ của tín hiệu âm thanh

2.3.7 Các đặc trưng chủ quan

Trừ cao độ (pitch), mọi đặc trưng mô tả trên có thể đo trực tiếp trong miền thới gian hay miền tần số Còn những đặc trưng khác có tính chủ quan, thí dụ âm sắc (timbre)

Âm sắc liên quan đến chất lượng âm thanh Đặc trưng này quyết định cách mà

âm thanh được nghe thấy và phân biệt giữa các nguồn âm thanh khác nhau, ngay cả khi chúng có cùng tần số và biên độ Điều này đồng nghĩa với việc hai âm thanh có cùng tần số cơ bản và biên độ, nhưng từ các nguồn khác nhau, sẽ có âm sắc khác nhau

Nó chứa đựng mọi chất lượng âm thanh khác với pitch (cao độ), loudness (âm lượng)

và duration (độ dài) Các thành phần quan trọng của âm sắc bao gồm hình bao biên

độ, điều hòa và hình bao phổ

2.4 Đặc trưng âm thanh MFCC

Trang 30

toán speech recognition và nhiều bài toán liên quan tới xử lý âm thanh khác Ta có thể hình dung việc tính MFCC theo luồng xử lý [6,7]:

- Cắt chuỗi tín hiệu âm thanh thành các đoạn ngắn bằng nhau (25ms) và overlap lên nhau (10ms)

- Mỗi đoạn âm thanh này được biến đổi, tính toán để thu được 39 features

- 39 feature này có tính độc lập cao, ít nhiễu, đủ nhỏ để đảm bảo tính toán,

đủ thông tin để đảm bảo chất lượng cho các thuật toán phân cụm

Hình 2.5: Các bước để tính MFCC của 1 đoạn âm thanh

Phần dưới đây sẽ đi vào chi tiết từng bước để tính MFCC của 1 đoạn âm thanh

2.4.2 Các bước để tính MFCC của một đoạn âm thanh

• A/D Conversion and Pre-emphasis

o A/D Conversion

Âm thanh là dạng tín hiệu liên tục, trong khi đó máy tính làm việc với các con số rời rạc Ta cần lấy mẫu tại các khoảng thời gian cách đều nhau với

1 tần số lấy mẫu xác định (sample rate) để chuyển từ dạng tín hiệu liên tục

về dạng rời rạc [6,7] VD sample_rate = 8000 → trong 1s lấy 8000 giá trị

Trang 31

Hình 2.6: Số hóa dữ liệu âm thanh với tần số lấy mẫu xác định

Tai người nghe được âm thanh trong khoảng 20Hz → 20000Hz Theo định

lý lấy mẫu Nyquist-Shannon: với 1 tín hiệu có các tần số thành phần  f m,

để đảm bảo việc lấy mẫu không làm mất mát thông tin (aliasing), tần số lấy mẫu f s phải đảm bảo f s  2f m

Vậy để đảm bảo việc lấy mẫu không làm mất mát thông tin, tần số lấy mẫu

số cao, nghĩa là giảm thiểu vai trò của tần số thấp vốn thường chịu ảnh hưởng của các hiệu ứng thu âm không mong muốn.[6,7]

Trang 32

Hình 2.7: Một ví dụ về tiền nhấn mạnh (Pre-emphasis)

• Spectrogram

Như đã nói qua phần trước, thông thường các tín hiệu âm thanh trong miền thời gian được biến đổi sang miền tần số Hiểu đơn giản là “phân giải 1 tín hiệu bất kì thành 1 tập các tín hiệu có tính chất tuần hoàn - có biên độ, tần số, pha giao động xác định” Để biến đổi từ miền thời gian sang miền tần số, ta cần các bước sau: [6,7]

- Windowing

Thay vì biến đổi Fourier trên cả đoạn âm thanh dài, ta chỉ cần biến đổi Fourier trên từng đoạn,từng đoạn lần lượt Ta trượt 1 cửa sổ dọc theo tín hiệu để lấy ra các frame rồi mới áp dụng DFT trên từng frame này (DFT - Discrete Fourier Transform)

Ta chia 1 giây âm thanh thành 36 - 40 phần, ta chọn độ rộng mỗi frame khoảng 20 - 25ms là vừa đủ rộng để bao 1 phần âm thanh Các frame được overlap lên nhau khoảng 10ms để có thể capture lại sự thay đổi context

Trang 33

Hình 2.8: Quy trình windowing 1 đoạn audio

Tuy nhiên, việc cắt frame sẽ làm các giá trị ở 2 biên của frame bị giảm đột ngột (về giá trị 0) Theo quy luật, nếu trong miền thời gian tín hiệu càng thay đổi đột ngột, thì bên miền tần số sẽ xuất hiện rất nhiều nhiễu tại các tần số cao Để khắc phục điều này, ta cần làm mượt bằng cách nhân chập frame với 1 vài loại window Có 1 vài loại window phổ biến là Hamming window, Hanning window … có tác dụng làm giá trị biên frame giảm xuống từ từ từ

Hình 2.9: Các loại Window phổ biến

Hình dưới đây sẽ cho ta thấy rõ được tác dụng của các window này Trong các hình nhỏ, hình 1 là 1 đoạn âm thanh được cắt ra từ âm thanh gốc, âm

Trang 34

thanh gốc là được tạo lên bởi 2 tần số trong hình 2 Nếu áp dụng rectangle window (tức là cắt trực tiếp), tín hiệu miền tần số tương ứng là hình 3, ta

có thể thấy tín hiệu này chứa rất nhiều nhiễu Nếu áp dụng các window như Hanning, Hamming, Blackman, tín hiệu miền tần số thu được khá mượt và gần xấp xỉ tần số gốc ở hình 2

Hình 2.10: Tín hiệu audio qua các window khác nhau

ta nhận thấy tại các tần số thấp thường có magnitude cao, tần số cao thường

có magnitude thấp

Tiêu đề	Phân tích tín hiệu âm thanh để nhận diện tình trạng sức khỏe của ngựa
Tác giả	Phạm Đức Long
Người hướng dẫn	TS. Phạm Tiến Lâm
Trường học	Trường Đại học Phenikaa
Chuyên ngành	Công nghệ thông tin
Thể loại	Đồ án tốt nghiệp
Năm xuất bản	2023
Thành phố	Hà Nội

Định dạng
Số trang	69
Dung lượng	3,32 MB