1. Trang chủ
  2. » Giáo Dục - Đào Tạo

(TIỂU LUẬN) bài tập lớn cơ sở dữ liệu đa phương tiện code chuyển đối file âm thanh sử dụng fourier rời rạc đánh giá phân loại file âm thanh mới

40 12 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề (TIỂU LUẬN) Bài Tập Lớn Cơ Sở Dữ Liệu Đa Phương Tiện Code Chuyển Đối File Âm Thanh Sử Dụng Fourier Rời Rạc Đánh Giá Phân Loại File Âm Thanh Mới
Tác giả Nguyễn Thanh Tùng - B13DCCN057, Nguyễn Thị Phương - B13DCCN039, Nguyễn Tùng Long - B13DCCN030
Người hướng dẫn Nguyễn Đình Hóa
Trường học Học viện Công nghệ Bưu chính Viễn thông
Chuyên ngành Cơ sở dữ liệu đa phương tiện
Thể loại bài tập lớn
Năm xuất bản 2017
Thành phố Hà Nội
Định dạng
Số trang 40
Dung lượng 3,14 MB

Cấu trúc

  • 1. TỔNG QUAN VỀ XỬ LÝ ÂM THANH (5)
    • 1.1. Giới thiệu sơ lược về âm thanh & hệ thống xử lý âm thanh (5)
      • 1.1.1. Đặc tính của âm thanh tương tự (0)
      • 1.1.2. Khái niệm tín hiệu (5)
      • 1.1.3. Phân loại tín hiệu (6)
      • 1.1.4. Phân loại hệ thống xử lý (9)
      • 1.1.5. Hệ thống số xử lý âm thanh (9)
      • 1.1.6. Kiến trúc hệ thống số xử lý âm thanh (10)
    • 1.2. Các thuộc tính (12)
  • 2. CÁC KỸ THUẬT XỬ LÝ ÂM THANH (14)
    • 2.1. Kỹ thuật nén âm thanh (14)
      • 2.1.1. Mã hóa Huffman (0)
      • 2.1.2. Mã hóa RLE(Run-length Encoding) (0)
      • 2.1.3. Giải thuật Lempel – Ziv – Welch (LZW) (15)
      • 2.1.4. Mã hóa dự đoán (16)
      • 2.1.5. Nén âm thanh MPEG (16)
      • 2.1.6. Chuẩn mã hóa audio MP3 (20)
  • 3. PHƯƠNG PHÁP CHUYỂN ĐỔI FOURIER RỜI RẠC (2)
    • 3.1. Định nghĩa (0)
    • 3.2. Ứng dụng (22)
  • 4. THU THẬP CÁC ĐOẠN AUDIO (2)
  • 5. CODE CHUYỂN ĐỔI FILE ÂM THANH SỬA DỤNG CHUYỂN ĐỔI FOURIER RỜI RẠC(DFT) (24)
    • 5.1. Cấu trúc file nhạc .wav (24)
    • 5.2. Code đọc thông tin file .wav để lấy thông tin biên độ sau khi rời rạc hóa âm thanh (25)
    • 5.4. Hàm sử dụng trong phương pháp FFT giúp tính toán nhanh DFT (0)
    • 5.5. Triển khai các hàm của phương pháp FFT (27)
      • 5.5.1. Hàm FFT:Transform (27)
      • 5.5.2. Hàm inverseTransform (28)
      • 5.5.3. Hàm chuyển đổi sang miền tần số sử dụng thuật toán Cooley-Tukey nếu số lượng mẫu là lũy thừa của 2 (28)
      • 5.5.4. Hàm chuyển đổi sang miền tần số sử dụng thuật toán Bluestein nếu số lượng mẫu là bất kỳ 29 5.5.6. Sử dụng FFT để tính toán nhanh DFT (29)
    • 5.7. Nhận xét (34)
  • 6. Đánh giá phân loại file âm thanh mới (2)
    • 6.1. Phương pháp sử dụng trọng tâm của từng cụm (35)
    • 6.2. Phương pháp tính khoảng cách (38)

Nội dung

TỔNG QUAN VỀ XỬ LÝ ÂM THANH

Giới thiệu sơ lược về âm thanh & hệ thống xử lý âm thanh

Đặc tính của âm thanh tương tự

Lời nói có mục đích chính là truyền đạt thông tin, và có nhiều cách để mô tả đặc điểm của quá trình này Theo lý thuyết thông tin, lời nói được xem như nội dung thông điệp hoặc thông tin Ngoài ra, lời nói cũng có thể được biểu thị dưới dạng tín hiệu mang nội dung thông điệp, chẳng hạn như sóng âm thanh.

Kỹ thuật ghi âm đầu tiên dựa trên các thông số cơ, điện và trường, cho phép tạo ra nhiều phương pháp ghi âm phù hợp với các loại áp suất không khí khác nhau Tín hiệu điện áp từ microphone phản ánh áp suất không khí hoặc vận tốc Dù phân tích theo cách nào, các phương pháp so sánh luôn cần sử dụng một tỷ lệ thời gian.

Là đại lượng vật lý biến thiên theo thời gian, theo không gian, theo một hoặc nhiều biến độc lập khác, ví dụ như:

 Âm thanh, tiếng nói: dao động sóng theo thời gian (t)

 Hình ảnh: cường độ sáng theo không gian (x, y, z)

 Địa chấn: chấn động địa lý theo thời gian

Biểu diễn toán học của tín hiệu: hàm theo biến độc lập

Thông thường, các tín hiệu tự nhiên không thể được biểu diễn bằng hàm sơ cấp, do đó, trong quá trình tính toán, người ta thường sử dụng hàm xấp xỉ để mô phỏng các tín hiệu này.

Hệ thống là các thiết bị vật lý, thiết bị sinh học hoặc chương trình thực hiện các phép toán trên tín hiệu Mục đích của việc này là để biến đổi tín hiệu và rút trích thông tin Quá trình thực hiện các phép toán này được gọi là xử lý tín hiệu.

Tín hiệu đa kênh bao gồm nhiều tín hiệu thành phần, tất cả đều mô tả một đối tượng nhất định Những tín hiệu này thường được biểu diễn dưới dạng vector, ví dụ như tín hiệu điện tim (ECG - ElectroCardioGram), tín hiệu điện não (EEG - ElectroEncephaloGram) và tín hiệu ảnh màu RGB.

Tín hiệu đa chiều: biến thiên theo nhiều hơn một biến độc lập, ví dụ như tín hiệu hình ảnh, tín hiệu tivi trắng đen.

Tín hiệu liên tục theo thời gian: là tín hiệu được định nghĩa tại mọi điểm trong đoạn thời gian [a,b], ký hiệu x(t).

Tín hiệu rời rạc thời gian: là tín hiệu chỉ được định nghĩa tại những thời điểm rời rạc khác nhau, ký hiệu x(n).

Tín hiệu liên tục giá trị: là tín hiệu có thể nhận trị bất kỳtrong đoạn [Ymin, Ymax], ví dụ tín hiệu tương tự(analog).

Tín hiệu rời rạc giá trị: tín hiệu chỉ nhận trị trong một tập trị rời rạc định trước (tín

Tín hiệu analog: là tín hiệu liên tục về thời gian, liên tục về giá trị.

Tín hiệu số: là tín hiệu rời rạc về thời gian, rời rạc về giá trị.

Tín hiệu ngẫu nhiên: giá trị của tín hiệu trong tương lai không thể biết trước được. Các tín hiệu trong tự nhiên thường thuộc nhóm này.

Tín hiệu tất định: giá trị tín hiệu ở quá khứ, hiện tại và tương lai đều được xác định rõ, thông thường có công thức xác định rõ ràng

1.1.4 Phân loại hệ thống xử lý

Hệ thống xử lý tín hiệu được chia thành hai loại: hệ thống tương tự và hệ thống số Hệ thống xử lý số nổi bật với khả năng lập trình, dễ dàng mô phỏng và cấu hình, cho phép sản xuất hàng loạt với độ chính xác cao và chi phí thấp Tín hiệu số cũng thuận tiện cho việc lưu trữ, vận chuyển và sao lưu Tuy nhiên, nhược điểm của hệ thống này là khó thực hiện với các tín hiệu có tần số cao.

1.1.5 Hệ thống số xử lý âm thanh Độ nhạy của tai người rất cao, nó có thể phân biệt được số lượng nhiễu rất nhỏ cũng như chấp nhận tầm biên độ âm thanh rất lớn Các đặc tính của một tín hiệu tai người nghe được có thể được đo đạc bằng các công cụ phù hợp Thông thường, tai người nhạy nhất ở

20kHz Tầm động nghe được của tai người được phân tích và người ta nhận được kết quả là có dạng đáp ứng logarith

Tín hiệu âm thanh được số hóa thành chuỗi bit, cho phép dễ dàng xác định số lượng bit qua việc đếm trong một giây Nhờ tính chất rời rạc của bit, việc xác định tốc độ truyền bit cần thiết để truyền tải tín hiệu mà không làm mất thông tin trở nên đơn giản và hiệu quả.

1.1.6 Kiến trúc hệ thống số xử lý âm thanh Đối với máy tính số xử lý âm thanh, người ta thường dùng phương pháp Điều chế xung (Pulse Code Modulation , viết tắt PCM) Dạng sóng âm thanh được chuyển sang dãy số PCM như sau, xét tín hiệu hình sin làm ví dụ:

Tín hiệu gốc là tín hiệu như Hình 1.9

Sử dụng microphone để thu tín hiệu âm thanh trong không khí và chuyển đổi chúng thành tín hiệu điện, với điện áp ngõ ra khoảng ±1 volt, như được minh họa trong Hình 1.10.

Tín hiệu điện áp tương tự được chuyển đổi thành dạng số hóa thông qua thiết bị chuyển đổi tương tự-số (ADC) Sử dụng bộ chuyển đổi 16 bit, giá trị số nguyên đầu ra nằm trong khoảng từ -32,768 đến +32,767, như được minh họa trong hình 1.11.

Do số lượng điểm dữ liệu là vô hạn, không thể thu thập tất cả các điểm trên trục thời gian; vì vậy, việc lấy mẫu sẽ được thực hiện theo khoảng thời gian đều đặn Tần số lấy mẫu (sampling rate) là số lượng mẫu được thu thập trong một giây Hình 1.12 minh họa 43 mẫu được lấy.

Kết quả của việc lấy mẫu là một chuỗi gồm 43 chữ số biểu diễn cho các vị trí của dạng sóng ứng thời gian là một chu kỳ(hình 1.13).

Máy tính sẽ tái tạo dạng sóng của tín hiệu bằng cách kết nối các điểm dữ liệu Dạng sóng thu được được thể hiện trong Hình 1.14.

Hình 1.14 Dạng sóng được tái tạo lại

Lưu ý rằng có một vài điểm khác biệt giữa dạng sóng nguyên thủy và dạng sóng tái tạo (Hình 1.9 và Hình 1.14), lý do:

A Các giá trị được tạo ra tại bộ chuyển đổi tín hiệu tương tự sang tín hiệu số là các số nguyên và được làm tròn giá trị.

B Hình dáng của tín hiệu tái tạo phụ thuộc vào số lượng mẫu được ghi nhận.

Một dãy số hữu hạn, đại diện cho tín hiệu số, chỉ có thể biểu diễn một dạng sóng tín hiệu tương tự với độ chính xác có giới hạn.

Các thuộc tính

Quá trình thu âm chuyển đổi sóng âm thanh thành tín hiệu số, thường diễn ra trong các studio với thiết bị phức tạp Âm thanh thực là sóng cơ học dạng hình sin liên tục (analog), trong khi âm thanh số là những xung điện tử rời rạc (digital) Do đó, âm thanh số chỉ có thể mô phỏng gần giống âm thanh thực tế thông qua các thông số đặc trưng.

Sample là thành phần nhỏ nhất trong bản nhạc số, được tạo ra thông qua nhiều lần lấy mẫu để tạo ra các xung điện tử rời rạc Mỗi mẫu đại diện cho giá trị biên độ của tần số sóng âm tại thời điểm lấy mẫu Việc tăng số lượng mẫu sẽ giúp tín hiệu số thu được chính xác hơn.

The sample rate, also known as sampling frequency, refers to the number of samples taken per second, measured in Hertz (Hz) For instance, a music track with a sample rate of 44,100 Hz means that audio is sampled 44,100 times every second.

BitDepth là số lượng bit dữ liệu dùng để lưu trữ mỗi mẫu âm thanh, với các bản nhạc hiện nay thường có BitDepth là 16 bits hoặc 24 bits BitDepth càng lớn thì âm thanh càng sắc nét và trung thực, do đó nó còn được gọi là Resolution (độ nét).

- Channel: Bằng các thuật toán, tín hiệu số sẽ được tách ra thành nhiều kênh

(Channel) sao cho khi nghe bằng hệ thống loa thích hợp sẽ có cảm giác như khi đang nghe nhạc trong không gian thực tế.

Từ 4 thông số cơ bản trên, ta không những biết được chất lượng mà còn có thể tính được dung lượng của bản nhạc Ví dụ một phút của bản nhạc có : Sample rate = 44100 Hz,BitDepth = 16 bits = 2 bytes, Channel = 2 kênh sẽ có dung lượng: 44100 đợt lấy mẫu x 2 bytes x 60 giây x 2 kênh = 10.584.000 bytes, tức khoảng 10.1 MB.

BitRate là thông số quan trọng đại diện cho dung lượng và chất lượng âm thanh số, được đo bằng Kbps (Kilobits per second) Nó cho phép người dùng nhanh chóng xác định dung lượng và chất lượng của bản nhạc Chẳng hạn, một phút nhạc có Bitrate 128 kbps sẽ có dung lượng khoảng 1 MB, trong khi bản nhạc 320 kbps thường mang lại chất lượng âm thanh tốt hơn so với bản 128 kbps.

CÁC KỸ THUẬT XỬ LÝ ÂM THANH

PHƯƠNG PHÁP CHUYỂN ĐỔI FOURIER RỜI RẠC

THU THẬP CÁC ĐOẠN AUDIO

5 Code chuyển đối file âm thanh sử dụng Fourier rời rạc

6 Đánh giá phân loại file âm thanh mới

Do kiến thức còn hạn chế, bài tập của chúng em còn nhiều sai sót và hạn chế Chúng em rất mong thầy góp ý và sửa chữa để giúp chúng em hoàn thiện bản thân hơn Chân thành cảm ơn thầy!

1 TỔNG QUAN VỀ XỬ LÝ ÂM THANH 4

1.1 Giới thiệu sơ lược về âm thanh & hệ thống xử lý âm thanh 4

1.1.1 Đặc tính của âm thanh tương tự 4

1.1.4 Phân loại hệ thống xử lý 9

1.1.5 Hệ thống số xử lý âm thanh 9

1.1.6 Kiến trúc hệ thống số xử lý âm thanh 10

2 CÁC KỸ THUẬT XỬ LÝ ÂM THANH 14

2.1 Kỹ thuật nén âm thanh 14

2.1.2 Mã hóa RLE(Run-length Encoding) 14

2.1.3 Giải thuật Lempel – Ziv – Welch (LZW) 15

2.1.6 Chuẩn mã hóa audio MP3 20

3 PHƯƠNG PHÁP CHUYỂN ĐỔI FOURIER RỜI RẠC 21

4 THU THẬP CÁC ĐOẠN AUDIO 23

4.2 20 đoạn hội thoại khác nhau 24

5 CODE CHUYỂN ĐỔI FILE ÂM THANH SỬA DỤNG CHUYỂN ĐỔI FOURIER RỜI RẠC(DFT) 24

5.1 Cấu trúc file nhạc wav 24

5.2 Code đọc thông tin file wav để lấy thông tin biên độ sau khi rời rạc hóa âm thanh 25

5.4 Hàm sử dụng trong phương pháp FFT giúp tính toán nhanh DFT 27

5.5 Triển khai các hàm của phương pháp FFT 27

5.5.3 Hàm chuyển đổi sang miền tần số sử dụng thuật toán Cooley-Tukey nếu số lượng mẫu là lũy thừa của 2 28

5.5.4 Hàm chuyển đổi sang miền tần số sử dụng thuật toán Bluestein nếu số lượng mẫu là bất kỳ 29 5.5.6 Sử dụng FFT để tính toán nhanh DFT 31

5.6 Xây dựng vector thuộc tính trong miền tần số 32

6 Đánh giá phân loại file âm thanh mới 35

6.1 Phương pháp sử dụng trọng tâm của từng cụm 35

6.2 Phương pháp tính khoảng cách 38

1 TỔNG QUAN VỀ XỬ LÝ ÂM THANH

1.1 Giới thiệu sơ lược về âm thanh & hệ thống xử lý âm thanh Đặc tính của âm thanh tương tự

Lời nói có mục đích chính là truyền đạt thông tin, và có nhiều cách để mô tả đặc điểm của quá trình này Theo lý thuyết thông tin, lời nói có thể được hiểu là nội dung thông điệp hoặc thông tin Ngoài ra, lời nói cũng có thể được biểu thị dưới dạng tín hiệu mang nội dung thông điệp, chẳng hạn như sóng âm thanh.

Kỹ thuật ghi âm đầu tiên dựa trên các thông số cơ, điện và trường, cho phép tạo ra nhiều phương pháp ghi âm tương ứng với các loại áp suất không khí khác nhau Tín hiệu từ microphone là điện áp tương tự của áp suất không khí hoặc vận tốc Khi phân tích các phương pháp này, cần phải sử dụng một tỷ lệ thời gian để so sánh chúng.

Là đại lượng vật lý biến thiên theo thời gian, theo không gian, theo một hoặc nhiều biến độc lập khác, ví dụ như:

 Âm thanh, tiếng nói: dao động sóng theo thời gian (t)

 Hình ảnh: cường độ sáng theo không gian (x, y, z)

 Địa chấn: chấn động địa lý theo thời gian

Biểu diễn toán học của tín hiệu: hàm theo biến độc lập

Các tín hiệu tự nhiên thường không thể được mô tả bằng một hàm sơ cấp Do đó, trong quá trình tính toán, người ta thường sử dụng các hàm xấp xỉ để đại diện cho các tín hiệu này.

Hệ thống là một thiết bị vật lý, thiết bị sinh học hoặc chương trình thực hiện các phép toán trên tín hiệu để biến đổi và rút trích thông tin Quá trình thực hiện các phép toán này được gọi là xử lý tín hiệu.

Tín hiệu đa kênh bao gồm nhiều thành phần tín hiệu, cùng mô tả một đối tượng cụ thể Những tín hiệu này thường được biểu diễn dưới dạng vector, ví dụ như tín hiệu điện tim (ECG - ElectroCardioGram), tín hiệu điện não (EEG - ElectroEncephaloGram) và tín hiệu ảnh màu RGB.

Tín hiệu đa chiều: biến thiên theo nhiều hơn một biến độc lập, ví dụ như tín hiệu hình ảnh, tín hiệu tivi trắng đen.

Tín hiệu liên tục theo thời gian: là tín hiệu được định nghĩa tại mọi điểm trong đoạn thời gian [a,b], ký hiệu x(t).

Tín hiệu rời rạc thời gian: là tín hiệu chỉ được định nghĩa tại những thời điểm rời rạc khác nhau, ký hiệu x(n).

Tín hiệu liên tục giá trị: là tín hiệu có thể nhận trị bất kỳtrong đoạn [Ymin, Ymax], ví dụ tín hiệu tương tự(analog).

Tín hiệu rời rạc giá trị: tín hiệu chỉ nhận trị trong một tập trị rời rạc định trước (tín

Tín hiệu analog: là tín hiệu liên tục về thời gian, liên tục về giá trị.

Tín hiệu số: là tín hiệu rời rạc về thời gian, rời rạc về giá trị.

Tín hiệu ngẫu nhiên: giá trị của tín hiệu trong tương lai không thể biết trước được. Các tín hiệu trong tự nhiên thường thuộc nhóm này.

Tín hiệu tất định: giá trị tín hiệu ở quá khứ, hiện tại và tương lai đều được xác định rõ, thông thường có công thức xác định rõ ràng

1.1.4 Phân loại hệ thống xử lý

Hệ thống xử lý được chia thành hai loại: hệ thống tương tự và hệ thống số Hệ thống số có khả năng lập trình, dễ mô phỏng và cấu hình, cho phép sản xuất hàng loạt với độ chính xác cao và chi phí thấp Tín hiệu số cũng dễ dàng lưu trữ, vận chuyển và sao lưu Tuy nhiên, nhược điểm của hệ thống số là khó khăn trong việc xử lý các tín hiệu có tần số cao.

Hệ thống số xử lý âm thanh tận dụng độ nhạy cao của tai người, cho phép phân biệt các nhiễu rất nhỏ và chấp nhận biên độ âm thanh lớn Các đặc tính của tín hiệu âm thanh có thể được đo bằng công cụ phù hợp, với tai người thường nhạy nhất ở một số tần số nhất định.

20kHz Tầm động nghe được của tai người được phân tích và người ta nhận được kết quả là có dạng đáp ứng logarith

Tín hiệu âm thanh trong hệ thống số được chuyển đổi thành chuỗi bit, cho phép xác định số lượng bit một cách dễ dàng bằng cách đếm trong một giây Điều này giúp xác định tốc độ truyền bit cần thiết để truyền tải tín hiệu mà không làm mất thông tin.

Hệ thống số xử lý âm thanh thường sử dụng phương pháp Điều chế xung (PCM - Pulse Code Modulation) Trong quá trình này, dạng sóng âm thanh, chẳng hạn như tín hiệu hình sin, được chuyển đổi thành một dãy số PCM.

Tín hiệu gốc là tín hiệu như Hình 1.9

Sử dụng microphone để thu tín hiệu âm thanh trong không khí và chuyển đổi thành tín hiệu điện với điện áp ngõ ra khoảng ±1 volt, như minh họa trong Hình 1.10.

Tín hiệu điện áp tương tự được chuyển đổi sang dạng số bằng thiết bị chuyển đổi tương tự-số (ADC) Sử dụng bộ chuyển đổi 16 bit, giá trị số nguyên đầu ra dao động từ -32,768 đến +32,767, như được thể hiện trong hình 1.11.

Do số lượng điểm dữ liệu vô hạn, việc lấy mẫu sẽ được thực hiện trong khoảng thời gian đều đặn Tần số lấy mẫu (sampling rate) là số lượng mẫu được thu thập trong một giây Hình 1.12 minh họa 43 mẫu đã được lấy.

Kết quả của việc lấy mẫu là một chuỗi gồm 43 chữ số biểu diễn cho các vị trí của dạng sóng ứng thời gian là một chu kỳ(hình 1.13).

Máy tính sẽ tái tạo dạng sóng của tín hiệu bằng cách kết nối các điểm dữ liệu, và kết quả được thể hiện trong Hình 1.14.

Hình 1.14 Dạng sóng được tái tạo lại

Lưu ý rằng có một vài điểm khác biệt giữa dạng sóng nguyên thủy và dạng sóng tái tạo (Hình 1.9 và Hình 1.14), lý do:

A Các giá trị được tạo ra tại bộ chuyển đổi tín hiệu tương tự sang tín hiệu số là các số nguyên và được làm tròn giá trị.

B Hình dáng của tín hiệu tái tạo phụ thuộc vào số lượng mẫu được ghi nhận.

Một dãy số hữu hạn, đại diện cho tín hiệu số, chỉ có khả năng biểu diễn một dạng sóng tín hiệu tương tự với độ chính xác có giới hạn.

CODE CHUYỂN ĐỔI FILE ÂM THANH SỬA DỤNG CHUYỂN ĐỔI FOURIER RỜI RẠC(DFT)

Hàm sử dụng trong phương pháp FFT giúp tính toán nhanh DFT

Trong thời đại khoa học công nghệ phát triển mạnh mẽ, thiết bị số ngày càng trở nên quan trọng trong việc lưu trữ dữ liệu phong phú và đa dạng Bên cạnh dữ liệu văn bản truyền thống, chúng ta hiện có thêm nhiều loại dữ liệu mới như hình ảnh, âm thanh và video Do đó, việc nghiên cứu và hiểu biết về các loại dữ liệu này là vô cùng cần thiết.

Dựa trên kiến thức từ môn Cơ sở dữ liệu đa phương tiện, chúng tôi nghiên cứu các kỹ thuật xử lý âm thanh và phương pháp chuyển đổi Fourier rời rạc Nội dung chính bao gồm các kỹ thuật và ứng dụng trong xử lý âm thanh, cùng với lý thuyết và thực hành về chuyển đổi Fourier rời rạc.

1 Tổng quan về âm thanh

2 Các kỹ thuạt xử lý âm thanh

3 Phương pháp chuyển đổi Fourier rời rạc

4 Thu thập các đoạn audio

5 Code chuyển đối file âm thanh sử dụng Fourier rời rạc

6 Đánh giá phân loại file âm thanh mới

Do kiến thức của chúng em còn hạn chế, bài tập của chúng em vẫn còn nhiều sai sót và hạn chế Chúng em rất mong thầy đóng góp ý kiến và giúp đỡ để chúng em có thể hoàn thiện bản thân hơn Xin chân thành cảm ơn thầy!

1 TỔNG QUAN VỀ XỬ LÝ ÂM THANH 4

1.1 Giới thiệu sơ lược về âm thanh & hệ thống xử lý âm thanh 4

1.1.1 Đặc tính của âm thanh tương tự 4

1.1.4 Phân loại hệ thống xử lý 9

1.1.5 Hệ thống số xử lý âm thanh 9

1.1.6 Kiến trúc hệ thống số xử lý âm thanh 10

2 CÁC KỸ THUẬT XỬ LÝ ÂM THANH 14

2.1 Kỹ thuật nén âm thanh 14

2.1.2 Mã hóa RLE(Run-length Encoding) 14

2.1.3 Giải thuật Lempel – Ziv – Welch (LZW) 15

2.1.6 Chuẩn mã hóa audio MP3 20

3 PHƯƠNG PHÁP CHUYỂN ĐỔI FOURIER RỜI RẠC 21

4 THU THẬP CÁC ĐOẠN AUDIO 23

4.2 20 đoạn hội thoại khác nhau 24

5 CODE CHUYỂN ĐỔI FILE ÂM THANH SỬA DỤNG CHUYỂN ĐỔI FOURIER RỜI RẠC(DFT) 24

5.1 Cấu trúc file nhạc wav 24

5.2 Code đọc thông tin file wav để lấy thông tin biên độ sau khi rời rạc hóa âm thanh 25

5.4 Hàm sử dụng trong phương pháp FFT giúp tính toán nhanh DFT 27

5.5 Triển khai các hàm của phương pháp FFT 27

5.5.3 Hàm chuyển đổi sang miền tần số sử dụng thuật toán Cooley-Tukey nếu số lượng mẫu là lũy thừa của 2 28

5.5.4 Hàm chuyển đổi sang miền tần số sử dụng thuật toán Bluestein nếu số lượng mẫu là bất kỳ 29 5.5.6 Sử dụng FFT để tính toán nhanh DFT 31

5.6 Xây dựng vector thuộc tính trong miền tần số 32

6 Đánh giá phân loại file âm thanh mới 35

6.1 Phương pháp sử dụng trọng tâm của từng cụm 35

6.2 Phương pháp tính khoảng cách 38

1 TỔNG QUAN VỀ XỬ LÝ ÂM THANH

1.1 Giới thiệu sơ lược về âm thanh & hệ thống xử lý âm thanh Đặc tính của âm thanh tương tự

Lời nói có mục đích chính là truyền đạt thông tin, và có nhiều cách để mô tả đặc điểm của quá trình này Theo lý thuyết thông tin, lời nói có thể được hiểu là nội dung thông điệp hoặc thông tin Ngoài ra, lời nói cũng có thể được biểu thị dưới dạng tín hiệu mang nội dung thông điệp, chẳng hạn như sóng âm thanh.

Kỹ thuật ghi âm đầu tiên sử dụng các thông số về cơ, điện và trường để tạo ra nhiều phương pháp ghi âm tương ứng với các loại áp suất không khí khác nhau Tín hiệu từ microphone phản ánh áp suất không khí hoặc vận tốc dưới dạng tín hiệu tương tự Khi phân tích các phương pháp này, cần phải sử dụng một tỷ lệ thời gian để so sánh hiệu quả.

Là đại lượng vật lý biến thiên theo thời gian, theo không gian, theo một hoặc nhiều biến độc lập khác, ví dụ như:

 Âm thanh, tiếng nói: dao động sóng theo thời gian (t)

 Hình ảnh: cường độ sáng theo không gian (x, y, z)

 Địa chấn: chấn động địa lý theo thời gian

Biểu diễn toán học của tín hiệu: hàm theo biến độc lập

Thông thường, các tín hiệu tự nhiên không thể được biểu diễn bằng một hàm sơ cấp, do đó trong quá trình tính toán, người ta thường sử dụng các hàm xấp xỉ để mô phỏng các tín hiệu này.

Hệ thống là một thiết bị vật lý, thiết bị sinh học hoặc chương trình có khả năng thực hiện các phép toán trên tín hiệu Mục đích của những phép toán này là để biến đổi tín hiệu và rút trích thông tin Quá trình thực hiện các phép toán này được gọi là xử lý tín hiệu.

Tín hiệu đa kênh là tập hợp các tín hiệu thành phần mô tả một đối tượng cụ thể, thường được biểu diễn dưới dạng vector Ví dụ điển hình bao gồm tín hiệu điện tim (ECG - ElectroCardioGram), tín hiệu điện não (EEG - ElectroEncephaloGram) và tín hiệu ảnh màu RGB.

Tín hiệu đa chiều: biến thiên theo nhiều hơn một biến độc lập, ví dụ như tín hiệu hình ảnh, tín hiệu tivi trắng đen.

Tín hiệu liên tục theo thời gian: là tín hiệu được định nghĩa tại mọi điểm trong đoạn thời gian [a,b], ký hiệu x(t).

Tín hiệu rời rạc thời gian: là tín hiệu chỉ được định nghĩa tại những thời điểm rời rạc khác nhau, ký hiệu x(n).

Tín hiệu liên tục giá trị: là tín hiệu có thể nhận trị bất kỳtrong đoạn [Ymin, Ymax], ví dụ tín hiệu tương tự(analog).

Tín hiệu rời rạc giá trị: tín hiệu chỉ nhận trị trong một tập trị rời rạc định trước (tín

Tín hiệu analog: là tín hiệu liên tục về thời gian, liên tục về giá trị.

Tín hiệu số: là tín hiệu rời rạc về thời gian, rời rạc về giá trị.

Tín hiệu ngẫu nhiên: giá trị của tín hiệu trong tương lai không thể biết trước được. Các tín hiệu trong tự nhiên thường thuộc nhóm này.

Tín hiệu tất định: giá trị tín hiệu ở quá khứ, hiện tại và tương lai đều được xác định rõ, thông thường có công thức xác định rõ ràng

1.1.4 Phân loại hệ thống xử lý

Hệ thống xử lý được chia thành hai loại: hệ thống tương tự và hệ thống số Hệ thống xử lý số nổi bật với khả năng lập trình, dễ dàng mô phỏng và cấu hình, cho phép sản xuất hàng loạt với độ chính xác cao và chi phí thấp Tín hiệu số cũng thuận lợi cho việc lưu trữ, vận chuyển và sao lưu Tuy nhiên, nhược điểm của hệ thống này là khó khăn trong việc xử lý các tín hiệu có tần số cao.

1.1.5 Hệ thống số xử lý âm thanh Độ nhạy của tai người rất cao, nó có thể phân biệt được số lượng nhiễu rất nhỏ cũng như chấp nhận tầm biên độ âm thanh rất lớn Các đặc tính của một tín hiệu tai người nghe được có thể được đo đạc bằng các công cụ phù hợp Thông thường, tai người nhạy nhất ở

20kHz Tầm động nghe được của tai người được phân tích và người ta nhận được kết quả là có dạng đáp ứng logarith

Tín hiệu âm thanh trong hệ thống số được chuyển đổi thành chuỗi bit, cho phép dễ dàng đếm và xác định số lượng bit trong một giây Nhờ vào tính chất rời rạc của bit, người dùng có thể dễ dàng quyết định tốc độ truyền bit cần thiết để đảm bảo rằng thông tin không bị mất trong quá trình truyền tải.

1.1.6 Kiến trúc hệ thống số xử lý âm thanh Đối với máy tính số xử lý âm thanh, người ta thường dùng phương pháp Điều chế xung (Pulse Code Modulation , viết tắt PCM) Dạng sóng âm thanh được chuyển sang dãy số PCM như sau, xét tín hiệu hình sin làm ví dụ:

Tín hiệu gốc là tín hiệu như Hình 1.9

Sử dụng microphone để thu tín hiệu âm thanh từ không khí và chuyển đổi thành tín hiệu điện, với điện áp ngõ ra khoảng ±1 volt, như được thể hiện trong Hình 1.10.

Tín hiệu điện áp tương tự được chuyển đổi thành dạng số hóa thông qua thiết bị chuyển đổi tương tự-số (ADC) Sử dụng bộ chuyển đổi 16 bit, giá trị số nguyên đầu ra dao động từ -32,768 đến +32,767, như thể hiện trong hình 1.11.

Do số lượng điểm dữ liệu là vô hạn, việc lấy mẫu chỉ có thể thực hiện trong những khoảng thời gian đều đặn Tần số lấy mẫu (sampling rate) được định nghĩa là số lượng mẫu thu thập được trong một giây Hình 1.12 minh họa 43 mẫu đã được lấy.

Kết quả của việc lấy mẫu là một chuỗi gồm 43 chữ số biểu diễn cho các vị trí của dạng sóng ứng thời gian là một chu kỳ(hình 1.13).

Triển khai các hàm của phương pháp FFT

5.5.1 Hàm FFT:Transform Đây là hàm kiểm tra số lượng mẫu chứa trong file wav, nếu số lượng mẫu là lũy thừa của 2 thì áp dụng thuật toán Cooley-Tukey.

Chi tiết thuật toán như sau

5.5.2 Hàm inverseTransform Đây là hàm chuyển đổi ngược IDFT Chi tiết như sau

5.5.3.Hàm chuyển đổi sang miền tần số sử dụng thuật toán Cooley-Tukey nếu số lượng mẫu là lũy thừa của 2 Đây là phương pháp tính toán DFT chia thành 2 phần 1 phần bao gồm n(chỉ số chạy trong công thức DFT) thành n chẵn và n lẻ

5.5.4.Hàm chuyển đổi sang miền tần số sử dụng thuật toán Bluestein nếu số lượng mẫu là bất kỳ Đây là phương pháp tổng quát để tính toán DFT một cách nhanh chóng tuy nhiên thuật toán này chậm hơn Cooley-Tukey vài lần Chi tiết thuật toán như sau:

5.5.6 Sử dụng FFT để tính toán nhanh DFT

Nhóm chúng tôi đã kiểm chứng công thức DFT theo định nghĩa và áp dụng FFT để tính toán nhanh DFT Kết quả thu được cho thấy phổ trong miền tần số là giống nhau, được lưu trữ trong hai file out.dat và ou1.dat.

5.6 Xây dựng vector thuộc tính trong miền tần số

Nhóm em trích xuất ra 7 thuộc tính trong miền tần số của dữ liệu âm thanh bao gồm

Năng lượng trung bình (avergeEnergy)

Tần số ứng với biên độ lớn nhất(frequencyWithmagnitudemax)

Tần số ứng với biên độ nhỏ nhất(frequencyWithmagnitudemax)

Tần số lớn nhất(maxMagnitude)

Tần số nhỏ nhất(maxMagnitude)

Năng lượng trung bình trong dải băng thông(energyInbandWidth)

Các thuộc tính được định nghĩa trong một struct như sau

Kết quả trích xuất các thuộc tính của 2 loại nhạc và hội thoại nhóm em đưa ra 2 file dữ liệu là nhạc và hội thoại như sau

 Thuộc tính file hội thoại

Đánh giá phân loại file âm thanh mới

Phương pháp sử dụng trọng tâm của từng cụm

Bằng cách trích xuất các thuộc tính trong miền tần số của hai cụm, nhóm chúng tôi đã xác định được trọng tâm của từng cụm Trọng tâm này được tính toán và lưu trữ vào file tương ứng, như minh họa trong hình dưới đây.

Các thuộc tính trong miền tần số tương ứng với trọng tâm của 20 file âm nhạc

Các thuộc tính trong miền tần số tương ứng với trọng tâm của 20 file hội thoại

Bằng cách trích xuất các thuộc tính miền tần số từ file âm thanh, chúng ta có thể sử dụng công thức L1-norm để tính khoảng cách giữa file âm thanh cần phân loại và trọng tâm của từng cụm Nếu khoảng cách tính toán nhỏ hơn một ngưỡng nhất định, chúng ta có thể xác định rằng file âm thanh đó thuộc về cụm âm thanh tương ứng.

Phương pháp tính khoảng cách

Phương pháp thứ hai mà nhóm em áp dụng là tính toán khoảng cách từ file âm thanh cần phân loại đến tất cả các file trong từng cụm, sau đó tổng hợp các khoảng cách này Chúng em sử dụng công thức L1-norm để tính khoảng cách giữa các thuộc tính trích xuất trong miền tần số Nếu khoảng cách đến một cụm nào đó nhỏ hơn, chúng em có thể kết luận rằng file âm thanh cần phân loại thuộc về cụm âm thanh tương ứng.

Ngày đăng: 30/11/2022, 14:06

HÌNH ẢNH LIÊN QUAN

 Hình ảnh: cường độ sáng theo không gian (x, y, z) - (TIỂU LUẬN) bài tập lớn cơ sở dữ liệu đa phương tiện code chuyển đối file âm thanh sử dụng fourier rời rạc   đánh giá phân loại file âm thanh mới
nh ảnh: cường độ sáng theo không gian (x, y, z) (Trang 5)
Tín hiệu đa chiều: biến thiên theo nhiều hơn một biến độc lập, ví dụ như tín hiệu hình ảnh, tín hiệu tivi trắng đen. - (TIỂU LUẬN) bài tập lớn cơ sở dữ liệu đa phương tiện code chuyển đối file âm thanh sử dụng fourier rời rạc   đánh giá phân loại file âm thanh mới
n hiệu đa chiều: biến thiên theo nhiều hơn một biến độc lập, ví dụ như tín hiệu hình ảnh, tín hiệu tivi trắng đen (Trang 6)
Tín hiệu gốc là tín hiệu như Hình 1.9 - (TIỂU LUẬN) bài tập lớn cơ sở dữ liệu đa phương tiện code chuyển đối file âm thanh sử dụng fourier rời rạc   đánh giá phân loại file âm thanh mới
n hiệu gốc là tín hiệu như Hình 1.9 (Trang 10)
tương tự-số, tầm số nguyên ngõ ra có giá trị–32,768 đến +32,767, được mơ tả như hình 1.11. - (TIỂU LUẬN) bài tập lớn cơ sở dữ liệu đa phương tiện code chuyển đối file âm thanh sử dụng fourier rời rạc   đánh giá phân loại file âm thanh mới
t ương tự-số, tầm số nguyên ngõ ra có giá trị–32,768 đến +32,767, được mơ tả như hình 1.11 (Trang 11)
Hình 1.14 Dạng sóng được tái tạo lại - (TIỂU LUẬN) bài tập lớn cơ sở dữ liệu đa phương tiện code chuyển đối file âm thanh sử dụng fourier rời rạc   đánh giá phân loại file âm thanh mới
Hình 1.14 Dạng sóng được tái tạo lại (Trang 12)
B. Hình dáng của tín hiệu tái tạo phụ thuộc vào số lượng mẫu được ghi nhận. Tổng quát, một dãy số hữu hạn (đại diện cho tín hiệu số) chỉ có thể biểu diễn cho một dạng sóng tín hiệu tương tự với độ chính xác hữu hạn. - (TIỂU LUẬN) bài tập lớn cơ sở dữ liệu đa phương tiện code chuyển đối file âm thanh sử dụng fourier rời rạc   đánh giá phân loại file âm thanh mới
Hình d áng của tín hiệu tái tạo phụ thuộc vào số lượng mẫu được ghi nhận. Tổng quát, một dãy số hữu hạn (đại diện cho tín hiệu số) chỉ có thể biểu diễn cho một dạng sóng tín hiệu tương tự với độ chính xác hữu hạn (Trang 12)
Mơ hình cảm quan (Psychoacoustic model): khâu này quyết định chất lượng của - (TIỂU LUẬN) bài tập lớn cơ sở dữ liệu đa phương tiện code chuyển đối file âm thanh sử dụng fourier rời rạc   đánh giá phân loại file âm thanh mới
h ình cảm quan (Psychoacoustic model): khâu này quyết định chất lượng của (Trang 20)
w