1. Trang chủ
  2. » Luận Văn - Báo Cáo

tách nguồn âm thanh dựa trên tiếp cận học máy

77 0 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Nội dung

Đồng thời, chúng tôi cònthực hiện việc đánh giá, kiểm thử kết quả, hiệu năng của các mô hình tiêu biểu, từ đó cónhững nhận định, tạo cơ sở cho việc lựa chọn hướng tiếp cận phù hợp dựa tr

Trang 1

TRƯỜNG ĐẠI HỌC BÁCH KHOA

Trang 2

TRƯỜNG ĐẠI HỌC BÁCH KHOA – ĐHQG-HCM

(Ghi rõ họ, tên, học hàm, học vị và chữ ký) TS Nguyễn Đức Dũng

Thành phần Hội đồng đánh giá luận văn thạc sĩ gồm:

(Ghi rõ họ, tên, học hàm, học vị của Hội đồng chấm bảo vệ luận văn thạc sĩ)1 Chủ tịch: TS Trần Tuấn Anh

2 Thư ký: TS Nguyễn Tiến Thịnh3 Phản biện 1: TS Lê Thành Sách

4 Phản biện 2: PGS TS Nguyễn Văn Sinh5 Uỷ viên: TS Võ Đăng Khoa

Xác nhận của Chủ tịch Hội đồng đánh giá luận văn và Trưởng Khoa quản lýchuyên ngành sau khi luận văn đã được sửa chữa (nếu có).

KHOA HỌC VÀ KỸ THUẬT MÁY TÍNH

Trang 3

NHIỆM VỤ LUẬN VĂN THẠC SĨ

Họ tên học viên: THẨM QUỐC DŨNGMSHV: 1970381Ngày, tháng, năm sinh:21/11/1997Nơi sinh: Phú YênChuyên ngành: Khoa Học Máy TínhMã số: 8480101

I TÊN ĐỀ TÀI: Tách nguồn âm thanh dựa trên tiếp cận học máy

(Audio source separation based on machine learning approach)II NHIỆM VỤ VÀ NỘI DUNG:

- Tìm hiểu các hướng tiếp cận phù hợp cho bài toán tách âm thanh- Phân tích giải pháp và đưa ra đề xuất mô hình tách âm

- Hiện thực và huấn luyện mô hình đề xuất

- Tiến hành thí nghiệm và đánh giá các kết quả đạt được

III.NGÀY GIAO NHIỆM VỤ: 06/02/2023

IV.NGÀY HOÀN THÀNH NHIỆM VỤ: 10/12/2023

V CÁN BỘ HƯỚNG DẪN (Ghi rõ học hàm, học vị, họ, tên): PGS TS Huỳnh Tường

Trang 4

Để thực hiện nghiên cứu cho đề tài luận văn này, ngoài sự nổ lực của bản thân, còn nhờsự định hướng, chỉ dẫn và theo dõi tận tình của thầy Nguyễn Đức Dũng Chúng tôi xingửi lời cảm ơn chân thành đến thầy Dũng cùng với các thầy cô khoa Khoa học và Kĩthuật Máy tính, cũng như các thầy cô, cán bộ, nhân viên của trường Đại học Bách Khoa- Đại học Quốc gia thành phố Hồ Chí Minh đã truyền đạt kiến thức, kinh nghiệm và cảmhứng cho chúng tôi trong suốt quá trình học tập và rèn luyện ở trường Đó sẽ mãi là nềntảng và hành trang quý giá theo chúng tôi trong suốt quãng thời gian sau này.

Trang 5

Tăng cường chất lượng âm thanh và Tách nguồn âm thanh là một trong những phươngpháp tiền xử lý được dùng cho nhiều bài toán khác nhau trong lĩnh vực Xử lý tín hiệuâm thanh như: Nhận diện giọng nói, ứng dụng đàm thoại, truy vấn các thông tin về nhạchoặc thậm chí trong các lĩnh vực giải trí và sản xuất âm thanh Mục tiêu của luận vănnày là nghiên cứu các phương pháp giải quyết bài toán nhận tách nguồn âm thanh, cụthể là bài toán tách nguồn nhạc.

Nội dung của luận văn được thể hiện thông qua 6 chương bao gồm Chương 1 - Giới thiệuvề đề tài, động lực nghiên cứu và nhiệm vụ của luận văn Chương 2 - Kiến thức nền tảngvề xử lý tín hiệu âm thanh Chương 3 - Khảo sát về bài toán và phương pháp tiếp cận.Chương 4 - Trình bày nội dung phương pháp eCMU Chương 5 - Trình bày nội dungphương pháp xây dựng mô hình đa mục tiêu Chương 6 - Tổng kết về kết quả đạt được,những hạn chế và định hướng nghiên cứu trong tương lai.

Trang 6

Audio source separation is one of the crucial techniques for audio signal processing lems such as automatic speech recognition (ASR), voice over Internet protocol (VoIP)apps, music information retrieval (MIR), and music production Our thesis aims to pro-pose methods for audio source separation, especially for music source separation.

prob-The outline of this document includes 6 chapters: Chapter 1 - Introduction to the topic,our motivations, and our tasks for this thesis; Chapter 2 - The background knowledgeabout the audio processing field; Chapter 3 - Our survey about previous works; Chapter4 - Our efficient phase-aware framework for music source separation; Chapter 5 - Multi-target music source separation; Chapter 6 - Conclusion.

Trang 7

Chúng tôi cam đoan rằng công trình nghiên cứu này là kết quả của riêng chúng tôi dướisự chỉ dẫn của Tiến sĩ Nguyễn Đức Dũng Mọi thông tin và kết quả trình bày đều đượcđảm bảo là chính xác và chưa hề được công bố trong bất kỳ hội nghị nào trước đây Dữliệu dùng để phân tích và đánh giá được chúng tôi tự mình thu thập từ nhiều nguồn đadạng và sẽ được trình bày cụ thể trong phần tham khảo.

Ngoài ra, chúng tôi cũng đã tham khảo và sử dụng các ý kiến, phân tích và dữ liệu từcác tác giả, tổ chức khác, đều đã được dẫn nguồn một cách cẩn thận Chúng tôi sẵn sàngnhận mọi trách nhiệm về tính chính xác và trung thực của luận văn này nếu có bất kỳphát hiện gian lận nào Đại học Bách Khoa - Đại học Quốc gia TP Hồ Chí Minh khôngchịu trách nhiệm về các vấn đề vi phạm tác quyền hay bản quyền mà công trình này cóthể gây ra.

Người cam đoan

THẨM QUỐC DŨNG

Trang 8

1 Mở đầu 1

1.1 Giới thiệu đề tài 1

1.2 Đối tượng và Phạm vi nghiên cứu 1

1.3 Ý nghĩa khoa học và thực tiễn 1

1.4 Cấu trúc văn bản 2

2 Kiến thức nền tảng 32.1 Xử lý tín hiệu âm thanh 3

2.1.1 Âm thanh và Sóng âm 3

2.1.2 Tần số và Cao độ 5

2.1.3 Cường độ âm - Công suất và Độ to 6

2.1.4 Âm sắc 6

2.1.5 Âm thanh kỹ thuật số 8

2.2 Đặc trưng âm thanh cho Học máy 10

2.2.1 Trích xuất đặc trưng âm thanh 11

2.2.2 Đặc trưng âm thanh trên miền thời gian 12

2.2.3 Phép biến đổi Fourier 12

2.2.4 Đặc trưng âm thanh trên miền tần số 15

2.2.5 Biểu diễn âm thanh trên miền thời gian - tần số 16

3 Tách nguồn âm thanh 213.1 Tổng quan 21

3.1.1 Tập dữ liệu 22

3.1.2 Chuẩn đo 23

3.1.3 Multi-channel Wiener Filter 25

3.2 Khảo sát các nghiên cứu liên quan 27

3.4 Định hướng phát triển cho luận văn 37

4 Phương pháp tách nguồn nhạc hiệu quả - eCMU 404.1 Tổng quan 40

4.2 Phương pháp 41

Trang 10

2.1 Bảng thống kế cường độ âm và mức cường độ âm của các nguồn âm thanh

điển hình 6

3.1 Định nghĩa các loại mask điển hình 28

3.2 Bảng thông tin so sánh kết quả đánh giá của các phương pháp 30

3.3 Bảng thống kê số lượng tham số và hiệu năng tương ứng của từng mô hình 374.1 Hiệu năng của các mô hình trên tập dữ liệu MusDB18-HQ 46

4.2 Kết quả thí nghiệm với các kích thước không gian ẩn khác nhau 47

4.3 Kết quả thí nghiệm với các kiến trúc khối khác nhau 47

4.4 Kết quả thí nghiệm với các cặp giá trị T và P khác nhau 47

5.1 Bảng so sánh kết quả giữa các mô hình 57

5.2 Kết quả thí nghiệm với các cặp giá trị T và P khác nhau 57

Trang 11

2.1 Ví dụ minh hoạ về sự rung của âm thoa dẫn đến sự dao động qua lại của

các phân tử trong không khí 3

2.2 Ví dụ minh hoạ cho dạng sóng của âm thanh được biểu diễn dưới dạng đồthị áp suất - thời gian 4

2.3 Đồ thị sóng hình sin với tần số dao động 4 Hz 5

2.4 Các đường thể hiện độ to ngang nhau theo tần số và cường độ âm 7

2.5 Waveform, amplitude envelope 7

2.6 Biểu đồ thể hiện quang phổ của nốt C4 8

2.7 Minh hoạ việc lấy mẫu và lượng tử hoá tín hiệu liên tục thành rời rạc 9

2.8 Minh hoạ hiện tượng alias khi giảm tần suất lấy mẫu 9

2.9 Toạ đồ cầu biểu diễn cho số phức 13

2.10 Minh hoạ tín hiệu trên miền thời gian và miền tần số 14

2.11 Tín hiêu trên miền thời gian và sau khi thực hiện phép biến đổi Fouriercủa sóng tổng hơp hình sin của 2 tần số 1 Hz và 5 Hz 16

2.12 Minh hoạ trực quan của quang phổ dưới dạng biểu đồ nhiệt 17

2.13 Đồ thị biểu diễn mối liên hệ giữa tần số và mel 18

2.14 Minh hoạ các bộ lọc dải mel (triangle filters) 18

2.15 Minh hoạ mel-spectrogram bằng biểu đồ nhiệt hai chiều 18

2.16 Minh hoạ quang phổ khi phát âm các nguyên âm 19

2.17 Nguyên lý hình thành tín hiệu tiếng nói 19

2.18 Mối liên hệ giữa các thành phần tạo nên tiếng nói thông qua quang phổ 19

2.19 Minh hoạ về cepstrum được biến đổi từ logarith của spectrum 20

2.20 Quy trình trích xuất đặc trưng MFCC 20

3.1 Đầu vào và đầu ra của bài toán Tách nguồn nhạc 21

3.2 Mô hình speech chain hai quá trình nghe và nói của con người 22

3.3 Kiến trúc mô hình UMX 31

3.4 Kiến trúc U-net của phương pháp Spleeter 32

3.5 Kiến trúc tổng quát Demucs và biểu diễn chi tiết của các lớp encoder vàdecoder 33

3.6 Complex as Channel Framework 34

3.7 Kiến trúc tổng quát của mô hình TFC-TDF 34

3.8 Các khối cơ bản được sử dụng trong mô hình TFC-TDF 35

3.9 Minh hoạ về việc bị rò rỉ quang phổ ở những đoạn im lặng 38

3.10 Minh hoạ về nhiễu ở tần số cao của mô hình Demucs 38

3.11 Minh hoạ về việc mất âm thanh tần số cao của mô hình OpenUnmix 38

3.12 Minh hoạ về việc mất âm thanh của mô hình OpenUnmix 39

Trang 12

4.1 Kiến trúc tổng quát của phương pháp eCMU 41

4.2 Kiến trúc tổng quát của một khối conformer và các mô-đun tương ứng 43

4.3 So sánh quang phổ đầu ra của các phương pháp 48

5.1 Các mẫu đặc trưng khác nhau ở các dải tần số khác nhau 50

5.2 Kiến trúc mô hình đa mục tiêu dựa trên ResUnet 52

5.3 Kiến trúc tổng quát của một khối two-stage conformer và D2-TDF 54

5.4 Biểu diễn các phổ năng lượng được tái tạo bởi mô hình 58

Trang 13

Chương 1Mở đầu

1.1Giới thiệu đề tài

Tăng cường chất lượng âm thanh (audio enhancement) và Tách nguồn âm thanh (audioseparation) là hai bài toán cơ bản trong lĩnh vực xử lý tín hiệu số, chúng có liên quan vớinhau Cụ thể, bài toán tăng cường âm thanh có mục tiêu là tách tín hiệu mục tiêu ra khỏinhững tín hiệu âm thanh không mong muốn (nhiễu, tạp âm của môi trường, artifacts, )hoặc thậm chí khôi phục tín hiệu âm thanh bị biến dạng (distortion sound), nhằm tạo ranhững tín hiệu âm thanh sạch, có độ sắc nét cao như khi thực hiện thu âm trong phòngthu chuyên nghiệp, Trong khi đó, tách nguồn âm thanh hướng tới việc trích xuất mộthoặc nhiều nguồn âm thanh mục tiêu từ một tín hiệu âm thanh tổng hợp Hai loại tínhhiệu âm thanh thường được quan tâm nhất là tín hiệu giọng nói (speech) và tín hiệu âmnhạc (music).

1.2Đối tượng và Phạm vi nghiên cứu

Đề tài luận văn này nghiên cứu chung về Tách nguồn âm thanh, nhưng bài toán chínhđược chọn để hiện thực liên quan đến việc Tách nguồn nhạc Những năm gần đây, với sựphát triển của các giải thuật Học máy trong việc giải quyết các bài toán xử lý âm thanhvà cho những kết quả cải thiện hơn so với các phương pháp truyền thống Vì thế, chúngtôi quyết định tiếp cận bài toán này theo hướng Học máy dựa trên các tập dữ liệu mở.Trong giai đoạn đề cương, chúng tôi tập trung vào việc nghiên cứu tổng quan, khảo sátcác phương pháp tiếp cận trước đây, tìm kiếm nguồn dữ liệu Đồng thời, chúng tôi cònthực hiện việc đánh giá, kiểm thử kết quả, hiệu năng của các mô hình tiêu biểu, từ đó cónhững nhận định, tạo cơ sở cho việc lựa chọn hướng tiếp cận phù hợp dựa trên điều kiệntài nguyên sẵn có của nhóm và đề xuất các hướng phát triển cho bài toán ở giai tiếp luậnvăn.

1.3Ý nghĩa khoa học và thực tiễn

Tách nguồn giọng nói được xem như kỹ thuật tiền xử lý giúp cho các hệ thống nhận diệntiếng nói tự động (Automatic Speech Recognition - ASR) cải thiện kết quả nhận diện,nhất là trong tình huống có nhiều người phát biểu cùng lúc, hoặc ở những nơi đông người.

Trang 14

Ngoài ra, nhu cầu của những ứng dụng, nền tảng đàm thoại, hội nghị trực tuyến thôngqua internet khá phát triển (Voice over Internet Protocol - VoIP), để có thể ngăn chặnnhững âm thanh không mong muốn từ môi trường ngoài (tạp âm, tiếng nói của nhữngngười khác) khi sử dụng ứng dụng, nhất là ở những nơi đông người thì việc áp dụng cácgiải thuật tiền xử lý âm thanh này là cần thiết (noise canceling, voice canceling).

Đối với bài toán Tách nguồn nhạc, như chúng ta đã biết, một bản nhạc hoàn chỉnh thườnglà sự kết hợp, hoà tấu bởi nhiều loại nhạc cụ khác nhau trong một dàn nhạc (piano, trống,đàn guitar, giọng hát, ), mục tiêu của bài toán là phân tách âm thanh tổng hợp của mộtbản nhạc thành từng thành phần âm thanh riêng lẻ tương ứng cho từng loại nhạc cụ cụthể (hay còn gọi là stems) Việc này có nhiều ứng dụng trong các việc phát triển các giảithuật Truy xuất thông tin nhạc (Music Information Retrieval - MIR) như là: audio/lyricsalignment, lyrics transcription, music transcription, singer identification, vocal melodyextraction Ngoài ra, còn có những ứng dụng khác trong mảng giải trí như giúp làm nhạcnền của karaoke hay giúp các nhạc sĩ trong việc hoà âm, phối khí bài hát.

1.4Cấu trúc văn bản

Cấu trúc văn bản của đề cương luận văn này bao gồm 3 chương Chương 1 - Giới thiệutổng quát về bài toán, động lực, mục tiêu nghiên cứu; Chương 2 - Trình bày những kiếnthức nền cơ bản liên quan đến Âm thanh và Xử lý tín hiệu âm thanh; Chương 3 - Trìnhbày tổng quan nghiên cứu, khảo sát các phương pháp tiếp cận, các tập dữ liệu, chuẩn đođánh giá kết quả của một vài phương pháp điển hình cũng như là những đề xuất hướngphát triển cho luận văn này; Chương 4 - Trình bày mục tiêu, đóng góp cải tiến, nội dungphương pháp và phân tích kết quả đạt được cho phương pháp đề xuất thứ nhất eCMU;Chương 5 - Trình bày động lực, những đóng góp cải tiến, nội dung phương pháp và phântích kết quả đạt được cho phương pháp mô hình đa mục tiêu; Chương 6 - Tổng kết cáckết quả đạt được, những hạn chế cũng như định hương phát triển trong tương lai.

Trang 15

Chương 2

Kiến thức nền tảng

2.1Xử lý tín hiệu âm thanh

2.1.1Âm thanh và Sóng âm

Âm thanh chúng ta nghe được hằng ngày là kết quả từ quá trình dao động cơ học củacác vật thể, ví dụ như: dây đàn, bề mặt trống, dây thanh của con người, Chính sự daođộng này làm cho các phân tử không khí xung quanh nó chuyển động, việc chuyển độngcủa các phân tử không khí làm cho áp suất không khí dao động tăng hoặc giảm theo mộtmô hình nhất định, lan truyền dưới dạng sóng trong không khí đến tai người Các bộphận trong tai người sẽ tiếp nhận, xử lý và chuyển đổi sóng thành các xung thần kinh,các xung thần kinh này tiếp tục truyền đến và được hiểu bởi bộ não.

Về mặt trực quan, sự thay đổi áp suất không khí tại một điểm nhất định có thể biểu diễn

Hình 2.1: Ví dụ minh hoạ về sự rung của âm thoa dẫn đến sự dao động qua lại của cácphân tử trong không khí, lan truyền dưới dạng sóng dọc Biểu đồ hình sóng hiển thị độlệch của áp suất không khí so với áp suất không khí trung bình tại một vị trí cụ thể theothời gian.

Trang 16

bằng biểu đồ áp suất-thời gian, hay còn được gọi là dạng sóng của âm thanh (waveform).Dạng sóng thể hiện độ lệch của áp suất không khí so với áp suất không khí trung bình(hình 2.2).

Một sóng cơ học có thể được mô tả như một dao động truyền trong không gian, nơi nănglượng được truyền từ điểm này sang điểm khác Khi có sóng truyền qua môi trường nàođó, chất của môi trường này bị biến dạng tạm thời Như đã mô tả ở trên, sóng âm thanhtruyền qua các phân tử không khí va chạm với các phân tử xung quanh của chúng Saukhi các phân tử không khí va chạm, chúng bật ra khỏi nhau Điều này ngăn các phân tửtiếp tục di chuyển theo hướng của sóng Thay vào đó, chúng dao động xung quanh cácvị trí gần như cố định Nếu các phân tử dao động vuông góc với phương truyền nănglượng, ta gọi đó là sóng ngang Còn trong trường hợp, các phân tử dao động song songvới phương truyền sóng, ta gọi đó là sóng dọc.

Về mặt toán học, sóng là dao động điều hoà được biểu diễn bằng hàm sin:

• Pha dao động ban đầu (ϕ ∈ [−π, π]): độ lệch của sóng, cho chúng ta biết vị trí củasóng tại thời điểm t = 0

Hình 2.2: Ví dụ minh hoạ cho dạng sóng của âm thanh được biểu diễn dưới dạng đồ thịáp suất - thời gian.

Trang 17

Hình 2.3: Đồ thị sóng hình sin với tần số dao động 4 Hz.

2.1.2Tần số và Cao độ

Tần số của sóng hình sin càng cao thì âm thanh càng cao Dải tần số có thể nghe đượcđối với con người là từ khoảng 20 Hz đến 20,000 Hz (20 kHz) Các loài động vật khácnhau có phạm vi thính giác khác nhau Ví dụ: cận trên trong phạm vi thính giác của chólà khoảng 45 kHz, của mèo là 64 kHz, thậm chí dơi có thể phát hiện tần số vượt quá 100kHz Đây là lý do tại sao người ta có thể sử dụng một chiếc còi cho chó, phát ra âm thanhsiêu âm vượt quá khả năng nghe của con người, để huấn luyện và ra lệnh cho những convật không làm phiền những người xung quanh.

Độ cao (pitch) là một đặc trưng mang tính chất chủ quan của âm thanh, khái niệm dùngcho sự cảm nhận âm thanh Tai người không cảm nhận âm thanh một cách tuyến tínhmà phi tuyến theo hàm số logarit Hai tần số được cảm nhận tương tự nhau nếu chúngkhác nhau 2n Ví dụ nốt A3 (220 Hz) và A4 (440 Hz) được cảm nhận là như nhau Đặctính này của âm thanh được dùng để chia một quãng tám thành 12 quãng nửa cung bằngnhau Mối quan hệ giữa tần số và độ cao được biểu diễn bằng hàm số:

trong đó - p ∈ [0, 127] chỉ số nốt MIDI (chỉ sổ nốt của C4 là 60, A4 là 69), F (p) là tầnsố trung tâm tương ứng với chỉ số nốt MIDI p Ta có tính chất F (p + 12) = 2F (p) vàF (p + 1)/F (p) = 212 ≈ 1.0594 Như vậy, khi nhân tần số bất kì với hệ số trên đồng nghĩavới việc ta sẽ dịch độ cao tương ứng lên nửa cung.

Tổng quát hơn, người ta dùng khái niệm cent như một đơn vị nhỏ hơn để đo sự khácnhau về cảm nhận âm thanh giữa hai tần số bất kỳ Cụ thể, mỗi một quãng tám đượcchia thành 1200 cents, đồng nghĩa mỗi một nửa cung = 100 cents Khi đó, sự khác nhaugiữa hai tần số được tính bằng:

Khoảng cách giữa một cent là khá nhỏ để có thể nghe ra được Việc này phụ thuộc vàokhả năng cảm âm của mỗi người và theo độ tuổi Ngưỡng có thể cảm nhận được (justnoticeable difference) là từ 10 cents với những người đã trải qua việc luyện cảm âm hoặccó năng khiếu bẩm sinh, còn người trưởng thành bình thường là 25 cents.

Âm thanh trong tự nhiên là sóng tổng hợp từ nhiều sóng với các tần số dao động khácnhau Trong đó bao gồm sóng dao động với tần số cơ bản f0 (tần số dao động thấpnhất) và các thành phần sóng hamornic với tần số bằng bội số nguyên của tần số cơ bản(f1 = 2.f0, f2 = 3.f0, ,fn = (n − 1).f0) Thông thường, độ cao của sóng được quy địnhbởi tần số cơ bản Ngoài ra, tập hợp các thành phần sóng ngoại trừ f0 còn được gọi làbội âm (overtone).

Trang 18

Bảng 2.1: Bảng thống kế cường độ âm và mức cường độ âm của các nguồn âm thanh điểnhình

2.1.3Cường độ âm - Công suất và Độ to

Công suất là mức năng lượng được truyền đi, sử dụng hoặc chuyển hóa, đơn vị đo làWatt (W) Tương tự, công suất âm thanh cho biết mức năng lượng trên một đơn vị thờigian được phát ra bởi một nguồn âm thanh truyền theo mọi hướng trong không khí.Khi đó, khái niệm Cường độ âm được dùng để thể hiện công suất âm thanh trên mộtđơn vị diện tích (W/m2) Trong thực tế, tai người có thể cảm nhận được âm thanh vớigiá trị cường độ âm rất nhỏ hay còn gọi là ngưỡng nghe (threshold of hearing - TOH),IT OH = 10−12(W/m2) Tương tự, ngưỡng đau (threshold of pain - TOP) là giá trị cườngđộ âm có thể gây đau cho người, IT OP = 10(W/m2) Mức cường độ âm (đơn vị: decibel -dB) cho biết tỷ lệ giữa hai giá trị cường độ âm trong thang đo logarit Bảng 2.1 thống kêgiá trị cường độ âm và mức cường độ âm tương ứng của các nguồn âm thanh khác nhau.

dB(I) = 10 log10( I

Độ to của âm thanh là cách cảm nhận chủ động về cường độ âm Độ to không chỉ phụthuộc vào cường độ âm mà còn phụ thuộc vào khoảng thời gian và tần số âm thanh.Ngoài ra, còn phụ thuộc vào độ tuổi Đơn vị đo là phon Hình 2.4 là kết quả thí nghiệmcho thấy sự phụ thuộc giữa độ to âm thanh với tần số và mức cường độ âm, trên hìnhthể hiện những đường viền mà mỗi điểm trên đường viền đó sẽ có độ to âm thanh nhưnhau Đơn vị phon được chuẩn hoá tại mức tần số 1000 Hz, trong đó giá trị phon bằngvới giá trị mức cường độ âm.

2.1.4Âm sắc

Hay còn gọi là màu sắc âm thanh, là đặc tính của âm thanh giúp chúng ta có thể phânbiệt được âm thanh của các loại nhạc cụ khác nhau, hay tổng quát hơn là hai âm thanhcó cùng tần số, cùng cường độ và cùng khoảng thời gian Âm sắc là một khái niệm đachiều khó để đo lường, các nhà nghiên cứu đã cố gắng tiếp cận âm sắc bằng cách xem xétcác mối tương quan với các đặc điểm âm thanh như quá trình phát triển của âm thanh,các thành phần âm thanh và sự phân bố năng lượng của chúng.

Quá trình phát triển của âm thanh (sound envelope) có thể mô tả bởi mô hình ADSR(A - Attack, D - Decay, S - Sustain, R - Release) Các loại nhạc cụ khác nhau thì có quátrình phát triển âm thanh cũng khác nhau Quan sát hình 2.5a và 2.5b khi nốt C4 vanglên bằng piano và violin tương ứng, ta có thể thấy đối với piano biên độ tăng mạnh khi

Trang 19

Hình 2.4: Các đường thể hiện độ to ngang nhau theo tần số và cường độ âm.

Hình 2.5: Waveform, amplitude envelope

búa gõ vào dây đàn, sau đó biên độ sẽ giảm từ từ và duy trì ở một mức nhất định và tiêubiến khi phím đàn được thả Còn trong trường hợp âm thanh tạo ra bởi violin, vì giaiđiệu được phát nhẹ nhàng với âm lượng tăng dần nên giai đoạn (A) được dàn trải, khôngcó giai đoạn (D) và giai đoạn (S) dao động không ổn định Giai đoạn (R) xảy ra khi nhạccông ngừng kéo dây đàn Âm thanh sau đó nhỏ dần nhanh chóng.

Với ví dụ về âm thanh được tạo ra bởi đàn violin, ta có thể thấy các biến đổi tuần hoànvề biên độ hay còn gọi là tremelo, là kỹ thuật tạo âm thanh khi chơi các nhạc cụ bộ dâyhoặc bộ khí Ngoài kĩ thuật tremelo, trong âm nhạc thường sử dụng kĩ thuật rung nhưngmột cách truyển tải cảm xúc, bản chất là tạo ra sự thay đổi về tần số một cách có chukỳ.

Hơn hết, một tính chất để mô tả cho âm sắc âm chính là sự tổng hợp của nhiều thànhphần sóng (tần số cơ bản f0 và các overtones) Hình 2.6 là quang phổ (spectrogram) môtả các thành phần âm thanh và cường độ của chúng khi chơi nốt C4 (261.6 Hz) trên đànpiano Ta có thể thấy, các thành phần sóng có tần số 261.6n (Hz), n ∈ {1, 2, 3, } Hầuhết, năng lượng tập trung vào các thành phần tần số thấp và giảm dần ở các tần số caohơn.

Trang 20

Hình 2.6: Biểu đồ thể hiện quang phổ của nốt C4

2.1.5Âm thanh kỹ thuật số

Thuật ngữ audio được sử dụng để chỉ việc truyền, nhận và tái tạo âm thanh nằm tronggiới hạn khả năng nghe của con người Tín hiệu audio là một cách biểu diễn của âm thanhmã hóa tất cả thông tin cần thiết để tái tạo âm thanh.

Âm thanh trong tự nhiên là các tín hiệu analog (những giá trị liên tục của thời gian vàbiên độ, biểu diễn bằng một hàm số liên tục), để có thể xử lý được bởi các phần mềmmáy tính hoặc các thiết bị số (mixer, equalizer, ) thì trước tiên các tín hiệu analog phảiđược chuyển đổi thành các tín hiệu số (digital signal - là chuỗi các giá trị rời rạc, cácđiểm dữ liệu được lấy mẫu trên một tập các giá trị cố định) Việc chuyển đổi này đượcthực hiện bởi bộ chuyển đổi có tên là Analog-to-Digital Converter (ADC) bao gồm haiquá trình sampling và quantization.

Lấy mẫu là quá trình đo biên độ áp suất không khí tại các thời điểm cách đều nhau vềthời gian, trong đó mỗi phép đo tạo thành một mẫu (hình 2.7a) Số lượng mẫu được lấytrong một giây (sample/s) được gọi là sampling rate (đơn vị: Hz) Việc chọn samplingrate phải đảm bảo cho việc tái tạo âm thanh của bộ Digital-to-Analog Converter (DAC)và tuân theo định lý Nyquist như sau: Với một sóng tổng hợp trong đó thành phần cótần số cao nhất là f thì khi đó sampling rate ít nhất là 2f (khi sampling rate đúng bằng2f ta gọi đó là Nyquist rate) Từ đó chúng ta có thể thấy rằng, với sampling rate bằngf thì thành phần âm thanh có tần số cao nhất mà được lấy mẫu một cách xác là f /2(Nyquist frequency).

Trong trường hợp nếu quá trình lấy mẫu không tuân theo định luật trên, thì việc tái tạolại âm thanh ban đầu sẽ không chính xác, ta gọi đó là hiện tượng alias (hình 2.8) Trongthực tế, alias không phải là một vấn đề lớn bởi vì sampling rate chuẩn trong môi trườngthu âm kỹ thuật số đủ cao để thu được tất cả các tần số trong phạm vi nghe của conngười Tần số âm thanh cao nhất là khoảng 20 kHz Trên thực tế, hầu hết mọi ngườikhông nghe thấy tần số cao đến mức này, vì khả năng nghe tần số cao của chúng ta giảmdần theo tuổi tác Sampling rate của đĩa CD là 44.1 kHz gấp hơn hai lần thành phần âmthanh cao nhất mà con người có thể nghe được Ngoài ra, các bộ chuyển đổi ADC còn ápdụng thêm các bộ lọc tần số cao hơn Nyquist frequency để tránh hiện tượng alias.

Trang 21

(a) sampling (b) quantization

Hình 2.7: Minh hoạ việc lấy mẫu và lượng tử hoá tín hiệu liên tục thành rời rạc.

Hình 2.8: Minh hoạ hiện tượng alias khi giảm tần suất lấy mẫu Đường nét liền là tínhiệu gốc, đường nét đứt là tín hiệu khôi phục, chấm đỏ là các điểm lấy mẫu (a) 12 Hz,(b) 6 Hz, (c) 3 Hz.

Lượng tử hoá là quá trình rời rạc hoá các giá trị biên độ vào các mức giá trị nguyên(biểu diễn dưới dạng nhị phân) được xác định trước (hình 2.7b) Tập hợp các mức giá trịnguyên này được xác định bằng bit depth (số lượng bits được sử dụng cho một sample).Ví dụ đĩa CD có bit depth là 16, đồng nghĩa với việc ta có 216 mức giá trị Biên độ củamẫu sẽ được làm tròn giá trị của mức giá trị gần nhất, việc này là nguyên nhân gây ralỗi trong quá trình số hóa (Quantization error hay là distortion).

Một khái niệm khác là Dải động (Dynamic range) là một dải biên độ thể hiện mức độchênh lệch giữa tín hiệu lớn nhất và nhỏ nhất mà hệ thống thu nhận được Một đoạn âm

Trang 22

thanh có dải động hẹp thì sự khác biệt giữa đoạn âm thanh to và đoạn yên tĩnh sẽ nhỏ Gíatrị của bit depth càng lớn đồng nghĩa với việc dải động cũng sẽ lớn Với bit_depth = n thìdynamic range của đoạn audio thu được là 20 log10(21/2n−1) ≈ 6.04n (signal to quantizationnoise ratio - SQNR).

2.2Đặc trưng âm thanh cho Học máy

Trước khi huấn luyện một mô hình học máy bất kỳ, chúng ta cần tiến hành trích xuất cácđặc trưng cơ bản của âm thanh (audio features) Đặc trưng âm thanh (audio features)giúp mô tả âm thanh, các loại đặc trưng khác nhau sẽ mang một loại thông tin khác nhaucủa âm thanh Các loại đặc trưng này có thể phân loại như sau:

• Mức độ trừu tượng (Level of Abstraction):

– Mức cao: bao gồm các đặc trưng tổng quát ta có thể hiểu được như:nhạc cụ, nốtnhạc, hợp âm, giai điệu, hòa âm, tiết tấu, thể loại, tâm trạng,

– Mức trung: bao gồm các đặc trưng chúng ta có thể cảm nhận được: độ cao, cácmô tả liên quan đến nhịp, sự kiện bắt đầu của nốt nhạc (note onset), các mẫudao động, MFCCs,

– Mức thấp: chủ yếu là các đặc trưng về thống kê trích xuất từ audio như: tude envelope, energy, spectral centroid, spectral flux, zero-crossing rate, nhữngđặc trưng này gần với máy hơn con người.

ampli-• Temporal Scope: áp dụng cho audio nói chung

– Instantaneous: đặc trưng này cung cấp cho chúng ta thông tin tức thời về tínhiệu âm thanh và thường được xem xét trong các đoạn nhỏ (chunks of audio)tầm 50 ms Độ phân giải tối thiểu mà con người có thể cảm nhận được rơi vàokhoảng 10 ms.

– Segment-level: các đặc trưng này được trích xuất từ các phân đoạn của tín hiệuâm thanh trong phạm vi vài giây.

– Global: Đây là những đặc trưng tổng hợp cung cấp thông tin và mô tả cho toànbộ đoạn âm thanh.

• Musical Aspect: Đặc tính âm thanh bao gồm nhịp, tiết tấu, âm sắc, cao độ, hoàthanh, giai điệu,

• Miền tín hiệu (Signal Domain):

– Miền thời gian: bao gồm những đặc trưng trích xuất từ dạng sóng của tín hiệuâm thanh thô như: Zero crossing rate, amplitude envelope, RMS energy

– Miền tần số: tín hiệu có thể được chuyển đổi thành miền tần số bằng phép biếnđổi Fourier, các đặc trưng trên miền này bao gồm: Band energy ratio, spectralcentroid, spectral flux.

– Miền thời gian - tần số: các đặc trưng này kết hợp cả trên miền thời gian vàmiền tần số của âm thanh, được biến đổi bằng phép biến đổi STFT (Short-TimeFourier Transform) Các đặc trưng điển hình như Spectrogram, mel-spectrogram,constant-Q transform,

Trang 23

• Hướng tiếp cận Học máy (ML Approach):

– Phương pháp truyền thống: Trích xuất thủ công các đặc trưng trên cả miền thờigian để dùng làm dữ liệu đầu vào cho các mô hình Học máy.

– Phương pháp hiện đại: dùng các biểu diễn không cấu trúc của âm thanh như:spectrogram, mel-spectrograms, MFCC hoặc thậm chí là waveform để làm dữliệu đầu vào cho các mô hình neuron và các mô hình sẽ tự học việc trích xuấtcác mẫu đặc trưng (patterns).

2.2.1Trích xuất đặc trưng âm thanh

Là quá trình chia chuỗi các giá trị rời rạc của âm thanh thô mà con người có thể cảmnhận được (perceivable audio chunks) Như chúng ta đã biết, một mẫu dữ liệu tương ứngvới một khoảng thời gian rất nhỏ để con người có thể cảm nhận được (ví dụ 1 mẫu trongđoạn âm thanh có sampling rate 44.1 kHz có thời lượng là 0.0227 ms << 10 ms) Số lượngframes thường là luỹ thừa cơ số 2, việc này sẽ giúp thuận tiện cho chuyển đổi tín hiệu vềmiền tần số bằng FFT.

Rò rỉ quang phổ

Thông thường, tín hiệu trong các đoạn frame chúng ta xử lý không nguyên lần số chu kỳ,nhất là đoạn đầu và đoạn cuối của tín hiệu thường không liên tục, việc này sẽ làm xuấthiện những thành phần tần số cao không nằm trong tín hiệu gốc ban đầu khi chúng tathực hiện phép biến đổi Fourier (artifacts) Hình minh hoạ cho hiện tượng này.

Là kỹ thuật dùng để giải quyết vấn đề rò rỉ quang phổ ở trên Áp một bộ lọc vào từngframe để loại bỏ các điểm đầu và cuối, đồng thời sinh ra đoạn tín hiệu có tín chu kỳ Mộtsố bộ lọc phổ biến như:

• Hann window: w(k) = 0.5(1 − cos(2πk

K−1)), k = 1 K• Rectangle window:

w(k) =(

• Triangle window:

w(k) =(

1 − |k| if |k| ≤ M

Tuy nhiên, việc này dẫn đến một vấn đề lớn là việc mất dữ liệu ở các đoạn nối của nhữngframe Để giải quyết vấn này ta chia đoạn âm thanh thành từng các frame chồng lên nhau(overlapping frames)

Trang 24

2.2.2Đặc trưng âm thanh trên miền thời gian

Chỉ sổ biểu thị độ to của âm thanh, ít nhạy cảm với outliers hơn AE Ứng dụng: audiosegmentation, music genre classification

RM St=vuu

Zero crossing rate

Là số lần tín hiệu cắt ngang với trục hoành, ứng dụng monophonic pitch estimation, voiceactivity detection,

ZCRt= 12

|sign(s(k)) − sign(s(k + 1))|

2.2.3Phép biến đổi Fourier

Tín hiệu âm thanh thường là sự tổng hợp của nhiều thành phần âm thanh Để giúp choviệc phân tích và hiểu hơn về tín hiệu âm thanh, chúng ta sẽ tìm cách phân rã tín hiệuphức tạp thành những thành phần đơn giản hơn Phép biến đổi Fourier dùng để chuyểnđổi tín hiệu từ miền thời gian sang miền tần số.

Ý tưởng chính đằng sau phép biến đổi Fourier là tách tín hiệu phức tạp thành các thànhphần nhỏ Mỗi sóng thành phần có tần số dao động f ∈ R, biến đổi Fourier cho ra hệ sốdf (và pha ban đầu ϕf) df cho chúng ta biết sóng thành phần f có tồn tại trong tín hiệuban đầu hay không và đóng góp nhiều hay ít Bản chất sóng tổng hợp là tổ hợp tuyếntính của nhiều sóng thành phần.

Hình 2.10 là ví dụ minh hoạ khi chuyển đổi tín hiệu âm thanh của nốt C4 sang miền tầnsố, ta có thể thấy giá trị cao nhất nằm ở tần số f = 262 Hz, đây là tần số cơ bản củanốt C4, người ra còn có 2 thành phần sóng có giá trị cao tiếp theo khác là f = 523 Hz vàf = 786 Hz tương ứng với thành phần sóng thứ 2 và thứ 3 của nốt C4.

Với tín hiệu liên tục f : R → R, sóng thành phần g: R → R, g = cosf,ϕ =√

2 cos(2π(f t −ϕ)), với f ∈ R (Hz) là tần số, pha dao động ϕ ∈ [0, 1) Để đo tính tương đồng của haihàm số f và g, ta xét tích phân:

f (t).g(t)dt

Trang 25

Hình 2.9: (a) Toạ độ cầu biểu diễn số phức c = a + bi;(b) Toạ độ cầu biểu diễn số phứcdưới dạng công thức Euler.

Khi đó, với tần số f cố định ta có:dω = max

f (t).g(t)dt

ϕω = argmaxϕ∈[0,1)Z

f (t).g(t)dt

(2.2.2)Để đặt tả Fourier bằng công thức tinh gọn hơn, ta dùng số phức Trước tiên, chúng tacùng tìm hiểu sơ lược về số phức.

Số phức

Số phức có dạng c = a + bi, trong đó i2 = −1, a ∈ R được gọi là phần thực, b ∈ R làphần ảo của số phức Tập hợp số phức được ký hiệu là C Ta có thể biểu diễn số phức cbằng điểm (a, b) trên toạ độ Descartes, trong đó trục hoành thể hiện giá trị phần thực,trục tung thể hiện giá trị phần ảo Ngoài ra, số phức còn có thể biểu diễn trên toạ độcực (polar coordinate) hình 2.9 Khi đó, số phức c được biểu diễn bằng |c| ≥ 0 là khoảngcách từ tâm đến c và γ ∈ [0, 2π) (tính bằng radian) là góc tạo bởi c và phần dương củatrục hoành.

|c| =√a2+ b2

γ = arctan(ba)

ta có thể viết lại:

với eiγ = cos(γ) + i sin(γ) là công thức Euler biểu diễn cho số phức Từ định nghĩa sốphức, ta có thể gom chung df và ϕf thành một hệ số phức cf duy nhất (hệ số Fourier):

cf = √df2e

(2.2.5)

Trang 26

Hình 2.10: Minh hoạ tín hiệu trên miền thời gian và miền tần số

(a) Dạng sóng của nốt C4 (261,6 Hz) được chơi trên đàn piano (b) Phóng to phần 10ms bắt đầu từ vị trí thời gian t = 1 giây (c-e) So sánh dạng sóng với các hình sin có tần

số f khác nhau (f) Hệ số cường độ df của từng tần số f tương ứng.

Điều này dẫn đến việc định nghĩa phép biển đổi Fourier của hàm số thực g : R → R làhàm ˆg : R → C, ˆg(f ) = cf

ˆg(f ) =

g(t).e−i2πf tdt

g(t) cos(−2πf t)dt + iZ

df =√

2|ˆg(f )|ϕf = −γf

f ∈R≥0

cfei2πf tdf

Phép biến đổi Fourier trên miền rời rạc

Tín hiệu âm thanh được lưu trữ và xử lý dưới dạng tín hiệu rời rạc Với hàm số liên tụcg : R → R, và T là một số nguyên dương, ta có định nghĩa hàm rời rạc x : Z → R,

Trang 27

x(n) = g(n.T ) Bởi vì x là tập hợp các điểm rời rạc nên được gọi là tín hiệu rời rạc, x(n)được gọi là mẫu (sample) tại thời điểm t = n.T trên tín hiệu f , T gọi là chu kỳ lấy mẫuvà Fs= 1/T (Hz) là sampling rate (đã trình bày ở phần ).

Phép biển đổi Fourier rời rạc được định nghĩa:ˆ

x(f ) =X

x(n).e−i2πf n

≈ 1T.ˆg(

Để tính toán được ta cần điều kiện số lượng mẫu của hàm x(n) là xác định bằng N ∈ N,tương tự số mẫu trên trục tần số là M ∈ N và f = k/M , k ∈ [0, M − 1] Trong thực tế,người ta chọn M = N ngoài lý do để đảm bảo việc biến đổi ngược khả thi còn để tănghiệu suất tính toán Đặt X(k) = ˆx(k/N ) khi đó 2.2.9 có thể viết lại thành:

X(k) = ˆx(kN) =

2.2.4Đặc trưng âm thanh trên miền tần số

Band Enery Ratio

So sánh mức năng lượng ở dải băng tần cao và thấp Ứng dụng: music/speech nation, music classification.

n=1mt(n)

Trang 28

Hình 2.11: Tín hiêu trên miền thời gian và sau khi thực hiện phép biến đổi Fourier củasóng tổng hơp hình sin của 2 tần số 1 Hz và 5 Hz; (a) Tín hiệu gốc; (b-d) Tín hiệu saukhi đã áp dụng window function có tâm tại lần lượt tại t = 3, 5, 7.

Band Width

Tính toán dựa trên tâm quang phổ, dùng để xác định vùng tần số xung quanh tâm haychính là phương sai Có liên quan đến việc cảm nhận âm sắc Băng thông tỷ lệ thuận vớimức độ phân bổ năng lượng trên các dải tần số Ứng dụng: music genre classification.

n=1mt(n).|n − SCt|PN

2.2.5Biểu diễn âm thanh trên miền thời gian - tần số

Short-Time Fourier Transform

Kết quả của phép biến đổi Fourier cho chúng ta biết thông tin về tần số trên toàn bộmiền thời gian, đồng nghĩa với việc thông tin về thời gian khi nào các tần số xảy ra đãbị mất Để giải quyết vấn đề này, Dennis Gabor giới thiệu giải thuật Short-Time Fouriertransform (STFT) vào năm 1946 Theo đó, thay vì xem xét trên toàn bộ tín hiệu, ta chỉxem xét trên từng đoạn nhỏ (frame) bằng các áp một hàm cửa sổ (hình 2.11) trên tín hiệugốc để thu được windowed signal sau đó thực hiện phép biến đổi Fourier cho windowedsignal, tiếp tục dịch cửa sổ dọc theo trục thời gian và thực hiện lại các bước ở trên (hình2.11).

Cho tín hiệu x(n) có chiều dài N mẫu, STFT được định nghĩa như sau:

Trang 29

Hình 2.12: Minh hoạ trực quan của quang phổ dưới dạng biểu đồ nhiệt, trục hoành biểudiễn thời gian, trục tung biểu diễn tần số, mỗi điểm (t, f ) trên đồ thị thể hiện mức độtồn tại của tần số f ở thời gian t trong tín hiệu gốc, màu càng sáng thể hiện sự đóng gópcàng nhiều.

trong đó - w(n) là hàm cửa sổ có độ dài W đúng bằng kích thước của frame, m ∈ Z,k ∈ [0, K]; K = N/2 là chỉ số tương ứng với tần số Nyquist; X (m, k) là hệ số Fourier thứk của frame thứ m; H (hop size) là bước nhảy khi thực hiện phép dịch hàm cửa sổ.Ở đây, gọi S ∈ RB×M là một ma trận hai chiều biểu diễn bình phương độ lớn của X , hayS còn được gọi là spectrogram (quang phổ) Cụ thể:

Mel-scale: là một thang đo logarit dựa trên nguyên tắc các khoảng cách bằng nhau trênthang đó này sẽ cho sự cảm nhận âm thanh bằng nhau (hình 2.13).

m = 2595 log(1 + f500)f = 700(10(m/2595)− 1)1000 Hz = 1000 Mel

Trang 30

Hình 2.13: Đồ thị biểu diễn mối liên hệ giữa tần số và mel

Hình 2.14: Minh hoạ các bộ lọc dải mel (triangle filters)

Hình 2.15: Minh hoạ mel-spectrogram bằng biểu đồ nhiệt hai chiều

(a) Chọn số lượng (K) dải mel (mel bands)

(b) Tạo ra các bộ lọc dải mel A ∈ RK×B (mel filter bands), thường dùng ở đây làtriangle filters.

(c) Áp bộ lọc dải mel vào spectrogram ta thu được mel-spectrogram Z = A.Y ∈RK×F.

Trang 31

Hình 2.16: Minh hoạ quang phổ khi phát âm các nguyên âm.

Hình 2.17: Nguyên lý hình thành tín hiệu tiếng nói.

Hình 2.18: Mối liên hệ giữa các thành phần tạo nên tiếng nói thông qua quang phổ.

Mel-Frequency Cepstral Coefficients - MFCC

Cepstrum là kết quả của việc áp phép biến đổi Fourier ngược lên logarith của spectrumcủa một tín hiệu x(t) Hay ta có:

Giọng nói của chúng ta có tần số f0hay còn gọi là tần số cơ bản và các formant f1, f2, f3, Tần số cơ bản ở nam giới khoảng 125 Hz, ở nữ là 210 Hz, đặc trưng cho cao độ giọngnói ở từng người Thông tin về cao độ không giúp ích trong phân biệt hay âm thanh, màthông tin đặc trưng cho âm thanh chủ yếu tập trung ở các formant (hình 2.16)

Nguyên lý hình thành tiếng nói (hình 2.17): Không khí đi từ phổi (Gottal pusles), quakhí quản, lên vòm miệng Ở vòm miệng, các rung động trong không khí được tổng hợp

Trang 32

Hình 2.19: Minh hoạ về cepstrum được biến đổi từ logarith của spectrum Qua quan sát,ta có thể nhận thấy rằng thành phần f0 nằm tách biệt với thành phần formant của tínhiệu.

Hình 2.20: Quy trình trích xuất đặc trưng MFCC.

theo hướng cộng hưởng hoặc triệt tiêu (Vocal tract) và tạo thành âm thanh thoát ra khỏimiệng (Speech signal).

Gottal pusle tương ứng với thành phần tần số f0 chúng ta cần loại bỏ, thông tin cần giữlại là formant nằm trong spectral envelope (hình 2.18)

Qua quan sát cepstrum (hình 2.19), ta nhận thấy có hai phần thông tin nằm tách biệttương ứng f 0 (1st rhamonic) và formant của tín hiệu Ta chỉ đơn giản lấy thông tin trongđoạn đầu của cepstrum (formant) và loại bỏ đi f 0 Để tính MFCC, ta chỉ cần lấy 12 giátrị đầu tiên.

Các bước để tính toán MFCC được mô tả như hình 2.20 Theo đó, mỗi frame ta tríchxuất được 12 Cepstral features làm 12 features đầu tiên cho MFCC, feature thứ 13 lànăng lượng của frame đó, tính theo công thức:

Trang 33

Chương 3

Tách nguồn âm thanh

Trong chương này, chúng tôi sẽ trình bày chi tiết về bài toán, tập dữ liệu, độ đo (metric),các phương pháp tiếp cận, khảo sát các công trình nghiên cứu liên quan, cùng các nhậnxét đánh giá về các phương pháp.

3.1Tổng quan

Tiếng nói là một trong những cách chính mà con người dùng để giao tiếp và chia sẻ thôngtin, ra đời trước cả chữ viết Mô hình speech chain (hình 3.2) mô tả cách con người giaotiếp là bao gồm hai quá trình: tạo tiếng nói (speech production) và nhận thức tiếng nói(speech perception ) [1] Tạo tiếng nói là một tập hợp các hoạt động cho phép một ngườinói chuyển đổi một ý nghĩ được thể hiện thông qua cấu trúc ngôn ngữ thành âm thanhdưới dạng sóng âm Trong khi đó, Nhận thức tiếng nói là quá trình xảy ra chủ yếu tronghệ thống thính giác của người nghe, bao gồm giải mã ý nghĩa của sóng âm thanh đến từngười nói Một số yếu tố bên ngoài, chẳng hạn như tiếng ồn xung quanh, có thể có tácđộng đến lời nói Thông thường, những người nghe có thính giác bình thường có thể tậptrung vào một loại âm thanh mục tiêu, trong trường hợp này là tiếng nói mục tiêu, đồngthời lọc ra các âm thanh khác Vấn đề này được gọi biết đến là cocktail party effect[2] được Cherry lần đầu giới thiệu vào năm 1953, bởi vì nó giống với tình huống xảy ratrong một bữa tiệc cocktail.

Hình 3.1: Đầu vào và đầu ra của bài toán Tách nguồn nhạc.

Trang 34

Hình 3.2: Mô hình speech chain hai quá trình nghe và nói của con người.

Nhìn chung, việc có tồn tại những âm thanh không mong muốn nhất là ở mức độ cao ítnhiều sẽ làm ảnh hưởng đến chất lượng giao tiếp giữa người nghe và người nói Tương tự,bài toán Nhận diện giọng nói (automatic speech recognition - ASR) điển hình cũng bị ảnhhưởng bởi nhiễu Chính vì vậy, có nhiều kỹ thuật xử lý tín hiệu số hoặc Học máy đượcphát triển (ví dụ: hearing aids and ASR front-end units) nhằm khôi phục giọng nói sạchhay tách tín hiệu giọng nói khỏi nhiễu môi trường (speech enhancement) Các hệ thốngnâng cao giọng nói thường được thiết kế để cải thiện hai khía cạnh tri giác: chất lượnggiọng nói (speech quality) - liên quan đến cách tín hiệu giọng nói phát ra và sự dễ hiểucủa giọng nói (speech intelligibility) - liên quan đến nội dung ngôn ngữ của tín hiệu giọngnói Ngoài ra, còn có nhiều hệ thống yêu cầu việc tách tín hiệu giọng nói từ nhiều người(nhiều người nói cùng lúc), đây được gọi là bài toán tách giọng nói (speech separation)hay tổng quát hơn là tách nguồn âm thanh (audio source separation) [3].

Về mặt toán học, bài toán tách nguồn âm thanh được đặc tả như sau: với C nguồn tínhiệu đầu vào sj ∈ RT, j = 1 C, ta có âm thanh tổng hợp x = PC

j=1cj.sj Nhiệm vụcủa bài toán là đi ước tính C tín hiệu đầu ra ˆsj ∈ RT, j = 1 C từ tín hiệu tổng hợp xsao cho tín hiệu gốc sj và tín hiệu ước tính ˆsj phải giống nhau (được đánh giá bằng cáctiêu chí sẽ được trình bày sau) Một cách tổng quát hơn, x =PC

j=1αj.sj∗ hj + n, với hj

là Acoustic Transfer Function (ATF) của nguồn j tới đầu thu âm (microphone) và n lànhiễu (non-stationary additive noise) [4] Đối với hướng tiếp cận học có giám sát, ta sẽcó tập dữ liệu huấn luyện: S = {xi, (si,1, si,C)}n

i=1 Dữ liệu đầu ra C nguồn âm thanhˆ

s = (ˆs1, , ˆsC) được ước tính sao cho cực đại hoá hàm mục tiêu.

3.1.1Tập dữ liệu

Là tập dữ liệu về âm nhạc, gồm 150 bài hát (100 bài cho tập train và 50 bài cho tập test)với nhiều thể loại, khoảng 10 tiếng, trong đó có 4 nguồn âm thanh (stems): drum, bass,vocals, others (hình 3.1) Tất cả các bài hát đều là âm thanh stereo (2 channels) và có tỷlệ lấy mẫu là 44.1 kHz Có hai phiên bản MusDB18 và MusDB18-HQ Với MusDB18-HQlà bản không nén (uncompressed WAV files) của MusDB18, nhằm mục đích cho việc môhình các phương pháp dự đoán trên miền tần số cao (high bandwidth) lên tới 22 kHz [5].

Trang 35

Là các tập dữ liệu dùng cho bài toán tách nguồn của tiếng nói, chúng được xây dựng dựatrên tập dữ liệu gốc WSJ0 [6] WSJ0 là tập các bài phát biểu văn bản tin tức trên tạpchí Wall Street Journal [7] tạo ra WSJ0-2mix và WSJ0-3mix lần lượt cho 2 và 3 người.Sau đó, [8] giới thiệu WSJ0-4mix cho 4 người và WSJ0-5mix cho 5 người Cả 4 tập dữliệu này đều sử dụng 30 giờ âm thanh trong tập huấn luyện si_tr_s cộng với mức độnhiễu ngẫu nhiên SNR từ 0 − 5 dB Tập test được tạo từ si_et_s và si_dt_s với 16người không nằm trong tập huấn luyện.

WHAM! và WHAMR!

Là 2 tập dữ liệu cho bài toán phân tách giọng nói trong môi trường có tiếng ồn và tiếngvang Trong đó, WSJ0 Hipster Ambient Mixtures (WHAM!) là tập dữ liệu phát triển từWSJ0-2mix có tiếng ồn môi trường WHAMR! là tập mở rộng của WHAM! có thêm phầnphần giả lập tiếng vang sinh ra bằng pyroomacoustics [9], [10].

3.1.2Chuẩn đo

Đo lường kết quả của phương pháp tách nguồn là một vấn đề đầy thách thức Nhìn chung,có hai cách chính để đánh giá kết quả đầu ra của phương pháp tách nguồn: khách quan(objective) và chủ quan (subjective) Đo lường khách quan là việc so sánh các tín hiệuđầu ra với các tín hiệu groudtruth bằng một chuẩn đo đánh giá nhất định Đo lường chủquan liên quan đến việc yêu cầu người đánh giá chấm điểm cho đầu ra của hệ thống phântách nguồn.

Việc đo lường khách quan và chủ quan đều ưu nhược điểm Đo lường khách quan gặp khókhăn vì có nhiều khía cạnh trong liên quan nhận thức của con người cực kỳ khó nắm bắtchỉ hoặc biểu diễn bằng công thức toán Tuy nhiên, cách này có ưu điểm là nhanh và íttốn chi phí hơn Mặt khác, việc đo lường chủ quan tốn kém hơn và phụ thuộc nhiều vàongười đánh, nhưng nếu được người tham gia đánh giá nghiêm túc chúng có thể đáng tincậy hơn.

Các chiến dịch đánh giá như MIREX, CHiME [11] hoặc ra đời giúp cho việc đánh giá,tổng hợp các mô hình hiện đại dựa trên các tập dữ liệu và các chuẩn đo được định nghĩatrước Từ đó, có thể giúp các nhà nghiên cứu nắm bắt và tiếp cận các phương pháp haynhất Đặc biệt, SiSEC 2018 [12] tập trung vào việc đánh giá các hệ thống phân tách nguồnnhạc, đồng thời cho phát hành tập dữ liệu cộng đồng MusDB18 [5], là tập dữ liệu chuẩnđược sử dụng bởi nhiều phương pháp hiện đại tính tới thời điểm này.

Đánh giá khách quan

Source-to-Distortion Ratio (SDR), Source-to-Interference Ratio (SIR), và Source-to-ArtifactRatio (SAR) là những chuẩn đo phổ biến cho việc đánh giá các hệ thống phân tách âmthanh Giả sử tín hiệu ước tính ˆsi được tách ra thành 4 thành phần:

si = starget + einterf + enoise+ eartif (3.1.1)trong đó - si là groundtruth, starget = f (si) là phiên bản của si sau khi biến đổi bởi hàmdisortation f ; einterf, enoise và eartif lần lượt thành phần lỗi cho interference, additivenoise, algorithmic artifact Bốn số hạng này biểu diễn mức độ nguồn mong muốn si được

Trang 36

biểu diễn trong ˆsj, từ những nguồn không mong muốn sj, j ̸= i, từ nhiễu của sensor vàtừ những nguyên nhân khác (burbling artifacts).

[13] đề xuất phân tách số hạng ˆsi dựa vào phép chiếu trực giao Gọi Π{y1, y2, yk} là phépchiếu trực giao lên không giao con sinh bởi {y1, y2, , yk} Ma trận chiếu có kích thướcT × T , với T là chiều dài của vector yi Xem xét 3 phép chiếu:

• starget là phép chiếu trực giao của vector ˆsi lên vector si, nên starget = ⟨si, ˆsi⟩ si

∥si∥2.• Việc tính einterf sẽ phức tạp hơn, cụ thể: Nếu các nguồn trực giao với nhau thì

einterf =P

j̸=i⟨sj, ˆsi⟩ sj

∥sj∥2 Ngược lại, nếu Psˆsi =Pn

j=1¯cjsj = cHs, trong đó (.)H làphép chuyển vị liên hợp (Hermitian transposition) hay (AH)ij = Aij (c là số phứcliên hợp của c), khi đó c = R−1ss[⟨s1, ˆsi⟩, ⟨s2, ˆsi⟩, , ⟨sn, ˆsi⟩]H, Rss là ma trận Gram,trong đó (Rss)ij = ⟨si, sj⟩

• Việc tính toán Ps,n cũng tương tự, với giả sử rằng nhiễu tín hiệu vuông trực giao lẫnnhau và trực giao với mỗi nguồn, khi đó: Ps,n ≈ Pssˆi+Pm

j=1⟨ˆsi, nj⟩ nj

Sử dụng 4 số hạng này, chúng ta có thể xác định các độ đo Tất cả các phép đo đều tínhbằng đơn vị decibel (dB), với giá trị càng cao thì càng tốt Để tính toán, chúng ta cầngroundtruth của tín hiệu trên các nguồn tách biệt và việc tính toán dựa các đoạn tín hiệungắn tầm vài giây, sau đó tính trung bình cho toàn bộ đoạn tín hiệu.

Trang 37

vào tỷ lệ biên độ của tín hiệu.

uSDR(s, ˆs) = 10 log10

n(sl(n))2 +P

n(sl(n) − ˆsl(n))2+P

n(sr(n) − ˆsr(n))2)

(3.1.9)trong đó sl(n), sr(n) lần lượt là tín hiệu sóng chân trị của kênh trái và kênh phải; ˆsl(n),ˆ

sr(n) lần lượt là tín hiệu sóng ước tính của kênh trái và kênh phải.Đánh giá chủ quan

Trong điều kiện lý tưởng, chúng ta sẽ có một số kỹ sư âm thanh được đào tạo bài bản đểđánh giá đầu ra của thuật toán trong một căn phòng xử lý âm thanh Hay đây còn gọilà bài kiểm thử MUSHRA1 Tuy nhiên, điều này hiếm khi xảy ra trong thực tế do chúngkhá tốn kém.

Thay vào đó, các nghiên cứu thường tính Mean Opinion Scores (MOS), bằng cáchcho người khảo sát nghe nhẫu nhiên các mẫu âm thanh xuất ra từ mô hình hoặc làgroundtruth, sau đó đánh giá chất lương âm thanh dựa trên một thang điểm, thường làthang điểm 5 (1: chất lượng âm thanh tệ, bị biến dạng, không nghe được; 5: âm thanhtốt, không bị nhiễu, biến dạng), sau đó MOS được tính trung bình trên các điểm đánhgiá [15].

3.1.3Multi-channel Wiener Filter

MWF là một giải thuật phổ biến được áp dụng trong các bài toán liên quan đến táchnguồn âm thanh trên miền tần số Bộ lọc này có thể được đặc tả bằng toán học như sau:Nhắc lại định nghĩa về bài toán tách nguồn âm thanh, với tín hiệu âm thanh tổng hợpx(t):

1https://en.wikipedia.org/wiki/MUSHRA

Trang 38

Gọi x(f, n) ∈ CI×1 và cj(f, n) ∈ CI×1 lần lượt là hệ số của phép biến đổi STFT của x(t)và cj(t), với f, n là lượt là chỉ số bin của tần số và khung thời gian Ngoài ra, F là sốlượng frequency bins và N là số lượng time frames.

Chúng ta có giả sử rằng cj(f, n) độc lập với nhau và tuân theo phân phối Gaussian đabiến giá trị phức có trung bình bằng 0 (multivariate complex-valued zero-mean Gaussiandistribution):

cj(f, n) ∼ Nc(0, vj(f, n)Rj(f )) (3.1.11)ở đây vj(f, n) ∈ R+ là mật độ phổ công suất (Power Spectral Density - PSD) của nguồnj ứng với tần số f và khung thời gian n; Rj(f ) ∈ CI×I là ma trận hiệp phương sai khônggian (Spatial Covariance Matrix - SCM) của nguồn j ứng với tần số f Ma trận I × I biểudiễn thông tin về không gian bằng cách mã hoá vị trí và chiều rộng trong không gian củanguồn tương ứng Bởi vì phổ tổng hợp x(f, n) là tổng của các phổ thành phần cj(f, n),nên nó được phân phối dưới dạng:

(3.1.14)Cuối cùng, tín hiệu ước tính trên miền thời gian ˆcj(t) được hồi phục từ ˆcj(f, n) bằngiSTFT.

Thông qua việc định nghĩa ở trên, bài toán tách nguồn âm có thể xem như bài toán ướctính PSD và SCM cho mỗi nguồn âm toàn này có thể giải bằng giải thuật ExpectationMaximization (EM algorithm).

Về cơ bản, giải thuật EM có thể chia thành 2 bước: bước E và bước M Các giá trị vj(f, n)được khởi tạo ở bước spectrogram initialization hay nói cách khác giá trị này là kết quảđầu ra của mô hình mà chúng ta xây dựng Trong khi đó, Rj(f ) được khởi tạo bằng matrận đơn vị có kích thước I × I.

Ở bước E, ứng với các giá trị vj(f, n) và Rj(f ) đã được khởi tạo, ˆcj(f, n) có thể tínhthông qua phương trình 3.1.13 và second-order raw moments of the spatial source images

Rcj(f, n) được tính bằng công thức:ˆ

Rcj(f, n) = ˆcj(f, n)ˆcHj (f, n) + (I − Wj(f, n)vj(f, n)Rj(f ) (3.1.15)trong đó I là ma trận đơn vị có kích thước I × I và H phép chuyển vị Hermitian.Ở bước M, SCM Rj(f ) được cập nhật như sau:

Rj(f ) = 1N

1vj(f, n)

ˆ

Ngày đăng: 22/05/2024, 11:06

HÌNH ẢNH LIÊN QUAN

Hình 2.1: Ví dụ minh hoạ về sự rung của âm thoa dẫn đến sự dao động qua lại của các phân tử trong không khí, lan truyền dưới dạng sóng dọc - tách nguồn âm thanh dựa trên tiếp cận học máy
Hình 2.1 Ví dụ minh hoạ về sự rung của âm thoa dẫn đến sự dao động qua lại của các phân tử trong không khí, lan truyền dưới dạng sóng dọc (Trang 15)
Bảng 2.1: Bảng thống kế cường độ âm và mức cường độ âm của các nguồn âm thanh điển hình - tách nguồn âm thanh dựa trên tiếp cận học máy
Bảng 2.1 Bảng thống kế cường độ âm và mức cường độ âm của các nguồn âm thanh điển hình (Trang 18)
Hình 2.4: Các đường thể hiện độ to ngang nhau theo tần số và cường độ âm. - tách nguồn âm thanh dựa trên tiếp cận học máy
Hình 2.4 Các đường thể hiện độ to ngang nhau theo tần số và cường độ âm (Trang 19)
Hình 2.5: Waveform, amplitude envelope - tách nguồn âm thanh dựa trên tiếp cận học máy
Hình 2.5 Waveform, amplitude envelope (Trang 19)
Hình 2.6: Biểu đồ thể hiện quang phổ của nốt C 4 - tách nguồn âm thanh dựa trên tiếp cận học máy
Hình 2.6 Biểu đồ thể hiện quang phổ của nốt C 4 (Trang 20)
Hình 2.7: Minh hoạ việc lấy mẫu và lượng tử hoá tín hiệu liên tục thành rời rạc. - tách nguồn âm thanh dựa trên tiếp cận học máy
Hình 2.7 Minh hoạ việc lấy mẫu và lượng tử hoá tín hiệu liên tục thành rời rạc (Trang 21)
Hình 2.8: Minh hoạ hiện tượng alias khi giảm tần suất lấy mẫu. Đường nét liền là tín hiệu gốc, đường nét đứt là tín hiệu khôi phục, chấm đỏ là các điểm lấy mẫu - tách nguồn âm thanh dựa trên tiếp cận học máy
Hình 2.8 Minh hoạ hiện tượng alias khi giảm tần suất lấy mẫu. Đường nét liền là tín hiệu gốc, đường nét đứt là tín hiệu khôi phục, chấm đỏ là các điểm lấy mẫu (Trang 21)
Hình 2.10: Minh hoạ tín hiệu trên miền thời gian và miền tần số - tách nguồn âm thanh dựa trên tiếp cận học máy
Hình 2.10 Minh hoạ tín hiệu trên miền thời gian và miền tần số (Trang 26)
Hình 2.11: Tín hiêu trên miền thời gian và sau khi thực hiện phép biến đổi Fourier của sóng tổng hơp hình sin của 2 tần số 1 Hz và 5 Hz; (a) Tín hiệu gốc; (b-d) Tín hiệu sau khi đã áp dụng window function có tâm tại lần lượt tại t = 3, 5, 7. - tách nguồn âm thanh dựa trên tiếp cận học máy
Hình 2.11 Tín hiêu trên miền thời gian và sau khi thực hiện phép biến đổi Fourier của sóng tổng hơp hình sin của 2 tần số 1 Hz và 5 Hz; (a) Tín hiệu gốc; (b-d) Tín hiệu sau khi đã áp dụng window function có tâm tại lần lượt tại t = 3, 5, 7 (Trang 28)
Hình 2.15: Minh hoạ mel-spectrogram bằng biểu đồ nhiệt hai chiều (a) Chọn số lượng (K) dải mel (mel bands) - tách nguồn âm thanh dựa trên tiếp cận học máy
Hình 2.15 Minh hoạ mel-spectrogram bằng biểu đồ nhiệt hai chiều (a) Chọn số lượng (K) dải mel (mel bands) (Trang 30)
Hình 2.13: Đồ thị biểu diễn mối liên hệ giữa tần số và mel - tách nguồn âm thanh dựa trên tiếp cận học máy
Hình 2.13 Đồ thị biểu diễn mối liên hệ giữa tần số và mel (Trang 30)
Hình 2.20: Quy trình trích xuất đặc trưng MFCC. - tách nguồn âm thanh dựa trên tiếp cận học máy
Hình 2.20 Quy trình trích xuất đặc trưng MFCC (Trang 32)
Hình 3.1: Đầu vào và đầu ra của bài toán Tách nguồn nhạc. - tách nguồn âm thanh dựa trên tiếp cận học máy
Hình 3.1 Đầu vào và đầu ra của bài toán Tách nguồn nhạc (Trang 33)
Hình 3.2: Mô hình speech chain hai quá trình nghe và nói của con người. - tách nguồn âm thanh dựa trên tiếp cận học máy
Hình 3.2 Mô hình speech chain hai quá trình nghe và nói của con người (Trang 34)
Bảng 3.1: Định nghĩa các loại mask điển hình. - tách nguồn âm thanh dựa trên tiếp cận học máy
Bảng 3.1 Định nghĩa các loại mask điển hình (Trang 40)
Bảng 3.2: Bảng thông tin so sánh kết quả đánh giá của các phương pháp (SDR và MOS). - tách nguồn âm thanh dựa trên tiếp cận học máy
Bảng 3.2 Bảng thông tin so sánh kết quả đánh giá của các phương pháp (SDR và MOS) (Trang 42)
Hình 3.3: Kiến trúc mô hình UMX - tách nguồn âm thanh dựa trên tiếp cận học máy
Hình 3.3 Kiến trúc mô hình UMX (Trang 43)
Hình 3.4: Kiến trúc U-net của phương pháp Spleeter - tách nguồn âm thanh dựa trên tiếp cận học máy
Hình 3.4 Kiến trúc U-net của phương pháp Spleeter (Trang 44)
Hình 3.6: Complex as Channel Framework. - tách nguồn âm thanh dựa trên tiếp cận học máy
Hình 3.6 Complex as Channel Framework (Trang 46)
Hình 3.8: Các khối cơ bản được sử dụng trong mô hình TFC-TDF - tách nguồn âm thanh dựa trên tiếp cận học máy
Hình 3.8 Các khối cơ bản được sử dụng trong mô hình TFC-TDF (Trang 47)
Bảng 3.3: Bảng thống kê số lượng tham số và hiệu năng tương ứng của từng mô hình. - tách nguồn âm thanh dựa trên tiếp cận học máy
Bảng 3.3 Bảng thống kê số lượng tham số và hiệu năng tương ứng của từng mô hình (Trang 49)
Hình 3.9: Minh hoạ về việc bị rò rỉ quang phổ ở những đoạn im lặng. - tách nguồn âm thanh dựa trên tiếp cận học máy
Hình 3.9 Minh hoạ về việc bị rò rỉ quang phổ ở những đoạn im lặng (Trang 50)
Hình 3.10: Minh hoạ về nhiễu ở tần số cao của mô hình Demucs trên bài hát Timboz - -Pony. - tách nguồn âm thanh dựa trên tiếp cận học máy
Hình 3.10 Minh hoạ về nhiễu ở tần số cao của mô hình Demucs trên bài hát Timboz - -Pony (Trang 50)
Hình 3.11: Minh hoạ về việc mất âm thanh tần số cao của mô hình OpenUnmix trên bài hát Triviul feat - tách nguồn âm thanh dựa trên tiếp cận học máy
Hình 3.11 Minh hoạ về việc mất âm thanh tần số cao của mô hình OpenUnmix trên bài hát Triviul feat (Trang 50)
Hình 3.12: Minh hoạ về việc mất âm thanh của mô hình OpenUnmix trên bài hát We Fell From The Sky - Not You. - tách nguồn âm thanh dựa trên tiếp cận học máy
Hình 3.12 Minh hoạ về việc mất âm thanh của mô hình OpenUnmix trên bài hát We Fell From The Sky - Not You (Trang 51)
Hình 4.1: eCMU - Kiến trúc mô hình tổng quát chúng tôi đề xuất trong phương pháp này. Theo đó, mô hình được xây dựng dựa trên miền tần số, nhận đầu vào là mixture magnitude spectrogram được biến đổi bởi STFT từ âm thanh tổng hợp để dự đoán ma trận trọng s - tách nguồn âm thanh dựa trên tiếp cận học máy
Hình 4.1 eCMU - Kiến trúc mô hình tổng quát chúng tôi đề xuất trong phương pháp này. Theo đó, mô hình được xây dựng dựa trên miền tần số, nhận đầu vào là mixture magnitude spectrogram được biến đổi bởi STFT từ âm thanh tổng hợp để dự đoán ma trận trọng s (Trang 53)
Hình 5.1: Các mẫu đặc trưng khác nhau ở các dải tần số khác nhau. Theo đó, những dải tần số thấp thường chiếm nhiều năng lượng hơn hoặc bao gồm những âm thanh kéo dài, tần số cơ bản và cỏc chuỗi hoà thanh - tách nguồn âm thanh dựa trên tiếp cận học máy
Hình 5.1 Các mẫu đặc trưng khác nhau ở các dải tần số khác nhau. Theo đó, những dải tần số thấp thường chiếm nhiều năng lượng hơn hoặc bao gồm những âm thanh kéo dài, tần số cơ bản và cỏc chuỗi hoà thanh (Trang 62)
Hình 5.2: Kiến trúc mô hình đa mục tiêu dựa trên ResUnet bao gồm 3 bộ: encoder, decoder và two-stage conformer ở giữa - tách nguồn âm thanh dựa trên tiếp cận học máy
Hình 5.2 Kiến trúc mô hình đa mục tiêu dựa trên ResUnet bao gồm 3 bộ: encoder, decoder và two-stage conformer ở giữa (Trang 64)
Bảng 5.1: Bảng so sánh kết quả giữa các mô hình. - tách nguồn âm thanh dựa trên tiếp cận học máy
Bảng 5.1 Bảng so sánh kết quả giữa các mô hình (Trang 69)
Hình 5.4: Biểu diễn các phổ năng lượng được tái tạo bởi mô hình. - tách nguồn âm thanh dựa trên tiếp cận học máy
Hình 5.4 Biểu diễn các phổ năng lượng được tái tạo bởi mô hình (Trang 70)

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w