Đồng thời, chúng tôi cònthực hiện việc đánh giá, kiểm thử kết quả, hiệu năng của các mô hình tiêu biểu, từ đó cónhững nhận định, tạo cơ sở cho việc lựa chọn hướng tiếp cận phù hợp dựa tr
Trang 1TRƯỜNG ĐẠI HỌC BÁCH KHOA
THẨM QUỐC DŨNG
TÁCH NGUỒN ÂM THANH
DỰA TRÊN TIẾP CẬN HỌC MÁY
LUẬN VĂN THẠC SĨ
TP HỒ CHÍ MINH, tháng 01 năm 2024
Trang 2TRƯỜNG ĐẠI HỌC BÁCH KHOA – ĐHQG-HCM
(Ghi rõ họ, tên, học hàm, học vị và chữ ký) TS Nguyễn Đức Dũng
Thành phần Hội đồng đánh giá luận văn thạc sĩ gồm:
(Ghi rõ họ, tên, học hàm, học vị của Hội đồng chấm bảo vệ luận văn thạc sĩ)
1 Chủ tịch: TS Trần Tuấn Anh
2 Thư ký: TS Nguyễn Tiến Thịnh
3 Phản biện 1: TS Lê Thành Sách
4 Phản biện 2: PGS TS Nguyễn Văn Sinh
5 Uỷ viên: TS Võ Đăng Khoa
Xác nhận của Chủ tịch Hội đồng đánh giá luận văn và Trưởng Khoa quản lý
chuyên ngành sau khi luận văn đã được sửa chữa (nếu có)
KHOA HỌC VÀ KỸ THUẬT MÁY TÍNH
Trang 3NHIỆM VỤ LUẬN VĂN THẠC SĨ
Họ tên học viên: THẨM QUỐC DŨNG MSHV: 1970381
Ngày, tháng, năm sinh: 21/11/1997 Nơi sinh: Phú Yên
Chuyên ngành: Khoa Học Máy Tính Mã số: 8480101
I TÊN ĐỀ TÀI: Tách nguồn âm thanh dựa trên tiếp cận học máy
(Audio source separation based on machine learning approach)
II NHIỆM VỤ VÀ NỘI DUNG:
- Tìm hiểu các hướng tiếp cận phù hợp cho bài toán tách âm thanh
- Phân tích giải pháp và đưa ra đề xuất mô hình tách âm
- Hiện thực và huấn luyện mô hình đề xuất
- Tiến hành thí nghiệm và đánh giá các kết quả đạt được
III NGÀY GIAO NHIỆM VỤ: 06/02/2023
IV NGÀY HOÀN THÀNH NHIỆM VỤ: 10/12/2023
V CÁN BỘ HƯỚNG DẪN (Ghi rõ học hàm, học vị, họ, tên): PGS TS Huỳnh Tường
(Họ tên và chữ ký)
Trang 4Để thực hiện nghiên cứu cho đề tài luận văn này, ngoài sự nổ lực của bản thân, còn nhờ
sự định hướng, chỉ dẫn và theo dõi tận tình của thầy Nguyễn Đức Dũng Chúng tôi xingửi lời cảm ơn chân thành đến thầy Dũng cùng với các thầy cô khoa Khoa học và Kĩthuật Máy tính, cũng như các thầy cô, cán bộ, nhân viên của trường Đại học Bách Khoa
- Đại học Quốc gia thành phố Hồ Chí Minh đã truyền đạt kiến thức, kinh nghiệm và cảmhứng cho chúng tôi trong suốt quá trình học tập và rèn luyện ở trường Đó sẽ mãi là nềntảng và hành trang quý giá theo chúng tôi trong suốt quãng thời gian sau này
Trang 5Tăng cường chất lượng âm thanh và Tách nguồn âm thanh là một trong những phươngpháp tiền xử lý được dùng cho nhiều bài toán khác nhau trong lĩnh vực Xử lý tín hiệu
âm thanh như: Nhận diện giọng nói, ứng dụng đàm thoại, truy vấn các thông tin về nhạchoặc thậm chí trong các lĩnh vực giải trí và sản xuất âm thanh Mục tiêu của luận vănnày là nghiên cứu các phương pháp giải quyết bài toán nhận tách nguồn âm thanh, cụthể là bài toán tách nguồn nhạc
Nội dung của luận văn được thể hiện thông qua 6 chương bao gồm Chương 1 - Giới thiệu
về đề tài, động lực nghiên cứu và nhiệm vụ của luận văn Chương 2 - Kiến thức nền tảng
về xử lý tín hiệu âm thanh Chương 3 - Khảo sát về bài toán và phương pháp tiếp cận.Chương 4 - Trình bày nội dung phương pháp eCMU Chương 5 - Trình bày nội dungphương pháp xây dựng mô hình đa mục tiêu Chương 6 - Tổng kết về kết quả đạt được,những hạn chế và định hướng nghiên cứu trong tương lai
Trang 6Audio source separation is one of the crucial techniques for audio signal processing lems such as automatic speech recognition (ASR), voice over Internet protocol (VoIP)apps, music information retrieval (MIR), and music production Our thesis aims to pro-pose methods for audio source separation, especially for music source separation.
prob-The outline of this document includes 6 chapters: Chapter 1 - Introduction to the topic,our motivations, and our tasks for this thesis; Chapter 2 - The background knowledgeabout the audio processing field; Chapter 3 - Our survey about previous works; Chapter
4 - Our efficient phase-aware framework for music source separation; Chapter 5 - target music source separation; Chapter 6 - Conclusion
Trang 7Multi-Chúng tôi cam đoan rằng công trình nghiên cứu này là kết quả của riêng chúng tôi dưới
sự chỉ dẫn của Tiến sĩ Nguyễn Đức Dũng Mọi thông tin và kết quả trình bày đều đượcđảm bảo là chính xác và chưa hề được công bố trong bất kỳ hội nghị nào trước đây Dữliệu dùng để phân tích và đánh giá được chúng tôi tự mình thu thập từ nhiều nguồn đadạng và sẽ được trình bày cụ thể trong phần tham khảo
Ngoài ra, chúng tôi cũng đã tham khảo và sử dụng các ý kiến, phân tích và dữ liệu từcác tác giả, tổ chức khác, đều đã được dẫn nguồn một cách cẩn thận Chúng tôi sẵn sàngnhận mọi trách nhiệm về tính chính xác và trung thực của luận văn này nếu có bất kỳphát hiện gian lận nào Đại học Bách Khoa - Đại học Quốc gia TP Hồ Chí Minh khôngchịu trách nhiệm về các vấn đề vi phạm tác quyền hay bản quyền mà công trình này cóthể gây ra
Người cam đoan
THẨM QUỐC DŨNG
Trang 81 Mở đầu 1
1.1 Giới thiệu đề tài 1
1.2 Đối tượng và Phạm vi nghiên cứu 1
1.3 Ý nghĩa khoa học và thực tiễn 1
1.4 Cấu trúc văn bản 2
2 Kiến thức nền tảng 3 2.1 Xử lý tín hiệu âm thanh 3
2.1.1 Âm thanh và Sóng âm 3
2.1.2 Tần số và Cao độ 5
2.1.3 Cường độ âm - Công suất và Độ to 6
2.1.4 Âm sắc 6
2.1.5 Âm thanh kỹ thuật số 8
2.2 Đặc trưng âm thanh cho Học máy 10
2.2.1 Trích xuất đặc trưng âm thanh 11
2.2.2 Đặc trưng âm thanh trên miền thời gian 12
2.2.3 Phép biến đổi Fourier 12
2.2.4 Đặc trưng âm thanh trên miền tần số 15
2.2.5 Biểu diễn âm thanh trên miền thời gian - tần số 16
3 Tách nguồn âm thanh 21 3.1 Tổng quan 21
3.1.1 Tập dữ liệu 22
3.1.2 Chuẩn đo 23
3.1.3 Multi-channel Wiener Filter 25
3.2 Khảo sát các nghiên cứu liên quan 27
3.2.1 Open-Unmix 30
3.2.2 Spleeter 31
3.2.3 Demucs 32
3.2.4 TFC-TDF v1.0 33
3.2.5 TFC-TDF v3.0 36
3.3 Thực nghiệm 36
3.4 Định hướng phát triển cho luận văn 37
4 Phương pháp tách nguồn nhạc hiệu quả - eCMU 40 4.1 Tổng quan 40
4.2 Phương pháp 41
Trang 94.3 Thực nghiệm 44
4.4 Kết quả 45
5 Tách nguồn nhạc đa mục tiêu 49 5.1 Tổng quan 49
5.2 Phương pháp 51
5.2.1 Các khối cơ bản 51
5.2.2 Encoder 53
5.2.3 Decoder 53
5.2.4 Two-stages Conformer 54
5.2.5 Hàm mất mát 54
5.3 Thực nghiệm 55
5.4 Kết quả 57
Trang 102.1 Bảng thống kế cường độ âm và mức cường độ âm của các nguồn âm thanh
điển hình 6
3.1 Định nghĩa các loại mask điển hình 28
3.2 Bảng thông tin so sánh kết quả đánh giá của các phương pháp 30
3.3 Bảng thống kê số lượng tham số và hiệu năng tương ứng của từng mô hình 37 4.1 Hiệu năng của các mô hình trên tập dữ liệu MusDB18-HQ 46
4.2 Kết quả thí nghiệm với các kích thước không gian ẩn khác nhau 47
4.3 Kết quả thí nghiệm với các kiến trúc khối khác nhau 47
4.4 Kết quả thí nghiệm với các cặp giá trị T và P khác nhau 47
5.1 Bảng so sánh kết quả giữa các mô hình 57
5.2 Kết quả thí nghiệm với các cặp giá trị T và P khác nhau 57
Trang 112.1 Ví dụ minh hoạ về sự rung của âm thoa dẫn đến sự dao động qua lại của
các phân tử trong không khí 3
2.2 Ví dụ minh hoạ cho dạng sóng của âm thanh được biểu diễn dưới dạng đồ thị áp suất - thời gian 4
2.3 Đồ thị sóng hình sin với tần số dao động 4 Hz 5
2.4 Các đường thể hiện độ to ngang nhau theo tần số và cường độ âm 7
2.5 Waveform, amplitude envelope 7
2.6 Biểu đồ thể hiện quang phổ của nốt C4 8
2.7 Minh hoạ việc lấy mẫu và lượng tử hoá tín hiệu liên tục thành rời rạc 9
2.8 Minh hoạ hiện tượng alias khi giảm tần suất lấy mẫu 9
2.9 Toạ đồ cầu biểu diễn cho số phức 13
2.10 Minh hoạ tín hiệu trên miền thời gian và miền tần số 14
2.11 Tín hiêu trên miền thời gian và sau khi thực hiện phép biến đổi Fourier của sóng tổng hơp hình sin của 2 tần số 1 Hz và 5 Hz 16
2.12 Minh hoạ trực quan của quang phổ dưới dạng biểu đồ nhiệt 17
2.13 Đồ thị biểu diễn mối liên hệ giữa tần số và mel 18
2.14 Minh hoạ các bộ lọc dải mel (triangle filters) 18
2.15 Minh hoạ mel-spectrogram bằng biểu đồ nhiệt hai chiều 18
2.16 Minh hoạ quang phổ khi phát âm các nguyên âm 19
2.17 Nguyên lý hình thành tín hiệu tiếng nói 19
2.18 Mối liên hệ giữa các thành phần tạo nên tiếng nói thông qua quang phổ 19
2.19 Minh hoạ về cepstrum được biến đổi từ logarith của spectrum 20
2.20 Quy trình trích xuất đặc trưng MFCC 20
3.1 Đầu vào và đầu ra của bài toán Tách nguồn nhạc 21
3.2 Mô hình speech chain hai quá trình nghe và nói của con người 22
3.3 Kiến trúc mô hình UMX 31
3.4 Kiến trúc U-net của phương pháp Spleeter 32
3.5 Kiến trúc tổng quát Demucs và biểu diễn chi tiết của các lớp encoder và decoder 33
3.6 Complex as Channel Framework 34
3.7 Kiến trúc tổng quát của mô hình TFC-TDF 34
3.8 Các khối cơ bản được sử dụng trong mô hình TFC-TDF 35
3.9 Minh hoạ về việc bị rò rỉ quang phổ ở những đoạn im lặng 38
3.10 Minh hoạ về nhiễu ở tần số cao của mô hình Demucs 38
3.11 Minh hoạ về việc mất âm thanh tần số cao của mô hình OpenUnmix 38
3.12 Minh hoạ về việc mất âm thanh của mô hình OpenUnmix 39
Trang 124.1 Kiến trúc tổng quát của phương pháp eCMU 41
4.2 Kiến trúc tổng quát của một khối conformer và các mô-đun tương ứng 43
4.3 So sánh quang phổ đầu ra của các phương pháp 48
5.1 Các mẫu đặc trưng khác nhau ở các dải tần số khác nhau 50
5.2 Kiến trúc mô hình đa mục tiêu dựa trên ResUnet 52
5.3 Kiến trúc tổng quát của một khối two-stage conformer và D2-TDF 54
5.4 Biểu diễn các phổ năng lượng được tái tạo bởi mô hình 58
Trang 13Chương 1
Mở đầu
1.1 Giới thiệu đề tài
Tăng cường chất lượng âm thanh (audio enhancement) và Tách nguồn âm thanh (audioseparation) là hai bài toán cơ bản trong lĩnh vực xử lý tín hiệu số, chúng có liên quan vớinhau Cụ thể, bài toán tăng cường âm thanh có mục tiêu là tách tín hiệu mục tiêu ra khỏinhững tín hiệu âm thanh không mong muốn (nhiễu, tạp âm của môi trường, artifacts, )hoặc thậm chí khôi phục tín hiệu âm thanh bị biến dạng (distortion sound), nhằm tạo ranhững tín hiệu âm thanh sạch, có độ sắc nét cao như khi thực hiện thu âm trong phòngthu chuyên nghiệp, Trong khi đó, tách nguồn âm thanh hướng tới việc trích xuất mộthoặc nhiều nguồn âm thanh mục tiêu từ một tín hiệu âm thanh tổng hợp Hai loại tínhhiệu âm thanh thường được quan tâm nhất là tín hiệu giọng nói (speech) và tín hiệu âmnhạc (music)
1.2 Đối tượng và Phạm vi nghiên cứu
Đề tài luận văn này nghiên cứu chung về Tách nguồn âm thanh, nhưng bài toán chínhđược chọn để hiện thực liên quan đến việc Tách nguồn nhạc Những năm gần đây, với sựphát triển của các giải thuật Học máy trong việc giải quyết các bài toán xử lý âm thanh
và cho những kết quả cải thiện hơn so với các phương pháp truyền thống Vì thế, chúngtôi quyết định tiếp cận bài toán này theo hướng Học máy dựa trên các tập dữ liệu mở.Trong giai đoạn đề cương, chúng tôi tập trung vào việc nghiên cứu tổng quan, khảo sátcác phương pháp tiếp cận trước đây, tìm kiếm nguồn dữ liệu Đồng thời, chúng tôi cònthực hiện việc đánh giá, kiểm thử kết quả, hiệu năng của các mô hình tiêu biểu, từ đó cónhững nhận định, tạo cơ sở cho việc lựa chọn hướng tiếp cận phù hợp dựa trên điều kiệntài nguyên sẵn có của nhóm và đề xuất các hướng phát triển cho bài toán ở giai tiếp luậnvăn
1.3 Ý nghĩa khoa học và thực tiễn
Tách nguồn giọng nói được xem như kỹ thuật tiền xử lý giúp cho các hệ thống nhận diệntiếng nói tự động (Automatic Speech Recognition - ASR) cải thiện kết quả nhận diện,nhất là trong tình huống có nhiều người phát biểu cùng lúc, hoặc ở những nơi đông người
Trang 14Ngoài ra, nhu cầu của những ứng dụng, nền tảng đàm thoại, hội nghị trực tuyến thôngqua internet khá phát triển (Voice over Internet Protocol - VoIP), để có thể ngăn chặnnhững âm thanh không mong muốn từ môi trường ngoài (tạp âm, tiếng nói của nhữngngười khác) khi sử dụng ứng dụng, nhất là ở những nơi đông người thì việc áp dụng cácgiải thuật tiền xử lý âm thanh này là cần thiết (noise canceling, voice canceling).
Đối với bài toán Tách nguồn nhạc, như chúng ta đã biết, một bản nhạc hoàn chỉnh thường
là sự kết hợp, hoà tấu bởi nhiều loại nhạc cụ khác nhau trong một dàn nhạc (piano, trống,đàn guitar, giọng hát, ), mục tiêu của bài toán là phân tách âm thanh tổng hợp của mộtbản nhạc thành từng thành phần âm thanh riêng lẻ tương ứng cho từng loại nhạc cụ cụthể (hay còn gọi là stems) Việc này có nhiều ứng dụng trong các việc phát triển các giảithuật Truy xuất thông tin nhạc (Music Information Retrieval - MIR) như là: audio/lyricsalignment, lyrics transcription, music transcription, singer identification, vocal melodyextraction Ngoài ra, còn có những ứng dụng khác trong mảng giải trí như giúp làm nhạcnền của karaoke hay giúp các nhạc sĩ trong việc hoà âm, phối khí bài hát
1.4 Cấu trúc văn bản
Cấu trúc văn bản của đề cương luận văn này bao gồm 3 chương Chương 1 - Giới thiệutổng quát về bài toán, động lực, mục tiêu nghiên cứu; Chương 2 - Trình bày những kiếnthức nền cơ bản liên quan đến Âm thanh và Xử lý tín hiệu âm thanh; Chương 3 - Trìnhbày tổng quan nghiên cứu, khảo sát các phương pháp tiếp cận, các tập dữ liệu, chuẩn đođánh giá kết quả của một vài phương pháp điển hình cũng như là những đề xuất hướngphát triển cho luận văn này; Chương 4 - Trình bày mục tiêu, đóng góp cải tiến, nội dungphương pháp và phân tích kết quả đạt được cho phương pháp đề xuất thứ nhất eCMU;Chương 5 - Trình bày động lực, những đóng góp cải tiến, nội dung phương pháp và phântích kết quả đạt được cho phương pháp mô hình đa mục tiêu; Chương 6 - Tổng kết cáckết quả đạt được, những hạn chế cũng như định hương phát triển trong tương lai
Trang 15Chương 2
Kiến thức nền tảng
2.1 Xử lý tín hiệu âm thanh
2.1.1 Âm thanh và Sóng âm
Âm thanh chúng ta nghe được hằng ngày là kết quả từ quá trình dao động cơ học củacác vật thể, ví dụ như: dây đàn, bề mặt trống, dây thanh của con người, Chính sự daođộng này làm cho các phân tử không khí xung quanh nó chuyển động, việc chuyển độngcủa các phân tử không khí làm cho áp suất không khí dao động tăng hoặc giảm theo một
mô hình nhất định, lan truyền dưới dạng sóng trong không khí đến tai người Các bộphận trong tai người sẽ tiếp nhận, xử lý và chuyển đổi sóng thành các xung thần kinh,các xung thần kinh này tiếp tục truyền đến và được hiểu bởi bộ não
Về mặt trực quan, sự thay đổi áp suất không khí tại một điểm nhất định có thể biểu diễn
Hình 2.1: Ví dụ minh hoạ về sự rung của âm thoa dẫn đến sự dao động qua lại của cácphân tử trong không khí, lan truyền dưới dạng sóng dọc Biểu đồ hình sóng hiển thị độlệch của áp suất không khí so với áp suất không khí trung bình tại một vị trí cụ thể theothời gian
Trang 16bằng biểu đồ áp suất-thời gian, hay còn được gọi là dạng sóng của âm thanh (waveform).Dạng sóng thể hiện độ lệch của áp suất không khí so với áp suất không khí trung bình(hình 2.2).
Một sóng cơ học có thể được mô tả như một dao động truyền trong không gian, nơi nănglượng được truyền từ điểm này sang điểm khác Khi có sóng truyền qua môi trường nào
đó, chất của môi trường này bị biến dạng tạm thời Như đã mô tả ở trên, sóng âm thanhtruyền qua các phân tử không khí va chạm với các phân tử xung quanh của chúng Saukhi các phân tử không khí va chạm, chúng bật ra khỏi nhau Điều này ngăn các phân tửtiếp tục di chuyển theo hướng của sóng Thay vào đó, chúng dao động xung quanh các
vị trí gần như cố định Nếu các phân tử dao động vuông góc với phương truyền nănglượng, ta gọi đó là sóng ngang Còn trong trường hợp, các phân tử dao động song songvới phương truyền sóng, ta gọi đó là sóng dọc
Về mặt toán học, sóng là dao động điều hoà được biểu diễn bằng hàm sin:
• Pha dao động ban đầu (ϕ ∈ [−π, π]): độ lệch của sóng, cho chúng ta biết vị trí củasóng tại thời điểm t = 0
Hình 2.2: Ví dụ minh hoạ cho dạng sóng của âm thanh được biểu diễn dưới dạng đồ thị
áp suất - thời gian
Trang 17Hình 2.3: Đồ thị sóng hình sin với tần số dao động 4 Hz.
2.1.2 Tần số và Cao độ
Tần số của sóng hình sin càng cao thì âm thanh càng cao Dải tần số có thể nghe đượcđối với con người là từ khoảng 20 Hz đến 20,000 Hz (20 kHz) Các loài động vật khácnhau có phạm vi thính giác khác nhau Ví dụ: cận trên trong phạm vi thính giác của chó
là khoảng 45 kHz, của mèo là 64 kHz, thậm chí dơi có thể phát hiện tần số vượt quá 100kHz Đây là lý do tại sao người ta có thể sử dụng một chiếc còi cho chó, phát ra âm thanhsiêu âm vượt quá khả năng nghe của con người, để huấn luyện và ra lệnh cho những convật không làm phiền những người xung quanh
Độ cao (pitch) là một đặc trưng mang tính chất chủ quan của âm thanh, khái niệm dùngcho sự cảm nhận âm thanh Tai người không cảm nhận âm thanh một cách tuyến tính
mà phi tuyến theo hàm số logarit Hai tần số được cảm nhận tương tự nhau nếu chúngkhác nhau 2n Ví dụ nốt A3 (220 Hz) và A4 (440 Hz) được cảm nhận là như nhau Đặctính này của âm thanh được dùng để chia một quãng tám thành 12 quãng nửa cung bằngnhau Mối quan hệ giữa tần số và độ cao được biểu diễn bằng hàm số:
trong đó - p ∈ [0, 127] chỉ số nốt MIDI (chỉ sổ nốt của C4 là 60, A4 là 69), F (p) là tần
số trung tâm tương ứng với chỉ số nốt MIDI p Ta có tính chất F (p + 12) = 2F (p) và
F (p + 1)/F (p) = 212 ≈ 1.0594 Như vậy, khi nhân tần số bất kì với hệ số trên đồng nghĩavới việc ta sẽ dịch độ cao tương ứng lên nửa cung
Tổng quát hơn, người ta dùng khái niệm cent như một đơn vị nhỏ hơn để đo sự khácnhau về cảm nhận âm thanh giữa hai tần số bất kỳ Cụ thể, mỗi một quãng tám đượcchia thành 1200 cents, đồng nghĩa mỗi một nửa cung = 100 cents Khi đó, sự khác nhaugiữa hai tần số được tính bằng:
có năng khiếu bẩm sinh, còn người trưởng thành bình thường là 25 cents
Âm thanh trong tự nhiên là sóng tổng hợp từ nhiều sóng với các tần số dao động khácnhau Trong đó bao gồm sóng dao động với tần số cơ bản f0 (tần số dao động thấpnhất) và các thành phần sóng hamornic với tần số bằng bội số nguyên của tần số cơ bản(f1 = 2.f0, f2 = 3.f0, ,fn = (n − 1).f0) Thông thường, độ cao của sóng được quy địnhbởi tần số cơ bản Ngoài ra, tập hợp các thành phần sóng ngoại trừ f0 còn được gọi làbội âm (overtone)
Trang 18Bảng 2.1: Bảng thống kế cường độ âm và mức cường độ âm của các nguồn âm thanh điểnhình
2.1.3 Cường độ âm - Công suất và Độ to
Công suất là mức năng lượng được truyền đi, sử dụng hoặc chuyển hóa, đơn vị đo làWatt (W) Tương tự, công suất âm thanh cho biết mức năng lượng trên một đơn vị thờigian được phát ra bởi một nguồn âm thanh truyền theo mọi hướng trong không khí.Khi đó, khái niệm Cường độ âm được dùng để thể hiện công suất âm thanh trên mộtđơn vị diện tích (W/m2) Trong thực tế, tai người có thể cảm nhận được âm thanh vớigiá trị cường độ âm rất nhỏ hay còn gọi là ngưỡng nghe (threshold of hearing - TOH),
IT OH = 10−12(W/m2) Tương tự, ngưỡng đau (threshold of pain - TOP) là giá trị cường
độ âm có thể gây đau cho người, IT OP = 10(W/m2) Mức cường độ âm (đơn vị: decibel dB) cho biết tỷ lệ giữa hai giá trị cường độ âm trong thang đo logarit Bảng 2.1 thống kêgiá trị cường độ âm và mức cường độ âm tương ứng của các nguồn âm thanh khác nhau
-dB(I) = 10 log10( I
Độ to của âm thanh là cách cảm nhận chủ động về cường độ âm Độ to không chỉ phụthuộc vào cường độ âm mà còn phụ thuộc vào khoảng thời gian và tần số âm thanh.Ngoài ra, còn phụ thuộc vào độ tuổi Đơn vị đo là phon Hình 2.4 là kết quả thí nghiệmcho thấy sự phụ thuộc giữa độ to âm thanh với tần số và mức cường độ âm, trên hìnhthể hiện những đường viền mà mỗi điểm trên đường viền đó sẽ có độ to âm thanh nhưnhau Đơn vị phon được chuẩn hoá tại mức tần số 1000 Hz, trong đó giá trị phon bằngvới giá trị mức cường độ âm
Quá trình phát triển của âm thanh (sound envelope) có thể mô tả bởi mô hình ADSR(A - Attack, D - Decay, S - Sustain, R - Release) Các loại nhạc cụ khác nhau thì có quátrình phát triển âm thanh cũng khác nhau Quan sát hình 2.5a và 2.5b khi nốt C4 vanglên bằng piano và violin tương ứng, ta có thể thấy đối với piano biên độ tăng mạnh khi
Trang 19Hình 2.4: Các đường thể hiện độ to ngang nhau theo tần số và cường độ âm.
Hình 2.5: Waveform, amplitude envelope
búa gõ vào dây đàn, sau đó biên độ sẽ giảm từ từ và duy trì ở một mức nhất định và tiêubiến khi phím đàn được thả Còn trong trường hợp âm thanh tạo ra bởi violin, vì giaiđiệu được phát nhẹ nhàng với âm lượng tăng dần nên giai đoạn (A) được dàn trải, không
có giai đoạn (D) và giai đoạn (S) dao động không ổn định Giai đoạn (R) xảy ra khi nhạccông ngừng kéo dây đàn Âm thanh sau đó nhỏ dần nhanh chóng
Với ví dụ về âm thanh được tạo ra bởi đàn violin, ta có thể thấy các biến đổi tuần hoàn
về biên độ hay còn gọi là tremelo, là kỹ thuật tạo âm thanh khi chơi các nhạc cụ bộ dâyhoặc bộ khí Ngoài kĩ thuật tremelo, trong âm nhạc thường sử dụng kĩ thuật rung nhưngmột cách truyển tải cảm xúc, bản chất là tạo ra sự thay đổi về tần số một cách có chukỳ
Hơn hết, một tính chất để mô tả cho âm sắc âm chính là sự tổng hợp của nhiều thànhphần sóng (tần số cơ bản f0 và các overtones) Hình 2.6 là quang phổ (spectrogram) mô
tả các thành phần âm thanh và cường độ của chúng khi chơi nốt C4 (261.6 Hz) trên đànpiano Ta có thể thấy, các thành phần sóng có tần số 261.6n (Hz), n ∈ {1, 2, 3, } Hầuhết, năng lượng tập trung vào các thành phần tần số thấp và giảm dần ở các tần số caohơn
Trang 20Hình 2.6: Biểu đồ thể hiện quang phổ của nốt C4
2.1.5 Âm thanh kỹ thuật số
Thuật ngữ audio được sử dụng để chỉ việc truyền, nhận và tái tạo âm thanh nằm tronggiới hạn khả năng nghe của con người Tín hiệu audio là một cách biểu diễn của âm thanh
mã hóa tất cả thông tin cần thiết để tái tạo âm thanh
Âm thanh trong tự nhiên là các tín hiệu analog (những giá trị liên tục của thời gian vàbiên độ, biểu diễn bằng một hàm số liên tục), để có thể xử lý được bởi các phần mềmmáy tính hoặc các thiết bị số (mixer, equalizer, ) thì trước tiên các tín hiệu analog phảiđược chuyển đổi thành các tín hiệu số (digital signal - là chuỗi các giá trị rời rạc, cácđiểm dữ liệu được lấy mẫu trên một tập các giá trị cố định) Việc chuyển đổi này đượcthực hiện bởi bộ chuyển đổi có tên là Analog-to-Digital Converter (ADC) bao gồm haiquá trình sampling và quantization
Sampling
Lấy mẫu là quá trình đo biên độ áp suất không khí tại các thời điểm cách đều nhau vềthời gian, trong đó mỗi phép đo tạo thành một mẫu (hình 2.7a) Số lượng mẫu được lấytrong một giây (sample/s) được gọi là sampling rate (đơn vị: Hz) Việc chọn samplingrate phải đảm bảo cho việc tái tạo âm thanh của bộ Digital-to-Analog Converter (DAC)
và tuân theo định lý Nyquist như sau: Với một sóng tổng hợp trong đó thành phần cótần số cao nhất là f thì khi đó sampling rate ít nhất là 2f (khi sampling rate đúng bằng2f ta gọi đó là Nyquist rate) Từ đó chúng ta có thể thấy rằng, với sampling rate bằng
f thì thành phần âm thanh có tần số cao nhất mà được lấy mẫu một cách xác là f /2(Nyquist frequency)
Trong trường hợp nếu quá trình lấy mẫu không tuân theo định luật trên, thì việc tái tạolại âm thanh ban đầu sẽ không chính xác, ta gọi đó là hiện tượng alias (hình 2.8) Trongthực tế, alias không phải là một vấn đề lớn bởi vì sampling rate chuẩn trong môi trườngthu âm kỹ thuật số đủ cao để thu được tất cả các tần số trong phạm vi nghe của conngười Tần số âm thanh cao nhất là khoảng 20 kHz Trên thực tế, hầu hết mọi ngườikhông nghe thấy tần số cao đến mức này, vì khả năng nghe tần số cao của chúng ta giảmdần theo tuổi tác Sampling rate của đĩa CD là 44.1 kHz gấp hơn hai lần thành phần âmthanh cao nhất mà con người có thể nghe được Ngoài ra, các bộ chuyển đổi ADC còn ápdụng thêm các bộ lọc tần số cao hơn Nyquist frequency để tránh hiện tượng alias
Trang 21(a) sampling (b) quantization
Hình 2.7: Minh hoạ việc lấy mẫu và lượng tử hoá tín hiệu liên tục thành rời rạc
Hình 2.8: Minh hoạ hiện tượng alias khi giảm tần suất lấy mẫu Đường nét liền là tínhiệu gốc, đường nét đứt là tín hiệu khôi phục, chấm đỏ là các điểm lấy mẫu (a) 12 Hz,(b) 6 Hz, (c) 3 Hz
Quantization
Lượng tử hoá là quá trình rời rạc hoá các giá trị biên độ vào các mức giá trị nguyên(biểu diễn dưới dạng nhị phân) được xác định trước (hình 2.7b) Tập hợp các mức giá trịnguyên này được xác định bằng bit depth (số lượng bits được sử dụng cho một sample)
Ví dụ đĩa CD có bit depth là 16, đồng nghĩa với việc ta có 216 mức giá trị Biên độ củamẫu sẽ được làm tròn giá trị của mức giá trị gần nhất, việc này là nguyên nhân gây ralỗi trong quá trình số hóa (Quantization error hay là distortion)
Một khái niệm khác là Dải động (Dynamic range) là một dải biên độ thể hiện mức độchênh lệch giữa tín hiệu lớn nhất và nhỏ nhất mà hệ thống thu nhận được Một đoạn âm
Trang 22thanh có dải động hẹp thì sự khác biệt giữa đoạn âm thanh to và đoạn yên tĩnh sẽ nhỏ Gíatrị của bit depth càng lớn đồng nghĩa với việc dải động cũng sẽ lớn Với bit_depth = n thìdynamic range của đoạn audio thu được là 20 log10(21/2n−1) ≈ 6.04n (signal to quantizationnoise ratio - SQNR).
2.2 Đặc trưng âm thanh cho Học máy
Trước khi huấn luyện một mô hình học máy bất kỳ, chúng ta cần tiến hành trích xuất cácđặc trưng cơ bản của âm thanh (audio features) Đặc trưng âm thanh (audio features)giúp mô tả âm thanh, các loại đặc trưng khác nhau sẽ mang một loại thông tin khác nhaucủa âm thanh Các loại đặc trưng này có thể phân loại như sau:
• Mức độ trừu tượng (Level of Abstraction):
– Mức cao: bao gồm các đặc trưng tổng quát ta có thể hiểu được như:nhạc cụ, nốtnhạc, hợp âm, giai điệu, hòa âm, tiết tấu, thể loại, tâm trạng,
– Mức trung: bao gồm các đặc trưng chúng ta có thể cảm nhận được: độ cao, các
mô tả liên quan đến nhịp, sự kiện bắt đầu của nốt nhạc (note onset), các mẫudao động, MFCCs,
– Mức thấp: chủ yếu là các đặc trưng về thống kê trích xuất từ audio như: tude envelope, energy, spectral centroid, spectral flux, zero-crossing rate, nhữngđặc trưng này gần với máy hơn con người
ampli-• Temporal Scope: áp dụng cho audio nói chung
– Instantaneous: đặc trưng này cung cấp cho chúng ta thông tin tức thời về tínhiệu âm thanh và thường được xem xét trong các đoạn nhỏ (chunks of audio)tầm 50 ms Độ phân giải tối thiểu mà con người có thể cảm nhận được rơi vàokhoảng 10 ms
– Segment-level: các đặc trưng này được trích xuất từ các phân đoạn của tín hiệu
âm thanh trong phạm vi vài giây
– Global: Đây là những đặc trưng tổng hợp cung cấp thông tin và mô tả cho toàn
bộ đoạn âm thanh
• Musical Aspect: Đặc tính âm thanh bao gồm nhịp, tiết tấu, âm sắc, cao độ, hoàthanh, giai điệu,
• Miền tín hiệu (Signal Domain):
– Miền thời gian: bao gồm những đặc trưng trích xuất từ dạng sóng của tín hiệu
âm thanh thô như: Zero crossing rate, amplitude envelope, RMS energy
– Miền tần số: tín hiệu có thể được chuyển đổi thành miền tần số bằng phép biếnđổi Fourier, các đặc trưng trên miền này bao gồm: Band energy ratio, spectralcentroid, spectral flux
– Miền thời gian - tần số: các đặc trưng này kết hợp cả trên miền thời gian vàmiền tần số của âm thanh, được biến đổi bằng phép biến đổi STFT (Short-TimeFourier Transform) Các đặc trưng điển hình như Spectrogram, mel-spectrogram,constant-Q transform,
Trang 23• Hướng tiếp cận Học máy (ML Approach):
– Phương pháp truyền thống: Trích xuất thủ công các đặc trưng trên cả miền thờigian để dùng làm dữ liệu đầu vào cho các mô hình Học máy
– Phương pháp hiện đại: dùng các biểu diễn không cấu trúc của âm thanh như:spectrogram, mel-spectrograms, MFCC hoặc thậm chí là waveform để làm dữliệu đầu vào cho các mô hình neuron và các mô hình sẽ tự học việc trích xuấtcác mẫu đặc trưng (patterns)
2.2.1 Trích xuất đặc trưng âm thanh
Framing
Là quá trình chia chuỗi các giá trị rời rạc của âm thanh thô mà con người có thể cảmnhận được (perceivable audio chunks) Như chúng ta đã biết, một mẫu dữ liệu tương ứngvới một khoảng thời gian rất nhỏ để con người có thể cảm nhận được (ví dụ 1 mẫu trongđoạn âm thanh có sampling rate 44.1 kHz có thời lượng là 0.0227 ms << 10 ms) Số lượngframes thường là luỹ thừa cơ số 2, việc này sẽ giúp thuận tiện cho chuyển đổi tín hiệu vềmiền tần số bằng FFT
Rò rỉ quang phổ
Thông thường, tín hiệu trong các đoạn frame chúng ta xử lý không nguyên lần số chu kỳ,nhất là đoạn đầu và đoạn cuối của tín hiệu thường không liên tục, việc này sẽ làm xuấthiện những thành phần tần số cao không nằm trong tín hiệu gốc ban đầu khi chúng tathực hiện phép biến đổi Fourier (artifacts) Hình minh hoạ cho hiện tượng này
Trang 242.2.2 Đặc trưng âm thanh trên miền thời gian
Chỉ sổ biểu thị độ to của âm thanh, ít nhạy cảm với outliers hơn AE Ứng dụng: audiosegmentation, music genre classification
RM St=
vuu
Zero crossing rate
Là số lần tín hiệu cắt ngang với trục hoành, ứng dụng monophonic pitch estimation, voiceactivity detection,
2.2.3 Phép biến đổi Fourier
Tín hiệu âm thanh thường là sự tổng hợp của nhiều thành phần âm thanh Để giúp choviệc phân tích và hiểu hơn về tín hiệu âm thanh, chúng ta sẽ tìm cách phân rã tín hiệuphức tạp thành những thành phần đơn giản hơn Phép biến đổi Fourier dùng để chuyểnđổi tín hiệu từ miền thời gian sang miền tần số
Ý tưởng chính đằng sau phép biến đổi Fourier là tách tín hiệu phức tạp thành các thànhphần nhỏ Mỗi sóng thành phần có tần số dao động f ∈ R, biến đổi Fourier cho ra hệ số
df (và pha ban đầu ϕf) df cho chúng ta biết sóng thành phần f có tồn tại trong tín hiệuban đầu hay không và đóng góp nhiều hay ít Bản chất sóng tổng hợp là tổ hợp tuyếntính của nhiều sóng thành phần
Hình 2.10 là ví dụ minh hoạ khi chuyển đổi tín hiệu âm thanh của nốt C4 sang miền tần
số, ta có thể thấy giá trị cao nhất nằm ở tần số f = 262 Hz, đây là tần số cơ bản củanốt C4, người ra còn có 2 thành phần sóng có giá trị cao tiếp theo khác là f = 523 Hz và
f = 786 Hz tương ứng với thành phần sóng thứ 2 và thứ 3 của nốt C4
Với tín hiệu liên tục f : R → R, sóng thành phần g: R → R, g = cosf,ϕ =√
2 cos(2π(f t −ϕ)), với f ∈ R (Hz) là tần số, pha dao động ϕ ∈ [0, 1) Để đo tính tương đồng của haihàm số f và g, ta xét tích phân:
Z
t∈R
f (t).g(t)dt
Trang 25Hình 2.9: (a) Toạ độ cầu biểu diễn số phức c = a + bi;(b) Toạ độ cầu biểu diễn số phứcdưới dạng công thức Euler.
với eiγ = cos(γ) + i sin(γ) là công thức Euler biểu diễn cho số phức Từ định nghĩa sốphức, ta có thể gom chung df và ϕf thành một hệ số phức cf duy nhất (hệ số Fourier):
cf = √df
2e
−i2πϕf
(2.2.5)
Trang 26Hình 2.10: Minh hoạ tín hiệu trên miền thời gian và miền tần số
(a) Dạng sóng của nốt C4 (261,6 Hz) được chơi trên đàn piano (b) Phóng to phần 10
ms bắt đầu từ vị trí thời gian t = 1 giây (c-e) So sánh dạng sóng với các hình sin có tần
số f khác nhau (f) Hệ số cường độ df của từng tần số f tương ứng
Điều này dẫn đến việc định nghĩa phép biển đổi Fourier của hàm số thực g : R → R làhàm ˆg : R → C, ˆg(f ) = cf
ˆg(f ) =
Z
t∈R
g(t).e−i2πf tdt
=Z
Nói cách khác, phần thực của hệ số phức ˆg(f ) thu được bằng cách so sánh tín hiệu gốc
g với hàm cosin có tần số f , phần ảo thu được bằng cách so sánh tín hiệu gốc g với hàmsin có tần số f Số tuyệt đối |ˆg(f )| gọi là magnitude của hệ số Fourier df và ϕf được suy
f ∈R ≥0
cfei2πf tdf
(2.2.8)
Phép biến đổi Fourier trên miền rời rạc
Tín hiệu âm thanh được lưu trữ và xử lý dưới dạng tín hiệu rời rạc Với hàm số liên tục
g : R → R, và T là một số nguyên dương, ta có định nghĩa hàm rời rạc x : Z → R,
Trang 27x(n) = g(n.T ) Bởi vì x là tập hợp các điểm rời rạc nên được gọi là tín hiệu rời rạc, x(n)được gọi là mẫu (sample) tại thời điểm t = n.T trên tín hiệu f , T gọi là chu kỳ lấy mẫu
và Fs= 1/T (Hz) là sampling rate (đã trình bày ở phần )
Phép biển đổi Fourier rời rạc được định nghĩa:
ˆx(f ) =X
Độ phức tạp của giải thuật trên là O(N2) Trong thực tế việc tính toán khá chậm khigiá trị N lớn Một giải thuật hiệu quả hơn với độ phức tạp O(N log2(N )) là FFT (FastFourier Transform) được đề xuất bởi Gauss and Fourier hơn 200 năm trước FFT khaithác sự dư thừa trên các sóng hình sin có tần số khác nhau để tính toán tất cả các hệ sốFourier bằng đệ quy Yêu cầu N là luỹ thừa bậc 2
2.2.4 Đặc trưng âm thanh trên miền tần số
Band Enery Ratio
So sánh mức năng lượng ở dải băng tần cao và thấp Ứng dụng: music/speech nation, music classification
discrimi-BERt =
PF −1 n=1mt(n)2
PN n=Fmt(n)2
PN n=1mt(n)
Trang 28Hình 2.11: Tín hiêu trên miền thời gian và sau khi thực hiện phép biến đổi Fourier củasóng tổng hơp hình sin của 2 tần số 1 Hz và 5 Hz; (a) Tín hiệu gốc; (b-d) Tín hiệu saukhi đã áp dụng window function có tâm tại lần lượt tại t = 3, 5, 7.
Band Width
Tính toán dựa trên tâm quang phổ, dùng để xác định vùng tần số xung quanh tâm haychính là phương sai Có liên quan đến việc cảm nhận âm sắc Băng thông tỷ lệ thuận vớimức độ phân bổ năng lượng trên các dải tần số Ứng dụng: music genre classification
BWt=
PN n=1mt(n).|n − SCt|
PN n=1mt(n)
2.2.5 Biểu diễn âm thanh trên miền thời gian - tần số
Short-Time Fourier Transform
Kết quả của phép biến đổi Fourier cho chúng ta biết thông tin về tần số trên toàn bộmiền thời gian, đồng nghĩa với việc thông tin về thời gian khi nào các tần số xảy ra đã
bị mất Để giải quyết vấn đề này, Dennis Gabor giới thiệu giải thuật Short-Time Fouriertransform (STFT) vào năm 1946 Theo đó, thay vì xem xét trên toàn bộ tín hiệu, ta chỉxem xét trên từng đoạn nhỏ (frame) bằng các áp một hàm cửa sổ (hình 2.11) trên tín hiệugốc để thu được windowed signal sau đó thực hiện phép biến đổi Fourier cho windowedsignal, tiếp tục dịch cửa sổ dọc theo trục thời gian và thực hiện lại các bước ở trên (hình2.11)
Cho tín hiệu x(n) có chiều dài N mẫu, STFT được định nghĩa như sau:
Trang 29Hình 2.12: Minh hoạ trực quan của quang phổ dưới dạng biểu đồ nhiệt, trục hoành biểudiễn thời gian, trục tung biểu diễn tần số, mỗi điểm (t, f ) trên đồ thị thể hiện mức độtồn tại của tần số f ở thời gian t trong tín hiệu gốc, màu càng sáng thể hiện sự đóng gópcàng nhiều.
trong đó - w(n) là hàm cửa sổ có độ dài W đúng bằng kích thước của frame, m ∈ Z,
k ∈ [0, K]; K = N/2 là chỉ số tương ứng với tần số Nyquist; X (m, k) là hệ số Fourier thứ
k của frame thứ m; H (hop size) là bước nhảy khi thực hiện phép dịch hàm cửa sổ
Ở đây, gọi S ∈ RB×M là một ma trận hai chiều biểu diễn bình phương độ lớn của X , hay
S còn được gọi là spectrogram (quang phổ) Cụ thể:
trong đó - B = W/2 + 1 là số lượng bin của tần số; M = (N − W )/H là số lượng frame.Mel-spectrogram
Như chúng ta đã biết, con người cảm nhận âm thanh theo hàm logarit Việc phát hiện
sự khác biệt ở tần số thấp tốt hơn tần số cao Ví dụ, chúng ta có thể dễ dàng nhận ra sựkhác biệt giữa 500 và 1000 Hz, nhưng chúng ta sẽ khó có thể phân biệt được giữa 10000
và 10500 Hz, mặc dù khoảng cách giữa hai ví dụ này là như nhau Việc này dẫn đến việc
sử dụng một đặc trưng âm thanh liên quan đến việc cảm nhận âm thanh của con người
Trang 30Hình 2.13: Đồ thị biểu diễn mối liên hệ giữa tần số và mel
Hình 2.14: Minh hoạ các bộ lọc dải mel (triangle filters)
Hình 2.15: Minh hoạ mel-spectrogram bằng biểu đồ nhiệt hai chiều
(a) Chọn số lượng (K) dải mel (mel bands)
(b) Tạo ra các bộ lọc dải mel A ∈ RK×B (mel filter bands), thường dùng ở đây làtriangle filters
(c) Áp bộ lọc dải mel vào spectrogram ta thu được mel-spectrogram Z = A.Y ∈
RK×F
Trang 31Hình 2.16: Minh hoạ quang phổ khi phát âm các nguyên âm.
Hình 2.17: Nguyên lý hình thành tín hiệu tiếng nói
Hình 2.18: Mối liên hệ giữa các thành phần tạo nên tiếng nói thông qua quang phổ
Mel-Frequency Cepstral Coefficients - MFCC
Cepstrum là kết quả của việc áp phép biến đổi Fourier ngược lên logarith của spectrumcủa một tín hiệu x(t) Hay ta có:
Giọng nói của chúng ta có tần số f0hay còn gọi là tần số cơ bản và các formant f1, f2, f3, Tần số cơ bản ở nam giới khoảng 125 Hz, ở nữ là 210 Hz, đặc trưng cho cao độ giọngnói ở từng người Thông tin về cao độ không giúp ích trong phân biệt hay âm thanh, màthông tin đặc trưng cho âm thanh chủ yếu tập trung ở các formant (hình 2.16)
Nguyên lý hình thành tiếng nói (hình 2.17): Không khí đi từ phổi (Gottal pusles), quakhí quản, lên vòm miệng Ở vòm miệng, các rung động trong không khí được tổng hợp
Trang 32Hình 2.19: Minh hoạ về cepstrum được biến đổi từ logarith của spectrum Qua quan sát,
ta có thể nhận thấy rằng thành phần f0 nằm tách biệt với thành phần formant của tínhiệu
Hình 2.20: Quy trình trích xuất đặc trưng MFCC
theo hướng cộng hưởng hoặc triệt tiêu (Vocal tract) và tạo thành âm thanh thoát ra khỏimiệng (Speech signal)
Gottal pusle tương ứng với thành phần tần số f0 chúng ta cần loại bỏ, thông tin cần giữlại là formant nằm trong spectral envelope (hình 2.18)
Qua quan sát cepstrum (hình 2.19), ta nhận thấy có hai phần thông tin nằm tách biệttương ứng f 0 (1st rhamonic) và formant của tín hiệu Ta chỉ đơn giản lấy thông tin trongđoạn đầu của cepstrum (formant) và loại bỏ đi f 0 Để tính MFCC, ta chỉ cần lấy 12 giátrị đầu tiên
Các bước để tính toán MFCC được mô tả như hình 2.20 Theo đó, mỗi frame ta tríchxuất được 12 Cepstral features làm 12 features đầu tiên cho MFCC, feature thứ 13 lànăng lượng của frame đó, tính theo công thức:
Et=X
t
13 hệ số tiếp theo chính là đạo hàm bậc 1 (theo thời gian) của 13 feature đầu tiên Tương
tự như vậy, 13 giá trị cuối của MFCC là đạo hàm của 13 giá trị trước đó (đạo hàm củađạo hàm) Các hệ số đạo hàm cho biết thông tin về ngữ cảnh, sự thay đổi trong âm thanhhoặc tốc độ nói, ví dụ tại những điểm mở đầu hoặc kết thúc ở nhiều phụ âm, sự thay đổinày rất rõ rệt, có thể nhận dạng các âm vị dựa vào sự thay đổi này Vậy tóm lại, MFCC
là một vector có chứa 39 hệ số mang thông tin đặc trưng cho âm thanh, đặc biệt là giọngnói, ứng dụng trong bài toán Nhận diện giọng nói,
Trang 33Chương 3
Tách nguồn âm thanh
Trong chương này, chúng tôi sẽ trình bày chi tiết về bài toán, tập dữ liệu, độ đo (metric),các phương pháp tiếp cận, khảo sát các công trình nghiên cứu liên quan, cùng các nhậnxét đánh giá về các phương pháp
3.1 Tổng quan
Tiếng nói là một trong những cách chính mà con người dùng để giao tiếp và chia sẻ thôngtin, ra đời trước cả chữ viết Mô hình speech chain (hình 3.2) mô tả cách con người giaotiếp là bao gồm hai quá trình: tạo tiếng nói (speech production) và nhận thức tiếng nói(speech perception ) [1] Tạo tiếng nói là một tập hợp các hoạt động cho phép một ngườinói chuyển đổi một ý nghĩ được thể hiện thông qua cấu trúc ngôn ngữ thành âm thanhdưới dạng sóng âm Trong khi đó, Nhận thức tiếng nói là quá trình xảy ra chủ yếu trong
hệ thống thính giác của người nghe, bao gồm giải mã ý nghĩa của sóng âm thanh đến từngười nói Một số yếu tố bên ngoài, chẳng hạn như tiếng ồn xung quanh, có thể có tácđộng đến lời nói Thông thường, những người nghe có thính giác bình thường có thể tậptrung vào một loại âm thanh mục tiêu, trong trường hợp này là tiếng nói mục tiêu, đồngthời lọc ra các âm thanh khác Vấn đề này được gọi biết đến là cocktail party effect[2] được Cherry lần đầu giới thiệu vào năm 1953, bởi vì nó giống với tình huống xảy ratrong một bữa tiệc cocktail
Hình 3.1: Đầu vào và đầu ra của bài toán Tách nguồn nhạc
Trang 34Hình 3.2: Mô hình speech chain hai quá trình nghe và nói của con người.
Nhìn chung, việc có tồn tại những âm thanh không mong muốn nhất là ở mức độ cao ítnhiều sẽ làm ảnh hưởng đến chất lượng giao tiếp giữa người nghe và người nói Tương tự,bài toán Nhận diện giọng nói (automatic speech recognition - ASR) điển hình cũng bị ảnhhưởng bởi nhiễu Chính vì vậy, có nhiều kỹ thuật xử lý tín hiệu số hoặc Học máy đượcphát triển (ví dụ: hearing aids and ASR front-end units) nhằm khôi phục giọng nói sạchhay tách tín hiệu giọng nói khỏi nhiễu môi trường (speech enhancement) Các hệ thốngnâng cao giọng nói thường được thiết kế để cải thiện hai khía cạnh tri giác: chất lượnggiọng nói (speech quality) - liên quan đến cách tín hiệu giọng nói phát ra và sự dễ hiểucủa giọng nói (speech intelligibility) - liên quan đến nội dung ngôn ngữ của tín hiệu giọngnói Ngoài ra, còn có nhiều hệ thống yêu cầu việc tách tín hiệu giọng nói từ nhiều người(nhiều người nói cùng lúc), đây được gọi là bài toán tách giọng nói (speech separation)hay tổng quát hơn là tách nguồn âm thanh (audio source separation) [3]
Về mặt toán học, bài toán tách nguồn âm thanh được đặc tả như sau: với C nguồn tínhiệu đầu vào sj ∈ RT, j = 1 C, ta có âm thanh tổng hợp x = PC
j=1cj.sj Nhiệm vụcủa bài toán là đi ước tính C tín hiệu đầu ra ˆsj ∈ RT, j = 1 C từ tín hiệu tổng hợp xsao cho tín hiệu gốc sj và tín hiệu ước tính ˆsj phải giống nhau (được đánh giá bằng cáctiêu chí sẽ được trình bày sau) Một cách tổng quát hơn, x =PC
j=1αj.sj∗ hj + n, với hj
là Acoustic Transfer Function (ATF) của nguồn j tới đầu thu âm (microphone) và n lànhiễu (non-stationary additive noise) [4] Đối với hướng tiếp cận học có giám sát, ta sẽ
có tập dữ liệu huấn luyện: S = {xi, (si,1, si,C)}n
i=1 Dữ liệu đầu ra C nguồn âm thanhˆ
s = (ˆs1, , ˆsC) được ước tính sao cho cực đại hoá hàm mục tiêu
3.1.1 Tập dữ liệu
MusDB18
Là tập dữ liệu về âm nhạc, gồm 150 bài hát (100 bài cho tập train và 50 bài cho tập test)với nhiều thể loại, khoảng 10 tiếng, trong đó có 4 nguồn âm thanh (stems): drum, bass,vocals, others (hình 3.1) Tất cả các bài hát đều là âm thanh stereo (2 channels) và có tỷ
lệ lấy mẫu là 44.1 kHz Có hai phiên bản MusDB18 và MusDB18-HQ Với MusDB18-HQ
là bản không nén (uncompressed WAV files) của MusDB18, nhằm mục đích cho việc môhình các phương pháp dự đoán trên miền tần số cao (high bandwidth) lên tới 22 kHz [5]
Trang 35Là các tập dữ liệu dùng cho bài toán tách nguồn của tiếng nói, chúng được xây dựng dựatrên tập dữ liệu gốc WSJ0 [6] WSJ0 là tập các bài phát biểu văn bản tin tức trên tạpchí Wall Street Journal [7] tạo ra WSJ0-2mix và WSJ0-3mix lần lượt cho 2 và 3 người.Sau đó, [8] giới thiệu WSJ0-4mix cho 4 người và WSJ0-5mix cho 5 người Cả 4 tập dữliệu này đều sử dụng 30 giờ âm thanh trong tập huấn luyện si_tr_s cộng với mức độnhiễu ngẫu nhiên SNR từ 0 − 5 dB Tập test được tạo từ si_et_s và si_dt_s với 16người không nằm trong tập huấn luyện
WHAM! và WHAMR!
Là 2 tập dữ liệu cho bài toán phân tách giọng nói trong môi trường có tiếng ồn và tiếngvang Trong đó, WSJ0 Hipster Ambient Mixtures (WHAM!) là tập dữ liệu phát triển từWSJ0-2mix có tiếng ồn môi trường WHAMR! là tập mở rộng của WHAM! có thêm phầnphần giả lập tiếng vang sinh ra bằng pyroomacoustics [9], [10]
3.1.2 Chuẩn đo
Đo lường kết quả của phương pháp tách nguồn là một vấn đề đầy thách thức Nhìn chung,
có hai cách chính để đánh giá kết quả đầu ra của phương pháp tách nguồn: khách quan(objective) và chủ quan (subjective) Đo lường khách quan là việc so sánh các tín hiệuđầu ra với các tín hiệu groudtruth bằng một chuẩn đo đánh giá nhất định Đo lường chủquan liên quan đến việc yêu cầu người đánh giá chấm điểm cho đầu ra của hệ thống phântách nguồn
Việc đo lường khách quan và chủ quan đều ưu nhược điểm Đo lường khách quan gặp khókhăn vì có nhiều khía cạnh trong liên quan nhận thức của con người cực kỳ khó nắm bắtchỉ hoặc biểu diễn bằng công thức toán Tuy nhiên, cách này có ưu điểm là nhanh và íttốn chi phí hơn Mặt khác, việc đo lường chủ quan tốn kém hơn và phụ thuộc nhiều vàongười đánh, nhưng nếu được người tham gia đánh giá nghiêm túc chúng có thể đáng tincậy hơn
Các chiến dịch đánh giá như MIREX, CHiME [11] hoặc ra đời giúp cho việc đánh giá,tổng hợp các mô hình hiện đại dựa trên các tập dữ liệu và các chuẩn đo được định nghĩatrước Từ đó, có thể giúp các nhà nghiên cứu nắm bắt và tiếp cận các phương pháp haynhất Đặc biệt, SiSEC 2018 [12] tập trung vào việc đánh giá các hệ thống phân tách nguồnnhạc, đồng thời cho phát hành tập dữ liệu cộng đồng MusDB18 [5], là tập dữ liệu chuẩnđược sử dụng bởi nhiều phương pháp hiện đại tính tới thời điểm này
Đánh giá khách quan
Source-to-Distortion Ratio (SDR), Source-to-Interference Ratio (SIR), và Source-to-ArtifactRatio (SAR) là những chuẩn đo phổ biến cho việc đánh giá các hệ thống phân tách âmthanh Giả sử tín hiệu ước tính ˆsi được tách ra thành 4 thành phần:
ˆ
si = starget + einterf + enoise+ eartif (3.1.1)trong đó - si là groundtruth, starget = f (si) là phiên bản của si sau khi biến đổi bởi hàmdisortation f ; einterf, enoise và eartif lần lượt thành phần lỗi cho interference, additivenoise, algorithmic artifact Bốn số hạng này biểu diễn mức độ nguồn mong muốn si được
Trang 36biểu diễn trong ˆsj, từ những nguồn không mong muốn sj, j ̸= i, từ nhiễu của sensor và
từ những nguyên nhân khác (burbling artifacts)
[13] đề xuất phân tách số hạng ˆsi dựa vào phép chiếu trực giao Gọi Π{y1, y2, yk} là phépchiếu trực giao lên không giao con sinh bởi {y1, y2, , yk} Ma trận chiếu có kích thước
T × T , với T là chiều dài của vector yi Xem xét 3 phép chiếu:
• Việc tính toán Ps,n cũng tương tự, với giả sử rằng nhiễu tín hiệu vuông trực giao lẫnnhau và trực giao với mỗi nguồn, khi đó: Ps,n ≈ Pssˆi+Pm
j=1⟨ˆsi, nj⟩ nj
∥n j ∥ 2
Sử dụng 4 số hạng này, chúng ta có thể xác định các độ đo Tất cả các phép đo đều tínhbằng đơn vị decibel (dB), với giá trị càng cao thì càng tốt Để tính toán, chúng ta cầngroundtruth của tín hiệu trên các nguồn tách biệt và việc tính toán dựa các đoạn tín hiệungắn tầm vài giây, sau đó tính trung bình cho toàn bộ đoạn tín hiệu
Trang 37vào tỷ lệ biên độ của tín hiệu.
uSDR(s, ˆs) = 10 log10
n(sl(n))2 +P
n(sr(n))2P
3.1.3 Multi-channel Wiener Filter
MWF là một giải thuật phổ biến được áp dụng trong các bài toán liên quan đến táchnguồn âm thanh trên miền tần số Bộ lọc này có thể được đặc tả bằng toán học như sau:Nhắc lại định nghĩa về bài toán tách nguồn âm thanh, với tín hiệu âm thanh tổng hợpx(t):
1 https://en.wikipedia.org/wiki/MUSHRA
Trang 38Gọi x(f, n) ∈ CI×1 và cj(f, n) ∈ CI×1 lần lượt là hệ số của phép biến đổi STFT của x(t)
và cj(t), với f, n là lượt là chỉ số bin của tần số và khung thời gian Ngoài ra, F là sốlượng frequency bins và N là số lượng time frames
Chúng ta có giả sử rằng cj(f, n) độc lập với nhau và tuân theo phân phối Gaussian đabiến giá trị phức có trung bình bằng 0 (multivariate complex-valued zero-mean Gaussiandistribution):
cj(f, n) ∼ Nc(0, vj(f, n)Rj(f )) (3.1.11)
ở đây vj(f, n) ∈ R+ là mật độ phổ công suất (Power Spectral Density - PSD) của nguồn
j ứng với tần số f và khung thời gian n; Rj(f ) ∈ CI×I là ma trận hiệp phương sai khônggian (Spatial Covariance Matrix - SCM) của nguồn j ứng với tần số f Ma trận I × I biểudiễn thông tin về không gian bằng cách mã hoá vị trí và chiều rộng trong không gian củanguồn tương ứng Bởi vì phổ tổng hợp x(f, n) là tổng của các phổ thành phần cj(f, n),nên nó được phân phối dưới dạng:
Về cơ bản, giải thuật EM có thể chia thành 2 bước: bước E và bước M Các giá trị vj(f, n)được khởi tạo ở bước spectrogram initialization hay nói cách khác giá trị này là kết quảđầu ra của mô hình mà chúng ta xây dựng Trong khi đó, Rj(f ) được khởi tạo bằng matrận đơn vị có kích thước I × I
Ở bước E, ứng với các giá trị vj(f, n) và Rj(f ) đã được khởi tạo, ˆcj(f, n) có thể tínhthông qua phương trình 3.1.13 và second-order raw moments of the spatial source imagesˆ
Rcj(f, n) được tính bằng công thức:
ˆ
Rcj(f, n) = ˆcj(f, n)ˆcHj (f, n) + (I − Wj(f, n)vj(f, n)Rj(f ) (3.1.15)trong đó I là ma trận đơn vị có kích thước I × I và H phép chuyển vị Hermitian
Ở bước M, SCM Rj(f ) được cập nhật như sau: