Nâng ao hất lượng tiếng nói sử dụng phương pháp táh nguồn mù ứng dụng ho hệ thống nhận dạng tiếng nói

Trang 1 CHU MINH HUẤNBỘ GIÁO DỤC VÀ ĐÀO TẠOTRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI--- Học viên: Chu Minh HuấnĐO LƯỜNG VÀ CÁC HỆ THỐNGĐIỀU KHIỂN Trang 2 BỘ GIÁO DỤC VÀ ĐÀO TẠOTRƯỜNG ĐẠI HỌC BÁCH

Trang 2

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI

- Học viên: Chu Minh Huấn

ĐỀ TÀI : NÂNG CAO CHẤT LƯỢNG TIẾNG NÓI SỬ DỤNG PHƯƠNG PHÁP TÁCH NGUỒN MÙ – ỨNG DỤNG CHO HỆ THỐNG NHẬN

ĐO LƯỜNG VÀ CÁC HỆ THỐNG ĐIỀU KHIỂN

NGƯỜI HƯỚNG DẪN KHOA HỌC : PGS.TS NGUYỄN QUỐC CƯỜNG

Hà Nội – Năm 2014

Trang 3

MỤC LỤC

Trang Trang phụ bìa

1.1 Giới thiệu bài toán nâng cao chất lượng tiếng nói 3

1.1.2 Các phương pháp nâng cao chất lượng tiếng nói 4 1.1.2.1 Kỹ thuật nâng cao chất lượng trong trường hợp đơn kênh 4 1.1.2.2 Kỹ thuật nâng cao chất lượng trong trường hợp đa kênh 5 1.1.3 Phương pháp phân tách tiếng nói trong nâng cao chất lượng tiếng nói 7 1.2 Phương pháp tách nguồn mù ứng dụng trong nâng cao chất lượng tiếng

nói

7

1.2.2 Các hướng tiếp cận của phương pháp tách nguồn mù 9 1.2.2.1 Phương pháp phân tích thành phần độc lập (Independent

Component Analysis – ICA)

9

1.2.2.2 Phương pháp ước lượng nguồn đầu vào có tính đến suy hao

(Degenerate Unmixing Estimation Technique – DUET)

Trang 4

2.2.1 Các nguồn âm thanh không vọng 15 2.2.2 Các nguồn có tính trực giao rời rạc 16 2.2.3 Các nguồn tín hiệu có tính ổn định cục bộ 17

2.2.5 Các nguồn phân biệt với nhau trong không gian 18 2.3 Kỹ thuật ước lượng nguồn đầu vào có tính đến suy hao - DUET 18

2.4.2 Phương pháp xấp xỉ các nguồn trực giao rời rạc 24

CHƯƠNG 3 – TRIỂN KHAI THUẬT TOÁN DUET NÂNG CAO CHẤT

LƯỢNG TIẾNG NÓI

27

3.1 Bài toán với N nguồn tín hiệu (N ≥ )đầu vào2 27

3.3.1.1 Thử nghiệm DUET với số lượng đầu vào thay đổi 33

3.3.1.2 Thử nghiệm DUET với các nguồn biên độ khác nhau 46 3.3.1.3 Thử nghiệm DUET với các nguồn độ trễ lớn 48

Trang 5

4.1 Tổng quan về nhận dạng tiếng nói 52 4.1.1 Các hướng tiếp cận nhận trong nhận dạng tiếng nói 53 4.1.2 Các phương pháp trích chọn tham số đặc trưng của tiếng nói 54 4.1.2.1 Phân tích cepstral theo thang đo mel 54 4.1.2.2 Phương pháp mã dự đoán tuyến tính LPC (Linear Predictive

4.2.1 Mô hình Markov ẩn (Hidden Markov Model – HMM) 57

4.2.1.3 Ba bài toán cơ bản của của mô hình Markov ẩn 58 4.2.2 Mô hình mạng neural nhân tạo (Artiﬁcial Neural Networks – ANN) 59 4.2.2.1 Cấu trúc của mạng neural nhân tạo 60 4.3 Ứng dụng kỹ thuật DUET trong hệ thống nhận dạng tiếng nói 62

Trang 6

Luận văn bảo vệ trước hội đồng ngày 23 tháng 04 năm 2014, đã được chỉnh sửa

bổ sung theo yêu cầu của hội đồng.

Người hướng dẫn khoa học

PGS.TS Nguyễn Quốc Cường

Chủ tịch hội đồng

TS Trần Đỗ Đạt

Trang 7

MỞ ĐẦU

Cơ sở lựa chọn đề tài

Trong suốt hơn nửa thể kỷ vừa qua lĩnh vực về nghiên cứu xử lý tiếng nói, không ngừng đạt được rất nhiều thành tựu và chứng kiến những giai đoạn phát triển mạnh mẽ Cho tới ngày nay, với sự phát triển không ngừng của kỹ thuật cũng như công nghệ chế tạo thiết bị tự động, các ứng dụng của xử lý tiếng nói đang dần mở rộng phạm vi ra nhiều lĩnh vực trong cuộc sống Cùng với đó cũng đặt ra nhiều bài toán hơn cho vấn đề xử lý tiếng nói, đặc biệt là các vấn đề về nâng cao chất lượng

tiếng nói Các vấn đề tiền xử lý để thu được đúng tiếng nói cần quan tâm và ở một chất lượng cho phép có thể đưa vào xử lý (nhận dạng, điều khiển, ).Và một trong vấn đề khá được quan tâm trong những năm gần đây, là bài toán “Cocktail party” Bài toán đặt ra yêu cầu: làm sao để tách riêng biệt các tiếng nói từ những nguồn hỗn hợp tiếng nói của nhiều người Trong lĩnh vực nâng cao chất lượng tiếng? nói, thì đây là một vấn đề không hề dễ dàng

Và một trong những phương pháp được đề xuất và tỏ ra rất hiệu quả cho bài toán này là phương pháp tách nguồn mù Phương pháp này đang được áp dụngtrong rất nhiều lĩnh vực xử lý tín hiệu khác nhau như y sinh, xử lý âm thanh, hình ảnh, nhận dạng.v.v “Tách nguồn mù” đang thu hút được rất nhiều nghiên cứu với khá nhiều thành tựu về các kỹ thuật và thuật toán Điều này cho thấy tách nguồn mù

là một phương pháp rất hiệu quả và có khả năng ứng dụng rộng rãi

Có thể nói, tập trung vào các bài toán nhằm mô phỏng lại được những khả năng của con người bằng các thuật toán, và tích hợp cho các thiết bị điện tử, dường như đang là một xu thế cho những hướng nghiên cứu ngày nay Là một người rất quan tâm tới lĩnh vực xử lý và nhận dạng âm thanh hình ảnh, – em mạnh dạn chọn hướng nghiên cứu “Sử dụng phương pháp tách nguồn mù cho nâng cao chất lượng tiếng nói”, với đề tài nghiên cứu:

“Nâng cao chất lượng tiếng nói sử dụng phương pháp tách nguồn mù – Ứng dụng cho hệ thống nhận dạng tiếng nói”

Trang 8

Mục đích nghiên cứu của luận văn:

- Tìm hiểu các kỹ thuật nâng cao chất lượng tiếng nói và phương pháp tách nguồn mù

- Tìm hiểu ứng dụng của tách nguồn mù trong nâng cao chất lượng tiếng nói

- Tìm hiểu ứng dụng của tách nguồn mù cho hệ thống nhận dạng tiếng nói

Đối tượng và phạm vi nghiên cứu:

- Các kỹ thuật nâng cao chất lượng tiếng nói

- Phương pháp tách nguồn mù

- Sử dụng các kỹ thuật của phương pháp tách nguồn mù nâng cao chất lượng tiếng nói

- Ứng dụng phương pháp tách nguồn mù nâng cao chất lượng tiếng nói cho

hệ thống nhận dạng tiếng nói Tuy nhiên do giới hạn về thời gian, nên luận văn chưa triển khai được ứng dụng

Phương pháp nghiên cứu:

- Nghiên cứu các cơ sở lý thuyết về nâng cao chất lượng tiếng nói

- Nghiên cứu các cơ sở lý thuyết về phương pháp tách nguồn mù và sửdụng vào nâng cao chất lượng tiếng nói

- Nghiên cứu ứng dụng kỹ thuật tách nguồn mù cho hệ thống nhận dạng tiếng nói

- Triển khai thực tế kỹ thuật tách nguồn mù nâng cao chất lượng tiếng nói

và đánh giá kết quả

Nội dung chính của luận văn:

o Chương 1 Bài toán nâng cao chất lượng tiếng nói Phương pháp – tách nguồn mù

o Chương 2 Kỹ thuật tách nguồn mù với thuật toán DUET

o Chương 3 Triển khai thuật toán DUET nâng cao chất lượng tiếng nói

o Chương 4 Ứng dụng thuật toán DUET trong hệ thống nhận dạng

Trang 9

CHƯƠNG1 BÀI TOÁN NÂNG CAO CHẤT LƯỢNG TIẾNG NÓI –

PHƯƠNG PHÁP TÁCH NGUỒN MÙ

Giới thiệu chương

Ngày nay, với sự phát triển của khoa học công nghệ các máy móc thiết bị ngày càng trở lên thông minh và có giao diện thân thiện hơn với con người Những năng lực của con người đang đươc sao chép dần cho các thiết bị máy móc Và một trong những hướng đi là nhận dạng âm thanh Đây là một hướng đi đem lại lợi ích ở rất nhiều mặt cho nhân loại, ở cả phương diện nghiên cứu khoa học, trong công nghiệp, y tế cũng như đời sống v.v… Tuy vậy, khả năng nghe, vả xử lý âm thanh của con người vô cùng tinh vi và phức tạp, không dễ gì tái hiện lại và sao chép cho các thiết bị điện tử Và một trong những thách thức trong quá trình xây dựng hệ thống nhận dạng tiếng nói là bài toán về xử lý nâng cao chất lượng tiếng nói Đây cũng là một vấn đề nhận được sự lưu tâm đặc biệt và khá phát triển trong những năm gần đây Trong nội dung của chương này, luận văn sẽ đề cập tới:

- Bài toán nâng cao chất lượng tiếng nói và một số phương pháp phổ biến trong nâng cao chất lượng tiếng nói

- Ứng dụng của phương pháp tách nguồn mù trong nâng cao chất lượng tiếng nói

1.1 Giới thiệu bài toán nâng cao chất lượng tiếng nói

Phương pháp nhận dạng thông qua tiếng nói đang trở lên phổ biến ở rất nhiều lĩnh vực, đặc biệt là với các ứng dụng về an ninh, bảo mât Các ứng dụng này thường được phát triển với rất nhiều các điều kiện lý tưởng, hoặc phải rất nghiêm ngặt như trong các phòng nghiên cứu Tuy nhiên, trong hiện thực thì chất lượng tiếng nói thu được thường sai khác rất nhiều so với lý thuyết Và do đó, tín hiệu tiếng nói đầu vào cần được xử lý trước khi đưa vào nhận dạng

Trang 10

1.1.1 Nâng cao chất lượng tiếng nói

Trong thực tế, có rất nhiều nguyên nhân gây ra sự sai khác về tín hiệu đầu vào so với tín hiệu gốc Và ta thường thấy có một số các yếu tố như sau:

Nhiễu cộng hưởng: Thường xuất hiện khi thu âm tiếng nói trong một môi

trường có nhiễu nền đáng kể, ví dụ như ở sân bay

Tiếng vọng của âm thanh: Gây ra bởi quá trình thu xuất hiện sự dội lại của

tín hiệu âm thanh

Hiệu ứng chập kênh: Thường gây ra do vấn đề kênh thu âm, khi không có

sự chuẩn hóa tốt dẫn tới không triệt tiêu được các xung đáp ứng

Tạp âm: Thường xuất hiện khi thu âm trong một môi trường có quá nhiều

âm thanh phức tạp

Méo phi tuyến, nhiễu cộng hưởng điện từ băng tần rộng v.v

Do đó, bài toán nâng cao chất lượng tiếng nói thường nhắm tới việc bù nhiễu hoặc bù kênh gây ra do các yếu tố bất lợi trên Và nhìn chung “chất lượng” được đề cập ở đây, tối thiểu cũng phải đáp ứng được các yếu tố như rõ ràng, dễ nhận biết, dễ nghe hoặc là phù hợp với phương pháp xử lý phía sau phần nâng cao chất lương Tuy nhiên trong nội dung của luận văn sẽ chỉ quan tâm tới ứng dụng nâng cao chất lượng tiếng nói trong hệ thống nhận dạng, và do đó, luận văn sẽ chỉ xem xét trong 2

trường hợp nhỏ: Đơn kênh/ Đa kênh [12] và phương pháp phân tách tiếng nói

1.1.2 Các phương pháp nâng cao chất lượng tiếng nói

1.1.2.1 Kỹ thuật nâng cao chất lượng trong trường hợp đơn kênh [12]

Đây là trường hợp trong đó chỉ tồn tại duy nhất một kênh tín hiệu, hay nói cách khác là chỉ có một đầu vào và một nguồn tín hiệu Thường gặp trong mộ số hệ t thống thông dụng như tín hiệu điện thoại bàn hay bộ đàm, hay trong lưu trữ tín hiệu như máy thu âm Trong trường hợp này thường giả thiết nhiễu là cố định và mức độ thay đổi của tiếng nói là biết được Với trường hợp này người ta thường hay dùng phương pháp trừ phổ (Spectral Subtraction - SS).Tinh thần chung của phương pháp được mô tả như trong hình 1-1 và trình bày chi tiết trong [32]

Trang 11

Hình 1-1 Sơ đồ khối minh họa phương pháp trừ phổ.

Spectral – subtraction là thuật toán được đề xuất sớm nhất trong các thuật toán được sử dụng để giảm nhiễu trong tín hiệu Nó dựa trên một nguyên tắc cơ bản, thừa nhận sự có mặt của nhiễu, nó có thể đạt được mục đích ước lượng phổ của tiếng nói sạch bằng cách trừ đi phổ của nhiễu với phổ của tiếng nói đã bị nhiễu Phổ của nhiễu có thể được ước lượng, cập nhật trong nhiều chu kỳ khi không có mặt của tín hiệu tiếng nói Thao tác đó chỉ được thực hiện đối với nhiễu không đổi hoặc có tốc độ xử lý biến đổi chậm, và khi đó phổ của nhiễu sẽ không thay đổi đáng kể giữa các khoảng thời gian cập nhật Tín hiệu tiếng nói sạch được khôi phục bằng cách tính IDFT của tín hiệu phổ đã được trừ nhiễu Thuật toán này là một phép tính ước lượng đơn giản vì nó chỉ gồm biến đổi DFT thuận và DFT ngược

Áp dụng kỹ thuật này, mặc dù quá trình xử lý hiệu đơn giản, nhưng nếu trong quá trình xử lý không được thực hiện một cách cẩn thận thì sẽ làm tiếng nói rất dễ bị méo Nếu như lấy hiệu số quá lớn thì có thể bị mất đi một phần thông tin của tiếng nói, còn nếu quá nhỏ thì sẽ vẫn còn nhiễu lẫn trong tín hiệu tiếng nói Để khắc phục vấn đề này, người ta để xuất rất nhiều phương pháp để giảm méo trong quá trình xử lý tiếng nói bằng trừ phổ Một số phương pháp tỏ ra khá hiệu quả trong nhiều trường hợp

1.1.2.2 Kỹ thuật nâng cao chất lượng trong trường hợp đa kênh [12]

Kỹ thuật nâng cao chất lượng tiếng nói đa kênh tận dụng lợi thế sẵn có của đầu vào nhiều tín hiệu trong hệ thống Nó cho phép dùng thêm một kênh thu thập nhiễu trong một thiết bị loại trừ nhiễu thích nghi, hay dùng quá trình hiệu chỉnh pha

để loại bỏ các thành phần nhiễu không mong muốn, hoặc thậm chí tổ hợp cả hai quá trình trên vào một hệ thống [11] Theo ý tưởng như vậy, có hai hệ thống khác nhau,

Trang 12

hệ thống thứ nhất dựa trên quá trình loại trừ nhiễu thích nghi và hệ thông thứ hai là dựa vào kỹ thuật định vị theo chùm (beamforming) tiếng nói thông qua quá trình xử

lý theo mảng

Kỹ thuật loại trừ nhiễu thích nghi: loại trừ nhiễu thích nghi là một kỹ thuậtkhá hiệu quả cho nâng cao tiếng nói [6], với sự xuất hiện của một kênh phụ trợ đi , cùng với kênh chính thu thập dữ liệu tiếng nói Nó giống như một kênh tham chiếu,

có nhiệm vụ lấy mẫu t ng quan hoặc tham chiếu tới nhiễu đang gây ra với tín hiệu ươcần quan tâm Đầu vào tham chiếu này sẽ được lọc theo một thuật toán thích nghi Sau đó, ta thực hiện loại trừ nhiễu bằng cách, trừ tín hiệu ở kênh chính (gồm cả tín hiệu cần quan tâm và nhiễu ) cho tín hiệu đầu từ thuật toán thích nghi vừa rồi Nhìn chung, mô hình của phương pháp có thể được minh họa như trong hình 1-2

Hình 1-2 Một mô hình của thiết bị loại trừ nhiễu thích nghi [38]

Kỹ thuật Beamforming nhiều đầu thu: Phương pháp này xuất phát từ các ứng dụng radar và phát hiện tàu ngầm, và có thể được thực hiện theo nhiều cách khác nhau Và một hướng tiếp cận trực tiếp nhất là delay-and-sum Beamforming Ý

tưởng cơ bản của hệ thống này là dựa trên giả định rằng thành phần dội hay phản xạ ngược lại chiếm một phần nhỏ, và hướng truyền của những tín hiệu cần quan tâm là

đã xác định Sau đó, thông qua một quá trình tinh chỉnh chính xác của các chức năng về pha trong mỗi đầu thu để hiệu chỉnh thời gian trễ lan truyền của tín hiệu , quan tâm đến các đầu thu, tín hiệu mong muốn có thể được tăng cường, đồng thời loại bỏ tất cả các thành phần nhiễu không được tinh chỉnh pha Thuật toán của phương pháp có thể được minh họa như trong hình 1-3

Trang 13

Hình 1-3 Kỹ thuật delay-and-sum [40].

1.1.3 Phương pháp phân tách tiếng nói trong nâng cao chất lượng tiếng nói

Với các kỹ thuật rất nhiều các kỹ thuật về lọc nhiễu hay loại tiếng vọng, thì phần lớn các vấn đề về nhiễu đã được loại trừ một cách rất hiệu quả, tuy nhiên, điều

gì xảy ra khi “nhiễu” cũng là tiếng nói, hay nói cách khác là “ tín hiệu nhiễu ” có có cùng mọi đặc tính của tiếng nói? Rõ ràng, trong rất nhiều trường hợp, ta chỉ quan tâm tới một tiếng nói trong rất nhiều tiếng nói thu được, ví dụ như trong các đám đông, phòng họp… Bài toán được đặt ra là làm thế nào để có thể tách ra được tiếng nói cần quan tâm Đây cũng là yêu cầu của bài toán “cocktail-party” Và khi nhắc đến bài toán này, thường sẽ đi kèm với một lĩnh vực mà hiện nay, đang rất thu hút,

và có rất nhiều các bước tiến đáng kể cũng như các ứng dụng rộng rãi lĩnh vực – tách nguồn mù Blind Sources Separation Trong những phần kế tiếp, luận văn sẽ – trình bày một cách kỹ lưỡng hơn phương pháp này

1.2 Phương pháp tách nguồn mù ứng dụng trong nâng cao chất lượng tiếngnói

Tai ta thường đồng thời tiếp nhận nhiều nguồn âm thanh (tiếng nói, âm nhạc, nhiễu tiếng ồn…) khác nhau, nhưng ta vẫn có thể lắng nghe nguồn âm thanh chủ – định Một hệ thống nhận dạng cần đạt đến khả năng thông minh như vậy Bài toán

là từ nhiều tín hiệu đã trộn lẫn, ta muốn khôi phục các tín hiệu nguồn riêng rẽ Đây

là bài toán tách nguồn mù (Blind Source Separation – BSS) [36]

Trang 14

1.2.1 Giới thiệu chung

Bài toán phân tách nguồn mù BSS (Blind Source Separation) đang được quan tâm nghiên cứu và ứng dụng trong nhiều lĩnh vực xử lý tín hiệu khác nhau: tách âm, nhận dạng, tín hiệu y sinh…Bài toán BSS cho phép ước lượng lại các nguồn tín hiệu nguồn nguyên bản mà chỉ dựa vào những dữ liệu hỗ hợp thu được n tại các cảm biến khảo sát và đặc trưng của kênh truyền cũng như các tín hiệu nguồn gần như không biết Ta có thể quan sát hình 1-4 để mường tượng rõ hơn về bài toán này

Hình 1-4 Minh họa cho bài toán phân tách nguồn mù [36]

Tổng quát bài toán phân tách nguồn mù BSS được phát biểu như sau: cho –

M hỗn hợp lai trộn tuyến tính từ N nguồn tạo qua ma trận lai trộn M x N không biết trước A Bài toán phân tách nguồn mù BSS yêu cầu phân tích cấu trúc dữ liệu khảo sát và tách các nguồn gốc từ hỗ hợp lai trộn này Khi M ≥ , có thể thực hiện bằng Ncách xây dựng ma trận giải lai trộn W , với W = A− 1 Để đảm bảo phân tách được, các điều kiện cần tuân theo định lý Darmois [36]: các nguồn là phi Gauss và độc lập thống kê Số chiều của quá trình lai trộn ảnh hưởng đến tính phức tạp của bài toán Nếu M = N, ma trận lai trộn A được xem là xác định chẵn (Even-determined) hay xác định (Determined), các tín hiệu nguồn được phân tách qua biến đổi tuyến tính

Trang 15

lượng các nguồn qua tối ưu bình phương tối thiểu hoặc biến đổi tuyến tính giả nghịch đảo ma trận nếu M <Nquá trình lai trộn được xem như dưới xác định

(Under-determined) và hệ quả là khôi phục các tín hiệu gốc phức tạp hơn và luôn được thực hiện qua kỹ thuật phi tuyến

Những giả thiết về môi trường xung quanh các cảm biến khảo sát cũng đồng thời ảnh hưởng đến tính phức tạp của bài toán Phân tách mù tín hiệu âm thường được liên hệ đến ví dụ bài toán Cocktail Party, tức là phân tách các tiếng độc lập từ

vô vàn tiếng nói trong môi trường âm không kiểm soát được Các cảm biến khảo sát còn bị lẫn lộn với nhau bởi các rung động tín hiệu, dẫn đến ước lượng ma trận giải lai trộn cần nhận biết nguồn đến từ nhiều hướng khác nhau tại nhiều thời điểm khác nhau của cùng một nguồn phát Tổng quát, bài toán phân tách nguồn mù xuất phát

từ thực tế rất phức tạp và khó khăn, do đó yêu cầu giới hạn các giả thiết thực tế nhằm giúp bài toán có thể xử lý được Có ba dạng giả thiết cơ bản về môi trường [36] Cơ bản nhất là trường hợp lai trộn tức thời (Instantaneous), trong đó các tín hiệu đến các cảm biến tức thời, chỉ sai khác biên độ Mở rộng giả thiết này là xem xét có trễ giữa các cảm biến được biết là trường hợp lai trộn có trễ (Anechoic) Tiếp tục mở rộng bằng cách xem có sự phản xạ nhiều đường tín hiệu giữa mỗi nguồn phát và mỗi cảm biến cho trường hợp lai trộn có dội (Echoic), đôi khi còn được xem

là lai trộn có chập Mỗi trường hợp có thể mở rộng, kết hợp tuyến tính với nhiễu cộng, mà thường giả sử là nhiễu trắng, Gauss

1.2.2 Các hướng tiếp cận của phương pháp tách nguồn mù

Trong mục này ta sẽ tham khảo qua hai phương pháp khá được chú ý hiện nay [25], đó là phương pháp phân tích thành phần độc lập và phương pháp ước lượng nguồn đầu vào có tính đến suy hao

1.2.2.1 Phương pháp phân tích thành phần độc lập (Independent Component

Analysis – ICA)

Khi có nhiều tín hiệu ở các khoảng tần số khác nhau được trộn (tổng hợp) lại, ta có thể lọc ra từng tín hiệu riêng biệt như lúc ban đầu Còn nếu các tín hiệu nằm trong cùng khoảng tần số (ví dụ nhiều n ười cùng nói, tiếng hát trên nền nhạc, g

Trang 16

nhiều bản nhạc cùng chơi…), ta không thể dùng ph ng pháp lọc hay phân tích phổ ươthông thường Lúc bấy giờ phải dựa vào các ph ng pháp thống kê trong đó có ươ

phương pháp phân tích thành phần độc lập (Independent Component Analysis – ICA) ICA có nhiều ứng dụng, riêng trong lĩnh vực về âm thanh (tiếng nói và âm nhạc), cũng có rất nhiều những ứng dụng [24] [4] Trong [35], chỉ xét tới ứng dụng của ICA vào phân tách tiếng nói

Ta xem xét mô hình ICA, giả sử như có hai nguồn tiếng nói đầu vào và đư ợc thu bởi hai micro như trong hình 1-5:

Trong đó, a , với ,ij i j =1, 2,là các hệ số trộn phụ thuộc vào nhiều yếu tố như

hướng đặt micro, khoảng cách, phản âm của phòng … Trong mô hình ICA các tín hiệu ( )x t ) và các tín hiệu nguồn ( )i s t i được xem như là các biến ngẫu nhiên, thay

vì là các tín hiệu thời gian thực sự, nên trong cách viết chỉ số thời gian được bỏ đit

Hình 1-5 Mô hình ICA hai tín hiệu nguồn hai tín hiệu trộn [35]

Hai tín hiệu nguồn (không quan sát trực tiếp được tức các tín hiệu ẩn) là

1( )

s t ,s t ; hai2( ) tín hiệu trộn (quan sát được) là x t ,1( ) x t Trong thực tế, sẽ không 2( )phải chỉ giới hạn ở hai nguồn đầu vào, nếu xét với mô hình gồm có n nguồn tiếng nói đầu vào, và các đầu thu được biểu diễn bởi một ma trận trộn, ta có một mô hình như trong hình 1-6:

Trang 17

Hình 1-6 Trộn âm [35]

Trong đó s1,…,sn là các nguồn âm thực ngiệm được thu trước vào máy tính

Ma trận trộn A được giả lập trên máy tính để thực hiện trộn các nguồn âm, tạo ra các hỗn hợp x1, x2…xn Để ý là số lượng tín hiệu nguồn và số lượng tín hiệu trộn bằng nhau để ma trận A là ma trận vuông Giả sử này làm việc phân tích thuận lợi

h n ơ Hình 1-7 inh họa hệ thống tách âm [24] [4] Tín hiệu âm gốc sau khi được mtrộn lẫn tạo ra các tín hiệu trộn sẽ đư đến bộ ICA Bộ phân tích này thực hiện tách a

âm bằng giải thuật ước lượng ma trận giải W thông qua cực đại tính phi Gauss với hàm đối tượng negentropy J Kết quả ngõ ra bộ phân tích ICA là các âm độc lập ước lượng được của nguồn âm gốc Nếu W là ma trận nghịch đảo của A (W = A− 1) thì

sự ước lượng là đúng

Hình 1-7 Tách âm [35]

Phương pháp tỏ ra hoạt động khá hiệu quả và cho kết quả đánh giá tốt khi các giả thiết được đảm bảo [35] Hình 1-8 minh họa một kết quả khá tốt của ICA Trong đó, các tín hiệu nguồn s1, s2, s3 đi qua một bộ trộn để thu được các tín hiệu x1, x2, x3 Sau đó, áp dụng phương pháp ICA để tách ra ba tín hiệu y1, y2, y3 Quan sát hình 1-8, tacó thể thấy ba tín hiệu tách ra kh tương đồng với các tín hiệu á gốc

Trang 18

Hình 1-8 Kết quả thử nghiệm với một giọng nam và hai giọng nữ [35]

1.2.2.2 Phương pháp ước lượng nguồn đầu vào có tính đến suy hao (Degenerate

Unmixing Estimation Technique – DUET)

Để đưa vào thuật toán DUET, chúng ta cần thiết lập một mô hình mới, để mô

tả quá trình trộn các nguồn [25] Trước đó chúng ta sẽ thảo luận về lý thuyết liên quan tới một ví dụ cụ thể với kênh tín hiệu gồm 2 đầu thu Trong tình huống này, các nguồn tín hiệu là một số lượng người đứng ở các vị trí khác nhau trong phòng, giống như mô tả trong hình 1-9 Cụ thể là với trường hợp cho , hình 1-9, có ba người tương ứng với ba nguồn tín hiệu

Trang 19

Hình 1-9 Mô hình đầu thu hai kênh với nhiều nguồn đầu vào [25]

Thuật toán DUET thực hiện các thao tác tính toán trong miền tần số thay vì miền thời gian như ICA Và với thuật toán này cũng không yêu cầu cần tính ma trận nghịch đảo của ma trận trộn Chính vì điều này DUET tỏ ra khả thi hơn để thực hiện, đồng thời nó cũng mở rộng phạm vi áp dụng hơn khi không có những yêu cầu

về ma trận trộn Một điểm khác biệt nữa so với kỹ thuật ICA , đó là số lượng các nguồn hoàn toàn có thể lớn hơn so với số lượng của bộ trộn, thực tế nó cho phép số lượng nguồn là tùy ý [27]

Chính vì rất nhiều ưu việt của kỹ thuật này, trong những tiếp theo của luận văn đã chọn DUET để xem xét và nghiên cứu

Kết luận chương:

Trong chương này đã giới thiệu bài toán nâng cao chất lượng tiếng nói:

- Các vấn đề trong quá trình nâng cao chất lượng tiếng nói

- Các phương pháp thực hiện: trong 2 trường hợp nhỏ cho hệ thống về nhận dạng tiếng nói: đầu thu đơn kênh/ đa kênh và phương pháp phân tách tiếng nói

Bên cạnh đó là phần giới thiệu về phương pháp tách nguồn mù ứng dụng cho phân tách tiếng nói và hai phương pháp chính:

- Phương pháp phân tích thành phần độc lập ICA

- Kỹ thuật ước lượng nguồn đầu vào có tính đến suy hao (DUET)

Trang 20

CHƯƠNG KỸ THUẬT TÁCH NGUỒN MÙ VỚI THUẬT TOÁN DUET2

Giới thiệu chương

Trong chương này sẽ tìm hiểu các nội dung sau:

- Giới thiệu về thuật toán DUET

- Các giả thiết cần có đối với thuật toán

- Thuật toán DUET

- Mở rộng với thuật toán DUET

Nội dung trong chương này được thực hiện dựa trên nghiên cứu về DUET của giáo sư Scott Rickard của University College Dublin [27]

2.1 Giới thiệu về thuật toán DUET

Một trọng những mảng nghiên cứu về tách nguồn mù, có vẻ đặc biệt khó khăn, thách thức, đó là trong những trường h p mà s ngu n là nhiợ ố ồ ều hơn số đầ u thu Nói cách khác, trong các trường hợp đó sẽ xu t hi n suy biến Th c hi n k ấ ệ ự ệ ỹthu t tách ngu n mù suy bi n là c mậ ồ ế ả ột vấn đề ở, b i vì khi có k n s suy bi n cể đế ự ế ủa tín hiệu thì ma tr n tr n s không khậ ộ ẽ ả nghịch Do đó, hầu hết các phương pháp tách tín hi u truy n thệ ề ống sẽ không đúng nữa H u h t các nghiên cầ ế ứu BSS đều tập trung vào những trường hợp thông thường hoặc là coi như không có sự xuất hiện

c a suy bi n ủ ế

Phương pháp DUET là một kỹ ật tách nguồn mù suy biến với số lượngu n nhiồ ều hơn số lượng c m bi n Nguyên lý cả ế ủa DUET như sau:

Nếu giả thiết quá trình thu không có tiếng vọng, và biểu diễn trên miền

thời gian – tần số ủa các tín hiệu không bị chồng phổ quá nhiều c – với tín hiệu

là tiếng nói hoàn toàn phù hợ điều kiện này khi đó ta hoàn toàn có thểp , tách riêng ra tín hiệu củ ừng nguồ ừa t n t tín hi u tổng hợ đượ ệ p c trộn bằng 2 đầu thu,

v i s ớ ố lượng nguồ n đ ầu vào là tuy ý

Một cách khái quát mô hình thuật toán DUET có thể được minh họa như trong hình 2-1 Tín hiệu từ hai đầu thu ẽ đi qua 5 bước xử lý chínhs và đầu ra là các tín hiệu ước lượng của tín hiệu gốc

Trang 21

Hình 2-1 Mô hình thu t toán DUET [25] ậ

K thuỹ ật DUET tách các tín hiệu đ u vào chính từ quá trình phân tách biểu ầdiễn của mỗi một tín hiệu trên miền thời gian và tần số Nói cách khác, DUET cho

rằng nếu chiếu các tín hiệu đầu vào lên trên mặt phẳng thời gian ần số, thì các tín – t

hiệu đã tự tách riêng ra Sau đó, quá trình tách tín hiệu sẽ thu gọn lại chỉ là sự phân chia trên mặt phẳng thời gian ần số Điều này, nghe như có vẻ phi lý, nhất là khi – tcác tiếng nói đều được thu cùng lúc, tuy nhiên thực tế ả gi thi t này có th chấế ể p nh n ậđược, vì r t hiấ ếm khi hai con người nói ra v i cùng m t t n s cùng m t th i ớ ộ ầ ố ở ộ ờ điểm

Nh ng vữ ấn đề liên quan t i DUET s ớ ẽ được trình bày chi ti t trong các ph n k ti p ế ầ ế ế

2.2 Các giả thiết cần có của thuật toán DUET

Tất nhiên, mỗi thuật toán được phát triển sẽ luôn đi kèm với các giả thi t ế

Đặc bi t, gi thi t v các đ c tính th ng kê c a tín hiệ ả ế ề ặ ố ủ ệu thường là cơ sở cho r t ấnhiều thuật toán tách tín hiệu [2] Trong [27] cũng đưa ra một số ả gi thiết hay được

s dử ụng như: các nguồn là độc lập với nhau [1,10]; các nguồn là trực giao; các nguồn biến đổi, hoặc các nguồn hoàn toàn có thể được b ểu diễn trong một không igian v i sớ ố chiều xác định [8] Với DUET cũng cần có nh ng giữ ả thiết c a mình, ủtuy nhiên, vẫn hoàn toàn có các phương pháp để m rở ộng ph m vi áp d ng cạ ụ ủa thu t toán Trong phậ ần cuố ủa chương này, chúng ta sẽ làm rõ điều này.i c

2.2.1 Các nguồn âm thanh không vọng

Mô hình được xem xét tới trong [27] như sau: Giả sử thu tín hiệu từ N nguồn ( ), 1, ,

j

s t j = N, các tín hiệu này được thu bởi 2 đầu thu (micro) và coi như các tín hiệu này là chỉ truyền thẳng chứ không xét tới các hướng truyền khác Trong trường hợp đó, coi như những quá trình hao hụt chung là không xét tới do giống nhau ở cả

Trang 22

2 mic, ta quy ước tín hiệu x1( ) t thu được ở đầu thu thứ nhất là truyền không có trễ

và không suy hao Vậy tín hiệu thu được ở hai đầu thu sẽ được biểu diễn như sau:

Trong đó: N là số nguồn tín hiệu đầu vào; δj là trễ truyền tín hiệu giữa 2

đầu thu; a là hệ số suy giảm tương đối, tương ứng với tỉ lệ jsuy giảm trên đường truyền với mỗi một nguồn tới đầu thu Gọi ∆ là độ trễ tối đa giữa 2 đầu thu, ta có δj ≤∆,∀ = j 1, , NTrong thực tế là có vô số đường truyền tín hiệu theo nhiều hướng từ mỗi một nguồn tới các đầu thu và mô hình thu không có vọng là quá lí tưởng Tuy nhiên, DUET vẫn tỏ ra khá hiệu quả với cả mô hình thu thực tế có tiếng vọng, dù kỹ - thuật này xây dựng dựa trên mô hình thu không có vọng!

2.2.2 Các nguồn có tính trực giao rời rạc

Xét tới hai hàm ( )s t và ( )j s t , và một hàm cửa sổ W(t) Khi đó, biến đổi kFourier theo dạng cửa sổ W của ( )s t j được biểu diễn như sau:

Trang 23

Khi đó hoàn toàn có thể tách ra tín hiệu s từ tín hiệu tổng hợp, thông qua jbiểu thức:

đó, các tín hiệu cần phải đáp ứng được điều kiện về tính ổn định cục bộ, được mô tả bẳng biểu thức sau:

W ( ) ( , ) i W (.) ( , ), ,

F s −δ  ω τ =e− ωδF s  ω τ ∀δ δ ≤ ∆, (2.10) Trong đó ∆ khoảng chênh lệch về thời gian tối đa có thể xuất hiện trong quá trình thu tín hiệu

2.2.4 Các đầu thu cách nhau đủ gần

Một điểm cưc kỳ quan trọng là rõ ràng δ phải thỏa mã điều kiện là ωδ ≤ , π

nếu không trong nhiều trường hợp sẽ có thể sẽ bị mất tín hiệu nếu có xuất hiện chuyển pha Do vậy, để tránh xuất hiện những sai lệch này yêu cầu về khoảng các giữa các đầu thu là:

m

Trong đó c là vận tốc của âm thanh (c =314 /m s), ωmlà tần số tối đa trong

số các nguồn tín hiệu, d là khoảng cách giữa các đầu thu

Trang 24

2.2.5 Các nguồn phân biệt với nhau trong không gian

Rõ ràng trong mô hình trộn không có vọng mô tả bởi biều thức (2.1), (2.2), nếu hai nguồn có dấu hiệu là đồng nhất về không gian với nhau, thì cũng có cùng tham số độ suy giảm vả độ trễ tương ứng, hai nguồn đấy sẽ bị tính là một nguồn Do vậy, DUET yêu cầu các nguồn phải đảm bảo điều kiện phân biệt trong không gian với nhaus Giả thiết này được biểu diễn thông qua biểu thức:

(aj ≠a hayk) (δj ≠δk), j k.∀ ≠ (2.12)

2.3 Kỹ thuật ước lượng nguồn đầu vào có tính đến suy hao - DUET

2.3.1 Khái quát chung về kỹ thuật DUET

– Phương trình trộn tín hiệu (2.1)và (2.2) trong miền thời gian tần số được viết lại như sau:

1 1

Từ đó các tham số trộn tương ứng sẽ được tính toán như sau:

Trang 25

Tóm tắt lại các bước chủ chốt nhất của DUET như sau:

1 Biểu diễn các tín hiệu ở cả các đầu thu sang miền thời gian tần số.–

2 Tính tỉ lệ giữa hai tín hiệu trộn, từ đó ước lượng các tham số trộn cục bộ

3 Phối hợp tập của các tham số trộn cục bộ thành N cặp đúng với cặp tham số trộn thực tế

4 Tạo ra một mặt nạ cho cặp tham số trộn đã được xác định là tương ứng với điểm nằm trên mặt phẳng thời gian tần số, từ đó đưa ra cặp tham số trộn – thực tế

5 Phân tách ra các nguồn đầu vào bằng cách nhân mỗi mặt nạ với từng tín hiệu sau đầu thu một

6 Chuyển các biểu diễn ở miền thời gian tần số – sang miền thời gian

Các tính toán cụ thể hơn đã được giáo sư Rickard trình bày chi tiết trong nghiên cứu của mình [27]

2.3.2 Lược đồ trọng số hai chiều

Trong thực tế không phải trong mọi hoàn cảnh đều được đảm bảo tuyệt đối những giả thiết ở trên Do đó, người ta dùng tới một cơ chế để phân nhóm các ước lượng độ suy giảm và độ trễ tương đối, trong đó xem xét tới dùng một toán tử ước lượng maximum-likelihood (ML) [19] cho a và j δj , với một mô hình như sau:

Trang 26

Giá trị αj được gọi là độ suy giảm đối xứng, bởi vì nó có một đặc tính là khi tín hiệu từ đầu thu chuyển pha, thì giá trị này sẽ được chiếu một cách đối xứng qua điểm gốc tọa độ (α = ) 0

Theo tinh thần của phương pháp ước lượng ML [19], thì cặp giá trị αj v à δj

sẽ được biểu diễn như sau:

p q được lưu ý như sau:

• p=0,q = : được đề xuất để tính toán lược đồ với kỹ thuậ DUET gốc [3]0 t

• p=1,q= : 0 đề xuất để tính toán suy giảm đối xứng ước lượng theo ML [19]

• p=1,q= : được đề xuất để tính toán độ trễ ước lượng theo ML [19] 2

• p=2,q= : được đề xuất để giảm độ trễ ước lượng bias [19] 0

• p=2,q= :cho tỉ số SNR thấp hoặc đầu thu tiếng nói bé [7] 2

Từ các thử nghiệm thực tế với kỹ thuật DUET [27], cho thấy p =1,q= là 0một lựa chọn mặc định cho kết quả khá tốt

Tuy nhiên, mặc dù chọn được cặp giá trị , p q như thế nều đi nữa, thì vẫn không dễ dàng gì để ước lượng được những thông tin về thời gian tần số tương – ứng với mỗi nguồn Trong nghiên cứu của mình tác giả Scott Rickard cũng đã đưa

ra cách giải quyết vấn để này Đó là việc xây dựng lên một lược đồ trọng số

Lược đồ trọng số phân tách và phân nhóm các giá trị ước lượng tham số của các nguồn riêng ra, trong đó, số đỉnh sẽ là số nguồn và vị trí các đỉnh tập hợp của

Trang 27

Lược đồ được xây dựng hoàn chỉnh [27] sẽ có dạng sau:

Trong đó, ∆ và α ∆ δ là chiều rộng của cửa sổ làm trơn lược đồ

Trên lược đồ này sẽ cho phép ta nhìn thấy N đỉnh tương ứng của N nguồn một cách rõ ràng, giống như một ví dụ minh họa trong hình 2-2

Hình 2-2 Lược đồ lũy thừa trọng số (với p=1,q= , 0 N = ) [27] 5

2.3.3 Quá trình phân tách các nguồn

Từ các đỉnh của lược đồ vửa được xác định ( , ), j 1, ,α δj j = N, có thể biến đổi độ suy giảm đối xứng về lại thành độ suy giảm thực qua biểu thức:

Từ đó, xác định được mặt nạ chỉ thị tương ứng cho từng nguồn như (2.17)

Và thực hiện ước lượng các tín hiệu gốc của từng theo biểu thức:

Trang 28

Và tiếp đó thực hiện biến đổi ngược lại để thu được biểu diễn của mỗi nguồn tín hiếu ban đầu trên miền thời gian

Hình 2 -3.Một kết quả thử nghiệm với năm nguồn tín hiệu ban đầu, 2 tín hiện đầu thu, và năm tín hiệu nguồn (bên trên) và năm tín hiệu ước lượng của các tín

hiệu gốc (bên dưới)[27]

Toàn bộ quá trình chi tiết đã được tác giả Scott Rickard trình bày rất rõ ràng trong nghiên cứu [27] Đồng thời, trong đó cũng đưa ra các bước tóm tắt cho một quá trình thực hiện DUET một cách hoàn chỉnh Trên hình 2-3, chính là một trong

số những thử nghiệm của Scott Rickard Trong đó, 5 tín hiệu bên trên cùng là các

tín hiệu gốc, các tín hiệu được ước lượng ra là 5 tín hiệu bên dưới, và hai tín hiệu

ở giữa là tín hiệu thu được sau đầu thu

Trang 29

2.4 Mở rộng thuật toán DUET

2.4.1 Tăng giới hạn về độ trễ

Ngay từ giả thiết 2.2.4, ta có thể nhận thấy DUET chỉ ứng dụng được khi các đầu thu được đặt cách nhau đủ gần Trong nhiều trường hợp khoảng cách cho phép chỉ là vài centimet Tuy nhiên trong nhiều ứng dụng, các đầu thu sẽ không thể nào mà đặt quá gần nhau được Và để mở rộng phạm vi ứng dụng của DUET, người ta cũng để xuất một số các phương pháp, cho phép không giới hạn về khoảng cách giữa các đầu thu [29]

Phương pháp mở rộng thứ nhất, sử dụng quá trình phân tích độ lệch pha giữa các điểm trên mặt phẳng thời gian tần số mà có tần số ngay kế sát nhau, – nhằm ước lượng ra tham số độ trễ Theo kỹ thuật này, người ta có thể tăng khoảng cách tối đa giữa các đầu thu, từ 1

2fm lên tới

1

2 f∆ , trong đó f∆ là khoảng chênh lệch về tần số, giữa 2 tọa độ kế cận trên mặt phẳng thời gian tần số Kỹ thuật này – khá hiện quả trong việc loại trưc các ràng buộc về khoảng cách giữa các đầu thu, bởi vì f∆ có thể lựa chọn được

Phương pháp mở rộng thứ hai được đưa ra là, xét theo mức tăng dần độ trễ của một đầu thu so với đầu thu còn lại và dựng lên một lược đồ cho mỗi một độ trễ Nếu khâu trễ của một đầu thu khiến cho độ trễ nội bộ của một nguồn bé hơn 1

2fm , các ước lượng trễ được xếp đặt và một đỉnh sẽ bị làm hiện ra Còn nếu độ trễ nội lớn hơn 1

2fm , các ước lượng trễ sẽ bị dàn trải ra và không có một đỉnh nào có thể trồi lên Khi đó, lược đồ được chia lại, để dựng một lược đồ mới với thang độ trễ lớn hơn, các đỉnh của tham số trộn sẽ được làm nổi bật lên trong lược đồ mới này

Trong hình 2-4, chính là một thử nghiệm triển khai thuật toán DUET, với

độ trễ tương đối lên đến 170 mẫu Phân tích về thử nghiệm này, cũng như về hai phương pháp mở rộng đã được đề cập chi tiết trong [27]

Trang 30

Hình 2-4 So sánh giữa DUET tiêu chuẩn (bên trên) và DUET đã được chỉnh (bên dưới), trong trường hợp có 5 nguồn đầu vào với độ trễ tương đối là lớn hơn: (-170, -100, 0, 50, 150) mẫu DUET tiêu chuẩn hóa bị lỗi khi độ trễ tương đối lớn, nhưng với DUET mở rộng vẫn hoàn toàn xác định được số lượng nguồn tín hiệu và các

tham số trộn tương ứng [27]

2.4.1 Phương pháp xấp xỉ các nguồn trực giao rời rạc

Trong thực tế, rõ ràng không phải tất cả các tín hiệu mà chúng ta cần áp dụng DUET đều thỏa mãn triệt để điều kiện này Vậy với tín hiệu đó với mức độ như thế nào thì đã được coi là thỏa mãn giả thiết về tính trực giao rời rạc (2.2.2) Có một phương pháp đã được đề xuất để đo mức độ xấp xỉ trực giao rời rạc tương ứng với

Trang 31

Toán tử này có những đặc tính sau:

1 Với d M =1, chỉ ra rằng j( ) s là trực giao rời rạc theo cửa sổ W với tất cả các jtín hiệu gây nhiễu

2 Với d M =1/2, chỉ ra rằng nếu dung mặt nạ M , sẽ làm cho quá trình phân j( )tách sẽ không hề khác nhau cho cả nguồn tín hiệu cần quan tâm lẫnnguồn tín hiệu gây nhiễu

3 Với d M ≈ , khi sử dụng mặt nạ M , sẽ ưu tiên làm nổi rõ các nguồn gây j( ) 0nhiễu

Và bây giờ chúng ta hoàn toàn có một phép đo định lượng, thể hiện được chất lượng phân tách của mặt nạ [27]

Trang 32

Kết luận chương:

Trong chương này đã trình bày tổng quan về kỹ thuật DUET:

- Đầu tiên là các giả thiết, các điều kiện giả định cho phép triển khai được thuật toán DUET

- Phần tiếp theo của chương đã trình bày chi tiết về cơ sở lý thuyết cũng như các bước triển khai trong thuật toán DUET, cũng như triển khai DUET để tách nguồn mù với tín hiệu là tiếng nói

- Ở phần cuối chương đưa ra các hướng để mở rộng điều kiện hạn chế về khoảng cách giữa các đầu thu, và cách để đánh giá tính trực giao của các nguồn đầu vào

Trang 33

CHƯƠNG 3 TRIỂN KHAI THUẬT TOÁN DUET NÂNG CAO CHẤT

LƯỢNG TIẾNG NÓI Giới thiệu chương

Một trong những lợi thế của DUET đó là quá trình tính toán rất đơn giản, và rất dễ dàng triển khai Trong chương này luận văn sẽ triển khai tách nguồn mù dùng thuật toán DUET trên một GUI của Matlab Trong đó, các nguồn âm thanh đầu vào

là tiếng nói của những người được lấy ngẫu nhiên từ cơ sở dữ liệu TIMIT [42]

3.1 Bài toán với N nguồn tín hiệu ( N ≥ )đầu vào 2

Trong chương này, luận văn thử nghiệm tách nguồn mù cho bài toán

“cocktail-party” với mô hình tiếng nói của nhiều người khác nhau, được thu qua hai đầu thu giả lập Giọng nói của những người này được thu âm tách biệt nhau, và đều

là tín hiệu đơn âm (mono), được lấy mẫu ở tần số 16 kHz [42] Các tín hiệu này được trộn với nhau bởi hai đầu thu giả lập dựng trên máy tính Trong đó, các tham

số trộn (độ trễ tương đối và độ suy giảm) cho phép thay đổi được để kiểm chứng tính hiệu quả của thuật toán

3.2 Thực hiện thiết kế phần mềm

Trong khuôn khổ của luận văn sẽ xây dựng một phần mềm cho phép triển khai thuật toán DUET để thực hiện tách nguồn mù cho tín hiệu là tiếng nói Phần mềm này cần phải cho phép làm được:

- Nhận dữ liệu tiếng nói

- Giả lập bộ trộn, với tham số trộn có thể thay đổi được

- Thực hiện phân tách được tín hiệu

Luận văn đã chọn sử dụng môi trường MatLab R2007b và các công cụ có sẵn trên MatLab để xây dựng phần mềm

Trang 34

Hình 3-1 Phần mềm Matlab R2007b

3.2.1 Thiết kế giao diện trên Matlab

Như vừa nêu ở trên, phần mềm cần phải cho phép nhập các dữ liệu đầu vào,

do vậy cần có một giao diện tương tác phù hợp Theo ý tưởng thiết kế để thuận tiện cho việc thử nghiệm khả năng đáp ứng của thuật toán, giao diện của phần mềm cần

có những tính năng như sau:

- Có phần menu chính, cho phép lựa chọn các khâu: Nhập dữ liệu, trộn tín hiệu, tách tín hiệu

- Cho phép phần nhập dữ liệu đầu vào dưới dạng file wav, biểu diễn các tín hiệu này trên màn hình

- Cho phép nhập tham số về độ trễ và độ suy giảm

- Biểu diễn các tín hiệu đã được tách ra trên màn hình và cho phép phát lại

Trang 35

Giao diện của phần mềm được thiết kế sử dụng một công cụ đã tích hợp sẵn của Matlab, đó là GUI – Graphical User Interface

Hình 3-2 Giao diện của công cụ GUI trên Matlab

Bố cục trên giao diện được thiết kế theo đúng các yêu đầu đề ra:

Phần menu chính gồm các options:

- Load Source: để lựa chọn từng nguồn

tín hiệu đầu vào

- Adjust Mixtures: để cho phép tính

năng chỉnh tham số trộn và vào chế độ

Trang 36

Phần tham số trộn và tín hiệu trộn gồm:

- Mixxing Parameters: để nhập vào các

cặp tham số trộn tương ứng với mỗi

nguồn Tính năng này được Enable khi

bắt đầu vào Option này, và Disable sau

bấm phím Done

- Các biểu đồ biểu.diễn hai tín hiệu trộn

Hình 3-4 Phần giao tham sô trộn và tín hiệu trộn

Phần biểu diễn tín hiệu gồm:

- Các biểu đồ Source: biểu diễn tín

hiệu nguồn ban đầu Nhấn vào

phím play để nghe lại giọng nói

- Biểu đồ Result biểu diễn tín hiệu

đã tách ra tương ứng với tín hiệu

trộn đầu vào Nhấn vào phím play

để nghe lại giọng nói đã được tách

ra

Hình 3-5 Các tín hiệu nguồn ban đầu và sau tách

Trang 37

Giao diện hoàn chỉnh của phần mềm sẽ giống như trong hình 3-6, bên dưới đây Để thao tác với giao diện này theo các bước như sau:

Bước 1: Chọn số nguồn để tách với tham số number source Sau đó, vào opttion Load Source để lần lượt chọn lấy từng tín hiệu đầu vào

Bước 2: Lựa chọn option Adjust Mixtures Trong Mixxing Parameters, lần lượt điền tham số trộn cho các nguồn Sauk hi hoàn thành nhấn phím Done! để kết thúc

Bước 3: Lựa chọn option Start Separation để bắt đầu quá trình tách tín hiệu

Hình 3-6 Giao diện của phần mềm

3.2.2 Triển khai thuật toán

Trong mục 2.3.4, đã nêu rất rõ 7 bước để thực hiện thuật toán DUET Tuy nhiên, với nội dung của thử nghiệm cần thiết kế thêm một bộ trộn giả lập và các quá trình xuất nhập cho các tín hiệu Tổng quan của phần mềm được triển khai theo như

sơ đồ trong hình 3-7 dưới đây:

Tiêu đề	Nâng Cao Chất Lượng Tiếng Nói Sử Dụng Phương Pháp Tách Nguồn Mù – Ứng Dụng Cho Hệ Thống Nhận Dạng Tiếng Nói
Tác giả	Chu Minh Huấn
Người hướng dẫn	PGS.TS. Nguyễn Quốc Cường
Trường học	Trường Đại Học Bách Khoa Hà Nội
Chuyên ngành	Đo Lường Và Các Hệ Thống Điều Khiển
Thể loại	Luận Văn Thạc Sĩ Kỹ Thuật
Năm xuất bản	2014
Thành phố	Hà Nội

Định dạng
Số trang	75
Dung lượng	11,18 MB