8. ĐÁNH GIÁ CHUNG (bằng chữ: GIỎI, KHÁ, TB) Điểm:
1.6 Tính mới và những đóng góp của đề tài
Việc lọc nhiễu thoại trong miền EMD hiện vẫn còn là giải pháp mới, đang trong quá trình nghiên cứu và chưa thật sự hoàn thiện về hệ thống lý thuyết cũng như giải pháp thực hiện.Với đề tài này, chúng tôi hy vọng đề xuất được một giải pháp có hiệu quả cao, bền vững và ứng dụng được trong thực tiễn.
SVTH: Trần Hiếu Trung
Dương Minh Tiến 11
Khách thể nghiên cứu là tiếng nói con người đã được số hóa và được cộng với nhiễu Gausse. Luận văn tìm hiểu về các đặc trưng của tiếng nói và nhiễu để từ đó tìm ra cách thức tách nhiễu nền ra khỏi thoại thông qua công cụ EMD.
Đối tượng nghiên cứu là vấn đề khử nhiễu có phân bố Gausse, tương tác cộng và không tương quan ra khỏi tín hiệu hỗn hợp với giả định là tín hiệu có thể quan sát được chỉ là một kênh thoại bị can nhiễu.
1.8 Phƣơng pháp nghiên cứu
Cơ sở để tách nhiễu ra khỏi thoại là sự khác biệt trong phân bố năng lượng của thoại và nhiễu trong miền tần số: thoại có phân bố năng lượng tập trung trong vùng tần số thấp và trung bình; trong khi đó, nhiễu trắng có phân bố năng lượng đều trên toàn bộ vùng tần số. Luận văn đặt giả thuyết là dựa trên khả năng nhận dạng các thành phần tần số của EMD, chúng ta có thể ước lượng được nhiễu từ tín hiệu thoại bị can nhiễu để từ đó có thể lọc nhiễu một cách có hiệu quả bằng thuật toán lấy ngưỡng trong miền EMD. Luận văn được thực hiện với giả thiết rằng dữ liệu quan sát được là một kênh thoại bị can nhiễu trong đó nhiễu có phân bố Gausse, tương tác cộng và không tương quan với thoại gốc. Nghiên cứu lý thuyết về các phương pháp lọc nhiễu thoại, trong đó tập trung vào trường hợp lọc nhiễu đơn kênh và không tham số.Tiếp đó, tác giả hiệu chỉnh các thuật toán lọc nhiễu này cho phù hợp với các đặc trưng của EMD.Cuối cùng, các kết quả nghiên cứu được thực nghiệm và kiểm chứng thông qua mô phỏng với cơ sở dữ liệu NOIZUES và các file do người Việt ghi âm. Quá trình nghiên cứu là người thực hiện bắt đầu tiến hành nghiên cứu cơ sở lý thuyết hàn lâm dựa trên các tài liệu thu thập được, sau đó tiến hành mô phỏng kiểm chứng lý thuyết trên máy vi tính qua công cụ MATLAB.
1.9 Phát biểu bài toán
Với tín hiệu bị can nhiễu, chúng ta có thể khử các thành phần nhiễu nằm ngoài băng thoại một các dễ dàng. Tuy nhiên, tại các tần số trong băng thoại sẽ tồn tại cả thoại và nhiễu, nên rất khó xác định và loại bỏ các thành phần nhiễu mà không làm suy biến tín hiệu thoại.Do đó, chúng ta khó mà xác định và lọc nhiễu trong miền phổ với các thành
SVTH: Trần Hiếu Trung
Dương Minh Tiến 12
phần tần số nằm trong băng tần thoại tại một thời điểm tức thời. Chính vì điều này mà đề tài này sẽ tìm hiểu một phương pháp phân tích để có thể tách được nhiễu và thoại trong miền thời gian.
EMD (Empirical Mode Decomposition) được xem là phương pháp phân tích dữ liệu mới và mạnh mẽ cho các tín hiệu phi tuyến và không dừng, mở ra một hướng mới và có hiệu quả cho việc lọc nhiễu thoại.Về cơ bản, EMD là phương pháp phân tích dữ liệu thích nghi vốn phân tích một tập dữ liệu bất kỳ thành các thành phần dao động có trung bình bằng không, gọi là các IMF (Intrinsic Mode Funcion). Các IMF này giúp xác định tần số tức thời.Các IMF có thể có tần số chồng lấn lên nhau, nhưng tại một thời điểm tức thời, tần số tức thời vốn được biểu diễn qua IMF sẽ khác nhau.Do đó EMD không giống như bộ lọc thông dải, mà là phép phân tích tín hiệu phi tuyến và không dừngtheo các đặc tính tần số cục bộ của chúng. Nhờ tính chất này, trong trường hợp tín hiệu bị can nhiễu, EMD giúp chúng ta có thể tách được các thành phần nhiễu ẩn chứa trong thoại sạch. Mỗi IMF vẫn sẽ chứa cả các thành phần thoại và nhiễu nhưng mật độ và phân bố của chúng theo thời gian lại khác nhau. Do đó, chúng ta có thể nhận dạng một cách có hiệu quả các thành phần nhiễu. Trong đề tài này, chúng tôi đề xuất thuật toán lấy ngưỡng trong miền EMD cho ứng dụng lọc nhiễu thoại.
Luận văn này được trình bày theo bố cục như sau: Chương 2 - Giới thiệu EMD, vốn trình bày các vấn đề cơ bản trong phương pháp phân tích EMD; Chương 3 –Lấy ngưỡng trong miền EMD, trình bày các thuật toán lấy ngưỡng khác nhau trong miền EMD; Chương 4 - Mô phỏng, trình bày cách thực hiên mô phỏng và các kết quả mô phỏng; và Chương 5 - Kết luận, đưa ra kết luận và hướng phát triển của đề tài.
SVTH: Trần Hiếu Trung
Dương Minh Tiến 13
Chƣơng 2
GIỚI THIỆU EMD
2.1 Giới thiệu
Như chúng ta đã biết, phần lớn tín hiệu thoại đều là phi tuyến và không dừng nên việc phân tích cũng như xử lý sẽ phức tạp hơn so với tín hiệu tuyến tính và ổn định.Hiện tại có khá nhiều phương pháp được áp dụng cho việc cải thiện tín hiệu thoại.Như đã nói ở chương 1, các phương pháp này được phân thành các phương pháp có tham số hoặc không có tham số, và đơn kênh hoặc đa kênh.Luận văn này chỉ giới hạn ở phương pháp không tham số và đơn kênh. Trong nhóm này, có rất nhiều phương pháp được đưa ra từ rất sớm như đã nói ở trên...Và gần đây, mô hình thực nghiệm phân rã EMD (Empirical Mode Decomposition) được Huang đưa ra lần đầu tiên vào năm 1996 để phân tích tín hiệu phi tuyến và không dừng. EMD là một kỹ thuật phân rã tín hiệu thành các mô hình có đặc tính tần số khác nhau, được gọi là Hàm chế độ nội tại IMF (Intrinsic Mode Function).
Chương này sẽ đưa ra các vấn đề trong EMD để phân tích các tín hiệu phi tuyến và không dừng một cách hiệu quả.
2.2 Khái niệm cơ bản của EMD
Mô hình phân rã thực nghiệm EMD gần đây được phát triển để phân rã tín hiệu không dừng và phi tuyến thành các thành phần dao động tuân theo các đặc tính cơ bản được gọi là Hàm chế độ nội tại IMF
2.2.1 Hàm chế độ nội tại IMF
Nguyên lý của kỹ thuật EMD dựa trên việc phân rã một tín hiệu bất kỳ thành một
tập hợp các thành phần (hàm) dao động trung bình không, gọi là IMF.Mỗi IMF thỏa mãn hai điều kiện cơ bản:
SVTH: Trần Hiếu Trung
Dương Minh Tiến 14
(1) Trong toàn bộ dữ liệu, số cực trị và số điểm về không (zero crossing) phải bằng nhau hoặc chỉ khác nhau nhiều nhất một điểm.
(2) tại một điểm bất kỳ, giá trị trung bình của đường bao được xác định theo các cực đại và đường bao được xác định bởi cực tiểu bằng không.
Điều kiện đầu tiêncũng tương tự như yêu cầu băng hẹp cho một tiến trình Gaussian ổn định. Điều kiện thứ hai là một yêu cầu cục bộ được tạo ra từ một yêu cầu toàn cục, và cần thiết để đảm bảo rằng các tần số tức thời sẽ không có các biến động vọt lố không mong muốn gây ra bởi dạng sóng bất đối xứng.
Tên của IMF - hàm chế độ nội tại, được đặt ra là do nó thể hiện mô hình dao động được nhúng vào dữ liệu. Với định nghĩa này thì IMF được xác định bởi các điểm zero, nó chỉ bao gồm chế độ dao động mà không phải là các dạng sóng lái phức tạp. IMF không bị giới hạn với tín hiệu băng hẹp; nó có thể được điều chỉnh theo cả biên độ và tần số, và thực tế thì IMF là một hàm không dừng. Hình 2.1 thể hiện một loại IMF.
Hình 2.1: Một loại IMF với số cực trị và số zero crossing bằng nhau, và các biên trên
và biên dưới đối xứng nhau có trung bình bằng 0.
Ý tưởng tìm kiếm các IMF dựa trên việc trừ đi các thành phần dao động lớn nhất từ dữ liệu với quá trình từng bước được gọi là quá trình chọn lọc (Sifting process).
SVTH: Trần Hiếu Trung
Dương Minh Tiến 15
2.2.2 Quá trình chọn lọc
Mặc dù một mô hình toán học vẫn chưa được phát triển, nhưng có nhiều phương pháp khác cho việc tính toán EMD đã được đề xuất.Thuật toán sớm nhất được gọi là quá
Hình 2.2: Quá trình chọn lọc, a) dữ liệu gốc; b) đường biên trên và biên dưới
được vẽ bằng nét chấm gạch, và đường biên trung bình được vẽ bằng nét
liền đậm; (c) , là sự khác nhau giữa dữ liệu gốc và . Đây vẫn chưa là một
SVTH: Trần Hiếu Trung
Dương Minh Tiến 16
trình chọn lọc, được đưa ra để tìm các IMF củadữ liệu. Quá trình chọn lọc rất đơn giản và khéo léo.
Nó bao gồm các bước sau:
1) Xác định cực trị (cả cực đại và cực tiểu) của
2) Tạo ra biên trên và biên dưới ( và ) bằng cách nối các điểm cực đại và
cực tiểu bởi nội suy đường trơn bậc 3 (Cubic spline interpolation)
3) Xác định trung bình cục bộ
4) Do IMF cần phải có trung bình cục bộ zero, tính
5) Kiểm tra xem là một IMF hay không (dựa vào đặc trưng của IMF)
6) Nếu không phải là IMF, sử dụng nó như là dữ liệu mới và lặp lại bước 1
đến bước 6 cho đến khi nhận một IMF.
Khi một IMF đầu tiên được suy ra, nó được định nghĩa là , đó
là chu kỳ nhỏ nhất trong . Để tính toán các IMF còn lại, ta tính tín hiệu còn dư
. Bây giờ phần dư chứa các thông tin về các thành phần của khoảng thời gian lớn hơn.Quá trình chọn lọc sẽ được tiếp tục cho đến khi phần dư cuối cùng là một hằng số, một hàm đơn điệu, hoặc một hàm chỉ có một cực đại và cực tiểu mà không có một IMF nào có thể được suy ra.Các IMF tiếp theo và các phần dư được tính như:
(2.1) Khi kết thúc phân rã, các dữ liệu s(t) sẽ được biểu diễn như là một tổng của n tín hiệu IMF cộng với một tín hiệu phần dư, mà nói chung là một hằng số hay một xu hướng đơn điệu:
(2.2)
Một tín hiệu thoại bị can nhiễu và một vài thành phần IMF được vẽ trong hình 2.3. Ta có thể thấy rằng các IMF có số thứ tự lớn hơn thì chứa thành phần dao động tần số thấp hơn các IMF thứ tự nhỏ hơn. Điều này là hợp lý vì quá trình chọn lọc dựa vào ý
SVTH: Trần Hiếu Trung
Dương Minh Tiến 17
tưởng từ việc trừ đi thành phần có chu kỳ lớn nhất từ dữ liệu đến khi thu được một IMF.
Hình 2.3: EMD của tín hiệu thoại bị can nhiễu có SNR là 10dB và 8 IMF đầu tiên với
phần dư hằng số.
Do đó, IMF đầu tiên sẽ chứa thành phần dao động cao lớn nhất, là các thành phần có tần số cao nhất. Và kết quả là, các IMF có thứ tự cao hơn thì sẽ chứa các thành phần tần số thấp hơn.Tuy các IMF có thể bị chồng lấn tần số nhưng ở một thời điểm bất kỳ
SVTH: Trần Hiếu Trung
Dương Minh Tiến 18
thì tần số tức thời được thể hiện bởi mỗi IMF là khác nhau.Hiện tượng này được thể hiện qua tần số tức thời của 6 IMF đầu tiên trong hình 2.4.
Hình 2.4: Tần số tức thời của các IMF
2.3 Năng lƣợng nhiễu của các IMF
Để đơn giản, ta xét mô hình các IMF chứa 100% là nhiễu. Do đó, năng lượng của các IMF này được [7], [8], [9]đề nghị nên được xem như là giảm tuyến tính trong đồ thị logarit. Điều này chứng tỏ IMF đầu tiên mang năng lượng lớn nhất.Ta giả sử nhiễu trong tín hiệu là nhiễu trắng (nhiễu Gauss), khi đó năng lượng của các IMF có nhiễu được xác định như sau:
Trong đó là năng lượng của IMF đầu tiên và thông số phụ thuộc vào số lần
chọn lọc trong quá trình thực hiện EMD để tạo ra các IMF.Theo Flandrin và cộng sự
SVTH: Trần Hiếu Trung
Dương Minh Tiến 19
tính tuyến tính của năng lượng các IMF trong miền logarit và tối ưu số lần chọn lọc.Khi đó:
Hình 2.5: Đường cong diễn tả mối quan hệ giữa năng lượng của các IMF tương ứng
với quá trình EMD sử dụng số lần chọn lọc từ 1 đến 15. Đường cong màu đỏ được thể hiện đề xuất của Flandrin và cộng sự.
Ta thấy rằng khi số lần chọn lọc càng tăng thì các đường càng tiệm cận với nhau, đặc
biệt chỗ gãy khúc càng tiệm cận rõ rệt. Do đó, thông số được đưa ra chỉ mang
tính tương đối.
Bây giờ, khi chúng ta xem xét mô hình các IMF thực tế (từ tín hiệu bị can nhiễu bởi nguồn nhiễu trắng) để so sánh với mô hình các IMF chỉ có nhiễu. Năng lượng của các IMF cũng được tính như trên
SVTH: Trần Hiếu Trung
Dương Minh Tiến 20
Hình 2.6: So sánh về năng lượng giữa mô hình các IMF chỉ có nhiễu và IMF thực tế.
Hình 2.6 cho thấy rằng năng lượng của 5 IMF đầu tiên là như nhau với cả hai mô hình. Tuy nhiên, kể từ IMF thứ 6 trờ về sau thì chúng có sự khác biệt ngày càng lớn.Điều này chứng tỏ rằng IMF có thứ tự càng lớn thì chứa càng ít thành phần nhiễu.Do đó trong quá trình lấy ngưỡng ta thường xét nhiễu tập trung chủ yếu ở các IMF đầu tiên.
2.4 EMD cho tín hiệu thoại
Do phương pháp EMD có hiệu quả trong việc phân rã tín hiệu không dừng thành các thành phần dao đông có trung bình không với tần số tức thời được xử lý tốt, EMD thích hợp với hầu hết các loại phân tích dữ liệu, và luôn đạt hiệu suất cao. Do đó, EMD trở thành một cách thức mới và hiệu quả cho nhiều lĩnh vực nghiên cứu xử lý tín hiệu. Xử lý tín hiệu thoại là một trong những lĩnh vực mà EMD được áp dụng rất thành công.
Như được trình bày trong mục 2.2 ở trên, ý tưởng tìm IMF dựa trên việc trừ đi các thành phần dao động lớn nhất từ dữ liệu được gọi là quá trình chọn lọc. Do đó các IMF có đặc tính tần số khác nhau, biên trên chứa các IMF tần số cao. Với những đặc tính mạnh mẽ này, các nghiên cứu gần đây cho thấy rằng nó có thể xác định và loại bỏ thành công phần lớn các thành phần nhiễu từ các IMF của tín hiệu thoại bị can nhiễu. Mặc dù tất cả các IMF chứa năng lượng của cả phần thoại và nhiễu, nhưng tổng mật độ năng lượng là khác nhau.Vì thoại tập trung ở dãy tần số thấp và trung nên các thành phần nhiễu cao tần chủ yếu ở các IMF đầu tiên.Ví dụ, trong trường hợp nhiễu trắng, hầu hết các thành phần nhiễu tập trung ở 3 IMF đầu tiên, trong khi phần thoại lại
SVTH: Trần Hiếu Trung
Dương Minh Tiến 21
chiếm ưu thế từ các IMF thứ 3 đến thứ 6, như trong hình 2.3. Do đó, EMD có thể tách biệt rõ ràng nhiễu cao tần khỏi thành phần thoại chính.
Trong báo cáo đồ án này, bằng cách áp dụng thuật toán lấy ngưỡng, EMD có thể loại bỏ thành công các thành phần nhễu từ các IMF. Vì chúng ta không muốn làm suy giảm tín hiệu thoại ban đầu trong khi loại bỏ hiệu quả các thành phần nhiễu, một khung tần số dựa trên kỹ thuật định ngưỡng mềm được đề xuất cho các IMF với một số các tiêu chuẩn được điều chỉnh.
SVTH: Trần Hiếu Trung
Dương Minh Tiến 22
Chƣơng 3
LỌC NHIỄU TRONG MIỀN EMD
3.1 Giới thiệu
Lấy ngưỡng là một kỹ thuật được dùng phổ biến để khử các thành phần nhiễu bằng cách trừ đi một giá trị ngưỡng ra khỏi các hệ số của tín hiệu bị can nhiễu trong một miền không gian biến đổi trực giao. Với giảđịnh nhiễu trắng, cộng, tuân theo phân bố Gausse và không tương quan với tín hiệu, mô hình tín hiệu bị can nhiễu có dạng như phương trình (1.1). Quá trình lấy ngưỡng được thực hiện qua ba bước:
Biến đổi dữ liệu bị can nhiễu thành các thành phần IMF trong miền EMD. Áp dụng lấy ngưỡng cho các hệ số của IMF trong miền EMD.
Biến đổi ngược trở lại miền không gian dữ liệu ban đầu.
Trong thuật toán này thì việc xác định mức ngưỡng là một khâu quan trọng nhất để lọc nhiễu tối ưu mà không làm suy biến tín hiệu gốc.Mức ngưỡng này được ước lượng theo phương sai nhiễu của các IMF. Mỗi phương pháp được đề xuất sẽ có một cách xác định mức ngưỡng khác nhau dựa vào phương sai nhiễu.Như đã nói ở chương 2, các IMF đầu tiên hầu như chỉ chứa thành phần nhiễu.Vì vậy, trong IMF này, thành