Quá trình chọn lọc

8. ĐÁNH GIÁ CHUNG (bằng chữ: GIỎI, KHÁ, TB) Điểm:

2.2.2 Quá trình chọn lọc

Mặc dù một mô hình toán học vẫn chưa được phát triển, nhưng có nhiều phương pháp khác cho việc tính toán EMD đã được đề xuất.Thuật toán sớm nhất được gọi là quá

Hình 2.2: Quá trình chọn lọc, a) dữ liệu gốc; b) đường biên trên và biên dưới

được vẽ bằng nét chấm gạch, và đường biên trung bình được vẽ bằng nét

liền đậm; (c) , là sự khác nhau giữa dữ liệu gốc và . Đây vẫn chưa là một

SVTH: Trần Hiếu Trung

Dương Minh Tiến 16

trình chọn lọc, được đưa ra để tìm các IMF củadữ liệu. Quá trình chọn lọc rất đơn giản và khéo léo.

Nó bao gồm các bước sau:

1) Xác định cực trị (cả cực đại và cực tiểu) của

2) Tạo ra biên trên và biên dưới ( và ) bằng cách nối các điểm cực đại và

cực tiểu bởi nội suy đường trơn bậc 3 (Cubic spline interpolation)

3) Xác định trung bình cục bộ

4) Do IMF cần phải có trung bình cục bộ zero, tính

5) Kiểm tra xem là một IMF hay không (dựa vào đặc trưng của IMF)

6) Nếu không phải là IMF, sử dụng nó như là dữ liệu mới và lặp lại bước 1

đến bước 6 cho đến khi nhận một IMF.

Khi một IMF đầu tiên được suy ra, nó được định nghĩa là , đó

là chu kỳ nhỏ nhất trong . Để tính toán các IMF còn lại, ta tính tín hiệu còn dư

. Bây giờ phần dư chứa các thông tin về các thành phần của khoảng thời gian lớn hơn.Quá trình chọn lọc sẽ được tiếp tục cho đến khi phần dư cuối cùng là một hằng số, một hàm đơn điệu, hoặc một hàm chỉ có một cực đại và cực tiểu mà không có một IMF nào có thể được suy ra.Các IMF tiếp theo và các phần dư được tính như:

(2.1) Khi kết thúc phân rã, các dữ liệu s(t) sẽ được biểu diễn như là một tổng của n tín hiệu IMF cộng với một tín hiệu phần dư, mà nói chung là một hằng số hay một xu hướng đơn điệu:

(2.2)

Một tín hiệu thoại bị can nhiễu và một vài thành phần IMF được vẽ trong hình 2.3. Ta có thể thấy rằng các IMF có số thứ tự lớn hơn thì chứa thành phần dao động tần số thấp hơn các IMF thứ tự nhỏ hơn. Điều này là hợp lý vì quá trình chọn lọc dựa vào ý

SVTH: Trần Hiếu Trung

Dương Minh Tiến 17

tưởng từ việc trừ đi thành phần có chu kỳ lớn nhất từ dữ liệu đến khi thu được một IMF.

Hình 2.3: EMD của tín hiệu thoại bị can nhiễu có SNR là 10dB và 8 IMF đầu tiên với

phần dư hằng số.

Do đó, IMF đầu tiên sẽ chứa thành phần dao động cao lớn nhất, là các thành phần có tần số cao nhất. Và kết quả là, các IMF có thứ tự cao hơn thì sẽ chứa các thành phần tần số thấp hơn.Tuy các IMF có thể bị chồng lấn tần số nhưng ở một thời điểm bất kỳ

SVTH: Trần Hiếu Trung

Dương Minh Tiến 18

thì tần số tức thời được thể hiện bởi mỗi IMF là khác nhau.Hiện tượng này được thể hiện qua tần số tức thời của 6 IMF đầu tiên trong hình 2.4.

Hình 2.4: Tần số tức thời của các IMF

2.3 Năng lƣợng nhiễu của các IMF

Để đơn giản, ta xét mô hình các IMF chứa 100% là nhiễu. Do đó, năng lượng của các IMF này được [7], [8], [9]đề nghị nên được xem như là giảm tuyến tính trong đồ thị logarit. Điều này chứng tỏ IMF đầu tiên mang năng lượng lớn nhất.Ta giả sử nhiễu trong tín hiệu là nhiễu trắng (nhiễu Gauss), khi đó năng lượng của các IMF có nhiễu được xác định như sau:

Trong đó là năng lượng của IMF đầu tiên và thông số phụ thuộc vào số lần

chọn lọc trong quá trình thực hiện EMD để tạo ra các IMF.Theo Flandrin và cộng sự

SVTH: Trần Hiếu Trung

Dương Minh Tiến 19

tính tuyến tính của năng lượng các IMF trong miền logarit và tối ưu số lần chọn lọc.Khi đó:

Hình 2.5: Đường cong diễn tả mối quan hệ giữa năng lượng của các IMF tương ứng

với quá trình EMD sử dụng số lần chọn lọc từ 1 đến 15. Đường cong màu đỏ được thể hiện đề xuất của Flandrin và cộng sự.

Ta thấy rằng khi số lần chọn lọc càng tăng thì các đường càng tiệm cận với nhau, đặc

biệt chỗ gãy khúc càng tiệm cận rõ rệt. Do đó, thông số được đưa ra chỉ mang

tính tương đối.

Bây giờ, khi chúng ta xem xét mô hình các IMF thực tế (từ tín hiệu bị can nhiễu bởi nguồn nhiễu trắng) để so sánh với mô hình các IMF chỉ có nhiễu. Năng lượng của các IMF cũng được tính như trên

SVTH: Trần Hiếu Trung

Dương Minh Tiến 20

Hình 2.6: So sánh về năng lượng giữa mô hình các IMF chỉ có nhiễu và IMF thực tế.

Hình 2.6 cho thấy rằng năng lượng của 5 IMF đầu tiên là như nhau với cả hai mô hình. Tuy nhiên, kể từ IMF thứ 6 trờ về sau thì chúng có sự khác biệt ngày càng lớn.Điều này chứng tỏ rằng IMF có thứ tự càng lớn thì chứa càng ít thành phần nhiễu.Do đó trong quá trình lấy ngưỡng ta thường xét nhiễu tập trung chủ yếu ở các IMF đầu tiên.

2.4 EMD cho tín hiệu thoại

Do phương pháp EMD có hiệu quả trong việc phân rã tín hiệu không dừng thành các thành phần dao đông có trung bình không với tần số tức thời được xử lý tốt, EMD thích hợp với hầu hết các loại phân tích dữ liệu, và luôn đạt hiệu suất cao. Do đó, EMD trở thành một cách thức mới và hiệu quả cho nhiều lĩnh vực nghiên cứu xử lý tín hiệu. Xử lý tín hiệu thoại là một trong những lĩnh vực mà EMD được áp dụng rất thành công.

Như được trình bày trong mục 2.2 ở trên, ý tưởng tìm IMF dựa trên việc trừ đi các thành phần dao động lớn nhất từ dữ liệu được gọi là quá trình chọn lọc. Do đó các IMF có đặc tính tần số khác nhau, biên trên chứa các IMF tần số cao. Với những đặc tính mạnh mẽ này, các nghiên cứu gần đây cho thấy rằng nó có thể xác định và loại bỏ thành công phần lớn các thành phần nhiễu từ các IMF của tín hiệu thoại bị can nhiễu. Mặc dù tất cả các IMF chứa năng lượng của cả phần thoại và nhiễu, nhưng tổng mật độ năng lượng là khác nhau.Vì thoại tập trung ở dãy tần số thấp và trung nên các thành phần nhiễu cao tần chủ yếu ở các IMF đầu tiên.Ví dụ, trong trường hợp nhiễu trắng, hầu hết các thành phần nhiễu tập trung ở 3 IMF đầu tiên, trong khi phần thoại lại

SVTH: Trần Hiếu Trung

Dương Minh Tiến 21

chiếm ưu thế từ các IMF thứ 3 đến thứ 6, như trong hình 2.3. Do đó, EMD có thể tách biệt rõ ràng nhiễu cao tần khỏi thành phần thoại chính.

Trong báo cáo đồ án này, bằng cách áp dụng thuật toán lấy ngưỡng, EMD có thể loại bỏ thành công các thành phần nhễu từ các IMF. Vì chúng ta không muốn làm suy giảm tín hiệu thoại ban đầu trong khi loại bỏ hiệu quả các thành phần nhiễu, một khung tần số dựa trên kỹ thuật định ngưỡng mềm được đề xuất cho các IMF với một số các tiêu chuẩn được điều chỉnh.

SVTH: Trần Hiếu Trung

Dương Minh Tiến 22

Chƣơng 3

LỌC NHIỄU TRONG MIỀN EMD

3.1 Giới thiệu

Lấy ngưỡng là một kỹ thuật được dùng phổ biến để khử các thành phần nhiễu bằng cách trừ đi một giá trị ngưỡng ra khỏi các hệ số của tín hiệu bị can nhiễu trong một miền không gian biến đổi trực giao. Với giảđịnh nhiễu trắng, cộng, tuân theo phân bố Gausse và không tương quan với tín hiệu, mô hình tín hiệu bị can nhiễu có dạng như phương trình (1.1). Quá trình lấy ngưỡng được thực hiện qua ba bước:

Biến đổi dữ liệu bị can nhiễu thành các thành phần IMF trong miền EMD. Áp dụng lấy ngưỡng cho các hệ số của IMF trong miền EMD.

Biến đổi ngược trở lại miền không gian dữ liệu ban đầu.

Trong thuật toán này thì việc xác định mức ngưỡng là một khâu quan trọng nhất để lọc nhiễu tối ưu mà không làm suy biến tín hiệu gốc.Mức ngưỡng này được ước lượng theo phương sai nhiễu của các IMF. Mỗi phương pháp được đề xuất sẽ có một cách xác định mức ngưỡng khác nhau dựa vào phương sai nhiễu.Như đã nói ở chương 2, các IMF đầu tiên hầu như chỉ chứa thành phần nhiễu.Vì vậy, trong IMF này, thành phần thoại chiếm rất ít và đóng vai trò là các giá trị bất thường.Ta có thể ước lượng độ lệch của IMF này thông qua bộ ước lượng độ lệch trung vị tuyệt đối (median absolute deviation - MAD) bởi vì đây là phép ước lượng này ít bị ảnh hưởng với các giá trị bất thường.

(3.1)

Giả sử nhiễu trong IMF đầu tiên có phân bố Gauss, khi đó độ lệch chuẩn được tính như sau:

SVTH: Trần Hiếu Trung

Dương Minh Tiến 23

Độ lệch nhiễu của các IMF còn lại được tính thông qua . Từ công thức (2.4):

Với mức ngưỡng được xác định, thuật toán lấy ngưỡng được chia thành hai dạng là lấy ngưỡng cứng và lấy ngưỡng mềm.Thuật toán lấy ngưỡng cứng xác định một mức ngưỡng làm mốc và gán những mẫu có giá trị nhỏ hơn hoặc bằng mức ngưỡng này bằng không, và giữ nguyên các mẫu có giá trị lớn hơn mức ngưỡng này.

(3.4)

Với và là giá trị các mẫu trong IMF thứ trước và sau khi lấy ngưỡng; là mức

ngưỡng của IMF thứ . Giá trị của phụ thuộc vào độ lệch chuẩn được

ước lượng từ tín hiệu nhiễu và có thể thay đổi phụ thuộc vào các thuật toán được đề xuất.Với các diễn giải này, thuật toán lấy ngưỡng cứng sẽ không thể lọc hết được thành phận nhiễu được vì những mẫu có giá trị lớn hơn mức ngưỡng vẫn có thể chứa nhiễu trộn lẫn với thoại.Thuật toán lấy ngưỡng mềm trong miền EMD được đưa ra để khắc phục hạn chế này.Nghĩa là, những mẫu có giá trị lớn hơn mức ngưỡng được trừ đi một tham số nào đó để loại thành phần nhiễu cộng với thành phần thoại.Ở đây, chúng tôi chọn tham số này bằng chính mức ngưỡng của nó.

(3.5)

Chúng ta có thể thấy rằng thuật toán lấy ngưỡng mềm khử được nhiều thành phần nhiễu hơn so với thuật toán lấy ngưỡng cứng.Tuy nhiên, trong lấy ngưỡng mềm, tín hiệu cũng bị suy biến nhiều hơn. Do đó, giải thuật lấy ngưỡng nên được chọn tùy thuộc vào yếu tố mong muốn chủ quan và khách quan. Mặc khác, chúng ta cũng không nên lấy ngưỡng tất cả các IMF bởi vì các thành phần nhiễu chỉ tập trung chủ yếu ở một vài IMF đầu tiên còn các IMF càng về sau càng có rất ít thành phần nhiễu. Do đó,

SVTH: Trần Hiếu Trung

Dương Minh Tiến 24

thuật toán chỉ lấy ngưỡng trên một số IMF đầu tiên và sau đó tín hiệu được tái tạo như sau:

Trong đó, là tín hiệu đầu ra sau khi được lọc nhiễu bằng cách tổng hợp (cộng) lại các

thành phần IMF đã lấy ngưỡng và không lấy ngưỡng, và là các hệ số tùy chọn

để thích hợp với trường hợp với từng mức SNR của tín hiệu. Thông thường, , vì

chắc chắn rằng IMF đầu tiên là IMF có chứa nhiều thành phần nhiễu nhất.

3.2 Lấy ngƣỡng EMD dựa trên đặc tính trong khoảng giữa của hai điểm về không

Thuật toán lấy ngưỡng này được thực hiện dựa trên ý tưởng lấy ngưỡng Wavelet, nhưng được thực hiện trong từng khoảng về không của các mẫu IMF và thay đổi hàm lấy ngưỡng để phù hợp với đặc tính của chúng.

Giữa phương pháp Wavelet thresholding và EMD thresholding có 2 sự khác biệt lớn: Trong phương pháp Wavelet, việc lấy ngưỡng được áp dụng trực triếp trên các thành phần wavelet. Trong khi đó EMD thì ngược lại, việc lấy ngưỡng được áp dụng lên N mẫu của mỗi IMF, mà các mẫu này về mặt cơ bản là 1 phần cấu thành tín hiệu, được chứa đựng trong mỗi băng con thích nghi.

Các IMF không tuân theo luật phân bố Gauss, không có phương sai bằng với phương sai nhiễu như các thành phần wavelet. Thực tế nhiễu trong IMF là nhiễu màu và có năng lượng khác nhau trong từng IMF khác nhau. Do đó, trong phương pháp lọc nhiễu trong miền EMD, các vector ngưỡng sẽ phụ thuộc vào từng IMF tương ứng.

Tiếp theo, chúng tôi sẽ trình bày các phương pháp xác định giá trị và thực hiện lấy ngưỡng theo các thuật toán khác nhau.

3.2.1 Lấy ngƣỡng EMD–IT

Giải thuật lấy ngưỡngcứng trong từng khoảng EMD - IT (Interval Threshoding) là thuật toán lấy ngưỡng trong miền EMD phát triển dựa trên thuật toán lấy ngưỡng

SVTH: Trần Hiếu Trung

Dương Minh Tiến 25

cứngdo Yannis K. [21], [22] đề xuất. Tuy nhiên, phương pháp này được thực hiện trên từng khoảng giữa hai điểm về không (zero crossing) thay vì trên từng hệ số của IMFđể tránh bị ảnh hưởng đáng kể đến tính liên tục của tín hiệu sau khi được tái tạo.Cụ thể là thông thường các IMF giống như những dạng sóng hình sin thu được từ các điều chế AM hoặc FM, và có trị trung bình bằng 0. Do đó, trong khoảng giữa 2 điểm về

không = [ ], giá trị tuyệt đối của IMF thứ sẽ rớt xuống dưới mức của bất kỳ

giá trị ngưỡng khác không nào trong vùng lân cận của 2 điểm về không là và .

Nói cách khác, dựa trên giá trị biên độ của các mẫu bị cô lập trong IMF, ta không thể suy ra được những mẫu đó là nhiễu hay là tín hiệu. Tuy nhiên, ta có thể phỏng đoán

được trong khoảng thì tín hiệu trội hay nhiễu trội dựa vào cực trị (cực đại hoặc

cực tiểu) trong khoảng này. Khi đó, nếu giá trị tuyệt đối của cực trị này nhỏ

hơn mức ngưỡng thì trong khoảng này không tồn tại hoặc tồn tại rất ít thành phần tín hiệu.Ngược lại, nếu khoảng này chứa đa phần là thoại thì giá trị tuyệt đối của cực trị này sẽ lớn hơn mức ngưỡng. Dựa trên đặc tính này, phương pháp lấy ngưỡng EMD- IT thực hiện lấy ngưỡng trong từng khoảng giữa hai điểm về không như sau:

Trong đó là là giá trị của các mẫu trong khoảng và của IMF thứ và

là giá trị đã lấy ngưỡng của chúng. Thuật toán này đề được Yannis [21], [22] đề xuất mức ngưỡng như sau:

(3.8)

với là năng lượng của IMF thứ , và C là hằng số có thể thay đổi đề có thể phù hợp với các tín hiệu khác nhau.

SVTH: Trần Hiếu Trung

Dương Minh Tiến 26

Hình 3.1: Thuật toán lấy ngưỡng dựa vào đặc tính của khoảng giữa hai điểm về 0 a)

trên một IMF; b) trên một đoạn của IMF trước ()và sau ( ) khi lấy ngưỡng.

Hình 3.1a cho ta thấy được IMF trước và sau khi lấy ngưỡng. Hình b1biểu diễn một đoạn IMF trước khi lấy ngưỡng và hình b2 là IMF sau khi lấy ngưỡng cứng trực tiếp được biểu diễn dưới dạng đường đứt nét, hình b3 là IMF được lấy ngưỡng cứng trên từng khoảng về không. Ta thấy 1 phần của đoạn IMF gồm những giá trị khác không sau khi lấy ngưỡng. Với cách lấy ngưỡng trực tiếp, đoạn IMF sau khi lấy ngưỡng bị mất tính liên tục khá lớn bởi vì chỉ những giá trị lớn hơn mức ngưỡng được giữ lại. Trong khi đó,với cách lấy ngưỡng theo khoảng về không,nếu cực trị trong khoảng có trị tuyệt đối lớn hơn mức ngưỡng thì toàn bộ giá trị các mẫu trong khoảng đều được giữ lại, do đó sẽ bớt bị mất tính liên tục. Điều này chắc chắn sẽ ảnh hưởng đến chất lượng tín hiệu.

SVTH: Trần Hiếu Trung

Dương Minh Tiến 27

Hình 3.2: Phương pháp EMD–IT trên tín hiệu Dopler: a) Tín hiệu bị can nhiễu có

SNR=5dB; b) tín hiệu được lọc nhiễu ( ) so với tín hiệu sạch ban đầu ( ).

Hình 3.2 thể hiện kết quả lọc nhiễu với tín hiệu Dopler có SNR=5dB, bị can nhiễu bởi nguồn nhiễu trắng. Thuật toán này thể hiện sự thích nghi với tín hiệu có dạng sóng sine như đã nói ở trên.Tín hiệu được khử nhiễu gần giống với tín hiệu sạch có 1 số điểm mà giá trị của mẫu vượt quá giá trị của mẫu tương ứng trong trong tín hiệu sạch , nguyên nhân này do nhiễu gây ra.

Sau đây, hình 3.3 biểu diễn kết quả lấy ngưỡng của một tín hiệu thoại tiếng Việt thực tế ở mức 5dB.

SVTH: Trần Hiếu Trung

Dương Minh Tiến 28

Hình 3.3: Phương pháp EMD – IT trên tín hiệu thoại thực tế: a) Tín hiệu sạch ban

đầu; b) Tín hiệu bị can nhiễu có SNR=5dB; b) Tín hiệu được lọc nhiễu.

3.2.2Lấy ngƣỡng EMD-SIT

Trong thuật toán lấy ngưỡng mềm trong từng khoảng EMD – SIT (Soft Interval Thresholding) do Yannis K. [21], [22] đề xuất, những điểm cực trị trong khoảng

[ nếu có giá trị lớn hẳn giá trị của vector ngưỡng sẽ bị trừ đi 1 khoảng là T so

Các thông số mô phỏng