NGHIÊN CỨU VÀ PHÁT TRIỂN THUẬT TOÁN ICA CHO CÁC NGUỒN CÓ TÍNH TƯƠNG QUAN CHƯƠNG I: Tổng quan về xử lý tín hiệu mù Trình bày về khái niệm, các mô hình của bài toán phân tách nguồn mù, một vài ứng dụng của bài toán phân tách nguồn mù. CHƯƠNG II: Phƣơng pháp ICA Nghiên cứu các c sở lý thuyết, điều kiện của thuật toán ICA CHƯƠNG III: Thuật toán FastICA Thuật toán FastICA, các kết quả mô phỏng. CHƯƠNG IV: Thuật toán ICA với các nguồn tƣơng quan với nhau Phát triển thuật toán FastICA áp dụng cho những nguồn có tính tư ng quan.
Trang 1HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG
-
VƯƠNG BẢO TRUNG
NGHIÊN CỨU VÀ PHÁT TRIỂN THUẬT TOÁN ICA CHO
CÁC NGUỒN CÓ TÍNH TƯƠNG QUAN
Chuyên ngành: Kỹ thuật viễn thông
Mã số: 60.52.02.08
TÓM TẮT LUẬN VĂN THẠC SĨ
HÀ NỘI – NĂM 2014
Trang 2Luận văn được hoàn thành tại:
HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG
Người hướng dẫn khoa học: TS Nguyễn Ngọc Minh
(Ghi rõ học hàm, học vị)
Phản biện 1: ……PGS.TS Nguyễn Tiến Ban……… Phản biện 2: ……PGS.TS Nguyễn Văn Khang………
Luận văn sẽ được bảo vệ trước Hội đồng chấm luận văn thạc sĩ tại Học viện Công nghệ Bưu chính Viễn thông
Vào lúc: 13 giờ 30 ngày 09 tháng 08 năm 2014
Có thể tìm hiểu luận văn tại:
- Thư viện của Học viện Công nghệ Bưu chính Viễn thông
Trang 3MỞ ĐẦU
Bài toán phân tách nguồn mù trong nhiều năm trở lại đây đã được nghiên cứu rất nhiều và áp dụng cho nhiều lĩnh vưc: viễn thông, y tế, quân sự… ây là một phư ng pháp được s dụng ph biến cho mục đích đánh giá các nguồn tín hiệu ban
đ u t tập hợp các tín hiệu trộn của ch ng, mà không có thông tin hay có rất ít thông tin) về quá trình trộn cũng như là tín hiệu gốc Có nhiều phư nng pháp để tiếp cận bài toán này như là phư ng pháp phân tích thành ph n chính, phân tích hệ số, tuy nhiên trong vòng chục năm trở lại đây, người ta đã phát triển một phư ng pháp mới gi p giải bài toán tách nguồn mù Blind Source Separation – BSS) nêu trên rất hiệu quả, đó là phân tích thành ph n độc lập Independent Component Analysis – ICA)
Mục đích của luận văn là nghiên cứu bài toán x lý tín hiệu mù và các ứng dụng Luận văn có bố cục như sau:
CHƯƠNG I: Tổng quan về xử lý tín hiệu mù
Trình bày về khái niệm, các mô hình của bài toán phân tách nguồn mù, một vài ứng dụng của bài toán phân tách nguồn mù
CHƯƠNG II: Phương pháp ICA
Nghiên cứu các c sở lý thuyết, điều kiện của thuật toán ICA
CHƯƠNG III: Thuật toán FastICA
Thuật toán FastICA, các kết quả mô phỏng
CHƯƠNG IV: Thuật toán ICA với các nguồn tương quan với nhau
Phát triển thuật toán FastICA áp dụng cho những nguồn có tính tư ng quan
Trang 4CHƯƠNG I – TỔNG QUAN VỀ XỬ LÝ TÍN HIỆU MÙ 1.1 Bài toán xử lý tín hiệu mù
Bài toán x lý tín hiệu mù là một phư ng pháp được s dụng ph biến cho mục đích đánh giá các nguồn tín hiệu ban đ u t tập hợp các tín hiệu trộn của ch ng, mà không có thông tin (hay có rất ít thông tin) về quá trình trộn cũng như là tín hiệu gốc
1.2 Các mô hình của bài toán
Trong khuôn kh luận văn này, ch ng ta giả thiết rằng mô hình bài toán
BSS/ICA là tuyến tính với số nguồn ban đ u bằng số tín hiệu trộn M = N)
Dựa trên đặc tính ma trận trộn và mối tư ng quan giữa số lượng các tín hiệu trộn và số lượng các nguồn tín hiệu ban đ u, bài toán BSP có thể được chia thành các
mô hình như sau:
Mô hình tuyến tính
Mô hình trộn chập
Mô hình tuyến tính có nhiễu
Mô hình trộn chập có nhiễu
1.3 Ứng dụng của bài toán BSP
1.3.1 Bài toán xử lý tín hiệu âm thanh
1.3.2 Hệ thống viễn thông
1.3.3 Xử lý văn bản text
1.3.4 Dự báo động đất
1.3.5 Trong quân sự
1.3.6 Xử lý tín hiệu trong y học
1.4 Minh hoạ bài toán phân tách nguồn
Trang 5CHƯƠNG II – PHƯƠNG PHÁP ICA
2.1 Cơ sở lý thuyết
2.1.1 Khái niệm độc lập
ộc lập thống kê của các biến xác suất hay biến cố chỉ việc giữa các biến không
có quan hệ thống kê gì với nhau Trong lý thuyết xác suất, nói rằng hai biến cố là độc lập một cách trực quan có nghĩa là việc một biến cố trong đó xảy ra không làm tăng hay giảm khả năng biến cố kia xảy ra
Trong mô hình toán học, độc lập được định nghĩa bởi hàm mật độ xác suất
(Probality Density Function- PDF) Những biến ngẫu nhiên s 1 , s 2 …., s n là độc lập nếu hàm phân bố xác suất có thể tìm được th a số là :
( ) ( ) ( ) ( ) (2.1) với ( ) biểu diễn hàm phân bố xác suất của và p i (s i )
biểu diễn hàm phân bố xác suất của s i
2.1.2 Khái niệm bất tương quan
Bất tư ng quan được định nghĩa là:
{( * +)( { })} (2.2)
hoặc biểu thức
{ } * + { } (2.3) giá trị E{.} biểu diễn giá trị được kì vọng
2.1.3 Phân bố Gauss
Phân phối chuẩn, còn gọi là phân phối Gauss, là một phân phối xác suất cực kì
quan trọng trong nhiều lĩnh vực Một biến ngẫu nhiên X có kỳ vọng và phư ng sai được gọi là có phân bố Gauss nếu hàm mật độ xác suất của nó dạng:
( )
√ ( )
/ (2.4)
Supper Gauss
Hàm phân bố dạng Supper Gauss là hàm phân bố mật độ xác suất đặc biệt: hàm khá là lớn khi các biến có giá trị tư ng đối g n không hoặc là có giá trị lớn, tại các giá trị trung bình thì hàm mật độ xác suất khá là nhỏ Một ví dụ điển hình của Supper Gauss là phân bố Laplace Phân bố Laplace có công thức như sau:
( )
( ) (2.5)
Trang 6Sub Gauss
Hàm phân bố dạng Sub Gauss có phân bố xác suất dẹt, hàm phân bố rất ít ở các giá trị lớn và giá trị g n 0, phân bố nhiều ở các giá trị trung bình Một ví dụ điển hình
là phân bố uniform, thường được dùng trong giả lập máy tính:
( ) {
(2.6)
2.2 Phương pháp ICA
2.2.1 Định lý giới hạn trung tâm
Tín hiệu quan sát được = m1IC1 + m2IC2 + … + mnICn
Tiến t i Gauss phi Gauss phi Gauss phi Gauss
Hình 2.1: Minh họa định lý giới hạn trung tâm
ịnh lý chỉ ra rằng nếu , là t hợp tuyến tính của các tín hiệu nguồn , thì sẽ có tính Gauss h n , và ngược lại sẽ có tín phi Gauss h n
2.2.2 Điều kiện của mô hình ICA
Mô hình ICA c bản đòi hỏi các giả thiết cho việc phân tách các thành ph n độc lập:
Các nguồn tín hiệu ban đ u phải độc lập thống kê với nhau
Không có thành ph n độc lập nào (nguồn) có phân bố Gauss, hoặc tối đa chỉ có 1 nguồn có phân bố Gauss
Ma trận trộn A là ma trận vuông (số tín hiệu nguồn bằng số tín hiệu trộn)
Trang 72.2.3 Một số bất định trong mô hình ICA tuyến tính
Mô hình ICA tuyến tính không thể xác định lại được chính xác
năng lượng ban đ u của của các nguồn tín hiệu nguyên thu do cả s và A
đều không biết nên:
Mô hình ICA tuyến tính không thể xác định được thứ tự ban đ u
các thành ph n độc lập khi phân tách do cả s và A đều không biết nên khi
đ i vị trí các hàng trong s và A mô hình ICA không thay đ i
Trang 8CHƯƠNG III – THUẬT TOÁN FASTICA 3.1 Khái niệm Negentropy
Entropy là lý thuyết c bản của lý thuyết thông tin Entropy của một giá trị ngẫu nhiên được liên hệ tới thông tin mà sự quan sát các giá trị đưa ra Càng ”ngẫu nhiên”,
ví dụ các giá trị không dự đoán được và không cấu tr c được, entropy của nó càng lớn
Entropy H của vecto ngẫu nhiên y với mật độ ( ) được xác định như sau:
( ) ∫ ( ) ( ) (3.1) Khái niệm negentropy ra đời để đánh giá tính phi Gauss của một phân
bố ngẫu nhiên ịnh nghĩa negentropy J của một biến vector x ngẫu nhiên N
chiều như sau:
( ) ( ) ( ) (3.2) Trong đó H là hàm entropy, là một vector ngẫu nhiên N chiều có phân
bố Gaussian, và có chung ma trận hiệp phư ng sai với vector x Lý thuyết xác suất thống kê đã chứng minh được, biến ngẫu nhiên có tính phi Gauss càng lớn nếu negentropy của nó càng lớn
3.2 ICA bằng cực đại hoá Negentropy
Phư ng pháp này gồm 3 bước: Tiền x lý dữ liệu, ấp xỉ hoá negentropy, Tối
ưu hoá hàm xấp xỉ negentropy
3.2.1 Qúa trình tiền xử lý
Quy tâm
Nếu các tín hiệu chưa có giá trị trung bình bằng 0, ch ng ta có thể thực hiện quá trình tiền x lý, gọi là phép quy tâm tức tr phân bố của các biến được khảo sát với các giá trị trung bình của ch ng:
– * + (3.3) Trong đó là vecto ngẫu nhiên chưa có trung bình là không Sau khi đã ước lượng ma trận A và các thành ph n s ta có thể thêm trở lại các trị trung bình của chúng:
* + * + (3.4) Khi vecto ngẫu nhiên hoặc s) có trị trung bình bằng không thì hiệp phư ng sai và tư ng quan của nó giống nhau
Trắng hoá
Trang 9Cho các biến ngẫu nhiên, có thể đ n giản biến đ i tuyến tính ch ng thành các biến bất tư ng quan Do đó, nó sẽ là xu hướng cố gắng ước lượng các thành ph n độc
lập theo một phư ng pháp thường được gọi là trắng hóa hay sphering, và thường thực
hiện bởi phư ng pháp phân tích thành ph n chính
uá trình trắng hoá thực chất là một phép biến đ i tuyến tính: z=V.x Trong đó
x là dữ liệu c n làm trắng, V là ma trận trắng hoá, zlà dữ liệu đã trắng hoá
Vai trò của trắng hoá
Với một tín hiệu đã trắng hóa z, nhiệm vụ còn lại của ICA là tìm ra một vecto w
sao cho đạt giá trị phi Gaussian cực đại dưới điều kiện ràng buộc * +
Khi đó y i sẽ tư ng ứng với một nguồn tín hiệu ban đ u
3.2.2 Xấp xỉ hoá negentropy
ối với một biến ngẫu nhiên phân bố Gauss, negentropy luôn bằng 0 và với tất
cả các loại biến còn lại phi Gauss) negentropy luôn có giá trị dư ng Tuy nhiên vấn
đề ở chỗ ch ng ta không thể tính negentropy một cách trực tiếp , mà phải đánh giá negentropy thông qua việc xấp xỉ hoá
3.3 Thuật toán FastICA
Nguyên tắc c bản của đánh giá ICA là tìm một tập hợp những tín hiệu nguồn
t ước lượng tính phi gauss lớn nhất Do đó đánh giá mô hình dữ liệu của ICA thường được thực hiện bởi một hàm gọi là hàm tối ưu và một phư ng pháp tối ưu
Như vậy ta có thể đưa ra công thức như sau:
Phương pháp ICA = Hàm tối ưu + Thuật toán tối ưu
Trang 10Thuật toán FastICA đối với dữ liệu đã trắng hoá được thực hiện theo các bước sau:
Start
Loại bỏ giá trị trung bình của X
Khởi tạo
Quy tâm
Trắng hóa dữ liệu
Khởi tạo cho ICA
Hội tụ
Tất cả các thành phần ?
In kết quả Tính toán thành phần độc lập
End Yes
No
No Yes
Hình 3.1: Lưu đồ thuật toán FastICA
3.4 Mô phỏng ứng dụng
3.4.1 Mô phỏng tách mù hình ảnh
3.4.2 Mô phỏng tách nguồn mù âm thanh
3.4.3 Mô phỏng loại bỏ nhiễu trong xử lý ảnh
3.5 Đánh giá chất lượng phân tách
Trang 11CHƯƠNG IV – THUẬT TOÁN ICA VỚI CÁC NGUỒN CÓ
TƯƠNG QUAN VỚI NHAU
Tôi đã nghiên cứu một phư ng pháp cải tiến của phư ng pháp ICA, dựa vào sự độc lập tư ng hỗ giữa các sai số của kết quả dự báo chuỗi tốt nhất Innovation Process-IP) của các tín hiệu thu để giải quyết bài toán BSS trong trường hợp số nguồn bằng số sensor
4.1 Qúa trình inovation
Tôi giả thiết mỗi nguồn tín hiệu là kết quả đ u ra khi cho một IP qua một bộ lọc tự hồi quy A Autoregressive) bậc P Với một nguồn tín hiệu xác định sj n), tôi định nghĩa IP ( ) là sai số nhỏ nhất theo phư ng pháp sai số bình phư ng cực tiểu) giữa ( ) và dự đoán xấp xỉ tuyến tính của nó t P mẫu quá khứ Thuật ngữ innovation” diễn đạt ( ) chứa đựng toàn bộ thông tin mới của tín hiệu tại thời điểm
n Theo định nghĩa trên, ta có:
( ) ( ) ∑ ( ) (4.1) Nếu ký hiệu ( ) , ( ) ( )-và ( ) , ( ) ( )-, do
ma trận H là khả nghịch ch ng ta có b đề sau : ếu s và x th a m n m h nh tu ến t nh của ài toán th các IP c ng tho m n m h nh sau
( ) ( ) (4.2)
4.2 Ưu điểm của quá trình innovation
S dụng IP để đánh giá sẽ thường cho kết quả tốt h n là dùng bản thân nguồn tín hiệu gốc Ta có được điều này bởi phư ng pháp ICA là phư ng pháp tách nguồn mù với giả thiết các nguồn độc lập với nhau và chỉ có nhiều nhất một nguồn có tính Gauss Ước lượng mô hình ICA càng chính xác khi các thành ph n được xét đến càng độc lập và càng
ít có tính Gauss
Các IP thường có sự độc lập với nhau h n bản thân các tín hiệu Bởi vì, nếu dữ liệu ban đ u là độc lập thì IP cũng sẽ độc lập, nhưng không có chiều ngược lại
Các IP thường có tính phi Gauss h n bản thân các tính hiệu gốc
4.3 Thuật toán đề xuất
Bước đ u tiên, thực hiện quá trình trắng hoá” dữ liệu bằng ma trận trắng hoá V
để dữ liệu sau trắng hoá” là bất tư ng quan và có phư ng sai đ n vị:
( ) ( ) (4.3)
Trang 12Nhiệm vụ còn lại của ICA là xác định ma trận tách có kích thước NxN sao cho vector:
( ) , ( ) ( )- ( ) (4.4)
tư ng đư ng với N thành ph n tín hiệu gốc ban đ u
Tôi sẽ s dụng IP của y n) để xác định ma trận tách Trong thuật toán đề xuất tôi dùng mô hình A 1) Do đó quá trình innovation của ( ) ( ), với wi là
vector hàng thứ i của ma trận tách trong thuật toán được xác định như sau:
( ) ( ) ( ) (4.5) Tham số được xác định theo phư ng pháp sai số bình phư ng cực tiểu:
* ( ) ( ) + (4.6) Trong thuật toán đề xuất, tôi s dụng phư ng pháp ICA dựa trên sự độc lập tư ng
hỗ giữa các IP
4.4 Kết quả thực nghiệm
4.4.1 Xử lý âm thanh
4.4.2 Xử lý hình ảnh
Trang 13KẾT LUẬN VÀ KIẾN NGHỊ
Phân tích thành ph n độc lập ICA) là một kỹ thuật thống kê t ng quát để giải quyết bài toán BSS, ở đó dữ liệu độc lập được xem xét để tách bằng cách đưa các thành ph n độc lập lớn nhất, đã ước lượng được t những thành ph n khác nhau dưới giả thiết là không có hoặc có tối đa một nguồn có phân bố Gauss Tuy nhiên đối với các nguồn có tính tư ng quan lớn thì kĩ thuật ước lượng FastICA không đánh giá được tốt các tín hiệu ban đ u
Trong luận văn này, ta đã nghiên cứu và phát triển một giải pháp ICA tuyến tính trong trường hợp các nguồn tín hiệu có sự tư ng quan thời gian thông qua khái niệm sai số của kết quả dự báo chuỗi tốt nhất Innovation Process-IP) Kết quả thực nghiệm cũng chỉ ra trong nhiều trường hợp việc đánh giá mô hình ICA tuyến tính bằng phư ng pháp s dụng tính độc lập tư ng hỗ giữa các IP cho kết quả tốt h n phư ng pháp ICA thông thường Giải pháp này có thể được áp dụng cho các ứng dụng của BSS trong lĩnh vực y tế như x lý hình ảnh FM I, tín hiệu EEG, MEG và trong x lý ảnh nói chung như loại bỏ nhiễu, khôi phục ảnh
Trong thực tế, bài toán BSS rất phong ph , đa dạng tuyến tính, trộn chập, có nhiễu, không có nhiễu), đồng thời cũng có rất nhiều nghiên cứu xoay quanh vấn đề này Bời trong khuôn kh của luận văn tôi chỉ giới thiệu, tìm hiểu, nghiên cứu về mô hình tuyến tính của BSS với số tín hiệu nguồn bằng số tín hiệu trộn
Do thời gian có hạn và những hạn chế không tránh khỏi của việc hiểu biết các vấn đề dựa trên lý thuyết là chính nên báo cáo luận văn của tôi chắc chắn không tránh khỏi những thiếu sót.Tôi rất mong có được những ý kiến đánh giá, góp ý của các th y
và các bạn để đồ án thêm hoàn thiện