-16- Tìm hiểu phương pháp phân tích các thành phần độc lập và ứng dụng trong khaiphádữ liệu. Họ và Tên: Nguyễn Khắc Chung Lớp: K48CC Mã số sinh viên: 0320034 Giáo viên hướng dẫn: PGS.TS Nguyễn Ngọc Bình Cấu trúc bài luận văn gồm 5 chương: Chương I: Nêu mộtsố vấn đề liên quan đến khaiphádữ liệu: -Định nghĩa khaiphádữ liệu: Khaiphádữliệu được định nghĩa như là việc đưa ra những cái mới, những thông tin lý thú từ các tập dữliệu lớn. Data mining là lĩnh vực xuất hiện khá lâu và đã thu hút được nhiều sự quan tâm, nghiên cứu của các nhà khoa học. -Phạm vi ứng dụng của khaiphádữ liệu: Nêu phạm vi ứng dụng của khaiphádữliệu trong các lĩnh vực: +Phân chia thị trường. +Dự báo khách hàng. +Phát hiện gian lận. Phần tiếp theo của chương I là xác định bài toán và cấu trúc của khóa luận: Xác định bài toán: Đề tài mà tôi nghiên cứu và thực hiện: Tìm hiểu phương pháp phân tích các thành phần độc lập và ứng dụng trong khaiphádữliệu xuất phát từ mong muốn tìm hiểu những lý thuyết cơ bản về phương pháp phân tích các thành phần độc lập Chương II: Tìm hiểu về ICA 2.1 Giới thiệu mộtsố phương pháp: 2.1.1 Sự miêu tả tuyến tính của dữliệu đa biến (multivariate data): 2.1.1.1 Tổng quan về tập hợp thống kê (The general statistical setting): Phần này chúng ta sẽ nghiên cứu về phần thống kê tập hợp. Chúng ta giả sử rằng dữliệu bao gồm mộtsố các biến mà chúng được quan sát cùng nhau. Chúng ta có thể biểu diễn dữliệu bởi x i (t) với i =1,….,m và t =1,…T. Kích cỡ của m và T có thể là rất lớn. Một công thức được đưa ra: y i (t) = ∑ j w ij x j (t) với i=1,…,n j=1, ,m (2.1) w ij là các hệ số mà định nghĩa sự trình bày. 2.1.1.2. Phương pháp biến đổi chiều: Một phương pháp thống kê cơ bản cho việc chọn ma trận W là giới hạn số các thành phần y i là khá nhỏ, có thể chỉ là 1 hoặc 2, và xác định W đến khi y i bao gồm nhiều thông tin trong dữ liệu. Sự hướng dẫn này đến một kĩ thuật gọi là phân tích các thành phần chủ yếu hoặc phân tích tác nhân. 2.1.1.3 Độc lập như là một hướng dẫn chủ yếu: Phần này chúng ta sẽ phân tích như thế nào là độc lập. 2.1.2 Sự chia cắt tài nguyên mù quáng (không thấy được): -17- Phần này chúng ta sẽ quan sát các hỗn hợp tài nguyên không xác định trước ví dụ như các tín hiệu trong tự nhiên, âm thanh thu được từ loa, các tín hiệu điện… Từ đó chúng ta giới thiệu cơ sở của việc phân tách tài nguyên độc lập. 2.2 Phân tích các thành phần độc lập: Phần này chúng ta định nghĩa phương pháp ICA: Cho một tập quan sát của các biến ngẫu nhiên (x 1 (t), x 2 (t),….,x n (t)), với t là thời gian hoặc là các chỉ số mẫu. Giả sử rằng chúng được tạo như một hỗn hợp tuyến tính của các thành phần độc lập. A là ma trận chưa biết. 2.2.2 Các ứng dụng của ICA: Đưa ra các ứng dụng của ICA : -Phân tách các nhân tố trong MEG -Tìm kiếm các nhân tố ẩn trong dữliệu tài chính. - Giảm nhiễu trong các hình ảnh tự nhiên. -Viễn thông. 2.3. Độc lập là gì ? Đưa ra định nghĩa độc lập và các thuộc tính cơ bản của nó. Đưa ra định nghĩa tương quan giữa các biến, các biến Gaussian. 2.4 Sự ước lượng cơ bản của ICA: Đưa ra các ước lượng cơ bản của ICA: -Nongaussian. -Sự tối thiểu thông tin của nhau. -Sự ước lượng cho phép có xác suất tối đa. 2.5 Tiền xử lý cho ICA: Trong phần này, chúng ta sẽ đưa ra mộtsố kĩ thuật tiền xử lý để giải quyết vấn đề ICA ở điều kiện tốt hơn và đơn giản hơn. -Centerning -Whitening 2.6 Thuật toán FastICA: FastICA có các thuật toán: - FastICA cho một đơn vị. - FastICA cho một vài đơn vị - FastICA và phương pháp chọn giá trị cho phép có xác suất tối đa. Chương III: Ứng dụng của ICA trong khaiphádữ liệu. Chương này ta đưa ra ứng dụng của ICA trong mộtsố lĩnh vực của ICA trong khaiphádữ liệu: - Trong khaiphá văn bản. - Tìm cấu trúc trong dữliệu nhị phân. - … Chương IV: Thực nghiệm Phần này sẽ đưa ra bài toán trong khaiphádữliệuvà giải quyết bằng ICA. Đưa ra ứng dụng lập trình. Đưa ra các phương pháp triển khai. Chương V: Tổng kết Chương này tổng kết những kết quả đạt được và chưa đạt được trong quá trình nghiên cứu và thực hiện trong khóa luận. Từ đó nêu lên các kết quả cần hướng tới và h ướng nghiên cứu, phát triển tiếp theo. . văn gồm 5 chương: Chương I: Nêu một số vấn đề liên quan đến khai phá dữ liệu: -Định nghĩa khai phá dữ liệu: Khai phá dữ liệu được định nghĩa như là việc. ra ứng dụng của ICA trong một số lĩnh vực của ICA trong khai phá dữ liệu: - Trong khai phá văn bản. - Tìm cấu trúc trong dữ liệu nhị phân. - … Chương IV: