043_Tìm hiểu và triển khai một số kỹ thuật khai phá dữ liệu

2 744 2
043_Tìm hiểu và triển khai một số kỹ thuật khai phá dữ liệu

Đang tải... (xem toàn văn)

Thông tin tài liệu

-16- Tìm hiểu phương pháp phân tích các thành phần độc lập ứng dụng trong khai phá dữ liệu. Họ Tên: Nguyễn Khắc Chung Lớp: K48CC Mã số sinh viên: 0320034 Giáo viên hướng dẫn: PGS.TS Nguyễn Ngọc Bình Cấu trúc bài luận văn gồm 5 chương: Chương I: Nêu một số vấn đề liên quan đến khai phá dữ liệu: -Định nghĩa khai phá dữ liệu: Khai phá dữ liệu được định nghĩa như là việc đưa ra những cái mới, những thông tin lý thú từ các tập dữ liệu lớn. Data mining là lĩnh vực xuất hiện khá lâu đã thu hút được nhiều sự quan tâm, nghiên cứu của các nhà khoa học. -Phạm vi ứng dụng của khai phá dữ liệu: Nêu phạm vi ứng dụng của khai phá dữ liệu trong các lĩnh vực: +Phân chia thị trường. +Dự báo khách hàng. +Phát hiện gian lận. Phần tiếp theo của chương I là xác định bài toán cấu trúc của khóa luận: Xác định bài toán: Đề tài mà tôi nghiên cứu thực hiện: Tìm hiểu phương pháp phân tích các thành phần độc lập ứng dụng trong khai phá dữ liệu xuất phát từ mong muốn tìm hiểu những lý thuyết cơ bản về phương pháp phân tích các thành phần độc lập Chương II: Tìm hiểu về ICA 2.1 Giới thiệu một số phương pháp: 2.1.1 Sự miêu tả tuyến tính của dữ liệu đa biến (multivariate data): 2.1.1.1 Tổng quan về tập hợp thống kê (The general statistical setting): Phần này chúng ta sẽ nghiên cứu về phần thống kê tập hợp. Chúng ta giả sử rằng dữ liệu bao gồm một số các biến mà chúng được quan sát cùng nhau. Chúng ta có thể biểu diễn dữ liệu bởi x i (t) với i =1,….,m t =1,…T. Kích cỡ của m T có thể là rất lớn. Một công thức được đưa ra: y i (t) = ∑ j w ij x j (t) với i=1,…,n j=1, ,m (2.1) w ij là các hệ số mà định nghĩa sự trình bày. 2.1.1.2. Phương pháp biến đổi chiều: Một phương pháp thống kê cơ bản cho việc chọn ma trận W là giới hạn số các thành phần y i là khá nhỏ, có thể chỉ là 1 hoặc 2, xác định W đến khi y i bao gồm nhiều thông tin trong dữ liệu. Sự hướng dẫn này đến mộtthuật gọi là phân tích các thành phần chủ yếu hoặc phân tích tác nhân. 2.1.1.3 Độc lập như là một hướng dẫn chủ yếu: Phần này chúng ta sẽ phân tích như thế nào là độc lập. 2.1.2 Sự chia cắt tài nguyên mù quáng (không thấy được): -17- Phần này chúng ta sẽ quan sát các hỗn hợp tài nguyên không xác định trước ví dụ như các tín hiệu trong tự nhiên, âm thanh thu được từ loa, các tín hiệu điện… Từ đó chúng ta giới thiệu cơ sở của việc phân tách tài nguyên độc lập. 2.2 Phân tích các thành phần độc lập: Phần này chúng ta định nghĩa phương pháp ICA: Cho một tập quan sát của các biến ngẫu nhiên (x 1 (t), x 2 (t),….,x n (t)), với t là thời gian hoặc là các chỉ số mẫu. Giả sử rằng chúng được tạo như một hỗn hợp tuyến tính của các thành phần độc lập. A là ma trận chưa biết. 2.2.2 Các ứng dụng của ICA: Đưa ra các ứng dụng của ICA : -Phân tách các nhân tố trong MEG -Tìm kiếm các nhân tố ẩn trong dữ liệu tài chính. - Giảm nhiễu trong các hình ảnh tự nhiên. -Viễn thông. 2.3. Độc lập là gì ? Đưa ra định nghĩa độc lập các thuộc tính cơ bản của nó. Đưa ra định nghĩa tương quan giữa các biến, các biến Gaussian. 2.4 Sự ước lượng cơ bản của ICA: Đưa ra các ước lượng cơ bản của ICA: -Nongaussian. -Sự tối thiểu thông tin của nhau. -Sự ước lượng cho phép có xác suất tối đa. 2.5 Tiền xử lý cho ICA: Trong phần này, chúng ta sẽ đưa ra một sốthuật tiền xử lý để giải quyết vấn đề ICA ở điều kiện tốt hơn đơn giản hơn. -Centerning -Whitening 2.6 Thuật toán FastICA: FastICA có các thuật toán: - FastICA cho một đơn vị. - FastICA cho một vài đơn vị - FastICA phương pháp chọn giá trị cho phép có xác suất tối đa. Chương III: Ứng dụng của ICA trong khai phá dữ liệu. Chương này ta đưa ra ứng dụng của ICA trong một số lĩnh vực của ICA trong khai phá dữ liệu: - Trong khai phá văn bản. - Tìm cấu trúc trong dữ liệu nhị phân. - … Chương IV: Thực nghiệm Phần này sẽ đưa ra bài toán trong khai phá dữ liệu giải quyết bằng ICA. Đưa ra ứng dụng lập trình. Đưa ra các phương pháp triển khai. Chương V: Tổng kết Chương này tổng kết những kết quả đạt được chưa đạt được trong quá trình nghiên cứu thực hiện trong khóa luận. Từ đó nêu lên các kết quả cần hướng tới h ướng nghiên cứu, phát triển tiếp theo. . văn gồm 5 chương: Chương I: Nêu một số vấn đề liên quan đến khai phá dữ liệu: -Định nghĩa khai phá dữ liệu: Khai phá dữ liệu được định nghĩa như là việc. ra ứng dụng của ICA trong một số lĩnh vực của ICA trong khai phá dữ liệu: - Trong khai phá văn bản. - Tìm cấu trúc trong dữ liệu nhị phân. - … Chương IV:

Ngày đăng: 06/10/2013, 20:20

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan