Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 28 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
28
Dung lượng
1,93 MB
Nội dung
Báo cáo chuyên đề - Khai Phá Dữ Liệu và Kho Dữ liệu GVHD: PGS.TS.Đỗ Phúc HVTH: Vương Thị Ngọc Ẩn- CH1101063 Trang: 1 ĐẠI HỌC QUỐC GIA ĐẠI HỌC CÔNG NGHỆ THÔNG TIN TP. HỒ CHÍ MINH CHƯƠNG TRÌNH ĐẠO TẠO THẠC SĨ CNTT KHÓA 6 ________ ________ BÁO CÁO CHUYÊN ĐỀ KHAI PHÁ DỮ LIỆU VÀ KHO DỮ LIỆU Đề tài: PHƯƠNG PHÁP PHÂN CỤM DỮ LIỆU GVHD: PGS.TS. ĐỖ PHÚC SVTH: VƯƠNG THỊ NGỌC ẨN MAHV: CH1101063 TP. HCM, 11/2012 Báo cáo chuyên đề - Khai Phá Dữ Liệu và Kho Dữ liệu GVHD: PGS.TS.Đỗ Phúc MỤC LỤC CHƯƠNG TRÌNH ĐẠO TẠO THẠC SĨ CNTT KHÓA 6 1 TP. HCM, 11/2012 1 CHƯƠNG 1. TỔNG QUAN LÝ THUYẾT VỀ PHÂN CỤM DỮ LIỆU 1 1. Kỹ thuật phân cụm dữ liệu (Clustering): 1 2. Phân cụm dữ liệu là gì? 1 3. Một số ứng dụng tiêu biểu của phân cụm: 1 CHƯƠNG 2. TÌM HIỂU MỘT SỐ THUẬT TOÁN PHÂN CỤM DỮ LIỆU 3 1.Thuật toán K-Means 3 2.Thuật toán K-Medoids 7 3.Thuật toán K-Nearest Neighbors (KNN) 10 4.Thuật toán Fuzzy C-Mean(FCM) 14 5. Tối ưu hóa các tham số cho thuật toán phân nhóm FUZZY C-MEAN 17 22 6. Tối ưu hóa trọng số cho thuật toán phân lớp KNN 23 KẾT LUẬN, HƯỚNG PHÁT TRIỂN CỦA ĐỒ ÁN 25 1.Kết quả đạt được 25 2.Chưa đạt được: 25 TÀI LIỆU THAM KHẢO 25 HVTH: Vương Thị Ngọc Ẩn- CH1101063 Trang: 2 Báo cáo chuyên đề - Khai Phá Dữ Liệu và Kho Dữ liệu GVHD: PGS.TS.Đỗ Phúc MỞ ĐẦU Ngày nay sự phát triển mạnh mẽ của CNTT đã làm cho khả năng thu thập và lưu trữ thông tin của các hệ thống thông tin tăng nhanh. Bên cạnh đó, các hoạt động sản xuất, kinh doanh và nhiều lĩnh vực hoạt động khác đã tạo ra cho chúng ta một lượng dữ liệu lưu trữ khổng lồ. Hàng triệu CSDL đã được sử dụng trong các hoạt động sản xuất, kinh doanh, quản lý…trong đó có nhiều CSDL cực lớn. Để đáp ứng được yêu cầu này, cấp thiết phải có những kỹ thuật và công cụ mới để chuyển đổi dữ liệu khổng lồ này thành tri thức có ích. Từ đó các kỹ thuật khai phá dữ liệu đã trở thành một lĩnh vực quan tâm hàng đầu của ngành CNTT hiện nay. Khai phá dữ liệu đang được áp dụng một cách rộng rãi trong nhiều lĩnh vực khác nhau. Bài thu hoạch này trình bày một số kỹ thuật phân cụm dữ liệu, chuẩn hóa tham số cho một số thuật toán. Em xin chân thành cảm ơn PGS.TS. Đỗ Phúc đã tận tình giảng dạy, truyền đạt những kiến thức quý báu và hướng dẫn về nguồn tài liệu tham khảo để em có thể hoàn thành môn học này. Em xin chân thành cảm ơn! HVTH: Vương Thị Ngọc Ẩn- CH1101063 Trang: 3 Báo cáo chuyên đề - Khai Phá Dữ Liệu và Kho Dữ liệu GVHD: PGS.TS.Đỗ Phúc CHƯƠNG 1. TỔNG QUAN LÝ THUYẾT VỀ PHÂN CỤM DỮ LIỆU 1. Kỹ thuật phân cụm dữ liệu (Clustering): - Phân cụm dữ liệu là phương pháp phân hoạch tập hợp dữ liệu thành nhiều tập con C sao cho mỗi tập con c ⊂ C chứa các phầntử có những tính chất giống nhau theo tiêu chuẩn nào đó, mỗi tập con c được gọi là một cụm. - Như vậy quá trình phân cụm là một quá trình phân các phần tử q ∈ Q vào trong các cụm c ⊂C - Nguyên lý thường được dùng để phân cụm dữ liệu là nguyên tắc cực tiểu khoảng cách (thường là khoảng cách Euclide). 2. Phân cụm dữ liệu là gì? - Phân cụm là một tiến trình gom nhóm các vector đặc trưng vào trong các cụm. - Phân các đối tượng dữ liệu tương tự với một đối tượng khác trong cùng cụm. - Phân các đối tượng dữ liệu không tương tự với các đối tượng trong cụm khác. - Mục tiêu của phân cụm : để gom tập các đối tượng thành các nhóm. - Phân cụm dữ liệu là hình thức học không giám sát trong đó các mẫu học chưa được gán nhãn. - Các điểm dữ liệu trong các cụm khác nhau có độ tương tự thấp hơn các điểm nằm trong cùng một cụm. 3. Một số ứng dụng tiêu biểu của phân cụm: - Xem xét phân bố dữ liệu - Tiền xử lý cho các thuật toán khác. - Khám phá thói quen và nhu cầu của khách hàng để có phương pháp tiếp thị thích hợp. - Phân loại đất theo công năng hoặc thực tế sử dụng đề có chính sách quy hoạch phù hợp - Phân loại nhà theo vị trí, giá trị - Phân loại khách hàng để có chính sách bảo hiểm hợp lý. - Phân loại bệnh nhân. • Một số phương pháp phân cụm tốt nếu đạt được tính chất sau: - Có độ tương tự cao trong cùng cụm. - Có độ tương tự thấp giữa các cụm - Có khả năng phát hiện các mẫu ẩn. - Có khả năng làm việc hiệu quả với lượng dữ liệu lớn. - Có khả năng làm việc với nhiều loại dữ liệu khác nhau. HVTH: Vương Thị Ngọc Ẩn- CH1101063 Trang: 1 Báo cáo chuyên đề - Khai Phá Dữ Liệu và Kho Dữ liệu GVHD: PGS.TS.Đỗ Phúc - Có khả năng khám phá ra các cụm có phân bố theo các dạngkhác nhau. - Yêu cầu tối thiểu tri thức lĩnh vực nhằm xác định các tham biến nhập. - Có khả năng làm việc với nhiễu và mẫu cá biệt. - Không bị ảnh hưởng bởi thứ tự nhập của dữ liệu. - Làm việc tốt trên cơ sở dữ liệu có số chiều cao. - Chấp nhận các ràng buộc do người dùng chỉ định. - Có thể hiểu và sử dụng được kết quả gom cụm • Dựa trên cách tiếp cận và thuật toán sử dụng, người ta phân các thuật toán phân cụm theo các phương pháp chính sau: a. Thuật toán phân cụm dữ liệu dựa vào phân cụm phân cấp Thuật toán BIRCH Thuật toán CURE Thuật toán ANGNES Thuật toán DIANA Thuật toán ROCK Thuật toán Chameleon b. Thuật toán phân cụm dữ liệu mờ Thuật toán FCM Thuật toán εFCM c. Thuật toán phân cụm dữ liệu dựa vào cụm trung tâm Thuật toán K – MEANS Thuật toán K- MEDOIDS Thuật toán K-Nearest Neighbors (KNN Thuật toán PAM Thuật toán CLARA Thuật toán CLARANS d. Thuật toán phân cụm dữ liệu dựa vào tìm kiếm Thuật toán di truyền (GAS) J- Means e. Thuật toán phân cụm dữ liệu dựa vào HVTH: Vương Thị Ngọc Ẩn- CH1101063 Trang: 2 Báo cáo chuyên đề - Khai Phá Dữ Liệu và Kho Dữ liệu GVHD: PGS.TS.Đỗ Phúc STING Thuật toán CLIQUE Thuật toán WaveCluster f. Thuật toán phân cụm dữ liệu dựa vào mật độ Thuật toán DBSCAN Thuật toán OPTICS Thuật toán DENCLUDE g. Thuật toán phân cụm dữ liệu dựa trên mẫu Thuật toán EM Thuật toán COBWEB CHƯƠNG 2. TÌM HIỂU MỘT SỐ THUẬT TOÁN PHÂN CỤM DỮ LIỆU 1. Thuật toán K-Means Đây là thuật toán nổi tiếng và được sử dụng nhiều nhất trong hướng tiếp cận phân nhóm phân hoạch. Thuật toán này có nhiều biến thể khác nhau nhưng được đưa ra đầu tiên bởi J.B MacQueen vào năm 1967. Đầu vào của thuật toán này là một tập gồm n mẫu và một số nguyên K. Cần phân n đối tượng này thành K cluster sao cho sự giống nhau giữa các mẫu trong cùng cluster là cao hơn là giữa các đối tượng khác cluster. Tư tưởng của thuật toán này như sau: Đầu tiên chọn ngẫu nhiên K mẫu, mỗi mẫu này coi như biểu diễn 1 cluster, như vậy lúc này trong mỗi cluster thì đối mẫu đó cũng là tâm của cluster (hay còn gọi là nhân). Các mẫu còn lại được gán vào một nhóm nào đó trong K nhóm đã có sao cho tổng khoảng cách từ nhóm mẫu đó đến tâm của nhóm là nhỏ nhất. Sau đó tính lại tâm cho các nhóm và lặp lại quá trình đó cho đến khi hàm tiêu chuẩn hội tụ. Hàm tiêu chuẩn hay được dùng nhất là hàm tiêu chuẩn sai-số vuông. Thuật toán này có thể áp dụng được đối với CSDL đa chiều, nhưng để dễ minh họa chúng tôi mô tả thuật toán trên dữ liệu hai chiều. Phát biểu bài toán: • Input Tập các đối tượng X = {x i | i = 1, 2, …, N}, HVTH: Vương Thị Ngọc Ẩn- CH1101063 Trang: 3 Báo cáo chuyên đề - Khai Phá Dữ Liệu và Kho Dữ liệu GVHD: PGS.TS.Đỗ Phúc Số cụm: K • Output Các cụm C i ( i = 1 ÷ K) tách rời và hàm tiêu chuẩn E đạt giá trị tối thiểu. Khái quát về thuật toán • Thuật toán hoạt động trên 1 tập vectơ d chiều, tập dữ liệu X gồm N phần tử: X = {x i | i = 1, 2, …, N} • K-Mean lặp lại nhiều lần quá trình: Gán dữ liệu. Cập nhật lại vị trí trọng tâm. • Quá trình lặp dừng lại khi trọng tâm hội tụ và mỗi đối tượng là 1 bộ phận của 1 cụm. • Hàm đo độ tương tự sử dụng khoảng cách Euclidean E = Trong đó c j là trọng tâm của cụm C j • Hàm trên không âm, giảm khi có 1 sự thay đổi trong 1 trong 2 bước: gán dữ liệu và định lại vị trí tâm. Các bước của thuật toán • Bước 1 - Khởi tạo Chọn K trọng tâm {c i } (i = 1÷K). • Bước 2 - Tính toán khoảng cách • Bước 3 - Cập nhật lại trọng tâm • Bước 4 – Điều kiện dừng Lặp lại các bước 2 và 3 cho tới khi không có sự thay đổi trọng tâm của cụm. HVTH: Vương Thị Ngọc Ẩn- CH1101063 Trang: 2 1 (|| || ) i j N i j i x C x c = ∈ − ∑ ∑ 4 Báo cáo chuyên đề - Khai Phá Dữ Liệu và Kho Dữ liệu GVHD: PGS.TS.Đỗ Phúc Ví dụ minh họa Đối tượng Thuộc tính 1 (X) Thuộc tính 2 (Y) A 1 1 B 2 1 C 4 3 D 5 4 Bước 1: Khởi tạo Chọn 2 trọng tâm ban đầu: c 1 (1,1) ≡ A và c 2 (2,1) ≡ B, thuộc 2 cụm 1 và 2 HVTH: Vương Thị Ngọc Ẩn- CH1101063 Trang: 5 Báo cáo chuyên đề - Khai Phá Dữ Liệu và Kho Dữ liệu GVHD: PGS.TS.Đỗ Phúc Bước 2: Tính toán khoảng cách d(C, c 1 ) = (4-1) 2 +(3-1) 2 = 13 d(C, c 2 ) = (4-2) 2 +(3-1) 2 = 8 d(C, c 1 ) > d(C, c 2 ) => C thuộc cụm 2 d(D, c 1 ) = (5-1) 2 +(4-1) 2 = 25 d(D, c 2 ) = (5-2) 2 +(4-1) 2 = 18 d(D,c 1 ) > d(D, c 2 ) => D thuộc cụm 2 Bước 3: Cập nhật lại vị trí trọng tâm Trọng tâm cụm 1 c 1 ≡ A (1, 1) Trọng tâm cụm 2 c 2 (x,y) = ((2+4+5)/3,(1+3+4)/3) Bước 4-1: Lặp lại bước 2 – Tính toán khoảng cách d(A, c 1 ) = 0 < d(A, c 2 ) = 9.89 A thuộc cụm 1 d(B, c 1 ) = 1 < d(B, c 2 ) = 5.56 B thuộc cụm 1 d(C, c 1 ) = 13 > d(C, c 2 ) = 0.22 C thuộc cụm 2 d(D, c 1 ) = 25 > d(D, c 2 ) = 3.56 D thuộc cụm 2 Bước 4-2: Lặp lại bước 3-Cập nhật trọng tâm c 1 = (3/2, 1) và c 2 = (9/2, 7/2) Bước 4-3: Lặp lại bước 2 d(A, c 1 ) = 0.25 < d(A, c 2 ) = 18.5 A thuộc cụm 1 d(B, c 1 ) = 0.25 < d(B, c 2 ) = 12.5 B thuộc cụm 1 d(C, c 1 ) = 10.25 < d(C, c 2 ) = 0.5 C thuộc cụm 2 d(D, c 1 ) = 21.25 > d(D, c 2 ) = 0.5 D thuộc cụm 2 HVTH: Vương Thị Ngọc Ẩn- CH1101063 Trang: 6 Báo cáo chuyên đề - Khai Phá Dữ Liệu và Kho Dữ liệu GVHD: PGS.TS.Đỗ Phúc Đánh giá thuật toán: - Ưu điểm: • Độ phức tạp: O(K.N.l) với l: số lần lặp • Có khả năng mở rộng, có thể dễ dàng sửa đổi với những dữ liệu mới. • Bảo đảm hội tụ sau l số bước lặp hữu hạn. • Luôn có K cụm dữ liệu • Luôn có ít nhất 1 điểm dữ liệu trong 1 cụm dữ liệu. • Các cụm không phân cấp và không bị chồng chéo dữ liệu lên nhau. • Mọi thành viên của 1 cụm là gần với chính cụm đó hơn bất cứ 1 cụm nào khác. - Nhược điểm: • Không có khả năng tìm ra các cụm không lồi hoặc các cụm có hình dạng phức tạp. • Khó khăn trong việc xác định các trọng tâm cụm ban đầu - Chọn ngẫu nhiên các trung tâm cụm lúc khởi tạo - Độ hội tụ của thuật toán phụ thuộc vào việc khởi tạo các vector trung tâm cụm • Khó để chọn ra được số lượng cụm tối ưu ngay từ đầu, mà phải qua nhiều lần thử để tìm ra được số lượng cụm tối ưu. • Rất nhạy cảm với nhiễu và các phần tử ngoại lai trong dữ liệu. • Không phải lúc nào mỗi đối tượng cũng chỉ thuộc về 1 cụm, chỉ phù hợp với đường biên giữa các cụm rõ. 2. Thuật toán K-Medoids Thuật toán K-Means nhạy cảm đối với dữ liệu có nhiễu vì tâm của một nhóm lại không phải là một đối tượng trong nhóm. Thay vì lấy giá trị trung bình của các đối tượng trong cụm làm tâm, thuật toán k-medoids lấy một đối tượng trong cụm làm tâm của cụm (gọi là đối tượng tâm). Thuật toán này vẫn dựa trên nguyên tắc làm cực tiểu sự khác nhau giữa các đối tượng trong cùng một cụm. Ý tưởng chính của thuật toán k-medoids như sau: HVTH: Vương Thị Ngọc Ẩn- CH1101063 Trang: 7 [...]... lược phân cụm với K-mean Nếu K-mean là phân cụm dữ liệu cứng (1 điểm dữ liệu chỉ thuộc về 1 cụm) thì FCM là phân cụm dữ liệu mờ (1 điểm dữ liệu có thể thuộc về nhiều hơn 1 cụm - với 1 xác suất nhất định) Thêm yếu tố quan hệ giữa các phần tử và các cụm dữ liệu thông qua các trọng - số trong ma trận biểu biễn bậc của các thành viên với 1 cụm FCM khắc phục được các cụm dữ liệu chồng nhau trên các tập dữ liệu. .. Tối ưu hóa trọng số cho thuật toán phân lớp KNN Thuật toán KNN (K-Nearest Neighbors): Dựa vào tập dữ liệu đã được phân lớp (gọi là dữ liệu huấn luyện) Khi có dữ liệu mới sẽ tính khoảng cách tới dữ liệu huấn luyện, lớp của dữ liệu này được xác định dựa vào (K) dữ liệu gần nó nhất Độ đo đơn giản thường sử dụng là độ đo Euclidean: Xia là giá trị thuộc tính thứ i của dữ liệu thứ a KNN có trọng số (WKNN):... Khai Phá Dữ Liệu và Kho Dữ liệu HVTH: Vương Thị Ngọc Ẩn- CH1101063 GVHD: PGS.TS.Đỗ Phúc Trang: 21 Báo cáo chuyên đề - Khai Phá Dữ Liệu và Kho Dữ liệu GVHD: PGS.TS.Đỗ Phúc Kết quả: Tập dữ liệu FCM lỗi (%) GFCM lỗi (%) Lỗi cải thiện (lần) Iris 11.33 4 2.83 Wine 29.78 11.80 4.82 Sonar 44.71 33.65 1.50 HVTH: Vương Thị Ngọc Ẩn- CH1101063 Trang: 22 Báo cáo chuyên đề - Khai Phá Dữ Liệu và Kho Dữ liệu GVHD:... Dữ Liệu và Kho Dữ liệu GVHD: PGS.TS.Đỗ Phúc Để tìm ra k cụm với n đối tượng thì k-medoids chọn ngẫu nhiên k đối tượng vào k cụm, coi mỗi đối tượng này là tâm của cụm Phân bổ các đối tượng còn lại vào cụm mà sự khác nhau của nó với đối tượng tâm của cụm là ít nhất (gọi là gần nhất) Sau đó lặp lại quá trình: Thay đổi đối tượng tâm của mỗi cụm sao cho chất lượng của cụm được cải thiện Chất lượng của cụm. .. chuyên đề - Khai Phá Dữ Liệu và Kho Dữ liệu GVHD: PGS.TS.Đỗ Phúc • Hàm Euclid (p=2): • Hàm Chebyshev (p=∞ ): Hàm tính khoảng cách Hamming: Đối với các thuộc tính đầu vào là kiểu nhị phân ({0,1}) Ví dụ: x=(0,10,1,1) Hàm tính khoảng cách Hamming: Ưu điểm: HVTH: Vương Thị Ngọc Ẩn- CH1101063 Trang: 13 Báo cáo chuyên đề - Khai Phá Dữ Liệu và Kho Dữ liệu GVHD: PGS.TS.Đỗ Phúc Phương pháp k-NN có ưu điểm huấn... trò khác nhau việc phân lớp dữ liệu Thêm trọng số cho các thuộc tính Dùng GA để ước lượng bộ wa tối ưu Cách sử dụng GA tương tự như bài toán GFCM Cài đặt và thực nghiệm: Dataset sử dụng là “Image Segmentation data” 19 đặc trưng 7 lớp Dữ liệu train: 120 dòng Dữ liệu test: 2100 dòng HVTH: Vương Thị Ngọc Ẩn- CH1101063 Trang: 23 Báo cáo chuyên đề - Khai Phá Dữ Liệu và Kho Dữ liệu GVHD: PGS.TS.Đỗ... 80.00 83.00 HVTH: Vương Thị Ngọc Ẩn- CH1101063 Trang: 24 Báo cáo chuyên đề - Khai Phá Dữ Liệu và Kho Dữ liệu GVHD: PGS.TS.Đỗ Phúc Cement 82.00 82.00 Poliage 71.00 78.67 Sky 100.00 100.00 Brickface 88.33 92.67 Tổng 87.57 90.86 KẾT LUẬN, HƯỚNG PHÁT TRIỂN CỦA ĐỒ ÁN 1 Kết quả đạt được Tìm hiểu một số kỹ thuật phân cụm dữ liệu: K-mean, K-Medoids, K-Nearest Neighbors (KNN), Fuzzy C-Mean(FCM) Tối ưu hóa tham... Trang: 8 Báo cáo chuyên đề - Khai Phá Dữ Liệu và Kho Dữ liệu GVHD: PGS.TS.Đỗ Phúc Thuật toán k-medoid có thể được mô tả cụ thể như sau: Input: Số nguyên k và CSDL gồm n đối tượng cần phân cụm Output: Một tập gồm k cụm mà tổng giá trị của sự khác nhau của tất cả các đối tượng đến đối tượng tâm của nhóm chứa nó là nhỏ nhất Thuật toán: Bước 1: Chọn k đối tượng bất kì vào k cụm Coi mỗi đối tượng này là tâm... Số điểm trong không gian dữ liệu k: Số cụm cần phân hoạch t: Số lần lặp (t là khá nhỏ so với n) Nhược điểm: -Các công thức tính toán khá phức tạp - Tốc độ hội tụ tùy thuộc vào trạng thái ban đầu của ma trận thành viên U và tham số mờ hoá m 5 Tối ưu hóa các tham số cho thuật toán phân nhóm FUZZY C-MEAN Fuzzy C-Means Algorithm (FCM): Là một cách gom nhóm giúp cho một phần dữ liệu có thể thuộc về hai... tiêu: HVTH: Vương Thị Ngọc Ẩn- CH1101063 Trang: 17 Báo cáo chuyên đề - Khai Phá Dữ Liệu và Kho Dữ liệu GVHD: PGS.TS.Đỗ Phúc m∈ R, 1 ≤ m < ∞ Jm = Trong đó: uij là độ thuộc của xi trong nhóm j, xi là dữ liệu được đánh giá thứ i, cj là thành phần trung tâm của nhóm, và ||*|| là biểu thức chuẩn hóa giữa xi và cj Quá trình phân chia mờ (Fuzzy partitioning) được thực hiện bằng các lặp tối ưu hàm mục tiêu, . Khai Phá Dữ Liệu và Kho Dữ liệu GVHD: PGS.TS.Đỗ Phúc CHƯƠNG 1. TỔNG QUAN LÝ THUYẾT VỀ PHÂN CỤM DỮ LIỆU 1. Kỹ thuật phân cụm dữ liệu (Clustering): - Phân cụm dữ liệu là phương pháp phân hoạch. PHÂN CỤM DỮ LIỆU 1 1. Kỹ thuật phân cụm dữ liệu (Clustering): 1 2. Phân cụm dữ liệu là gì? 1 3. Một số ứng dụng tiêu biểu của phân cụm: 1 CHƯƠNG 2. TÌM HIỂU MỘT SỐ THUẬT TOÁN PHÂN CỤM DỮ LIỆU. PHÁ DỮ LIỆU VÀ KHO DỮ LIỆU Đề tài: PHƯƠNG PHÁP PHÂN CỤM DỮ LIỆU GVHD: PGS.TS. ĐỖ PHÚC SVTH: VƯƠNG THỊ NGỌC ẨN MAHV: CH1101063 TP. HCM, 11/2012 Báo cáo chuyên đề - Khai Phá Dữ Liệu và Kho Dữ liệu