12 CHƯƠNG 2 CƠ SỞ LÝ THUYẾT 2 1 Tổng quan về khai phá dữ liệu 2 1 1 Giới thiệu khai phá dữ liệu Nếu cho rằng, điện tử và truyền thông chính là bản chất của khoa học điện tử, thì dữ liệu, thông tin, và tri thức hiện đang là tiêu điểm của một lĩnh vực mới để nghiên cứu và ứng dụng, đó là khám phá tri thức và khai phá dữ liệu Khám phá tri thức hay phát hiện tri thức trong CSDL là một quy trình nhận biết các mẫu hoặc các mô hình trong dữ liệu với các tính năng phân tích, tổng hợp, hợp thức, khả í.
CHƯƠNG CƠ SỞ LÝ THUYẾT 2.1 Tổng quan khai phá liệu: 2.1.1 Giới thiệu khai phá liệu Nếu cho rằng, điện tử truyền thơng chất khoa học điện tử, liệu, thông tin, tri thức tiêu điểm một lĩnh vực để nghiên cứu ứng dụng, khám phá tri thức khai phá liệu Khám phá tri thức hay phát tri thức CSDL mợt quy trình nhận biết mẫu mơ hình liệu với tính năng: phân tích, tổng hợp, hợp thức, khả ích hiểu Khai phá liệu mợt bước q trình khám phá tri thức, gồm thuật toán khai thác liệu chuyên dùng mợt số qui định hiệu tính tốn chấp nhận để tìm mẫu mơ hình liệu Nói cách khác, mục tiêu Khai phá liệu tìm kiếm mẫu mơ hình tồn CSDL ẩn khối lượng lớn liệu 2.1.2 Quá trình khám phá tri thức Hình 2.1 Quá trình khám phá tri thức Bước 1: Trích chọn liệu: bước chọn tập liệu phù hợp, cần khai phá từ tập liệu lớn 12 Bước 2: Tiền xử lý liệu: bước làm liệu xử lý liệu không đầy đủ, liệu nhiễu, liệu không nhất quán, v.v Bước 3: Chuyển đổi liệu: bước chuẩn hóa làm mịn liệu để đưa liệu dạng phù hợp, thuận lợi nhất cho trình khai phá liệu Bước 4: Khai phá liệu: bước quan trọng tốn nhiều thời gian nhất trình khám phá tri thức, sử dụng giải thuật để đưa mơ hình liệu Bước 5: Mơ hình biểu diễn tri thức đánh giá: dùng kỹ thuật hiển thị liệu để trình bày mẫu thơng tin (tri thức) mối liên hệ đặc biệt liệu khai thác biểu diễn theo dạng gần gũi với người sử dụng đồ thị, cây, bảng biểu, luật, v.v Đồng thời bước đánh giá tri thức khám phá theo tiêu chí nhất định, xác định xem liệu mơ hình liệu mà vừa tìm có chứa thơng tin hữu ích hay khơng, tri thức có hay khơng? 2.1.3 Các giai đoạn trình khai phá liệu Các giải thuật khai phá liệu thường miêu tả chương trình hoạt đợng trực tiếp tập liệu Quá trình khai phá liệu thể hình 2.2 sau: Hình 2.2 Quá trình khai phá liệu Xác định nhiệm vụ: Xác định xác vấn đề cần giải 13 Xác định liệu liên quan: xác định liệu liên quan dùng để xây dựng giải pháp Thu thập tiền xử lý liệu: Thu thập liệu liên quan tiền xử lý chúng cho thuật tốn KPDL hiểu Đây mợt q trình rất khó khăn, gặp phải rất nhiều vướng mắc như: liệu phải nhiều (nếu chiết xuất vào tệp), quản lý tập liệu, phải lặp lặp lại nhiều lần tồn bợ q trình (nếu mơ hình liệu thay đổi), v.v Giải thuật khai phá liệu: chọn thuật tốn KPDL thích hợp thực việc KPDL nhằm tìm mẫu có ý nghĩa, mẫu biểu diễn dạng luật kết hợp, định… tương ứng với ý nghĩa 2.1.4 Các phương pháp khai phá liệu Với hai mục đích KPDL mơ tả dự đoán, người ta thường sử dụng phương pháp cho khai phá liệu luật kết hợp (association rules), phân lớp (Classfication), hồi qui (Regression), trực quan hóa (Visualiztion), phân cụm (Clustering), tổng hợp (Summarization), mơ hình ràng ḅc (Dependency modeling), biểu diễn mơ hình (Model Evaluation), phân tích phát triển đợ lệch (Evolution and deviation analyst), phương pháp tìm kiếm (Search Method) 2.1.5 Các hướng tiếp cận kỹ thuật áp dụng Vấn đề KPDL phân chia theo lớp hướng tiến cận sau: - Phân lớp dự đoán (classification &prediction) - Phân cụm (clustering/segmentation) - Luật kết hợp (association rules) - Phân tích chuỗi theo thời gian (sequential/temporal patterns) - Mô tả khái niệm (concept desccription & summarization) 14 2.1.6 Các thách thức khó khăn KPTT KPDL KPTT KPDL liên quan đến nhiều ngành, nhiều lĩnh vực thực tế, thách thức khó khăn ngày nhiều, lớn Sau mợt số thách thức khó khăn cần quan tâm: Các sở liệu lớn, tập liệu cần xử lý có kích thước cực lớn Trong thực tế, kích thước tập liệu thường mức Tera-byte (hàng nghìn Giga-byte) Mức độ nhiễu cao liệu bị thiếu Số chiều lớn Thay đổi liệu tri thức làm cho mẫu phát khơng cịn phù hợp Quan hệ trường phức tạp 2.1.7 Kết luận KPDL lĩnh vực trở thành một hướng nghiên cứu thu hút quan tâm nhiều chuyên gia CNTT giới Trong năm gần đây, rất nhiều phương pháp thuật toán liên tục công bố Điều chứng tỏ ưu thế, lợi ích khả ứng dụng thực tế to lớn KPDL 2.2 Tổng quan phân cụm liệu 2.2.1 Các khái niệm Phân cụm liệu q trình nhóm mợt tập đối tượng tương tự tập liệu vào cụm cho đối tượng thuộc một cụm tương đồng cịn đối tượng tḥc cụm khác không tương đồng Phân cụm liệu mợt ví dụ phương pháp học khơng có giám sát Không giống phân lớp liệu, phân cụm liệu khơng địi hỏi phải định nghĩa trước mẫu liệu h́n luyện Vì thế, coi phân cụm liệu một cách học quan sát, phân lớp liệu học ví dụ… Ngồi ra, phân cụm liệu cịn sử 15 dụng một bước tiền xử lí cho thuật tốn khai phá liệu khác phân loại mơ tả đặc điểm, có tác dụng việc phát cụm [7] Hình 2.3 Mơ tả tập liệu phân thành cụm Phân cụm liệu một kỹ thuật khai phá liệu nhằm tìm kiếm, phát cụm, mẫu liệu tự nhiên tiềm ẩn quan trọng tập liệu lớn để từ cung cấp thơng tin, tri thức cho việc định Một vấn đề thường gặp phân cụm hầu hết liệu cần cho phân cụm có chứa liệu nhiễu q trình thu thập thiếu xác thiếu đầy đủ, cần phải xây dựng chiến lược cho bước tiền xử lí liệu nhằm khắc phục loại bỏ nhiễu trước chuyển sang giai đoạn phân tích cụm liệu Nhiễu hiểu đối tượng liệu khơng xác, khơng tường minh đối tượng liệu khuyết thiếu thông tin mợt số tḥc tính Mợt kỹ thuật xử lí nhiễu phổ biến việc thay giá trị tḥc tính đối tượng nhiễu giá trị tḥc tính tương ứng Ngồi ra, dị tìm phần tử ngoại lai một hướng nghiên cứu quan trọng phân cụm, chức xác định mợt nhóm nhỏ đối tượng liệu khác thường so với liệu CSDL, tức đối tượng liệu không tuân theo hành vi mơ hình liệu nhằm tránh ảnh hưởng chúng tới trình kết phân cụm 2.2.2 Các ứng dụng phân cụm Một số ứng dụng phân cụm liệu cụ thể thương mại (phân loại nhóm khách hàng, liệu khách hàng), y học (chuẩn đoán triệu chứng bệnh, phương pháp điều trị), thư viện (phân loại cụm sách có nội dung ý 16 nghĩa tương đồng để cung cấp cho độc giả), tài thị trường chứng khốn (bài tốn phân tích tình hình tài chính, phân tích đầu tư, cổ phiếu), www (khai thác liệu website giúp cho việc marketing trở nên dễ dàng hơn),… 2.2.3 Những kỹ thuật tiếp cận phân cụm liệu Các kỹ thuật phân cụm có rất nhiều cách tiếp cận dựa thuật tốn ứng dụng, hướng tới hai mục tiêu chung chất lượng cụm khám phá tốc độ thực thuật toán Từ đề xuất, phát triển nay, phân cụm có phương pháp sau: - Phương pháp phân cụm quy hoạch - Phương pháp phân cụm dựa mật độ - Phương pháp phân cụm phân cấp - Phương pháp phân cụm dựa lưới - Phương pháp phân cụm dựa mơ hình - Phương pháp phân cụm có liệu ràng buộc 2.3 Kỹ thuật phân cụm liệu mờ 2.3.1 Giới thiệu phân cụm mờ Trong cuộc sống, gặp rất nhiều ứng dụng toán phân cụm Chẳng hạn ngành bưu điện, hàng ngày bưu điện phải phân loại thư theo mã nước, mã nước lại phân loại theo mã tỉnh/thành phố, sau thư đến bưu điện tỉnh bưu điện tỉnh lại phải phân loại thư theo quận/huyện để gửi đi, đến bưu điện quận/huyện lại phân loại thư theo xã/phường/ấp để gửi thư Đó mợt ứng dụng tốn phân cụm rõ Vậy tốn phân cụm rõ gì? Ta định nghĩa tốn phân cụm rõ sau: Cho tập liệu mẫu X, ta kiểm tra điểm liệu xem giống với đặc điểm nhóm nhất ta gán điểm 17 liệu vào nhóm Nhưng thực tế khơng phải lúc tốn phân cụm rõ áp dụng Chẳng hạn, ta có phép phân loại sau: Những người xe máy xịn tḥc nhóm người giàu, người xe máy thường tḥc nhóm người bình dân Vậy người nghèo mà xe máy xịn xếp người vào nhóm nào? Vì vậy, cần đưa vào khái niệm toán phân cụm mờ Trong phương pháp phân cụm giới thiệu chương trước, phương pháp phân cụm phân hoạch một tập liệu ban đầu thành cụm liệu có tính tự nhiên đối tượng liệu thuộc một cụm liệu, phương pháp phù hợp với việc khám phá cụm có mật đợ cao rời nhau, với đường biên cụm xác định tốt Tuy nhiên, thực tế, đường biên cụm mờ, cụm chồng lên nhau, nghĩa một số đối tượng liệu tḥc nhiều cụm khác nhau, mơ hình khơng mơ tả liệu thực Vì người ta áp dụng lý thuyết tập mờ PCDL để giải cho trường hợp Cách thức kết hợp gọi Phân cụm mờ Phân cụm mờ phương pháp phân cụm liệu mà cho phép điểm liệu thuộc hai nhiều cụm thông qua bậc thành viên Ý tưởng thuật tốn xây dựng mợt phương pháp phân cụm mờ dựa tối thiểu hóa hàm mục tiêu Bezdek [2] (1981) cải tiến tổng quát hóa hàm mục tiêu mờ cách đưa trọng số mũ để xây dựng thuật toán phân cụm mờ chứng minh đợ hợi tụ thuật tốn cực tiểu cục bộ Ưu điểm phân cụm mờ so với phân cụm rõ thể thực tế mà ranh giới rõ ràng cụm Phân cụm rõ bắt buộc điểm phép thuộc vào nhất một cụm Còn phân cụm mờ cho phép điểm liệu linh hoạt hơn, mợt điểm liệu thuộc vào nhiều cụm ta đưa khái niệm độ thuộc để mức độ liên quan điểm liệu vào cụm mà tḥc Giá trị đợ thuộc nằm khoảng (0,1), trường hợp điểm liệu không thuộc một cụm hay thuộc vào nhất một cụm rất 18 2.3.2 Lý thuyết gom cụm (Clustering): Gom cụm liệu phương pháp phân hoạch tập hợp liệu thành nhiều tập C cho tập 𝑐 ⊂ 𝐶 chứa phần tử có tính chất giống theo tiêu chuẩn đó, tập c gọi mợt cụm [7] Hình 2.4 Minh hoạ khái niệm gọm cụm Như q trình gom cụm mợt trình phân phần tử 𝑞 ∈ 𝑄 vào cụm 𝑐 ⊂ 𝐶 Nguyên tắc thường dùng để gom cụm liệu nguyên tắc cực tiểu khoảng cách (thường khoảng cách Euclide) [8] Tiếp theo, tác giả tìm hiểu ba thuật tốn K-mean, Fuzzy C-means, ε- Insensitive Fuzzy C-means 2.3.3 Thuật toán K-Means: Thuật toán K-Means phát triển J Macqueen (1967) sau cải tiến J A Hartigan M A Wong (1975) Đây thuật tốn tḥc nhóm phương pháp phân cụm quy hoạch, dùng để phân nhóm đối tượng dựa tḥc tính đối tượng vào nhóm đối tượng khác Ưu điểm thuật toán K-means: phương pháp đơn giản, hiệu quả, tự tổ chức, sử dụng tiến trình khởi tạo nhiều thuật tốn khác, hiệu śt tương đối, thường kết thúc tối ưu cục bộ, tìm tối ưu tồn cục Nhược điểm thuật toán K-means: số cụm k phải xác định trước, áp dụng xác định trị trung bình, khơng thể xử lý nhiễu, outliers, khơng thích hợp khám phá dạng khơng lồi hay cụm có kích thước khác nhau, thuật tốn đợc lập tuyến tính 19 Ý tưởng thuật tốn K-means: áp dụng nguyên lý người láng giềng gần nhất khoảng cách ngắn nhất theo định luật III Newton, nghĩa phần tử gần tâm điểm cụm ci so với cụm cj gom cụm ci Đầu vào thuật toán K-means số cụm k, CSDL có n số điểm (đối tượng) không gian liệu Các bước thuật toán K-means Thuật toán K-means Input: Số cụm k trọng tâm cụm m j j ; k Output: Các cụm Ci i 1, k hàm tiêu chuẩn E đạt giá trị tối thiểu; Begin Bước 1: Khởi tạo Chọn k trọng tâm m j j ban đầu không gian Rd (d số chiều k liệu), việc lựa chọn ngẫu nhiên theo kinh nghiệm Bước 2: Tính tốn khoảng cách Đối với điểm X i 1 i n , tính tốn khoảng cách tới trọng tâm mj j=1,k Và sau tìm trọng tâm gần nhất điểm Bước 3: Cập nhật tâm cụm Đối với j=1,k, cập nhật trọng tâm cụm mj xác định trung bình cợng vector đối tượng liệu Bước 4: Điều kiện dừng Lặp lại bước 2, bước trọng tâm cụm khơng thay đổi End 20 2.3.4 Thuật tốn FCM (Fuzzy C-Means): Từ năm 1920, Lukasiewicz nghiên cứu cách diễn đạt toán học khái niệm mờ Năm 1965, Lofti Zadeh phát triển lý thuyết khả đề xuất hệ thống logic mờ (fuzzy logic) Kỹ thuật gom cụm một tập n vector đối tượng liệu X x1 , x2 , , xn R S thành c nhóm mờ dựa tính tốn tối thiểu hố hàm mục tiêu để đo chất lượng gom cụm tìm trung tâm cụm nhóm, cho chi phí hàm đợ đo độ phi tương tự nhỏ nhất Ưu điểm thuật toán Fuzzy C-means: phương pháp dễ thực hiện, có khả tìm tối ưu tồn cục, hiệu tốt tương đương K-means Thường dùng với vấn đề nhận dạng không gian đa chiều Nhược điểm thuật tốn Fuzzy C-means: có cơng thức tính tốn phức tạp, tốc đợ hợi tụ tuỳ tḥc vào trạng thái ban đầu ma trận thành viên U tham số mờ hoá m Ý tưởng thuật toán Fuzzy C-means: phần tử q V ban đầu gán cho một tập trọng số Wqk, Wqk cho biết khả q tḥc cụm k, k 1, k W qk Có nhiều cách tính trọng số Wqk khác nhau, Wqk=1/Dqk thường sử dụng nhất (Dqk khoảng cách từ q đến trọng tâm cụm k) Trong q trình gom cụm trọng số cập nhật bước lặp tâm cụm bị thay đổi Sau kết thúc trình gom cụm, mợt cụm khơng có mẫu bị loại, số cụm tìm thường khơng biết trước 21 Các bước thực thuật toán FCM sau: Thuật toán FCM Input: Số cụm c tham số mũ m cho hàm mục tiêu J Output: c cụm liệu cho hàm mục tiêu đạt giá trị cực tiểu Begin Bước 1: Nhập tham số cụm c 1 c N , m (1, ) khởi tạo ma trận V vij ,V (0) Rpc , j Bước 2: Lặp j++; Tính ma uij / k 1 DijA / DkjA c trận 2/( m 1) phân hoạch mờ Uj theo công thức ;1 i c,1 j n (𝑗) (𝑗) (𝑗) Cập nhật trung tâm cụm 𝑉 (𝑗) = [𝑣1 , 𝑣2 , … , 𝑣𝑐 ] dựa vào công thức v j k 1 uik xk / k 1 uik U j n n m Cho đến U ( j 1) U j F m Bước 3: Trả cụm kết End Hiện chưa có quy tắc nhằm lựa chọn tham số m đảm bảo cho việc phân cụm hiệu quả, thông thường chọn m=2 [12] 2.3.5 Thuật toán 𝜺FCM (𝜺 −Insensitive Fuzzy C-Means) Thuận toán FCM tồn một nhược điểm dễ bị ảnh hưởng nhiễu phần tử ngoại lai sử dụng hàm bậc hai để độ phi tương tự liệu trung tâm cụm Năm 1998, Vapnik đưa một độ đo cải tiến: t 0 t t t tham số phi nhạy cảm với nhiễu 22 Các bước thực thuật toán 𝜀FCM sau: Thuật toán 𝜺FCM Input: Số cụm c tham số mũ m, 𝜀 cho hàm mục tiêu J Output: c cụm liệu cho hàm mục tiêu đạt giá trị cực tiểu Begin Bước 1: Nhập tham số cụm c 1 c N , m (1, ), khởi tạo ma trận V vij ,V (0) Rpc , j Bước 2: Lặp j++; Tính ma uij / k 1 DijA / DkjA c 2/( m 1) phân trận hoạch mờ Uj theo công thức ;1 i c,1 j n (𝑗) (𝑗) (𝑗) Cập nhật trung tâm cụm 𝑉 (𝑗) = [𝑣1 , 𝑣2 , … , 𝑣𝑐 ] dựa vào công thức v j k 1 uik xk / k 1 uik U j n n m Cho đến U ( j 1) U j F m Bước 3: Trả cụm kết End Thuật toán 𝜀FCM thuật toán mở rợng từ thuật tốn FCM nhằm khắc phục nhược điểm để thích nghi với nhiễu phần tử ngoại lai Tuy nhiên, hiệu thuật toán tập liệu lớn, tập liệu nhiều chiều cách xác định tham số 𝜀 [12] vấn đề tiếp tục cần phải nghiên cứu hoàn thiện 23 ... dựng thuật toán phân cụm mờ chứng minh độ hội tụ thuật tốn cực tiểu cục bợ Ưu điểm phân cụm mờ so với phân cụm rõ thể thực tế mà ranh giới rõ ràng cụm Phân cụm rõ bắt buộc điểm phép thuộc vào. .. điểm cụm ci so với cụm cj gom cụm ci Đầu vào thuật tốn K-means số cụm k, CSDL có n số điểm (đối tượng) không gian liệu Các bước thuật toán K-means Thuật toán K-means Input: Số cụm k trọng tâm cụm. .. dựa mơ hình - Phương pháp phân cụm có liệu ràng buộc 2.3 Kỹ thuật phân cụm liệu mờ 2.3.1 Giới thiệu phân cụm mờ Trong cuộc sống, gặp rất nhiều ứng dụng toán phân cụm Chẳng hạn ngành bưu điện,