Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 68 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
68
Dung lượng
1,59 MB
Nội dung
ĐẠI HỌC QUỐC GIA HÀ NỘI TRƢỜNG ĐẠI HỌC CÔNG NGHỆ CHẾ THỊ HẰNG ỨNG DỤNG KỸ THUẬT ĐA MỤC TIÊU VÀO PHÂN CỤM DỮ LIỆU LUẬN VĂN THẠC SỸ CÔNG NGHỆ THÔNG TIN Hà Nội – 2014 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƢỜNG ĐẠI HỌC CÔNG NGHỆ CHẾ THỊ HẰNG ỨNG DỤNG KỸ THUẬT ĐA MỤC TIÊU VÀO PHÂN CỤM DỮ LIỆU Ngành: Công nghệ thông tin Chuyên ngành: Hệ thống thông tin Mã số: 60 48 05 LUẬN VĂN THẠC SỸ CÔNG NGHỆ THÔNG TIN NGƢỜI HƢỚNG DẪN KHOA HỌC: PGS.TS HOÀNG XUÂN HUẤN Hà Nội - 2014 LỜI CẢM ƠN Để hoàn thành luận văn thạc sỹ này, trước hết xin gửi lời cảm ơn sâu sắc đến PGS.TS Hoàng Xuân Huấn Thầy cung cấp cho kiến thức, tài liệu, phương pháp nghiên cứu vấn đề mang tính khoa học Thầy thường xun đưa giúp tơi có ý tưởng làm luận văn Tôi xin chân thành cảm ơn thầy hỗ trợ chân thành nhiệt tình suốt thời gian qua Tơi xin chân thành cảm ơn thầy, cô giáo Bộ môn Công nghệ phần mềm, Khoa Công nghệ thông tin - Phòng Đào tạo sau đại học - Nghiên cứu Khoa học, Trường Đại học Công nghệ - Đại học Quốc gia Hà Nội tạo điều kiện tốt để tơi hồn thành khóa học Đồng thời, tơi xin cảm ơn gia đình, bạn bè, người ln khuyến khích giúp đỡ tơi hồn cảnh khó khăn Tơi xin cảm ơn quan đồng nghiệp tạo điều kiện cho suốt thời gian học tập rèn luyện trường Đại học Công nghệ - Đại học Quốc gia Hà Nội Hà Nội, ngày 20 tháng 05 năm 2014 Học viên Chế Thị Hằng LỜI CAM ĐOAN Tơi xin cam đoan kiến thức trình bày luận văn tơi tìm hiểu, nghiên cứu trình bày theo cách hiểu thân hướng dẫn trực tiếp PGS.TS Hoàng Xn Huấn Trong q trình làm luận văn tơi có tham khảo tài liệu có liên quan ghi rõ nguồn gốc tham khảo tài liệu Mọi chép không hợp lệ, vi phạm quy chế đào tạo tơi xin chịu hồn tồn trách nhiệm Hà Nội, ngày 20 tháng 05 năm 2014 Học viên Chế Thị Hằng MỤC LỤC LỜI CẢM ƠN LỜI CAM ĐOAN MỤC LỤC DANH MỤC CÁC KÍ HIỆU, TỪ VIẾT TẮT DANH MỤC CÁC HÌNH VẼ MỞ ĐẦU CHƢƠNG I PHÂN CỤM DỮ LIỆU 10 1.1 Phân cụm liệu 10 1.2 Các phƣơng pháp thuật toán phân cụm liệu [2] 11 1.2.1 Các phƣơng pháp phân vùng 11 1.2.2 Các phƣơng pháp phân cấp 17 1.2.3 Phƣơng pháp phân cụm dựa mật độ 22 1.2.4 Các phƣơng pháp phân cụm dựa lƣới 24 CHƢƠNG II PHÂN CỤM DỮ LIỆU ĐA MỤC TIÊU VÀ MỘT SỐ KỸ THUẬT TỐI ƢU HÓA CỤM 28 2.1 Phân cụm liệu đơn mục tiêu phân cụm liệu đa mục tiêu [1] 28 2.2.Một số giải thuật tối ƣu hóa cụm 30 2.2.1 Giải thuật di truyền (Genetic Algorithm) 30 2.2.2 Kỹ thuật mô luyện kim dựa thuật toán tối ƣu nhiều mục tiêu (SA) VAMOSA 37 CHƢƠNG III THUẬT TỐN VAMOSA – THUẬT TỐN PHÂN CỤM DỰA TRÊN TÍNH ĐỐI XỨNG 48 3.1 Giới thiệu 48 3.2 Thuật toán tối ƣu đa mục tiêu dựa vào SA: AMOSA 49 3.3 Khoảng cách đối xứng 49 3.4 Phƣơng pháp đề xuất để phân cụm đa mục tiêu 50 3.4.1 Trình bày chuỗi khởi tạo kho lƣu trữ 50 3.4.2 Phân cụm điểm liệu 52 3.4.3 Tính tốn hàm mục tiêu phù hợp 53 3.4.4 Một số phƣơng pháp nhiễu phƣơng án 55 3.4.5 Điều kiện dừng cùa thuật toán 55 3.4.6 Lựa chọn giải pháp 55 CHƢƠNG IV KẾT QUẢ THỬ NGHIỆM 56 4.1 Giới thiệu 56 4.2 Chƣơng trình liệu thử nghiệm 56 4.2.1 Chƣơng trình 56 4.2.2 Dữ liệu thử nghiệm 56 4.3 Kết thí nghiệm 57 KẾT LUẬN VÀ HƢỚNG PHÁT TRIỂN 64 TÀI LIỆU THAM KHẢO 65 DANH MỤC CÁC KÍ HIỆU, TỪ VIẾT TẮT Từ cụm từ Từ viết tắt Từ tiếng Anh Thuật toán BIRCH BIRCH Balanced Interative Reducing and Clustering using Hierarchies Thuật toán CLARA CLARA Clustering LARge Applications Cơ sở liệu CSDL DataBase Thuật toán CURE CURE Clustering Using Representatives Thuật toán DBSCAN DBSCAN Density-Based Spatial Clustering of Applications with Noise Thuật toán DENCLUE DENCLUE DENsity – based CLUstEring Khai phá tri thức sở KDD liệu Knowledge Discovery in Databases Khai phá liệu KPDL Data Mining Khai phá tri thức KPTT Knowledge Discovery Thuật toán AMOSA AMOSA Archived multiobjective simulated annealing Phân cụm liệu PCDL Data Clustering Giải thuật SA SA Simulated Annealing Giải thuật GA GA Genetic Algorithms DANH MỤC CÁC HÌNH VẼ Hình 1.1 Mơ vấn đề PCDL 10 Hình 1.2 Quá trình phân cụm tập điểm thành cụm theo k-means 13 Hình 1.3 Trường hợp hàm chi phí cho phân cụm k-medoid 14 Hình 1.4 Quá trình phân cụm tập điểm thành cụm theo k- medoids 16 Hình 1.5 Phân cụm phân cấp dạng tích lũy phân chia đối tượng liệu 17 Hình 1.6 Một cấu trúc CF 19 Hình 1.7 Phương pháp Chameleon 21 Hình 1.8 Phân cụm dựa phương pháp mật độ [4] 24 Hình 1.9 Ba tầng liên tiếp cấu trúc STING 25 Hình 1.10 CLIQUE xác định vùng tiềm dựa đơn vị dày đặc 26 Hình 2.1 Minh họa cho bánh xe sổ số với quần thể có cá thể 33 Hình 2.2 Sơ đồ cấu trúc thuật tốn di truyền 35 Hình 2.3 Số lượng thống trị hai giải pháp A B diện tích hình 40 chữ nhật tơ đậm Hình 2.4 Trường hợp khác new-pt bị thống trị curent-pt a) new-pt 41 không bị thống trị giải pháp kho Archive ngoại trừ curentpt b) Một số giải pháp kho Archive thống trị new-pt Hình 2.5a New-pt thống trị k điểm thuộc Archive 42 Hình 2.5b New-pt khơng thống trị điểm khác thuộc Archive 42 Hình 2.5c New-pt thống trị k điểm thuộc Archive 43 Hình 2.6a New-pt thống trị current-pt k điểm thuộc Archive lại thống trị new-pt 43 Hình 2.6b New-pt không thống trị điểm thuộc Archive lại thống trị 44 current-pt thuộc Archive Hình 2.6c New-pt thống trị k điểm thuộc Archive 44 Hình 3.1 Ví dụ khoảng cách đối xứng điểm 50 Hình 3.2 Các bước thuật tốn VAMOSA 52 Hình 3.3 Các bước q trình phân điểm liệu đến k nhóm liệu dựa vào khoảng cách đối xứng điểm 53 Hình 4.1 Giao diện chạy chương trình 56 Hình 4.2 Mảng lưu trữ tập liệu Over_3 57 Hình 4.3 Kết phân cụm phương án cụm 58 Hình 4.4 Kết phân cụm phương án cụm 58 Hình 4.5 Kết phân cụm phương án cụm 59 Hình 4.6 Kết phân cụm phương án cụm 59 Hình 4.7 Kết phân cụm phương án cụm 60 Hình 4.8 Mảng lưu trữ tập liệu Iris 60 Hình 4.9 Kết phân cụm phương án cụm 61 Hình 4.10 Kết phân cụm phương án cụm 61 Hình 4.11 Kết phân cụm phương án cụm 62 Hình 4.12 Kết phân cụm phương án cụm 62 LỜI MỞ ĐẦU Phân cụm liệu toán thuộc vào lĩnh vực học máy không giám sát ứng dụng rộng rãi để khai thác thơng tin từ liệu Nó có nhiệm vụ tổ chức tập đối tượng liệu thành cụm cho đối tượng cụm “tương tự” đối tượng cụm khác “kém tương tự” Trong sống, cá nhân, hay tổ chức thường bị đặt vào tình phải lựa chọn phương án tối ưu để giải vấn đề Khi phải tiến hành thu thập, phân tích chọn lựa thơng tin nhằm tìm giải pháp tốt để hành động Các phương án đề xuất giải hay nhiều vấn đề lúc tùy thuộc vào tình yêu cầu đặt Trong tốn học có nhiều lý thuyết sở làm tảng giúp tìm phương án tối ưu để giải vấn đề như: lý thuyết thống kê, lý thuyết định, lý thuyết tối ưu, vận trù học,…Do tính ưu việt hiệu quả, tối ưu hóa nhiều mục tiêu lý thuyết toán học ngày ứng dụng rộng rãi nhiều lĩnh vực như: kỹ thuật công nghệ, hàng khơng, thiết kế, tài chính,… Tối ưu hóa nhiều mục tiêu có nghĩa tìm phương án tốt theo nghĩa định để đạt (cực đại hay cực tiểu) nhiều mục tiêu lúc phương án ta gọi phương án lý tưởng Trong toán tối ưu nhiều mục tiêu thường mục tiêu xung đột với nên việc cố gắng làm “tăng” giá trị cực đại hay cực tiểu mục tiêu làm “giảm” gía trị cực đại hay cực tiểu mục tiêu khác nên việc tồn phương án lý tưởng Vì cách tốt tìm phương án nhằm thỏa mãn tất yêu cầu mục tiêu mức độ chấp nhận phương án gọi phương án thỏa hiệp hàm mục tiêu Có nhiều định nghĩa khác đề cập đến phương án/nghiệm tối ưu như: Pareto, Borwein, Benson, Geoffrion, Kuhn – Tucker,… Các định nghĩa thường có tương quan với chúng biểu cụ thể thơng qua định lý, mệnh đề tính chất Như biết sở để định nghĩa nghiệm tối ưu quan hệ thứ tự không gian quan hệ hai ngơi Ngồi phần kết luận, cấu trúc nội dung luận văn bao gồm chƣơng: Chương 1: Phân cụm liệu Chương tập trung trình bày tổng quan PCDL, hướng tiếp cận Data Mining Trong sâu phân tích chi tiết vấn đề bản: khái niệm PCDL ý nghĩa thực tiễn; trình bày số phương pháp PCDL giải thuật điển hình phương pháp phân cụm 52 Bƣớc 5: Select the best solution from the archive /* Chọn giải pháp kho lưu trữ*/ Bƣớc 6: Output best solution and stop End Hình 3.2 Các bước thuật tốn VAMOSA 3.4.2 Phân cụm điểm liệu Cho liệu gồm n điểm liệu số nhóm k cho trước, phân bố điểm tới k nhóm khác Mỗi điểm j, J =1,2, …n, phân bố tới nhóm định theo cách sau: Tìm tâm nhóm gần với j theo ý nghĩa đối xứng Nghĩa chúng tơi tìm tâm nhóm k có khoảng cách đối xứng ngắn tới j: k= Argmini=1…K.dps( j, ) biểu diễn tâm nhóm thứ i dps( j, ) khoảng cách dựa Trong đó: tỷ số tương ứng dps( j, đối xứng điểm [16] điểm cụ thể j với tâm nhóm )/ de( j, ) nhỏ thông số quy định trước ɵ, chúng tơi gán điểm j tới nhóm thứ k (de( j, ) khoảng cách Ơ-clit giữa điểm j tâm nhóm (dps( j, )/ de( j, ) Nhưng ))> ɵ, việc phân bố dựa tiêu chí khoảng cách Euclidean nhỏ thường dùng [18] thuật tốn cơng cụ K, tức gán gán điểm j tới nhóm thứ k k = Argmini=1…Kde( j, ) Nguyên nhân thực việc phân bố sau: giai đoạn trung gian thusật toán, tâm chưa khai triển đúng, giá trị dps cực tiểu cho điểm mong đợi lớn, điểm không đối xứng với tâm Trong trường hợp đó, khoảng cách Euclidean để phân bố nhóm phù hợp Sau việc phân bố điểm liệu hồn thành, tâm nhóm cập nhập lại theo tư tưởng thuật toán K-Mean Procedure: Clustering_PS() + Assignment of data point: Let a particular string encode total K number of clusters For all data point 53 /* khoảng cách Euclidean điểm Gán giá trị điểm vào nhóm thứ tâm nhóm */ Otherwise, the data point is assigned to the cluster where + Updation of centres: Compute the new centroids of the K clusters as follows: /* Cập nhập lại tâm nhóm.*/ Hình 3.3 Các bước q trình phân điểm liệu đến k nhóm liệu dựa vào khoảng cách đối xứng điểm 3.4.3 Tính tốn hàm mục tiêu phù hợp Trong thuật toán này, hai hàm mục tiêu tối ưu hóa đồng thời số XieBeni (XB) [14] dựa vào khoảng cách Euclidean số Sym dựa khoảng đối xứng điểm [11,15] Chú ý, sử dụng nhiều số phù hợp khác Hai số tối ưu hóa đồng thời phương pháp tối ưu cụm AMOSA Chỉ số XB số dựa khoảng cách Euclidean Nó tỷ lệ độ nén nhóm nhóm (sử dụng khoảng cách Ơ-clít) theo phân tách cặp nhóm Do đó, phát tốt nhóm có hình dạng siêu cầu Ở đây, phân nhóm đo cách sử dụng khoảng cách nhỏ hai trung tâm nhóm Nhưng số Sym, tách nhóm đo cách sử dụng khoảng cách lớn tâm hai nhóm Do hai số kiểm tra đặc điểm khác nhóm Hơn nữa, số XB số hiệu lực nhóm thông dụng tiếng dựa khoảng cách Ơ-clit Do đó, tối ưu hóa số XB số Sym đồng thời sử dụng MOO AMOSA Để tính tóan phương pháp này, ban đầu trung tâm mã hóa dãy trích Cho số K trung tâm nhóm mã hóa dãy riêng Diễn tả chúng + Chỉ số XB: xác định hàm tỷ lệ tổng biến thể σ với phân tách tối thiểu sep nhóm 54 Trong đó: σ sep viết là: σ(Z,X)= sep(Z)= { } định chuẩn Ơ-Clít de khoảng cách Ơ-clit điểm thứ k nhóm thứ i tâm nhóm , ni diễn tả số điểm liệu xuất nhóm thứ i Z X tâm nhóm liệu số XB sau viết sau: XB= = Chú ý: Khi phân chia chắn tốt tổng độ lệch σ có giá trị thấp phân tách cực tiểu (sep) cặp trung tâm có giá trị cao Do đó, mục tiêu tối thiểu số XB để đạt phân nhóm tốt Chỉ số XB => Min + Chỉ số Sym: xác định dựa khoảng cách đối xứng điểm [11,15] Nó xác định sau: Sym (K) = ( ) Trong đó: K tổng số nhóm cho trước Ở = = DK= DK khoảng cách Ơ-clit lớn trung tâm cặp nhóm khoảng cách dối xứng điểm [3] điểm thứ j nhóm thứ i Ở đây, lân cận k gần =2x tức lân cận k gần nhóm thứ i tìm kiếm các điểm nhóm i, , điểm phản chiếu nên thuộc Chú ý: Mục tiêu tối đa hóa số Sym để đạt số nhóm thực đạt phân nhóm tốt Sym tập hợp yếu tố 1/K, 1/ DK Yếu tố thứ tăng K giảm để giảm giá trị K Yếu tố thứ hai nằm tổng thể khoảng cách đối xứng nhóm Đối với nhóm có cấu trúc đối xứng tốt, giá trị Ei nhỏ Điều hình thành thêm nhiều nhóm, đối xứng hình dạng khích lệ Cuối yếu tố thứ ba Dk đo phân tách cực đại cặp nhóm, tăng với giá trị K Khi ba yếu tố bổ sung chất, chúng kỳ vọng hoàn thiện cân với để định phân chia xác Chỉ số Sym => Max Vậy cần tối ưu hóa đồng thời hai hàm mục tiêu dựa phương pháp tối ưu nhóm AMOSA: 55 Chỉ số XB => Min Chỉ số Sym => Max 3.4.4 Một số phƣơng pháp nhiễu phƣơng án Khác với thuật tốn K-mean, thuật tốn VAMOSA khơng cần xác định số k cụm cho trước, khởi tạo số k sau lần thực thủ tục phân cụm PS() ta thay đổi tập tâm cụm theo phương án sau: (1) Mỗi trung tâm cụm mã hóa chuỗi thay tọa độ gần tâm (2) Một trung tâm cụm bỏ bớt (3) Tổng số cụm mã hóa chuỗi tăng lên Một điểm chọn liệu mã hóa trung tâm cụm 3.4.5 Điều kiện dừng cùa thuật toán Các bước AMOSA dựa bước kỹ thuật phân cụm VAMOSA theo sau bước giải thuật SA Dựa vào giải thuật SA, AMOSA độ đo ban đầu đặt ngang với Tmax, giá trị độ đo cực đại Các bước AMOSA thực iter lần độ đo Sau thực xong iter lần độ đo giảm xuống α lần với T = α x T (