1. Trang chủ
  2. » Giáo Dục - Đào Tạo

Ứng dụng kỹ thuật đa mục tiêu vào phân cụm dữ liệu

68 12 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Nội dung

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƢỜNG ĐẠI HỌC CÔNG NGHỆ  CHẾ THỊ HẰNG ỨNG DỤNG KỸ THUẬT ĐA MỤC TIÊU VÀO PHÂN CỤM DỮ LIỆU LUẬN VĂN THẠC SỸ CÔNG NGHỆ THÔNG TIN Hà Nội – 2014 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƢỜNG ĐẠI HỌC CÔNG NGHỆ  CHẾ THỊ HẰNG ỨNG DỤNG KỸ THUẬT ĐA MỤC TIÊU VÀO PHÂN CỤM DỮ LIỆU Ngành: Công nghệ thông tin Chuyên ngành: Hệ thống thông tin Mã số: 60 48 05 LUẬN VĂN THẠC SỸ CÔNG NGHỆ THÔNG TIN NGƢỜI HƢỚNG DẪN KHOA HỌC: PGS.TS HOÀNG XUÂN HUẤN Hà Nội - 2014 LỜI CẢM ƠN Để hoàn thành luận văn thạc sỹ này, trước hết xin gửi lời cảm ơn sâu sắc đến PGS.TS Hoàng Xuân Huấn Thầy cung cấp cho kiến thức, tài liệu, phương pháp nghiên cứu vấn đề mang tính khoa học Thầy thường xun đưa giúp tơi có ý tưởng làm luận văn Tôi xin chân thành cảm ơn thầy hỗ trợ chân thành nhiệt tình suốt thời gian qua Tơi xin chân thành cảm ơn thầy, cô giáo Bộ môn Công nghệ phần mềm, Khoa Công nghệ thông tin - Phòng Đào tạo sau đại học - Nghiên cứu Khoa học, Trường Đại học Công nghệ - Đại học Quốc gia Hà Nội tạo điều kiện tốt để tơi hồn thành khóa học Đồng thời, tơi xin cảm ơn gia đình, bạn bè, người ln khuyến khích giúp đỡ tơi hồn cảnh khó khăn Tơi xin cảm ơn quan đồng nghiệp tạo điều kiện cho suốt thời gian học tập rèn luyện trường Đại học Công nghệ - Đại học Quốc gia Hà Nội Hà Nội, ngày 20 tháng 05 năm 2014 Học viên Chế Thị Hằng LỜI CAM ĐOAN Tơi xin cam đoan kiến thức trình bày luận văn tơi tìm hiểu, nghiên cứu trình bày theo cách hiểu thân hướng dẫn trực tiếp PGS.TS Hoàng Xn Huấn Trong q trình làm luận văn tơi có tham khảo tài liệu có liên quan ghi rõ nguồn gốc tham khảo tài liệu Mọi chép không hợp lệ, vi phạm quy chế đào tạo tơi xin chịu hồn tồn trách nhiệm Hà Nội, ngày 20 tháng 05 năm 2014 Học viên Chế Thị Hằng MỤC LỤC LỜI CẢM ƠN LỜI CAM ĐOAN MỤC LỤC DANH MỤC CÁC KÍ HIỆU, TỪ VIẾT TẮT DANH MỤC CÁC HÌNH VẼ MỞ ĐẦU CHƢƠNG I PHÂN CỤM DỮ LIỆU 1.1 Phân cụm liệu 1.2 Các phƣơng pháp thuật toán phân cụm liệu [2] 1.2.1 Các phƣơng pháp phân vùng 1.2.2 Các phƣơng pháp phân cấp 1.2.3 Phƣơng pháp phân cụm dựa mật độ 1.2.4 Các phƣơng pháp phân cụm dựa lƣới CHƢƠNG II PHÂN CỤM DỮ LIỆU ĐA MỤC TIÊU VÀ MỘT SỐ KỸ THUẬT TỐI ƢU HÓA CỤM 2.1 Phân cụm liệu đơn mục tiêu phân cụm liệu đa mục tiêu [1] 2.2.Một số giải thuật tối ƣu hóa cụm 2.2.1 Giải thuật di truyền (Genetic Algorithm) 2.2.2 Kỹ thuật mô luyện kim dựa thuật toán tối ƣu nhiều mục tiêu (SA) VAMOSA CHƢƠNG III THUẬT TOÁN VAMOSA – THUẬT TOÁN PHÂN CỤM DỰA TRÊN TÍNH ĐỐI XỨNG 3.1 Giới thiệu 3.2 Thuật toán tối ƣu đa mục tiêu dựa vào SA: AMOSA 3.3 Khoảng cách đối xứng 3.4 Phƣơng pháp đề xuất để phân cụm đa mục tiêu 3.4.1 Trình bày chuỗi khởi tạo kho lƣu trữ 3.4.2 Phân cụm điểm liệu 3.4.3 Tính tốn hàm mục tiêu phù hợp 3.4.4 Một số phƣơng pháp nhiễu phƣơng án 3.4.5 Điều kiện dừng cùa thuật toán 3.4.6 Lựa chọn giải pháp CHƢƠNG IV KẾT QUẢ THỬ NGHIỆM 4.1 Giới thiệu 56 4.2 Chƣơng trình liệu thử nghiệm .56 4.2.1 Chƣơng trình 56 4.2.2 Dữ liệu thử nghiệm 56 4.3 Kết thí nghiệm 57 KẾT LUẬN VÀ HƢỚNG PHÁT TRIỂN 64 TÀI LIỆU THAM KHẢO 65 DANH MỤC CÁC KÍ HIỆU, TỪ VIẾT TẮT Từ cụm từ Thuật toán BIRCH Thuật toán CLARA Cơ sở liệu Thuật toán CURE Thuật toán DBSCAN Thuật toán DENCLUE Khai phá tri thức sở liệu Khai phá liệu Khai phá tri thức Thuật toán AMOSA Phân cụm liệu Giải thuật SA Giải thuật GA DAN Hình 1.1 Mơ vấn đề PC Hình 1.2 Quá trình phân cụm Hình 1.3 Trường hợp hàm Hình 1.4 Quá trình phân cụm Hình 1.5 Phân cụm phân cấp d Hình 1.6 Một cấu trúc CF Hình 1.7 Phương pháp Chame Hình 1.8 Phân cụm dựa p Hình 1.9 Ba tầng liên tiếp nha Hình 1.10 CLIQUE xác định cá Hình 2.1 Minh họa cho bánh Hình 2.2 Sơ đồ cấu trúc thuật Hình 2.3 Số lượng thốn chữ nhật tô đậm Hình 2.4 Trường hợp khác nha khơng bị thống trị bở pt b) Một số giải phá Hình 2.5a New-pt thống t Hình 2.5b New-pt khơng thống Hình 2.5c New-pt thống trị k Hình 2.6a New-pt thống trị curr new-pt Hình 2.6b New-pt khơng thống current-pt thu Hình 2.6c New-pt thống trị k Hình 3.1 Ví dụ khoảng cách Hình 3.2 Các bước t Hình 3.3 Các bước q vào khoảng cách đối Hình 4.1 Giao diện chạy c Hình 4.2 Mảng lưu trữ tập Hình 4.3 Kết phân cụm củ Hình 4.4 Kết phân cụm củ Hình 4.5 Kết phân cụm củ Hình 4.6 Kết phân cụm củ Hình 4.7 Kết phân cụm củ Hình 4.8 Mảng lưu trữ tập Hình 4.9 Kết phân cụm củ Hình 4.10 Kết phân cụm củ Hình 4.11 Kết phân cụm củ Hình 4.12 Kết phân cụm củ LỜI MỞ ĐẦU Phân cụm liệu toán thuộc vào lĩnh vực học máy không giám sát ứng dụng rộng rãi để khai thác thông tin từ liệu Nó có nhiệm vụ tổ chức tập đối tượng liệu thành cụm cho đối tượng cụm “tương tự” đối tượng cụm khác “kém tương tự” Trong sống, cá nhân, hay tổ chức thường bị đặt vào tình phải lựa chọn phương án tối ưu để giải vấn đề Khi phải tiến hành thu thập, phân tích chọn lựa thơng tin nhằm tìm giải pháp tốt để hành động Các phương án đề xuất giải hay nhiều vấn đề lúc tùy thuộc vào tình yêu cầu đặt Trong toán học có nhiều lý thuyết sở làm tảng giúp tìm phương án tối ưu để giải vấn đề như: lý thuyết thống kê, lý thuyết định, lý thuyết tối ưu, vận trù học,…Do tính ưu việt hiệu quả, tối ưu hóa nhiều mục tiêu lý thuyết toán học ngày ứng dụng rộng rãi nhiều lĩnh vực như: kỹ thuật công nghệ, hàng không, thiết kế, tài chính, … Tối ưu hóa nhiều mục tiêu có nghĩa tìm phương án tốt theo nghĩa định để đạt (cực đại hay cực tiểu) nhiều mục tiêu lúc phương án ta gọi phương án lý tưởng Trong toán tối ưu nhiều mục tiêu thường mục tiêu xung đột với nên việc cố gắng làm “tăng” giá trị cực đại hay cực tiểu mục tiêu làm “giảm” gía trị cực đại hay cực tiểu mục tiêu khác nên việc tồn phương án lý tưởng Vì cách tốt tìm phương án nhằm thỏa mãn tất yêu cầu mục tiêu mức độ chấp nhận phương án gọi phương án thỏa hiệp hàm mục tiêu Có nhiều định nghĩa khác đề cập đến phương án/nghiệm tối ưu như: Pareto, Borwein, Benson, Geoffrion, Kuhn – Tucker,… Các định nghĩa thường có tương quan với chúng biểu cụ thể thông qua định lý, mệnh đề tính chất Như biết sở để định nghĩa nghiệm tối ưu quan hệ thứ tự khơng gian quan hệ hai ngơi Ngồi phần kết luận, cấu trúc nội dung luận văn bao gồm chƣơng: Chương 1: Phân cụm liệu Chương tập trung trình bày tổng quan PCDL, hướng tiếp cận Data Mining Trong sâu phân tích chi tiết vấn đề bản: khái niệm PCDL ý nghĩa thực tiễn; trình bày số phương pháp PCDL giải thuật điển hình phương pháp phân cụm 52 Bƣớc 5: Select the best solution from the archive /* Chọn giải pháp kho lưu trữ*/ Bƣớc 6: Output best solution and stop End Hình 3.2 Các bước thuật tốn VAMOSA 3.4.2 Phân cụm điểm liệu Cho liệu gồm n điểm liệu số nhóm k cho trước, phân bố điểm tới k nhóm khác Mỗi điểm j, J =1,2, …n, phân bố tới nhóm định theo cách sau: Tìm tâm nhóm gần với j theo ý nghĩa đối xứng Nghĩa chúng tơi tìm tâm nhóm k có khoảng cách đối xứng ngắn tới j: k= Argmini=1…K.dps( j, ) Trong đó: biểu diễn tâm nhóm thứ i dps( j, ) khoảng cách dựa đối xứng điểm [16] điểm cụ thể j với tâm nhóm tỷ số tương ứng dps( j, )/ de( j, (de( j, j, ) nhỏ thông số quy định trước ɵ, chúng tơi gán điểm j tới nhóm thứ k ) khoảng cách Ơ-clit giữa điểm j tâm nhóm )/ de( j, ) Nhưng (dps( ))> ɵ, việc phân bố dựa tiêu chí khoảng cách Euclidean nhỏ thường dùng [18] thuật tốn cơng cụ K, tức gán gán điểm j tới nhóm thứ k k = Argmini=1…Kde( j, ) Nguyên nhân thực việc phân bố sau: giai đoạn trung gian thusật toán, tâm chưa khai triển đúng, giá trị dps cực tiểu cho điểm mong đợi lớn, điểm khơng đối xứng với tâm Trong trường hợp đó, khoảng cách Euclidean để phân bố nhóm phù hợp Sau việc phân bố điểm liệu hoàn thành, tâm nhóm cập nhập lại theo tư tưởng thuật toán K-Mean Procedure: Clustering_PS() + Assignment of data point: Let a particular string encode total K number of clusters For all data point 53 /* khoảng cách Euclidean điểm Gán giá trị điểm vào nhóm thứ tâm nhóm */ Otherwise, the data point is assigned to the cluster where + Updation of centres: Compute the new centroids of the K clusters as follows: /* Cập nhập lại tâm nhóm.*/ Hình 3.3 Các bước q trình phân điểm liệu đến k nhóm liệu dựa vào khoảng cách đối xứng điểm 3.4.3 Tính tốn hàm mục tiêu phù hợp Trong thuật toán này, hai hàm mục tiêu tối ưu hóa đồng thời số XieBeni (XB) [14] dựa vào khoảng cách Euclidean số Sym dựa khoảng đối xứng điểm [11,15] Chú ý, sử dụng nhiều số phù hợp khác Hai số tối ưu hóa đồng thời phương pháp tối ưu cụm AMOSA Chỉ số XB số dựa khoảng cách Euclidean Nó tỷ lệ độ nén nhóm nhóm (sử dụng khoảng cách Ơ-clít) theo phân tách cặp nhóm Do đó, phát tốt nhóm có hình dạng siêu cầu Ở đây, phân nhóm đo cách sử dụng khoảng cách nhỏ hai trung tâm nhóm Nhưng số Sym, tách nhóm đo cách sử dụng khoảng cách lớn tâm hai nhóm Do hai số kiểm tra đặc điểm khác nhóm Hơn nữa, số XB số hiệu lực nhóm thơng dụng tiếng dựa khoảng cách Ơ-clit Do đó, tối ưu hóa số XB số Sym đồng thời sử dụng MOO AMOSA Để tính tóan phương pháp này, ban đầu trung tâm mã hóa dãy trích Cho số K trung tâm nhóm mã hóa dãy riêng Diễn tả chúng + Chỉ số XB: xác định hàm tỷ lệ tổng biến thể σ với phân tách tối thiểu sep nhóm 54 Trong đó: σ sep viết là: σ(Z,X)= định chuẩn Ơ-Clít de sep(Z)= { } khoảng cách Ơ-clit điểm thứ k nhóm thứ i tâm nhóm , ni diễn tả số điểm liệu xuất nhóm thứ i Z X tâm nhóm liệu số XB sau viết sau: XB= = Chú ý: Khi phân chia chắn tốt tổng độ lệch σ có giá trị thấp phân tách cực tiểu (sep) cặp trung tâm có giá trị cao Do đó, mục tiêu tối thiểu số XB để đạt phân nhóm tốt Chỉ số XB => Min + Chỉ số Sym: xác định dựa khoảng cách đối xứng điểm [11,15] Nó xác định sau: Sym (K) = ( Trong đó: K tổng số nhóm cho trước Ở = DK khoảng cách Ơ-clit lớn trung khoảng cách dối xứng điểm [3] điểm thứ j nhóm thứ i Ở đây, lân cận k gần tức lân cận k gần nhóm thứ i Chú ý: Mục tiêu tối đa hóa số Sym để đạt số nhóm thực đạt phân nhóm tốt Sym tập hợp yếu tố 1/K, 1/ DK Yếu tố thứ tăng K giảm để giảm giá trị K Yếu tố thứ hai nằm tổng thể khoảng cách đối xứng nhóm Đối với nhóm có cấu trúc đối xứng tốt, giá trị Ei nhỏ Điều hình thành thêm nhiều nhóm, đối xứng hình dạng khích lệ Cuối yếu tố thứ ba Dk đo phân tách cực đại cặp nhóm, tăng với giá trị K Khi ba yếu tố bổ sung chất, chúng kỳ vọng hoàn thiện cân với để định phân chia xác Chỉ số Sym => Max Vậy cần tối ưu hóa đồng thời hai hàm mục tiêu dựa phương pháp tối ưu nhóm AMOSA: 55 Chỉ số XB => Min Chỉ số Sym => Max 3.4.4 Một số phƣơng pháp nhiễu phƣơng án Khác với thuật toán K-mean, thuật toán VAMOSA không cần xác định số k cụm cho trước, khởi tạo số k sau lần thực thủ tục phân cụm PS() ta thay đổi tập tâm cụm theo phương án sau: (1) Mỗi trung tâm cụm mã hóa chuỗi thay tọa độ gần tâm (2) Một trung tâm cụm bỏ bớt (3) Tổng số cụm mã hóa chuỗi tăng lên Một điểm chọn liệu mã hóa trung tâm cụm 3.4.5 Điều kiện dừng cùa thuật toán Các bước AMOSA dựa bước kỹ thuật phân cụm VAMOSA theo sau bước giải thuật SA Dựa vào giải thuật SA, AMOSA độ đo ban đầu đặt ngang với Tmax, giá trị độ đo cực đại Các bước AMOSA thực iter lần độ đo Sau thực xong iter lần độ đo giảm xuống α lần với T = α x T (

Ngày đăng: 11/11/2020, 22:30

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w