BỘ GIÁO DỤC VÀ ĐÀO TẠO ĐẠI HỌC ĐÀ NẴNG LƢƠNG VĂN NGHĨA THIẾT KẾ CƠ SỞ DỮ LIỆU PHÂN TÁN THEO TIẾP CẬN KHAI PHÁ DỮ LIỆU Chuyên ngành: KHOA HỌC MÁY TÍNH Mã số: 62 48 01 01 TÓM TẮT LUẬN ÁN TIẾN SĨ KỸ THUẬT Đà Nẵng - 2019 Cơng trình hồn thành tại: ĐẠI HỌC ĐÀ NẴNG Người hướng dẫn khoa học: PGS.TS Lê Văn SơnPGS.TS Lê Văn Sơn PGS.TS Đoàn Văn BanPGS.TS Đoàn Văn Ban Phản biện 1: ……………………… ;…………………… Phản biện 2: ……………………………………………… Phản biện 3: ……………………………………………… Luận án bảo vệ trước Hội đồng chấm luận án cấp Đại học Đà Nẵng Vào hồi … ngày tháng ……năm …… Có thể tìm hiểu luận án tại: - Thư viện Quốc gia - Trung tâm Thông tin - Học liệu, Đại học Đà Nẵng MỞ ĐẦU TÍNH CẤP THIẾT CỦA VIỆC NGHIÊN CỨU Ngày nay, với việc liệu đa dạng, phân tán nhiều nơi toàn cầu làm cho ứng dụng sở liệu (CSDL), phương pháp quản trị khai thác CSDL phân tán truyền thống tỏ hiệu quả, khơng đáp ứng mục tiêu chia sẻ khó khăn việc tích hợp trao đổi thông tin Để khắc phục hạn chế trên, CSDL phân tán cần thiết kế cho phù hợp với yêu cầu sử dụng, truy xuất xử lý liệu phân tán Điều thực nhờ vào kỹ thuật khai phá liệu (KPDL), cụ thể dựa vào kỹ thuật phân cụm phục vụ cho việc phân mảnh phân tán, định vị liệu thiết kế CSDL phân tán Hiện có nhiều nghiên cứu liên quan đến toán thiết kế CSDL phân tán dựa vào kỹ thuật phân cụm lĩnh vực KPDL, cụ thể: - Bài toán phân mảnh liệu dựa vào phân cụm nhiều tác giả quan tâm sau phát triển tiếp Ưzsu M Tamer cộng Tuy nhiên, kỹ thuật phân mảnh dựa vào đối tượng phân cụm có độ tương đồng nhóm thuộc tính dừng lại cho tốn phân mảnh dọc liệu lược đồ quan hệ - Hui ma cộng đề xuất thuật toán phân cụm CA (Clustered Affinity) để nhóm thuộc tính có mối quan hệ chặt chẽ với (ái lực) sau Navathe cộng phát triển thuật toán BEA (Bond Enegy Algorithm), phục vụ cho toán phân mảnh dọc liệu phân tán Các thuật toán dựa theo ý tưởng thuộc tính có tần suất xuất đồng thời lớn thường thuộc cụm (phân mảnh) Phương án giải toán đưa tối ưu hóa biểu thức bậc có độ phức tạp lớn - Bài tốn tối ưu hóa thuật tốn phân mảnh Navathe cộng đề xuất tìm điểm phân tách t cho biểu thức q = CTQ * CBQ - COQ2 cực đại Tuy nhiên, với quan hệ có số thuộc tính lớn, tốn khơng thể giải phân hoạch thành hai mảnh, cần phải thực theo phân mảnh hỗn hợp, gổm phân mảnh ngang phân mảnh dọc - Các nghiên cứu gần đây, số tác giả kết hợp giải toán phân mảnh toán định vị kỹ thuật tối ưu, kết hợp với kỹ thuật heuristic Thời gian thực thuật toán giảm đáng kể so với thuật toán ban đầu Tuy nhiên, độ đo liên kết thuộc tính chưa trí chung nhà khoa học - Thuật toán tối ưu đàn kiến heuristic - ACO (Ant Colony Optimazation) lần Dorigo cộng đề xuất năm 2011, ứng dụng nhiều tìm kiếm khai phá liệu Hầu hết nghiên cứu gần ACO tập trung vào việc phát triển biến thể thuật tốn để làm tăng hiệu tính toán thuật toán hệ kiến AS (Ant System) ban đầu - Một số nghiên cứu nước ACO tập trung giải toán tối ưu rời rạc toán người bán hàng, toán lập lịch, toán an ninh mạng Một số hướng tiếp cận khác theo kỹ thuật phân cụm mờ tập trung giải cho số toán kỹ thuật công nghệ cao Tuy nhiên, cách tiếp cận thử nghiệm toán phân cụm hay sử dụng tiếp cận tìm kiếm heuristic để tìm lời giải tối ưu cục cho toán phân mảnh liệu phân tán, cho kết nhanh khơng thể cải thiện thêm lời giải tìm - Về kỹ thuật phân cụm tích hợp, nghiên cứu nước gần nhiều nhóm tác giả quan tâm đề xuất thuật toán hiệu cao Trong luận án này, tác giả vận dụng tích hợp thuật tốn tối ưu hóa đàn kiến ACO phân cụm thô với kỹ thuật phân cụm nguyên thủy để đề xuất thuật toán phân cụm dọc liệu phân tán nhằm tối ưu chi phí tính tốn chất lượng sau phân cụm cho liệu lớn Để tham gia giải vấn đề nêu trên, đề tài luận án “Thiết kế sở liệu phân tán theo tiếp cận khai phá liệu” thực theo định hướng sau: - Kết hợp kỹ thuật phân cụm phân cấp tích tụ với phân cụm phân hoạch cho thuật toán cải tiến phân mảnh ngang, phân mảnh dọc liệu phân tán sở phát triển độ đo tương đồng phương thức xử lý cụm sau phân mảnh - Sử dụng lý thuyết tập thơ lý thuyết tối ưu hóa đàn kiến ACO để phát triển thuật toán phân mảnh dọc liệu phân tán kỹ thuật phân cụm thô KR phân cụm kiến FAC - Tiến hành so sánh, đánh giá thử nghiệm thuật toán cải tiến thuật toán đề xuất với thuật toán nguyên thủy liệu lớn để làm rõ tính hiệu chi phí, ưu điểm trội qua thực nghiệm số cụm sau phân mảnh MỤC TIÊU, ĐỐI TƢỢNG VÀ PHẠM VI NGHIÊN CỨU 2.1 Mục tiêu nghiên cứu Mục tiêu luận án nhằm giải toán phân mảnh liệu phân tán cách kết hợp số kỹ thuật phân cụm KPDL, lý thuyết tập thơ phương pháp tối ưu hóa ACO, cụ thể là: - Nghiên cứu cải tiến thuật toán phân mảnh dọc phân mảnh ngang dựa vào kỹ thuật phân cụm tích hợp khai phá liệu - Nghiên cứu đề xuất thuật toán phân mảnh dọc dựa kỹ thuật phân cụm thô KR phân cụm đàn kiến VFAC 2.2 Đối tượng phạm vi nghiên cứu Các đối tượng phạm vi nghiên cứu luận án: Các độ đo tương đồng, việc xử lý khoảng cách cụm thuật toán phân mảnh ngang, phân mảnh dọc dựa kỹ thuật phân cụm phân hoạch phân cụm phân cấp tích tụ Kỹ thuật phân mảnh dọc liệu phân tán dựa kỹ thuật phân cụm thô KR phân cụm đàn kiến VFAC Vận dụng lý thuyết tập thô, tiếp cận Meta-heuristic phương pháp tối ưu hóa đàn kiến ACO để giải toán phân cụm liệu phục vụ cho kỹ thuật phân mảnh thiết kế CSDL phân tán PHƢƠNG PHÁP NGHIÊN CỨU Các phương pháp nghiên cứu luận án: Phương pháp nghiên cứu lý thuyết: Nghiên cứu tổng quan tài liệu liên quan đến lý thuyết thiết kế CSDL phân tán kỹ thuật phân cụm khai phá liệu để cải tiến, đề xuất thuật toán phân mảnh liệu phân tán theo kỹ thuật phân cụm thô kỹ thuật phân cụm kiến FAC Phương pháp thực nghiệm: Trên sở thuật toán phân mảnh cải tiến, đề xuất (VFC, HFC, KR VAFC), luận án tiến hành cài đặt thử nghiệm với công cụ mô SPMS, ngôn ngữ lập trình Java để phân tích, so sánh kết phân cụm thuật toán đề xuất với kỹ thuật phân mảnh nguyên thủy tiêu biểu k-Means, k-Medoids ĐÓNG GÓP CỦA LUẬN ÁN 4.1 Về mặt khoa học Vận dụng thành công cách tiếp cận tập thơ tối ưu hóa đàn kiến ACO cho toán phân mảnh dọc thiết kế CSDL phân tán theo tiếp cận KPDL Nghiên cứu cải tiến thuật toán phân mảnh ngang HFC phân mảnh dọc VFC việc phát triển độ đo tương đồng kỹ thuật xử lý cụm phân cụm Nghiên cứu đề xuất thuật toán phân mảnh dọc theo kỹ thuật phân cụm thô KR kỹ thuật phân cụm đàn kiến VFAC 4.2 Về mặt thực tiễn Kết cài đặt thử nghiệm luận án cho thấy kết phân mảnh thuật toán cải tiến HFC, VFC thuật toán đề xuất KR, VFAC tốt thời gian tính tốn, chi phí nhớ, số cụm sau phân mảnh đặc biệt thực liệu với số đối tượng cần phân cụm lớn BỐ CỤC CỦA LUẬN ÁN Ngoài phần mở đầu kết luận, luận án bố cục ba chương: Chương trình bày nghiên cứu thiết kế sở liệu phân tán bao gồm kỹ thuật phân mảnh dọc, phân mảnh ngang thuật toán phân mảnh theo phân cụm FC (Fragmentation Cluster) Chương trình bày nghiên cứu liên quan đến kỹ thuật phân cụm khai phá liệu áp dụng cho toán phân mảnh ngang, phân mảnh dọc liệu phân tán đề xuất cải tiến hai thuật tốn VFC HFC Chương trình bày nghiên cứu đề xuất toán phân mảnh dọc liệu phân tán theo tiếp cận khai phá liệu kỹ thuật phân cụm thô KR (k-Means Rough) phân cụm đàn kiến FAC (Fragmentation Ants Cluster) Cài đặt thực nghiệm so sánh đối chiếu kết thuật toán cải tiến, đề xuất so với thuật toán nguyên thủy kMeans, HAC Chƣơng THIẾT KẾ CƠ SỞ DỮ LIỆU PHÂN TÁN Nội dung chương gồm hai phần chính: phần đầu giới thiệu tổng quan hệ sở liệu phân tán, phần thứ hai giới thiệu toán phân mảnh thiết kế sở liệu phân tán với yêu cầu, mục tiêu, chiến lược thỏa mãn: tính đúng, tính đầy đủ tính tái thiết Các thuật toán xem xét chương toán phân mảnh dọc phân mảnh ngang liệu phân tán từ thuật toán nguyên thủy thuật toán BEA, thuật toán PHORIZONTAL hay thuật toán phân mảnh FC dùng kỹ thuật phân cụm CA 1.1 TỔNG QUAN VỀ HỆ CƠ SỞ DỮ LIỆU PHÂN TÁN 1.2 THIẾT KẾ CƠ SỞ DỮ LIỆU PHÂN TÁN 1.2.1 Các chiến lược thiết kế 1.2.2 Các vấn đề thiết kế sở liệu phân tán 1.2.3 Kỹ thuật thiết kế sở liệu phân tán 1.2.4 Các quy tắc phân mảnh đắn 1.2.5 Thảo luận thiết kế sở liệu phân tán 1.3 THIẾT KẾ CƠ SỞ DỮ LIỆU PHÂN TÁN BẰNG CÁC KỸ THUẬT PHÂN MẢNH 1.3.1 Kỹ thuật phân mảnh ngang 1.3.2 Kỹ thuật phân mảnh dọc 1.3.3 Thuật toán phân mảnh FC 1.3.4 Kỹ thuật phân mảnh hỗn hợp 1.3.5 Thảo luận kỹ thuật phân mảnh 1.4 KẾT CHƢƠNG Trong chương này, luận án trình bày tổng quan thiết kế hệ CSDL phân tán, đề cập cách đầy đủ cần thiết cho toán phân mảnh liệu, quy tắc phân mảnh đắn bao gồm tính đầy đủ, tính tái thiết tính tách biệt yêu cầu thông tin sở liệu, thông tin ứng dụng Luận án trình bày số thảo luận chi tiết cuối mục để làm rõ vấn đề nghiên cứu chương, đồng thời xác định nội dung cần tiếp tục đề xuất luận án cho chương Nội dung chương chuyển đổi ý tưởng giải toán phân rã liệu CSDL tập trung sang giải toán phân mảnh liệu phân tán theo phân cụm dựa hai thuật toán nguyên thủy HF cho phân mảnh ngang CA cho phân mảnh dọc cách áp dụng kỹ thuật phân cụm FC Chi tiết thuật toán cải tiến kỹ thuật phân cụm KPDL cho toán phân mảnh trình bày Chương Vận dụng số tiếp cận cho kỹ thuật phân cụm, đề xuất số thuật toán phân cụm, luận án đề cập Chương Chƣơng PHÂN CỤM DỮ LIỆU TRONG THIẾT KẾ CSDL PHÂN TÁN Chương tập trung trình bày số vấn đề khai phá liệu (KPDL), kỹ thuật phân cụm liệu (PCDL) áp dụng cho toán phân mảnh thiết kế CSDL phân tán Các kỹ thuật phân cụm liên quan trình bày chương gồm phân cụm phân cấp, phân cụm phân hoạch phân cụm dựa vào tập thơ Kết nghiên cứu chương công bố báo [I], [II] danh mục cơng trình tác giả 2.1 TIẾP CẬN KHAI PHÁ DỮ LIỆU 2.1.1 Khai phá tri thức khai phá liệu 2.1.2 Những thách thức khai phá liệu 2.1.3 Các toán khai phá liệu 2.2 KỸ THUẬT PHÂN CỤM TRONG KHAI PHÁ DỮ LIỆU 2.2.1 Kỹ thuật phân cụm 2.2.2 Các kiểu liệu độ đo phân cụm 2.2.3 Các phương pháp phân cụm liệu 2.2.4 Thảo luận kỹ thuật phân cụm 2.3 PHÂN MẢNH DỮ LIỆU DỰA VÀO KỸ THUẬT PHÂN CỤM Áp dụng kỹ thuật phân cụm trình bày chương này, vận dụng với thuật toán CA FC chương 1, luận án đề xuất hai thuật toán cải tiến: phân mảnh dọc VFC (Vertical Fragmentation Cluster) phân mảnh ngang HFC (Horizontal Fragmentation Cluster) [I] cách vận dụng kết hợp phương pháp phân cụm theo độ đo tương đồng xử lý cụm dựa thuật toán nguyên thủy 2.3.1 Đề xuất cải tiến thuật toán phân mảnh dọc VFC Thuật toán VFC [I]: Đầu vào: - D: Tập n đối tương cần phân cụm; - do: Ngưỡng khoảng cách; - k: Số lượng cụm; - E: Hàm mục tiêu; Đầu ra: Tập cụm D; Thuật toán: Begin Chọn k đối tượng mi làm trọng tâm ban đầu cho k cụm; /* vận dụng theo k-Means */ Repeat C = {{r} | r ∈ D}; /* Khởi tạo C tập cụm gồm đối tượng */ Tìm hai cụm Si , Sj ∈ C có khoảng cách d(Si, Sj) nhỏ nhất; Nếu d(Si, Sj) > dừng thuật tốn; /*Khoảng cách cụm gần lớn ngưỡng cho phép */ C = C\{Si, Sj}; /* Loại bỏ cụm Si ,Sj khỏi tập cụm */ S = Si ∪ Sj; /* vận dụng theo thuật toán HAC */ C = C ∪ {S}; /* Kết nạp cụm S vào C */ Tính lại khoảng cách cụm với cụm cũ; 10 Cập nhật lại trọng tâm cụm mi; 11 Until End 11 Qua hai kết thử nghiệm trên, luận án xây dựng bảng so sánh cho hai thuật toán k-Means nguyên thủy thuật toán cải tiến VFC theo lần test, số lượng cụm k chọn (k = 3; k = 5; k = 9; k = 11, k = 15) (Bảng 2.11), thống lấy số lẽ phần kết quả: Bảng 2.11 So sánh kết với phân cụm k-Means VFC Thuật toán so sánh Phân cụm k-Means Phân cụm cải tiến VFC Số cụm k Chi phí trung bình lỗi (Min) Bộ nhớ tối đa (Mb) Số lần lặp k=3 Tổng Thời gian (ms) 16 4728,4549 1.2986 k=5 16 3582,955 1.2987 k=9 16 2909,955 1.2987 k = 11 16 2855,455 1.2987 k = 15 16 5437,3716 1.3000 k=3 15 5437,3716 1.2879 k=5 15 5237,3716 1.2879 k=9 15 5444,3716 1.2879 k = 11 15 5397,3716 1.2879 k = 15 15 5267,3716 1.2879 Nhận xét đánh giá thực nghiệm VFC: - Với số cụm k nhỏ (k = 3), thuật toán cải tiến VFC có tổng thời gian chi phí nhớ sử dụng nhỏ k-Means nguyên thủy Tuy nhiên, chi phí trung bình lỗi VFC thường lớn tích hợp HAC kMeans gặp liệu nhiễu phần tử ngoại lệ - Với số cụm k tăng lên, thuật toán VFC thực ổn định với chi phí thời gian, chi phí nhớ chi phí trung bình lỗi Đặc tính thể việc phát huy yếu tố hội tụ tốt theo k-Means 2.3.3.2 Đánh giá kết thực nghiệm theo HFC 12 Xét quan hệ r(R) = {T1, T2, , Tl}, tập Pr = {Pr1, Pr2, , Prm} vị từ đơn trích rút từ ứng dụng r(R) Vector hóa nhị phân ghi (Bảng 2.7) có ma trận OCM (Bảng 2.8), chọn trước số lượng cụm k thử nghiệm (k = 2, k = 3, k = 4) Kết phân mảnh ngang HFC (Bảng 2.12 ): Bảng 2.12 Kết phân mảnh ngang cải tiến HFC [I] k=9 k=11 k=15 Cụm 1: E1, E3, E6, E7 Cụm 1: E1, E3, E6, E7 Cụm 1: E1, E3 Cụm 2: E2, E4, E5, E8 Cụm 2: E2, E5, E8 Cụm 2: E2, E5, E8 Cụm 3: E4 Cụm 3: E4 // kết tương tự Cụm 4: E6, E7 k-Medoids [I] Tương tự, số cụm k trên, kết phân mảnh ngang theo phân cụm phân hoạch k-Medoids với thuật toán PAM, kết (Bảng 2.13 ): Bảng 2.13 Kết phân mảnh ngang theo k-Medoids k=9 k=11 k=15 Cụm 1: E1, E3,E4, E6, E7 Cụm 1: E1, E3, E6, E7 Cụm 1: E1, E3, E6, E7 Cụm 2: E2, E5, E8 Cụm 2: E2, E5, E8 Cụm 2: E2, E5, E8 Cụm 3: E4 Cụm 3: E4 Cụm 4: “rỗng” Nhận xét đánh giá thực nghiệm HFC: - Kết phân mảnh ngang cải tiến HFC PAM gần tương tự k = k = 11 Khi tăng số cụm với k = 15, kết khơng giống Kết thuật tốn cải tiến HFC (Bảng 2.12) phân cụm cho đối tượng cụm Tuy nhiên, thuật toán PAM (Bảng 2.13) lại chứa cụm = “rỗng” - Với thực nghiệm trên, việc cải tiến thuật toán phân mảnh ngang cần xem xét áp dụng cho liệu lớn Nếu cần thiết phải 13 cải thiện kết phân cụm, chấp nhận có cụm rỗng hay cụm khơng 2.4 KẾT CHƢƠNG Nội dung chương trình bày số phương pháp phân cụm nguyên thủy có liên quan đến thuật toán cải tiến, đề xuất, phương pháp phân cụm phân cấp tích tụ lồng, phân cụm phân hoạch, phân cụm dựa mật độ, phân cụm theo lý thuyết tập thô Một số thuật tốn điển hình đề cập k-Means, k-Medoids để làm sở so sánh, đánh giá thực nghiệm với thuật toán cải tiến VFC, HFC thuật toán đề xuất chương Chương đề xuất hai thuật toán VFC HFC [I] cải tiến từ thuật toán phân cụm CA kết hợp thuật toán phân mảnh FC sở kết hợp phương pháp phân cụm phân cấp tích tụ phân cụm phân hoạch k-Means, k-Medoids Việc sử dụng phối hợp kỹ thuật phân cụm toán thiết kế phân mảnh VFC, HFC cải tiến giải pháp tối ưu số cụm phân mảnh độ đo phát triển Tuy nhiên, thuật toán HFC, VFC sử dụng kỹ thuật phân cụm nguyên thủy, nên số lượng phân cụm k phụ thuộc vào người dùng Vì thế, cần kết hợp với tri thức chun gia để tính tốn số lượng cụm thích hợp, định nghĩa lại độ đo mối quan hệ thuộc tính, ghi tích hợp theo thuật tốn hiệu cao Một số cách tiếp cận kỹ thuật phân cụm phân cụm thô, phân cụm theo phương pháp tối ưu hóa đàn kiến ACO luận án trình bày tiếp tục Chương 14 Chƣơng THIẾT KẾ CƠ SỞ DỮ LIỆU PHÂN TÁN THEO PHÂN CỤM THÔ VÀ TỐI ƢU ĐÀN KIẾN Nội dung chương trình bày tốn thiết kế phân mảnh dọc liệu phân tán theo tiếp cận tập thô với kỹ thuật phân cụm thô KR tiếp cận tối ưu hóa đàn kiến ACO với kỹ thuật phân cụm đàn kiến VFAC Kết nghiên cứu chương công bố [III], [IV], [V] danh mục cơng trình tác giả 3.1 THIẾT KẾ CƠ SỞ DỮ LIỆU PHÂN TÁN THEO TIẾP CẬN TẬP THÔ 3.1.1 Rời rạc hố liệu trích chọn thuộc tính theo tiếp cận tập thô 3.1.2 Hệ thông tin 3.1.3 Quan hệ không phân biệt, bất khả phân biệt hệ thơng tin 3.1.4 Thuộc tính vector đặc trưng tham chiếu 3.2 PHÂN CỤM DỮ LIỆU PHÂN TÁN THEO TIẾP CẬN TẬP THƠ 3.2.1 Thuật tốn phân cụm thơ KR 3.2.1.1 Kỹ thuật phân cụm thô 3.2.1.2 Đề xuất thuật tốn phân cụm thơ KR Thuật tốn KR [V] Đầu vào: - D: Tập n đối tượng cần phân cụm; - k: Số lượng cụm; - Ngưỡng Thi; Đầu ra: Tập cụm D; Thuật toán Begin Khởi tạo ngẫu nhiên k tâm đối tượng xuất phát x={x1,… xk}; Repeat 15 Gán đối tượng v vào xấp xỉ xấp xỉ cụm; /* tiến hành gom cụm*/ Tính khoảng cách d(v, xi),d(v, xj) đối tượng v với trọng tâm cụm xi, xj; /* ≤ I, j ≤ k */ If (d(v, xi) - d(v, xj) Thi) Then véc tơ đối tượng v không thuộc xấp xỉ /* theo tính chất 3*/ ; Else d(v, xi) tối thiểu; Cập nhật lại trọng tâm xi trọng tâm mới; If (trung tâm cụm trùng với lần lặp trước) Then dừng thuật toán; Until End 3.2.1.3 Đánh giá thuật tốn phân cụm thơ KR - Giải pháp phân cụm thô KR [V], tương tự KO [III], có khả nhóm đối tượng nhiều cụm khác Ngồi ra, KR tạo nhiều cụm với số lượng cụm cần thiết để mô tả liệu phụ thuộc vào khoảng cách đo Điều này, hội dành cho đối tượng cao tiến hành gom cụm cụm - Tuy nhiên, giải pháp phân cụm thô KR tiến hành với liệu lớn, làm cho lời giải phức tạp hơn, mức độ trùng lặp cụm tăng lên, việc tính tốn trọng tâm chậm so với k-Means nguyên thủy - Độ phức tạp thuật tốn KR O(t*n*k), t số lần lặp, n số đối tượng cần phân cụm k số lượng cụm Tuy nhiên t, k thường bé so với n tập liệu đủ lớn chứa nhiều đối tượng Vì vậy, độ phức tạp thường tính O(n) Độ phức tạp tối ưu thuật toán phân cụm dọc theo lực thuộc tính thuật tốn BEA O(n2) 3.2.2 Kết thực nghiệm thuật tốn phân cụm thơ KR 16 Bảng 3.1 Tập D gồm 20 đối tượng cần phân cụm @NAME=Đối tượng 5.1 3.5 1.4 @NAME=Đối tượng 0.2 4.4 @NAME=Đối tượng 4.9 3.0 1.4 3.2 1.3 4.9 3.4 1.7 0.2 5.0 3.6 1.4 3.1 5.4 1.4 0.2 3.7 1.5 0.2 @NAME=Đối tượng 0.2 4.8 @NAME=Đối tượng 0.2 @NAME=Đối tượng @NAME=Đối tượng 4.6 1.4 @NAME=Đối tượng 0.2 @NAME=Đối tượng 4.7 2.9 3.7 1.5 0.2 @NAME=Đối tượng 10 0.2 4.8 1.4 0.1 @NAME=Đối tượng 11 20 @NAME=Đối tượng 12 15 13 12 60 52 10 50 40 42 21 30 50 42 21 15 52 21 25 25 22 @NAME=Đối tượng 19 41 11 @NAME=Đối tượng 15 52 @NAME=Đối tượng 18 51 @NAME=Đối tượng 14 50 @NAME=Đối tượng 17 11 @NAME=Đối tượng 13 30 @NAME=Đối tượng 16 15 35 42 @NAME=Đối tượng 20 31 11 25 45 45 Qua hai kết thử nghiệm trên, luận án xây dựng bảng so sánh hai thuật toán k-Means nguyên thủy thuật toán đề xuất KR theo lần Test, tương ứng số cụm k chọn (k = 6; k = 13, k = 15) (Bảng 3.2): Bảng 3.2 So sánh kết phân cụm thô KR k-Means Thuật Số cụm Tổng Chi phí trung Bộ nhớ tối đa Số lần k Thời binh lỗi (Min) (Mb) lặp toán so gian sánh (ms) k=6 80 2438.6216 1.2986 k-Means k = 13 26 2455.4550 1.3000 nguyên k = 15 16 2751.6216 1.3000 k=6 15 5048.8960 1.2879 Phân cụm k = 13 15 5048.4550 1.2879 thô KR k = 15 15 5048.1554 1.2879 thủy 17 Nhận xét đánh giá thực nghiệm KR: - Với số cụm k nhỏ (k = 6), thuật tốn k-Means có tổng thời gian lớn, chi phí trung bình lỗi chi phí nhớ đạt u cầu Trong đó, thuật tốn phân cụm thơ KR tối ưu tiêu chí - Khi tăng số cụm k lên (k = 13, k = 15), thuật toán KR thể rõ tối ưu ba tiêu chí so với thuật tốn k-Means Tuy nhiên, chi phí trung bình lỗi KR cao phải xem xét xấp xỉ xấp xỉ suốt trình cập nhật lại tâm 3.3 THIẾT KẾ CSDL PHÂN TÁN THEO PHƢƠNG PHÁP ACO 3.3.1 Phương pháp tối ưu hóa đàn kiến ACO 3.3.2 Từ đàn kiến tự nhiên đến đàn kiến nhân tạo 3.3.3 Thuật toán ACO tổng quát 3.3.4 Thuật toán hệ kiến AS 3.3.5 Tổ chức liệu khái niệm độ đo 3.4 PHÂN CỤM DỮ LIỆU PHÂN TÁN THEO TIẾP CẬN ACO 3.4.1 Phân cụm liệu phân tán theo tiếp cận ACO 3.4.2 Đề xuất thuật toán phân mảnh dọc theo phân cụm đàn kiến 3.4.2.1 Đề xuất thuật toán phân cụm đàn kiến FAC Thuật toán FAC [IV] Đầu vào: - Tập thuộc tính Att={A1, A2,…, Ak}; - Tập giao tác T={t1, t2., , tm}; - Số kiến Ant={ant1, ant2,…,antn}; Đầu ra: Phân cụm tối ưu KQ; Thuật tốn Tính độ tương đồng f(i); Tính xác suất nhặt Pnhặt; /* cơng thức (3.7) */ Tính xác suất thả Pthả; /* công thức (3.8) */ Foreach anti Ant Chọn hai số ngẫu nhiên 2; Foreach Att 18 If (Pnhặt >= số ngẫu nhiên 1) Then Kiến nhặt đối tượng; If (Pthả >= số ngẫu nhiên 2) Then Kiến thả đối tượng vào danh sách đỉnh thả; End for 10 Tính nồng độ mùi uv cạnh; /*công thức 3.3*/ 11 End for 12 Repeat 13 If ( > ) Then Gom hai đối tượng vào cụm; 14 Else Gom hai đối tượng khác cụm; 15 If (Tồn cụm có đối tượng nhất) Then 16 Tính khoảng cách trung bình từ đối tượng đến cụm khác; 17 So sánh khoảng cách trung bình lấy khoảng cách nhỏ để gom cụm; 18 Until ; 19.Return KQ 3.4.2.2 Đề xuất thuật toán phân mảnh dọc theo phân cụm đàn kiến VFAC Thuật toán VFAC [IV] Đầu vào: - Tập thuộc tính Att={A1, A2,…, Ak} - Tập giao tác T={t1, t2., , tm} - Số kiến Ant={ant1, ant2,…,antn}; - Số giao tác m; Đầu ra: Phân cụm tối ưu KQ; Thuật toán: T = m; T_Counter = 0; Omax = ∞; Ocurrent = 0; Repeat Foreach anti Ant If (anti Att) Then Xét Ai; If (Ai Att) Then Anti = Ai; Loại Ai khỏi Att; Else /* danh sách thuộc tính rỗng */ 19 Kiến nhặt thuộc tính theo Pnhặt; Else tính f(i); /*theo cơng thức 3.12 */ 10 Kiến thả thuộc tính theo Pthả; 11 End For 12 If Att = ; 13 Đánh giá chi phí kết tại; 14 If Ocurrent < Omax; 15 Khi (F_cur)Ai = (F_Opt)Ai; 16 Ocurrent = Omax; 17 Else T_Counter = T_Counter + 1; 18 Until (khi Omax ∞ T_Counter > m); 19 Return KQ; Đánh giá thuật toán VFAC: - Đề xuất việc đánh giá trước đặc trưng thuộc tính cho trước với kiến mang thuộc tính hay khơng - Thuật tốn VFAC sử dụng tham số (F_Opt)Ai = (F_Cur)Ai để đánh giá tính tốn đặc trưng thuộc tính so với cụm, việc giúp giảm chi phí trình phân mảnh liệu [79] - Xử lý nhớ cho kiến việc tính độ tương đồng thuộc tính theo xác suất nhặt xác suất thả thuộc tính - Độ phức tạp thuật toán VFAC xác định: O(max((Nant * NT) ; (N2F * NT * Natt))) đó, Nant số lượng kiến tham gia, NT số lượng giao tác quan trọng hệ thống, NF số lượng mảnh sinh ra, Natt số lượng thuộc tính Trong thực tế, bít dành cho số mảnh tối ưu (F_Opt) bé so với số mảnh (F_cur), số giao tác thường không lớn giao dịch, độ phức tạp O(NF * NT * Natt) Độ phức tạp bé độ phức tạp phân cụm k-Means O(t*k*n*d), phân cụm kMedoids O(k*(n - k)2) phân cụm theo lực thuộc tính BEA O(n2) 20 - Độ phức tạp VFAC tăng số lượng giao tác số thuộc tính tăng, cần xem xét yếu tố cho liệu lớn 3.4.3 Kết thực nghiệm thuật toán đề xuất VFAC 3.4.3.1 Kết cài đặt thực nghiệm thuật toán đề xuất VFAC Bảng 3.4 Tập liệu D gồm 20 giao tác @NAME=Giao tác @NAME=Giao tác @NAME=Giao tác 11 @NAME=Giao tác 16 5.1 3.5 1.4 0.2 4.4 2.9 1.4 0.2 20 50 52 21 @NAME=Giao tác @NAME=Giao tác @NAME=Giao tác 12 @NAME=Giao tác 17 4.9 3.0 1.4 0.2 4.9 3.1 1.4 0.2 15 13 12 11 10 15 52 21 @NAME=Giao tác @NAME=Giao tác @NAME=Giao tác 13 @NAME=Giao tác 18 4.7 3.2 1.3 0.2 5.4 3.7 1.5 0.2 30 60 52 51 21 25 25 22 @NAME=Giao tác @NAME=Giao tác @NAME=Giao tác 14 @NAME=Giao tác 19 4.6 3.4 1.7 0.2 4.8 3.7 1.5 0.2 50 40 42 41 11 15 35 42 @NAME=Giao tác @NAME=Giao tác 10 @NAME=Giao tác 15 @NAME=Giao tác 20 5.0 3.6 1.4 0.2 4.8 1.4 0.1 30 50 42 31 11 25 45 45 3.4.3.2 So sánh đánh giá kết thử nghiệm thuật toán VFAC Qua ba kết thử nghiệm trên, luận án tiến hành lập bảng so sánh hai thuật toán k-Means nguyên thủy thuật toán VFAC theo lần Test, tương ứng số cụm (k = 3; k = 7, k = 10, k = 15 k = 19) (Bảng 3.5 ): Bảng 3.5 So sánh kết với phân cụm k-Means với VFAC Thuật tốn Số cụm Tổng Chi phí trung bình k Thời lỗi (Min) so sánh Bộ nhớ tối đa (Mb) Số lần lặp gian (ms) k=3 16 4728.4549 1.2986 Phân cụm k=7 16 2582.9550 1.2987 k-Means k = 10 16 5437.3716 1.3000 nguyên k = 15 16 1455.4550 1.2987 k = 19 16 5437.3716 1.3000 thủy 21 k=3 16 2633.4550 1.2800 10 Phân cụm k=7 16 2633.7012 1.2800 10 VFAC k = 10 15 2632.7272 1.2801 10 k = 15 15 2632.0085 1.2801 k = 19 15 2632.0016 1.2802 3.4.3.3 Đánh giá kết thuật tốn VFAC Hình 3.8 So sánh chi phí trung bình lỗi k-Means VFAC Hình 3.9 Đánh giá độ ổn định theo số cụm k-Means VFAC Đánh giá chung thuật toán đề xuất VFAC: 22 - Xem xét thuật toán VFAC với (k = 3) kết (Hình 3.6.), (Hình 3.7.) kết đánh giá biểu đồ (Hình 3.8.), (hình 3.9.), dễ dàng nhận thấy rằng, tăng số cụm k tổng thời gian giảm, chi phí trung bình lỗi số lần lặp giảm Điều cho thấy thuật toán VFAC có ưu điểm xử lý với liệu lớn, có số đối tượng cần phân cụm nhiều - Với (k = 10), thuật toán VFAC tối ưu thuật toán k-Means nhiều số như: tổng thời gian, chi phí lỗi chi phí nhớ Khi số cụm k tăng dần, thuật toán VFAC giảm tổng thời gian tính tốn số trường hợp lặp so với k-Means - Qua so sánh đánh giá theo đồ thị (Hình 3.8), (Hình 3.9 ), thể rõ độ ổn định áp dụng thuật toán VFAC 3.5 KẾT CHƢƠNG Chương trình bày nghiên cứu toán phân mảnh dọc thiết kế sở liệu phân tán sở kết hợp phân cụm dựa vào lý thuyết tập thô phân cụm kiến FAC dựa vào lý thuyết tối ưu hóa đàn kiến ACO Dựa vào phân cụm theo tiếp cận thô, luận án đề xuất xây dựng ma trận độ tương tự cho việc phân cụm, ứng với cặp đối tượng ma trận, gán cụm cụm dựa vào xấp xỉ xấp xỉ Việc cải tiến thuật toán phân cụm nguyên thủy k-Means thành phân cụm thô KR cách kết hợp khoảng cách, độ tương đồng với xấp xỉ xấp xỉ có ưu điểm cải thiện độ đo chọn lựa cụm Dựa vào phân cụm theo phương pháp ACO, luận án đề xuất nội dung phát triển độ đo tương đồng cho thuật toán phân cụm kiến FAC toán phân mảnh dọc liệu theo phân cụm kiến VFAC Các kết so sánh thử nghiệm đánh giá đầy đủ, cho thấy tính hiệu độ phức tạp tính tốn thuật toán đề xuất 23 Qua phân tích, so sánh chương trình thực nghiệm cho thấy việc tiếp cận kỹ thuật phân cụm đề xuất để phân cụm thô kết hợp với phân cụm đàn kiến VFAC có số ưu điểm liệu lớn, chi phí nhớ tăng không đáng kể số trường hợp lặp giảm nhiều, làm giảm độ phức tạp tính tốn k lớn KẾT LUẬN Với mục tiêu đặt tập trung nghiên cứu số phương pháp phân mảnh thiết kế sở liệu phân tán theo tiếp cận khai phá liệu kỹ thuật phân cụm ngun thủy, tích hợp với phân cụm thơ phân cụm đàn kiến, Luận án đạt số kết nghiên cứu sau: Trình bày hai tiếp cận tập thô tối ưu hóa đàn kiến ACO việc áp dụng đề xuất toán phân cụm dọc thiết kế CSDL phân tán theo tiếp cận khai phá liệu Nghiên cứu cải tiến thuật toán phân mảnh ngang HFC phân mảnh dọc VFC kỹ thuật phân cụm tích hợp dựa sở phát triển độ đo tương đồng từ thuật toán phân cụm nguyên thủy Nghiên cứu đề xuất thuật toán phân cụm thô KR theo tiếp cận lý thuyết tập thô cho tốn phân mảnh dọc liệu thơ phân tán Nghiên cứu đề xuất thuật toán phân cụm dọc VFAC dựa phân cụm đàn kiến FAC theo tiếp cận lý thuyết tối ưu hóa đàn kiến ACO, cho phép bước thu h p khơng gian tìm kiếm nhằm nâng cao hiệu thuật toán phân cụm liệu toán thiết kế sở liệu phân tán Hướng phát triển luận án tiếp tục nghiên cứu bổ sung hoàn thiện toán thiết kế sở liệu phân tán theo số tiếp cận như: 24 - Tiếp tục nghiên cứu đề xuất thuật toán phân mảnh dọc liệu phân tán theo tiếp cận phân cụm mờ thuật toán phân mảnh ngang liệu phân tán theo hướng tiếp cận phân cụm thô phân cụm đàn kiến - Đánh giá, thử nghiệm thuật toán phân cụm đề xuất KR, VFAC nhiều liệu lớn hệ CSDL phân tán không - Đối với toán phân cụm có n đối tượng cần phân cụm số k cụm lớn, độ phức tạp tính tốn cao Vì vậy, việc nghiên cứu cải tiến thuật toán chi phí xử lý tính tốn hướng phát triển cần thiết sau luận án này./ DANH MỤC CÁC CƠNG TRÌNH KHOA HỌC ĐÃ CƠNG BỐ [I] Lương Văn Nghĩa (2013), Phân mảnh dọc, ngang thiết kế sở liệu phân tán dự kỹ thuật phân cụm, Tạp chí KH&CN, ISSN 1859-1531 - Đại học Đà Nẵng, số 03(64), pp 159-162 [II] Lương Văn Nghĩa, Lê Văn Sơn (2014), Phân mảnh liệu thiết kế sở liệu phân tán dựa vào kỹ thuật phân cụm hướng tri thức, Tạp chí KH&CN, ISSN 1859-1531 - Đại học Đà Nẵng, số 1(74), Quyển II, pp 59-63 [III] Van Nghia Luong, Ha Huy Cuong Nguyen, Van Son Le (2015), An Improvement on Fragmentation in Distribution Database Design Based on Knowledge-Oriented Clustering Techniques, International Journal of Computer Science & Information Security (IJCSIS) - USA, ©IJCSIS publication 2015 Pennsylvania, Vol 13 (No 5), pp 13-17 [IV] Van Nghia Luong, Vijender Kumar Solanki, Ha Huy Cuong Nguyen (2017), “Fragmentation in Distributed Database Design Based on ACO Clustering Technique”, IGI Global eEditorial Discovery® International Journal of Information Retrieval Research (IJIRR) Published by IGI Global Publishing, Hershey,USA, Vol 9, Issue 2, Article [V] Van Nghia Luong, Van Son Le, and Van Ban Doan (2017), “Fragmentation in Distributed Database Design Based on KR Rough Clustering Technique”, 6th International Conference, ICCASA 2017 and 3rd International Conference ICTCC 2017 Tam Ky, Vietnam, November 23–24, 2017, pp 166-172 ... thuật phân cụm CA 1.1 TỔNG QUAN VỀ HỆ CƠ SỞ DỮ LIỆU PHÂN TÁN 1.2 THIẾT KẾ CƠ SỞ DỮ LIỆU PHÂN TÁN 1.2.1 Các chiến lược thiết kế 1.2.2 Các vấn đề thiết kế sở liệu phân tán 1.2.3 Kỹ thuật thiết kế sở. .. thiết kế sở liệu phân tán 1.2.4 Các quy tắc phân mảnh đắn 1.2.5 Thảo luận thiết kế sở liệu phân tán 1.3 THIẾT KẾ CƠ SỞ DỮ LIỆU PHÂN TÁN BẰNG CÁC KỸ THUẬT PHÂN MẢNH 1.3.1 Kỹ thuật phân mảnh ngang... hiệu thuật toán phân cụm liệu toán thiết kế sở liệu phân tán Hướng phát triển luận án tiếp tục nghiên cứu bổ sung hồn thiện tốn thiết kế sở liệu phân tán theo số tiếp cận như: 24 - Tiếp tục nghiên