Trực quan hóa xu hướng cụm với dữ liệu kích có thước lớn: luận văn thạc sĩ

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC LẠC HỒNG TƠ TIẾN THÀNH TRỰC QUAN HĨA XU HƯỚNG CỤM VỚI DỮ LIỆU CĨ KÍCH THƯỚC LỚN LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN Đồng Nai - Năm 2018 BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC LẠC HỒNG TƠ TIẾN THÀNH TRỰC QUAN HĨA XU HƯỚNG CỤM VỚI DỮ LIỆU CĨ KÍCH THƯỚC LỚN Chun ngành: Cơng Nghệ Thông Tin Mã số: 8480201 LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS.TS ĐẶNG TRẦN KHÁNH Đồng Nai - Năm 2018 i LỜI CẢM ƠN Để hồn thành luận văn này, tơi xin chân thành cám ơn thầy cô Khoa sau đại học Trường Đại Học Lạc Hồng dạy dỗ, hướng dẫn truyền đạt cho kiến thức kinh nghiệp quý báu Xin tỏ lòng biết ơn sâu sắc đến thầy Đặng Trần Khánh, Phó trưởng Bộ mơn Công nghệ thông tin – Trường Đại học Bách Khoa – TP Hồ Chí Minh tận tình bảo, truyền đạt kinh nghiệm, kỹ phương pháp nghiên cứu để đề tài thực hoàn thành Xin gửi lời cám ơn đến anh, chị, em đồng nghiệp bạn lớp động viên, giúp đỡ, đóng góp ý kiến nhiều trình thực đề tài Do kiến thức thời gian có hạn nên đề tài khơng tránh khỏi thiếu sót khuyết điểm, kính mong q thầy đóng góp thêm để đề tài hồn thiện ! Tôi xin chân thành cám ơn ! Đồng Nai ,ngày tháng Học viên Tô Tiến Thành năm 2018 ii LỜI CAM ĐOAN Tôi xin cam đoan số liệu kết nghiên cứu luận văn tự tìm hiểu phân tích cách trung thực, khách quan Kết báo nêu luận văn chưa cơng bố cơng trình nghiên cứu khác Các tài liệu liên quan trích dẫn rõ ràng từ nguồn tin cậy, quy định Nếu có sai Tơi xin chịu trách nhiệm luận văn Đồng Nai, ngày tháng năm 2018 Học viên Tơ Tiến Thành iii TĨM TẮT LUẬN VĂN Đề tài: Trực quan hóa xu hướng cụm với liệu kích có thước lớn Ngành: Cơng nghệ thông tin Mã số: 8480201 Học viên: Tô Tiến Thành Người hướng dẫn: PGS.TS Đặng Trần Khánh NỘI DUNG TÓM TẮT Nội dung giao kết mong đợi người hướng dẫn Nội dung: Luận văn trình bày phương pháp trực quan hóa xu hướng liệu dựa ma trận sai khác Việc thể ma trận sai khác thành hình ảnh Bezdek Hathaway gọi VAT Giải thuật VAT biến thể giải hạn chế ứng với liệu có đặc điểm cụ thể Tiếp đó, luận văn đề xuất phương pháp trực quan hóa xu hướng dựa coreset Mục tiêu việc nghiên cứu hướng đến việc áp dụng giải thuật tập liệu kích thước lớn mở rộng liệu dòng (Streaming) - vốn xu hướng liệu ngày Kết quả:  Luận văn trình bày lại cách có hệ thống VAT biến thể cho tốn có kích thước lớn Nội dung trình bày nêu rõ tốn, tính chất/đặc điểm lý thuyết liên quan, thuật toán, thực thi, thực nghiệm với kết số cụm cụ thể  Sản phẩm kỳ vọng có sau hồn thành luận văn demo đơn giản gắn thuật toán thực thi lại với mô-đun tiền xử lý cho kỹ thuật phân cụm  Viết báo cáo tổng kết luận văn Cách thức giải vấn đề  Nghiên cứu thuật toán VAT  Nghiên cứu biến thể cải tiến VAT  Nghiên cứu biến thể VAT cho tốn với liệu kích thước lớn  Thực nghiệm phương pháp với kỹ thuật phân cụm cụ thể iv Đánh giá mặt khoa học kết Tìm hiểu tổng quan tốn phân cụm bước thực để giải, nhược điểm thuật toán VAT gốc Nghiên cứu biến thể VAT cho tốn với liệu kích thước lớn gồm: iVAT, re VAT, sVAT bigVAT, thực thi Matlab thực nghiệm với liệu kích thước lớn Phân tích kết thu được, cho thấy cải tiến tốt thuật toán Mục tiêu việc nghiên cứu hướng đến việc áp dụng giải thuật tập liệu có kích thước lớn Những vấn đề cịn tồn so với nội dung giao Dù tìm hiểu phần giải số cách tiếp cận liệu kích thước lớn tơi tự nhận thấy cịn hạn chế việc dự đốn xu hướng cụm liệu kích thước lớn mà xa Dữ liệu lớn (Big Data) Một số cải tiến cho thấy thêm khó có cách giải áp dụng tốt cho mục tiêu loại liệu Tuy nhiên dù cải tiến cải tiến tiêu chí đánh đổi tiêu chí khác Đồng Nai, Ngày tháng năm 2018 NGƯỜI HƯỚNG DẪN HỌC VIÊN PGS.TS Đặng Trần Khánh Tô Tiến Thành v MỤC LỤC LỜI CẢM ƠN i LỜI CAM ĐOAN .ii TÓM TẮT LUẬN VĂN iii MỤC LỤC v DANH MỤC CÁC KÝ HIỆU, CÁC TỪ VIẾT TẮT .vii DANH SÁCH HÌNH VẼ viii DANH SÁCH BẢNG x DANH SÁCH GIẢI THUẬT xi CHƯƠNG 1: GIỚI THIỆU CHƯƠNG 2: TRỰC QUAN HÓA XU HƯỚNG CỤM - GIẢI THUẬT VAT 2.1 Giới thiệu 2.2 Hình ảnh biểu diễn khác đối tượng thứ tự 2.3 Chi tiết giải thuật .7 2.4 Thực nghiệm phân tích 2.5 Kết luận chương .12 CHƯƠNG : iVAT – MỘT SỐ CẢI TIẾN HIỆU QUẢ CỦA VAT 13 3.1 Đặt vấn đề .13 3.2 Một số phương pháp xếp lại ma trận 13 3.3 Chi tiết giải thuật .14 3.4 Thực thi thực nghiệm 14 3.5 Kết luận chương .18 CHƯƠNG : CÁC BIẾN THỂ CỦA VAT CHO DỮ LIỆU KÍCH THƯỚC LỚN 19 4.1 Biến thể reVAT 19 4.2 Biến thể bigVAT 23 4.3 Biến thể sVAT 27 4.4 siVAT – Sự kết hợp sVAT iVAT 38 4.5 Biến thể đề xuất cho liệu lớn 41 4.5.1 Coreset giải thuật mẫu ProTras 41 4.5.2 Đánh giá mẫu thu .50 4.5.3 Đề xuất thuật tốn trực quan hóa xu hướng cụm dựa vào coreset 51 vi 4.5.4 Thực nghiệm phân tích 53 4.5.5 Cải tiến kết 58 KẾT LUẬN 61 vii DANH MỤC CÁC KÝ HIỆU, CÁC TỪ VIẾT TẮT Ký hiệu Thuật ngữ bigVAT Visual assessment of cluster tendency for large data sets iVAT Improve Visual Assessment of cluster Tendency MST Minimum Spanning Tre ProTraS Probabilistic Traversing Sampling reVAT Revised Visual Assessment of (Cluster) Tendency sVAT Scalable Visual Assessment of cluster Tendency siVAT Scalable Improve Visual Assessment of cluster Tendency VAT Visual Assessment of cluster Tendency viii DANH SÁCH HÌNH VẼ HÌNH 2.1: Hình ảnh biểu diễn ma trận R x HÌNH 2.2: Biểu đồ thể 20 điểm khơng gian chiều HÌNH 2.3: Thứ tự duyệt 20 điểm hình ảnh trực quan ma trận khoảng cách HÌNH 2.4: Thứ tự 20 điểm xếp .6 HÌNH 2.5: Hình ảnh ma trận sai khác 20 điểm xếp thứ tự HÌNH 2.6: Kết VAT ma trận sai khác 5×5 HÌNH 2.7: Kết VAT tập liệu .10 HÌNH 2.8: Kết cho tập tự tạo 10 HÌNH 2.9: Kết VAT tập liệu IRIS 11 HÌNH 2.10: Kết cho tập tự tạo 11 HÌNH 3.1: Áp dụng iVAT với tập liệu t4.8k .15 HÌNH 3.2: Áp dụng iVAT với tập liệu t5.8k .15 HÌNH 3.3: Áp dụng iVAT với tập liệu t8.8k .16 HÌNH 3.4: Áp dụng iVAT với tập liệu t7.10k .16 HÌNH 3.5: Thể cụm tập t4.8k 17 HÌNH 3.6: Thể cụm tập t5.8k 17 HÌNH 3.7: Thể cụm tập t8.8k 17 HÌNH 3.8: Thể cụm tập t7.10k 18 HÌNH 4.1: Biểu diễn hàng ODI dạng biểu đồ .19 HÌNH 4.2: Biểu diễn tập liệu gồm cụm 19 HÌNH 4.3: Kết reVAT tập liệu tự tạo gồm cụm 22 HÌNH 4.4: Kết reVAT tập liệu tự tạo gồm cụm 25 HÌNH 4.5: Kết hình ảnh bigVAT cho tập liệu 25 HÌNH 4.6: Kết hình ảnh bigVAT cho tập liệu 26 HÌNH 4.7: Kết hình ảnh bigVAT cho tập liệu 26 HÌNH 4.8: Kết sVAT tập liệu cụm CS .30 HÌNH 4.9: Kết sVAT tập liệu không CS .31 HÌNH 4.10: Kết sVAT tập liệu 5000 điểm 32 HÌNH 4.11: Kết sVAT với giá trị c’ khác 32 HÌNH 4.12: Kết sVAT tập liệu 𝑛 = 100000 33 HÌNH 4.13: Kết sVAT tập liệu thực tế 33 HÌNH 4.14: Kết sVAT tập data15k-3-CS 35 HÌNH 4.15: Kết sVAT tập Dim sets 35 HÌNH 4.16: Kết sVAT tập data1M-7 36 HÌNH 4.17: Kết sVAT tập A.set 37 HÌNH 4.18: Kết sVAT tập S.sets .37 HÌNH 4.19: Kết sVAT siVAT tập Dim sets 38 HÌNH 4.20: Kết sVAT siVAT tập A.set .39 HÌNH 4.21: Kết sVAT siVAT tập S.sets 39 HÌNH 4.22: Kết sVAT tập data100k-10 40 51 BẢNG 4.3: Đánh giá mẫu thu với Rand Index TT 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 Tên tập liệu A.set A.set A.set FLAME Birch-set JAIN S.sets S.sets S.sets S.sets Dim sest Dim sest Dim sest Dim sest Dim sest data5k-CS data5k- NonCS Data10k-CS Data10k- NonCS Data15k-CS Data15k- NonCS Data100k-10 Data100k-25 Data100k-27 Data200k-5 Data200k-17 Data 1M Data 1M-7 Data 1M-15 Data 1M-55 Data 2M-77 Kích thước 3000 5250 7500 240 100000 373 5000 5000 5000 5000 1351 2701 4051 5401 6751 5000 5000 10000 10000 15000 15000 100000 100000 100000 200000 200000 1000000 1000000 1000000 1000000 2000000 Số điểm đại diện 261 315 341 166 424 108 237 327 422 448 17 17 20 416 379 44 264 25 114 61 111 103 191 187 162 162 315 84 142 355 457 Rand Index 0.99199 0.97863 0.96454 0.93699 0.92616 0.9458 0.97733 0.92614 0.95437 0.90229 0.94669 0.95879 0.97162 0.97816 0.94939 0.97602 0.9383 0.94904 0.95685 0.93921 0.97487 0.94614 0.94517 0.96212 0.93965 0.93938 0.9486 0.98204 0.9705 0.94824 4.5.3 Đề xuất thuật tốn trực quan hóa xu hướng cụm dựa vào coreset Giải thuật 7: Giải thuật đề xuất Input : Tập liệu X chứa n phần tử, 𝜖 Output : 𝑅 ∗ - ma trận vuông ODI 𝑠 × 𝑠 với 𝑠 số mẫu lấy Bước 1: Với 𝜖 cho trước tìm tập mẫu kích thước s giải thuật tạo coreset 52 Bước 2: Áp dụng kĩ thuật cải tiến bên để tối ưu hóa coreset thu (nếu cần) Ở tập mẫu có kích thước 𝑠 ′ ≤ 𝑠 Bước 3: Tạo ma trận vng sai khác 𝑅 kích thước 𝑠 × 𝑠 Bước 4: Sử dụng VAT kết hợp iVAT biến đổi ma trận 𝑅 thu ma trận sai khác xếp thứ tự 𝑅 ∗ Bước 5: Hiển thị hình ảnh ma trận sai khác với độ xám tương ứng Giải thuật ProTraS cho kết lấy mẫu tốt giúp tìm cách tiếp cận cho tốn trực quan hóa xu hướng cụm u cầu tính tốn với liệu có kích thước lớn tốc độ khả lưu trữ Hai yêu cầu đồng thời giải ta lấy mẫu có kích thước nhỏ thời gian tuyến tính Kết hợp yêu cầu ý tưởng có, tác giả đề xuất giải thuật dựa coreset để tiến hành trực quan hóa liệu kích thước lớn Bước giải thuật, ta dùng phương pháp, giải thuật định để tìm tập coreset ứng với 𝜖 vừa tìm Ở dùng ProTraS để thực cơng việc Ngồi giải thuật tạo tập coreset đáp ứng yêu cầu Tiếp theo, ứng với liệu cụ thể ta dùng biến đổi phù hợp để giúp tập mẫu (coreset) có trở nên tốt Tốt có nhiều nghĩa, với mục tiêu cụ thể ta dùng biến đổi tương ứng Để dễ hiểu hơn, ví dụ ta muốn xác định số cụm dễ dàng ta loại bớt mẫu biên cụm thật Lúc mẫu cụm xa giúp ta xác định xác số cụm (sẽ nói rõ phần sau) Bước giải thuật, ta cần tạo ma trận vuông sai khác 𝑅 mẫu để làm đầu vào cho giải thuật VAT bước tiếp Bước 4, sử dụng giải thuật VAT iVAT biến đổi ma trận 𝑅 vừa có Việc áp dụng thêm iVAT vào bước quan trọng Không giúp cho việc thể xu hướng cụm rõ ràng mà cịn giúp ích cho sau ta kế thừa độ đo đường iVAT cung cấp để thực gom cụm Cuối cùng, hiển thị hình ảnh ODI để quan sát kết luận xu hướng cụm tập liệu 53 4.5.4 Thực nghiệm phân tích (a) (b) (c) (d) HÌNH 4.29: (a) Hình ảnh lấy mẫu tập A.set với 𝜖 = 0.01 (b) Hình ảnh ma trận sai khác tương ứng (c) Hình ảnh lấy mẫu tập A.set với 𝜖 = 0.1 (d) Hình ảnh ma trận sai khác tương ứng Với tập liệu thực nghiệm ProTraS phần trước ta tiếp tục tiến hành giải thuật vừa đề xuất Ứng với tập liệu, ta sử dụng 𝜖 = 0.1 𝜖 = 0.01 để kiểm tra kết cho bới hình ảnh iVAT Đối với tập A.set 13000 điểm, ta thấy hình ảnh iVAT cho kết tương tự Tuy vậy, ứng với 𝜖 = 0.01 giải thuật lấy mẫu lấy 1937 điểm, nửa so với tập gốc Tương tự tập A.set lấy 3095 điểm so với tập gốc 5250 điểm, A.set lấy 4073 tổng số 7500 điểm, tập Flame lấy gần hết tập gốc (231 so với 240) Riêng tập Birch-set có 100000 điểm giải thuật lấy mẫu cho kết 13115 điểm Qua quan sát ta 54 thấy việc chọn 𝜖 quan trọng Nếu 𝜖 nhỏ, tính đại diện mẫu cao bù lại số lượng mẫu lớn, gần xấp xỉ với tập gốc Thực tế chạy với 𝜖 = 0.1 hình ảnh iVAT đủ tốt để ta nhận định xu hướng tập liệu Bên cạnh đó, với 𝜖 = 0.1 số lượng mẫu lấy tương đối nhỏ mà mang tính đại diện cho cụm (a) (b) (c) (d) HÌNH 4.30: (a) Hình ảnh lấy mẫu tập A.set với 𝜖 = 0.01 (b) Hình ảnh ma trận sai khác tương ứng (c) Hình ảnh lấy mẫu tập A.set với 𝜖 = 0.1 (d) Hình ảnh ma trận sai khác tương ứng 55 (a) (c) (b) (d) HÌNH 4.31: (a) Hình ảnh lấy mẫu tập A.set với 𝜖 = 0.01 (b) Hình ảnh ma trận sai khác tương ứng (c) Hình ảnh lấy mẫu tập A.set với 𝜖 = 0.1 (d) Hình ảnh ma trận sai khác tương ứng 56 (a) (b) (c) (d) HÌNH 4.32: (a) Hình ảnh lấy mẫu tập Flame với 𝜖 = 0.01 (b) Hình ảnh ma trận sai khác tương ứng (c) Hình ảnh lấy mẫu tập Flame với 𝜖 = 0.1 (d) Hình ảnh ma trận sai khác tương ứng 57 (a) (b) (c) (d) HÌNH 4.33: (a) Hình ảnh lấy mẫu tập Birch-set với 𝜖 = 0.01 (b) Hình ảnh ma trận sai khác tương ứng (c) Hình ảnh lấy mẫu tập Birch-set với 𝜖 = 0.1 (d) Hình ảnh ma trận sai khác tương ứng 58 4.5.5 Cải tiến kết Sau quan sát kết nhiều tập liệu, tác giả nhận cách lấy mẫu cho kết điểm trải theo hình dạng tập liệu Với kết cho thấy nhiều điểm lợi khơng hạn chế Một số điểm lợi rõ ràng với điểm mẫu trải cụm khơng bị bỏ sót Một cách nói khác ln đảm bảo cụm có điểm đại diện tập mẫu Điểm lợi việc thể xu hướng cụm, cụm gần điểm mẫu gần ngược lại, cụm xa điểm mẫu xa Tuy nhiên, việc điểm mẫu trải lại gây khó khăn cho việc xác định số cụm, mà liệu quan trọng cần có ta phân tích xu hướng cụm Một lần xem xét lại ví dụ Hình 4.34 (a) (b) HÌNH 4.34: (a) Hình ảnh lấy mẫu tập A.set với 𝜖 = 0.1 (b) Hình ảnh ma trận sai khác tương ứng Với 𝜖 = 0.1 hình ảnh VAT cho kết khó để nhận dạng số cụm Nếu loại bỏ bớt điểm liệu biên cụm giữ lại điểm gần tâm cụm có lẽ xác định rõ số cụm Với ý tưởng đó, tác giả tiến hành thực nghiệm với tập 𝑇(𝑦𝑘 ) thu 𝐷𝑜 𝑇(𝑦𝑘 ) tập cấc điểm gần với điểm đại điện 𝑦𝑘 nên ta loại bớt 𝑦𝑘 mà có 𝑇(𝑦𝑘 ) Lý làm biên cụm mật độ điểm cụm thật mật độ mẫu lại tương 59 đương tâm dẫn đến 𝑇(𝑦𝑘 ) chứa điểm Thật vậy, gọi Tmean số lượng điểm trung bình 𝑇(𝑦𝑘 ) loại 𝑦𝑘 có số lượng điểm 𝑇(𝑦𝑘 ) tương ứng nhỏ Tmean Kết thu Hình 4.35 (a) (b) HÌNH 4.35: (a) Cải tiến lấy mẫu tập A.set với 𝜖 = 0.1 (b) Hình ảnh ma trận sai khác tương ứng Các khối đen sau áp dụng cách cải tiến rõ ràng hẳn so với hình 4.36 chứng tỏ với cách làm ta hướng để giải mục tiêu ban đầu Tuy nhiên tập liệu mà cụm có mật độ phân bố khác cách cải tiến bộc lộ khuyết điểm tập liệu Jain Cũng với cách cải tiến kết thu lại khó đốn số cụm hình 4.36 (a) (b) HÌNH 4.36: (a) Cải tiến lấy mẫu tập Jain với 𝜖 = 0.1 (b) Hình ảnh ma trận sai khác tương ứng 60 Trường hợp không tốt tập liệu Jain cho thấy thêm khó có cách giải áp dụng tốt cho mục tiêu loại liệu Do thân nghiên cứu thực nghiệm thêm cách cải tiến khác Tuy nhiên dù có cải tiến từ đầu thảo luận cải tiến tiêu chí đánh đổi tiêu chí khác Cụ thể với cách cải tiến ta nhận dạng số cụm dễ lại đại diện kích thước cụm ban đầu nhìn vào tập mẫu Đây cơng việc địi hỏi có nhiều kinh nghiệm xử lý liệu có đặc điểm riêng khác 61 KẾT LUẬN Trong luận văn trình bày nhiều giải thuật, biến thể VAT giúp hoàn thiện số hạn chế Mục tiêu đề tài nghiên cứu tiếp cận trực quan hoá xu hướng cụm hỗ trợ cho việc phân cụm liệu, biến thể cho tốn có liệu lớn Áp dụng thử nghiệm cho kỹ thuật phân cụm Tuy nhiên, trình thực phần giải số cách tiếp cận liệu kích thước lớn tơi tự nhận thấy cịn nhiều thiếu sót hạn chế việc dự đoán xu hướng cụm liệu kích thước lớn mà xa liệu lớn (Big Data) Dưới tóm tắt lại giải thuật luận văn trình bày Giải thuật VAT xếp thứ tự giá trị ma trận sai khác, từ ta dựa vào khối vng màu tối đường chéo để dự đốn xu hướng cụm Đây giải thuật đầu theo hướng này, có nhiều hạn chế cần khắc phục Giải thuật iVAT dùng kết ma trận sai khác xếp thứ tự VAT để tính tốn lại giá trị cho “hợp lý” hơn, giúp cho khối màu tối rõ ràng hơn, ta quan sát xu hướng cụm cách dễ dàng Hạn chế khó áp dụng cho liệu kích thước lớn thời gian lâu Giải thuật reVAT cải tiến độ chi phí tính tốn từ VAT nhờ vào việc chỉnh sửa kết quan sát dạng đồ thị profile Những đồ thị thể cụm tiềm giúp đưa dự đoán xu hướng cụm dựa vào mối liên hệ điểm thể đồ thị profile Tuy hiệu mặt tính tốn số cụm tiềm lớn dẫn đến việc kết hợp đồ thị profile trở nên khó khăn việc đưa định Giải thuật bigVAT kế thừa từ kết reVAT vận dụng kỹ thuật lấy mẫu profile để đưa kết hình ảnh bigVAT biểu diễn dạng giống với hình ảnh ma trận sai khác tạo từ VAT Nhờ việc quan sát trở nên dễ dàng kể số cụm lớn Vấn đề bigVAT việc giới hạn số điểm cho hợp lý để tạo hình ảnh bigVAT đảm bảo rõ nét chi phí xử lý Thêm nữa, số tập liệu biểu diễn dạng hình ảnh bigVAT cho kết gây nhầm lẫn, khó đưa định 62 Giải thuật sVAT dựa ý tưởng ta không cần phải xét hết tất điểm liệu mà chọn số mẫu liệu đại diện định Ta rút ngắn thời gian đáng kể để xếp lại ma trận sai khác Hạn chế dễ thấy sVAT lấy mẫu có yếu ngẫu nhiên dẫn đến kết khác lần chạy giải thuật Cũng bigVAT, sVAT hướng đến giải liệu kích thước lớn Giải thuật siVAT kết hợp iVAT sVAT Bằng việc dùng sVAT để lấy mẫu cho tập liệu, sau dùng iVAT cho tập liệu mẫu Sự kết hợp vừa giúp cho ODI thu hiển thị tốt vừa giải hạn chế khơng xử lý liệu kích thước lớn iVAT Tuy nhiên, siVAT lại có hạn chế tương tự sVAT trừ việc hiển thị kết tốt Giải thuật VAT dựa coreset đề xuất sử dụng mẫu lấy từ giải thuật sinh coreset Cách lấy mẫu mang tính đại diện cao cho tập liệu Áp dụng giải thuật iVAT cho tập mẫu thu mang lại kết tốt nhiều so với giải thuật trước Với cải tiến thích hợp, tiềm giải thuật lớn tương lai việc giải đồng thời tốn liệu kích thước lớn, liệu có cấu trúc đa dạng Hướng phát triển luận văn Trong trình làm dù tìm hiểu phần giải số cách tiếp cận liệu kích thước lớn tơi tự nhận thấy cịn nhiều thiếu sót hạn chế việc dự đoán xu hướng cụm liệu kích thước lớn mà xa liệu lớn (Big Data) Hiện khả lưu trữ giải phần cứng ngày hoàn thiện Kéo theo tốn đặt để xử lý, truy xuất thông tin từ Dữ liệu lớn Làm nhanh chóng nhận dạng xu hướng cụm nhanh, xác đặc biệt việc giải toán liệu dịng Do tơi nghiên cứu thêm nhiều cải tiến giải thuật VAT VATdt, specVAT, hay cải tiến VAT để tiến hành phân cụm mà không cần dùng thêm giải thuật khác Mặc dù giải thuật dựa coreset đề xuất cho thấy nhiều điểm tích cực nhiên cần phải cải thiện nhiều mặt Một số công việc tiếp tục nghiên khác đề cập riêng phần luận văn TÀI LIỆU THAM KHẢO [1] Pankaj K Agarwal, Sariel Har-Peled, and Kasturi R Varadarajan “Approximating Extent Measures of Points” In:J.ACM 51.4 (July 2004), pp 606– 635 ISSN: 0004-5411 DOI: 10.1145/1008731.1008736 URL: http://doi.acm org/10.1145/1008731.1008736 [2] Pasi Frăanti et al Clusteringbasic benchmark 2015 URL: http://cs.uef.fi/ sipu/datasets/ [3] J.C.BezdekandR.J.Hathaway.“VAT:a tool for visual assessment of (cluster) tendency” In: Neural Networks, 2002 IJCNN ’02 Proceedings of the 2002 InternationalJointConferenceon.Vol.3.2002,pp.2225–2230 DOI: 10.1109/ IJCNN.2002.1007487 [4] W.S.Cleveland.VisualizingData.Summit,NewJersey,U.S.A.:HobartPress, 1993 [5] P.Frăanti, O Virmajoki, andV Hautamăaki Fast agglomerative clustering using a k-nearest neighbor graph” In: IEEE Trans On Pattern Analysis and Machine Intelligence 28.11 (2006), pp 1875–1881 [6] Serge Guillaume Frédéric Ros “Protras: A probabilistic traversing sampling algorithm” In: Expert Systems with Applications (Mar 2018) DOI: 10.1016/j eswa.2018.03.052 [7] Limin Fu and Enzo Medico “FLAME, a novel fuzzy clustering method for the analysis of DNA microarray data” In: BMC Bioinformatics 8.1 (Jan 2007), p.3 ISSN:1471-2105.DOI: 10.1186/1471-2105-8-3 URL: https://doi.org/ 10.1186/14712105-8-3 [8] Richard J Hathaway, James C Bezdek, and Jacalyn M Huband “Scalable Visual Assessment of Cluster Tendency for Large DataSets” In: Pattern Recogn.39.7 (July 2006), pp 1315–1324 ISSN: 0031-3203 DOI: 10.1016/j.patcog 2006.02.011 URL: http://dx.doi.org/10.1016/j.patcog.2006.02.011 [9] T C Havens and J C Bezdek “An Efficient Formulation of the Improved Visual Assessment of Cluster Tendency (iVAT) Algorithm” In: IEEE Transactions on Knowledge and Data Engineering 24.5 (May 2012), pp 813–822 ISSN: 1041-4347 DOI: 10.1109/TKDE.2011.33 [10] J M Huband, J C Bezdek, and R J Hathaway “Revised Visual Assessment of (Cluster) Tendency (reVAT)” In: Fuzzy Information, 2004 Processing NAFIPS ’04 IEEE Annual Meeting of the Vol June 2004, 101–104 Vol.1 DOI: 10.1109/NAFIPS.2004.1336257 [11] Jacalyn M Huband, James C Bezdek, and Richard J Hathaway “bigVAT: Visual assessment of cluster tendency for large data sets” In: PatternRecognition 38.11 (2005), pp 1875–1886 DOI: 10.1016/j.patcog.2005.03.018 URL: https://doi.org/10.1016/j.patcog.2005.03.018 [12] Anil K Jain and Martin H C Law “Data Clustering: A User’s Dilemma” In: Pattern Recognition and Machine Intelligence Ed by Sankar K PalSanghamitraBandyopadhyay, and Sambhunath Biswas Berlin, Heidelberg: Springer Berlin Heidelberg, 2005, pp 1–10 ISBN: 978-3-540-32420-1 [13] I Kăarkkăainen and P Frăanti Dynamic local search algorithm for the clusteringproblem Tech rep A-2002-6 Joensuu, Finland: Department of Computer Science, University of Joensuu, 2002 [14] J MacQueen “Some methods for classification and analysis of multivariate observations” In: Proceedings of the Fifth Berkeley Symposium on Mathematical Statistics and Probability, Volume 1: Statistics Berkeley, Calif.: University of California Press, 1967, pp 281–297 URL: https://projecteuclid.org/ euclid.bsmsp/1200512992 [15] WilliamM.Rand.“ObjectiveCriteriafortheEvaluationofClusteringMethods” In: Journal of the American Statistical Association 66.336 (1971), pp 846– 850 ISSN: 01621459 URL: http://www.jstor.org/stable/2284239 [16] John W Tukey Exploratory Data Analysis Addison-Wesley, 1977 [17] Liang Wang et al “iVAT and aVAT: Enhanced Visual Analysis for Cluster Tendency Assessment” In: Proceedings of the 14th Pacific-Asia Conference on Advances in Knowledge Discovery and Data Mining – Volume PartI PAKDD’10 Hyderabad, India: Springer-Verlag, 2010, pp 16–27 ISBN: 3-642-13656-7, 978-3- 642-13656-6 DOI: 10.1007/978- 3- 642- 13657- 3_5 URL: http: //dx.doi.org/10.1007/978-3-642-13657-3_5 [18] T Zhang, R Ramakrishnan, and M Livny “BIRCH: A new data clustering algorithm and its applications” In: Data Mining and Knowledge Discovery 1.2 (1997), pp 141–182 ... lớn có thời gian chạy tương đối lớn độ xác chưa cao mà xu hướng tập liệu có, đặc biệt số cụm có tập liệu Do vấn đề đặt cần xác định xu hướng cụm, xấp xỉ cụm tập liệu Nếu biết xu hướng cụm ta có. .. quy định Nếu có sai Tơi xin chịu trách nhiệm luận văn Đồng Nai, ngày tháng năm 2018 Học viên Tơ Tiến Thành iii TĨM TẮT LUẬN VĂN Đề tài: Trực quan hóa xu hướng cụm với liệu kích có thước lớn Ngành:... chế ứng với liệu có đặc điểm cụ thể Tiếp đó, luận văn đề xu? ??t phương pháp trực quan hóa xu hướng dựa coreset Mục tiêu việc nghiên cứu hướng đến việc áp dụng giải thuật tập liệu kích thước lớn

Định dạng
Số trang	78
Dung lượng	2,23 MB