Phân cụm dữ liệu nhóm 12 môn học phân tích số liệu

113 4 0
Phân cụm dữ liệu nhóm 12 môn học phân tích số liệu

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI VIỆN TOÁN ỨNG DỤNG VÀ TIN HỌC PHÂN CỤM DỮ LIỆU NHÓM 12 MƠN HỌC PHÂN TÍCH SỐ LIỆU Giảng viên: ThS Lê Xuân Lý Sinh viên thực Vũ Đình Bách 20206120 Trần Mạnh Dũng 20206129 Dương Thái Huy 20206285 Vương Tuấn Kiệt 20206152 Nguyễn Minh Phi 20206296 Phan Anh Quốc 20206163 Hà Sỹ Bách 20206119 HÀ NỘI – 2023 i NHẬN XÉT CỦA GIẢNG VIÊN Mục tiêu (a) (b) (c) Nội dung (a) (b) (c) Đánh giá kết đạt (a) (b) (c) Hà Nội, ngày 27 tháng năm 2023 Giảng viên ThS Lê Xuân Lý ii Lời cảm ơn "Đầu tiên, nhóm chúng em xin gửi lời cảm ơn chân thành đến Trường Đại học Bách Khoa Hà Nội đưa mơn học Phân tích số liệu vào chương trình giảng dạy Đặc biệt, em xin gửi lời cảm ơn sâu sắc đến giảng viên môn - ThS Lê Xuân Lý dạy dỗ, truyền đạt kiến thức quý báu cho em suốt thời gian học tập vừa qua Trong thời gian tham gia lớp học Phân tích số liệu thầy, chúng em có thêm cho nhiều kiến thức bổ ích, tinh thần học tập hiệu quả, nghiêm túc Đây chắn kiến thức quý báu, hành trang để chúng em vững bước sau Bộ mơn Phân tích số liệu mơn học thú vị, vơ bổ ích có tính thực tế cao Đảm bảo cung cấp đủ kiến thức, gắn liền với nhu cầu thực tiễn sinh viên Tuy nhiên, vốn kiến thức nhiều hạn chế khả tiếp thu thực tế nhiều bỡ ngỡ Mặc dù chúng em cố gắng chắn báo cáo khó tránh khỏi thiếu sót nhiều chỗ cịn chưa xác, kính mong thầy xem xét góp ý để báo cáo chúng em hoàn thiện Chúng em xin chân thành cảm ơn thầy ạ!” iii Mục lục Chương Giới thiệu phân cụm liệu Chương Độ đo tương đồng 2.1 Similarity Measures - phép đo độ tương đồng 2.1.1 Introduction 2.1.2 Distances and Similarity Coefficients for Pairis Items 2.1.3 Similarity an Association Measures for Pairs of Variables 2.1.4 Concluding Comments on Similarity 11 Chương Phân cụm phân cấp 3.1 12 Phân cụm phân cấp (Hierarchical Clustering) 12 3.1.1 Chiến lược hợp (agglomerative) 13 3.1.2 Chiến lược phân chia (divisive) 29 3.1.3 Điều kiện dừng thuật toán phân cụm 31 3.1.4 Độ phức tạp thuật toán phân cụm phân cấp 31 Chương Phân cụm không phân cấp 33 4.1 Giới thiệu kỹ thuật phân cụm không phân cấp 33 4.2 Phân tích tốn học 33 4.3 Tóm tắt lại bước thực thuật toán K-means 36 4.4 Chứng minh hội tụ phương pháp 36 4.5 Phương pháp Elbow lựa chọn số cụm K 38 4.6 Một số yếu tố dẫn đến kết mà chọn số cụm K 38 4.7 Ví dụ 40 iv Chương Phân cụm dựa mơ hình thống kê 42 5.1 Giới thiệu 42 5.2 Phân phối chuẩn ước lượng hợp lý tối đa cho phân phối chuẩn biến 43 5.3 5.2.1 Phân phối chuẩn 43 5.2.2 Ước lượng hợp lý tối đa (MLE) cho phân phối chuẩn 44 Mơ hình phân phối chuẩn hỗn hợp (GMMs-Gaussian Mixture Model) 47 5.4 5.5 5.6 5.3.1 Mơ hình phân phối chuẩn hỗn hợp (GMMs) 49 5.3.2 Ước lượng tham số mơ hình phân phối chuẩn hỗn hợp 5.3.3 Trọng số mức độ quan trọng (Responsibilities) 52 5.3.4 Cập nhật tham số mơ hình 53 5.3.5 Thuật tốn EM (Ước lượng tối đa hóa kỳ vọng) 60 Hướng tiếp cận dựa biến ẩn (Latent-Variable) 50 62 5.4.1 Quá trình tạo liệu mơ hình xác suất 63 5.4.2 Likelihood 64 5.4.3 Phân phối hậu nghiệm 65 5.4.4 Mở rộng cho toàn liệu 65 5.4.5 Góc nhìn khác thuật tốn EM 66 Đánh giá mơ hình GMMs 67 5.5.1 Đánh giá Log-likelihood 67 5.5.2 Đánh giá mức độ phân cụm mơ hình 68 5.5.3 Đánh giá số lượng cụm mơ hình 69 Ưu nhược điểm GMMs phương pháp phân cụm dựa mơ hình thống kê 73 Chương Chia tỷ lệ đa chiều 6.1 75 Giới thiệu 75 6.1.1 Giới thiệu chia tỷ lệ đa chiều (Multidimensional Scaling) 75 6.1.2 Ý nghĩa chia tỷ lệ đa chiều phân tích liệu 76 v 6.2 6.3 Một số khái niệm chia tỷ lệ đa chiều 78 6.2.1 Khoảng cách tương đồng 78 6.2.2 Phương pháp đo lường khoảng cách tương đồng 79 6.2.3 Phương pháp biểu diễn đối tượng không gian đa chiều 82 Các loại chia tỷ lệ đa chiều (MDS) 83 6.3.1 Chia tỷ lệ đa chiều cổ điển (Classical Multidimensional Scaling) 83 6.3.2 Chia tỷ lệ đa chiều số liệu (Metric Multidimensional Scaling) 84 6.3.3 Chia tỷ lệ đa chiều phi số liệu (Non-metric Multidimensional Scaling) 87 6.4 Một số ứng dụng Chia tỷ lệ đa chiều (Multidimensional Scaling 90 Chương Thuật toán phân cụm Meanshift 7.1 7.2 92 Thuật toán Mean-Shift clustering 92 7.1.1 Một số ký hiệu 92 7.1.2 Kernel density estimator (KDE) 92 7.1.3 Hàm kernel density estimator 94 7.1.4 Thuật toán Mean-Shift clustering 95 7.1.5 Tham số bandwidth 97 7.1.6 Sự hội tụ tính dừng thuật tốn 99 7.1.7 Tối ưu hóa Minibatch cho thuật tốn shift clustering 101 Kết luận 102 7.2.1 Kết luận đánh giá 102 Phân công đánh giá công việc 105 Tài liệu tham khảo 106 Chương Giới thiệu phân cụm liệu Phân cụm (clustering) có lẽ toán nghiên cứu rộng rãi lĩnh vực khai phá liệu (data mining) máy học (machine learning) Bài toán phân cụm nghiên cứu nhà nghiên cứu đến từ nhiều chuyên ngành khác năm thập kỷ qua Ứng dụng phân cụm trải dài nhiều lĩnh vực tốn tin nhắn, đa truyền thơng, mạng xã hội liệu sinh học Thêm vào đó, tốn phân cụm xảy nhiều tình khác truyền liệu trực tuyến liệu không xác định Phân cụm chủ đề đa dạng thuật toán phân cụm phụ thuộc chủ yếu vào miền liệu tình toán Bài toán phân cụm phát biểu ngắn gọn sau: Cho tập điểm liệu, phân liệu thành tập cho tương đồng Lưu ý định nghĩa bản, biến thể định nghĩa tốn rộng lớn, phụ thuộc vào mơ hình cụ thể sử dụng Hơn nữa, kiểu liệu cụ thể ảnh hưởng lớn đến định nghĩa tốn Ta xem xét ví dụ phân loại 16 hình thành tập nhỏ có tương đồng với Các nhóm minh họa qua hình Ta dễ dàng nhận nhóm phân loại dựa định nghĩa tương đồng Trong ứng dụng thực tiễn phân cụm, toán giải đáp cho việc phân biệt đâu cụm phù hợp để lựa chọn Vậy khơng tính tốn tất cụm lựa chọn phương (a) Hình giống (b) Màu đen đỏ (c) Các chất khác (d) Các đơn lẻ Hình 1.1: Phân nhóm hình án tốt nhất? Với ví dụ bài, có nhát cách để gom cụm 16 hình, có 32 767 cách để phân loại hình thành nhóm (các nhóm có số lượng tùy ý), có đến 141 686 cách để phân loại 16 hình thành nhóm (các nhóm có số lượng tùy ý) Vì vậy, giới hạn thời gian khơng phép ta lựa chọn phương án tốt từ tập kết khả thi Kể máy tính gặp khó khan tập kết lớn, ta phải có thuật tốn để tìm cách phân nhóm phù hợp (khơng cần thiết phải tốt nhất) Tóm lại, mục tiêu phân tích phân cụm tìm cách phân nhóm tự nhiên từ tập liệu Đổi lại, ta phải phát triển phương pháp định lượng để đo lường tương đồng liệu Chương Độ đo tương đồng 2.1 2.1.1 Similarity Measures - phép đo độ tương đồng Introduction Để thực tốn phân cụm ta khơng thể thiếu phép đo độ tương đồng Phép đo độ tương đồng (similarity measures) đóng vai trò quan trọng việc xác định mức độ tương đồng đối tượng liệu xây dựng nhóm (cluster) có tính chất tương đồng Phép đo độ tương đồng tiêu chí quan trọng định liệu đối tượng có nên gom vào nhóm hay khơng Có nhiều cách đo độ tương đồng việc lựa chọn cách tính phụ thuộc vào tính chất liệu, hay u cầu tốn Một vài cách tính hay sử dụng khoảng cách Euclidean, độ tương đồng Cosine, khoảng cách Mahalanobis, 2.1.2 Distances and Similarity Coefficients for Pairis Items Cơng thức tính khoảng cách Euclidean điểm không gian p chiều với x0 [x1 , x2 , , xp ], y [y1 , y2 , , yp ] ∈ Rp : d= v u p uX t (x i − yi ) i=1 Cơng thức tính "Statistical distace" (Tạm dịch Khoảng cách thống kê) điểm: d(x, y) = q (x − y)0 A(x − y) A = S −1 , với S ma trận hiệp phương sai biểu diễn phụ thuộc tuyến tính biến cặp liệu Tuy nhiên, đủ thơng tin nhóm riêng biệt này, việc tính đại lượng điều khơng thể Vì lý này, khoảng cách Euclidean thường sử dụng việc phân cụm (clusting) Một số cách tính khoảng cách khác • Minkowski metric:  d(x, y) =  p X 1 m |xi − yi | i=1 Khi m = 1, tương đương với "city-block" (hay cịn gọi khoảng cách thành phố) tính tổng độ lệch tuyệt đối thành phần Khi m = 2, tương đương với khoảng cách Euclidean Khi p = ∞ tương đương với khoảng cách Chebyshev Hai cách tính khoảng cách Canbera metric Czekanowski coefficient, hai công thức áp dụng cho biến khơng âm • Canbera metric: d(x, y) = p X |xi − yi | i=1 xi + yi • Czekanowski coefficient: d(x, y) = − Pp i=1 min(xi , yi Pp i=1 (xi + yi ) Khi có thể, nên sử dụng khoảng cách metric khỏa mãn ba tính chất sau: Đối xứng: d(P.Q) = d(Q, P ) với P, Q không gian Không âm: d(P, Q) > 0, dấu "=" xảy P ≡ Q Bất đẳng thức tam giác:d(P, Q) d(P.R) + d(R, Q) với P,Q,R khơng gian 93 • k(x) khả vi với x ∈ [0, +∞) • R +∞ k(x)dx < +∞ (thơng thường để chuẩn hố, tích phân có giá trị 1) Một số kernel thường gặp khoa học liệu: flat, triangle, Epanechniko, quartic (biweight), tricube, triweight, Gaussian, quadratic Cụ thể thuật toán MeanShift, flat Gaussian kernel kernel phổ biến mà ta thường thấy tìm hiểu thuật tốn này: Flat kernel     1 if x ≤ λ   0 if x > λ k(x) =  Gaussian kernel x2 k(x) = e− 2σ2 tham số độ lệch chuẩn σ coi tham số bandwidth thuật toán Mean-Shift (sẽ giải thích rõ sau) 94 7.1.3 Hàm kernel density estimator Gọi (x1 , x2 , , xn ) n điểm liệu lấy mẫu độc lập với từ phân bố xác suất có hàm mật độ f Chúng ta cần ước lượng hình dáng hàm f Hàm f ước lượng hàm số fˆ gọi kernel density estimator (KDE) tính cơng thức [6]:  n x − xi  1X K fˆh (x) = n i=1 h (7.1) Trong K hàm kernel cịn h tham số bán kính (bandwidth), ảnh hưởng đến độ trơn ước lượng phân phối (sẽ giải thích rõ sau) Phương pháp Gradient Descent Trong tốn tối ưu hóa, thường xuyên phải tìm cực tiểu (hoặc cực đại) hàm số nhiều biến khả vi Hướng tiếp cận phổ biến xuất phát 95 từ điểm x0 , sau dùng phép toán lặp lặp lại để tiển dần đến điểm cần tìm, tức đến đạo hàm gần với Gradient descent phương pháp dùng nhiều Tư tưởng thuật toán ngược chiều đạo hàm để tìm cực tiểu (hoặc chiều để tìm cực đại) Thuật tốn gradient descent Dữ liệu đầu vào: hàm f (u) cần tìm cực tiểu theo biến u, tốc độ học α > điều kiện dừng ε > Chọn u0 , α > 0, ε > Với i = 1, 2, • If k∇f (ui )k <  : trả ui dừng thuật tốn; • Else: cập nhật ui+1 = ui + α∇f (ui ) Trong đó, α tốc độ học thuật toán, định độ dài bước theo hướng gradient Việc chọn α có vai trị quan trọng α nhỏ ta nhiều thời gian để chạy thuật toán Ngược lại, α q lớn khơng hội tụ đến cực trị cần tìm Chính vậy, phiên cải tiến gradient descent cho phép điều chỉnh tốc độ học theo bước 7.1.4 Thuật toán Mean-Shift clustering Lịch sử hình thành Thuật tốn dịch trung bình (Mean-Shift) clustering đời vào năm 1975 Fukunaga Hostetler Thuật tốn phiên hồn thiện thường ứng dụng vào tốn: phân cụm liệu (clustering), phân mảng hình ảnh (image segmentation), dị theo đối tượng hình ảnh (object tracking) Tổng quan thuật toán Mean-Shift clustering thuộc loại thuật toán phân cụm cách sử dụng phương pháp multiple restart gradient ascent để đưa điểm liệu cực đại địa phương hàm KDE (những cụm có mật độ cao) Qua bước mean shift, hàm KDE 96 cập nhật lại, nên gradient ascent dùng multiple restart để tính vị trí điểm Khi thuật toán dừng, điểm gán cho cụm Khơng giống thuật tốn phân cụm k-means phổ biến, Mean-Shift clustering không yêu cầu định trước số lượng cụm Số lượng cụm xác định thuật toán liệu Các bước thuật toán Mean-Shift clustering Cho Q ⊂ S tập hữu hạn liệu xung quanh điểm x hàm kernel K Giá trị trung bình có trọng số với kernel K điểm x định nghĩa sau: m(x) = P (xi − x) xi xi ⊂Q K (xi − x) xi ⊂Q K P (7.2) Khi đó, m(x) − x, gọi mean shift vector v, điểm hướng cụm có mật độ cao Thuật tốn Mean-Shift gán x ← m(x) lặp lặp lại hội tụ Như vậy, thuật toán Mean-Shift gồm q trình sau: • Mean shift Tính tốn dịch chuyển điểm xti tới vị trí xt+1 i Tính tốn mean shift vector v (xti ) Lặp lại bước xt+1 gần hội tụ (tương ứng với v nhỏ) i • Clustering: Xếp điểm liệu vào cụm thích hợp Ý nghĩa tốn học bước mean shift Về chất, trình mean shift điểm q trình dùng gradient ascent tìm cực trị địa phương hàm KDE Hàm KDE định nghĩa sau :  n x − xi  1X fK (x, Q) = K n i=1 h (7.3) Trong đó, h tham số bandwidth bán kính kernel hàm K(x) định nghĩa sau: K(x) = c · k kxk2 ,   (7.4) 97 với c số chuẩn hóa k hàm kernel định nghĩa Hằng số chuẩn hóa sử dụng để giảm hàm xác suất thành hàm mật độ xác suất với tổng xác suất Thay (7.4) vào (7.3), hàm dự đoán mật độ (7.3) sễ trở thành: n cX k fk (x, Q) = n i=1 ! x − xi (7.5) h Hàm dự đốn mật độ gradient có cách lấy gradient hàm (7.5): n 2c X ∇fK (x, Q) = (x − xi ) k nh i=1 ! x − xi (7.6) h Đặt g(x) = −k (x) (7.7) Thay (7.7) vào (7.6), ta được: n 2c X ∇fK (x, Q) = (xi − x) g nh2 i=1 nh X  = Suy ra, 2c  g nh2 i=1   x−xi xi i=1 g h   Pn x−xi i=1 g h ! x − xi h     Pn x−xi 2 ! xi g x − xi  i=1 h     P x−xi n h i=1 g h Pn =x+ nh2 2c Pn i=1 g  − x    ∇fk (x, S) x−xi h  (7.8) Giờ đây, vế trái (8) vị trí mà điểm x dịch chuyển tới, giống thuật tốn gradient ascent Có thể thấy bước gradient với tốc độ học điểm x phụ thuộc vào vị trí mà đứng Cụ thể, điểm x vùng có giá trị mật độ thấp tức xa trung tâm cụm, vector mean shift có giá trị lớn để điểm x đến cực đại địa phương nhanh Ngược lại, đến gần cực đại địa phương, vector mean shift nhỏ lại để khơng bị văng khỏi vùng Do đó, q trình mean shift sử dụng thuật tốn multiple restart gradient ascent để đưa điểm cụm 7.1.5 Tham số bandwidth Giới thiệu Bandwidth kernel tham số tự có ảnh hưởng mạnh mẽ đến kết ước tính Tùy thuộc vào bandwidth sử dụng, bề mặt KDE (và kết phân cụm) 98 khác Nếu ta sử dụng bandwidth nhỏ, bề mặt KDE có đỉnh cho điểm Điều dẵn đến việc điểm đặt vào cụm riêng Ngược lại, ta sử dụng bandwidth lớn dắn đến tất điểm thuộc vào cụm Vì bandwidth hai điểm cực tạo phân nhóm đẹp Để minh họa (xem hình đây), ta lấy mẫu ngẫu nhiên từ phân phối chuẩn không gian chiều (được vẽ gai màu xanh dương trục hoành) Đường cong màu xám hàm mật độ thực (có giá trị trung bình phương sai ) Khi đó, đường cong màu đỏ q gồ ghề (hiện tượng undersmoothed) chứa q nhiều đỉnh tạo từ việc sử dụng bandwidth nhỏ h = 0.05 Đường cong màu xanh lại phẳng (hiện tượng oversmoothed) sử dụng bandwidth lớn h = Đường cong màu đen có bandwidth h = 0.337 coi tối ưu ước tính mật độ gần với mật độ thực Đánh giá độ tốt bandwidth Có nhiều cách đánh giá độ tốt bandwidth, cách phổ biến sử dụng hàm mát L2 (còn gọi MISE - mean integrated squared error) MISE(h) = E Z  fˆh (x) − f (x) 2  dx , (7.9) 99 với fˆh hàm KDE mà ta dự đốn cịn f hàm mật độ xác suất thật Bằng chứng minh toán học [9], giá trị h làm cho hàm MISE đạt giá trị nhỏ là: h= K(x)2 dx R [ x2 K(x)dx] [ f 00 (x)2 dx] n1/5 R R (7.10) Lưu ý rằng, công thức áp dụng thực hành, lẽ liệu thực tế, ta chưa biết f nên tính f 00 Nếu giả định liệu sinh phân phối chuẩn, người ta chứng minh hàm mát L2 đạt giá trị cực tiểu : 4σ h= 3n ! 15 (7.11) Tuy nhiên, thực tế giả định chưa chuẩn, lẽ ta chưa biết hàm mật độ xác suất liệu đầu vào nên phải ước lượng phương pháp KDE Trong trường hợp hàm mật độ thật không giống giả định, việc đạt giá trị cực tiểu hàm mát L2 khơng cịn tương đương với việc ước lượng KDE gần với hàm mật độ thật Hình minh hoạ cho ví dụ vừa nêu, người ta tiến hành sinh 200 điểm theo phân phối hổn tạp với hàm mật độ (x−10)2 (x+10)2 1 f (x) = √ e− + √ e− 2 2π 2π (7.12) thể đường màu xanh dương, đường màu đen ước lượng KDE tìm bandwidth theo cơng thức (11), cịn đường màu đỏ có h tính toán theo (10) (12) Ta thấy với giả định sai hàm KDE mà ta ước lượng khơng xác, cụ thể trường hợp ước lượng tìm phẳng (oversmoothed) 7.1.6 Sự hội tụ tính dừng thuật tốn Như ta chứng minh thuật tốn Mean-Shift sử dụng gradient ascent để đưa điểm đến cực đại địa phương tập data cách độc lập Vi vậy, tập data mật độ khơng thay đổi q trình thực thuật tốn hội tụ thuật tốn Mean-Shift hệ việc sử dụng gradient descent điểm x riêng lẻ Đối với liệu rời rạc, số bước hội tụ phụ thuộc vào kernel sử dụng Khi G flat kernel, hội tụ đạt số bước hữu hạn số lượng vị trí tạo giá trị trung bình khác biệt hữu hạn Tuy nhiên, ta sử dụng kernel khác, 100 ví dụ Gaussian kernel, hội tụ sau hữu hạn bước khơng chắn tốn nhiều bước Trên thực tế, để tránh lặp vô hạn, người ta đặt giới hạn cho độ lớn vectơ dịch chuyển trung bình, tức độ dài Mean-Shift vector đủ nhỏ (kv (xi )k < ) dừng Mặc dù thuật toán Mean-Shift sử dụng rộng rãi với nhiều ứng dụng khác hội tụ trường hợp tổng quát vẩn toán mở Trong số điều kiện định kernel số chiều, có số kết sau: Định lý hội tụ thuật toán Mean-Shift trường hợp chiều : Định lý 7.1 Cho X = {x1 , x2 , xn } ⊂ R tập liệu đầu vào fˆh,k (x) hàm ước tính mật độ xác suất sử dụng kernel K với k lồi, khả vi, tăng ngặt bandwidth h Giả sư g(x) = −k (x) hàm giảm ngặt, đặt yi,m điểm Mean-Shift xi bước thứ m ta có dãy (yi,m ) sê hội tụ ∀i Trong khơng gian nhiều chiều với Gaussian kernel, ta có bổ đề định lý sau : Bổ đề 7.1 Cho X = {x1 , x2 , xn } ⊂ Rd tập liệu đầu vào Giả sử fˆ(x) hàm ước tính mật độ xác suất với ma trận hiệp phương sai Σ = h2 I Đặt kxmax k = max1≤i≤n kxi k Nếu kxmax k < h, ma trận Hessian hàm ước tính mật độ xác suất điểm dừng khả nghịch điểm dừng bị cô lập Lưu ý số lượng điểm dừng Gausian kernel bất biến q trình thực Mean-Shift Chính vậy, điều kiện max1≤i≤n kxi − x0 k cho số điểm trung tâm bổ đề (7.1) điều kiện đủ thực tề Trong trường điểm dừng lập có số lượng hữu hạn ta có định lý sau: Định lý 7.2 Cho X = {x1 , x2 , xn } ⊂ Rd tập liệu đầu vào Giả sử điểm dừng bị lập dãy (yi,m ) với m → ∞ hội tụ ∀i với yi,m điểm Mean-Shift xi bước thứ m Định lý (7.2) đảm bảo hội tụ vị trí điểm Mean-Shift điểm dừng (cực đại địa phương) bị cô lập (với điều kiện đủ bổ đề (7.1) ) Tuy nhiên, việc tìm sử dụng ma trận hiệp phương sai Σ thỏa mãn điều kiện đủ bổ đề (7.1) nhiệm vụ khó khăn làm tăng độ phức tạp, đặc biệt kích thước tập liệu đầu vào lớn Do đó, thực tế để giảm chi phí tính tốn, ma trận hiệp phương sai chọn tỷ lệ với ma trận Σ = h2 I Khi ma trận hiệp phương sai 101 chọn tỷ lệ với ma trận trên, điểm dừng cố định kxmax k < h Tuy nhiên thực tể không chọn giá trị bandwidth h lớn để đảm bảo điều này, độ chệch lớn sễ dẫn đến ước tính hàm mật độ xác suất kém, dẵn đến vị trí điểm dừng khơng xác Tóm lại, điều kiện lý thuyết cung cấp bổ đề (7.1) để ước lượng hàm mật độ xác suất Gaussian có điểm dừng cô lập sử dụng hạn chế thực tế 7.1.7 Tối ưu hóa Minibatch cho thuật toán shift clustering Động lực Khi đánh giá độ phức tạp thuật tốn mean shift clustering, ta thấy lần duyệt (iteration) tốn chi phí độ phức tạp thời gian vào cỡ O n2 ( n điểm x cần   tính lại m(x), lần tính lại O(n) ), khiến độ phức tạp chung thuật tốn rơi vào khoảng O iter × n2 với iter số lần lặp Xem lại công thức tính m(x) :   m(x) = (xi − x) xi xi ⊂Q K (xi − x) xi ⊂Q K P P (7.13) Bước có độ phức tạp O(n) ta duyệt hết toàn điểm, kiểm tra điểm xem điểm nằm bán kính h tính trọng số tương ứng Tuy nhiên trường hợp ta bị hạn chế mặt thời gian, ta dùng ước lượng xác để tính m(x) theo tư tưởng sau: chọn tập hợp ngẫu nhiên điểm liệu (gọi batch), với đủ nhiều điểm để đại diện phân bố xác suất f ban đầu, tính trung bình cộng có trọng số theo điểm chọn Điều tư tưởng phép tối ưu minibatch: tính đáng kể mặt thống kê (statistically significant) Trong thực tế cài đặt, thay sinh cho điểm batch ngẫu nhiên khác nhau, ta thực phân hoạch ngẫu nhiên tập liệu tập con, tập có kích thước xấp xỉ batch-size, điểm liệu nằm tập batch tương ứng tập hợp Thuật tốn Phần mean shift thuật tốn mơ tả cụ thể sau: Tại iteration, phân hoạch ngẫu nhiên liệu X thành số phần (batch) P1 , P2 Pb có kích thước xấp xỉ batch-size 102 Tại bước tính m(x), x thuộc phần Pj ta ước lượng m(x) giá trị m(x) ˆ sau: m(x) ˆ = (xi − x) xi xi ⊂(Pj ∩Q) K (xi − x) xi ⊂(Pj ∩Q) K P P Hợp điểm liệu sau gán x ← m(x), ˆ ∀x ∈ X, thành tập X thực lại hai bước dến điều kiện dừng Tính chất Nếu sau iteration thuật toán, bước ta lại chia liệu thành batch ngẫu nhiên batch-size đủ lớn để đại diện cho toàn tập liệu, ta xem ước lượng m(x) ˆ đủ xác cho m(x), qua thuật tốn có tính đắn tính dừng chứng minh tương tự thuật toán mean shift Độ phúc tạp thời gian cho iteration cách làm O(n× batchsize ) Với cách tối ưu ta có thêm siêu tham số batch-size, batch-size lớn (gần n), thuật tốn chạy chậm, khơng khác thuật tốn mean shift clustering Nếu batch-size nhỏ, tập batch nhỏ không đại diện cho hàm mật độ phân bố lúc đầu, dẫn đến kết phân cụm sai Bằng thực nghiệm, số batch-size hiệu rơi vào khoảng [log2 (n), 10 × log2 (n)] 7.2 Kết luận 7.2.1 Kết luận đánh giá Phương pháp mean shift clustering xây dựng dựa sở toán học kernel density estimator gradient acsent, bộc lộ nhiều ưu, nhược điểm số trường hợp demo thể phía Ưu điểm • Khơng dựa số giả định thuật toán K-means: số lượng điểm cluster phải xấp xỉ nhau, biết trước số lượng cụm cần tìm hay hình dạng cụm • Chỉ phụ thuộc siêu tham số bandwidth • Xử lí điểm liệu ngoại lai tốt nhiều so với thuật tốn K-means(các cụm có số điểm xem diểm ngoại lai) 103 Nhược điểm • Trong trường hợp phải xử lí lượng lớn điểm liệu từ không gian nhiều chiều, ta áp dụng Gradient Ascent cho toàn liệu lúc dẫn đến độ phức tạp tính tốn cao • Ngồi ra, số trường hợp cần phải xác định số phân cụm cụ thể, ta cần phải tìm giá trị bandwidth phù hợp kernel phù hợp cho thuật toán mean shift Tuy nhiên, giới thiệu cách xác định giá trị bandwidth tốt việc gần khơng thể áp dụng vào thực tế, việc tìm giá trị cho trường hợp cụ thể tốn khơng đơn giản 104 Phân công đánh giá công việc Phân cơng cơng việc • Nhóm trưởng Vũ Đình Bách: Lập kế hoạch, phân chia công việc, làm phần Phương pháp phân cụm Meanshift • Thành viên Hà Sỹ Bách: Làm phần Phân cụm khơng phân cấp • Thành viên Trần Mạnh Dũng: Làm phần Phân cụm theo mơ hình thống kê • Thành viên Vương Tuấn Kiệt: Làm phần Phép đo độ tương đồng • Thành viên Nguyễn Minh Phi: Làm phần Phân cụm phân cấp • Thành viên Phan Anh Quốc: Làm phần Chia tỷ lệ đa chiều • Thành viên Dương Thái Huy: Làm phần Mở đầu phần Phân cụm phân cấp Làm báo cáo tổng hợp • Tất thành viên tham gia làm báo cáo Slide Đánh giá trình làm việc Vũ Đình Bách: tham gia họp đầy đủ, hoàn thành nhiệm vụ giao, hoàn thành nhiệm vụ hạn, nhiệt tình có trách nhiệm Trần Mạnh Dũng: tham gia họp đầy đủ, hoàn thành nhiệm vụ giao, hồn thành nhiệm vụ hạn, nhiệt tình có trách nhiệm Hà Sỹ Bách: tham gia họp đầy đủ, hoàn thành nhiệm vụ giao, hoàn thành nhiệm vụ hạn, nhiệt tình có trách nhiệm 105 Vương Tuấn Kiệt: tham gia họp tương đối đầy đủ, hoàn thành nhiệm vụ giao, hoàn thành nhiệm vụ hạn, có trách nhiệm Nguyễn Minh Phi: tham gia họp tương đối đầy đủ, hoàn thành nhiệm vụ giao, hoàn thành nhiệm vụ hạn, có trách nhiệm Phan Anh Quốc: khơng tham gia họp, có hồn thành nhiệm vụ giao, hồn thành nhiệm vụ trễ hạn Dương Thái Huy: tham gia họp đầy đủ, hoàn thành nhiệm vụ giao, hoàn thành nhiệm vụ hạn, nhiệt tình có trách nhiệm Cộng điểm Vũ Đình Bách 20206120 +2 Trần Mạnh Dũng 20206129 +2 Dương Thái Huy 20206285 +2 Vương Tuấn Kiệt 20206152 +1 Nguyễn Minh Phi 20206296 +1.5 Phan Anh Quốc 20206163 +0.5 Hà Sỹ Bách 20206119 +1.5 106 Tài liệu tham khảo Tiếng Anh [1] Applied Multivariate Statistical Analysis - Richard Johnson Dean Wichern Sixth Edition [2] Bishop, C M (2006) Pattern Recognition and Machine Learning Springer [3] Hastie, T., Tibshirani, R., Friedman, J (2009) The Elements of Statistical Learning: Data Mining, Inference, and Prediction (2nd ed.) Springer [4] Murphy, K P (2012) Machine Learning: A Probabilistic Perspective MIT Press [5] Marc Peter Deisenroth, A Aldo Faisal, Cheng Soon Ong (2020) Mathematics for Machine Learning Cambrigde University Press [6] Ghassabeh, Youness Aliyari (2013) On the convergence of the mean shift algorithm in the one-dimensional space Pattern Recognition Letters, 34(12), 1423-1427 [7] Ghassabeh, Youness Aliyari (2015) A sufficient condition for the convergence of the mean shift algorithm with Gaussian kernel Journal of Multivariate Analysis, 135, 1-10 [8] Altman, N S (1992) An introduction to kernel and nearest-neighbor nonparametric regression The American Statistician, 46(3), 175-185 [9] Berger, Simon Silhouette of mountains [10] Cheng, Yizong (1995) Mean shift, mode seeking, and clustering IEEE Transactions on Pattern Analysis and Machine Intelligence, 17(8), 790-799 107 [11] Comaniciu, D and Meer, P (2002) Mean shift: a robust approach toward feature space analysis IEEE Transactions on Pattern Analysis and Machine Intelligence, 24(5), 603-619 [12] Epanechnikov, V A (1969) Non-parametric estimation of a multivariate probability density Theory of Probability & Its Applications, 14(1), 153-158 [13] Mills, Peter (2011) Efficient statistical classification of satellite measurements International Journal of Remote Sensing, 32(21), 6109-6132 [14] Rudemo, Mats (1982) Empirical choice of histograms and kernel density estimators Scandinavian Journal of Statistics, 9(2), 65-78 [15] scikit-learn library V-measure cluster labeling given a ground truth [16] Silverman, B W (1986) Density estimation for statistics and data analysis Chapman and Hall/CRC [17] Terrell, George R and Scott, David W (1992) Variable Kernel Density Estimation The Annals of Statistics, 20(3), 1236-1265 [18] Wu, Geming, Zhao, Xinyan, Luo, Shuqian, and Shi, Hongli (2015) Histological image segmentation using fast mean shift clustering method Biomedical engineering online, 14(1), 1-12

Ngày đăng: 19/12/2023, 15:23

Tài liệu cùng người dùng

Tài liệu liên quan