Similarity Measures - các phép đo độ tương đồng
Introduction
Để thực hiện bài toán phân cụm, phép đo độ tương đồng là yếu tố không thể thiếu Phép đo này giúp xác định mức độ tương đồng giữa các đối tượng dữ liệu, từ đó xây dựng các nhóm (cluster) có tính chất tương đồng Nó là tiêu chí quan trọng quyết định xem hai đối tượng có nên được gom vào cùng một nhóm hay không.
Có nhiều phương pháp để đo độ tương đồng, và việc lựa chọn phương pháp phù hợp phụ thuộc vào đặc điểm của dữ liệu cũng như yêu cầu của bài toán Một số phương pháp phổ biến bao gồm khoảng cách Euclidean, độ tương đồng Cosine và khoảng cách Mahalanobis.
Distances and Similarity Coefficients for Pairis Items
Công thức tính khoảng cách Euclidean giữa 2 điểm trong không gian p chiều với x 0 [x 1 , x 2 , , x p ], y 0 [y 1 , y 2 , , y p ] ∈R p : d v u u t p
Khoảng cách thống kê giữa hai điểm được tính theo công thức d(x, y) = √((x−y)ᵀ A (x−y)), trong đó A = S⁻¹, với S là ma trận hiệp phương sai, thể hiện sự phụ thuộc tuyến tính giữa các biến trong cặp dữ liệu.
Nếu không có đủ thông tin về các nhóm riêng biệt, việc tính toán các đại lượng sẽ trở nên không khả thi Do đó, khoảng cách Euclidean thường được áp dụng trong phân cụm.
Một số cách tính khoảng cách khác
Khi m = 1, khoảng cách này được gọi là "city-block" hay khoảng cách thành phố, tính bằng tổng các độ lệch tuyệt đối của các thành phần Khi m = 2, nó trở thành khoảng cách Euclidean Cuối cùng, khi p = ∞, khoảng cách tương đương với khoảng cách Chebyshev.
Hai cách tính khoảng cách tiếp theo là Canbera metric và Czekanowski coefficient, cả hai công thức đều chỉ được áp dụng cho các biến không âm
P p i=1(x i +y i ) Khi có thể, chúng ta nên sử dụng các khoảng cách metric khỏa mãn ba tính chất sau:
1 Đối xứng: d(P.Q) =d(Q, P) với mọi P, Q trong không gian
2 Không âm: d(P, Q) >0, dấu "=" xảy ra khi và chỉ khi P ≡Q
3 Bất đẳng thức tam giác:d(P, Q) 6 d(P.R) +d(R, Q) với mọi P,Q,R trong không gian
Khi một đối tượng không thể được mô tả bằng các phép đo nhiều chiều, việc so sánh các cặp đối tượng thường dựa trên sự hiện diện hay vắng mặt của một tính chất cụ thể Sự hiện diện của tính chất này có thể được biểu diễn theo dạng nhị phân, với giá trị 0 biểu thị cho việc không có tính chất và giá trị 1 thể hiện cho sự tồn tại của tính chất đó.
Ví dụ với 5 đặc trưng và 2 đối tượng i và k:
Item Đặc trưng 1 Đặc trưng 2 Đặc trưng 3 Đặc trưng 4 Đặc trưng 5 i 1 0 0 1 1 k 1 1 0 1 0
Bảng 2.1: Ví dụ 1 Gọi x ij là giá trị của đặc trưng thứ j của đối tượng i, ta có:
Bình phương khoảng cách Euclidean được tính bằng công thức P p j=1(x ij −x kj ) 2, thể hiện sự khác biệt giữa các giá trị đặc trưng của hai đối tượng i và k Ví dụ, khoảng cách bình phương giữa hai đối tượng này trong trường hợp trên là
Mặc dù công thức tính khoảng cách có thể áp dụng để đo độ tương đồng, nhưng nó gặp hạn chế khi trọng số của các cặp 1-1 và 0-0 được xem như nhau Thực tế cho thấy, cặp 1-1 thường mang lại ý nghĩa và ảnh hưởng lớn hơn so với cặp 0-0 Chẳng hạn, trong một nhóm người, việc hai người cùng đọc một cuốn sách Hy Lạp sẽ có giá trị hơn so với việc cả hai đều không đọc nó Do đó, cần giảm thiểu hoặc loại bỏ hoàn toàn các cặp 0-0 Để đạt được điều này, một số phương pháp định nghĩa độ tương đồng khác đã được đề xuất.
Trong bảng trên, ký hiệu a thể hiện tần suất xuất hiện của cặp 1-1, trong khi b đại diện cho tần suất cặp 1-0, và các ký hiệu c, d tương tự cho các cặp khác Theo ví dụ 1, giá trị a bằng 2.
1 a+d p Equal weights for 1-1 matches and 0-0 matches
2 2(a+d)+b+c 2(a+d) Double weight for 1-1 matches and 0-0 matches
3 a+d+2(b+c) a+d Double weight for unmatched pairs
5 a+b+c a No 0-0 matches in numerator or denominator.
(The 0-0 matches are treated as irrelevant)
6 2a+b+c 2a No 0-0 matches in numerator or denominator.
7 a+2(b+c) a No 0-0 matches in numerator or denominator.
Double weight for unmatched pairs.
8 b+c a Ratio of matches to mismatches with 0-0 matches excluded.
Bảng 2.3: Similarity Coefficients for Clustering Items
Các hệ số ở hàng 1, 2 và 3 có sự đồng điệu rõ rệt Nếu hệ số thứ nhất được tính toán từ hai bảng thống kê và hệ số này ở bảng thống kê 1 cao hơn bảng thống kê 2, thì hệ số thứ 2 và thứ 3 ở bảng thống kê 1 cũng sẽ cao hơn hệ số thứ 2 tương ứng.
3 ở bảng thống kê thứ 2 Tương tự hệ số thứ 5,6,7 cũng có tính chất như vậy.
Sự đơn điệu trong tính toán độ tương đồng là yếu tố quan trọng trong phân cụm, giúp đảm bảo tính nhất quán và độ tin cậy của kết quả phân nhóm.
Khi tính toán độ tương đồng trong phân cụm, sự đơn điệu đảm bảo rằng độ tương đồng sẽ tăng lên khi các mục trở nên tương đồng hơn theo một tiêu chí nhất định, và ngược lại, độ tương đồng sẽ giảm khi các mục không còn tương đồng.
Sự đơn điệu là yếu tố quan trọng trong các hàm đo độ tương đồng, giúp đảm bảo tính liên quan đến thứ tự và sự tương quan giữa các mục Khi hàm đo độ tương đồng có tính đơn điệu, chúng ta có thể tin tưởng vào khả năng so sánh sự tương đồng giữa các mục, từ đó xác định các cụm hoặc nhóm mục tương tự một cách chính xác.
Nếu hàm đo độ tương đồng không đơn điệu, nó có thể gây ra kết quả không nhất quán và không đáng tin cậy trong phân cụm Vì vậy, tính đơn điệu là yêu cầu quan trọng để đảm bảo tính chính xác và đúng đắn trong các phương pháp phân cụm.
Calculating the values of a similarity coefficient
Height Weight Eye color Hair color Handedness Gender Individual 1 68in 140lb green blond right female
Individual 2 73in 185lb brown brown right male
Individual 3 67in 165lb blue blond right male
Individual 4 64in 120lb brown brown right female
Individual 5 76in 210lb brown brown left male
Ta lập lại bảng trên với sáu đặc trưng X 1 , X 2 , X 3 , X 4 , X 5 , X 6 , bằng cách định nghĩa lại:
Từ đó ta lập bảng của Invidual 1 và 2:
Sử dụng công thức 1 ở bảng trên, chúng ta tính a+d p = 1+0 6 = 1 6 , tương tự ta có ma trận độ tương đồng của 5 cá nhân trên:
Nhìn vào bảng ta có thể thấy individual 5 và 2 có mức độ tương đồng lớn nhất, với giá trị = 5 6 và individual 5 và 1 có ít độ tương đồng nhất.
Chúng ta hoàn toàn có thể xây dựng độ tương đồng từ khoảng cách, ví dụ chúng ta có thể dùng công thức: ˜ s ik = 1
1 + ˜d i k trong đó ˜s ik là độ tương đồng của items i và items k, có giá trị từ 0 đến 1.
Để xây dựng công thức tính khoảng cách dựa vào độ tương đồng, ma trận độ tương đồng cần phải nửa xác định dương Khi thỏa mãn điều kiện này, ta có thể áp dụng công thức tính khoảng cách: d˜ ik = q 2(1−s˜ ik).
Similarity an Association Measures for Pairs of Variables 9
Các phép đo tương đồng cho phép chúng ta đánh giá mức độ tương đồng giữa hai biến và xác định mối quan hệ của chúng dựa trên các thuộc tính dữ liệu Đồng thời, việc đo lường mức độ liên kết giữa các biến cũng rất quan trọng, giúp phân tích mối quan hệ giữa các cặp biến trong phân tích đa biến Khi các biến được trình bày dưới dạng nhị phân, chúng có thể được tổ chức thành bảng thống kê, trong đó các biến đóng vai trò quyết định trong việc phân nhóm và xác định các mục.
Ví dụ: Variable i bằng 1 và Variable k bằng 0 ở b trong số n items đang xét.
Công thức hệ số tương quan được áp dụng để đo độ tương quan tuyến tính giữa hai biến nhị phân, với công thức tính r = ad−bc / √((a+b)(c+d)(a+c)(b+d)) Công thức này có thể được sử dụng trực tiếp trên bảng liên hệ để xác định mức độ tương quan giữa các biến.
• a, b, c, d là số lượng quan sát trong các ô tương ứng của bảng trên.
• n = a + b + c + d là tổng số quan sát trong bảng
Công thức này được sử dụng để tính toán hệ số tương quan r, với giá trị nằm trong khoảng từ -1 đến 1 Giá trị r gần 1 chỉ ra mối quan hệ tuyến tính mạnh giữa hai biến nhị phân, trong khi giá trị gần -1 cho thấy mối quan hệ tuyến tính âm mạnh Nếu giá trị r gần 0, điều này cho thấy không có mối quan hệ tuyến tính đáng kể giữa hai biến nhị phân.
Để minh họa công thức hệ số tương quan của sản phẩm, chúng ta sẽ xem xét một ví dụ cụ thể về mối liên hệ giữa hai biến nhị phân: "Nhóm người xem phim A" và "Nhóm người không xem phim A".
"Nhóm người xem phim B" Chúng ta muốn xem xét xem có sự tương quan giữa việc xem phim thể loại A và việc xem phim thể loại B hay không.
Trong một cuộc khảo sát với 200 người tham gia, kết quả cho thấy có 120 người đã xem phim A.
Trong một nhóm 110 người, có 70 người đã xem phim A cũng đồng thời xem phim B Ngược lại, trong số 50 người xem phim B, cũng có những người đã xem phim A Điều này cho thấy sự chồng chéo giữa hai nhóm khán giả của hai bộ phim này.
Bảng 2.7 hệ số tương quan của sản phẩm (correlation coefficient) giữa việc xem phim thể loại
Mối quan hệ giữa việc xem phim thể loại A và thể loại B được xác định với hệ số tương quan 0.2663, cho thấy sự tương quan dương nhưng không mạnh giữa hai thể loại phim Điều này có nghĩa là sự ảnh hưởng giữa việc xem hai thể loại phim này là không đáng kể.
Phân cụm phân cấp 12
Phân cụm không phân cấp 33
Giới thiệu về kỹ thuật phân cụm không phân cấp
Kỹ thuật phân cụm không phân cấp (Non-hierarchical clustering) khác với phân cụm phân cấp ở chỗ nó cố gắng phân chia toàn bộ dữ liệu thành k nhóm ngay từ đầu Số lượng cụm K có thể được xác định trước hoặc trong quá trình phân cụm Phương pháp này không yêu cầu lưu trữ dữ liệu trong quá trình thực hiện, cho phép áp dụng cho các bộ dữ liệu lớn hơn so với kỹ thuật phân cụm có phân cấp Thuật toán K-means là một trong những kỹ thuật phân cụm không phân cấp phổ biến và được sử dụng rộng rãi.
Phân tích toán học
Giả sử có N điểm dữ liệu là X = [x 1 , x 2 , , x N ] ∈ R d×N và K < N là số cluster chúng ta muốn phân chia Chúng ta cần tìm các center m 1 , m 2 , , m K ∈ R d×1 và cụm của mỗi điểm dữ liệu.
Với mỗi điểm dữ liệu x i , đặt y i = [y i1 , y i2 , , y iK ] là label vector của nó, trong đó nếu x i được phân vào cluster k thì y ik = 1 và y ij = 0,∀j 6=k.
Khi đó, ràng buộc của y i có thể viết dưới dạng toán học như sau: y ik ∈0,1,
Hàm mất mát và bài toán tối ưu
Khi xem m k là tâm của cụm k, sai số của điểm dữ liệu x i được phân vào cụm này là (x i − m k ) Mục tiêu của chúng ta là giảm thiểu sai số này, do đó cần tìm cách tối ưu hóa để giá trị sai số đạt mức tối thiểu.
Khi x i được phân vào cụm k, ta có y ik = 1 và y ij = 0 với mọi j khác k Do đó, biểu thức trên có thể được viết lại thành: y ik kx i −m k k 2 2 = X K j=1 y ij kx i −m j k 2 2 (4.3) Sai số cho toàn bộ dữ liệu sẽ được tính toán dựa trên biểu thức này.
Trong bài toán K-means clustering, Y là ma trận chứa label vector của từng điểm dữ liệu, trong khi M là ma trận thể hiện center của các cluster Hàm mất mát được xác định bởi L(Y, M), với các ràng buộc được mô tả trong phương trình (1).
Tóm lại, chúng ta cần tối ưu bài toán sau:
Thuật toán tối ưu hàm mất mát
Để giải bài toán tối ưu, phương pháp hiệu quả là xen kẽ giải Y và M khi giữ cố định biến còn lại Đây là một thuật toán lặp, thường được áp dụng trong các bài toán tối ưu Chúng ta sẽ lần lượt giải quyết hai bài toán sau đây: vào đây xong treo máy?
Sau khi xác định các tâm cụm, bước tiếp theo là tìm vec-tơ nhãn Y nhằm tối ưu hóa hàm mất mát Việc này tương đương với việc phân loại từng điểm dữ liệu vào các cụm tương ứng.
Khi các tâm cụm được cố định, bài toán tìm giá trị Y cho toàn bộ dữ liệu có thể được tách thành bài toán xác định cụm cho từng điểm dữ liệu x i, với công thức y i = argmin y i.
Vì chỉ có một phần tử của label vector y i bằng 1 nên bài toán trên có thể được viết dưới dạng đơn giản hơn: j = argmin j kx i −m j k 2 2
Khoảng cách giữa điểm dữ liệu x_i và tâm m_j được tính bằng công thức kx_i - m_j k^2, cho thấy rằng mỗi điểm x_i thuộc về cụm có tâm gần nhất Điều này giúp chúng ta dễ dàng xác định nhãn cho từng điểm dữ liệu.
Giả sử đã tìm được cluster cho từng điểm, hãy tìm center mới cho mỗi cluster để hàm mất mát đạt giá trị nhỏ nhất.
Một khi chúng ta đã xác định được label vector cho từng điểm dữ liệu, bài toán tìm center cho mỗi cluster được rút gọn thành: m j =argmin m j
X i=1 y ij kx i −m j k 2 2 Đặt l(m j ) là hàm bên trong dấu argmin, ta có đạo hàm:
X i=1 y ij (m j −x i ) Giải phương trình đạo hàm bằng 0 ta có: m j = P N i=1 y ij x i
Có thể nhận thấy m j chính là trung bình cộng của các điểm trong cụm j
Tóm tắt lại các bước thực hiện thuật toán K-means
Sau đây là các bước tiến hành của thuật toán:
• Bước 1: Với từng cụm, chọn ngẫu nhiên 1 điểm làm tâm cụm (seed point).
• Bước 2: Gán từng quan sát cho cụm mà khoảng cách từ nó đến tâm cụm là gần nhất.
• Bước 3: Nếu việc gán dữ liệu vào từng cluster ở bước 2 không thay đổi so với vòng lặp trước nó thì ta dừng thuật toán.
• Bước 4: Tính toán tâm cho từng cụm này (Tâm cụm được tính bằng cách tính trung bình cho từng đặc trưng của tất cả các quan sát trong cụm).
Chứng minh sự hội tụ của phương pháp
Ta sẽ chứng minh thuật toán Kmeans sẽ luôn hội tụ sau hữu hạn bước bằng cách chứng minh rằng sau mỗi bước lặp t:
• Tính chất 1: Nếu Y và M có sự điều chỉnh, hàm mục tiêu sẽ giảm
• Tính chất 2: Nếu hàm mục tiêu không đổi, điều này sẽ tương đương với việc không có gì được cập nhật sau bước lặp t
Bổ đề 1: Cố định Y, đặt f 1 (j) = P P N i=1 N y ij x i i=1 y ij Với bất kì m 1 , m 2 , , m k , ta có:
Với bất kì cụm q ∈ {1,2, , k} và bất kì i sao cho x i thuộc cụm q: kx i −m q k 2 =kx i −f 1 (q) +f 1 (q)−m q k
Từ đây, ta suy ra:
Bổ đề 2: Cố định M, đặt f 2 (x i ) = argmin q∈1,2, ,k kx i −m q k 2 Với bất kì Y thỏa mãn và Y ∗ là nhãn sau khi cập nhật, ta có:
Từ 2 bổ đề trên, ta nhận thấy các giá trị hàm mục tiêu khi sử dụng phương pháp Kmeans tạo thành một dãy không tăng: loss n =L(Y, m 1 , m 2 , , m k )
=loss n+1 Ở đây, Dấu "=" xảy ra ⇐⇒ kf 1 (q)−m q k 2 = 0 và x i ==f 2 (x i )
⇐⇒ Cả Y và M đều không được cập nhật gì cả
Do đó, Tính chất 1 và 2 thỏa mãn
Vậy thuật toán Kmeans sẽ luôn hội tụ.
Phương pháp Elbow trong lựa chọn số cụm K
Phương pháp Elbow sử dụng một chỉ số, chẳng hạn như khoảng cách Euclidean, để đánh giá chất lượng phân cụm cho các giá trị K khác nhau Khi tăng K, độ tốt của thuật toán thường cải thiện nhanh chóng trước khi ổn định Điểm elbow là thời điểm mà sự cải thiện bắt đầu chậm lại, cho thấy thuật toán đã đạt được sự ổn định.
Điểm khuỷ tay được xác định là K = 3, vì khi số lượng cụm vượt quá 3, tốc độ suy giảm của hàm biến dạng không còn đáng kể như trước.
Phương pháp Elbow là một kỹ thuật phổ biến để xác định số lượng cụm phân chia hợp lý thông qua việc phân tích biểu đồ Tuy nhiên, trong một số trường hợp, việc xác định vị trí của Elbow có thể trở nên khó khăn, đặc biệt với những bộ dữ liệu có quy luật phân cụm không rõ ràng Dù vậy, phương pháp Elbow vẫn được coi là một trong những phương pháp hiệu quả nhất trong việc tìm kiếm số lượng cụm cần phân chia.
Một số yếu tố dẫn đến kết quả kém mà không phải do chọn số cụm K
Nếu hai hoặc nhiều điểm khởi tạo ban đầu vô tình nằm trong một cụm thực sự, hoặc không có điểm khởi tạo nào nằm trong cụm đó, kết quả phân tích có thể bị sai lệch.
Hình 4.1: Dòng 1: Dữ liệu ban đầu, Dòng 2: Điểm khởi tạo, Dòng 3: Kết quả thu được sau khi phân cụm, Dòng 4: Cụm thật sự
Để khắc phục vấn đề này, chúng ta có thể thực hiện thuật toán K-means nhiều lần với các tâm cụm khởi tạo khác nhau, sau đó chọn phương án có hàm mất mát cuối cùng thấp nhất Ngoài ra, việc áp dụng một thuật toán cải thiện trong việc chọn tâm cụm ban đầu cũng là một giải pháp hiệu quả.
• Tồn tại điểm ngoại lai (Outlier) có thể dẫn đến có ít nhất một cụm chứa điểm nằm rất xa so với các điểm khác.
Hình 4.2: So sánh kết quả khi có điểm quá xa so với các điểm khác
Ví dụ
Tạo một bộ dữ liệu gồm 4 cụm, mỗi cụm gồm 50 mẫu bằng cách chọn ngẫu nhiên
4 điểm (-1, 3), (2, 3), (3, -3) và (-1, -2) làm tâm cụm, sau đó lấy các mẫu xung quanh tâm cụm theo phân phối chuẩn.
Bộ dữ liệu thu được được minh họa dưới dây:
4.6.3) Áp dụng thuật toán kmeans và hiển thị kết quả
Phân cụm dựa trên mô hình thống kê
Giới thiệu
Các phương pháp phân cụm đã được thảo luận trước đó hiệu quả trong việc nhóm các đối tượng tương đồng, nhưng chúng ta vẫn chưa thể giải thích tại sao các phương pháp này hoạt động như vậy Để hiểu rõ sự tương đồng giữa các đối tượng, cần biết cách mà chúng được tạo ra ban đầu Điều này xảy ra vì các phương pháp phân cụm không can thiệp vào quá trình khởi tạo dữ liệu.
Quá trình khởi tạo dữ liệu đóng vai trò quan trọng trong việc phân cụm, chẳng hạn như phân loại các nhóm khách hàng dựa trên cách họ mua sắm trực tuyến Hiểu rõ cách dữ liệu được tạo ra sẽ giúp chúng ta tận dụng thông tin này để nâng cao hiệu quả của quá trình phân cụm.
Trong nhiều tình huống, chúng ta không biết cách dữ liệu được tạo ra, nhưng vẫn có thể áp dụng các phương pháp phân cụm Tuy nhiên, cần lưu ý rằng các phương pháp này có những hạn chế nhất định và chỉ là công cụ hỗ trợ, không thể cung cấp đầy đủ thông tin về dữ liệu.
Các phương pháp phân cụm dựa trên thống kê cung cấp công cụ hiệu quả cho việc xử lý các tình huống phức tạp Chúng có khả năng làm việc với các bộ dữ liệu thiếu tính rõ ràng và tối ưu hóa thời gian xử lý cho các tập dữ liệu lớn.
Một trong số các mô hình phân cụm dựa trên thống kê thường được sử dụng đó là
Mô hình phân phối chuẩn hỗn hợp (GMMs - Gaussian Mixture Model) yêu cầu người học có kiến thức cơ bản về xác suất thống kê, bao gồm biến ngẫu nhiên và phân phối xác suất Để áp dụng GMMs, việc sử dụng ngôn ngữ lập trình Python là cần thiết để thực hiện thuật toán này một cách hiệu quả.
Chúng ta sẽ tìm hiểu thuật toán theo các phần sau:
• Nhắc lại Phân phối chuẩn, ước lượng hợp lý tối đa cho phân phối chuẩn.
• Khái niệm mô hình phân phối chuẩn hỗn hợp (GMMs), ước lượng hợp lý tối đa cho phân phối chuẩn hỗn hợp.
• Ước lượng tối đa hóa kì vọng (Expectition-Maximization)
• Điều chỉnh phân phối dữ liệu với GMMs và Python (cách cài đặt)
• Ưu và nhược điểm của GMMs và EM
Phân phối chuẩn và ước lượng hợp lý tối đa cho phân phối chuẩn một biến
Phân phối chuẩn, hay còn gọi là phân phối Gaussian, là một loại phân phối xác suất liên tục có hình dáng chuông úp ngược và đối xứng Đối với một biến ngẫu nhiên, phân phối chuẩn được định nghĩa bằng công thức p(x|μ, σ²) = N(μ, σ²) = √(1).
Trong thống kê, trung bình (μ) và độ lệch chuẩn (σ) là các đại lượng vô hướng đại diện cho phân phối chuẩn Tuy nhiên, khi đối mặt với các bài toán có nhiều biến ngẫu nhiên, chúng ta cần đến phân phối chuẩn đa biến Phân phối này được định nghĩa như sau: p(x | μ, Σ) = N(μ, Σ) = (2π)^{-D/2} |Σ|^{-1/2} exp{-1}.
Trong thống kê, các đại lượng như à và ma trận Σ không chỉ đơn thuần là các đại lượng vụ hướng mà còn là các vector trung bình và ma trận phương sai Định thức của ma trận Σ được ký hiệu là |Σ|, trong khi D đại diện cho số chiều của x ∈ R^D Việc điều chỉnh giá trị của à sẽ ảnh hưởng đến vị trí của phân phối chuẩn trong không gian D chiều, trong khi việc thay đổi ma trận Σ sẽ làm thay đổi hình dạng của phân phối chuẩn.
5.2.2 Ước lượng hợp lý tối đa (MLE) cho phân phối chuẩn
Khi có một lượng lớn dữ liệu và cần tìm phân phối phù hợp, ta giả định dữ liệu được sinh ra từ một tiến trình ẩn Để mô hình hóa tiến trình này, phân phối Gaussian là một lựa chọn hợp lý Mục tiêu chính là xác định trung bình và phương sai của phân phối chuẩn, tức là tìm các trọng số của mô hình Quá trình này sẽ được thực hiện thông qua ước lượng hợp lý tối đa (MLE - Maximum Likelihood Estimation).
Quá trình thực hiện Maximum Likelihood Estimation (MLE) cho phân phối chuẩn của một biến bao gồm việc ước lượng giá trị trung bình của phân phối, với giả định rằng phương sai đã biết Đối với một bộ dữ liệu các điểm X = {x_n} (n = 1 đến N), chúng ta giả thiết rằng các biến ngẫu nhiên là độc lập và có cùng phân phối xác suất MLE sẽ được áp dụng để tìm giá trị trung bình tối ưu cho phân phối này.
Ước lượng hợp lý (likelihood) là xác suất phân phối của dữ liệu huấn luyện cho trước các tham số p(X|θ) Việc giải bài toán này trực tiếp thường phức tạp do khó khăn trong việc tìm mô hình xác suất đồng thời cho toàn bộ dữ liệu Tuy nhiên, nếu giả sử các điểm dữ liệu độc lập và phương sai đã biết, ta có thể xấp xỉ likelihood bằng công thức: p(X |θ) = ∏_{n=1}^{N} p(x_n |θ).
2σ 2 ) (ii) Ước lượng log-likelihood logp(X|à) Việc sử dụng hàm log lờn likelihod đưa tớch trở thành các tổng giúp chúng ta loại bỏ các số mũ.
(iii) Tớnh đạo hàm của log-likelihood theo biến à dL dà = X N n=1 x n −à σ 2
Sau khi tính đạo hàm của log-likelihood, bước tiếp theo là thiết lập đạo hàm bằng 0 để xác định tham số Điều này giúp chúng ta ước lượng giá trị ML cho trung bình của phân phối chuẩn một biến, cụ thể là ML = (1/N) * Σ x_n.
Phương trình trên chỉ ra rằng ước lượng tối đa khả năng (MLE) của trung bình được tính bằng cách cộng tất cả các giá trị và chia cho số lượng điểm Đối với phương sai, chúng ta cũng áp dụng MLE tương tự, bắt đầu từ log-likelihood, tính đạo hàm riêng của σ, đặt nó bằng 0 và cô lập để thu được công thức σ ML 2 = P N n=1 (x n −à) 2.
Chúng ta sẽ khám phá cách khớp dữ liệu vào phân phối chuẩn một và nhiều mốt, thông qua các bước được minh họa trong các đồ thị dưới đây.
Khớp dữ liệu vào phân phối chuẩn đơn mốt (unimodal-chỉ có một đỉnh trong phân phối của dữ liệu
Trong bài viết này, chúng ta sẽ khám phá cách ước lượng trung bình và độ lệch chuẩn của một phân phối không xác định thông qua dữ liệu về số đo cơ thể, bao gồm cân nặng và chiều cao của 507 người tham gia, cùng với giới tính của họ Chúng ta sẽ tập trung vào cột dữ liệu cân nặng (đo bằng kilograms) và áp dụng phương pháp ước lượng cực đại (MLE) để tính toán các tham số của mô hình Việc này có thể thực hiện dễ dàng bằng các công thức đã biết, giúp chúng ta thu được kết quả chính xác.
Các tham số này gần như đã ước lượng chính xác phân phối chưa biết của 507 quan sát Theo luật số lớn, khi số lượng phép đo tăng, độ chính xác của ước lượng phân phối cũng sẽ cải thiện Dữ liệu được thể hiện qua đồ thị dưới đây.
Khớp dữ liệu vào phân phối chuẩn nhiều mốt (multimodal) được thực hiện bằng cách sử dụng histogram với 15 cột màu xanh để biểu diễn dữ liệu thực tế Sau đó, chúng ta áp dụng Maximum Likelihood Estimation (MLE) để xác định các tham số cho phân phối Gaussian phù hợp với dữ liệu Bằng cách lấy 1000 mẫu từ phân phối Gaussian với các tham số đã tìm được, chúng ta biểu diễn dữ liệu mô phỏng bằng histogram với 15 cột màu đỏ Sự chồng chéo giữa dữ liệu thực tế (màu xanh) và dữ liệu mô phỏng (đỏ) cho thấy mức độ khớp giữa hai loại dữ liệu, cho phép chúng ta xác định rằng dữ liệu đã được xấp xỉ bằng một phân phối chuẩn.
Hình 5.1 minh họa sự không khớp giữa phân phối mẫu và dữ liệu gốc khi sử dụng phương pháp ước lượng cực đại (MLE) Quan sát bằng mắt thường cho thấy rằng phân phối của mẫu dựa trên các tham số ước lượng chưa hoàn toàn phù hợp với dữ liệu thực tế.
Sự không liên tục trong đồ thị có thể xuất phát từ các yếu tố tiềm ẩn trong dữ liệu Chẳng hạn, chiều cao có mối tương quan với tuổi, cân nặng và giới tính, cho thấy rằng có thể tồn tại những nhóm dân số mà chúng ta chưa xác định được khi chỉ sử dụng một phân phối Gaussian duy nhất.
Hãy thử tách dữ liệu dựa trên giới tính Ta sẽ thấy sự khác biệt:
Hình 5.2: Phân phối của dữ liệu có hai đỉnh trong phân phối của dữ liệu
Trên histogram, có thể thấy hai phân phối chuẩn với mỗi phân phối có trung bình và độ lệch chuẩn riêng Trong thực tế, dữ liệu không chỉ có một hoặc hai đỉnh mà có thể có nhiều đỉnh khác nhau Khi xuất hiện nhiều phân phối chuẩn đơn mốt, cách hiệu quả để mô hình hóa một phân phối nhiều mốt là giả định rằng nó được hình thành từ nhiều phân phối đơn mốt Phân phối chuẩn là loại phân phối thường được sử dụng để mô hình hóa dữ liệu đơn mốt trong thực tế.
Mô hình phân phối chuẩn hỗn hợp (GMMs-Gaussian Mixture Model)
Ước lượng mật độ xác suất là một trong những khái niệm cốt lõi trong máy học Bài viết này sẽ trình bày các khái niệm quan trọng liên quan, bao gồm thuật toán EM và cách tiếp cận biến ẩn trong ước lượng mật độ xác suất thông qua mô hình hỗn hợp.
Khi áp dụng machine learning lên dữ liệu, việc biểu diễn dữ liệu một cách hiệu quả là rất quan trọng Thay vì chỉ sử dụng từng điểm dữ liệu làm đại diện, ta cần tìm cách biểu diễn tổng thể hơn, đặc biệt khi làm việc với bộ dữ liệu lớn hoặc khi muốn thể hiện các tính chất cụ thể Một phương pháp hữu ích là sử dụng ước lượng mật độ, cho phép chúng ta biểu diễn dữ liệu một cách rõ ràng thông qua các tham số như phân phối chuẩn hoặc phân phối Beta.
Hình 5.3: Khớp dữ liệu vào một phân phối chuẩn và với phân phối chuẩn là hỗn hợp của hai thành phần
Để biểu diễn bộ dữ liệu bằng phân phối chuẩn, ta cần tính toán trung bình và phương sai Hai giá trị này có thể được xác định thông qua phương pháp ước lượng hợp lý tối đa hoặc ước lượng tối đa hậu nghiệm Sau khi có trung bình và độ lệch chuẩn, ta có thể sử dụng chúng để mô tả phân phối ẩn của dữ liệu.
Phân phối chuẩn có những giới hạn trong khả năng mô hình hóa, vì vậy cần áp dụng một họ các phân phối hoặc một hỗn hợp các phân phối để ước lượng mật độ xác suất hiệu quả hơn.
Mô hình hỗn hợp có thể sử dụng để mô tả phân phối p(x) bằng một tổ hợp lồi
(convex combination) của K phân phối đơn giản (gốc): p(x) = X K k=1 π k p k (x) (5.1)
Mô hình hỗn hợp, được biểu diễn dưới dạng X k=1 π k = 1 (5.2), bao gồm các thành phần p k từ các phân phối cơ bản như Gaussian, Bernoulli hoặc Gamma, với π k là trọng số hỗn hợp Mô hình này dễ dàng mô tả dữ liệu nhiều mốt, cho phép phân tích bộ dữ liệu có nhiều cụm, như minh họa trong hình dưới đây.
Ta sẽ tập trung vào mô hình phân phối chuẩn hỗn hợp (GMMs), trong đó các phân
Dữ liệu hai chiều thường không thể được mô tả đơn giản bằng một phân phối chuẩn duy nhất Mục tiêu của chúng ta là sử dụng Maximum Likelihood Estimation (MLE) để huấn luyện các Mô hình hỗn hợp Gaussian (GMMs) cho bộ dữ liệu bất kỳ Tuy nhiên, việc tìm kiếm công thức đóng cho ước lượng hợp lý là không khả thi Thay vào đó, chúng ta cần giải một hệ phương trình độc lập tuyến tính thông qua phương pháp lặp.
5.3.1 Mô hình phân phối chuẩn hỗn hợp (GMMs)
Mô hình phân phối chuẩn hỗn hợp là mô hình được tạo thành từ việc kết hợp số lượng hữu hạn K phõn phối chuẩn N(x|à k ,Σ k ), nghĩa là p(x) = X K k=1 π k N(x|à k ,Σ k ) (5.3)
Trong bài viết này, chúng ta định nghĩa θ := {à k ,Σ k , π k : k = 1, , K} là tập hợp các tham số của mô hình Tổ hợp lồi của các phân phối chuẩn cung cấp sự linh hoạt đáng kể trong việc mô hình hóa các mật độ xác suất, vượt trội hơn so với một phân phối chuẩn đơn lẻ (khi K = 1) Hình minh họa dưới đây thể hiện các trọng số của các thành phần và mật độ xác suất hỗn hợp được mô tả bởi công thức: p(x,θ ) =0.5N(x| −2,0.5) +0.2N(x|1,2) +0.3N(x|4,1).
Công thức được đề cập là tổng có trọng số của các phân phối chuẩn đơn mốt, với trọng số cho thành phần phân phối chuẩn thứ nhất là 0.5, cho thành phần thứ hai là 0.2, và cho thành phần thứ ba là 0.5.
Hình 5.5: Mô hình phân phối chuẩn hỗn hợp
5.3.2 Ước lượng tham số của mô hình phân phối chuẩn hỗn hợp
Trong bài viết này, chúng ta xem xét một bộ dữ liệu X = {x 1 , , x N }, trong đó các phần tử x n được chọn ngẫu nhiên và độc lập từ một phân phối p(x) chưa biết Mục tiêu chính là xấp xỉ phân phối p(x) thông qua trung bình của Mixture Model Gaussian (GMM) với K thành phần Các tham số của GMM bao gồm K giá trị trung bình à k, ma trận hiệp phương sai Σ k và trọng số π k cho mỗi thành phần Tóm lại, các tham số này được biểu diễn dưới dạng trọng số của mô hình θ :={à k ,Σ k , π k : k = 1, , K}.
Để hiểu rõ hơn về các khái niệm liên quan, chúng ta sẽ khởi tạo một bộ dữ liệu đơn giản X = {−3,2.5,−1,0,2,4,5} với 7 điểm dữ liệu Mục tiêu là tìm một Mô hình Mixture Gaussian (GMM) với K = 3 phần tử để mô hình hóa mật độ dữ liệu Các thành phần được khởi tạo như sau: p1(x) = N(x|−4,1), p2(x) = N(x|0,0.2), p3(x) = N(x|8,3), và trọng số được gán là π1 = π2 = π3 = 1/3 Các điểm dữ liệu và mô hình được thể hiện trong đồ thị đi kèm.
Hình 5.6: Khởi tạo GMM với 3 thành phần phân phối chuẩn đơn mốt (kẻ gạch)
Trong phần tiếp theo, chúng ta sẽ khám phá cách ước lượng hợp lý tối đa θ M L cho trọng số mô hình θ Đầu tiên, chúng ta định nghĩa hàm hợp lý, tức là phân phối có thể dự đoán dữ liệu huấn luyện dựa trên các tham số đã biết Dựa vào giả thiết i.i.d, likelihood được biểu diễn là p(X, θ) = Y N n=1 p( x n |θ), với p( x n |θ) = X K k=1 π k N(x n |à,Σ k ) Mỗi thành phần xác suất p(x n , θ) là một phân phối chuẩn hỗn hợp Cuối cùng, chúng ta thu được log-likelihood từ công thức này.
Mục tiêu của chúng ta là xác định tham số θ M L ∗ nhằm tối đa hóa log-likelihood L được định nghĩa trong (5.10) Các bước cơ bản bao gồm tính toán gradient dL/dθ của log-likelihood theo tham số θ, sau đó đặt nó bằng 0 và giải để tìm θ Tuy nhiên, khác với ví dụ trước về phân phối chuẩn đơn mốt, chúng ta không thể tìm ra công thức đóng Thay vào đó, chúng ta có thể áp dụng một công thức lặp để tìm tham số tối ưu cho mô hình, cụ thể là thuật toán EM cho GMMs Ý tưởng chính là cập nhật từng tham số của mô hình trong khi giữ các tham số khác không đổi.
Các giá trị tối ưu địa phương của hàm thể hiện rằng gradient của nó theo các tham số phải bằng 0, đây là điều kiện cần (điều kiện bậc nhất) Trong trường hợp của các mô hình GMM hiện tại, điều kiện cần này được xác định khi tối ưu hóa hàm log-likelihood với các tham số GMM là à k, Σ k, π k.
Với cả ba điều kiện cần, bằng cách sử dụng quy tắc đạo hàm của hàm hợp, ta cần đạo hàm riêng ở dạng:
∂θ (5.14) trong đú θ ={à k ,Σ k , π k , k = 1,ã ã ãK} là cỏc tham số của mụ hỡnh và
Chúng ta sẽ tiến hành tính toán các đạo hàm riêng từ (5.11) đến (5.13) trong phần tiếp theo Trước khi thực hiện, cần nắm vững kiến thức về trọng số mức độ quan trọng, một yếu tố then chốt trong các vấn đề liên quan đến GMMs.
5.3.3 Trọng số mức độ quan trọng (Responsibilities)
Ta định nghĩa giá trị r nk := π k N(x n |à k ,Σ k )
Trọng số mức độ quan trọng (responsibility) của thành phần hỗn hợp thứ k cho điểm dữ liệu thứ n được xác định bởi công thức P K j=1 π j N(x n |à j ,Σ j ) Đây là xác suất cho thấy điểm dữ liệu n thuộc về cụm k, tỷ lệ với likelihood p(x n |π k , à k ,Σ k ) =π k N(x n |à k ,Σ k ) Một thành phần hỗn hợp có trọng số mức độ quan trọng cao cho điểm dữ liệu đồng nghĩa với việc khả năng điểm dữ liệu đó thuộc về thành phần đó càng lớn Vector xác suất r n := [r n1 , , r nK ] | ∈ R K được chuẩn hóa, với P k r nk = 1 và r nk ≤ 1, phân phối xác suất trong K thành phần hỗn hợp Điều này cho phép "gán mềm" điểm dữ liệu x n vào K thành phần hỗn hợp, khác với thuật toán K-Means, nơi mỗi điểm dữ liệu chỉ thuộc về một cụm duy nhất.
Hướng tiếp cận dựa trên biến ẩn (Latent-Variable)
GMM có thể được nghiên cứu từ góc độ các mô hình biến ẩn rời rạc, trong đó mỗi biến ẩn z tương ứng với một tập giá trị hữu hạn, khác với PCA khi các biến ẩn là giá trị liên tục trong R^M Góc nhìn thống kê này mang lại nhiều ưu điểm, bao gồm khả năng giải thích các quyết định đã đưa ra, cho phép diễn giải cụ thể về trọng số mức độ quan trọng như xác suất hậu nghiệm, và sử dụng thuật toán lặp như EM để ước lượng hợp lý tối đa (MLE) cho các tham số của mô hình biến ẩn.
5.4.1 Quá trình tạo dữ liệu và mô hình xác suất Để có được mô hình xác suất cho GMM, ta sẽ tìm hiểu về quá trình tạo ra dữ liệu tức là quá trình mà cho phép chúng ta tạo ra dữ liệu sử dụng mô hình xác suất Ta giả sử rằng mô hình hỗn hợp với K thành phần và một điểm dữ liệu x có thể được tạo ra bởi duy nhất một thành phần hỗn hợp Đặt biến nhị phân chỉ thị z k ∈ {0,1} với 2 trạng thái duy nhất là 0 và 1 cho biết liệu thành phần thứ k có tạo ra điểm dữ liệu đó hay không Ta có p(x|z k = 1) = N(x|à k ,Σ k ) (5.41)
Vector xác suất z := [z1, , zk] ∈ R^K được định nghĩa với K − 1 thành phần bằng 0 và một thành phần duy nhất bằng 1 Ví dụ, khi K = 3, giá trị hợp lệ của z là [0, 1, 0], trong đó thành phần hỗn hợp thứ hai được chọn khi z2 = 1 Loại phân phối xác suất này thường được gọi là "multinoulli", là tổng quát hóa của phân phối Bernoulli cho nhiều hơn hai giá trị (Murphy, 2012) Tính chất của z còn có nhiều ý nghĩa quan trọng trong các mô hình xác suất.
P K k=1 z k = 1 Hơn nữa, z là một vector one-hot.
Trong thực tế, chúng ta thường không biết giá trị cụ thể của biến chỉ định z k Do đó, cần đặt một phân phối tiên nghiệm lên biến ẩn z, được biểu diễn bằng p(z) = π = [π1, , πK].
Khi đó thành phần thứ k π k = p(z k = 1) (5.43) của vector xác suất cho biết xác suất mà thành phần hỗn hợp thứ k tạo ra điểm dữ liệu x
Lưu ý rằng việc chọn mẫu từ GMM là rất quan trọng Mô hình biến ẩn cung cấp cho chúng ta một quy trình chọn mẫu đơn giản, giúp khởi tạo và tạo ra dữ liệu một cách hiệu quả.
Trong bước đầu tiên, chúng ta ngẫu nhiên chọn thành phần hỗn hợp thứ nhất thông qua mã hóa vector one-hot z theo xác suất p(z) = π Tiếp theo, trong bước thứ hai, chúng ta rút ra một mẫu từ thành phần hỗn hợp tương ứng Khi loại bỏ các mẫu của biến ẩn, chúng ta chỉ giữ lại các mẫu hợp lệ từ mô hình GMM Phương pháp lấy mẫu này, trong đó các mẫu của biến ngẫu nhiên phụ thuộc vào các mẫu từ các biến sinh ra chúng trong mô hình, được gọi là lấy mẫu tổ tiên (ancestral sampling).
Mô hình xác suất được định nghĩa là phân phối xác suất đồng thời giữa dữ liệu và biến ẩn Với xác suất tiên nghiệm p(z) và xác suất điều kiện p(x|z), chúng ta có thể xác định tất cả K thành phần của phân phối xác suất đồng thời thông qua công thức p(x, z k = 1) = p(x|z k = 1)p(z k = 1) = π k N(x n |à k ,Σ k ).
(5.45) chỉ định đầy đủ cho mô hình xác suất.
5.4.2 Likelihood Để thu được likelihood p(x|θ) trong một mô hình biến ẩn, ta cần biên hóa các biến ẩn Trong trường hợp này, ta sẽ cộng tất cả các biến ẩn từ xác suất đồng thời p(x, z) trong (5.45), ta có p(x|θ) = X z p(x|θ, z)p(z|θ), θ :={à k ,Σ k , π k : k= 1, , K} (5.46)
Chúng ta sẽ làm rõ các điều kiện của tham số θ trong mô hình xác suất mà trước đây đã bị bỏ qua Trong công thức (5.46), chúng ta cộng tất cả K vector one-hot có thể có của z, được ký hiệu là.
Khi mỗi giá trị trong z chỉ có duy nhất một giá trị khác 0, chúng ta có thể lựa chọn z theo K cách khác nhau Ví dụ, nếu K = 3, z sẽ có các lựa chọn sau.
Cộng tất cả các giá trị có thể có của z trong (5.46) tương đương với việc xem xét các thành phần khác 0 của vector z và viết thành p(x|θ) = X z p(x|θ, z)p(z|θ) (5.48a)
= X K k=1 p(x|θ, z k = 1)p(z k = 1|θ) (5.48b) vì vậy, phân phối biên mong muốn sẽ là p(x|θ) = X K k=1 p(x|θ, z k = 1)p(z k = 1|θ) (5.49a)
= X K k=1 π k N(x|à k ,Σ k ), (5.49b) đây cũng chính là mô hình GMM ta đã định nghĩa ở đầu chương Cho một bộ dữ liệu
X k=1 π k N(x n |à k ,Σ k ) là likelihood của mô hình hỗn hợp Gaussian (GMM) Mô hình này có thể được hiểu như một biến ẩn với biến chỉ định z k, cho thấy cách thức phân phối chuẩn hỗn hợp hoạt động.
Theo định lý Bayes, xác suất hậu nghiệm của thành phần thứ k với điểm dữ liệu x được tính bằng công thức p(z k = 1|x) = p(z k = 1)p(x|z k = 1) / p(x) Trong đó, xác suất biên p(x) được xác định bởi công thức tương ứng Qua đó, ta có thể xác định xác suất hậu nghiệm cho biến chỉ định z k.
P K k=1N(x|à j ,Σ j ) (5.52) Đây chính là trọng số mức độ quan trọng của thành phần thứ k đối với điểm dữ liệu x mà ta đã định nghĩa từ trước.
5.4.4 Mở rộng cho toàn bộ dữ liệu Đến bây giờ, ta mới chỉ nói về trường hợp mà bộ dữ liệu chưa duy nhất một diểm dữ liệu x Tuy nhiên, khái niệm về xác suất tiên nghiệm và xác suất hậu nghiệm có thể mở rộng trực tiếp cho cả trường hợp N điểm dữ liệu X :={x 1 , , x N }.
Trong việc giải thích xác suất của Mô hình hỗn hợp Gauss (GMM), mỗi điểm dữ liệu \( x_n \) có biến ẩn riêng \( z_n = [z_{n1}, \ldots, z_{nK}] \in \mathbb{R}^K \) Trước đây, khi chỉ xem xét một điểm dữ liệu duy nhất, chúng ta đã bỏ qua chỉ số \( n \), nhưng giờ đây chỉ số này trở nên quan trọng hơn bao giờ hết.
Trong biến ẩn z_n, chúng ta bắt đầu với một phân phối xác suất tiên nghiệm π Phân phối xác suất có điều kiện p(x_1, , x_N | z_1, , z_N) được phân tách độc lập theo các điểm dữ liệu, được thể hiện qua công thức p(x_1, , x_N | z_1, , z_N) = ∏_{n=1}^{N} p(x_n | z_n) Để xác định phân phối xác suất hậu nghiệm p(z_{nk}=1|x_n), chúng ta áp dụng định lý Bayes, cho phép tính toán p(z_{nk}=1|x_n) = p(x_n | z_{nk}=1)p(z_{nk}=1).
Đánh giá các mô hình GMMs
Quá trình học tập của thuật toán Machine Learning, giống như con người, cần được đánh giá từ nhiều khía cạnh, và các mô hình GMM cũng không phải là ngoại lệ Bài viết này sẽ khám phá các phương pháp phổ biến hiện nay để đánh giá các mô hình GMM, nhằm lựa chọn mô hình tốt nhất phù hợp với dữ liệu Điều này sẽ giúp giải quyết một số vấn đề quan trọng, như việc xác định số cụm thích hợp cho phân cụm và đánh giá hàm log-likelihood.
Thuật toán EM được sử dụng để ước lượng các tham số của mô hình phân phối chuẩn hỗn hợp Đây là một thuật toán lặp, yêu cầu điều kiện hội và đo lường các giá trị tham số sau mỗi bước lặp nhằm tối ưu hóa các giá trị cần thiết.
Thuật toán EM là phương pháp tối ưu hóa dựa trên việc tối đa hóa hàm log-likelihood, thông qua quá trình lặp E-step và M-step cho đến khi đạt được sự hội tụ Log-likelihood đóng vai trò quan trọng trong việc đánh giá hiệu suất của mô hình GMM, vì nó giúp tối ưu hóa mô hình và cải thiện sự phù hợp của các tham số với dữ liệu Một hàm log-likelihood lớn cho thấy mô hình GMMs phù hợp hơn với bộ dữ liệu.
Như vậy, khi đánh giá một mô hình phân phối chuẩn hỗn hợp, hàm log-likelihood có thể được sử dụng cho các mục đích sau:
Mô hình GMMs được đánh giá thông qua chỉ số log-likelihood, phản ánh mức độ phù hợp của chúng với dữ liệu quan sát Giá trị log-likelihood cao cho thấy mô hình phù hợp tốt hơn với dữ liệu Nhờ đó, log-likelihood trở thành công cụ hữu ích để so sánh hiệu suất giữa các mô hình GMMs khác nhau, giúp lựa chọn mô hình tối ưu cho dữ liệu hiện có.
Để lựa chọn số lượng thành phần tối ưu cho mô hình GMMs, log-likelihood có thể được sử dụng như một công cụ đánh giá Bằng cách phân tích giá trị log-likelihood của các mô hình với số lượng thành phần khác nhau, chúng ta có thể xác định số lượng thành phần phù hợp nhất với dữ liệu Thông thường, log-likelihood sẽ tăng khi số lượng thành phần gia tăng, nhưng mức tăng này sẽ chậm lại hoặc không đáng kể khi số lượng thành phần đạt đến giới hạn hợp lý.
Đánh giá sự học tập và tiến triển của mô hình GMMs có thể thực hiện thông qua log-likelihood Bằng cách theo dõi giá trị log-likelihood qua từng vòng lặp của thuật toán, chúng ta có thể xác định sự cải thiện của mô hình theo thời gian Nếu giá trị log-likelihood tăng dần và ổn định, điều này cho thấy mô hình đang học tập và cải thiện một cách đáng kể.
Mặc dù log-likelihood là một chỉ số quan trọng trong việc đánh giá mô hình GMMs và phân cụm dựa trên mô hình thống kê, nhưng vẫn có một số hạn chế cần được xem xét.
Tính toán log-likelihood trong mô hình GMMs yêu cầu xác định xác suất đồng thời cho từng điểm dữ liệu dựa trên tất cả các thành phần Khi số lượng điểm dữ liệu và thành phần tăng lên, quá trình này có thể trở nên phức tạp và tốn nhiều thời gian.
Log-likelihood không cung cấp thông tin về số lượng thành phần tối ưu cho mô hình GMMs, yêu cầu người dùng xác định số lượng này thông qua việc chạy nhiều mô hình khác nhau Mặc dù đánh giá hàm log-likelihood là phương pháp nhanh chóng và dễ thực hiện cho các mô hình phân phối chuẩn hỗn hợp, nhưng nó cũng có những hạn chế Do đó, việc sử dụng hàm log-likelihood cần được kết hợp với các phép đo và phân tích khác để có đánh giá toàn diện về mô hình GMMs.
5.5.2 Đánh giá mức độ phân cụm của mô hình
Mô hình phân phối chuẩn hỗn hợp (GMM) được áp dụng để phân cụm dữ liệu thành các nhóm khác nhau, do đó việc đánh giá chất lượng phân cụm là rất quan trọng Các chỉ số như chỉ số Silhouette và độ chính xác Rand thường được sử dụng để đánh giá mức độ phân cụm Trong đó, chỉ số Silhouette là phương pháp phổ biến hơn, giúp đo lường độ tách biệt và đồng nhất giữa các cụm trong mô hình GMM.
Chỉ số Silhouette là một công cụ quan trọng trong Machine Learning để đánh giá độ phân cụm Nó đo lường mức độ tách biệt giữa các cụm và độ tương tự của các điểm dữ liệu trong cùng một cụm Giá trị Silhouette Score dao động từ -1 đến 1; giá trị gần 1 cho thấy độ tách biệt tốt giữa các cụm, trong khi giá trị gần 0 chỉ ra sự tách biệt không rõ rệt, và giá trị gần -1 cho thấy các điểm dữ liệu được phân loại vào các cụm không phù hợp Để tính toán chỉ số này cho mỗi điểm dữ liệu, cần xác định hai giá trị cơ bản.
• Giá trị trung bình khoảng cách giữa các điểm dữ liệu i và tất cả các điểm dữ liệu trong cùng một cụm.
• Trung bình khoảng cách giữa điểm dữ liệu i và tất cả các điểm dữ liệu trong cụm gần nhất với điểm dữ liệu i.
Sau đó ta tính độ tương tự Silhouette bằng công thức:
Để tính toán độ tương đồng Silhouette cho toàn bộ tập dữ liệu, ta cần lấy trung bình của tất cả các giá trị độ tương đồng Silhouette của các điểm dữ liệu, được xác định bởi công thức Silhouette(i) = b(i)−a(i) / max(a(i), b(i)).
5.5.3 Đánh giá số lượng cụm của mô hình
Một thách thức lớn mà các thuật toán phân cụm phải đối mặt là xác định số lượng cụm tối ưu cho bộ dữ liệu Mặc dù trong một số trường hợp việc này có thể đơn giản, nhưng thường thì việc chọn số cụm lại trở nên khó khăn, đặc biệt khi dữ liệu không rõ ràng và không có thông tin về cách mà dữ liệu được hình thành.
Giả sử chúng ta đang xem xét một tình huống cụ thể và muốn biết có bao nhiêu cụm có thể được hình thành, hay nói cách khác, có bao nhiêu thành phần phân phối chuẩn đã tạo ra dữ liệu này.
Thoạt nhìn thông qua đồ thị, ta sẽ nghĩ ngay tới "ba cụm chính và hai cụm nhỏ".
Có thể điều này đúng nhưng thứ mà ta muốn là một phương pháp có thể tự động tìm
Bộ dữ liệu mô phỏng trong Hình 5.11 cho thấy số lượng cụm "đúng" mà chúng ta muốn phân cụm Khái niệm "đúng" ở đây là tương đối, vì mỗi vấn đề cụ thể có thể dẫn đến các quyết định và thuật toán khác nhau.
Chia tỷ lệ đa chiều 75
Giới thiệu
6.1.1 Giới thiệu về chia tỷ lệ đa chiều (Multidimensional Scaling)
Một mục tiêu chính của phân tích dữ liệu đa biến là giảm số chiều, với Phân tích yếu tố và Phân tích thành phần chính là những công cụ phổ biến cho dữ liệu trong tọa độ Euclide Trong nhiều ngành khoa học áp dụng, dữ liệu thường được ghi lại dưới dạng thông tin xếp hạng, như trong marketing, nơi người tiêu dùng có thể đánh giá "sản phẩm A tốt hơn sản phẩm B" Do đó, các quan sát có số chiều cao thường chứa thông tin tương đối, liên quan đến một tiêu chuẩn cụ thể, thay vì các tọa độ tuyệt đối, cho phép áp dụng các kỹ thuật đa biến đã đề cập.
Chia tỷ lệ đa chiều (MDS) là một phương pháp phân tích dựa trên sự gần gũi giữa các đối tượng để tạo ra biểu diễn không gian của chúng Phương pháp này giúp thể hiện sự tương đồng hoặc khác biệt giữa các dữ liệu, nhằm giảm số chiều xuống mức thấp hơn, thường là 2 chiều, nhưng vẫn phản ánh cấu hình tương đối của các đối tượng có số chiều cao MDS có thể được áp dụng để khám phá mẫu dữ liệu, phân tích sự tương tự giữa sản phẩm hoặc dịch vụ, cũng như nghiên cứu các tương tác giữa người dùng trên các nền tảng trực tuyến và hiểu rõ hơn về các mối quan hệ địa lý.
Có hai loại Chia tỷ lệ đa chiều: Chia tỷ lệ đa chiều dựa trên độ đo (Metric MDS) và Chia tỷ lệ đa chiều phi độ đo (Non-metric MDS) Trong Metric MDS, khoảng cách trên bản đồ được giữ nguyên, phản ánh chính xác khoảng cách giữa các điểm Ngược lại, trong Non-metric MDS, khoảng cách trên bản đồ không được giữ nguyên, mà chỉ thể hiện thứ tự khoảng cách giữa các điểm.
Hình 6.1: Bản đồ tỷ lệ đa chiều (MDS) của 36 tính từ biểu thị cảm xúc
Chia tỷ lệ đa chiều số liệu (Metric multidimensional scaling) liên quan đến việc biểu diễn dữ liệu trong tọa độ Euclide thông qua phân tích phổ phù hợp của ma trận khoảng cách Tuy nhiên, giải pháp này có thể dẫn đến sự mâu thuẫn với thứ hạng của các quan sát ban đầu Để khắc phục vấn đề này, Chia tỷ lệ đa chiều phi số liệu (Non-metric multidimensional scaling) sử dụng quy trình lặp lại giữa thuật toán hóa đơn điệu và chiếu bình phương tối thiểu Chương này cung cấp ví dụ về việc tái tạo bản đồ từ ma trận khoảng cách, đồng thời khám phá các vấn đề marketing như thứ hạng của các loại xe ô tô.
6.1.2 Ý nghĩa của chia tỷ lệ đa chiều trong phân tích dữ liệu
Phân tích đa chiều (Multidimensional Scaling) có ý nghĩa quan trọng trong phân tích dữ liệu từ nhiều khía cạnh:
Biểu diễn dữ liệu đa chiều cho phép hình dung thông tin trong không gian hai hoặc ba chiều, giúp người dùng dễ dàng hiểu mối quan hệ giữa các đối tượng và biến số Phương pháp này tạo ra hình ảnh trực quan, dễ nhìn, từ đó làm rõ sự phân bố và tương quan giữa các điểm dữ liệu.
Khám phá mẫu và nhóm là một phương pháp quan trọng trong việc phân tích dữ liệu, giúp nhận diện các cụm và mẫu tiềm ẩn Bằng cách biểu diễn dữ liệu trong không gian hai hoặc ba chiều, chúng ta có thể dễ dàng quan sát các nhóm mà có thể không rõ ràng khi dữ liệu được trình bày trong không gian nhiều chiều ban đầu.
MDS là một công cụ mạnh mẽ giúp phân tích sự tương đồng và khác biệt giữa các đối tượng dựa trên thuộc tính hoặc đặc trưng của chúng Bằng cách đo lường khoảng cách hoặc đánh giá mức độ tương tự giữa các điểm dữ liệu, MDS cho phép người dùng so sánh, xếp hạng và phân loại các đối tượng một cách hiệu quả dựa trên mức độ tương đồng hoặc khác biệt.
Hỗ trợ quyết định thông minh bằng cách cung cấp thông tin hữu ích và biểu diễn dữ liệu qua biểu đồ hoặc bản đồ, giúp người dùng hiểu rõ cấu trúc dữ liệu và mối tương tác giữa các đối tượng Điều này đặc biệt hữu ích trong các lĩnh vực như marketing, địa lý, phân tích xã hội và quản lý dự án, góp phần nâng cao hiệu quả trong quá trình ra quyết định.
Chia tỷ lệ đa chiều là một công cụ mạnh mẽ giúp khám phá và phân tích dữ liệu từ nhiều góc độ khác nhau, từ đó hỗ trợ việc đưa ra những quyết định thông minh dựa trên thông tin đã được trích xuất Với các ứng dụng và ưu điểm nổi bật, nó trở thành một giải pháp hữu ích cho việc hiểu sâu hơn về dữ liệu.
Một số khái niệm trong chia tỷ lệ đa chiều
6.2.1 Khoảng cách và tương đồng
Khoảng cách là một chỉ số đo lường độ dài hoặc sự tách biệt giữa hai điểm trong không gian, giúp xác định mức độ phân biệt giữa các đối tượng Thông qua đó, khoảng cách cung cấp cơ sở cho việc so sánh và phân loại các đối tượng trong các bài toán phân tích dữ liệu.
Có nhiều loại khoảng cách khác nhau được sử dụng tùy thuộc vào loại dữ liệu và bài toán cụ thể Một số ví dụ phổ biến về khoảng cách bao gồm khoảng cách Euclid, khoảng cách Manhattan và khoảng cách Cosine Mỗi loại khoảng cách có những ứng dụng riêng trong phân tích dữ liệu và học máy, giúp tối ưu hóa kết quả cho từng bài toán cụ thể.
• Khoảng cách Euclide: Là khoảng cách đo bằng đoạn thẳng giữa hai điểm trong không gian Euclidean (không gian hai chiều hoặc nhiều chiều).
Khoảng cách Manhattan là tổng các khoảng cách giữa các cặp đối tượng trong không gian hai chiều hoặc nhiều chiều Độ tương đồng, hay độ tương tự, là một giá trị số đo lường mức độ giống nhau giữa hai đối tượng; giá trị càng cao cho thấy hai đối tượng càng tương đồng Thông thường, độ tương đồng là nghịch đảo của khoảng cách: khi khoảng cách tăng, độ tương đồng giảm và ngược lại Độ tương đồng thường được áp dụng trong các bài toán so sánh, gom nhóm và xếp hạng Ví dụ, độ tương đồng cosine đo lường mức độ tương tự hướng của hai vector, với giá trị gần 1 thể hiện sự tương đồng, gần -1 thể hiện sự tương phản, và gần 0 cho thấy chúng vuông góc nhau.
Việc lựa chọn phương pháp khoảng cách và độ tương đồng cần căn cứ vào loại dữ liệu và mục tiêu của bài toán Một phép đo lường hiệu quả sẽ hỗ trợ trong việc hiểu và phân tích dữ liệu, từ đó giúp áp dụng các phương pháp phân tích dữ liệu phù hợp.
Phương pháp đo lường khoảng cách và độ tương đồng là yếu tố quan trọng trong việc xác định mức độ tách biệt hoặc tương tự giữa các điểm và đối tượng trong dữ liệu Dưới đây là một số phương pháp phổ biến để thực hiện việc này.
6.2.2 Phương pháp đo lường khoảng cách và tương đồng
Phương pháp đo lường khoảng cách a Khoảng cách Euclidean:
Phương pháp này dựa trên định lý Pythagoras trong không gian Euclidean.
Cho hai điểm A(x 1 , y 1 ) và B(x 2 , y 2 ) trong không gian hai chiều, khoảng cách Eu- clidean giữa chúng là: d(A, B) = q (x 2 −x 1 ) 2 + (y 2 −y 1 ) 2
Trong không gian nhiều chiều, khoảng cách Euclidean được mở rộng thành: d(A, B) = q (x 2 −x 1 ) 2 + (y 2 −y 1 ) 2 + .+ (z n −z m ) 2 b Khoảng cách Manhattan:
Còn được gọi là khoảng cách cung đường, là tổng của khoảng cách giữa các điểm theo mỗi chiều Trong không gian hai chiều: d(A, B) =|x 2 −x 1 |+|y 2 −y 1 |
Trong không gian nhiều chiều: d(A, B) =|x 2 −x 1 |+|y 2 −y 1 |+ .+|z n −z m | c Khoảng cách Cosine:
Phương pháp này đo lường góc giữa hai vector trong không gian đa chiều thông qua khoảng cách cosine Đối với hai vector A và B, khoảng cách cosine được tính bằng công thức: d(A, B) = 1 - (A · B) / (||A|| * ||B||), trong đó A · B là tích vô hướng của hai vector, và ||A|| và ||B|| là độ dài của từng vector.
Phương pháp đo lường độ tương đồng Cosine là một kỹ thuật đã được đề cập trước đó, dùng để xác định mức độ tương đồng hướng giữa hai vector trong không gian đa chiều.
Giá trị độ tương đồng cosine dao động từ -1 đến 1, trong đó 1 chỉ ra rằng hai vector có cùng hướng, 0 cho thấy chúng vuông góc với nhau, và -1 biểu thị hai vector đối diện Hệ số tương quan Pearson cũng là một chỉ số quan trọng trong việc đo lường mối quan hệ giữa các biến.
Phương pháp này đo lường mức độ tương quan tuyến tính giữa hai biến.
Hệ số tương quan Pearson được xác định bằng tỉ lệ giữa hiệp phương sai của hai biến và tích của độ lệch chuẩn của từng biến Bên cạnh đó, hệ số tương quan Spearman cũng là một phương pháp quan trọng trong phân tích mối quan hệ giữa các biến.
Tương tự như tương quan Pearson, nhưng thay vì sử dụng giá trị ban đầu của dữ liệu, nó sử dụng hạng (vị trí) của các giá trị.
Mỗi phương pháp đo lường khoảng cách và độ tương đồng đều có những ưu điểm và hạn chế riêng Việc lựa chọn phương pháp phù hợp phụ thuộc vào loại dữ liệu, mục tiêu nghiên cứu cũng như bài toán cụ thể mà bạn đang làm việc.
6.2.3 Phương pháp biểu diễn đối tượng trong không gian đa chiều
Phương pháp biểu diễn đối tượng trong không gian đa chiều rất quan trọng để hiển thị dữ liệu có nhiều chiều dưới dạng các điểm trong không gian thấp hơn, thường là 2 hoặc 3 chiều Cách tiếp cận này giúp chúng ta hình dung rõ ràng hơn về mối quan hệ, sự tương đồng và sự tách biệt giữa các đối tượng.
Dưới đây là một số phương pháp phổ biến để biểu diễn đối tượng trong không gian đa chiều:
Phương pháp Giảm chiều dữ liệu Đa chiều (MDS) sẽ được khám phá chi tiết trong bài viết này MDS giúp giảm số chiều của dữ liệu từ không gian có nhiều chiều xuống không gian có ít chiều hơn, thường là 2 hoặc 3 chiều Mục tiêu của MDS là duy trì các khoảng cách hoặc độ tương đồng giữa các điểm trong không gian thấp nhất có thể, so với dữ liệu gốc.
Phân tích thành phần chính (PCA) là phương pháp tìm kiếm các trục chính trong không gian dữ liệu, đại diện cho các hướng có phương sai lớn nhất Các trục này được sắp xếp theo độ giảm dần của phương sai, cho phép giữ lại những trục chính quan trọng để biểu diễn dữ liệu trong không gian chiều thấp hơn Trong khi đó, t-Distributed Stochastic Neighbor Embedding (t-SNE) là một kỹ thuật hiệu quả trong việc giảm số chiều của dữ liệu cao xuống không gian 2 hoặc 3 chiều, giúp trực quan hóa dữ liệu một cách dễ dàng hơn.
t-SNE là một phương pháp mạnh mẽ giúp duy trì cấu trúc tương đồng giữa các điểm trong không gian cao chiều và không gian thấp chiều Phương pháp này chú trọng vào việc giữ nguyên khoảng cách giữa các điểm tương đồng, từ đó tạo ra các cụm dữ liệu tương tự gần nhau trong không gian thấp chiều.
Isomap là một phương pháp biểu diễn dữ liệu dựa trên đồ thị, nhằm bảo toàn các khoảng cách geodesic giữa các điểm Phương pháp này xây dựng một đồ thị từ dữ liệu và áp dụng thuật toán tối ưu hóa để duy trì các khoảng cách geodesic trong không gian có chiều thấp hơn.
Các loại chia tỷ lệ đa chiều (MDS)
6.3.1 Chia tỷ lệ đa chiều cổ điển (Classical Multidimensional Scaling)
Phương pháp Phân tích tọa độ chính (Principal Coordinates Analysis), còn gọi là chia tỷ lệ Torgerson hoặc Torgerson-Gower, sử dụng một ma trận đầu vào để tính toán sự khác biệt giữa các cặp dữ liệu Kết quả của phương pháp này là một ma trận tọa độ với cấu hình tối thiểu, nhằm tối ưu hóa hàm mất mát được gọi là độ giãn (strain).
Trong không gian N chiều, các vectơ được ký hiệu là x i, trong đó tích vô hướng giữa các vectơ x i và x j được biểu thị là x T i x j Các phần tử b ij của ma trận b được xác định ở bước 2 của thuật toán, và được tính toán dựa trên các khoảng cách.
Các bước của thuật toán MDS cổ điển như sau:
1 Thiết lập ma trận tiệm cận bình phương D 2 từ ma trận tương lân cận D, trong đó D 2 = [d 2 ij ].
2 Áp dụng trung tõm kộp (double centering) để tớnh ma trận B=− 1 2 ãCãD 2 ãC, trong đú C=I− n 1 ãJ n , n là số lượng đối tượng, I là ma trận đơn vị kớch thước nìn vàJ n là ma trận toàn số kích thước n×n.
3 Tìm ramlớn nhất giá trị riêngλ 1 , λ 2 , , λ m và các vector riêng tương ứnge 1 , e 2 , , e m của ma trận B, ở đây m là số chiều mong muốn cho kết quả đầu ra.
4 Xõy dựng ma trận X từ cỏc giỏ trị riờng và vector riờng đó tỡm được:X= E m ãΛ 1 / 2 m , trong đó E m là ma trận các vector riêng kích thước m×m và Λ m là ma trận đường chéo của m giá trị riêng của ma trận B.
MDS cổ điển giả định khoảng cách Euclide, vì vậy không áp dụng được cho các đánh giá không giống nhau trực tiếp.
6.3.2 Chia tỷ lệ đa chiều số liệu (Metric Multidimensional Scaling)
Chia tỷ lệ đa chiều số liệu (Metric Multidimensional Scaling) là một phương pháp phân tích dữ liệu giúp biểu diễn các đối tượng trong không gian chiều thấp Kỹ thuật này đảm bảo rằng khoảng cách giữa các đối tượng trong không gian thấp vẫn được bảo tồn, tương tự như trong không gian cao chiều, với mục tiêu giữ nguyên độ tương đồng giữa các điểm dữ liệu ban đầu.
Mục tiêu của phương pháp này là xác định một cấu hình các điểm trong không gian p chiều dựa trên khoảng cách giữa chúng, nhằm tạo ra một ma trận khoảng cách Euclide gần nhất với ma trận D đã cho.
Phương pháp này là một phần của Chia tỷ lệ đa chiều cổ điển, mở rộng quy trình tối ưu hóa cho nhiều hàm mất mát và ma trận đầu vào với khoảng cách đã biết, có trọng số và các yếu tố khác Trong ngữ cảnh này, một hàm mất mát quan trọng được gọi là “stress”, thường được tối thiểu hóa thông qua quy trình “stress majorization” Chia tỷ lệ đa chiều nhằm tối thiểu hóa hàm mất mát “stress”, là tổng bình phương sai số còn lại.
Chia tỷ lệ đa chiều số liệu sử dụng phép biến đổi mũ với tham số điều khiển p, bao gồm d p ij và −d 2p ij cho khoảng cách Trong phép biến đổi cổ điển, p được đặt là 1 Phương pháp này được xác định thông qua hồi quy isotonic để ước tính phi tham số cho các sự không tương đồng.
Trong thực tế, các giá trị λ i thường không bằng không Để biểu diễn các đối tượng trong không gian với số chiều tối thiểu, chúng ta có thể điều chỉnh ma trận khoảng cách.
Với d ∗ ij = 0 ,nếu i =j d ∗ ij ≥ d ij +e ,nếu i 6=j trong đó e được xác định sao cho ma trận tích bên trong B trở thành nửa xác định dương với một thứ hạng nhỏ.
Chia tỷ lệ đa chiều sử dụng ma trận đối xứng vuông là một phương pháp hiệu quả để phân tích dữ liệu Ví dụ, khi xem xét một tập hợp các thành phố ở Florida, ta có thể tính toán khoảng cách giữa chúng để hiểu rõ hơn về mối quan hệ không gian Việc áp dụng kỹ thuật này giúp tối ưu hóa việc phân tích và trực quan hóa dữ liệu địa lý.
Việc chia tỷ lệ tạo ra một biểu đồ giống như hình bên dưới :
Gán điểm vào các tọa độ trong không gian n chiều, bao gồm không gian 2 chiều, 3 chiều và các không gian cao hơn, mặc dù việc mô hình hóa không gian 4 chiều trở lên rất phức tạp Hướng của các trục tọa độ là tùy thuộc vào sự lựa chọn của nhà nghiên cứu, trong đó các trục biểu thị hướng Bắc/Nam và Đông/Tây là lựa chọn hợp lý cho các bản đồ đơn giản.
Khoảng cách Euclide giữa các cặp điểm được tính bằng định lý Pythagoras, với công thức c² = a² + b² Khoảng cách này thể hiện khoảng cách thẳng giữa hai điểm x và y trong không gian Euclide Tuy nhiên, việc tính toán trở nên phức tạp hơn khi áp dụng cho các không gian có chiều cao hơn, dẫn đến việc hình thành ma trận tương đồng.
Để so sánh ma trận tương đồng với ma trận đầu vào ban đầu, cần đánh giá hàm 'stress', một chỉ số đo lường sự phù hợp dựa trên sự khác biệt giữa khoảng cách dự đoán và khoảng cách thực tế Trong bài báo MDS năm 1964, Kruskal chỉ ra rằng các mô hình có giá trị gần bằng không là rất tốt, trong khi bất kỳ giá trị nào trên 0.2 nên được xem là "kém" Các tác giả gần đây đã đề xuất việc đánh giá chỉ số 'stress' dựa trên chất lượng của ma trận khoảng cách và số lượng đối tượng có trong ma trận đó.
• Điều chỉnh các tọa độ, nếu cần, để làm “stress”.
6.3.3 Chia tỷ lệ đa chiều phi số liệu (Non-metric Multidimensional
Mục đích của chia tỷ lệ đa chiều phi số liệu là xác định tọa độ của các điểm trong không gian p chiều, nhằm đạt được sự tương thích tốt giữa các sự tương đồng quan sát và khoảng cách giữa các điểm Sự phát triển của phương pháp này được thúc đẩy bởi hai điểm yếu chính trong đa chiều đo lường.
Trái ngược với việc chia tỷ lệ đa chiều số liệu, phi số liệu tìm kiếm mối quan hệ không tham số đồng biến giữa các sự khác biệt trong ma trận và khoảng cách Euclide giữa các mục, cùng với vị trí của từng mục trong không gian thấp chiều Mối quan hệ này thường được xác định thông qua hồi quy isolotic, trong đó giả sử x là vector các độ gần gũi, f(x) là biến đổi đồng biến của x, và d là các khoảng cách giữa các điểm Mục tiêu là tìm tọa độ nhằm tối thiểu hóa "stress".
Có một số biến thể của hàm chi phí này Các chương trình MDS tự động tối thiểu hóa stress để có được giải pháp MDS.
Một số ứng dụng của Chia tỷ lệ đa chiều (Multidimensional Scaling 90 Chương 7 Thuật toán phân cụm Meanshift 92
Phân cụm (Clustering) là một ứng dụng quan trọng của MDS, cho phép biểu diễn dữ liệu trong không gian chiều thấp, giúp các đối tượng trong cùng một cụm gần nhau hơn Khi dữ liệu ban đầu thiếu thông tin về phân cụm, MDS hỗ trợ phát hiện và hiểu rõ cấu trúc cũng như sự tương đồng giữa các cụm dữ liệu, từ đó cải thiện khả năng phân tích và ra quyết định.
Trong tiếp thị và nghiên cứu thị trường, bản đồ nhận thức (Perceptual Mapping) là công cụ quan trọng giúp hiểu cách người tiêu dùng đánh giá và tương tác với sản phẩm hoặc thương hiệu Phương pháp MDS cho phép biểu diễn các sản phẩm hoặc thương hiệu trong không gian chiều thấp, từ đó phản ánh một cách trực quan sự tương đồng và khác biệt giữa chúng.
Phân tích tương tác là một ứng dụng quan trọng của MDS, cho phép chúng ta khám phá mối quan hệ giữa các đối tượng trong không gian đa chiều Trong mạng xã hội, MDS giúp biểu diễn người dùng và các mối quan hệ của họ dưới dạng điểm trong không gian chiều thấp Điều này cung cấp cái nhìn trực quan về các cộng đồng, nhóm tương tác và mức độ tương tác giữa các cá nhân.
Phân tích đánh giá và thứ hạng là một ứng dụng quan trọng của MDS, cho phép hiểu rõ sự ưu tiên và xếp hạng của các đối tượng trong không gian chiều thấp Cụ thể, trong lĩnh vực phân tích xếp hạng sản phẩm, MDS giúp chúng ta nhận diện các tiêu chí mà người tiêu dùng sử dụng để đánh giá và phân loại sản phẩm, từ đó cải thiện chiến lược marketing và phát triển sản phẩm hiệu quả hơn.
MDS (Multidimensional Scaling) có nhiều ứng dụng đa dạng không chỉ trong các lĩnh vực đã đề cập Phương pháp này có thể được áp dụng rộng rãi trong sinh học, y học, xã hội học, và nhiều lĩnh vực nghiên cứu dữ liệu khác, mở ra cơ hội cho việc phân tích và trực quan hóa dữ liệu phức tạp.
Thuật toán phân cụm Meanshift
Thuật toán Mean-Shift clustering
• Với x là một vector thuộc không gian d chiều (x∈R d ) thì: kxk= q P d i=1 x 2 i
• S là miền xác định của tập dữ liệu (S ⊂ R d với d là số chiều của dữ liệu).
7.1.2 Kernel density estimator (KDE) Động lực
Giả sử có một tập dữ liệu rời rạc hữu hạn được sinh ra từ một phân bố nhất định, phương pháp ước lượng mật độ hạt (kernel density estimator - KDE) là một kỹ thuật không tham số, được áp dụng để ước lượng hàm phân bố xác suất (probability density function) đã tạo ra tập dữ liệu này.
Hàm K(~x) : S → R được gọi là một kernel khi và chỉ khi tồn tại một hàm k :
• R 0 +∞ k(x)dx 0 và điều kiện dừng ε > 0.
• If k∇f (u i )k< : trả về u i và dừng thuật toán;
Tốc độ học α trong thuật toán gradient descent quyết định độ dài bước đi theo hướng gradient Việc chọn giá trị α rất quan trọng; nếu quá nhỏ, thuật toán sẽ mất nhiều thời gian để chạy, trong khi nếu quá lớn, có thể không hội tụ đến cực trị mong muốn Do đó, các phiên bản cải tiến của gradient descent cho phép điều chỉnh tốc độ học theo từng bước để tối ưu hóa quá trình tìm kiếm cực trị.
7.1.4 Thuật toán Mean-Shift clustering
Thuật toán Mean-Shift clustering, được phát triển bởi Fukunaga và Hostetler vào năm 1975, đã trở thành một công cụ quan trọng trong nhiều lĩnh vực Thuật toán này và các phiên bản cải tiến của nó thường được áp dụng trong phân cụm dữ liệu, phân mảng hình ảnh và dò theo đối tượng hình ảnh.
Mean-Shift clustering is a type of clustering algorithm that employs a multiple restart gradient ascent method to move data points towards the local maxima of the Kernel Density Estimation (KDE) function, identifying high-density clusters During each mean shift step, the KDE function is updated, allowing gradient ascent to calculate the new positions of each data point When the algorithm converges, each data point is assigned to a specific cluster.
Khác với thuật toán phân cụm k-means phổ biến, Mean-Shift clustering không cần phải xác định trước số lượng cụm Số lượng cụm sẽ được thuật toán tự động xác định dựa trên dữ liệu đầu vào.
Các bước trong thuật toán Mean-Shift clustering
Cho Q ⊂ S là một tập hữu hạn dữ liệu xung quanh điểm x với hàm kernel K Giá trị trung bình có trọng số tại điểm x được xác định bởi công thức m(x) = P x i ⊂Q K(x i −x)x i.
Thuật toán Mean-Shift sử dụng vector dịch chuyển trung bình v, được định nghĩa là m(x)−x, để chỉ mỗi điểm về hướng cụm có mật độ cao Quá trình này diễn ra bằng cách gán x ←m(x) và lặp lại cho đến khi đạt được sự hội tụ Do đó, thuật toán Mean-Shift bao gồm hai bước chính trong quy trình của nó.
1 Tính toán và dịch chuyển điểm x t i tới vị trí mới x t+1 i
2 Tính toán mean shift vector v(x t i ).
3 Lặp lại 2 bước trên cho tới khi x t+1 i gần như hội tụ (tương ứng với v nhỏ).
• Clustering: Xếp các điểm dữ liệu vào các cụm thích hợp. Ý nghĩa toán học của bước mean shift
Quá trình mean shift là phương pháp sử dụng gradient ascent để xác định các cực trị địa phương của hàm KDE Hàm KDE được định nghĩa bằng công thức f K (x, Q) = 1 n n.
Trong đó, h là tham số bandwidth chỉ bán kính của kernel và hàm K(x) được định nghĩa như sau:
Hàm K(x) được định nghĩa là K(x) = cãk kxk^2, trong đó c là hằng số chuẩn hóa và k là hàm kernel Hằng số chuẩn hóa có vai trò quan trọng trong việc biến đổi bất kỳ hàm xác suất nào thành hàm mật độ xác suất với tổng xác suất bằng 1 Khi thay thế (7.4) vào (7.3), hàm dự đoán mật độ sẽ được biểu diễn dưới dạng f k (x, Q) = c n n.
Hàm dự đoán mật độ gradient có được bằng cách lấy gradient của hàm (7.5):
Vị trí tiếp theo mà điểm x được dịch chuyển tới tương tự như trong thuật toán gradient ascent, với tốc độ học phụ thuộc vào vị trí của điểm x Khi điểm x ở vùng có giá trị mật độ thấp, vector mean shift sẽ lớn hơn, giúp điểm x nhanh chóng đến các cực đại địa phương Ngược lại, khi gần cực đại địa phương, vector mean shift sẽ nhỏ lại để giữ điểm x trong vùng đó Quá trình mean shift sử dụng thuật toán multiple restart gradient ascent để đưa mỗi điểm về đúng cụm.
Bandwidth của kernel là một yếu tố quan trọng ảnh hưởng đến kết quả ước tính trong phân tích dữ liệu Việc lựa chọn bandwidth phù hợp sẽ quyết định hình dạng của bề mặt KDE và kết quả phân cụm Bandwidth quá nhỏ dẫn đến mỗi điểm dữ liệu tạo thành một cụm riêng, trong khi bandwidth quá lớn khiến tất cả các điểm bị gom lại thành một cụm duy nhất Sự lựa chọn bandwidth ở giữa hai cực này sẽ tạo ra các phân nhóm rõ ràng và chính xác hơn Ví dụ, khi lấy mẫu từ phân phối chuẩn trong không gian một chiều, đường cong mật độ thực có giá trị trung bình là 0 và phương sai 1 Đường cong màu đỏ thể hiện hiện tượng undersmoothed với bandwidth h = 0.05, trong khi đường cong màu xanh lá cây thể hiện oversmoothed với bandwidth h = 2 Đường cong màu đen với bandwidth h = 0.337 được xem là tối ưu vì nó gần với mật độ thực.
Có nhiều cách đánh giá độ tốt của bandwidth, cách phổ biến nhất là sử dụng hàm mất mát L 2 (còn gọi là MISE - mean integrated squared error).
Kết luận
The mean shift clustering method is grounded in the mathematical principles of kernel density estimation and gradient ascent, showcasing various advantages and disadvantages demonstrated in the examples provided above Its key benefits include adaptability to different data distributions and the ability to identify clusters of varying shapes without requiring prior knowledge of the number of clusters.
Thuật toán K-means không dựa vào một số giả định như yêu cầu rằng số lượng điểm trong mỗi cụm phải gần bằng nhau, hay cần biết trước số lượng cụm cần tìm và hình dạng của các cụm.
• Chỉ phụ thuộc một siêu tham số là bandwidth.
Xử lý các điểm dữ liệu ngoại lai hiệu quả hơn so với thuật toán K-means, bởi vì các cụm có số điểm ít có thể được coi là những điểm ngoại lai.
Khi xử lý một lượng lớn điểm dữ liệu từ không gian nhiều chiều, việc áp dụng Gradient Ascent cho toàn bộ dữ liệu cùng một lúc sẽ dẫn đến độ phức tạp tính toán cao.
Để xác định số phân cụm cụ thể trong thuật toán mean shift, việc tìm ra giá trị bandwidth và kernel phù hợp là rất quan trọng Tuy nhiên, xác định giá trị bandwidth tốt nhất thường gặp khó khăn trong thực tế, làm cho việc tìm ra giá trị này cho từng trường hợp cụ thể trở thành một thách thức không nhỏ.
Phân công và đánh giá công việc
• Nhóm trưởng Vũ Đình Bách: Lập kế hoạch, phân chia công việc, làm phần 7
Phương pháp phân cụm Meanshift.
• Thành viên Hà Sỹ Bách: Làm phần 4 Phân cụm không phân cấp.
• Thành viên Trần Mạnh Dũng: Làm phần 5 Phân cụm theo mô hình thống kê.
• Thành viên Vương Tuấn Kiệt: Làm phần 2 Phép đo độ tương đồng.
• Thành viên Nguyễn Minh Phi: Làm phần 3 Phân cụm phân cấp.
• Thành viên Phan Anh Quốc: Làm phần 6 Chia tỷ lệ đa chiều.
• Thành viên Dương Thái Huy: Làm phần 1 Mở đầu và phần 3 Phân cụm phân cấp Làm báo cáo tổng hợp.
• Tất cả mọi thành viên đều tham gia làm báo cáo và Slide. Đánh giá quá trình làm việc
Vũ Đình Bách: tham gia họp đầy đủ, hoàn thành các nhiệm vụ được giao, hoàn thành nhiệm vụ đúng hạn, nhiệt tình và có trách nhiệm.
Trần Mạnh Dũng: tham gia họp đầy đủ, hoàn thành các nhiệm vụ được giao, hoàn thành nhiệm vụ đúng hạn, nhiệt tình và có trách nhiệm.
Hà Sỹ Bách: tham gia họp đầy đủ, hoàn thành các nhiệm vụ được giao, hoàn thành nhiệm vụ đúng hạn, nhiệt tình và có trách nhiệm.
Vương Tuấn Kiệt: tham gia họp tương đối đầy đủ, hoàn thành các nhiệm vụ được giao, hoàn thành nhiệm vụ đúng hạn, có trách nhiệm.
Nguyễn Minh Phi: tham gia họp tương đối đầy đủ, hoàn thành các nhiệm vụ được giao, hoàn thành nhiệm vụ đúng hạn, có trách nhiệm.
Phan Anh Quốc: không tham gia họp, có hoàn thành các nhiệm vụ được giao, hoàn thành nhiệm vụ trễ hạn.
Dương Thái Huy: tham gia họp đầy đủ, hoàn thành các nhiệm vụ được giao, hoàn thành nhiệm vụ đúng hạn, nhiệt tình và có trách nhiệm.
Vũ Đình Bách 20206120 +2 Trần Mạnh Dũng 20206129 +2 Dương Thái Huy 20206285 +2 Vương Tuấn Kiệt 20206152 +1 Nguyễn Minh Phi 20206296 +1.5 Phan Anh Quốc 20206163 +0.5
[1] Applied Multivariate Statistical Analysis - Richard Johnson Dean Wichern Sixth Edition
[2] Bishop, C M (2006) Pattern Recognition and Machine Learning Springer.
[3] Hastie, T., Tibshirani, R., Friedman, J (2009) The Elements of Statistical Learn- ing: Data Mining, Inference, and Prediction (2nd ed.) Springer.
[4] Murphy, K P (2012) Machine Learning: A Probabilistic Perspective MIT Press.
[5] Marc Peter Deisenroth, A Aldo Faisal, Cheng Soon Ong (2020) Mathematics for Machine Learning Cambrigde University Press.
[6] Ghassabeh, Youness Aliyari (2013) On the convergence of the mean shift algorithm in the one-dimensional space Pattern Recognition Letters, 34(12), 1423-1427.
[7] Ghassabeh, Youness Aliyari (2015) A sufficient condition for the convergence of the mean shift algorithm with Gaussian kernel Journal of Multivariate Analysis,
[8] Altman, N S (1992) An introduction to kernel and nearest-neighbor nonparamet- ric regression The American Statistician, 46(3), 175-185.
[9] Berger, Simon Silhouette of mountains.
[10] Cheng, Yizong (1995) Mean shift, mode seeking, and clustering IEEE Transac- tions on Pattern Analysis and Machine Intelligence, 17(8), 790-799.