ThuÅt toán phân căm K-means là mát ph°¢ng pháp hác không giám sát có thể xā lý hiáu quả l°āng lãn dă liáu và dă liáu th°a bằng cách nhóm toàn bá bá dă liáu thành các nhóm K khác nhau. Mô hình này sā dăng thuÅt toán phân căm K-means để phân chia các măc thành k nhóm và thąc hián t°¢ng
quan giăa các măc bằng cách giảm thiểu khoảng cách giăa các măc và trung tâm căm. Măc tiêu chính cąa giai đo¿n này trong ph°¢ng pháp là khám phá są t°¢ng quan quan tráng giăa các măc và chi tiÁt cąa giai đo¿n này đ°āc minh háa trong Bảng 1.
Để lo¿i bò chiÃu thụng tin nhiòu trong tÅp dă liỏu, mụ hỡnh sā dăng ph°Âng phỏp phõn căm để phỏt hiỏn và lo¿i bò cỏc điểm ngo¿i lỏ. Tỏc giả đó sā dăng nguyờn tắc đằng sau ý t°ỗng này rằng trong mỏt khu vąc con nhò,
ng°ồi dựng cú xu h°óng t°Âng tỏc vói nhau tỏt hÂn so vói trong toàn bỏ miÃn dă liáu [20]. Viác phân căm dă liáu giảm chiÃu cąa ma trÅn xÁp h¿ng th°a. Vì điểm ngo¿i lá không thuác và bất kỳ căm nào và các ma trÅn con đ°āc nhóm trong các căm có khả năng dày đặc h¢n so vãi ma trÅn lãn gác, ta có kỳ váng tìm thấy các t°¢ng quan tát h¢n trong các căm.
Mô hình đã ląa chán áp dăng mát hàm khoảng cách Euclidean trên toàn bá bá dă liáu cąa các măc để tìm phân vùng cąa chúng và gán các măc khác
nhau vào k căm [5]. Cho mát bá dă liáu toàn bá cąa các măc (ÿ1, ÿ2, & , ÿĄ) trong đú mòi măc đ°āc biểu diòn bỗi mỏt vector cú kớch th°óc d chiÃu, thuÅt toán phân căm k-means này chia n măc này thành k tÅp hāp (k ≤ n) þ =
{ỵ1, ỵ2, & , ỵĄ}, trong đú �㔇ÿ là giỏ trò trung bỡnh cąa cỏc điểm dă liỏu trong ỵÿ. Trong phân căm k-means, mát măc không đ°āc phép thuác và nhiÃu h¢n mát căm, xỏc đònh cỏc nhúm đỏi lÅp chộo cąa cỏc măc.
∑ ∑ ‖ąĀ 2 �㔇ÿ‖2
ýĀ∈�㕆ÿ ā
ÿ=1 (3.1)
Bảng 3.1. Phân cụm của các mục dựa trên hồ sơ của mục với thuật toán
Kmeans
Input: Hò s cąa cỏc măc và K (sỏ l°āng căm) Output: Bá căm cąa các măc
1. Chán các đặc tính cąa các măc có liên quan và cung cấp mát quá trình phân căm hiáu quả h¢n khi tính toán są t°¢ng tą giăa các măc.
2. Thąc hiỏn tiÃn xā lý dă liỏu và chuÁn húa dă liỏu hoặc giỏ trò cąa cỏc đặc tính tr°ãc khi ch¿y phân căm (dă liáu đặc tính đ°āc tÿ lá để phù hāp trong mát khoảng că thể và phù hāp cho phân tích căm).
3. Xỏc đònh sỏ l°āng căm k thớch hāp.
4. Chỏn mỏt tÅp hāp ban đ¿u cąa trung tõm căm ngÃu nhiờn để mòi căm cú mát tráng tâm.
5. Tớnh toỏn khoảng cỏch giăa mòi măc và trỏng tõm cąa căm và Gỏn mòi măc vào căm có tráng tâm g¿n nhất.
6. Tớnh toỏn l¿i vò trớ cąa K trỏng tõm cho mòi căm khi tất cả cỏc măc đó đ°āc gán vào các căm.
7. Lặp l¿i các b°ãc năm và sáu để điÃu chỉnh trung tâm căm và mćc đá thành viờn cho mòi măc cho đÁn khi khụng cú trỏng tõm nào di chuyển lõu h¢n hoặc không có măc nào thay đái căm cąa mình.
8. Trả và các căm cąa các măc trong khi các măc trong cùng mát căm có mćc đá t°¢ng tą cao.
L°u ý rằng h¿u hÁt cỏc ph°Âng phỏp phõn căm giả đònh rằng tất cả cỏc thuỏc tớnh hoặc biÁn sỏ đÃu quan trỏng nh° nhau để tớnh toỏn są t°Âng đòng giăa cỏc đỏi t°āng. Giả đònh nh°vÅy khụng đỳng vỡ cỏc thuỏc tớnh ảnh h°ỗng đÁn hiáu suất cąa quá trình phân căm: trong khi mát sá thuác tính có thể ảnh
h°ỗng tiờu cąc đÁn quỏ trỡnh phõn căm hoặc khụng cú ảnh h°ỗng gỡ đỏi vói mụ hỡnh, thỡ nhăng thuỏc tớnh khỏc cú thể quan trỏng để xỏc đònh cấu trỳc cąa vấn đÃ.
Tuy nhiờn, cỏc thuỏc tớnh khụng liờn quan, nhiòu và sỏ l°āng căm đÃu ảnh h°ỗng đÁn hiỏu suất cąa cỏc thuÅt toỏn phõn căm. Do đú, viỏc chuÁn húa và tỉ lá thuác tính là c¿n thiÁt tr°ãc khi thąc hián phân căm, sau đó, chúng ta thąc hiỏn phõn căm K-means trờn mòi đặc tr°ng cąa măc mỏt cỏch đỏc lÅp cho K căm vãi ph¿m vi tÿ 2 đÁn 10 để chán các đặc tr°ng và sá l°āng căm mang l¿i quá trình phân căm hiáu quả h¢n. Chúng ta sā dăng chỉ sá hiáu suất phân căm có tên là "silhouette" để đánh giá đá chính xác và hiáu suất cąa các căm.
Sau đó, chúng ta có thể xem xét xem bá con thuác tính và sá l°āng căm nào mang l¿i hiáu suất tát nhất. Chúng ta kÁt luÅn rằng mô hình cąa chúng ta cho kÁt quả phân căm tát nhất khi sá K bằng 4 và các măc đ°āc nhóm thành 4 căm, nh° đ°āc thể hián trong Bảng 2 d°ãi đây.
Bảng 3.2. Mẫu dữ liệu của 15 mục được nhóm vào 4 cụm
Cluster No. Cluster Set of items
Cluster 1 {Item1, Item4, Item12}
Cluster 2 {Item2, Item5, Item10, Item15}
Cluster 3 {Item3, Item6, Item8, Item14}
Cluster 4 {Item7, Item11, Item13, Item9}