GOM CỤM TRONG KHAI PHÁ DỮ LIỆUGom cụm là gì Gom cụm dữ liệu Data Clustering hay gom cụm, cũng có thể gọi là phân tíchcụm, phân tích phân đoạn, phân tích phân loại, là quá trình nhóm một
Trang 1Bài thu hoạch môn học
KHAI PHÁ DỮ LIỆU & KHO DỮ LIỆU
VĂN KHOA LỚP: CAO HỌC CNTTQM KHÓA 6
MÃ SỐ HỌC VIÊN: CH1101016
Trang 2LỜI NÓI ĐẦU
Kỹ thuật khai phá dữ liệu đã và đang được nghiên cứu, ứng dụng trong nhiềulĩnh vực khác nhau ở các nước trên thế giới, tại Việt Nam kỹ thuật này tương đốicòn mới mẻ tuy nhiên cũng đang được nghiên cứu và dần đưa vào ứng dụng.Việc khai phá dữ liệu sẽ giúp người sử dụng thu được những tri thức hữu ích từnhững CSDL hoặc các nguồn dữ liệu khổng lồ khác.lồ khác Nhưng để làm đượcđiều đó, sự phát triển của các mô hình toán học và các giải thuật hiệu quả là chìakhoá quan trọng Trong đó, kỹ thuật thường dùng để khai phá dữ liệu chính làGom cụm và giải thuật sử dụng để gom cụm chính là K-Means
Trong khuôn khổ bài thu hoạch nhỏ này, tôi xin trình về những kiến thức vềGom cụm (gom cụm) nói chung, sau đó tôi sẽ triển khai chi tiết về một thuật toánthường dùng trong gom cụm, đó là thuật toán K-Means Cuối cùng, tôi xin trìnhbày về một ứng dụng nhỏ, sử dụng thuật toán K-Means để gom cụm màu sắc chohình ảnh
Qua đây, tôi xin được gửi lời cảm ơn đến PGS – TS Đỗ Phúc, người đã tậntâm truyền đạt những kiến thức nền tảng cơ bản về môn học “Khai phá dữ liệu vàkho dữ liệu”, định hướng cho tôi biết về nhiều hướng đi mới, cơ sở nghiên cứumới mẻ trong kỹ thuật khai phá dữ liệu, giúp tôi có cơ sở kiến thức để có thể viếtđược bài thu hoạch này
Do kiến thức còn hạn hẹp, bài thu hoạch có thể có những sai sót nhất định,mong thầy và các bạn góp ý để bài thu hoạch ngày càng hoàn thiện hơn
Tôi xin tỏ lòng biết ơn sâu xa!
Học viên thực hiện đề tàiNguyễn Văn Khoa
Trang 3MỤC LỤC
LỜI NÓI ĐẦU 2
MỤC LỤC 3
1 GOM CỤM TRONG KHAI PHÁ DỮ LIỆU 4
Gom cụm là gì 4
Ứng dụng của gom cụm 5
Một số phương pháp gom cụm điển hình 6
2 THUẬT TOÁN K-MEANS 11
Mô tả thuật toán 12
Ví dụ minh họa thuật toán 12
Đánh giá thuật toán K - Means 17
Các biến thể của K-Means 18
Ứng dụng của K - Means 21
3 ỨNG DỤNG GOM CỤM ẢNH BẰNG K- MEANS 22
Giới thiệu về phân đoạn ảnh bằng gom cụm 22
Cài đặt thử nghiệm 24
4 KẾT LUẬN 26
5 TÀI LIỆU THAM KHẢO 27
Trang 41 GOM CỤM TRONG KHAI PHÁ DỮ LIỆU
Gom cụm là gì
Gom cụm dữ liệu (Data Clustering) hay gom cụm, cũng có thể gọi là phân tíchcụm, phân tích phân đoạn, phân tích phân loại, là quá trình nhóm một tập các đốitượng thực thể hay trừu tượng thành lớp các đối tượng tương tự Một cụm là mộttập hợp các đối tượng dữ liệu mà các phần tử của nó tương tự nhau cùng trongmột cụm và phi tương tự với các đối tượng trong các cụm khác Một cụm các đốitượng dữ liệu có thể xem như là một nhóm trong nhiều ứng dụng
Gom cụm là kỹ thuật rất quan trọng trong khai phá dữ liệu, nó thuộc lớp cácphương pháp Unsupervised Learning (học không giám sát) trong MachineLearning (học máy) Có rất nhiều định nghĩa khác nhau về kỹ thuật này, nhưng
về bản chất ta có thể hiểu gom cụm là các qui trình tìm cách nhóm các đối tượng
đã cho vào các cụm (clusters), sao cho các đối tượng trong cùng 1 cụm tương tự(similar) nhau và các đối tượng khác cụm thì không tương tự (Dissimilar) nhau.Mục đích của gom cụm là tìm ra bản chất bên trong các nhóm của dữ liệu Cácthuật toán gom cụm (Clustering Algorithms) đều sinh ra các cụm (clusters) Tuynhiên, không có tiêu chí nào là được xem là tốt nhất để đánh hiệu của của phântích gom cụm, điều này phụ thuộc vào mục đích của gom cụm như: datareduction, “natural clusters”, “useful” clusters, outlier detection
Tóm lại, gom cụm là quá trình phân chia 1 tập dữ liệu ban đầu thành các cụm
dữ liệu thỏa mãn:
Các đối tượng trong 1 cụm “tương tự” nhau
Các đối tượng khác cụm thì “không tương tự” nhau
Trang 5Hình 1 Mô tả trừu tượng về gom cụm dữ liệu
Ứng dụng của gom cụm
Gom cụm là một trong những phân tích được sử dụng thường xuyên nhấttrong biểu diễn dữ liệu gene Dữ liệu biểu diễn gene là một tâp hợp các phép đođược lấy từ DNA microarray (còn gọi là DNA chip hay gene chip) là một tấmthủy tinh hoặc nhựa trên đó có gắn các đoạn DNA thành các hàng siêu nhỏ Cácnhà nghiên cứu sử dụng các con chip như vậy để sàng lọc các mẫu sinh học nhằmkiểm tra sự có mặt hàng loạt trình tự cùng một lúc
Gom cụm dữ liệu còn được áp dụng trong nhiều lĩnh vực sức khỏe tâm lý, baogồm cả việc thúc đẩy và duy trì sức khỏe, cải thiện cho hệ thống chăm sóc sứckhỏe, và công tác phòng chống bệnh tật và người khuyết tật Trong sự phát triển
hệ thống chăm sóc sức khỏe, gom cụm dữ liệu được sử dụng để xác định cácnhóm của người dân mà có thể được hưởng lợi từ các dịch vụ cụ thể Trong thúcđẩy y tế, nhóm phân tích được sử dụng để lựa chọn nhắm mục tiêu vào nhóm sẽ
có khả năng đem lại lợi ích cho sức khỏe cụ thể từ các chiến dịch quảng bá và tạođiều kiện thuận lợi cho sự phát triển của quảng cáo
Trong nghiên cứu thị trường, gom cụm dữ liệu được sử dụng để phân đoạn thịtrường và xác định mục tiêu thị trường Trong phân đoạn thị trường, gom cụm dữliệu thường được dùng để phân chia thị trường thành nhưng cụm mang ý nghĩa,chẳng han như chia ra đối tượng nam giới từ 21-30 tuổi và nam giới ngoài 51
Trang 6tuổi, đối tượng nam giới ngoài 51 tuổi thường không có khuynh hướng mua cácsản phẩm mới…vv…
Gom cụm là kỹ thuật chính trong phân đoạn ảnh Phân đoạn ảnh là việc phântích mức xám hay mầu của ảnh thành các lát đồng nhất Trong phân đoạn ảnh,gom cụm dữ liệu thường được sử dụng để phát hiện biên của đối tượng trongảnh
Kỹ thuật gom cụm còn có thể áp dụng trong rất nhiều lĩnh vực khác như:
Marketing: Xác định các nhóm khách hàng (khách hàng tiềm năng, khách hànggiá trị, phân loại và dự đoán hành vi khách hàng,…) sử dụng sản phẩm hay dịch
vụ của công ty để giúp công ty có chiến lược kinh doanh hiệu quả hơn;
Biology: Phận nhóm động vật và thực vật dựa vào các thuộc tính của chúng;
Libraries: Theo dõi độc giả, sách, dự đoán nhu cầu của độc giả…;
Insurance, Finance: Phân nhóm các đối tượng sử dụng bảo hiểm và các dịch vụtài chính, dự đoán xu hướng (trend) của khách hàng, phát hiện gian lận tài chính(identifying frauds);
Web: Phân loại tài liệu (document classification); phân loại người dùng web(clustering weblog);…
Các kiểu dữ liệu trong gom cụm
Trong phần này, ta nghiên cứu các kiểu dữ liệu thường xuất hiện trong cácphép phân cụm và tiền xử lý chúng như thế nào cho phép phân tích này Giả sửrằng một tập dữ liệu được phân cụm chứa n đối tượng, nó có thể đại diện chongười, nhà, văn bản, đất nước, v.v Các giải thuật phân cụm dựa trên bộ nhớchính thao tác trên một trong hai cấu trúc dữ liệu sau:
Ma trận dữ liệu (hay cấu trúc: đối tượng x biến): Được đại diện bởi n đối tượng,
ví dụ như người với p biến (còn được gọi là các phép đo hay các thuộc tính) nhưtuổi, chiều cao, giới tính, v.v
Ma trận không tương đồng (hay cấu trúc đối tượng x đối tượng): Nó lưu trữ mộttập hợp các trạng thái (về mặt không gian, thời gian, ) cho tất cả n cặp đốitượng Ma trận dữ liệu thường được gọi là ma trận 2-mode (2 chế độ), trong khi
Trang 7đó ma trận không tương đồng được gọi là ma trận 1-mode (1 chế độ) Nhiều giảithuật phân cụm thao tác trên ma trận không tương đồng Nếu dữ liệu được đưa radưới dạng ma trận dữ liệu thì nó có thể được chuyển đổi sang ma trận khôngtương đồng trước khi áp dụng các giải thuật phân cụm.
Các biến tỷ lệ khoảng cách
Phần này thảo luận các biến tỷ lệ khoảng cách và chuẩn hoá chúng Sau đó mô
tả các phép đo khoảng cách phổ biến được dùng trong tính toán độ không tươngđồng của các đối tượng được mô tả bởi các biến tỷ lệ khoảng cách Các phép đonày bao gồm các khoảng cách Euclidean, Mahattan và Minkowski
Các biến tỷ lệ khoảng cách là các phép đo liên tục của một tỷ lệ tuyến tính thô.Các mẫu điển hình như trọng lượng và chiều cao, sự kết hợp vĩ độ và kinh độ (ví
dụ khi phân cụm nhà) và nhiệt độ khí hậu
Đơn vị phép đo đã dùng có thể ảnh hưởng đến phép phân cụm Ví dụ, thay đổicác đơn vị đo, như thay đổi từ meter tới inche cho chiều cao hay từ kilogram tớipound cho trọng lượng, có thể dẫn tới một cấu trúc phân cụm rất khác biệt Nhìnchung, biểu diễn một biến dưới các đơn vị nhỏ hơn sẽ dẫn tới một phạm vi lớnhơn cho biến đó và do vậy một hiệu ứng lớn hơn trên kết quả cấu trúc phân cụm
Để tránh sự phụ thuộc vào việc lựa chọn đơn vị đo, dữ liệu nên được chuẩn hoá.Chuẩn hoá các phép đo cố gắng mang lại cho tất cả các biến một trọng số nhưnhau Tuy nhiên, trong nhiều ứng dụng, người ta có thể cố ý muốn mang tớitrọng số lớn hơn cho một tập các biến nào đó so với các biến khác Ví dụ, khiphân cụm các cầu thủ chơi bóng rổ, người ta có thể thích mang tới trọng số hơncho biến chiều cao
Trang 8phân giống như các biến tỷ lệ khoảng cách có thể dẫn tới lạc lối các kết quả phâncụm Bởi vậy, các phương pháp chỉ định cho dữ liệu nhị phân cần phải tính toán
độ không tương đồng
Một biến nhị phân là đối xứng nếu như cả hai trạng thái của nó có cùng trị giá
và mang cùng trọng số, do vậy không có sự ưu tiên nên kết quả mã hoá là 0 hay
1 Ví dụ, giới tính có thể là nam hay nữ Độ tương đồng dựa trên các biến nhịphân đối xứng được gọi là độ tương đồng bất biến trong đó kết quả không thayđổi khi một số hay tất cả các biến nhị phân được mã hoá khác nhau
Cho số các trạng thái của một biến tên là M Các trạng thái có thể được chỉ rabởi các ký tự, các biểu tượng hay một tập các số nguyên như 1,2, ,M Lưu ýrằng các số nguyên như thế này chỉ được dùng cho dữ liệu điều khiển và khôngđại diện cho bất kỳ một trật tự cụ thể nào
Các biến tên có thể được mã hoá bởi một số lượng lớn các biến nhị phânkhông đối xứng bằng cách tạo một biến nhị phân mới cho mỗi trạng thái tên Đốivới một đối tượng với giá trị trạng thái cho trước, biến nhị phân miêu tả trạngthái đó đặt là 1, trong khi các biến nhị phân còn lại đặt là 0
Các biến có thứ tự:
Biến có thứ tự rời rạc tương tự như một biến tên, loại trừ M trạng thái của giátrị có thứ tự được sắp xếp theo một trật tự có nghĩa Các biến có thứ tự rất hữuích cho việc thể hiện các đánh giá chất lượng một cách chủ quan mà không thể
đo được bằng cách khách quan Một biến có thứ tự liên tục trông giống như mộttập dữ liệu liên tục với một tỷ lệ chưa biết, đó là mối quan hệ có thứ tự của các
Trang 9giá trị, là yếu tố cần thiết nhưng không phải là tính chất trọng yếu thực sự củachúng Ví dụ, sắp xếp quan hệ trong một môn thể thao đặc thù thường cần thiếthơn các giá trị thực tế của một độ đo đặc thù Các biến có thứ tự có thể cũng đạtđược từ việc rời rạc hoá các con số tỷ lệ khoảng cách bằng cách chia phạm vi giátrị vào trong một số các lớp hữu hạn Các giá trị của một biến có thứ tự có thểđược ánh xạ tới các hạng (rank) Giả sử rằng một biến có thứ tự f có Mf trạngthái Các trạng thái được sắp xếp định nghĩa có thứ tự là 1, ,Mf
Nghiên cứu các biến tên hoàn toàn giống với nghiên cứu các biến tỷ lệ khoảngcách khi tính toán độ không tương đồng giữa các đối tượng Giả sử f là một biếntrong tập các biến có thứ tự mô tả n đối tượng
Các biến dựa trên tỷ lệ:
Một biến dựa trên tỷ lệ làm một phép đo dương trên một tỷ lệ không tuyếntính, như tỷ lệ số mũ
Các biến có kiểu hỗn hợp
Mục trước, ta đã đưa ra cách tính độ không tương đồng giữa các đối tượngđược mô tả bởi các biến cùng kiểu, tại đó, các kiểu này có thể là tỷ lệ khoảngcách, nhị phân đối xứng, nhị phân không đối xứng, tên, có thứ tự hay dựa trên tỷ
lệ Tuy nhiên, trong nhiều cơ sở dữ liệu thực, các đối tượng được mô tả bởi một
sự pha trộn các kiểu biến Nhìn chung, một cơ sở dữ liệu có thể chứa tất cả 6 kiểubiến trong danh sách trên Ta cần một phương pháp để tính độ không tương đồnggiữa các đối tượng của các kiểu biến hỗn hợp
Một tiếp cận là nhóm mỗi loại biến với nhau, thực hiện một phép phân tíchcụm riêng biệt cho mỗi kiểu biến Điều này là khả thi nếu như các phép phân tíchnày nhận được các kết quả thích hợp Tuy nhiên, trong các ứng dụng thực,thường không thể xảy ra một phép phân tích cụm tách biệt cho mỗi kiểu biến sẽsinh ra các kết quả thích hợp
Trang 10Các kiểu dữ liệu phức tạp
Tất cả các đối tượng được xem xét trong khai phá dữ liệu là không quan hệ thì
là dữ liệu phức tạp Ví dụ về loại dữ liệu này là dữ liệu không gian, dữ liệu ditruyền, dữ liệu van bản, dữ liệu chuỗi thời gian hay dữ liệu thu gom từ internet.Chú ý rằng các độ đo tương tự và bất tương tự thường hoàn toàn khác nhauvới các loại dữ liệu này
Một số phương pháp gom cụm điển hình
Gom cụm dự trên phân hoạch
Cho trước một cơ sở dữ liệu với n đối tượng hay các bộ dữ liệu, một phươngpháp phân chia được xây dựng để chia dữ liệu thành k phần, mỗi phần đại diệncho một cụm, k ≤ n Đó là phân loại dữ liệu vào trong k nhóm, chúng thoả cácyêu cầu sau:
Mỗi nhóm phải chứa ít nhất một đối tượng
Mỗi đối tượng phải thuộc về chính xác một nhóm
Cho trước k là số lượng các phần chia cần xây dựng, phương pháp phân chiatạo lập phép phân chia ban đầu Sau đó nó dùng kỹ thuật lặp lại việc định vị, kỹthuật này cố gắng cải thiện sự phân chia bằng cách gỡ bỏ các đối tượng từ nhómnày sang nhóm khác Tiêu chuẩn chung của một phân chia tốt là các đối tượngtrong cùng cụm là "gần" hay có quan hệ với nhau, ngược lại, các đối tượng củacác cụm khác nhau lại "tách xa" hay rất khác nhau.Có nhiều tiêu chuẩn khácnhau để đánh giá chất lượng các phép phân chia
Trong gom cụm dựa trên phép phân chia, hầu hết các ứng dụng làm theo mộttrong hai phương pháp heuristic phổ biến:
Giải thuật k-means với mỗi cụm được đại diện bởi giá trị trung bình của các đốitượng trong cụm;
Giải thuật k-medoids với mỗi cụm được đại diện bởi một trong số các đối tượngđịnh vị gần tâm của cụm
Các phương pháp gom cụm heuristic này làm việc tốt khi tìm kiếm các cụm cóhình cầu trong các cơ sở dữ liệu có kích thước từ nhỏ tới trung bình Để tìm ra
Trang 11các cụm với các hình dạng phức tạp và gom cụm cho các tập dữ liệu rất lớn, cácphương pháp dựa trên phân chia cần được mở rộng.
.Tóm lại, phân theo phân hoạch (phân chia) là phân 1 tập dữ liệu có n phần tửcho trước thành k tập con dữ liệu (k ≤ n), mỗi tập con biểu diễn 1 cụm
Các cụm hình thành trên cơ sở làm tối ưu giá trị hàm đo độ tương tự sao cho:
Các đối tượng trong 1 cụm là tương tự
Các đối tượng trong các cụm khác nhau là không tương tự nhau
Đặc điểm:
Mỗi đối tượng chỉ thuộc về 1 cụm
Mỗi cụm có tối thiểu 1 đối tượng
Một số thuật toán điển hình trong phương pháp này là: K-mean, PAM,CLARA,…
Gom cụm phân cấp
Một phương pháp phân cấp tạo một phân tích phân cấp tập các đối tượng dữliệu đã cho Một phương pháp phân cấp có thể được phân loại như tích đống hayphân chia, dựa trên việc phân ly phân cấp được hình thành như thế nào Tiếp cậntích đống còn được gọi là tiếp cận "bottom - up", lúc đầu mỗi đối tượng lập thànhmột nhóm riêng biệt Nó hoà nhập lần lượt các đối tượng hay các nhóm gần nhauvới nhau cho tới khi tất cả các nhóm được hoà nhập thành một (mức cao nhất của
hệ thống phân cấp), hay cho tới khi một gặp một điều kiện kết thúc
Tiếp cận phân ly còn được gọi là tiếp cận "top - down", lúc đầu tất cả các đốitượng trong cùng một cụm Trong mỗi lần lặp kế tiếp, một cụm được chia vàotrong các cụm nhỏ hơn cho tới khi cuối cùng mỗi đối tượng trong một cụm haycho tới khi gặp một điều kiện kết thúc
Sự kết hợp của việc lặp lại việc định vị và phân ly phân cấp sẽ thuận lợi bởitrước tiên sử dụng giải thuật phân ly phân cấp và sau đó cải tiến kết quả sử dụngđịnh vị lặp
Các thuật toán điển hình của phương pháp này là BRICH, CURE, ANGNES,DIANA, ROCK, Chameleon
Trang 12Gom cụm dựa trên mật độ
Hầu hết các phương pháp phân chia cụm các đối tượng dựa trên khoảng cáchgiữa các đối tượng Các phương pháp như vậy có thể chỉ tìm được các cụm cóhình cầu và sẽ gặp khó khăn khi các cụm đang khám phá lại có hình dạng tuỳ ý.Các phương pháp gom cụm được phát triển dựa trên khái niệm mật độ Ý tưởngchung đó là tiếp tục phát triển cụm cho trước với điều kiện là mật độ (số các đốitượng hay các điểm dữ liệu) trong "lân cận" vượt quá ngưỡng, tức là đối với mỗiđiểm dữ liệu trong phạm vi một cụm cho trước thì lân cận trong vòng bán kính đãcho chứa ít nhất một số lượng điểm tối thiểu.Một phương pháp như vậy có thểđược dùng để lọc ra nhiễu (các outlier) và khám phá ra các cụm có hình dạng bấtkỳ
DBSCAN là một phương pháp dựa trên mật độ điển hình, nó tăng trưởng cáccụm theo một ngưỡng mật độ OPTICS là một phương pháp dựa trên mật độ, nótính toán một thứ tự gom cụm tăng dần cho phép phân tích cụm tự động và tươngtác
Gom cụm dựa trên lưới
Một phương pháp dựa trên lưới lượng tử hoá không gian đối tượng vào trongmột số hữu hạn các ô hình thành nên một cấu trúc lưới Sau đó nó thực hiện tất cảcác thao tác gom cụm trên cấu trúc lưới (tức là trên không gian đã lượng tử hoá).Thuận lợi chính của tiếp cận này là thời gian xử lý nhanh chóng của nó độc lậpvới số các đối tượng dữ liệu và chỉ tuỳ thuộc vào số lượng các ô trong mỗi chiềucủa không gian lượng tử
STING là một ví dụ điển hình của phương pháp dựa trên lưới WaveCluster vàCLIQUE là hai giải thuật gom cụm dựa trên cả lưới và mật độ
Gom cụm dựa trên mô hình
Gom cụm dựa trên mô hình là tối ưu hóa sự phù hợp giữa dữ liệu và mô hìnhtoán nào đó
Giả định về quá trình tạo dữ liệu: Dữ liệu được tạo ra với nhiều sự phân bốxác suất khác nhau
Trang 13Các phương pháp gom cụm này bao gồm:
Tiếp cận thống kê: Mở rộng của giải thuật gom cụm dựa trên phân hoạch means: Expectation-Maximization (EM) Giải thuật tinh chỉnh lặp để gán các đốitượng vào các cụm (bước kỳ vọng) và ước lượng trị thông số (bước cực đại hoá)
k- Tiếp cận học máy: gom cụm ý niệm (conceptual clustering) Tạo ra cách phânlớp các đối tượng chưa được gán nhãn dựa vào các mô tả đặc trưng cho mỗinhóm đối tượng ứng với mỗi khái niệm (concept)
Tiếp cận mạng neural: Self-Organizing Feature Map (SOM) Biểu diễn mỗi cụm
là một ví dụ tiêu biểu (exemplar) Exemplar đóng vai trò của một prototype củacụm Các đối tượng mới được phân bố vào một cụm nếu tương tự với exemplarcủa cụm đó nhất dựa trên độ đo khoảng cách
Trang 142 THUẬT TOÁN K-MEANS
Đây là thuật toán nổi tiếng và được sử dụng nhiều nhất trong hướng tiếp cậnphân nhóm phân hoạch Thuật toán này có nhiều biến thể khác nhau nhưng đượcđưa ra đầu tiên bởi J.B MacQueen vào năm 1967 Đầu vào của thuật toán này làmột tập gồm n mẫu và một số nguyên K Cần phân n đối tượng này thành Kcluster sao cho sự giống nhau giữa các mẫu trong cùng cluster là cao hơn là giữacác đối tượng khác cluster
K-Means là thuật toán rất quan trọng và được sử dụng phổ biến trong kỹ thuậtgom cụm dự trên phân hoạch hay gọi là gom cụm dựa vào cụm trung tâm Tưtưởng chính của thuật toán K-Means là tìm cách phân nhóm các đối tượng(objects) đã cho vào K cụm (K là số các cụm được xác đinh trước, K nguyêndương) sao cho tổng bình phương khoảng cách giữa các đối tượng đến tâm nhóm(centroid ) là nhỏ nhất
Tư tưởng của thuật toán này như sau: Đầu tiên chọn ngẫu nhiên K mẫu, mỗimẫu này coi như biểu diễn 1 cluster, như vậy lúc này trong mỗi cluster thì đốimẫu đó cũng là tâm của cluster (hay còn gọi là nhân) Các mẫu còn lại được gánvào một nhóm nào đó trong K nhóm đã có sao cho tổng khoảng cách từ nhómmẫu đó đến tâm của nhóm là nhỏ nhất Sau đó tính lại tâm cho các nhóm và lặplại quá trình đó cho đến khi hàm tiêu chuẩn hội tụ Hàm tiêu chuẩn hay đượcdùng nhất là hàm tiêu chuẩn sai-số vuông
Hình 2 Ví dụ minh họa thuật toán K-means
Trang 15Mô tả thuật toán
Thuật toán K-Means được mô tả như hình sau:
Hình 3 Mô tả thuật toán K - Means
Thuật toán K-Means thực hiện qua các bước chính sau:
1 Chọn ngẫu nhiên K tâm (centroid) cho K cụm (cluster) Mỗi cụm đượcđại diện bằng các tâm của cụm
2 Tính khoảng cách giữa các đối tượng (objects) đến K tâm (thường dùngkhoảng cách Euclidean)
3 Nhóm các đối tượng vào nhóm gần nhất
4 Xác định lại tâm mới cho các nhóm
5 Thực hiện lại bước 2 cho đến khi không có sự thay đổi nhóm nào củacác đối tượng
Ví dụ minh họa thuật toán
Giả sử ta có 4 loại thuốc A,B,C, D, mỗi loại thuộc được biểu diễn bởi 2 đặctrưng X và Y như sau Mục đích của ta là nhóm các thuốc đã cho vào 2 nhóm(K=2) dựa vào các đặc trưng của chúng