Dưới đây là một số thuật toán pho bién: o_ K-means: Phân cụm dựa trên việc gom nhóm các điểm đữ liệu vào các cụm sao cho tổng bình phương khoảng cách từ mỗi điểm đến trung tâm của cụm là
Trang 1BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC NGÂN HÀNG TPHCM
TIỂU LUẬN
CLUSTERING TRONG MACHINE LEARNING
Họ và tên sinh viên: MSSV: Dang Tran Uyén Nhi 050609211015 Nguyễn Thị Tuyết Nhung 050609211175
Bùi Thị Quỳnh Anh 050609211812
Môn học: Phân tích đữ liệu lớn
Lớp học phần: DAT712 2321 9 L24
Giáo viên: Thầy Võ Đức Vĩnh
Nhóm: 4
TP Thủ Đức, tháng 3 năm 2024
Trang 2MỤC LỤC
3.4.1 Khái niỆIM: << HH TH HO HH HH HH HT KH 01004 17 3.4.2 Cach thie hoat dOng ố 17 3.4.3 Thuật toán cực đại kỳ VỌNØ: Ăn nh, 18
4 Các kỹ thuật Dimensionality Reductfion - << 5c s03 ng 2 ng 18
Trang 34.1 Phân tích thành phần chính (PCA)) + ©©£©++se££EExeeecevvesete 18
4.3.2 Các thông số thiết yếu nhất của Umiap: 5-5 5-55 cscsecsersreersrs 24
4.3.3 Các bước trong UMAP, do Go HH TY TT ng 3 04 80 0 tp 25
Trang 4DANH MỤC HÌNH ẢNH
Hình 1 Hàm Euclidean
Hình 2 Hàm Cosine 2.222 2n nh na Hình 3 Hàm Manhattan ằc cà cà sành nh nh nh nh nhe He nhe
Hình 4 Điều kiện hội tụ cc co L ch nh nh nh nh nh si
Hình 5 Thuật toán Dbscan
Hình L1 Cách thức hoạt dong t- -SNE
Hinh 12 Minh hoa t-SNE
Hình 14 Đồ thị UMAP
Hình 16 Đồ thị UMAP ò 2 2 bà bàn nh nh HH HH He
Hình 17 Đồ thị UMAP àc 2 bọn nh nh nh Hee Hình 18 Công thức UMAP cọ cọ nh ng nà nho
Trang 5Clustering là quá trình gom nhóm các đối tượng đữ liệu vào từng cụm (cluster) sao cho các đối tượng trong cùng một cụm có sự tương đồng theo một tiêu chi nao đó
Ộ Mục tiêu của phân cụm là tạo ra các nhóm dữ liệu có tính chất giống nhau hoặc gân giông nhau, giúp hiệu rõ hơn về cầu trúc và đặc diém của dữ liệu
® - Lựa chọn thuật toán phân cụm: Có nhiều thuật toán phân cụm khác nhau, và lựa chọn thuật toán phụ thuộc vào loại đữ liệu và mục tiêu của chúng ta Dưới đây là một số thuật toán pho bién:
o_ K-means: Phân cụm dựa trên việc gom nhóm các điểm đữ liệu vào các
cụm sao cho tổng bình phương khoảng cách từ mỗi điểm đến trung tâm
của cụm là nhỏ nhất
Trang 6o_ Hierarchical Clustering: Xây dựng cây phân cấp của các cụm, bắt đầu từ
việc mỗi điểm đữ liệu là một cụm riêng lẻ và sau đó gom nhóm chúng
dựa trên sự tương đồng
o DBSCAN (Density-Based Spatial Clustering of Applications with
Noise): Phân cụm dựa trên mật độ của các điểm đữ liệu Nó tìm các vùng
có mật độ cao và gom nhóm chúng lại
o Tinh toan khoang cach (Distance Metrics): Thuat toan phan cum str dung các khoảng cách đê đo lường sự tương đồng hoặc khác biệt giữa các điểm dữ liệu Các phương pháp đo khoảng cách bao gồm Euclidean distance, Manhattan đistance, các hệ số tương tự như Cosine similarity
và Jaccard similarity
o_ Tối ưu hóa cụm (Cluster Optimization): Mục tiêu là tạo ra các cụm có
tính chất nội bộ giống nhau và khác biệt với các cụm khác Chúng ta cần
tối ưu hóa các tiêu chí như tổng bình phương khoảng cách trong K- means hoặc độ tương đồng trong Hierarchical Clustering
o_ Đánh giá kết quả: Sau khi phân cụm, chúng ta cần đánh giá kết quả bằng cách sử dụng các chỉ số như Silhouette Score, Davies-Bouldin Index, hoặc visualizations nhu dendrogram
Co ché hoat động của phân cụm là một quá trình phức tạp và đỏi hỏi sự hiểu biết
về đữ liệu và thuật toán Việc lựa chọn đúng thuật toán và thực hiện tối ưu hóa cụm là quan trọng đề đạt được kết quả tốt
1.2 Ưu điểm & Nhược điểm của Clustering
1.2.1 Ưu điểm
Don giản hóa dữ liệu phức tạp: Phân cụm giúp chia nhỏ tập đữ liệu lớn thành các nhóm nhỏ hơn, dễ hiểu và làm việc Điều này giúp người dùng để dàng quán lý và xử lý
đỡ liệu một cách hiệu quả
Phát hiện các mẫu ân: Bằng cách gom nhóm các điểm đữ liệu tương tự, phân cụm giúp phát hiện mối quan hệ và cầu trúc trong dữ liệu Điều này có thể giúp phát hiện thông tin tiềm ấn hoặc các đặc điểm chung trong tập dữ liệu
Cải thiện quyết định: Khi dữ liệu được phân loại thành các nhóm có ý nghĩa, người
dùng có thê dễ dàng đưa ra quyết định dựa trên thông tin rõ ràng và xu hướng của từng
nhóm Ví dụ: Trong lĩnh vực y học, phân cụm bệnh nhân dựa trên biểu hiện gen có thé
giúp xác định liệu phương pháp điều trị nào hiệu quá hơn cho từng nhóm bệnh nhân
Trang 7Tổ chức dữ liệu: Phân cụm giúp sắp xếp thông tin gọn gàng, đễ quản lý Điều này
đặc biệt hữu ích khi xử lý lượng đữ liệu lớn trong lĩnh vực y học
Tăng hiệu suất xử lý: Phân cụm giúp tối ưu hóa xử lý dữ liệu bằng cách giảm du thừa và tập trung vào thông tin liên quan Ví dụ: Trong phân tích hình ảnh y khoa, phân cụm giúp tách biệt các vùng có đặc điểm tương tự để tối ưu hóa việc xử lý và phân tích
1.2.2 Nhược điểm
Khó phát hiện các mẫu phức tạp: Phân cụm có thể bỏ sót các mẫu phức tạp không phù hợp với cầu trúc đơn giản Có thê thấy rõ khi sử dụng các phương pháp phân cụm đơn giản như K-means, vì chúng giả định rằng các nhóm có cầu trúc tương tự
Nhạy cảm với các điểm ngoại lệ (outliers): Các điểm dữ liệu ngoại lệ có thé lam sai lệch kết quả phân cụm Có thẻ thấy điều này trong các tập dữ liệu thực té, vì dữ liệu thường chứa nhiễu và các điểm ngoại lệ
Khó lựa chọn số cụm: Xác định số lượng cụm thích hợp có thể khó khăn và ảnh hưởng đến kết quả phân cụm Lựa chọn sai 36 lượng cụm có thể dẫn đến việc phân loại không chính xác hoặc không hiệu quả
Dữ liệu nhiễu ảnh hưởng đến chất lượng: Dữ liệu nhiễu có thê làm sai lệch phân
cụm và tạo ra nhóm không có ý nghĩa Trong các tập đữ liệu thực tế, đữ liệu thường chứa
nhiễu và các giá trị không chính xác
Giá định về cấu trúc nhóm: Phân cụm thường giả định rằng dữ liệu có cấu trúc
nhóm Nếu không, phương pháp này có thê không hoạt động tốt Có thê thấy rõ nhược điểm này khi áp dụng phân cụm vào các tập dữ liệu không có cấu trúc rõ ràng
1.3 Ứng Dung cua Clustering
1.3.1 Các ứng dụng trong thực tế
Phân cụm (Clustering) trong Big Data có nhiều ứng dụng quan trọng, giúp chúng
ta hiệu rõ hơn về dữ liệu và tôi ưu hóa quá trình xử lý thông tin Dưới đây là một sô ứng
dụng chi tiết:
Phân tich khach hang (Customer Segmentation):
¢ Phan cum git chia khach hang thanh cac nhom dya trén hanh vi mua sam,
sở thích, độ tuôi, vị trí địa lý, và nhiều yếu tổ khác
® Các doanh nghiệp có thé tùy chính chiến lược tiếp thị, dự đoán nhu cầu sản pham, va cải thiện trải nghiệm khách hàng
Phân loại văn bản (Text Clustering):
e - Phân cụm văn bản giúp tô chức và gom nhóm các tài liệu, bài viết, email,
Trang 8° _ Ứng dụng trong phân tích dữ liệu lớn, phát hiện tin tức giả mao, va tim kiếm thông tin
Phan cum hinh anh (Image Clustering):
® - Phân cụm hình ảnh dựa trên đặc trưng hình ảnh như màu sắc, hình đạng, hoặc đối tượng
® Ung dung trong quan ly thu vién anh, phan loại sản phẩm, và phát hiện gian lan
Phân cụm đữ liệu thời gian (Time Series Clustering):
© - Phân cụm chuỗi thời gian giúp nhận biết xu hướng, chu kỳ, và sự biến đôi
trong đữ liệu theo thời gian
® Sử dụng trong dự đoán thị trường tài chính, quản lý năng lượng, và dự báo
thời tiết
Phan cum trong y hoc (Medical Clustering):
® Phân cụm đữ liệu y học giúp phân loại bệnh nhân dựa trên triệu chứng, kết quả xét nghiệm, và lịch sử bệnh
© Hỗ trợ trong chuẩn đoán bệnh, dự đoán tình trạng sức khỏe, và tối ưu hóa
quy trình điều trị
Như vậy, phân cụm không chỉ là công cụ hữu ích trong việc tô chức dữ liệu, mà con giup chung ta khám phá thông tin ân sau các tập dữ liệu phức tạp và tối ưu hóa quyết
định trong nhiều lĩnh vực
1.3.2 Ứng dung trong Y hoc:
Phân loại ảnh y khoa: K-Means Clustering có thê phân loại các hình ảnh y khoa thành các cụm dựa trên đặc điểm hình học, màu sắc, hoặc các đặc trưng khác Ví dụ:
phân loại các hình ảnh MRI thành các loại ung thư khác nhau
Phát hiện bất thường: K-Means có thê giúp phát hiện các điểm dữ liệu bất thường trong anh, vi dụ: phát hiện khối u lạ trong hình ảnh X-quang
Segmentation (phan doan) ảnh: Phân chia ảnh thành các vùng có ý nghĩa khác nhau, giúp tách biệt các cơ quan, mô, hoặc bat ky đối tượng nào trong ảnh
Việc lựa chọn số cụm và tiền xử lý đữ liệu ảnh là quan trọng đề đạt được kết quả tốt khi áp dụng K-Means Clustering trong xử lý ảnh y khoa
1.3.3 Phân tích Ứng dụng của Clustering đối với ngành Y học
Ứng dụng thuật toán K-Means Clustering trong xử lý ánh trong lĩnh vực Y học có
thể được thực hiện theo các bước sau:
® Bước l: Thu thập dữ liệu ảnh:
o_ Thu thập tập đữ liệu ảnh liên quan đến lĩnh vực Y học, chăng hạn như hình
ảnh chụp từ máy quét MRL, máy X-quang, hoặc hình ảnh vị thực vật o_ Dữ liệu này có thê bao gồm nhiều loại ảnh, ví dụ: hình ảnh ung thư, hình anh vùng não, hình ảnh tim, v.v
© Buc 2: Tién xử lý dữ liệu ảnh:
Trang 9oO
O
O°
Chuẩn hóa kích thước ảnh đê đảm bảo cùng kích thước và độ phân giải
Loại bỏ nhiều và cân băng độ sáng/độ tương phản
Bước 3: Áp dụng thuật toán K-Means:
Bước I: Chọn số cụm (k): Xác định số lượng cụm cần phân loại Ví dụ, nêu bạn muốn phân loại ảnh thành 3 cụm, thì k = 3
Bước 2: Khởi tạo tâm của các cụm: Chọn ngẫu nhiên k điểm dữ liệu làm
tâm của các cụm ban đầu
Bước 3: Gán điểm đữ liệu vào cụm gần nhất: Tính khoáng cách piữa điểm
dữ liệu và tâm của các cụm, sau đó gán điểm vào cụm có tâm gần nhất
Bước 4: Cập nhật tâm của các cụm: Tính trung bình vị trí của các điểm dữ liệu trong cụm dé cap nhat tam cua cum
Bước 5: Lap lai qua trinh gan va cập nhật tam: Lap lại bước gan và cập nhật
tâm cho đến khi tâm của các cụm không thay đôi đáng kẻ hoặc đạt số lần
lặp tối đa
2 Các hàm khoảng cách
2.1 Hàm Euclidean
Euclidean Distance còn được biết đến với cái tên L2 distance Để đo khoảng cách
D giữa các đối tượng thường dùng khoảng cách Euclidean Vì đây là mô hình khoảng
cách dễ để lấy đạo hàm và xác định các cực trị tối thiểu
Trang 10
Ưu điểm
« Phổ biến, đễ hiểu, đễ xây dựng , kết quá tốt trong nhiều usecase
« Đặc biệt hiệu quả với đữ liệu ít chiêu
Nhược điểm:
« Euclide đistance có thể bị ảnh hưởng bởi đơn vị của feature Chinh vi vậy cần
phải normalize trudc khi tính toán
¢ Van dé thir 2, khi số chiều vector space tăng lên, Euclide Distance trở nên kém hiệu quả Một phần nguyên nhân do đữ liệu thực tế thường không chỉ nằm trong Euclide Metric Space
2.2, Ham Cosine
Cosine similarity thường được sử dụng dé giải quyết vấn đề của Euclidean distance ở không gian nhiều chiều Ý tưởng đơn giản là tính góc tạo thành giữa 2 vector Giá trị sẽ tương đương với phép đot product nêu cả 2 vector được norm về giá tri 1
Cosine
Cosine similarity thường được sử dụng đề giải quyét van dé cia Euclidean distance
& khéng gian nhiéu chiéu Y tưởng don giản là tính góc tạo thành gitra 2 vector Gia tri sé tương đương với phép dot product nếu cả 2 vector được norm về giá tri 1
10
Trang 112 vecor cùng hướng sẽ co cosine similarity bang l và ngược hướng sẽ có gia tri -1 Lưu ý răng, chiêu dài không được sử dụng do đây là phương pháp tính theo hướng
x\\\\y
Nhược điểm:
« Không tận dụng độ lớn của vector, chỉ tính theo hướng
«_ Điều này vô tình làm mắt mát thông tin so sánh
Use case: Thường được sử dụng trong các đữ liệu đa chiều và không quá phụ thuộc
vào độ lớn của vector
2.3 Hàm Manhattan
Khoang cach Manhattan, con được gọi là khoảng cách LI hay khoảng cách trong thành phó, là một dạng khoảng cách giữa hai điểm trong không gian Euclid với hệ tọa độ Descartes Đại lượng này được tính bằng tông chiều đài của hình chiếu của đường thăng
nổi hai điểm này trong hệ trục tọa độ Descartes
Khoảng cách Manhattan còn được gọi là chiều dài Manhattan Nói cách khác, đó
là khoảng cách giữa hai điểm được đo đọc theo trục vuông góc
Khoảng cách Manhattan hoạt động rất tốt đôi với các bộ dữ liệu nhiều chiều Vì nó không lay bat kỳ ô vuông nào nên nó không khuếch đại sự khác biệt giữa bất kỳ tinh nang nao
Nó cũng không bỏ qua bắt kỳ tính năng nào
Trang 123 Các loại thuật toán trong Clustering
3.1 Thuật toán phần cụm K-means
3.1.1 Khái niệm
Thuật toán K-means là một thuật toán phân cụm (clustering) phố biến trong lĩnh vực học máy không giảm sát và trí tuệ nhân tạo
Mục tiêu: của thuật toán này là phân chia các điểm đữ liệu thành các nhóm
(clusters) sao cho các điểm trong cùng một nhóm có tính chất tương tự nhau, trong khi các nhóm khác nhau có tính chất khác biệt
Đầu vào: Tập đữ liệu không có nhãn với k số cụm
Đầu ra: Các cụm dữ liệu đã được phân chia
Hành động: Tập hợp các điểm gần nhau trong một không gian nào đó, có thê là không gian đa chiều khi thông tin về một điểm đữ liệu là rất lớn
3.1.2 Thuật toán
Khởi tạo các điểm trung tâm: Ban dau, khởi tạo k điểm đữ liệu từ tập đữ liệu làm
các trung tam cum (centroid)
Lặp lại các bước bên dưới đến khi hội tụ:
® Bước 1: Gán các điểm đữ liệu cho trung tâm gần nhất : Với mỗi điểm dữ liệu, tính khoảng cách từ điểm đó đến tat cả các trung tam cua cluster va gan điểm đó với cluster có trung tâm gần nhất
® Bước 2 Xác định lại điểm trung tâm: Sau khi mỗi điểm đữ liệu đã được gan vao mot cum (cluster), chúng ta sẽ tính toán lại trung tâm của từng cụm bằng cách lây trung bình của tất cả các điểm trong cluster đó
® Bước 3: Khi thuật toán hội tụ thì dùng lại
3.1.3 Điều kiện hội tụ (điều kiện dừng thuật toán)
Xác định điều kiện dừng thuật toán theo một số cách như sau:
® Cách I: Tại l vòng lặp: có ít các điểm đữ liệu được gan sang cluster khac
© Cách 2: Điểm trung tâm (centroid) không thay đổi nhiều
© Cách 3: Giá trị hàm mất mát không thay đổi nhiều, hay tông bình phương khoảng cách giữa các điểm đữ liệu và trung tâm của cluster mà chúng thuộc
về là nhỏ nhất
Trang 13
3.2 Phần cụm dữ liệu dựa trên mật độ không gian với thuật toán DBSCAN
3.2.1, Mô tả thuật toán:
Thuật toán Dbscan sẽ thực hiện lan truyền để mở rộng dần phạm vi của cụm cho tới khi chạm tới những điểm biên thì thuật toán sẽ chuyển sang một cụm mới và lặp lại tiếp quá trình trên Cụ thê bạn sẽ thấy được quá trình lan truyền này thông qua hình minh
Trang 143.2.2, Khái niệm vùng lân cận epsilon
Vùng lân cận epsilon (Eps- neighborhood) của một điểm dữ liệu P được định nghĩa
là tập hợp tất cả các điểm đữ liệu nằm trong phạm vi bán kính epsilon (kí hiệu e) xung quanh điểm P Kí hiệu tập hợp những điểm này là:
Neps(P) = {Q € D: d(P,Q) < e}
Trong đó D là tập hợp tất ca cac diém dit liéu cua tap huan luyén
3.2.3 Thuật toán:
Bước 2: Tìm toàn bộ những vùng lân cận của p với điêu kiện thỏa mãn tham sô epsilon:
Bước 5: Tiếp thuật cho tới khi toàn bộ dữ liệu đã được xử lí
Lưu ý: Ở các bước 1, 2, 3, 4 phải thỏa mãn điều kiện điểm p chưa được xét tới bao giờ
Căn cứ vào vị trí của các điểm đữ liệu so với cụm chúng ta có thê chia chúng thành ba loại:
« Điểm lõi: là các điểm nằm sâu bên trong cum chúng ta xem chúng là điểm lõi
« Điểm biên: là điểm nằm ở phần ngoài củng của cụm
« Điểm nhiễu: là điểm không thuộc bat kỷ một cụm nảo
Trang 153.3 Khác nhau của K-means, Dbscan
Thuật toán k-Means có thể phân cụm các quan sát có sự tương đồng một cách khả lỏng léo Sau mỗi vòng lặp của thuật toán thì mỗi một quan sát đều được phân vào một
cụm nhất định, thậm chí đó là những quan sát nhiễu (noise data) phan b6 cach xa tam
cụm Do đó trong thuật toán k-Means mọi điểm đều ảnh hưởng tới tâm cụm Chính vì điều này nên dẫn tới khi xuất hiện outliers sẽ ảnh hưởng tới độ chính xác của thuật toán cũng như chất lượng của cụm
Trong DBSCAN thì van dé này được khắc phục nhờ cơ chế hình thành cụm đặc
biệt mà ở đó các điểm dữ liệu nhiễu sẽ được tách thành một phân riêng Thậm chí là đối
với những phân phối có hình dạng đặc biệt mà k-Means không phân cụm tốt thì
DBSCAN cũng có thé phân cụm được như hình minh hoạ bên dưới: