1. Trang chủ
  2. » Luận Văn - Báo Cáo

Tiểu luận clustering trong machine learning

30 0 0
Tài liệu được quét OCR, nội dung có thể không chính xác
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 30
Dung lượng 4,41 MB

Nội dung

Dưới đây là một số thuật toán pho bién: o_ K-means: Phân cụm dựa trên việc gom nhóm các điểm đữ liệu vào các cụm sao cho tổng bình phương khoảng cách từ mỗi điểm đến trung tâm của cụm là

Trang 1

BỘ GIÁO DỤC VÀ ĐÀO TẠO

TRƯỜNG ĐẠI HỌC NGÂN HÀNG TPHCM

TIỂU LUẬN

CLUSTERING TRONG MACHINE LEARNING

Họ và tên sinh viên: MSSV: Dang Tran Uyén Nhi 050609211015 Nguyễn Thị Tuyết Nhung 050609211175

Bùi Thị Quỳnh Anh 050609211812

Môn học: Phân tích đữ liệu lớn

Lớp học phần: DAT712 2321 9 L24

Giáo viên: Thầy Võ Đức Vĩnh

Nhóm: 4

TP Thủ Đức, tháng 3 năm 2024

Trang 2

MỤC LỤC

3.4.1 Khái niỆIM: << HH TH HO HH HH HH HT KH 01004 17 3.4.2 Cach thie hoat dOng ố 17 3.4.3 Thuật toán cực đại kỳ VỌNØ: Ăn nh, 18

4 Các kỹ thuật Dimensionality Reductfion - << 5c s03 ng 2 ng 18

Trang 3

4.1 Phân tích thành phần chính (PCA)) + ©©£©++se££EExeeecevvesete 18

4.3.2 Các thông số thiết yếu nhất của Umiap: 5-5 5-55 cscsecsersreersrs 24

4.3.3 Các bước trong UMAP, do Go HH TY TT ng 3 04 80 0 tp 25

Trang 4

DANH MỤC HÌNH ẢNH

Hình 1 Hàm Euclidean

Hình 2 Hàm Cosine 2.222 2n nh na Hình 3 Hàm Manhattan ằc cà cà sành nh nh nh nh nhe He nhe

Hình 4 Điều kiện hội tụ cc co L ch nh nh nh nh nh si

Hình 5 Thuật toán Dbscan

Hình L1 Cách thức hoạt dong t- -SNE

Hinh 12 Minh hoa t-SNE

Hình 14 Đồ thị UMAP

Hình 16 Đồ thị UMAP ò 2 2 bà bàn nh nh HH HH He

Hình 17 Đồ thị UMAP àc 2 bọn nh nh nh Hee Hình 18 Công thức UMAP cọ cọ nh ng nà nho

Trang 5

Clustering là quá trình gom nhóm các đối tượng đữ liệu vào từng cụm (cluster) sao cho các đối tượng trong cùng một cụm có sự tương đồng theo một tiêu chi nao đó

Ộ Mục tiêu của phân cụm là tạo ra các nhóm dữ liệu có tính chất giống nhau hoặc gân giông nhau, giúp hiệu rõ hơn về cầu trúc và đặc diém của dữ liệu

® - Lựa chọn thuật toán phân cụm: Có nhiều thuật toán phân cụm khác nhau, và lựa chọn thuật toán phụ thuộc vào loại đữ liệu và mục tiêu của chúng ta Dưới đây là một số thuật toán pho bién:

o_ K-means: Phân cụm dựa trên việc gom nhóm các điểm đữ liệu vào các

cụm sao cho tổng bình phương khoảng cách từ mỗi điểm đến trung tâm

của cụm là nhỏ nhất

Trang 6

o_ Hierarchical Clustering: Xây dựng cây phân cấp của các cụm, bắt đầu từ

việc mỗi điểm đữ liệu là một cụm riêng lẻ và sau đó gom nhóm chúng

dựa trên sự tương đồng

o DBSCAN (Density-Based Spatial Clustering of Applications with

Noise): Phân cụm dựa trên mật độ của các điểm đữ liệu Nó tìm các vùng

có mật độ cao và gom nhóm chúng lại

o Tinh toan khoang cach (Distance Metrics): Thuat toan phan cum str dung các khoảng cách đê đo lường sự tương đồng hoặc khác biệt giữa các điểm dữ liệu Các phương pháp đo khoảng cách bao gồm Euclidean distance, Manhattan đistance, các hệ số tương tự như Cosine similarity

và Jaccard similarity

o_ Tối ưu hóa cụm (Cluster Optimization): Mục tiêu là tạo ra các cụm có

tính chất nội bộ giống nhau và khác biệt với các cụm khác Chúng ta cần

tối ưu hóa các tiêu chí như tổng bình phương khoảng cách trong K- means hoặc độ tương đồng trong Hierarchical Clustering

o_ Đánh giá kết quả: Sau khi phân cụm, chúng ta cần đánh giá kết quả bằng cách sử dụng các chỉ số như Silhouette Score, Davies-Bouldin Index, hoặc visualizations nhu dendrogram

Co ché hoat động của phân cụm là một quá trình phức tạp và đỏi hỏi sự hiểu biết

về đữ liệu và thuật toán Việc lựa chọn đúng thuật toán và thực hiện tối ưu hóa cụm là quan trọng đề đạt được kết quả tốt

1.2 Ưu điểm & Nhược điểm của Clustering

1.2.1 Ưu điểm

Don giản hóa dữ liệu phức tạp: Phân cụm giúp chia nhỏ tập đữ liệu lớn thành các nhóm nhỏ hơn, dễ hiểu và làm việc Điều này giúp người dùng để dàng quán lý và xử lý

đỡ liệu một cách hiệu quả

Phát hiện các mẫu ân: Bằng cách gom nhóm các điểm đữ liệu tương tự, phân cụm giúp phát hiện mối quan hệ và cầu trúc trong dữ liệu Điều này có thể giúp phát hiện thông tin tiềm ấn hoặc các đặc điểm chung trong tập dữ liệu

Cải thiện quyết định: Khi dữ liệu được phân loại thành các nhóm có ý nghĩa, người

dùng có thê dễ dàng đưa ra quyết định dựa trên thông tin rõ ràng và xu hướng của từng

nhóm Ví dụ: Trong lĩnh vực y học, phân cụm bệnh nhân dựa trên biểu hiện gen có thé

giúp xác định liệu phương pháp điều trị nào hiệu quá hơn cho từng nhóm bệnh nhân

Trang 7

Tổ chức dữ liệu: Phân cụm giúp sắp xếp thông tin gọn gàng, đễ quản lý Điều này

đặc biệt hữu ích khi xử lý lượng đữ liệu lớn trong lĩnh vực y học

Tăng hiệu suất xử lý: Phân cụm giúp tối ưu hóa xử lý dữ liệu bằng cách giảm du thừa và tập trung vào thông tin liên quan Ví dụ: Trong phân tích hình ảnh y khoa, phân cụm giúp tách biệt các vùng có đặc điểm tương tự để tối ưu hóa việc xử lý và phân tích

1.2.2 Nhược điểm

Khó phát hiện các mẫu phức tạp: Phân cụm có thể bỏ sót các mẫu phức tạp không phù hợp với cầu trúc đơn giản Có thê thấy rõ khi sử dụng các phương pháp phân cụm đơn giản như K-means, vì chúng giả định rằng các nhóm có cầu trúc tương tự

Nhạy cảm với các điểm ngoại lệ (outliers): Các điểm dữ liệu ngoại lệ có thé lam sai lệch kết quả phân cụm Có thẻ thấy điều này trong các tập dữ liệu thực té, vì dữ liệu thường chứa nhiễu và các điểm ngoại lệ

Khó lựa chọn số cụm: Xác định số lượng cụm thích hợp có thể khó khăn và ảnh hưởng đến kết quả phân cụm Lựa chọn sai 36 lượng cụm có thể dẫn đến việc phân loại không chính xác hoặc không hiệu quả

Dữ liệu nhiễu ảnh hưởng đến chất lượng: Dữ liệu nhiễu có thê làm sai lệch phân

cụm và tạo ra nhóm không có ý nghĩa Trong các tập đữ liệu thực tế, đữ liệu thường chứa

nhiễu và các giá trị không chính xác

Giá định về cấu trúc nhóm: Phân cụm thường giả định rằng dữ liệu có cấu trúc

nhóm Nếu không, phương pháp này có thê không hoạt động tốt Có thê thấy rõ nhược điểm này khi áp dụng phân cụm vào các tập dữ liệu không có cấu trúc rõ ràng

1.3 Ứng Dung cua Clustering

1.3.1 Các ứng dụng trong thực tế

Phân cụm (Clustering) trong Big Data có nhiều ứng dụng quan trọng, giúp chúng

ta hiệu rõ hơn về dữ liệu và tôi ưu hóa quá trình xử lý thông tin Dưới đây là một sô ứng

dụng chi tiết:

Phân tich khach hang (Customer Segmentation):

¢ Phan cum git chia khach hang thanh cac nhom dya trén hanh vi mua sam,

sở thích, độ tuôi, vị trí địa lý, và nhiều yếu tổ khác

® Các doanh nghiệp có thé tùy chính chiến lược tiếp thị, dự đoán nhu cầu sản pham, va cải thiện trải nghiệm khách hàng

Phân loại văn bản (Text Clustering):

e - Phân cụm văn bản giúp tô chức và gom nhóm các tài liệu, bài viết, email,

Trang 8

° _ Ứng dụng trong phân tích dữ liệu lớn, phát hiện tin tức giả mao, va tim kiếm thông tin

Phan cum hinh anh (Image Clustering):

® - Phân cụm hình ảnh dựa trên đặc trưng hình ảnh như màu sắc, hình đạng, hoặc đối tượng

® Ung dung trong quan ly thu vién anh, phan loại sản phẩm, và phát hiện gian lan

Phân cụm đữ liệu thời gian (Time Series Clustering):

© - Phân cụm chuỗi thời gian giúp nhận biết xu hướng, chu kỳ, và sự biến đôi

trong đữ liệu theo thời gian

® Sử dụng trong dự đoán thị trường tài chính, quản lý năng lượng, và dự báo

thời tiết

Phan cum trong y hoc (Medical Clustering):

® Phân cụm đữ liệu y học giúp phân loại bệnh nhân dựa trên triệu chứng, kết quả xét nghiệm, và lịch sử bệnh

© Hỗ trợ trong chuẩn đoán bệnh, dự đoán tình trạng sức khỏe, và tối ưu hóa

quy trình điều trị

Như vậy, phân cụm không chỉ là công cụ hữu ích trong việc tô chức dữ liệu, mà con giup chung ta khám phá thông tin ân sau các tập dữ liệu phức tạp và tối ưu hóa quyết

định trong nhiều lĩnh vực

1.3.2 Ứng dung trong Y hoc:

Phân loại ảnh y khoa: K-Means Clustering có thê phân loại các hình ảnh y khoa thành các cụm dựa trên đặc điểm hình học, màu sắc, hoặc các đặc trưng khác Ví dụ:

phân loại các hình ảnh MRI thành các loại ung thư khác nhau

Phát hiện bất thường: K-Means có thê giúp phát hiện các điểm dữ liệu bất thường trong anh, vi dụ: phát hiện khối u lạ trong hình ảnh X-quang

Segmentation (phan doan) ảnh: Phân chia ảnh thành các vùng có ý nghĩa khác nhau, giúp tách biệt các cơ quan, mô, hoặc bat ky đối tượng nào trong ảnh

Việc lựa chọn số cụm và tiền xử lý đữ liệu ảnh là quan trọng đề đạt được kết quả tốt khi áp dụng K-Means Clustering trong xử lý ảnh y khoa

1.3.3 Phân tích Ứng dụng của Clustering đối với ngành Y học

Ứng dụng thuật toán K-Means Clustering trong xử lý ánh trong lĩnh vực Y học có

thể được thực hiện theo các bước sau:

® Bước l: Thu thập dữ liệu ảnh:

o_ Thu thập tập đữ liệu ảnh liên quan đến lĩnh vực Y học, chăng hạn như hình

ảnh chụp từ máy quét MRL, máy X-quang, hoặc hình ảnh vị thực vật o_ Dữ liệu này có thê bao gồm nhiều loại ảnh, ví dụ: hình ảnh ung thư, hình anh vùng não, hình ảnh tim, v.v

© Buc 2: Tién xử lý dữ liệu ảnh:

Trang 9

oO

O

Chuẩn hóa kích thước ảnh đê đảm bảo cùng kích thước và độ phân giải

Loại bỏ nhiều và cân băng độ sáng/độ tương phản

Bước 3: Áp dụng thuật toán K-Means:

Bước I: Chọn số cụm (k): Xác định số lượng cụm cần phân loại Ví dụ, nêu bạn muốn phân loại ảnh thành 3 cụm, thì k = 3

Bước 2: Khởi tạo tâm của các cụm: Chọn ngẫu nhiên k điểm dữ liệu làm

tâm của các cụm ban đầu

Bước 3: Gán điểm đữ liệu vào cụm gần nhất: Tính khoáng cách piữa điểm

dữ liệu và tâm của các cụm, sau đó gán điểm vào cụm có tâm gần nhất

Bước 4: Cập nhật tâm của các cụm: Tính trung bình vị trí của các điểm dữ liệu trong cụm dé cap nhat tam cua cum

Bước 5: Lap lai qua trinh gan va cập nhật tam: Lap lại bước gan và cập nhật

tâm cho đến khi tâm của các cụm không thay đôi đáng kẻ hoặc đạt số lần

lặp tối đa

2 Các hàm khoảng cách

2.1 Hàm Euclidean

Euclidean Distance còn được biết đến với cái tên L2 distance Để đo khoảng cách

D giữa các đối tượng thường dùng khoảng cách Euclidean Vì đây là mô hình khoảng

cách dễ để lấy đạo hàm và xác định các cực trị tối thiểu

Trang 10

Ưu điểm

« Phổ biến, đễ hiểu, đễ xây dựng , kết quá tốt trong nhiều usecase

« Đặc biệt hiệu quả với đữ liệu ít chiêu

Nhược điểm:

« Euclide đistance có thể bị ảnh hưởng bởi đơn vị của feature Chinh vi vậy cần

phải normalize trudc khi tính toán

¢ Van dé thir 2, khi số chiều vector space tăng lên, Euclide Distance trở nên kém hiệu quả Một phần nguyên nhân do đữ liệu thực tế thường không chỉ nằm trong Euclide Metric Space

2.2, Ham Cosine

Cosine similarity thường được sử dụng dé giải quyết vấn đề của Euclidean distance ở không gian nhiều chiều Ý tưởng đơn giản là tính góc tạo thành giữa 2 vector Giá trị sẽ tương đương với phép đot product nêu cả 2 vector được norm về giá tri 1

Cosine

Cosine similarity thường được sử dụng đề giải quyét van dé cia Euclidean distance

& khéng gian nhiéu chiéu Y tưởng don giản là tính góc tạo thành gitra 2 vector Gia tri sé tương đương với phép dot product nếu cả 2 vector được norm về giá tri 1

10

Trang 11

2 vecor cùng hướng sẽ co cosine similarity bang l và ngược hướng sẽ có gia tri -1 Lưu ý răng, chiêu dài không được sử dụng do đây là phương pháp tính theo hướng

x\\\\y

Nhược điểm:

« Không tận dụng độ lớn của vector, chỉ tính theo hướng

«_ Điều này vô tình làm mắt mát thông tin so sánh

Use case: Thường được sử dụng trong các đữ liệu đa chiều và không quá phụ thuộc

vào độ lớn của vector

2.3 Hàm Manhattan

Khoang cach Manhattan, con được gọi là khoảng cách LI hay khoảng cách trong thành phó, là một dạng khoảng cách giữa hai điểm trong không gian Euclid với hệ tọa độ Descartes Đại lượng này được tính bằng tông chiều đài của hình chiếu của đường thăng

nổi hai điểm này trong hệ trục tọa độ Descartes

Khoảng cách Manhattan còn được gọi là chiều dài Manhattan Nói cách khác, đó

là khoảng cách giữa hai điểm được đo đọc theo trục vuông góc

Khoảng cách Manhattan hoạt động rất tốt đôi với các bộ dữ liệu nhiều chiều Vì nó không lay bat kỳ ô vuông nào nên nó không khuếch đại sự khác biệt giữa bất kỳ tinh nang nao

Nó cũng không bỏ qua bắt kỳ tính năng nào

Trang 12

3 Các loại thuật toán trong Clustering

3.1 Thuật toán phần cụm K-means

3.1.1 Khái niệm

Thuật toán K-means là một thuật toán phân cụm (clustering) phố biến trong lĩnh vực học máy không giảm sát và trí tuệ nhân tạo

Mục tiêu: của thuật toán này là phân chia các điểm đữ liệu thành các nhóm

(clusters) sao cho các điểm trong cùng một nhóm có tính chất tương tự nhau, trong khi các nhóm khác nhau có tính chất khác biệt

Đầu vào: Tập đữ liệu không có nhãn với k số cụm

Đầu ra: Các cụm dữ liệu đã được phân chia

Hành động: Tập hợp các điểm gần nhau trong một không gian nào đó, có thê là không gian đa chiều khi thông tin về một điểm đữ liệu là rất lớn

3.1.2 Thuật toán

Khởi tạo các điểm trung tâm: Ban dau, khởi tạo k điểm đữ liệu từ tập đữ liệu làm

các trung tam cum (centroid)

Lặp lại các bước bên dưới đến khi hội tụ:

® Bước 1: Gán các điểm đữ liệu cho trung tâm gần nhất : Với mỗi điểm dữ liệu, tính khoảng cách từ điểm đó đến tat cả các trung tam cua cluster va gan điểm đó với cluster có trung tâm gần nhất

® Bước 2 Xác định lại điểm trung tâm: Sau khi mỗi điểm đữ liệu đã được gan vao mot cum (cluster), chúng ta sẽ tính toán lại trung tâm của từng cụm bằng cách lây trung bình của tất cả các điểm trong cluster đó

® Bước 3: Khi thuật toán hội tụ thì dùng lại

3.1.3 Điều kiện hội tụ (điều kiện dừng thuật toán)

Xác định điều kiện dừng thuật toán theo một số cách như sau:

® Cách I: Tại l vòng lặp: có ít các điểm đữ liệu được gan sang cluster khac

© Cách 2: Điểm trung tâm (centroid) không thay đổi nhiều

© Cách 3: Giá trị hàm mất mát không thay đổi nhiều, hay tông bình phương khoảng cách giữa các điểm đữ liệu và trung tâm của cluster mà chúng thuộc

về là nhỏ nhất

Trang 13

3.2 Phần cụm dữ liệu dựa trên mật độ không gian với thuật toán DBSCAN

3.2.1, Mô tả thuật toán:

Thuật toán Dbscan sẽ thực hiện lan truyền để mở rộng dần phạm vi của cụm cho tới khi chạm tới những điểm biên thì thuật toán sẽ chuyển sang một cụm mới và lặp lại tiếp quá trình trên Cụ thê bạn sẽ thấy được quá trình lan truyền này thông qua hình minh

Trang 14

3.2.2, Khái niệm vùng lân cận epsilon

Vùng lân cận epsilon (Eps- neighborhood) của một điểm dữ liệu P được định nghĩa

là tập hợp tất cả các điểm đữ liệu nằm trong phạm vi bán kính epsilon (kí hiệu e) xung quanh điểm P Kí hiệu tập hợp những điểm này là:

Neps(P) = {Q € D: d(P,Q) < e}

Trong đó D là tập hợp tất ca cac diém dit liéu cua tap huan luyén

3.2.3 Thuật toán:

Bước 2: Tìm toàn bộ những vùng lân cận của p với điêu kiện thỏa mãn tham sô epsilon:

Bước 5: Tiếp thuật cho tới khi toàn bộ dữ liệu đã được xử lí

Lưu ý: Ở các bước 1, 2, 3, 4 phải thỏa mãn điều kiện điểm p chưa được xét tới bao giờ

Căn cứ vào vị trí của các điểm đữ liệu so với cụm chúng ta có thê chia chúng thành ba loại:

« Điểm lõi: là các điểm nằm sâu bên trong cum chúng ta xem chúng là điểm lõi

« Điểm biên: là điểm nằm ở phần ngoài củng của cụm

« Điểm nhiễu: là điểm không thuộc bat kỷ một cụm nảo

Trang 15

3.3 Khác nhau của K-means, Dbscan

Thuật toán k-Means có thể phân cụm các quan sát có sự tương đồng một cách khả lỏng léo Sau mỗi vòng lặp của thuật toán thì mỗi một quan sát đều được phân vào một

cụm nhất định, thậm chí đó là những quan sát nhiễu (noise data) phan b6 cach xa tam

cụm Do đó trong thuật toán k-Means mọi điểm đều ảnh hưởng tới tâm cụm Chính vì điều này nên dẫn tới khi xuất hiện outliers sẽ ảnh hưởng tới độ chính xác của thuật toán cũng như chất lượng của cụm

Trong DBSCAN thì van dé này được khắc phục nhờ cơ chế hình thành cụm đặc

biệt mà ở đó các điểm dữ liệu nhiễu sẽ được tách thành một phân riêng Thậm chí là đối

với những phân phối có hình dạng đặc biệt mà k-Means không phân cụm tốt thì

DBSCAN cũng có thé phân cụm được như hình minh hoạ bên dưới:

Ngày đăng: 04/12/2024, 16:14

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w