Định nghĩa Clustering, hay con goi la phân cụm dữ liệu, là một kỹ thuật học máy được sử dụng để gom nhóm các đối tượng đữ liệu vào các nhóm riêng biệt sao cho các đối tượng trone củng mộ
Trang 1
BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC NGÂN HÀNG TP HO CHi MINH
TIỂU LUẬN NHÓM MÔN HỌC: PHẦN TÍCH DỮ LIỆU LỚN
CLUSTERING TRONG BIG DATA
Trang 2Thành phố Hồ Chí Minh, tháng 3 năm 2024
Trang 31 Định nghĩa Clustering, hay con goi la phân cụm dữ liệu, là một kỹ thuật học máy được
sử dụng để gom nhóm các đối tượng đữ liệu vào các nhóm riêng biệt sao cho các đối tượng trone củng một nhóm có sự tương đồng theo một tiêu chí nào đó Mục tiêu của clustering là tìm kiếm các cầu trúc ân và mô hình tự nhiên trong đữ liệu mà không cân sự can thiệp của con n8ười
2 Mục tiêu của phần cụm
2.1 Phát hiện nhóm dữ liệu
2.1.1 Nhóm các đối tượng có sự tương đồng:
- Phân loại:
+ Phan chia khách hàng thành các phân khúc dựa trên hanh vi mua săm,
sở thích, nhân khâu học (ví dụ: khách hàng tiềm năng, khách hàng trung thành, v.v.)
+ Phân loại tài liệu văn bản theo chu dé, thé loại, ngôn ngữ (ví dụ: tin tức, bài báo khoa học, tiêu thuyết, V.V.)
+ Nhóm các pixel trong ảnh theo màu sắc, hình dạng, kết cầu (ví dụ:
khuôn mặt, bầu trời, cây cối, v.v.)
+ Dy doan gia cô phiếu dựa trên dữ liệu thị trường lịch sử
+_ Khởi xướng các chiến lược tiếp thị hiệu quả dựa trên hành vi khách hàng
+ Phat triển các mô hình dự báo thời tiết chính xác hơn
Trang 4- Kham pha:
+ Xác định các xu hướng tiêu dùng trong thị trường bán lẻ
+ Phát hiện các chủ đề thảo luận phô biến trên mạng xã hội
+ Nhận diện các mối liên hệ tiềm ân giữa các yếu t6 trong dữ liệu
2.2 Hiểu rõ hơn về dữ liệu
+ Xây dựng mô hình mạng xã hội đề hiểu rõ hơn về cách thức tương tác
Ø1Ữa con người
+ Phát triển mô hình sinh học đề dự đoán tương tác giữa các protein
+ Tạo ra mô hình kinh tế để dự đoán xu hướng thị trường
2.2.2 Tìm ra quy luật:
- Quy tae:
+ Xác định các quy tắc chỉ phối hành vi của người dùng trong hệ thống + Phát hiện các quy tắc ân trong đữ liệu văn bản (ví dụ: ngữ pháp, ngữ nghĩa)
+ Tim ra các quy luật trong đữ liệu khoa học để giải thích các hiện tượng tự nhiên
Trang 5Lay mau ngau nhiên từ dữ liệu dé tao ra tập dữ liệu con nhỏ hơn
Sử dụng các kỹ thuật lấy mẫu không ngẫu nhiên đề chọn ra các điểm
đữ liệu đại diện
Giảm dung lượng lưu trữ và thời gian xử lý cho các thuật toán học
Tính toán các tỷ số: Tính toán tý số giữa các thuộc tính trong một
nhóm hoặc giữa các nhóm với nhau
- Phát triển:
+ Tạo ra các biên mới: Sử dụng kết qua clustering dé tao ra cac biên mới mang tính tông hợp, mô tả đặc điểm của các nhóm dữ liệu
Ket hop các biên: Kết hợp các biên từ nhiêu nguồn đữ liệu khác nhau
đề tạo ra các biên mới có ý nghĩa hơn
Trang 6+ Chuyến đổi dữ liệu: Chuyên đổi dữ liệu thô thành các dạng dữ liệu
phù hợp cho việc phân tích và mô hình hóa
2.4 Tăng cường khả năng diễn giải dữ liệu
2.4.1 Chuyển đổi dữ liệu phúc tạp:
Trực quan hóa:
+ Biến đổi dữ liệu đa chiều thành các nhóm dễ hiểu hơn bằng biểu dé,
hình ảnh
+ Sử dụng các kỹ thuật trực quan hóa dữ liệu để hiển thị các mối quan
hệ và xu hướng trong đữ liệu
+ Giúp người dùng đễ dàng nắm bắt ý nghĩa của dữ liệu
Thông tin chỉ tiết:
+ Cung cấp thông tin chỉ tiết về các phân khúc khách hàng, xu hướng thi trường, và các mối quan hệ tiềm ân trong đữ liệu
+ Hỗ trợ ra quyết định sáng suốt trong kinh doanh, khoa học, và chính phủ
+ Giúp người dùng đưa ra lựa chọn phù hợp dựa trên dữ liệu
Dự báo:
+ Dự đoán các xu hướng tương lai đựa trên kết quả clustering
+ Ước tính rủi ro và cơ hội tiềm an
+ Phat triển các chiến lược hiệu quả dựa trên đữ liệu
Các kiêu phân cum
Trang 73.1 Biêu diễn cụm:
Phân hoạch (Partitioning): Dữ liệu được chia thành các cụm riêng biệt, mỗi
dữ liệu chỉ thuộc một cụm duy nhất Ví dụ: k-means, k-medoids
Cây phân cấp (Hierarchical Clustering): Dữ liệu được biểu diễn dưới dạng cây phân cấp, thế hiện mối quan hệ và mức độ tương đồng giữa các cụm Ví dụ: agglomerative clustering, divisive clustering
3.2 Dbe diém phân cụm:
- _ Mỗi đối tượng thuộc/không thuộc một cụm duy nhất:
Phân cụm cứng (Hard Clustering): Mỗi đữ liệu chỉ thuộc một cụm duy nhất, không có sự chồng lấn giữa các cụm
Phan cum mém (Soft Clustering): Cho phép một dữ liệu có thể thuộc về nhiêu cụm với mức độ xác suât khác nhau
- Cac cum déu nhau/khéng déng déu:
Phân cụm hình cầu (Spherical Clustering): Giả định các cụm có hình dạng hình cầu với kích thước bằng nhau
Phân cụm không hình cầu (Non-spherical Clustering): Cho phép các cụm có
hình dạng và kích thước khác nhau
4 Ưu và nhược điểm Clustering
4.1 Ưu điểm của Clustering trong Big Data:
- _ Tóm tắt thông tin và đơn giản hóa dữ liệu:
Giảm dimensionality: Phân cụm giúp giảm số lượng đữ liệu cần xử lý bằng cách nhóm các dữ liệu có đặc điêm tương đồng lại với nhau
5
Trang 8Dễ dàng quản lý và phân tích: Việc quản lý và phân tích các nhóm dữ liệu
nhỏ gọn hơn sẽ đễ dàng hơn so với việc xử lý từng đữ liệu riêng lẻ
Cải thiện khả năng trực quan hóa: Phân cum giup đơn giản hóa đữ liệu, từ đó
dễ dang trực quan hóa đữ liệu hơn bằng biểu đồ hoặc hình ảnh
Vĩ dụ:
Phân cụm khách hàng dựa trên hành vi mua hàng dé dé dang quản lý các nhóm khách hàng khác nhau
Phân cụm các triệu chứng bệnh dé dé dang chân đoán bệnh
- _ Khám phá các mẫu ấn trong dữ liệu:
Xác định các nhóm dữ liệu có chung đặc điểm: Phân cụm giúp xác định các nhóm đữ liệu có chung đặc điểm mà có thể không dễ dàng nhận ra bằng mắt thường
Khám phá các ân ý và mối quan hệ ẩn: Phân cụm giúp khám phá các ân ý và
mỗi quan hệ ân trong dữ liệu, từ đó đưa ra những hiểu biết mới về đữ liệu
Vĩ dụ:
Phân cụm các giao dịch tài chính đề phát hiện các giao dịch gian lận Phân cụm các bài đăng trên mạng xã hội để xác định các xu hướng mới
- _ Nâng cao hiệu quả của các thuật toán khác:
Cải thiện hiệu quả của các thuật toán học máy: Phân cụm có thê được sử dụng như bước tiền xử lý dé cai thiện hiệu quả của các thuật toán học máy khác như phan loai (classification) hay dy doan (prediction)
Giảm thời gian và tài nguyên cần thiết: Việc xử lý các nhóm dữ liệu nhỏ gọn hơn sẽ ít tốn thời gian và tải nguyên hơn so với việc xử lý từng dữ liệu riêng lẻ
Vĩ dụ:
Phân cụm các đữ liệu hình ảnh trước khi áp dụng thuật toán nhận diện ảnh Phân cụm các dữ liệu văn bản trước khi áp dụng thuật toán phân loại văn bản
Trang 9- Hỗ trợra quyết định:
Cung cấp thông tin chỉ tiết về đữ liệu: Phân cụm giúp chia dữ liệu thành các nhóm dễ hiểu, từ đó cung cấp thông tin chỉ tiết về dữ liệu và hỗ trợ việc ra quyết
định hiệu quả hơn
Hỗ trợ xác định các nhóm khách hàng mục tiêu: Phân cụm giúp xác định các nhóm khách hàng mục tiêu để đưa ra chiến lược marketing phủ hợp
Hỗ trợ chân đoán bệnh: Phân cụm giup hỗ trợ chấn đoán bệnh bằng cách nhóm các triệu chứng bệnh lại với nhau
Vĩ dụ:
Phân cụm các dữ liệu về thị trường chứng khoán để đưa ra quyết định đầu tư Phân cụm các dữ liệu về bệnh nhân để đưa ra phương pháp điều trị phù hợp 4.2 Nhược điểm của Clustering trong Big Data:
- - Lựa chọn phương pháp phù hợp:
Có nhiều phương pháp Clustering khác nhau: Hiện nay, có rất nhiều phương pháp Clustering với ưu và nhược điểm riêng Lựa chọn phương pháp phù hợp phụ
thuộc vào loại đữ liệu, mục đích phân cụm và khả năng tính toán
Kho khan trong việc lựa chọn: Việc lựa chọn phương pháp phù hợp đòi hỏi người sử dụng phải có hiểu biết về các phương phap Clustering va kha nang đánh giá ưu nhược điểm của từng phương pháp
- _ Khó khăn trong việc đánh giá kết qua:
Tính chủ quan: Việc đánh giá chất lượng của các cụm phân chia không phải lúc nào cũng dé dàng, đặc biệt là với các tập dữ liệu phức tạp
Thiếu tiêu chí đánh giá chung: Không có một tiêu chí đánh gia chung nao cho tat cả các phương pháp Clustering
- Tinh nhạy cảm với nhiễu:
Ảnh hưởng của nhiễu: Một số phương pháp Clustering có thể nhạy cảm với nhiễu trong dữ liệu, dẫn đến kết quả phân cụm không chính xác
7
Trang 10Yêu cầu xử lý nhiễu: Việc xử lý nhiễu trước khi áp dụng Clustering là cần
thiết để đảm bảo kết quả chính xác
- _ Yêu cầu chuyên môn cao:
Kỹ năng cần thiết: Việc lựa chọn và ap dung Clustering cần được thực hiện bởi người có chuyên môn về khoa học dữ liệu và phân tích dữ liệu
5 Các phương pháp Clustering phố biến:
5.1 Phân cụm dựa trên điểm (k-means, k-medoids) Phân cụm dựa trên điểm là một phương pháp phân loại đữ liệu không giám sát, với mục tiêu chính là phân chia các điểm dữ liệu thành các nhóm (cụm) sao cho
dữ liệu trong mỗi nhóm có tính chất tương tự nhau càng nhiều càng tốt, và dữ liệu giữa các nhóm có tính chất khác biệt càng nhiều càng tốt Hai thuật toán phổ biến nhất cho phân cụm dựa trên điểm là K-means và K-medoids Dưới đây là một cái
nhìn tông quan về cả hai thuật toán này:
Khai niém K-means là một trone những thuật
toán phân cụm dựa trên điểm phô biến nhất, nó tìm cách tối ưu
khoảng cách Euchdean giữa các
điểm đữ liệu và tâm của cụm (centroid) ma ching được phân vao
Tuong tu nhu K-means, nhung thay vi su dung trung binh cua các điểm trong mỗi cụm để xác định tâm cụm, K-medoids chọn một điểm đữ liệu thực sự từ trong cum lam tâm
Khởi tao Chọn k điểm ngẫu nhiên trong dữ
liệu làm các tâm cụm ban dau
Chọn k điểm dữ liệu làm các
medoids ban đầu
Phân cụm
Phân mỗi điêm dữ liệu vào cụm có
tam pân nó nhất dựa trên khoảng cách Euclid Phân mỗi điểm dữ liệu vào cụm
voi medoid gan nhât
Trang 11
medoids
Lặp lại | Lặp lại bước 2 và 3 cho đến khi | Lặp lại các bước 2 và 3 cho đến
việc gắn cụm không thay đối nữa | khi không có sự thay đổi nào
hoặc đến khi đạt được một số vòng |tronp việc chọn medoid hoặc lặp tối đa đạt được số vòng lặp tối đa
Dữ liệu sử | Sử dụng trung bình của các điểm | Sử dụng điểm dữ liệu có tông dụng dir ligu trong cum lam tam cum khoang cach đến các điểm dữ
liệu khác trong cụm là nhỏ nhất làm medoid
cụm
Độ nhạy Nhạy cảm với nhiễu và các điểm | Ít nhạy cảm với nhiễu và các
Hoạt động | Hoạt động tốt với các cụm có hình | Hoạt động tốt với các cụm có tốt với dang gan cau hinh dang bat ky
5.2 Phân cụm dựa trên phân cấp (hierarchical clustering) Phân cụm dựa trên phân cấp (hierarchical clustering) là một kỹ thuật phân cụm khác, không yêu cầu xác định số lượng cụm trước khi thực hiện Thuật toán này xây dựng một cấu trúc cây (hierarchies) mà tại đó, các cụm con được kết hợp thành cụm lớn hơn ở các bước tiếp theo, hoặc ngược lại, các cụm lớn được chia nhỏ thành cụm con Có hai loại chính: phương pháp gộp (apslomerative) và phương
phap chia (divisive)
Trang 123.2.1 Phương pháp g6p (Agglomerative)
Là loại phô biến hơn, bắt đầu bằng cách coi mỗi điểm đữ liệu là một cụm riêng lẻ và sau đó gộp chúng lại với nhau dựa trên một tiêu chí tương đồng nhất định
- _ Cách thức hoạt động
Khởi tạo: Mỗi điểm đữ liệu được xem như một cụm riêng lẻ
Tìm cặp gần nhất: Tính toán khoảng cách giữa tất cả các cặp cụm và chọn cặp gần nhau nhất
Gộp cụm: Gộp hai cụm gần nhau nhất thành một cụm mới
Cập nhật khoảng cách: Tính toán lại khoảng cách ø1ữa các cụm mới với các cụm khác
Lặp lại: Lặp lại bước 2-4 cho đến khi chỉ còn một cụm duy nhất hoặc số cụm
mong muốn
- _ Có nhiều cách để đo khoảng cách giữa hai cụm, như:
Khoảng cách tối thiếu (Single linkage): Khoảng cách giữa hai cụm được định
nghĩa là khoảng cách giữa hai điểm gần nhau nhất từ hai cụm khác nhau
Khoang cach toi da (Complete linkage): Khoang cach giita hai cum được
định nghĩa là khoảng cách giữa hai điểm xa nhau nhất từ hai cụm khác nhau
Khoảng cách trung binh (Average linkage): Khoang cách piữa hai cụm được tính là trung bình cộng của khoảng cách giữa tất cả các cặp điểm từ hai cụm Khoảng cách trung tam (Centroid linkage): Khoang cach gitra hai cum duoc tính là khoảng cách p1ữa tam (centroid) cua chúng
3.2.2 Phương pháp chỉa (Divisive) Ngược lại với phương pháp gộp, phương pháp chia bắt đầu với toàn bộ dữ liệu như một cụm duy nhất và sau đó chia nhỏ nó thành các cụm nhỏ hơn
- _ Cách thức hoạt động
Khởi tạo: Bắt đầu với một cụm duy nhất chứa tất cả các điểm dữ liệu
10
Trang 13Tìm và chia cụm: Tìm cum dé chia va cach chia tot nhât dựa trên một tiêu chí tương đồng
Chia cụm: Chia cụm đã chọn thành hai cụm con
Lặp lại: Lặp lại bước 2-3 cho đến khi mỗi cụm chỉ chứa một điểm dữ liệu hoặc đạt được
5.3 Phân cụm dựa trên mật độ (DBSCAN, OPTICS) Phân cụm dựa trên mật độ là một phương pháp phân loại đữ liệu không giám sát, nhằm phát hiện các cụm dựa trên sự chênh lệch về mật độ đữ liệu trone không gian đặc trưng Hai thuật toán tiêu biểu cho phân cụm dựa trên mật độ là DBSCAN
Noise: Diém khéng phai core point va khéng phai border point
DBSCAN bắt đầu từ một điểm ngẫu nhiên, nếu nó là core pormt, thuật toán sẽ
khám phá và mở rộng cụm Quá trình này tiếp tục cho đến khi tất cả các điểm đã
Trang 14Có thể xác định cụm với hình đạng tủy ý
- Nhược điểm
Phụ thuộc vào giá trị `e` và `minPts'
Khó xác định tham số cho đữ liệu có mật độ biến đổi lớn
5.3.2 OPTICS (Ordering Points To Identify the Clustering Structure)
Khải niệm: OPTICS tương tự như DBSCAN nhưng khắc phục một số hạn chế về việc chọn tham số Nó tạo ra một thứ tự của điểm dữ liệu, biểu diễn cấu trúc không gian đữ liệu, từ đó có thể trích xuất các cụm ở các mức độ mật độ khác nhau
- - Cách thức hoạt động:
Xây dựng một "reachability plot" dựa trên khoảng cách mật độ, cho phép phát hiện các cụm ở mức độ mật độ khác nhau mà không cần đặt tham số cụ thể cho mật độ
Các cụm được trích xuất từ reachability plot dựa trên ngưỡng mật độ
- Uudiém:
Linh hoạt hơn DBSCAN trong việc xử lý dữ liệu có biến đôi mật độ lớn Không cần đặt gia trie cu thé
- Nhược điểm:
Phức tạp hơn và có thời ø1an chạy lâu hơn so với DBSCAN
Việc trích xuất cụm từ reachability plot có thé không trực quan và cần xử lý thêm
Cả DBSCAN và OPTICS đều là những công cụ mạnh mẽ cho việc phân cụm dựa trên mật độ, với khả năng phát hiện cụm có hình dạng phức tạp và xử lý nhiễu trong dữ liệu
6 Phương pháp do lường khoảng cách
6.1 Giới thiệu
12