Tiểu luận nhóm môn học phân tích dữ liệu lớn clustering trong big data

Định nghĩa Clustering, hay con goi la phân cụm dữ liệu, là một kỹ thuật học máy được sử dụng để gom nhóm các đối tượng đữ liệu vào các nhóm riêng biệt sao cho các đối tượng trone củng mộ

Trang 1

BỘ GIÁO DỤC VÀ ĐÀO TẠO

TRƯỜNG ĐẠI HỌC NGÂN HÀNG TP HO CHi MINH

TIỂU LUẬN NHÓM MÔN HỌC: PHẦN TÍCH DỮ LIỆU LỚN

CLUSTERING TRONG BIG DATA

Trang 2

Thành phố Hồ Chí Minh, tháng 3 năm 2024

Trang 3

1 Định nghĩa Clustering, hay con goi la phân cụm dữ liệu, là một kỹ thuật học máy được

sử dụng để gom nhóm các đối tượng đữ liệu vào các nhóm riêng biệt sao cho các đối tượng trone củng một nhóm có sự tương đồng theo một tiêu chí nào đó Mục tiêu của clustering là tìm kiếm các cầu trúc ân và mô hình tự nhiên trong đữ liệu mà không cân sự can thiệp của con n8ười

2 Mục tiêu của phần cụm

2.1 Phát hiện nhóm dữ liệu

2.1.1 Nhóm các đối tượng có sự tương đồng:

- Phân loại:

+ Phan chia khách hàng thành các phân khúc dựa trên hanh vi mua săm,

sở thích, nhân khâu học (ví dụ: khách hàng tiềm năng, khách hàng trung thành, v.v.)

+ Phân loại tài liệu văn bản theo chu dé, thé loại, ngôn ngữ (ví dụ: tin tức, bài báo khoa học, tiêu thuyết, V.V.)

+ Nhóm các pixel trong ảnh theo màu sắc, hình dạng, kết cầu (ví dụ:

khuôn mặt, bầu trời, cây cối, v.v.)

+ Dy doan gia cô phiếu dựa trên dữ liệu thị trường lịch sử

+_ Khởi xướng các chiến lược tiếp thị hiệu quả dựa trên hành vi khách hàng

+ Phat triển các mô hình dự báo thời tiết chính xác hơn

Trang 4

- Kham pha:

+ Xác định các xu hướng tiêu dùng trong thị trường bán lẻ

+ Phát hiện các chủ đề thảo luận phô biến trên mạng xã hội

+ Nhận diện các mối liên hệ tiềm ân giữa các yếu t6 trong dữ liệu

2.2 Hiểu rõ hơn về dữ liệu

+ Xây dựng mô hình mạng xã hội đề hiểu rõ hơn về cách thức tương tác

Ø1Ữa con người

+ Phát triển mô hình sinh học đề dự đoán tương tác giữa các protein

+ Tạo ra mô hình kinh tế để dự đoán xu hướng thị trường

2.2.2 Tìm ra quy luật:

- Quy tae:

+ Xác định các quy tắc chỉ phối hành vi của người dùng trong hệ thống + Phát hiện các quy tắc ân trong đữ liệu văn bản (ví dụ: ngữ pháp, ngữ nghĩa)

+ Tim ra các quy luật trong đữ liệu khoa học để giải thích các hiện tượng tự nhiên

Trang 5

Lay mau ngau nhiên từ dữ liệu dé tao ra tập dữ liệu con nhỏ hơn

Sử dụng các kỹ thuật lấy mẫu không ngẫu nhiên đề chọn ra các điểm

đữ liệu đại diện

Giảm dung lượng lưu trữ và thời gian xử lý cho các thuật toán học

Tính toán các tỷ số: Tính toán tý số giữa các thuộc tính trong một

nhóm hoặc giữa các nhóm với nhau

- Phát triển:

+ Tạo ra các biên mới: Sử dụng kết qua clustering dé tao ra cac biên mới mang tính tông hợp, mô tả đặc điểm của các nhóm dữ liệu

Ket hop các biên: Kết hợp các biên từ nhiêu nguồn đữ liệu khác nhau

đề tạo ra các biên mới có ý nghĩa hơn

Trang 6

+ Chuyến đổi dữ liệu: Chuyên đổi dữ liệu thô thành các dạng dữ liệu

phù hợp cho việc phân tích và mô hình hóa

2.4 Tăng cường khả năng diễn giải dữ liệu

2.4.1 Chuyển đổi dữ liệu phúc tạp:

Trực quan hóa:

+ Biến đổi dữ liệu đa chiều thành các nhóm dễ hiểu hơn bằng biểu dé,

hình ảnh

+ Sử dụng các kỹ thuật trực quan hóa dữ liệu để hiển thị các mối quan

hệ và xu hướng trong đữ liệu

+ Giúp người dùng đễ dàng nắm bắt ý nghĩa của dữ liệu

Thông tin chỉ tiết:

+ Cung cấp thông tin chỉ tiết về các phân khúc khách hàng, xu hướng thi trường, và các mối quan hệ tiềm ân trong đữ liệu

+ Hỗ trợ ra quyết định sáng suốt trong kinh doanh, khoa học, và chính phủ

+ Giúp người dùng đưa ra lựa chọn phù hợp dựa trên dữ liệu

Dự báo:

+ Dự đoán các xu hướng tương lai đựa trên kết quả clustering

+ Ước tính rủi ro và cơ hội tiềm an

+ Phat triển các chiến lược hiệu quả dựa trên đữ liệu

Các kiêu phân cum

Trang 7

3.1 Biêu diễn cụm:

Phân hoạch (Partitioning): Dữ liệu được chia thành các cụm riêng biệt, mỗi

dữ liệu chỉ thuộc một cụm duy nhất Ví dụ: k-means, k-medoids

Cây phân cấp (Hierarchical Clustering): Dữ liệu được biểu diễn dưới dạng cây phân cấp, thế hiện mối quan hệ và mức độ tương đồng giữa các cụm Ví dụ: agglomerative clustering, divisive clustering

3.2 Dbe diém phân cụm:

- _ Mỗi đối tượng thuộc/không thuộc một cụm duy nhất:

Phân cụm cứng (Hard Clustering): Mỗi đữ liệu chỉ thuộc một cụm duy nhất, không có sự chồng lấn giữa các cụm

Phan cum mém (Soft Clustering): Cho phép một dữ liệu có thể thuộc về nhiêu cụm với mức độ xác suât khác nhau

- Cac cum déu nhau/khéng déng déu:

Phân cụm hình cầu (Spherical Clustering): Giả định các cụm có hình dạng hình cầu với kích thước bằng nhau

Phân cụm không hình cầu (Non-spherical Clustering): Cho phép các cụm có

hình dạng và kích thước khác nhau

4 Ưu và nhược điểm Clustering

4.1 Ưu điểm của Clustering trong Big Data:

- _ Tóm tắt thông tin và đơn giản hóa dữ liệu:

Giảm dimensionality: Phân cụm giúp giảm số lượng đữ liệu cần xử lý bằng cách nhóm các dữ liệu có đặc điêm tương đồng lại với nhau

5

Trang 8

Dễ dàng quản lý và phân tích: Việc quản lý và phân tích các nhóm dữ liệu

nhỏ gọn hơn sẽ đễ dàng hơn so với việc xử lý từng đữ liệu riêng lẻ

Cải thiện khả năng trực quan hóa: Phân cum giup đơn giản hóa đữ liệu, từ đó

dễ dang trực quan hóa đữ liệu hơn bằng biểu đồ hoặc hình ảnh

Vĩ dụ:

Phân cụm khách hàng dựa trên hành vi mua hàng dé dé dang quản lý các nhóm khách hàng khác nhau

Phân cụm các triệu chứng bệnh dé dé dang chân đoán bệnh

- _ Khám phá các mẫu ấn trong dữ liệu:

Xác định các nhóm dữ liệu có chung đặc điểm: Phân cụm giúp xác định các nhóm đữ liệu có chung đặc điểm mà có thể không dễ dàng nhận ra bằng mắt thường

Khám phá các ân ý và mối quan hệ ẩn: Phân cụm giúp khám phá các ân ý và

mỗi quan hệ ân trong dữ liệu, từ đó đưa ra những hiểu biết mới về đữ liệu

Vĩ dụ:

Phân cụm các giao dịch tài chính đề phát hiện các giao dịch gian lận Phân cụm các bài đăng trên mạng xã hội để xác định các xu hướng mới

- _ Nâng cao hiệu quả của các thuật toán khác:

Cải thiện hiệu quả của các thuật toán học máy: Phân cụm có thê được sử dụng như bước tiền xử lý dé cai thiện hiệu quả của các thuật toán học máy khác như phan loai (classification) hay dy doan (prediction)

Giảm thời gian và tài nguyên cần thiết: Việc xử lý các nhóm dữ liệu nhỏ gọn hơn sẽ ít tốn thời gian và tải nguyên hơn so với việc xử lý từng dữ liệu riêng lẻ

Vĩ dụ:

Phân cụm các đữ liệu hình ảnh trước khi áp dụng thuật toán nhận diện ảnh Phân cụm các dữ liệu văn bản trước khi áp dụng thuật toán phân loại văn bản

Trang 9

- Hỗ trợra quyết định:

Cung cấp thông tin chỉ tiết về đữ liệu: Phân cụm giúp chia dữ liệu thành các nhóm dễ hiểu, từ đó cung cấp thông tin chỉ tiết về dữ liệu và hỗ trợ việc ra quyết

định hiệu quả hơn

Hỗ trợ xác định các nhóm khách hàng mục tiêu: Phân cụm giúp xác định các nhóm khách hàng mục tiêu để đưa ra chiến lược marketing phủ hợp

Hỗ trợ chân đoán bệnh: Phân cụm giup hỗ trợ chấn đoán bệnh bằng cách nhóm các triệu chứng bệnh lại với nhau

Vĩ dụ:

Phân cụm các dữ liệu về thị trường chứng khoán để đưa ra quyết định đầu tư Phân cụm các dữ liệu về bệnh nhân để đưa ra phương pháp điều trị phù hợp 4.2 Nhược điểm của Clustering trong Big Data:

- - Lựa chọn phương pháp phù hợp:

Có nhiều phương pháp Clustering khác nhau: Hiện nay, có rất nhiều phương pháp Clustering với ưu và nhược điểm riêng Lựa chọn phương pháp phù hợp phụ

thuộc vào loại đữ liệu, mục đích phân cụm và khả năng tính toán

Kho khan trong việc lựa chọn: Việc lựa chọn phương pháp phù hợp đòi hỏi người sử dụng phải có hiểu biết về các phương phap Clustering va kha nang đánh giá ưu nhược điểm của từng phương pháp

- _ Khó khăn trong việc đánh giá kết qua:

Tính chủ quan: Việc đánh giá chất lượng của các cụm phân chia không phải lúc nào cũng dé dàng, đặc biệt là với các tập dữ liệu phức tạp

Thiếu tiêu chí đánh giá chung: Không có một tiêu chí đánh gia chung nao cho tat cả các phương pháp Clustering

- Tinh nhạy cảm với nhiễu:

Ảnh hưởng của nhiễu: Một số phương pháp Clustering có thể nhạy cảm với nhiễu trong dữ liệu, dẫn đến kết quả phân cụm không chính xác

7

Trang 10

Yêu cầu xử lý nhiễu: Việc xử lý nhiễu trước khi áp dụng Clustering là cần

thiết để đảm bảo kết quả chính xác

- _ Yêu cầu chuyên môn cao:

Kỹ năng cần thiết: Việc lựa chọn và ap dung Clustering cần được thực hiện bởi người có chuyên môn về khoa học dữ liệu và phân tích dữ liệu

5 Các phương pháp Clustering phố biến:

5.1 Phân cụm dựa trên điểm (k-means, k-medoids) Phân cụm dựa trên điểm là một phương pháp phân loại đữ liệu không giám sát, với mục tiêu chính là phân chia các điểm dữ liệu thành các nhóm (cụm) sao cho

dữ liệu trong mỗi nhóm có tính chất tương tự nhau càng nhiều càng tốt, và dữ liệu giữa các nhóm có tính chất khác biệt càng nhiều càng tốt Hai thuật toán phổ biến nhất cho phân cụm dựa trên điểm là K-means và K-medoids Dưới đây là một cái

nhìn tông quan về cả hai thuật toán này:

Khai niém K-means là một trone những thuật

toán phân cụm dựa trên điểm phô biến nhất, nó tìm cách tối ưu

khoảng cách Euchdean giữa các

điểm đữ liệu và tâm của cụm (centroid) ma ching được phân vao

Tuong tu nhu K-means, nhung thay vi su dung trung binh cua các điểm trong mỗi cụm để xác định tâm cụm, K-medoids chọn một điểm đữ liệu thực sự từ trong cum lam tâm

Khởi tao Chọn k điểm ngẫu nhiên trong dữ

liệu làm các tâm cụm ban dau

Chọn k điểm dữ liệu làm các

medoids ban đầu

Phân cụm

Phân mỗi điêm dữ liệu vào cụm có

tam pân nó nhất dựa trên khoảng cách Euclid Phân mỗi điểm dữ liệu vào cụm

voi medoid gan nhât

Trang 11

medoids

Lặp lại | Lặp lại bước 2 và 3 cho đến khi | Lặp lại các bước 2 và 3 cho đến

việc gắn cụm không thay đối nữa | khi không có sự thay đổi nào

hoặc đến khi đạt được một số vòng |tronp việc chọn medoid hoặc lặp tối đa đạt được số vòng lặp tối đa

Dữ liệu sử | Sử dụng trung bình của các điểm | Sử dụng điểm dữ liệu có tông dụng dir ligu trong cum lam tam cum khoang cach đến các điểm dữ

liệu khác trong cụm là nhỏ nhất làm medoid

cụm

Độ nhạy Nhạy cảm với nhiễu và các điểm | Ít nhạy cảm với nhiễu và các

Hoạt động | Hoạt động tốt với các cụm có hình | Hoạt động tốt với các cụm có tốt với dang gan cau hinh dang bat ky

5.2 Phân cụm dựa trên phân cấp (hierarchical clustering) Phân cụm dựa trên phân cấp (hierarchical clustering) là một kỹ thuật phân cụm khác, không yêu cầu xác định số lượng cụm trước khi thực hiện Thuật toán này xây dựng một cấu trúc cây (hierarchies) mà tại đó, các cụm con được kết hợp thành cụm lớn hơn ở các bước tiếp theo, hoặc ngược lại, các cụm lớn được chia nhỏ thành cụm con Có hai loại chính: phương pháp gộp (apslomerative) và phương

phap chia (divisive)

Trang 12

3.2.1 Phương pháp g6p (Agglomerative)

Là loại phô biến hơn, bắt đầu bằng cách coi mỗi điểm đữ liệu là một cụm riêng lẻ và sau đó gộp chúng lại với nhau dựa trên một tiêu chí tương đồng nhất định

- _ Cách thức hoạt động

Khởi tạo: Mỗi điểm đữ liệu được xem như một cụm riêng lẻ

Tìm cặp gần nhất: Tính toán khoảng cách giữa tất cả các cặp cụm và chọn cặp gần nhau nhất

Gộp cụm: Gộp hai cụm gần nhau nhất thành một cụm mới

Cập nhật khoảng cách: Tính toán lại khoảng cách ø1ữa các cụm mới với các cụm khác

Lặp lại: Lặp lại bước 2-4 cho đến khi chỉ còn một cụm duy nhất hoặc số cụm

mong muốn

- _ Có nhiều cách để đo khoảng cách giữa hai cụm, như:

Khoảng cách tối thiếu (Single linkage): Khoảng cách giữa hai cụm được định

nghĩa là khoảng cách giữa hai điểm gần nhau nhất từ hai cụm khác nhau

Khoang cach toi da (Complete linkage): Khoang cach giita hai cum được

định nghĩa là khoảng cách giữa hai điểm xa nhau nhất từ hai cụm khác nhau

Khoảng cách trung binh (Average linkage): Khoang cách piữa hai cụm được tính là trung bình cộng của khoảng cách giữa tất cả các cặp điểm từ hai cụm Khoảng cách trung tam (Centroid linkage): Khoang cach gitra hai cum duoc tính là khoảng cách p1ữa tam (centroid) cua chúng

3.2.2 Phương pháp chỉa (Divisive) Ngược lại với phương pháp gộp, phương pháp chia bắt đầu với toàn bộ dữ liệu như một cụm duy nhất và sau đó chia nhỏ nó thành các cụm nhỏ hơn

- _ Cách thức hoạt động

Khởi tạo: Bắt đầu với một cụm duy nhất chứa tất cả các điểm dữ liệu

10

Trang 13

Tìm và chia cụm: Tìm cum dé chia va cach chia tot nhât dựa trên một tiêu chí tương đồng

Chia cụm: Chia cụm đã chọn thành hai cụm con

Lặp lại: Lặp lại bước 2-3 cho đến khi mỗi cụm chỉ chứa một điểm dữ liệu hoặc đạt được

5.3 Phân cụm dựa trên mật độ (DBSCAN, OPTICS) Phân cụm dựa trên mật độ là một phương pháp phân loại đữ liệu không giám sát, nhằm phát hiện các cụm dựa trên sự chênh lệch về mật độ đữ liệu trone không gian đặc trưng Hai thuật toán tiêu biểu cho phân cụm dựa trên mật độ là DBSCAN

Noise: Diém khéng phai core point va khéng phai border point

DBSCAN bắt đầu từ một điểm ngẫu nhiên, nếu nó là core pormt, thuật toán sẽ

khám phá và mở rộng cụm Quá trình này tiếp tục cho đến khi tất cả các điểm đã

Trang 14

Có thể xác định cụm với hình đạng tủy ý

- Nhược điểm

Phụ thuộc vào giá trị `e` và `minPts'

Khó xác định tham số cho đữ liệu có mật độ biến đổi lớn

5.3.2 OPTICS (Ordering Points To Identify the Clustering Structure)

Khải niệm: OPTICS tương tự như DBSCAN nhưng khắc phục một số hạn chế về việc chọn tham số Nó tạo ra một thứ tự của điểm dữ liệu, biểu diễn cấu trúc không gian đữ liệu, từ đó có thể trích xuất các cụm ở các mức độ mật độ khác nhau

- - Cách thức hoạt động:

Xây dựng một "reachability plot" dựa trên khoảng cách mật độ, cho phép phát hiện các cụm ở mức độ mật độ khác nhau mà không cần đặt tham số cụ thể cho mật độ

Các cụm được trích xuất từ reachability plot dựa trên ngưỡng mật độ

- Uudiém:

Linh hoạt hơn DBSCAN trong việc xử lý dữ liệu có biến đôi mật độ lớn Không cần đặt gia trie cu thé

- Nhược điểm:

Phức tạp hơn và có thời ø1an chạy lâu hơn so với DBSCAN

Việc trích xuất cụm từ reachability plot có thé không trực quan và cần xử lý thêm

Cả DBSCAN và OPTICS đều là những công cụ mạnh mẽ cho việc phân cụm dựa trên mật độ, với khả năng phát hiện cụm có hình dạng phức tạp và xử lý nhiễu trong dữ liệu

6 Phương pháp do lường khoảng cách

6.1 Giới thiệu

12

Tiêu đề	Tiểu Luận Nhóm Môn Học: Phân Tích Dữ Liệu Lớn Clustering Trong Big Data
Tác giả	Nguyễn Minh Thư, Trần Đức Thịnh, Lộ Ngọc Thảo
Người hướng dẫn	TS. V6 Đức Vinh
Trường học	Trường Đại Học Ngân Hàng TP. Hồ Chí Minh
Chuyên ngành	Quản Trị Kinh Doanh
Thể loại	tiểu luận
Năm xuất bản	2024
Thành phố	Thành Phố Hồ Chí Minh

Định dạng
Số trang	25
Dung lượng	1,95 MB