PHẦN III HỌC KHÔNG GIÁM SÁT VÀ ỨNG DỤNG

Một phần của tài liệu BÀI GIẢNG HỌC MÁY Ngành Khoa học Máy tính (Trang 88 - 89)

III. Bài tập và thí nghiệm chương

PHẦN III HỌC KHÔNG GIÁM SÁT VÀ ỨNG DỤNG

CHƯƠNG 7

GIẢI THUẬT GOM CỤM K-MEAN

1.1.4 Bài tốn gom nhóm dữ liệu

Phân cụm (Clustering) là kỹ thuật thuộc lớp các phương pháp học khơng giám sát. Mục đích của phân cụm dữ liệu là tìm ra bản chất bên trong các nhóm của dữ liệu. Trong thực tế, dữ liệu thường khơng có nhiều thơng tin sẵn có (được gán nhãn) mà chúng ta cần phải xây dựng mơ hình gom cụm dữ liệu. Giả sử cho tập dữ liệu X={x1, x2,…, xm} gồm m phần tử. Mục đích của bài tốn gom nhóm dữ liệu là gom các phần tử lại với nhau để tạo thành các nhóm sao cho các phần tử tương tự nhau sẽ nằm chung một nhóm, các phần tử khác nhau sẽ nằm ở các nhóm khác nhau.

Ví dụ điển hình: Tại 1 huyện nào đó cần bố trí 3 cụm, đặt tên số cụm gọi là số K, mỗi cụm 1 trường

cấp 3. Cần chọn ví trí thế nào để đặt địa điểm của trường sao cho học sinh đến điểm học ngắn nhất. Kỹ thuật phân cụm dữ liệu có thể ứng dụng trong nhiều lĩnh vực thực tế như:

-Marketing: Xác định các nhóm khách hàng (khách hàng tiềm năng, khách hàng giá trị, phân loại và dự

đoán hành vi khách hàng…) sử dụng sản phẩm hay dịch vụ của cơng ty để giúp cơng ty có chiến lược kinh doanh hiệu quả hơn

-Biology: Phận nhóm động vật và thực vật dựa vào các thuộc tính của chúng -Libraries: Theo dõi độc giả, sách, dự đoán nhu cầu của độc giả…

-Insurance, Finance: Phân nhóm các đối tượng sử dụng bảo hiểm và các dịch vụ tài chính, dự đốn xu

hướng (Trend) của khách hàng, phát hiện gian lận tài chính (Identifying Frauds)

1.1.5 Giải thuật gom cụm k-Means

Một phần của tài liệu BÀI GIẢNG HỌC MÁY Ngành Khoa học Máy tính (Trang 88 - 89)

Tải bản đầy đủ (PDF)

(138 trang)