Phân cụm và các thành phần trong phân cụm dữ liệu

Một phần của tài liệu Mạng nơ ron ứng dụng cho phân tích, đánh giá kết quả học tập của học sinh, sinh viên trường cao đẳng nghề (Trang 47)

1.3.3H oc khong co

2.2.1Phân cụm và các thành phần trong phân cụm dữ liệu

• Phân cụm dữ liệu là quá trình áp dụng các phương pháp, thuật toán để tổ chức dữ liệu thành các nhóm có những đặc điểm tương tự nhaụ Một cụm là một tập hợp dữ liệu mà các phần tử tương tự nhau ừong cùng một cụm và các phàn tử không tương tự sẽ thuộc một cụm khác. Phân tích cụm được sử dụng để đưa ra những số liệu thống kê nhằm xác định những đặc điểm khác nhau giữa các cụm.

• Mẩu đại diện: Đề cập đến số lớp, số mẫu có sẵn và số lượng, chủng loại, quy mô của các tính năng có sẵn cho các thuật toán phân cụm. Lựa

này có thể được sử dụng để có một tập hợp các đặc trưng được sử dụng trong phân cụm dữ liệụ

• Mẩu lân cận: Thường được đo bằng một hàm khoảng cách thực hiện trên từng cặp mẫụ Có nhiều phương pháp đo khoảng cách được áp dụng trong phân cụm dữ liệu trong đó phổ biến nhất là phương pháp đo khoảng cách Euclidẹ Các bước nhóm dữ liệu có thể được thực hiện bằng nhiều cách khác nhaụ Các cụm đầu ra có thể phân vùng dữ liệu thành các nhóm hoặc mỗi một mẫu có thể biến đổi các thành viên ừong cụm đầu rạ

• Trừu tượng hóa dữ liệu: Là quá trình rút ra một đại diện đơn và nhỏ gọn của một tập dữ liệụ Trong phân cụm dữ liệu trừu tượng hóa dữ liệu là mô tả nhỏ gọn mỗi cụm thường mô tả các cụm nguyên mẫu hoặc các mẫu đại diện trọng tâm. Đánh giá tính đúng đắn là mục tiêu và được thực hiện để xác định đầu ra có ý nghĩa hay không.

Một phần của tài liệu Mạng nơ ron ứng dụng cho phân tích, đánh giá kết quả học tập của học sinh, sinh viên trường cao đẳng nghề (Trang 47)