Các mô hình khai phá dữ liệu

Một phần của tài liệu kỹ thuật phân cụm dữ liệu ứng dụng trong gis (Trang 28 - 29)

Mô hình khai phá dữ liệu là mô tả về phương pháp, cách thức khai phá thông tin từ dữ liệu và định hướng kiểu tri thức cần khai phá.

Một mô hình khai phá dữ liệu có thể được mô tả ở 2 mức:

* Mức chức năng (Function level): Mô tả mô hình bằng những thuật ngữ về dự định sử dụng. Ví dụ: Phân lớp, phân cụm…

* Mức biểu diễn (Representation level): Biểu diễn cụ thể một mô hình. Ví dụ: Mô hình log-linear, cây phân lớp, phương pháp láng giềng gần nhất…

Các mô hình khai phá dữ liệu dựa trên 2 kiểu học: có giám sát và không giám sát (đôi khi được nói đến như là học trực tiếp và không trực tiếp -directed and undirected learning) [10].

* Các hàm học có giám sát (Supervised learning functions) được sử dụng để dự đoán giá trị. Một ví dụ của thuật toán học có giám sát bao gồm Naive Bayes cho phân lớp (classification).

* Các hàm học không giám sát được dùng để tìm ra cấu trúc bên trong, các quan hệ hoặc tính giống nhau trong nội dung dữ liệu nhưng không có lớp hay nhãn nào được gán ưu tiên. Ví dụ của các thuật toán học không giám sát gồm phân nhóm k-mean (k-mean clustering) và các luật kết hợp Apriori.

Tương ứng có 2 loại mô hình khai phá dữ liệu:

* Các mô hình dự báo (học có giám sát):

- Phân lớp: nhóm các đối tượng thành các lớp riêng biệt và dự đoán một đối tượng sẽ thuộc vào lớp nào.

- Hồi qui (Regression): xấp xỉ hàm và dự báo các giá trị liên tục

* Các mô hình mô tả (học không giám sát):

- Phân cụm (Clustering): Tìm các nhóm tự nhiên trong dữ liệu - Các mô hình kết hợp (Association models): Phân tích “giỏ hàng”

- Trích chọn đặc trưng (Feature extraction): Tạo các thuộc tính (đặc trưng) mới như là kết hợp của các thuộc tính ban đầu

Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/

Một phần của tài liệu kỹ thuật phân cụm dữ liệu ứng dụng trong gis (Trang 28 - 29)

Tải bản đầy đủ (PDF)

(65 trang)