chuyên gia
3.1.3. Một số ph−ơng pháp khai phá dữ liệu
Tìm các mẫu trong CSDL hoặc các mô hình phù hợp với dữ liệu. Các lớp chính của các ph−ơng pháp khai phá dữ liệu.
(1). Lớp các thuật toán làm mô hình dự báo:
- Phân lớp (classification): phân lớp một mục (hoặc một lớp) dữ liệu vào một trong số một vài lớp đ−ợc định nghĩa tr−ớc. Đây là kỹ thuật khai phá dữ liệu đ−ợc áp dụng thông dụng nhất, để phát triển một mô hình phân lớp một số l−ợng lớn các bản ghi. Cách tiếp cận này th−ờng xuyên sử dụng các thuật toán phân lớp cây quyết định. Dữ liệu (Các mẫu ban đầu- example) i ⇒ ⇒ ⇒
Các thông số điều khiển
Tạo các mẫu
Thuật toán khai phá dữ liệu Tìm kiếm trong một không gian rất lớn (vô hạn) các mẫu Ng−ời sử dụng hay nhà phân tích
- Hồi qui (regression): tìm ra ảnh h−ởng của một mục dữ liệu vào đối với dữ liệu ra.
(2). Lớp các thuật toán phân cụm (clustering):
Nhận dạng một tập hữu hạn các cụm (cluster) để miêu tả dữ liệu. Hay nói cách khác phân cụm là quá trình chia một tập dữ liệu thành các nhóm phân biệt. Quá trình gán này đ−ợc thực hiện một cách tự động bởi thuật toán phân cụm nhận dạng các tính chất khác biệt của tập dữ liệu và sau đó phân vùng không gian n-chiều đ−ợc định nghĩa bởi các thuộc tính của tập dữ liệu. Kỹ thuật này hỗ trợ sự phát triển của các mô hình phân cụm. Phân cụm th−ờng là một trong các b−ớc đầu tiên trong phân tích khai phá dữ liệu. Nó nhận dạng các nhóm các bản ghi quan hệ với nhau nh− là điểm bắt đầu khám phá các mối quan hệ khác.
(3). Các ph−ơng pháp mô hình hoá phụ thuộc:
Tìm một mô hình miêu tả các phụ thuộc dấu hiệu giữa các biến, nh− mô hình đồ thị...
(4). Mô hình tổng kết:
Tìm một miêu tả cô đọng đối với một tập con dữ liệu, các mối quan hệ giữa các tr−ờng.
- Kết hợp (Association): cách tiếp cận kết hợp th−ờng biểu diễn các mối quan hệ tin tức tổng hợp d−ới dạng các luật quan hệ tin t−ởng.
- Visualization: các kỹ thuật này có thể dễ dàng chỉ ra các giá trị không nằm trong phạm vi mong muốn một cách rõ ràng.
(5). Các ph−ơng pháp phát hiện sự thay đổi và sự lệch h−ớng trong dữ liệu hoặc tri thức phát hiện những thay đổi đáng kể nhất trong dữ liệu.