Khai phá dữ liệu

Một phần của tài liệu (LUẬN văn THẠC sĩ) tìm hiểu phương pháp xây dựng và khai thác kho dữ liệu điểm dựa trên kỹ thuật OLAP 04 (Trang 28 - 30)

2 14 Lược đồ kho dữ liệu

2.3. Khai phá dữ liệu

2.3.1. Khái niệm

Khai phá dữ liệu là quá trình “Trích chọn các mẫu hoặc tri thức hấp dẫn (khơng tầm thường, ẩn, chưa biết và hữu dụng tiềm năng) từ một tập hợp lớn dữ liệu” Bất cứ tên gọi nào, bản chất của lĩnh v c khai phá dữ liệu là tìm kiếm tri thức mới và hữu ích trong dữ liệu.[2]

Ngồi thuật ngữ khai phá dữ liệu được dùng phổ biến, cịn cĩ nhiều thuật ngữ khác mang ý nghĩa tương t như khai phá kiến thức từ dữ liệu (knowledge mining from data), phân tích dữ liệu/mẫu (data/pattern analysis), khảo cổ dữ liệu (data archaeology),…

Khai phá dữ liệu là một bước trong quá trình phát hiện tri thức từ cơ sở dữ liệu. Các bước trong quá trình phát hiện tri thức từ cơ sở dữ liệu được mơ tả trong hình 2.7.

Hình 2.7 Các bước trong quá trình khám phá tri thức

Quá trình phát hiện tri thức từ cơ sở dữ liệu bao gồm một chuỗi lặp đi lặp lại các bước sau:

1. Làm sạch dữ liệu: để loại bỏ nhiễu và những dữ liệu khơng phù hợp 2. Tích hợp dữ liệu: là quá trình tổng hợp dữ liệu từ nhiều nguồn khác nhau.

3. Chọn lọc dữ liệu: Những dữ liệu liên quan đến nhiệm vụ phân tích được l a chọn từ cơ sở dữ liệu.

4. Chuyển đổi dữ liệu: Ở bước này dữ liệu sẽ được biến đổi hoặc hợp nhất thành các dạng phù hợp cho việc khai phá.

5. Khai phá dữ liệu: đây là bước xử lý cần thiết, ở bước này các phương pháp thơng minh được áp dụng để trích xuất các mẫu dữ liệu.

6. Đánh giá mẫu: bước này th c hiện đánh giá các mẫu d a vào một số độ đo

7. Trình diễn tri thức: ở bước này sẽ sử dụng các kỹ thuật để trình diễn tri thức và tr c quan hĩa các tri thức khai phá được đến người dùng.

Từ bước 1 đến bước 4 là các dạng khác nhau của quá trình tiền xử lý dữ liệu.

2.3.2. Một số phƣơng pháp phổ biến trong khai phá dữ liệu

Trong khai phá dữ liệu, cĩ một số phương pháp phổ biến và thường được sử dụng là: phân lớp dữ liệu, phân cụm dữ liệu, khai phá luật kết hợp, hồi quy [7].

Phân lớp dữ liệu: Phân lớp dữ liệu là một trong những nhiệm vụ phổ biến nhất. Mục tiêu của nhiệm vụ này là xếp các đối tượng vào trong những lớp đã biết d a trên

sử dụng cho phân lớp dữ liệu bao gồm: Cây quyết định, mạng nơron, và thuật tốn Nạve Bayes.

Phân cụm dữ liệu: Nhiệm vụ của phân cụm dữ liệu là nhĩm các đối tượng trong một tập hợp dữ liệu vào từng cụm d a trên một tập các thuộc tính, để sao cho mức độ tương t giữa các đối tượng trong cùng một cụm là lớn nhất và mức độ tương t giữa các đối tượng thuộc các cụm khác nhau là nhỏ nhất.

Khai phá luật kết hợp: Mục tiêu của nhiệm vụ này là tìm ra các tập mục phổ biến và các luật kết hợp. Các luật được đưa ra biểu diễn tri thức ở dạng tương đối đơn giản, tuy nhiên nĩ lại cĩ ý nghĩa rất quan trọng trong lĩnh v c khai phá dữ liệu nhằm hỗ trợ cho việc ra quyết định.

Hồi quy: Hồi quy là việc học một hàm ánh xạ từ một mẫu dữ liệu thành một biến d đốn cĩ giá trị th c. Nhiệm vụ của hồi quy tương t như phân lớp dữ liệu. S khác biệt chính đĩ là thuộc tính d đốn là liên tục.

Một phần của tài liệu (LUẬN văn THẠC sĩ) tìm hiểu phương pháp xây dựng và khai thác kho dữ liệu điểm dựa trên kỹ thuật OLAP 04 (Trang 28 - 30)