Các kỹ thuật khai phá dữ liệu

CHƯƠNG II: XÂY DỰNG THUẬT TOÁN PHÂN LỚP C4 .5 VÀ NAIVE BAYES

2.2. Các kỹ thuật khai phá dữ liệu

Các kỹ thuật KPDL được chia thành 2 loại chính:

- Kỹ thuật KPDL mơ tả: Có nhiệm vụ mơ tả về các tính chất hoặc các đặc tính chung của DL trong CSDL hiện có. Nhóm kĩ thuật này gồm các phương pháp: Phân cụm (Clustering),

trực quan hóa (visualization), phân tích sự phát triển và độ lệch (evolution and deviation analyst), luật kết hợp (associacation).

- Kỹ thuật KPDL dự đoán: Đưa ra các dự đoán dựa trên các dữ liệu hiện thời: Phân lớp (Classification), hồi quy (Regression).

2.2.1. Phân lớp

Phân lớp (Classification/ Categorization) thực hiện việc xây dựng (mơ tả) các mơ hình (hàm) dự báo nhằm mô tả hoặc phát hiện các lớp hoặc khái niệm cho các dự báo tiếp theo. Phân lớp là một trong những bài tốn điển hình của KPDL và thường là phương pháp được

dùng phổ biến nhất khi làm việc với một tập hợp đối tượng [7]. Bằng cách sử dụng phân lớp con người tiến hành việc sắp xếp tìm kiếm các đối tượng một cách thuận lợi. Phân lớp DL nhằm rút trích các mơ tả các lớp DL hoặc dự đốn xu hướng DL. Nội dung của phân lớp chính là học một hàm ánh xạ các DL vào một trong một số lớp đã biết. Ví dụ, phân lớp khách hàng của ngân hàng thành nhiều loại dựa vào nguồn lợi và tiềm năng khách hàng mang lại cho ngân hàng, phân lớp các đối tượng học sinh có trong một lớp học nhận diện học sinh giỏi hay học sinh yếu để giáo viên có phương pháp hỗ trợ kịp thời các trường hợp

học sinh yếu kém trung bình.

Một số các thuật tốn phân lớp thơng dụng có thể kể đến như:

- Thuật tốn phân lớp bằng cây quyết định (decision tree - CQĐ): các giải thuật ID3, C4.5,

- Thuật toán phân lớp với Naive Bayes. - Thuật toán phân lớp với mạng Neural.

- Thuật toán phân lớp với k phần tử cận gần nhất (k-nearest neighbor) ...

Mục tiêu của phân lớp DL là dự đoán nhãn lớp cho các mẫu DL. Quá trình phân lớp DL gồm 2 bước: Xây dựng mơ hình và sử dụng mơ hình để phân lớp DL.

- Bước 1: Xây dựng mơ hình dựa trên việc phân tích các mẫu DL có sẵn. Mỗi mẫu tương ứng với một lớp, được quyết định bởi một thuộc tính gọi là thuộc tính phân lớp. Các lớp DL này còn được gọi là lớp DL huấn luyện (training data set). Dữ liệu huấn luyện là một tập các phần tử có gán mơ tả DL và nhãn tương ứng của bản ghi đó nhãn Các nhãn lớp của dữ liệu đều phải được xác định trước khi xây dựng mơ hình. Bước này được gọi là bước học (learning step) hay pha học (learning phase).

- Bước 2: Sử dụng mơ hình để phân lớp DL. Đầu tiên, chúng ta phải tính độ chính xác của mơ hình. Nếu độ chính xác là chấp nhận được, mơ hình sẽ được sử dụng để dự đoán nhãn lớp cho các dữ liệu tương lai [7]. Để tránh hiện tượng quá phù hợp, một tập DL khác gọi là tập DL kiểm thử (testing set) sẽ được sử dụng để đo độ chính xác của mơ hình. Thơng thường tập dữ liệu kiểm thử khơng chứa bất kỳ phần tử DL nào nằm trong tập dữ liệu huấn luyện

Hình 9. Các bước của phân lớp dữ liệu

Khóa luận tốt nghiệp

2.2.2. Phân cụm.

Phân cụm (Clustering) thực hiện việc nhóm DL thành các “cụm” (có thể nói là các lớp mới) để có thể phát hiện được các mẫu phân bổ DL trong miền ứng dụng. Phân cụm là một

bài tốn mơ tả hướng tới việc nhận biết một tập hữu hạn các cụm hoặc cá lớp để mô tả dữ liệu. Các cụm (lớp) có thể tách rời nhau và toàn phần (tạo nên một phân hoạch cho tập DL)

hoặc được trình bày đẹp hơn như phân lớp có thứ bậc hoặc có thể giao nhau. Ví dụ như bài

tốn phát hiện các nhóm người tiêu dụng trong CSDL tiếp thị. Thơng thường, mục tiêu định hướng của bài toán phân cụm là cực đại tính tương đồng giữa các phần tử trong mỗi cụm và cực tiểu tính tương đồng giữa các phần tử thuộc các cụm khác nhau.

Trong nhiều trường hợp, phân cụm còn được gọi là học máy không giám sát (unsupervised learning) và phân lớp còn được gọi là học máy giám sát (supervised learning). Tuy cùng sử dụng học máy nhưng phân lớp thuộc loại KPDL dự báo cịn phân cụm thuộc loại KPDL mơ tả.

Trong một số ứng dụng, bài toán phân đoạn (segmentation) cần được giải quyết. Về nội dung, phân đoạn là tổ hợp của phân cụm và phân lớp, trong đó phân cụm được tiền hành trước và sau đó là phân lớp.

Mục tiêu chính của phân cụm là nhóm các đối tượng tương tự nhau trong tập DL vào các cụm sao cho các đội tượng cùng thuộc 1 cụm là tương đồng cụm khác cụm sẽ là không

tương đồng [2].

Phân cụm DL được sử dụng nhiều trong các ứng dụng về phân loại thị trường, phân loại KH, nhận dạng mẫu, phân loại trang web... Ngoài ra phân cụm DL cịn có thể được sử dụng trong một bước tiền xử lý cho các thuật tốn KPDL khác.

Hình 10. Minh họa cho phương pháp phân cụm dữ liệu

2.2.3. Luật kết hợp

Một bài toán quan trọng trong KPDL là phát hiện mối quan hệ kết hợp (associative relation) trong tập DL. Quan hệ kết hợp giữa các biến DL là một trong những mối quan hệ

kết hợp điển hình, trong đó bài tốn khai phá luật kết hợp (associative rule) là một bài tốn

điển hình. Bài tốn khai phá luật kết hợp (thuộc lớp phát hiện quan hệ kết hợp) thực hiện việc phát hiện ra mối quan hệ giữa các tập thuộc tính (các tập biến) có dạng X→Y, trong

đó X, Y là hai tập thuộc tính. Ve hình thức, luật kết hợp có dạng giống như phụ thuộc hàm

Hình 11. Các bước xây dựng luật kết hợp

Quy trình khai phá dữ liệu

Tập dữ liệu của thuật toán Naive Bayes