Xây dựng cây phân lớp dựa theo Khóa

Một phần của tài liệu (LUẬN văn THẠC sĩ) nghiên cứu một số phương pháp tìm các luật kết hợp phân lớp trên tập mẫu học và ứng dụng (Trang 36 - 41)

Phương pháp phân lớp bằng cây quyết định ID3 và C4.5 được coi là hai phương pháp điển hình. Các thuật toán này thường có những hạn chế đó là phân mảnh tạo ra việc cần phân chia dữ liệu nhiều lần để bắt được tất cả các mẫu học(training examples). Việc phân chia lặp này làm giảm mất tính tổng quát của chúng đồng thời có thể làm bất lợi cho độ chính xác của việc phân lớp. Vấn đề lặp tạo nên việc một phân chia của cây con được cấu trúc nhiều lần và dẫn đến cây sẽ sâu hơn và khó hiểu được hơn. Đặc biệt với số các thuộc tính lớn và số bản ghi của tập mẫu học là lớn thì thường sẽ tạo ra cây phân lớp có kích thước và độ sâu lớn dẫn đến thời gian phân loại lâu hơn và cây khó hiểu hơn.

Phần trình bày dưới đây, luận văn sẽ trình bày thêm một phương pháp mở rộng, đó là phương pháp xây dựng cây phân lớp dựa trên khóa của mẫu học. Giả sử D là tập mẫu học (Training set) là một quan hệ trên lược đồ R(A1,

A2,…Am,C), trong đó A1,A2…Am là các thuộc tính không phân lớp của D. Không mất tính tổng quát, giả sử khóa K={A1,A2..As}, tất nhiên s ≤ m.

Ta xét tập mẫu học Dk mới được xây dựng từ D bằng cách chiếu D lên KC, có nghĩa là Dk sẽ chỉ gồm các bản ghi có các giá trị thuộc tính là các khóa và giá trị thuộc tính phân lớp C. Hay nói cách khác Dk là một quan hệ trên lược đồ Rk(A1,A2..As,C).

Gọi T là cây phân lớp với tập mẫu học là Dk.

Mệnh đề 3.1. Cây phân lớp T được xây dựng trên tập mẫu học khóa Dkphân lớp chính xác Dkthì cũng phân lớp chính xác tập mẫu học D.

Chứng minh

Trước hết ta cũng dễ thấy rằng k là khóa của D thì K cũng là khóa của Dk. Thật vậy do KC R, vì vậy nếu K → R trên D thì K → Rk trên Dk và nếu K là tối tiểu trên D thì K cũng tối tiểu trên Dk.

Giả sử với một mẫu học bất kì t’ Dk được T phân chính xác vào lớp c’ C.

Xét một mẫu học t D tương ứng với t’ (có nghĩa là t và t’ trùng nhau trên A1,A2,..As). Áp dụng phân lớp bằng T đối với t. Giả sử t được phân vào lớp c C, khi đó c’=c vì do K là khóa trên D nên K xác định duy nhất một bản ghi tD. Hay nói một cách khác trên D chỉ có duy nhất một bản ghi có giá trị trùng với t’ và giá trị c phải trùng với c’. Hay nói một cách khác nếu T phân t’ vào lớp c’ thì T cũng phân t vào lớp c’.

Mệnh đề được chứng minh.

Do số thuộc tính của Rk ít hơn hoặc cùng lắm là bằng số thuộc tính của R nên số lượng tính toán để xây dựng cây phân lớp trên Dk là nhỏ hơn số lượng tính toán để xây dựng cây quyết định trên D, đặc biệt khi khóa K được chọn là có ít phần tử.

Từ đây, chúng ta có thể thực hiện thuật toán xây dựng cây phân lớp với cải tiến sau:

Thuật toán 15(Xây dựng cây quyết định dựa theo khóa)

Bước 1: Xác định khóa K của tập mẫu học D (giả sử C là thuộc tính phân lớp). Trong các khóa tìm được ta chọn khóa tối tiểu có ít phần tử nhất thì tốt.

Bước 2: Áp dụng thuật toán xây dựng cây phân lớp trên tập mẫu học KC. Thuật toán xác định khóa K của tập mẫu học D được trình bày trong [[3]. Lê

Văn Phùng (2018), CSDL quan hệ].

Ví dụ:

Xét tập mẫu học sau, trong đó I là thuộc tính phân lớp. Ta có một khóa của tập mẫu học là: {A,B}

Bảng 1.3: Ví dụ tập mẫu học được phân lớp dựa theo khóa [8]

A B C D E F K I 1 1 2 1 1 2 0 Y 1 2 1 1 1 2 I Y 3 1 1 0 2 1 1 N 1 4 2 0 1 1 1 N 2 1 1 0 1 1 1 Y

Có thể xây dựng 2 cây phân lớp như trong hình dưới đây.

0

a) Cây phân lớp được xây dựng b) Cây phân lớp được xây dựng không dựa theo khóa dựa theo khóa {A,B}

Hình 1.4: Cây phân lớp xây dựng với 2 trường hợp

a) không dựa theo khóa b) có dựa theo khóa

Chúng ta nhận thấy cây T1 được xây dựng không dựa trên các thuộc tính khóa (trường hợp a), có độ sâu hơn so với cây T2 được xây dựng từ thuộc tính khóa (trường hợp b).

1.3.3. Xây dựng cây phân lớp nhờ các luật kết hợp phân lớp (Class Association Rules) trong bảng mẫu học

Giả sử D là tập dữ liệu mẫu học. Ta gọi một cặp giá trị (thuộc tính, giá trị) là một khoản mục.

Gọi I là tập các khoản mục trong D, Y là tập các nhãn của lớp. Chúng ta nói rằng một trường hợp d ∈ D chứa một tập con X của I (X ⊆ I), nếu X ⊆ d. Một luật kết hợp lớp (CAR) là một phép kéo theo dạng X → y, ở đây X ⊆ I, y

∈ Y. Một luật X → y đúng trên D với độ chắc chắn là c nếu c% các trường hợp của D chứa X thì cũng chứa nhãn lớp y.

c% = (số trường hợp chứa (X ∪ y))/ (Số trường hợp chứa X)*100

4 B A N Y N Y 3 T2 2 1 1,2 2 E N F D C Y N Y T1 1 2 2 1 1

Luật X → y có số hỗ trợ là s trên D nếu s% các trường hợp của D có chứa X và được gán với nhãn lớp y

s% = số trường hợp chứa (X ∪ y)/ |D| * 100

Với mỗi số Minsup cho trước, nếu luật thỏa mãn: c ≥ Minsup thì gọi nó là luật phổ biến (frequent rule item).

Với mỗi số Minconf cho trước, nếu luật thỏa mãn s ≥ Minconf thì gọi nó là luật chính xác.

Để thuận tiện ta lưu ý (X ∪ y) có thể viết là: X.y. Giả sử Y = {y1, y2, …, ym} là tập các nhãn của lớp.

Ví dụ < (A,1), (B,1), (class,1) > với A, B là các thuộc tính. Nếu số đếm hỗ trợ của condset {(A,1), (B,1)} là 3, số hỗ trợ của mục luật là 2 và tổng số các trường hợp của D là 10 thì khi đó ta có: số hỗ trợ mục luật là 20%, và hệ số chắc chắn là 66,7%. Nếu minsup = 10% thì mục luật thỏa mãn tiêu chuẩn minsup, ta gọi là phổ biến.

Đối với tất cả các mục luật mà có cùng condset, mục luật nào có hệ số chắc chắn cao nhất sẽ được chọn là luật có thể (possible rule-PR) biểu diễn tập hợp các mục luật này. Nếu có nhiều hơn một mục luật với cùng độ chắc chắn cao nhất, chúng ta sẽ chọn ngẫu nhiên 1 mục luật. Ví dụ, chúng ta có 2 mục luật có cùng condset:

1. {(A, 1), (B, 1), (class, 1)> 2. {(A, 1), (B, 1), (class, 2)>

Giả sử rằng số hỗ trợ của condset là 3. Số hỗ trợ của mục luật 1 là 2 và mục luật thứ hai là 1. Khi đó hệ số chắc chắn của mục luật 1 là 66,7% trong khi đó hệ số chắc chắn của mục luật thứ hai là 33,3%. Nếu chúng ta chỉ chọn các mục luật có hệ số chắn chắn >60% thì khi đó ta chỉ chọn mục luật sau:

CHƯƠNG 2.

MỘT SỐ PHƯƠNG PHÁP TÌM CÁC LUẬT KẾT HỢP PHÂN LỚP TRÊN TẬP MẪU HỌC

Một phần của tài liệu (LUẬN văn THẠC sĩ) nghiên cứu một số phương pháp tìm các luật kết hợp phân lớp trên tập mẫu học và ứng dụng (Trang 36 - 41)

Tải bản đầy đủ (PDF)

(74 trang)