Hệ quyết định rút gọn thuộc tính Đau đầu

Khóa luận tốt nghiệp Cử nhân tài năng 02 – Khoa học máy tính Trang 28 c. Thuật toán quyết định (Decision Algorithm)

Hai rút gọn tìm được đều ra dạng thu gọn tối ưu của Hệ quyết định Bảng 2.4. Xem xét dạng rút gọn {a, c} và Bảng 2.6, có thể biểu diễn kết quả của Bảng 2.6 theo một dạng gọi là thuật toán quyết định như sau:

p1: if (Đau đầu=không) and (Nhiệt độ=cao) then (Cảm cúm=có) p2: if (Đau đầu=có) and (Nhiệt độ=cao) then (Cảm cúm=có) p3: if (Đau đầu=có) and (Nhiệt độ=rất cao) then (Cảm cúm=có)

p4: if (Đau đầu=không) and (Nhiệt độ=bình thường) then (Cảm cúm=không) p5: if (Đauđầu=có) and (Nhiệt độ=cao) then (Cảm cúm=không)

p6: if (Đau đầu=không) and (Nhiệt độ=rất cao) then (Cảm cúm=có)

Đây chính là các luật quyết định (decision rules) rút ra từ Hệ quyết định “chuẩn đoán Cảm cúm”. Dựa vào nó, ta có thể dễ dàng xác định được một bệnh nhân có bị Cảm cúm hay không dựa vào các triệu chứng của bện nhân đó.

Tập hợp các luật quyết định gọi là thuật toán quyết định (decision algorithm). Nó cho thấy quy luật tổng quát của tập dữ liệu đang sử dụng. Các luật quyết định trong thuật toán quyết định là duy nhất và có biểu thức điều kiện luôn khác nhau.

Ngoài việc rút gọn thuộc tính, bài toán trên lý thuyết tập thô còn có thể rút gọn các giá trị thuộc tính để làm tăng tính hiệu quả của thuật toán quyết định. Nhưng việc rút gọn giá trị thuộc tính thường không đơn giản và đôi khi chi phí bỏ ra rút gọn giá trị của thuộc tính còn lớn hơn nhiều chi phí khi không xử lý rút gọn giá trị thuộc tính.

2.2.2.3.5 Bài toán rút gọn thuộc tính trong lý thuyết tập thô

Một vấn đề then chốt trong nghiên cứu lý thuyết tập thô chính là rút gọn thuộc tính. Khi xử lý với dữ liệu lớn, một hệ thống máy tính sẽ tốn thời gian rất lâu hoặc có thể bị treo, tắt, thiếu tài nguyên dẫn tới trì trệ toàn hệ thống. Bên cạnh đó, việc thu thập thông tin về một số thuộc tính thừa sẽ gây lãng phí, tốn nhiều thời gian, công sức. Rút gọn thuộc tính, hay còn gọi là việc lựa chọn đặc trưng, loại bỏ những thuộc tính không thật sự cần thiết trong hệ thông tin và cải tiến hiệu quả của tiến trình phân tích dữ liệu. Nhưng việc giải quyết bài toán

Khóa luận tốt nghiệp Cử nhân tài năng 02 – Khoa học máy tính Trang 29 rút gọn thuộc tính là một vấn đề vô cùng khó khăn và thuộc lớp bài toán NP-khó (NP-hard problem).

NP (nondeterministic polynomial) là lớp các bài toán quyết định mà để xác định câu trả lời của nó chúng ta có thể đưa ra các bằng chứng ngắn gọn dễ kiểm tra.

Ví dụ: Bài toán kiểm tra tính hợp số: “Có phải n là hợp số không?” là một bài toán lớp NP. Để xác nhận câu trả lời ‘yes’ cho đầu vào n ta có thể đưa ra một ước số b (1<b<n) của n. Để kiểm tra xem b có phải là ước số của n hay không ta có thể thực hiện phép chia n cho b sau thời gian đa thức. Trong ví dụ này dễ thấy b là bằng chứng ngắn gọn (b<n) và dễ kiểm tra (có thuật toán thời gian tính đa thức để kiểm tra xem b có là ước số của n).

NP-khó là lớp bài toán không có thuật toán để giải nó theo thời gian đa thức mà chỉ có những thuật toán giải trong thời gian hàm mũ [20] (xem thêm Phụ lục B)

Nhiều nghiên cứu hiện nay về lý thuyết tập thô đều tập trung vào giải quyết bài toán rút gọn thuộc tính này một cách có hiệu quả. Kỹ thuật rút gọn sử dụng ma trận phân biệt (discernibility function) chính là kỹ thuật cơ bản nhất và được nhiều nhà nghiên cứu hiện nay sử dụng.

Việc rút trích ra hàm phân biệt từ mà trận phân biệt và đơn giản hàm phân biệt để tìm ra một tập rút gọn các thuộc tính của hệ quyết định là phương pháp phổ biến. Nhưng rút gọn hàm phân biệt cũng là một bài toán dạng NP-khó.

Bên cạnh việc rút gọn hàm phân biệt gặp không ít khó khăn, nhiều nhà nghiên cứu quan tâm đến việc biến đổi ma trận phân biệt thành những dạng đơn giản. Với một ma trận đơn giản, ta có thể dễ dàng lấy được hàm phân biệt tối tiểu và tìm ra những thuộc tính quan trọng trong một hệ quyết định.

Vấn đề chính của các phương pháp về ma trận phân biệt là chúng yêu cầu không gian bộ nhớ quá lớn |U|x|U|, U là không gian hữu hạn khác rỗng các đối tượng. Gần như là không thể áp dụng trực tiếp các phương pháp này trên các tập dữ liệu có chứa một lượng lớn đối tượng. Người ta cũng nghiên cứu nhiều phương án thay thế nhằm tránh phải dùng ma trận phân biệt trong phân tích dữ liệu trên lý thuyết tập thô. Hai cách tiếp cận không sử dụng ma trận phân biệt được nhiều nhà nghiên cứu sử dụng nhất là sử dụng sự phụ thuộc giữa các thuộc tính (dependency of attributes) và sử dụng các thuật toán tìm kiếm ngẫu nhiên.

Khóa luận tốt nghiệp Cử nhân tài năng 02 – Khoa học máy tính Trang 30

2.2.2.3.6 Tập thô và công thức Bayes

Những đối tượng nằm ở vùng biên của tập thô thường mang những giá trị không chắc chắn và cần có một phương pháp phân tích, thống kê để có thể xây dựng thuật toán quyết định phù hợp cho các đối tượng này. Trong thống kê, công thức Bayes luôn chứng tỏ là công cụ hữu hiệu để phân tích và dự đoán dữ liệu. Việc áp dụng công thức Bayes vào lý thuyết tập thô, được cha đẻ Tập thô là Pawlak giới thiệu, đã giải quyết được một số vấn đề khó khăn còn tồn đọng và gia tăng mức độ chính xác của thuật toán quyết định [22].

Xem xét một ví dụ sau:

Đối tượng Bệnh Tuổi Giới tính Kiểm tra Support Certainty

1 có già nam + 400 0.91

2 có trung niên nữ + 80 0.57

3 không già nam – 100 1.00

4 có già nam – 40 0.09

5 không trẻ nữ – 220 1.00

6 có trung niên nữ – 60 0.43

Hệ quyết định rút gọn thuộc tính Đau đầu

Bảng chuẩn đoán kết quả Bệnh tật

MÔ HÌNH PHÂN TÍCH ĐẶC TRƯNG CỦA GREEN