Các thuật tốn khai phá dữ liệu bằng cây quyết định:

Một phần của tài liệu Tiểu luận môn hệ hỗ trợ quyết định Tìm hiểu datamining qua bài báo và ứng dụng cây quyết định dự báo sức khỏe dựa vào việc xem mạch trong đông y (Trang 26)

5. Kết luận:

2.2. Các thuật tốn khai phá dữ liệu bằng cây quyết định:

Trong khuơn khổ bài thu hoạch này, chúng em chỉ tập trung vào thuật tốn ID3, các thuật tốn khác như CLS, C4.5, SLIQ, … sẽ khơng đề cập đến.

2.2.1. Thuật tốn ID3:

Thuật tốn ID3 được phát biểu bởi Quinlan (trường đại học Syney, Australia) và được cơng bố vào cuối thập niên 70 của thế kỷ 20. Sau đĩ, thuật tốn ID3 được giới thiệu và trình bày trong mục Induction on decision trees, machine learning năm 1986. ID3 được xem như là một cải tiến của CLS với khả năng lựa chọn thuộc tính tốt nhất để tiếp tục triển khai cây tại mỗi bước. ID3 xây dựng cây quyết định từ trên- xuống (top -down).

Entropy: dùng để đo tính thuần nhất của một tập dữ liệu. Entropy của một tập S được tính theo cơng thức: Entropy(S)= - P log (+ 2 P+) P log (− - 2 P−)

Trong trường hợp các mẫu dữ liệu cĩ hai thuộc tính phân lớp "yes" (+), "no" (-). Ký hiệu p+ là để chỉ tỷ lệ các mẫu cĩ giá trị của thuộc tính quyết định là "yes", và p- là tỷ lệ các mẫu cĩ giá trị của thuộc tính quyết định là "no" trong tập S.

Trường hợp tổng quát, đối với tập con S cĩ n phân lớp thì ta cĩ cơng thức sau:

n

i 2 i=1

Entropy(S)= ∑(- P log ( ))Pi

Trong đĩ: Pi là tỷ lệ các mẫu thuộc lớp i trên tập hợp S các mẫu kiểm tra. Các trường hợp đặc biệt:

− Nếu tất cả các mẫu thành viên trong tập S đều thuộc cùng một lớp thì Entropy(S)=0

− Nếu trong tập S cĩ số mẫu phân bổ đều nhau vào các lớp thì Entropy(S)=1

Information Gain (viết tắt là Gain): Gain là đại lượng dùng để đo tính hiệu quả của một thuộc tính được lựa chọn cho việc phân lớp. Đại lượng này được tính thơng qua hai giá trị Information và Entropy.

− Cho tập dữ liệu S gồm cĩ n thuộc tính Ai (i=1,2…n) giá trị Information của thuộc tính Ai ký hiệu là Information(Ai) được xác định bởi cơng thức .

n

i 2

i=1

Information(A ) = -∑log ( ) Entropy(S)pi =

Giá trị Gain của thuộc tính A trong tập S ký hiệu là Gain(S,A) và được tính theo cơng thức sau:

v

v v value(A)

S

( , ) Information(A) - Entropy(A)= Entropy(S)- Entropy(S ) S

Gain S A

= ∑

Trong đĩ:

• S là tập hợp ban đầu với thuộc tính A. Các giá trị của v tương ứng là các giá trị của thuộc tính A.

• Sv bằng tập hợp con của tập S mà cĩ thuộc tính A mang giá trị v.

• |Sv| là số phần tử của tập Sv.

• |S| là số phần tử của tập S.

Trong quá trình xây dựng cây quyết định theo thuật tốn ID3 tại mỗi bước triển khai cây, thuộc tính được chọn để triển khai là thuộc tính cĩ giá trị Gain lớn nhất.

Hàm xây dựng cây quyết định trong thuật tốn ID3

Function induce_tree(tập_ví_dụ, tập_thuộc_tính)

begin

if mọi ví dụ trong tập_ví_dụ đều nằm trong cùng một lớp then return một nút lá được gán nhãn bởi lớp đĩ

else if tập_thuộc_tính là rỗng then

return nút lá được gán nhãn bởi tuyển của tất cả các lớp trong tập_ví_dụ

else begin

chọn một thuộc tính P, lấy nĩ làm gốc cho cây hiện tại; xĩa P ra khỏi tập_thuộc_tính;

với mỗi giá trị V của P

begin

tạo một nhánh của cây gán nhãn V;

Đặt vào phân_vùngV các ví dụ trong tập_ví_dụ cĩ giá trị V tại thuộc tính P;

Gọi induce_tree(phân_vùngV, tập_thuộc_tính), gắn kết quả vào nhánh V

end end end

Với việc tính tốn giá trị Gain để lựa chọn thuộc tính tối ưu cho việc triển khai cây, thuật tốn ID3 được xem là một cải tiến của thuật tốn CLS. Tuy nhiên thuật tốn ID3 khơng cĩ khả năng xử lý đối với những dữ liệu cĩ chứa thuộc tính số - thuộc tính liên tục (numeric attribute) và khĩ khăn trong việc xử lý các dữ liệu thiếu (missing data) và dữ liệu nhiễu (noisy data).

II.3. Xây dựng cây quyết định dự báo sức khỏe qua việc bắt mạch trong Đơng y:

Một phần của tài liệu Tiểu luận môn hệ hỗ trợ quyết định Tìm hiểu datamining qua bài báo và ứng dụng cây quyết định dự báo sức khỏe dựa vào việc xem mạch trong đông y (Trang 26)

Tải bản đầy đủ (DOC)

(39 trang)
w