:Thuật tốn xây dựng cây quyết định

Một phần của tài liệu (LUẬN văn THẠC sĩ) nghiên cứu một số phương pháp phân lớp dữ liệu và ứng dụng trong phân lớp nấm (mushroom) với công cụ weka​ (Trang 35 - 37)

Trong đĩ, attribute_list là tập các thuộc tính mơ tả tập dữ liệu huấn luyện D; attribute_selection_method là hàm lựa chọn thuộc tính tốt nhất để phân chia dữ liệu,

bản chất nĩ là giải thuật dựa trên kinh nghiệm (heuristic) để tìm ra thuộc tính nào cĩ khả năng phân biết được ccs phần tử dữ liệu trong tập D vào các lớp nhất. Nĩ dựa trên một độ đo nào đĩ chẳng hạn độ lời thơng tin (information gain), hay độ đo chỉ số gini (Gini index) để tìm ra thuộc tính tốt nhất.

Giải thuật bắt đầu bằng thao tác tạo ra một nút N mơ tả tập dữ liệu D (bước 1). Nếu tồn bộ dữ liệu trong D cùng cĩ chung một nhãn lớp thì N sẽ là một nút lá cĩ nhãn là nhãn chung của các phần tử dữ liệu, và thuật tốn dừng. Nếu khơng thì nĩ

sẽ gọi hàm attribute_selection_method () để tìm ra thuộc tính tốt nhất dùng để phân chia tập dữ liệu D thành các phần 𝐷𝑗, và nút N sẽ được gán nhãn là thuộc tính tìm được. Giải thuật đệ quy với các tập con dữ liệu 𝐷𝑗. Hình 2.4. minh họa cây quyết định được tạo ra bởi giải thuật trên tập dữ liệu bán hàng (trong bảng 2.1) để tìm ra những loại khách hàng nào cĩ khả năng máy tính (buys_computer) (yes là cĩ mua và no là khơng mua). Độ phức tạp của thuật tốn là (O nDlog(D)),trong đĩnlà số thuộc tính mơ tả tập dữ liệu ,D D là số lượng các phần tử trong D.

Bảng 2.1: Bảng dữ liệu khách hàng

ID Tuổi Thu nhập Sinh viên Đánh giá

tin dụng

Mua máy tính

1 youth high no fair no

2 youth high no excellent no

3 middleaged high no fair yes

4 senior medium no fair yes

5 senior low yes fair yes

6 senior low yes excellent no

7 middleaged low yes excellent yes

8 youth medium no fair no

9 youth low yes fair yes

10 senior midium yes fair yes

11 youth midium yes excellent yes

12 middleaged midium no excellent yes

13 middleaged high yes fair yes

14 senior midium no excellent no

Trong trường hợp giá trị của một thuộc tính nịa đĩ khơng phải là giá trị rời rạc (chẳng hạn như thuộc tính tuổi), khi đĩ một phương pháp rời rạc hĩa đã được áp

dụng (xem bảng 2.1.). Cụ thể nĩ đã được chia thành 3 loại tuổi rời rạc: trẻ (youth), trung niên (middle_age) và già (senior).

Điểm mấu chốt trong giải thuật xây dựng cây quyết định ở trên là hàm lựa chọn thuộc tính tốt nhất để phân chia dữ liệu. Phần tiếp theo sẽ trình bày một số độ đo dùng để đánh giá “chất lương” của các thuộc tính.

Một phần của tài liệu (LUẬN văn THẠC sĩ) nghiên cứu một số phương pháp phân lớp dữ liệu và ứng dụng trong phân lớp nấm (mushroom) với công cụ weka​ (Trang 35 - 37)

Tải bản đầy đủ (PDF)

(85 trang)