Giới thiệu về thuật toán ID3

Một phần của tài liệu Nghiên cứu cây quyết định và ứng dụng để phân loại khách hàng vay vốn tại ngân hàng vietinbank chi nhánh kon tum (Trang 54 - 58)

5. Cấu trúc luận văn

3.2.1.Giới thiệu về thuật toán ID3

Giải thuật quy nạp cây ID3 (gọi tắt là ID3) là một giải thuật học đơn giản nhƣng tỏ ra thành công trong nhiều lĩnh vực. ID3 là một giải thuật hay vì cách biểu diễn tri thức học đƣợc của nó, tiếp cận của nó trong việc quản lý tính phức tạp, heuristic của nó dùng cho việc chọn lựa các khái niệm ứng viên, và tiềm năng của nó đối với việc xử lý dữ liệu nhiễu.

ID3 biểu diễn các khái niệm (concept) ở dạng các cây quyết định (decision tree). Biểu diễn này cho phép chúng ta xác định phân loại của một đối tƣợng bằng cách kiểm tra các giá trị của nó trên một số thuộc tính nào đó.

Nhƣ vậy, nhiệm vụ của giải thuật ID3 là học cây quyết định từ một tập các mẫu rèn luyện (training example) hay còn gọi là dữ liệu rèn luyện (training data). Hay nói khác hơn, giải thuật có:

Đầu vào: Một tập hợp các mẫu. Mỗi mẫu bao gồm các thuộc tính mô tả một tình huống, hay một đối tƣợng nào đó, và một giá trị phân loại của nó.

Đầu ra: Cây quyết định có khả năng phân loại đúng đắn các mẫu trong tập dữ liệu rèn luyện, và hy vọng là phân loại đúng cho cả các mẫu chƣa gặp trong tƣơng lai.

Ví dụ, chúng ta hãy xét bài toán phân loại khách hàng vay vốn tại ngân hàng. Giải thuật ID3 sẽ học cây quyết định từ tập hợp các mẫu sau:

Bảng 3.1: Bảng dữ liệu quyết định cho vay vốn

Tuoi Gioitinh Hokhau Thunhap Kethon Socon Xeoto TKTK TKHT TSTC Chovay Tre Nam NongThon TrungBinh Co Motcon Khong Co Co Khong Yes TrungNien Nu NongThon TrungBinh Co Haicon Co Khong Khong Khong No TrungNien Nam ThanhPho Thap Khong Khongcon Khong Co Co Co Yes TrungNien Nu NongThon TrungBinh Co Bacon Co Khong Khong Co Yes Tre Nu NgoaiO Thap Khong Khongcon Khong Khong Khong Khong No TrungNien Nam NongThon TrungBinh Co Motcon Co Co Co Khong Yes TrungNien Nu ThiTran Cao Co Haicon Khong Co Co Co Yes Tre Nam ThanhPho Thap Co Bacon Khong Co Khong Co Yes TrungNien Nu NongThon TrungBinh Co Khongcon Co Co Co Khong Yes Tre Nu ThiTran Thap Co Motcon Khong Co Co Khong No TrungNien Nu NongThon Cao Khong Motcon Co Khong Khong Co Yes Gia Nam NongThon Cao Co Motcon Khong Co Khong Co Yes Tre Nam NgoaiO TrungBinh Khong Haicon Khong Khong Khong Khong No Gia Nam NongThon Cao Co Bacon Khong Co Co Khong Yes

Tập dữ liệu này bao gồm 14 mẫu. Mỗi mẫu biểu diễn cho tình trạng thời tiết gồm các thuộc tính tuổi, giới tính, hộ khẩu, thu nhập, kết hôn, số con, xe ôtô, tài khoản tiết kiệm, tài khoản hiện tại, tài khoản thế chấp; và đều có thuộc tính phân loại „Cho vay‟ (Yes, No). „Yes‟ nghĩa là cho khách hàng vay

vốn, „No‟ nghĩa là ngƣợc lại. Giá trị phân loại ở đây chỉ có hai loại (Yes, No), hay còn ta nói phân loại của tập mẫu của khái niệm này thành hai lớp (classes). Thuộc tính „Cho vay‟ còn đƣợc gọi là thuộc tính đích (target attribute).

Mỗi thuộc tính đều có một tập các giá trị hữu hạn. Thuộc tính tuổi có ba giá trị (trẻ, trung niên, già), giới tính có hai giá trị (nam, nữ), hộ khẩu có bốn giá trị (nông thôn, thị trấn, ngoại ô, thành phố), thu nhập ba giá trị (thấp, trung bình, cao), kết hôn có hai giá trị (có, không), số con có bốn giá trị (không con, một con, hai con, ba con), xe ôtô có hai giá trị (có, không), tài khoản tiết kiệm có hai giá trị (có, không), tài khoản hiện tại có hai giá trị (có, không), tài khoản thế chấp có hai giá trị (có, không). Các giá trị này chính là ký hiệu (symbol) dùng để biểu diễn bài toán.

Từ tập dữ liệu rèn luyện này, giải thuật ID3 sẽ học một cây quyết định có khả năng phân loại đúng đắn các mẫu trong tập này, đồng thời hy vọng trong tƣơng lai, nó cũng sẽ phân loại đúng các mẫu không nằm trong tập này. Một cây quyết định mẫu mà giải thuật ID3 có thể quy nạp đƣợc là:

Hình 3.1: Cây quyết định biểu diễn thuộc tính quyết định cho vay Các nút trong cây quyết định biểu diễn cho một sự kiểm tra trên một thuộc tính nào đó, mỗi giá trị có thể có của thuộc tính đó tƣơng ứng với một nhánh của cây. Các nút lá thể hiện sự phân loại của các mẫu thuộc nhánh đó, hay chính là giá trị của thuộc tính phân loại.

Sau khi giải thuật đã quy nạp đƣợc cây quyết định, thì cây này sẽ đƣợc sử dụng để phân loại tất cả các mẫu hay thể hiện (instance) trong tƣơng lai. Và cây quyết định sẽ không thay đổi cho đến khi ta cho thực hiện lại giải thuật ID3 trên một tập dữ liệu rèn luyện khác.

Ứng với một tập dữ liệu rèn luyện sẽ có nhiều cây quyết định có thể phân loại đúng tất cả các mẫu trong tập dữ liệu rèn luyện. Kích cỡ của các cây quyết định khác nhau tùy thuộc vào thứ tự của các kiểm tra trên thuộc tính. Thu nhập No Yes Tài sản hiện tại có không Tài sản thế chấp không có cao Thấp TB Yes Yes Kết hôn có Không No Yes

Vậy làm sao để học đƣợc cây quyết định có thể phân loại đúng tất cả các mẫu trong tập rèn luyện? Một cách tiếp cận đơn giản là học thuộc lòng tất cả các mẫu bằng cách xây dựng một cây mà có một lá cho mỗi mẫu. Với cách tiếp cận này thì có thể cây quyết định sẽ không phân loại đúng cho các mẫu chƣa gặp trong tƣơng lai. Vì phƣơng pháp này cũng giống nhƣ hình thức “học vẹt”, mà cây không hề học đƣợc một khái quát nào của khái niệm cần học. Vậy, ta nên học một cây quyết định nhƣ thế nào là tốt?

Occam‟s razor và một số lập luận khác đều cho rằng “giả thuyết có khả năng nhất là giả thuyết đơn giản nhất thống nhất với tất cả các quan sát”, ta nên luôn luôn chấp nhận những câu trả lời đơn giản nhất đáp ứng một cách đúng đắn dữ liệu của chúng ta. Trong trƣờng hợp này là các giải thuật học cố gắng tạo ra cây quyết định nhỏ nhất phân loại một cách đúng đắn tất cả các mẫu đã cho. Trong phần kế tiếp, chúng ta sẽ đi vào giải thuật ID3, là một giải thuật quy nạp cây quyết định đơn giản thỏa mãn các vấn đề vừa nêu.

Một phần của tài liệu Nghiên cứu cây quyết định và ứng dụng để phân loại khách hàng vay vốn tại ngân hàng vietinbank chi nhánh kon tum (Trang 54 - 58)