Một trong những công cụ mạnh mẽ trong phân tích dữ liệu y tế là cây quyết định Decision Tree, một thuật toán học máy được ứng dụng rộng rãi đề hỗ trợ quá trình ra quyết định và dự đoán t
Trang 1TRUONG DAI HQC CONG NGHE MIEN DONG KHOA CONG NGHE THONG TIN
MIEN DONG INNOVATIVE TECHNOLOGY UNIVERSITY
TIEU LUAN KET THUC MON MAY HOC
CAY QUYET DINH VA UNG DUNG TRONG
CHAN DOAN Y KHOA
Đồng Nai, ngày 25 tháng 9 năm 2024
Trang 2TRUONG DAI HQC CONG NGHE MIEN DONG KHOA CONG NGHE THONG TIN
MIEN DONG INNOVATIVE TECHNOLOGY UNIVERSITY
TIEU LUAN KET THUC MON MAY HOC
CAY QUYET DINH VA UNG DUNG TRONG
CHAN DOAN Y KHOA
NHÓM THỤC HIỆN: Nhóm 4
Lê Nguyễn Trường Phúc Nguyễn Đình Nhu Dương Gia Quyền Đặng Hoàng Quân
Nguyễn Văn Quyết
GIẢNG VIÊN HƯỚNG DAN: Huynh Văn Huy
Đồng Nai, ngày 25 tháng 9 năm 2024
Trang 3TRUONG DAI HOC CONG NGHE MIEN DONG
KHOA CONG NGHE THONG TIN
PHIEU CHAM DIEM TIEU LUAN KET THUC MON HOC Tên môn học: Học máy
Tên đề tài tiểu luận (Sinh viên ghi):
4 |0322110023 | Dương Gia Quyền
Trang 4LOI MO DAU
Trong thời đại công nghệ thông tin hiện đại, sự phat triển mạnh mẽ của các phương
pháp phân tích đữ liệu đã mở ra nhiều cơ hội mới trong lĩnh vực y khoa Một trong những công cụ mạnh mẽ trong phân tích dữ liệu y tế là cây quyết định (Decision Tree), một thuật toán học máy được ứng dụng rộng rãi đề hỗ trợ quá trình ra quyết định và dự đoán trong nhiều lĩnh vực khác nhau Khả năng mô hình hóa các quy trình ra quyêt định phức tạp thông qua cầu trúc giống cây rõ ràng khiến chúng trở thành một lựa chọn hấp dẫn đối với cả bác sĩ lâm sảng
và nhà nghiên cứu Khi chăm sóc sức khỏe ngày cảng dựa vào việc ra quyết định dựa trên dữ liệu, việc áp dụng các thuật toán cây quyết định đã thu hút được sự chú ý đáng kê
Nhiều nghiên cứu đã nhân mạnh hiệu quả của cây quyết định trong việc chân đoán nhiều tình trạng bệnh lý khác nhau Ví dụ, Charbuty và Abdulazeez (2021) đã chứng minh rằng các bộ phân loại cây quyết định vượt trội hơn các phương pháp dự đoán khác trong việc
dự đoán bệnh tim, cho thấy tiềm năng của chúng trong việc xác định những bệnh nhân có nguy cơ (Charbuty & Abdulazeez, 2021) Tương tự như vậy, trong bối cảnh bệnh tiêu đường, cây quyết định đã được sử dụng đề hỗ trợ các quy trình chân đoán, minh họa tính linh hoạt của chúng trên các bệnh khác nhau (Bussone, Stumpf & OˆSullivan, 2015)
Trong lĩnh vực COVID-19, cây quyết định đã được tích hợp vào các hệ thống hỗ trợ quyết định lâm sảng (CDSS) đề nâng cao độ chính xác cua chan đoán Wynants và cộng sự (2020) đã tiến hành một đánh gia có hệ thống nêu bật nhu cầu về các mô hình dự đoán mạnh
mẽ đề chân đoán COVID-19, nhân mạnh rằng cây quyết định có thê đóng vai tro quan trong trong lĩnh vực này (Wynants và cộng sự, 2020) Hơn nữa, Zoabi và cộng sự (2021) đã sử
dụng các bộ phân loại cây quyết định để dự đoán chân đoán COVID-19 dựa trên các triệu
chứng của bệnh nhân, củng cố tính phù hợp của phương pháp nay trong các cuộc khủng hoảng sức khỏe mới nối (Zoabi, Deri-Rozov & Shomron, 2021)
Với khả năng phân tích và phân loại dựa trên các yếu to nguy cơ và triệu chứng cụ thé cho thấy tiềm năng lớn trong việc hỗ trợ việc ra quyết định y tế Bằng cách áp dụng cây quyết định vào bài toán chân đoán bệnh tiêu đường, chúng tôi hy vọng sẽ làm rõ những lợi ích mà công cụ này mang lại đồng thời đánh giá độ chính xác và hiệu quả của mô hình trong việc dự đoán nguy cơ mắc bệnh
Thông qua việc phân tích các nghiên cứu hiện có và ứng dụng cụ thê trong chân đoán bệnh tiêu đường, bài tiêu luận này không chỉ nhằm làm 16 vai trò của cây quyềết định trong y khoa mà còn cung cấp những cái nhìn sâu sắc về cách mà công nghệ học máy có thê cải thiện quy trình chăm sóc sức khỏe Chúng tôi tin rằng nghiên cứu này sẽ góp phần vào việc phát triển các phương pháp chân đoán chính xác hơn và hỗ trợ các quyết định lâm sảng từ đó nâng cao hiệu quả điều trị và quản lý bệnh tiêu đường
Trang 5LOI CAM ON
Trước tiên, chúng em xin gửi lời cảm ơn sâu sắc đến thầy Huỳnh Văn Huy, giảng viên
hướng dẫn của nhóm vì sự hỗ trợ và hướng dẫn tận tình trong suốt quả trình thực hiện bài tiểu
luận này Sự tận tâm, kiến thức sâu rộng và những góp ý quý báu của thầy đã giúp nhóm chúng em hoàn thiện và nâng cao chât lượng bài việt
Nhóm cũng xin gửi lời cảm ơn chân thành đến Trường Đại học Công nghệ Miền Đông
vì đã cung cấp một môi trường học tập chuyên nghiệp và day cảm hứng cùng với các tài nguyên học tập phong phú giúp tôi thực hiện tiêu luận này
Cuối cùng, nhóm xin cảm ơn gia đình và bạn bè đã luôn đồng hành, động viên và tạo động lực trong suốt quả trỉnh học tập và nghiên cứu
Xin chân thành cảm ơn]
Trang 6MUC LUC
CHƯƠNG 1: TONG QUAN VE CAY QUYET DINH cccccccccscsscsscsssessrssessrsecsresesensessesavseees I
1.1 Dinh nghia vé decision tree trong hoe MAY cccceccccccssssssessesssessessesseesessessessrsesessessesseserenes 1 1.1.1 Phân biết decision dùng cho phân loại và hồi quy - 5 5s SE nhe errye 2
1.1.2 Mục tiêu của decision tree trong học mảy cc 2c 1 11 v9 v11 1811 2g ru 4 1.2 CÂU TRÚC VÀ THUẬT TOÁN XÂY DỰNG CÂY QUYẾT ĐỊNH -ccc se: 4 1.2.1 Giới thiệu các thuật toán phố biến xây đựng cây quyết định ID3, C4.5, CART 4
1.2.2 Các bước chính xây dựng cây quyết định - 5 s12 210212 6
1.3 Ưu điểm và nhược điểm của deeision 2 ng ng 2111251155555 2E eeEErrerrrsre 7
6n 7
bà cố 8 1.4 Kỹ thuật tối ưu hóa và tránh bi quá khớp trong Decision Tree - 5s sctnrerec 9
1.4.1 Kỹ thuật cắt tỉa cây cccn nnHnnH HH tt Hung H21 tr người 9
1.4.2 Kỹ thuật Cross-validation (CC V) uc cv 1n 1n 1011111101111 H11 HH HH Hy ch 10
1.4.3 Kỹ thuật điều chỉnh siêu tham sỐ 22-5 St SE 1521211112212 102281 Hee ll
1.4.4, Phuong phap tong hop cccccccccccccscssesccsssessesscsesessessesseseresseseessreatessessesesenseeseseseeeeees 12 CHUONG 2 XAY DUNG HE THONG CHAN DOAN BENH TIEU ĐƯỜNG 13
2.1 M6 ta hé thong ccc cecccccccccsscessesscsssesseseessesersssesecsesesresscssecsssssesresecsusessesavseeseceresreeessceneans 13 2.2 Qui trình triển khai hệ thống dự đoán bệnh - 2 St SE 2112121121 ke 14 2.2.1 Khảo sát và thu thập đữ liệu L2 21121121 1211111 1101111121111 0118110110111 0x ryet 14
2.2.2 Xây dựng mô hình chân đoán nguy cơ mắc bệnh - 22 5s SE tre 16 2.2.3 Phát hiện tri thức từ mô hình cây quyết định 5 St SE E2 trưa 19
2.2.4 Ung dụng tri thức phát hiện được vào dự đoán bệnh tiểu đường c co 20
CHƯƠNG 3 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN :522255+c222222222222221222 re 21
3.2 Những việc chưa thê làm và thách thức - 5s + E211 1122112121211 re 22
3.3 Hướng nghiên cứu tiếp theo 2s SE 2112112111 11221221 210212121 r re 22
Trang 7CHƯƠNG 1: TONG QUAN VE CAY QUYET ĐỊNH
1.1 Dinh nghia ve decision tree trong hoc may
Trong cuộc sống có rất nhiều tình huống chúng ta quan sát, suy nghĩ và ra quyết định bằng cách đặt câu hỏi Xuất phát từ đó, trong Machine Learning có một mô hình được thiết kế dưới dạng các câu hỏi, mà ở đó các câu hỏi được sap xếp dưới dạng cây Đó chính là mô hình cây quyết định mà chúng ta sẽ tìm hiệu trong bài viết nay
Vậy cây quyết định là gì? Bản chất của cây quyết định là một đồ thị có hướng được sử dụng cho việc ra quyết định Lấy ví dụ, sau khi biết điêm thi tốt nghiệp THPT, bạn muốn xây
dựng một chiến lược đăng kí ngành học bằng một loạt các lựa chọn:
« Nếu tông ba môn của bạn là lớn hơn 28.5 bạn sẽ nộp vào ngành CNTT
« - Trải lại, nêu điểm thi của bạn nhỏ hơn hoặc bằng 28.5 thì vẫn còn cơ hội cho bạn nếu
điểm Toán cao vì điểm Toán có hệ số nhân là 2 Do đó bạn quyết định vẫn lựa chọn
CNTT nếu điểm Toán được 10 Trường hợp còn lại bạn đăng ký vào ngành KTĐTVT
Tập hợp các câu hỏi và lựa chọn của bạn có thể ở trên được khái quát thành một cây
quyết định:
Lựa chọn CNTT hay KTDTVT?
Trang 8node gốc (root node): La node ở vị trí đầu tiên của cây quyết định Mọi phương án đều bắt nguồn từ node này Ở ví dụ trên là (Tống điểm >= 28.5)
node cha (parent node) La node ma cé thê rẽ nhánh xuống những node khác bên
dưới Node bên dưới được gọi là node con
node con (child node) La nhimg node ton tai node cha
node la (leaf node): La node cudi cùng của một quyết định Tại đây chúng ta thu được két qua dy bao Node la 6 vị trí cuối cùng nên sẽ không có node con
node quyét dinh (non-leaf node) Nhimng node khac node 1a
Từ sơ đồ cây quyết định ở trên, chúng ta nhận thấy một cây quyết định được cấu tạo bởi node và cạnh Tại mỗi node là một câu hỏi (chính là các hình chữ nhật bo góc) dạng yes/no duge dat ra đôi với một biến đầu vào Tuỳ thuộc vào đáp án mà tiếp theo mà sẽ rễ sang nhánh True hoặc False Cứ tiếp tục thực hiện rẽ nhánh như vậy một cách truy hôi cho đến khi thu được câu trả lời tại node cuối cùng
1,1,1 Phần biết decision dùng cho phân loại và hồi quy
Cây quyết định được sử dụng cho cả bài toán phân loại và bài toán hồi quy Trong bài toán phân loại, cây quyết định giúp dự đoán một nhãn phân loại, chẳng hạn như ví dụ quyết
định lựa chọn ngành học sau khi biết điểm thi đại học đã nêu ở phần 1 Có nhiều thuật ngữ và khái niệm sẽ được đề cập ở đây:
Độ không thuần khiết của dữ liệu (Impurity) đo lường mức độ "tạp chất" hoặc
"không đồng nhất" của đữ liệu trong một nút của cây quyết định Mục tiêu của việc xây dựng cây quyết dinh la giam impurity trong quá trình phân chia nhằm đề các nhóm đữ liệu trở nên đồng nhất Chúng ta sẽ tìm hiểu về hai tiêu chí phô biến:
Entropy đo lường sự không đồng nhất hoặc độ tạp chất của tập dữ liệu dựa trên lý thuyết thông tin Entropy phản ánh mức độ không chắc chắn hoặc ngẫu nhiên trong dữ liệu
N
i=1
p¡: ty lệ của lớp 1 N: số lớp Entropy có giá trị từ 0 đến logz(k) Giá trị Entropy cảng cao thì độ hỗn của dữ liệu càng cao, còn nêu càng thấp thì đữ liệu càng có trật tự Entropy thường được sử dụng trong thuat toan ID3 (Iterative Dichotomiser 3) va C4.5
Đề đo độ giảm của Entropy ta sử dung information gain và có công thức sau:
Trang 9Eo la gia tri entropy cua tap dữ liệu gốc F; la gia tri entropy cua tap dir ligui
Q là điều kiện chia đữ liệu
q là số nhĩm sau khi chia
N, là số lượng đữ liệu của mỗi nhĩm
Đơn giản hơn so với Entropy, Gini đo lường sự khơng đồng nhất trong tập dữ liệu Nĩ
tính tốn xác suất mà hai mẫu được chọn ngầu nhiên từ tập dữ liệu thuộc về các lớp khác nhau
Gini cĩ giá trị từ 0 đến 0.5 Giá trị thấp hơn cho thấy sự đồng nhất cao hơn Gini
thường được sử dụng trong các thuật tốn cây quyết định như CART(Classifđcation and Regression Trees)
Độ giảm của Gmmi Impurity được gọi là Gini Gạn và cĩ cơng thức tính tương tự như information gain, chỉ khác là ta sẽ sử dụng gia tri Gini Impurity thay vi Entropy:
GG(Q) = Go - > Gi Trong đĩ:
GG la gia tri gini gain
Go la gia tri gini impurity của tập dữ liệu gốc G; la gia tri gini impurity cua tap dir liéui
Q là điều kiện chia đữ liệu
q là số nhĩm sau khi chia
N, là số lượng đữ liệu của mỗi nhĩm
Trong bài tốn hồi quy, cây quyết định giúp dự đốn một giá trị liên tục, chẳắng hạn như giá nhà, nhiệt độ, hoặc lượng mưa Tương tự như cây quyềết định phân loại, cây quyết định hồi quy cũng sử dụng các câu hỏi dựa trên các đặc trưng của dữ liệu đề phân chia dữ liệu thành các tập con Điểm khác biệt chính là kết quả của cây hồi quy là một giá trị số thay vì một nhãn phân loại
Trang 10Trong cây quyết định hồi quy, mục tiêu là giảm thiêu sai số khi dự đoán các giá trị liên tục Thay vì sử dụng entropy hay gini impurity như trong phân loại, chúng ta sử dung các chi
số khác đê đo lường mức độ "không thuần khiết" của dữ liệu:
Mean Squared Error (MSE) là thước đo phô biến nhất đề đánh giá chất lượng của cây quyêết định hôi quy MSE đo lường sai số bình phương trung bình giữa giá trị thực và giả trị dự đoán trong một nút của cây Công thức tính MSE như sau:
; Mean Absolute Error (MAE) la mét cach tiếp cận khác đề đo sai số, bằng cách tính tong khoảng cách tuyệt đôi giữa giả trị thực và giả trị dự đoán MAE có công thức:
MAE = 2 yi ~ 5 Tương tự như MSE thì giá trị của MAE cảng nhỏ thì mô hình càng tốt
1.1.2 Muc tiéu cua decision tree trong học may
Decision tree hay còn gọi là Cây quyết định là một dạng sơ đồ phân cấp dựa theo quy luật của mối quan hệ nguyên nhân - kết quả, cho phép người sử dụng dự báo được kết quả của các lựa chọn Nhờ đó, Decision tree có ý nghĩa như một công cụ lập kế hoạch giúp điều hướng đến mục tiêu mong muốn
1.2 CÁU TRÚC VÀ THUẬT TOÁN XÂY DỰNG CÂY QUYẾT ĐỊNH
1.2,1 Giới thiệu các thuật toán phô biên xây dựng cây quyết định ID3, C4.5, CART Giải thuật xây dựng cây quyết định được biểu diễn bằng mã giả như dưới đây và đã
hiện thực thành các giải thuật được ap dụng rộng rãi vào thực tế như ID3, C4.5, CART mã giả
của giải thuật xây dựng cây quyệt định từ tập dữ liệu D với tập thuộc tính attribute_ list: Build_decision_tree(D,attribute_ list)
1 Create node N;
2 If ¥t€ D, t.label = C, then
3 Return N as a leaf node labeled with the class C;
4 If attribute_list is empty then
Trang 115 Return N as a leaf node labeled with the majority class in D;
6 splitting attribute = Attribute_selection(D, attribute_list);
7 Label node N with splitting attribute;
8 If splitting attribute is discrete-valued and multi-way splits allowed then
9 attribute_list = attribute_list - splitting attribute; // remove splitting _attribute
10 For each outcome j of the splitting attribute // partition and grow the subtrees
— 1 LetD J be the partition satisfying outcome j; // a partition
12 IfD_j is empty then attach a leaf label with the majority class in D to node N;
13 Else attach the node returned by Build_decision_tree(D_j, attribute_list) to N;
14 End for
15 Return N;
DAC DIEM CUA GIAI THUAT XAY DUNG CAY QUYET DINH
Giải thuật xây đựng cây quyết định có một số đặc điểm nỗi bật:
Kiểu Giải Thuật: Đây là dạng giải thuật tham lam, không quay lui, hoạt động theo cơ chế chia đề trị, sử dụng đệ quy và xây dựng cây từ trên xuống
Độ Phức Tạp: Độ phức tạp của giải thuật là O(n|DJlog|D|), trong đó n là số lượng
thuộc tính trong attribute_list, va |D| la so lugng phan tử trong tập dữ liệu huân luyén Cu the:
s® Mỗi thuộc tính sẽ được xem xét tại mỗi mức của cây
® Ớ mỗi mức của cây, [DỊ phần tử huấn luyện sẽ được duyệt qua đề đánh giá các phân tử đữ liệu trong quá trình phân hoạch
THUẬT TOÁN 1D3:
Thuật toán ID3 do Ross Quinlan đề xuất, tư tưởng của thuật toán ID3 là việc xây dựng cây quyết định được thực hiện đệ qui từ trên xuống và sử dụng độ lợi thông tin (IG - Information Gain) làm độ đo đề chọn node gốc dé phân tách cây IG là tham số được tính toán dựa trên Entropy trong lý thuyết thông tin Node được chọn làm node gốc lả node có IG lớn nhất (hoặc node có Entropy nhỏ nhất)
Công thức tính Entropy và IG:
Entropy(S) = P — p()logzp() IeC Trong đó:
5: tập dữ liệu huấn luyện
p(): tỷ số giữa các mẫu thuộc về lớp I trên tống số các mẫu huấn luyện trong S
Trang 12C: tập các giá trị của thuộc tính phân loại Công thức tính giả trị lG cho thuộc tính A:
1G(S, A) = Entropy(S)—X ((S/I⁄4S)) * Entropy(S,)) veA Trong đó:
V: các giả trị của thuộc tính A
Su tap con của tập Š với các mẫu thuộc tính A có giá trị v (S,|: số các mẫu thuộc S,
(SI: số mẫu của tập S
THUẬT TOÁN 4.5:
Thuật toán C4.5 cũng do Ross Quinlan phát triên, là phiên bản nâng cấp của ID3 Nó
cải thiện khả năng xử ly cả thuộc tính liên tục và rời rạc, cũng như xử lý dữ liệu thiêu: C4.5 sử dụng tỷ lệ độ lợi thông tin, được tính như sau:
GainRatio(D,A) = H(A): Entropy của thuộc tính A được tính theo cách sau:
H(A)=- a, H(D,) Trong đó:
D.: tập con của D mà thuộc tính A có giả trị v
ID,|: Số lượng mẫu trong tập con Dy
THUAT TOAN CART:
CART có thể được sử dụng cho cả bải toán phân loại (Classification) và hồi quy (Regression) Cay quyet dinh CART str dung Gini impurity cho bài toàn phân loai va Mean Squared Error cho hoi quy
1.2.2 Các bước chính xây dựng cây quyết định
Bước 1: Khoi tao nút
Bước đâu tiên là tạo một nút mới trong cây quyết định Nút này sẽ đại diện cho quyet
định hoặc phân chia mà chúng ta sẽ thực hiện
Bước 2: Kiểm tra điều kiện dừng
Kiểm tra đồng nhất lớp:
Nếu tất cả các mẫu trong tập dữ liệu D đều thuộc về cùng một lớp (tức là
YteD,t.label=C), ta gán nút này thành nút là với nhãn là lớp C và trả về nút đó
Kiểm tra thuộc tính rỗng:
Néu danh sach thudc tinh (attribute list) da rong, ta gan mit nay thanh nut 1a với nhãn là lớp chiếm uu thé (majority class) trong tap dit ligu D Lop chiém ưu thế được xác định bằng cách đếm số lượng mẫu trong mỗi lớp và chọn lớp có số lượng mẫu lớn nhất
Bước 3: Chọn thuộc tinh phan chia
Trang 13tính tốt nhật cho việc phân chia Gọi thuộc tính được chon la splitting attribute
Bước 4: Đánh dấu nút
Đánh dâu nút N với thuộc tính splitting attribute đã chọn Nút này giờ đây sẽ
thê hiện quyết định dựa trên thuộc tính đó
Bước 5: Cập nhật danh sách thuộc tính
Nếu splitting attribute là thuộc tính rời rạc và cho phép phân chia đa nhánh, ta loại bỏ thuộc tính này khỏi danh sách thuộc tính (attribure 11st) đề tránh việc sử dụng nó trong các phân chia tiệp theo
Bước 6: Phân chia tập dữ liệu
Đối với mỗi giá trị dau raj cua splitting attribute, thuc hién cdc bude sau:
1 Tao tập con: Gọi tập con thoả mãn giả trị J là DỊ
2 Kiểm tra tập con:
o_ Nếu Dj là rỗng, gán nút này là nút lá với lớp chiếm ưu thế trong tập dữ liệu D
o NéuDjkhéng réng, goi dé quy ham Build decision tree voi Dj va
attribute list da cap nhat dé xay dung cay con
Bước 7: Kết thúc và trả về nút
Sau khi đã gản các cây con cho nút N theo từng gia tri cua splitting attribute, tra
về nút N đã được xây dựng hoàn chỉnh
1.3 Ưu điểm và nhược điểm của decision
1.3.1 Ưu điểm:
Dễ hiểu và dễ diễn giải: Mọi người có thê hiệu các mô hình cây quyết định sau một lời giải thích ngăn gọn Cây cũng có thê được hiện thị dưới dạng đô họa theo cách mà những người không phải chuyên gia có thê dé dang dién giải
Có khả năng xử lý cả dữ liệu số và dữ liệu phân loại: Các kỹ thuật khác thường
chuyên phân tích các tập dữ liệu chỉ có một loại biến {Ví dụ, các quy tắc quan hệ chỉ
có thê được sử dụng với các biến đanh nghĩa trong khi mang no-ron chỉ có thẻ được sử dụng với các biến số hoặc biến phân loại được chuyên đối thành giá trị 0-1.) Các cây quyết định ban đầu chỉ có khả năng xử lý các biến phân loại, nhưng các phiên bản gần đây hơn, chắng hạn như C4.5, không có hạn chế nay
Yêu cầu it chuẩn bị dữ liệu: Các kỹ thuật khác thường yêu cầu chuan hoa dữ liệu Vì cây có thê xử lý các yêu tô dự bảo định tính nên không cân tạo các biên giả
Sử dụng mô hình hộp trắng hoặc hộp mở: Nếu một tình huống nhất định có thê quan sát được trong một mô hình thì lời giải thích cho tỉnh huông đó có thê dễ dàng
Trang 14duoc giai thich bang logic Boolean Ngược lại, trong mô hình hộp đen, lời giải thích cho kết quả thường khó hiểu, ví dụ như với mạng nơ-ron nhân tạo
Có thể xác thực mô hình bằng các thử nghiệm thống kê: Điều đó giúp tính đến độ tin cậy của mô hình Phương pháp phi tham số không đưa ra giả định nào vẻ dữ liệu
đào tạo hoặc phân dư dự đoản Ví dụ: không có giả định về phân phối, độc lập hoặc
phương sai không đổi
Hoạt động tốt với các tập dữ liệu lớn: Có thê phân tích lượng lớn dữ liệu bằng các tài nguyên điện toán tiêu chuân trong thời gian hợp lý
Độ chính xác với mô hình linh hoạt: Các phương pháp này có thê được áp dụng cho
nghiên cứu chăm sóc sức khỏe với độ chính xác cao hơn
Phản ánh quá trình ra quyết định của con người chặt chẽ hơn các phương pháp
tiếp cận khác: Điều này có thê hữu ích khi mô hình hóa các quyết định/hành vi của CON người
Chống lại hiện tượng đồng tuyến tính, đặc biệt là hiện tượng tăng cường Trong lựa chọn tính năng tích hợp: Tính năng không liên quan bố sung sẽ ít được sử dụng hơn đề có thé loại bỏ chúng trong các lần chạy tiếp theo Hệ thống phân cấp các thuộc tính trong cây quyết định phản ánh tầm quan trọng của các thuộc tính Điều đó
có nghĩa là các tính năng ở trên cùng là thông tin hữu ích nhất
1.3.2 Nhược điểm:
Cây có thể không mạnh mẽ: Một thay đôi nhỏ trong dữ liệu đảo tạo có thê dẫn đến một thay đối lớn trong cây và đo đó là các dự đoán cuối cùng
Vấn đề học cây quyết định tối ưu được biết là NP-complete theo mét số khía cạnh của
tính tối ưu và thậm chí đối với các khái niệm đơn giản Do đó, các thuật toán học cây quyết định thực tế dựa trên các phương pháp tìm kiếm như thuật toản tham lam trong
đó các quyết định tối ưu cục bộ được đưa ra tại mỗi nút Các thuật toán như vậy không thê đảm bảo trả về cây quyết định tối ưu toàn cục Đề giảm hiệu ứng tham lam của tính tối ưu cục bộ, một số phương pháp như cây khoảng cách thông tin kép (DID) da
được đề xuất
Người học cây quyết định có thê tạo ra các cây quá phức tạp không khái quát hóa tốt
từ dữ liệu đào tạo (Điều này được gọi là overfitting) Các cơ chế như pruning là cần thiết đề tránh vấn đề này (ngoại trừ một sô thuật toán như phương pháp suy luận có điều kiện, không yêu cầu pruning)
Độ sâu trung bình của cây được xác định boi số lượng nút hoặc thử nghiệm cho đến khi phân loại không được đảm bảo là tôi thiêu hoặc nhỏ theo các tiêu chí phân tách khác nhau
Đối với đữ liệu bao gồm các biến phân loại có số lượng mức khác nhau, mức tăng thông tin trong cây quyết định bị thiên vị theo hướng có lợi cho các thuộc tính có nhiều mức hơn.Đê khắc phục vấn đề này, thay vì chọn thuộc tính có mức tăng thông tin cao nhất , người ta có thê chọn thuộc tính có tỷ lệ tăng thông tin cao nhất trong sô các thuộc tính có mức tăng thông tin lớn hơn mức tăng thông tin trung bình Điều này làm cho cây quyết định thiên vị khi xem xét các thuộc tính có số lượng lớn các giá trị
Trang 15riêng biệt, trong khi không mang lại lợi thế không công bằng cho các thuộc tính có
mức tăng thông tin rất thấp Ngoài ra, van đề lựa chọn dự báo thiên vị có thể được
tránh bằng phương pháp suy luận có điều kiện, phương pháp hai giai đoạn hoặc lựa
chọn tính năng loại bỏ một thích ứng
1.4 Kỹ thuật tối ưu hóa và tránh bị quá khớp trong Decision Tree
1.4.1 Kỹ thuật cắt tỉa cầy
Nếu chúng ta tiếp tục phân chia cây quyết định liên tục thì số lượng các quan sát ở mỗi node lá sẽ giảm dần Cho tới một ngưỡng độ sâu nào đó, số quan sat còn lại ở mỗi node la sé rất nhỏ và thậm chí chỉ một vài quan sát Các kết quả dự báo dựa trên tập mẫu rat nho nay không còn mang tính tông quát và do đó hiện tượng gu khớp thường xảy ra Đề tránh hiện tượng quá khớp cũng như tiết kiệm chi phí tính toán, chúng ta sẽ dừng việc phân chia khi đạt
một số điều kiện:
« _ Độ sâu của cây nhị phân chạm một ngưỡng tối thiểu
« - Số lượng các quan sát của một node lá đạt ngưỡng tối thiêu Chăng hạn như: 30 quan sát thuộc node lá cho bài toán phân loại nhị phân thi quyết định phân lớp là đủ tin cậy
« Node lá hoàn toàn thuộc về một nhóm duy nhất Tức node phân chia là hoàn toàn tinh khiết
« - Số lượng các node phân chia đạt ngưỡng
« - Số lượng các node lá đạt ngưỡng Số lượng node lá cảng nhiều thì mô hình cảng trở
Cắt tỉa cây quyết định là một kỹ thuật được sử dụng đề ngăn cây quyết định quả khớp với
dữ liệu đào tạo Cắt tỉa nhằm mục đích đơn giản hóa cây quyết định bằng cách loại bỏ các phần không cung cấp sức mạnh dự đoán đáng kê, do đó cải thiện khả năng khái quát hóa cho
đữ liệu mới
Cắt tỉa cây quyết định loại bỏ các nút không mong muốn khỏi cây quyết định quá khớp đề làm cho nó nhỏ hơn về kích thước, dẫn đến dự đoán nhanh hơn, chính xác hơn và hiệu quả hơn