Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 25 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
25
Dung lượng
759,21 KB
Nội dung
A LÍ DO CHỌN ĐỀ TÀI Trong q trình hoạt động, người tạo nhiều liệu nghiệp vụ Các tập liệu tích lũy có kích thước ngày lớn, chứa nhiều thơng tin ẩn dạng quy luật chưa khám phá Chính vậy, nhu cầu đặt cần tìm cách trích rút từ tập liệu luật phân lớp liệu hay dự đoán xu hướng liệu tương lai Những quy tắc nghiệp vụ thông minh tạo phục vụ đắc lực cho hoạt động thực tiễn, phục vụ đắc lực cho q trình nghiên cứu khoa học Cơng nghệ phân lớp dự đoán liệu đời để đáp ứng mong muốn Cơng nghệ phân lớp liệu đã, phát triển mạnh mẽ trước khao khát tri thức người Trong năm qua, phân lớp liệu thu hút quan tâm nhà nghiên cứu nhiều lĩnh vực khác học máy (machine learning), hệ chuyên gia (expert system), thống kê (statistics) Công nghệ ứng dụng nhiều lĩnh vực thực tế như: thương mại, nhà băng, maketing, nghiên cứu thị trường, bảo hiểm, y tế, giáo dục Nhiều kỹ thuật phân lớp đề xuất như: Phân lớp định (Decision tree classification), phân lớp Bayesian (Bayesian classifier), phân lớp K hàng xóm gần (K-nearest neighbor classifier), mạng nơron, phân tích thống kê,… Trong kỹ thuật đó, định coi công cụ mạnh, phổ biến đặc biệt thích hợp cho data mining Trong mơ hình phân lớp, thuật tốn phân lớp nhân tố chủ đạo Do cần xây dựng thuật tốn có độ xác cao, thực thi nhanh, kèm với khả mở rộng để thao tác với tập liệu ngày lớn B NỘI DUNG I TỔNG QUAN VỀ PHÂN LỚP DỮ LIỆU DỰA TRÊN CÂY QUYẾT ĐỊNH 1.1 Tổng quan phân lớp liệu data mining 1.1.1 Phân lớp liệu : a Tìm hiểu phân lớp: Ngày phân lớp liệu(classification) hướng nghiên cứu khai phá dữliệu Thực tế đặt nhu cầu từ sở liệu với nhiều thơng tin ẩn người trích rút định nghiệp vụ thơng minh - Phân lớp dự đoán hai dạng phân tích liệu nhằm trích rút mơ hình mơ tả lớp liệu quan trọng hay dự đoán xu hướng liệu tương lai Phân lớp dự đoán giá trị nhãn xác định (categorical label) hay giá trị rời rạc (discrete value), có nghĩa phân lớp thao tác với đối tượng liệu mà có giá trị biết trước Trong đó, dự đốn lại xây dựng mơ hình với hàm nhận giá trị liên tục Ví dụ mơ hình phân lớp dự báo thời tiết cho biết thời tiết ngày mai mưa, hay nắng dựa vào thơng sốvề độ ẩm, sức gió, nhiệt độ,… ngày hơm ngày trước Hay nhờ luật xu hướng mua hàng khách hàng siêu thị, nhân viên kinh doanh sách đắn lượng mặt hàng chủng loại bày bán… Một mô hình dự đốn dự đốn lượng tiền tiêu dùng khách hàng tiềm dựa thông tin thu nhập nghề nghiệp khách hàng -Trong năm qua, phân lớp liệu thu hút quan tâm nhà nghiên cứu nhiều lĩnh vực khác học máy (machine learning), hệ chuyên gia (expert system), thống kê (statistics) Công nghệ ứng dụng nhiều lĩnh vực khác như: thương mại, nhà băng, maketing, nghiên cứu thị trường, bảo hiểm, y tế, giáo dục Phần lớn thuật toán đời trước sử dụng chế liệu cư trú nhớ(memory resident), thường thao tác với lượng liệu nhỏ Một số thuật toán đời sau sử dụng kỹthuật cư trú đĩa cải thiện đáng kể khả mở rộng thuật toán với tập liệu lớn lên tới hàng tỉ ghi Bài toán phân lớp: • Đầu vào: - Tập liệu D = {di} - Tập lớp C1, C2, ,Ck liệu d thuộc lớp Ci Tập lớp DExam = D1 + D2 + + Dk với Di = {d DExam : d thuộc Ci} Tập ví dụ DExam đại diện cho tập D • Đầu - Mơ hình phân lớp: ánh xạ từ D sang C • Sử dụng mơ hình D \ D Exam : Xác định lớp đối tượng d - b Quá trình phân lớp: Bước 1: Xây dựng mơ hình từ tập huấn luyện +Mỗi bộ/mẫu liệu Mỗi bộ/mẫu liệu phân vào lớp xác định trước +Lớp bộ/mẫu liệu xác định thuộc tính gán nhãn lớp thuộc tính gán nhãn lớp +Tập bộ/mẫu liệu huấn luyện - tập huấn luyện tập huấn luyện - dùng để xây xây dựng mơ hình dựng mơ hình + Mơ hình biểu diễn luật luật phân lớp phân lớp, định định các cơng thức tốn học Bước 2: Sử dụng mơ hình Sử dụng mơ hình - kiểm tra tính đắn mơ hình dùng để phân lớp liệu Phân lớp cho đối tượng chưa phân lớp Đánh giá độ xác mơ hình Đánh giá độ xác mơ hình + lớp biết trước mẫu/bộ liệu đem kiểm tra so sánh với kết thu từ mơ hình + tỉ lệ xác = phần trăm mẫu/bộ liệu phân lớp mơ hình số lần kiểm tra Trong mơ hình phân lớp, thuật tốn phân lớp giữ vai trị trung tâm, định tới sựthành cơng mơ hình phân lớp Do chìa khóa vấn đề phân lớp liệu tìm thuật tốn phân lớp nhanh, hiệu quả, có độchính xác cao có khảnăng mở rộng Trong khả mở rộng thuật toán đặc biệt trú trọng phát triển Có thể liệt kê kỹ thuật phân lớp sửdụng năm qua: • Phân lớp định (Decision tree classification) • Bộ phân lớp Bayesian (Bayesian classifier) • Mơ hình phân lớp K-hàng xóm gần (K-nearest neighbor classifier) • Mạng nơron • Phân tích thống kê • Các thuật toán di truyền • Phương pháp tập thô (Rough set Approach) 1.1.2 Chuẩn bị liệu cho việc phân lớp Việc tiền xửlý liệu cho trình phân lớp việc làm khơng thể thiếu có vai trị quan trọng định tới áp dụng hay khơng mơ hình phân lớp Quá trình tiền xử lý liệu giúp cải thiện độ xác, tính hiệu khả mở rộng mơ hình phân lớp Q trình tiền xử lý liệu gồm có cơng việc sau: Làm liệu ( Nhiễu, giá trị trống) Phân tích liên quan liệu :Có nhiều thuộc tính tập liệu hồn tồn khơng cần thiết hay liên quan đến tốn phân lớp cụ thể Ví dụ: liệu ngày tuần hồn tồn khơng cần thiết ứng dụng phân tích độ rủi ro khoản tiền cho vay ngân hàng, nên thuộc tính dư thừa Phân tích cần thiết liệu nhằm mục đích loại bỏ thuộc tính khơng cần thiết, dư thừa Nghiên cứu thuật toán phân lớp dữliệu dựa định thừa khỏi q trình học thuộc tính sẽlàm chậm, phức tạp gây hiểu sai q trình học dẫn tới mơ hình phân lớp không dùng Chuyển đổi liệu :Việc khái quát hóa liệu lên mức khái niệm cao đơi cần thiết trình tiền xử lý Việc đặc biệt hữu ích với thuộc tính liên tục (continuous attributehay numeric attribute) Ví dụ giá trị sốcủa thuộc tính thu nhập khách hàng khái quát hóa thành dãy giá trị rời rạc: thấp, trung bình, cao Tương tự với thuộc tính rời rạc(categorical attribute) địa phố khái quát hóa lên thành thành phố Việc khái qt hóa làm đọng liệu học ngun thủy, thao tác vào/ liên quan đến trình học giảm II CÂY QUYẾT ĐỊNH ỨNG DỤNG TRONG PHÂN LỚP DỮ LIỆU 2.1 Định nghĩa Trong năm qua, nhiều mơ hình phân lớp dữliệu nhà khoa học nhiều lĩnh vực khác đềxuất nhưmạng notron, mơ hình thơng kê tuyến tính/bậc 2, định, mơ hình di truyền Trong sốnhững mơ hình đó, định với ưu điểm đánh giá cơng cụmạnh, phổbiến đặc biệt thích hợp cho data mining nói chung phân lớp dữliệu nói riêng Có thểkểra ưu điểm định như: xây dựng tương đối nhanh; đơn giản, dễhiểu Hơn có thểdễdàng chuyển đổi sang câu lệnh SQL để sửdụng đểtruy nhập cơsởdữliệu cách hiệu Cuối cùng, việc phân lớp dựa định đạt sựtương tựvà đơi xác so với phương pháp phân lớp khác Cây định biểu đồ phát triển có cấu trúc dạng cây, mơ tả hình vẽ sau: Trong định: • Gốc: node • Node trong: biểu diễn kiểm tra thuộc tính đơn (hình chữnhật) • Nhánh: biểu diễn kết quảcủa kiểm tra node (mũi tên) • Node lá: biểu diễn lớp hay sựphân phối lớp (hình trịn) Đểphân lớp mẫu dữliệu chưa biết, giá trịcác thuộc tính mẫu đưa vào kiểm tra định Mỗi mẫu tương ứng có đường từgốc đến biểu diễn dự đốn giá trịphân lớp mẫu 2.2 Xây dựng định Quá trình xây dựng định gồm hai giai đoạn: • Giai đoạn thứnhất phát triển định: Giai đoạn phát triển bắt đầu từgốc, đến nhánh phát triển quy nạp theo cách thức chia đểtrịcho tới đạt định với tất cảcác gán nhãn lớp • Giai đoạn thứhai cắt, tỉa bớt cành nhánh định Giai đoạn nhằm mục đích đơn giản hóa khái qt hóa từ làm tăng độchính xác định cách loại bỏ phụ thuộc vào mức độ lỗi (noise) liệu đào tạo mang tính chất thống kê, hay sựbiến đổi mà có thểlà đặc tính riêng biệt dữliệu đào tạo.Giai đoạn chỉtruy cập liệu định phát triển giai đoạn trước trình thực nghiệm cho thấy giai đoạn khơng tốn nhiều tài ngun tính tốn, nhưvới phần lớn thuật toán, giai đoạn chiếm khoảng 1% tổng thời gian xây dựng mơ hình phân lớp.Do vậy, chỉtập trung vào nghiên cứu giai đoạn phát triển định Dưới khung cơng việc giai đoạn này: 1) Chọn thuộc tính “tốt” độ đo định trước 2) Phát triển việc thêm nhánh tương ứng với giá trịcủa thuộc tính chọn 3) Sắp xếp, phân chia tập dữliệu đào tạo tới node 4) Nếu ví dụ phân lớp rõ ràng dừng Ngược lại: lặp lại bước tới bước cho node 2.3 Thuật toán xây dựng định Hầu hết thuật toán dựa vào qui nạp có sử dụng phương pháp Hunt làm thuật toán sở Dưới mô tả qui nạp phương pháp Hunt dùng đểxây dựng định từmột tập T ca (case) học với lớp ký hiệu {C1,C2, ,Ck} Trường hợp 1: T chứa nhiều ca, tất thuộc lớp đơn Cj: Cây định cho T định dạng lớp Cj Trường hợp 2: T không chứa ca nào: Cây định cho T lá, lớp gắn với phải xác định từ thuộc tính khơng thuộc T Trường hợp 3: T chứa ca thuộc hỗn hợp lớp: Một phép thửđược lựa chọn dựa vào thuộc tính đơn có nhiều kết (giá trị) loại trừlẫn {O1 ,O2 , ,On } T phân chia thành tập T 1, T2, Tn, Tichứa tất ca T có kết O icủa phép thửđã chọn Cây định cho T gồm đỉnh định định danh cho phép thử, nhánh cho kết có Cơ chế xây dựng áp dụng đệ qui cho tập ca học Bảng tập dữliệu học ví dụvềthi đấu tennis với năm thuộc tính hai lớp (thuộc tính Ngày sử dụng làm định danh cho ca) Hình cách làm việc thuật toán Hunt với tập liệu học Trong trường hợp phương pháp Hunt, phép thử dựa thuộc tính đơn chọn để khai triển đỉnh hành Bảng 1: Một tập liệu học Hình 4: Minh họa phương pháp Hunt Các thuật toán phân lớp dữliệu dựa định có tưtưởng chủđạo phương pháp Hunt trình bày ởtrên Ln có câu hỏi lớn cần phải trảlời thuật toán phân lớp dữliệu dựa định là: Làm cách đểxác định thuộc tính tốt đểphát triển node? Lưu trữdữliệu nhưthếnào làm cách đểphân chia dữliệu theo test tương ứng? Các thuật toán khác có cách trảlời khác cho hai câu hỏi Điều làm nên sựkhác biệt thuật tốn Có loại tiêu chuẩn hay chỉsố đểxác định thuộc tính tốt phát triển node • Gini-index(Breiman đồng sự, 1984): Loại tiêu chuẩn lựa chọn thuộc tính mà làm cực tiểu hóa độkhơng tinh khiết phân chia Các thuật tốn sửdụng CART, SLIQ, SPRINT • Information–gain(Quinlan, 1993): Khác với Gini-index, tiểu chuẩn sửdụng entropy để đo độkhông tinh khiết phân chia lựa chọn thuộc tính theo mức độcực đại hóa chỉsốentropy Các thuật tốn sửdụng tiêu chuẩn ID3, C4.5 • χ2bảng thống kê sựkiện xảy ngẫu nhiên: χ2đo độtương quan thuộc tính nhãn lớp Sau lựa chọn thuộc tính có độtương quan lớn CHAID thuật toán sửdụng tiêu chuẩn 2.3.1 Thuật toán ID3 Thuật toán ID3 (Quinlan86) thuật toán xây dựng định sửdụng information gain đểlựa chọn thuộc tính phân lớp đối tượng Nó xây dựng theo cách từ xuống, tập đối tượng đặc tảcủa thuộc tính Tại đỉnh cây, thuộc tính có information gain lớn sẽđược chọn để phân chia tập đối tượng Quá trình thực cách đệ quicho đến tập đối tượng cho trở nên nhất, tức chỉchứa đối tượng thuộc lớp Lớp trở thành Việc lựa chọn thuộc tính cho phép thử quan trọng Nếu chọn khơng thích hợp, có phức tạp Ví dụ, ta chọn thuộc tính Nhiệt độ làm gốc câyquyết định sẽcó hình dạng Hình Nhưng chọn thuộc tính Quang cảnh làm gốc ta lại có định đơn giản Hình Vậy nên chọn thuộc tính tốt nhất? Thơng thường việc chọn thuộc tính dựa vào độđo gọi Entropy Gainshay cịn gọi Information Gains thuộc tính Entropy thuộc tính tính tốn từ thuộc tính phân lớp Đối với thuộc tính rời rạc, cần phải có thơng tin phân lớp giá trị thuộc tính Bảng 2: Thơng tin phân bố lớp thuộc tính Quang cảnh Bảng cho thấy thơng tin phân lớp thuộc tính Quang cảnh Đối với thuộc tính liên tục, phải xét phép thửnhịphân tất cảcác giá trị khác thuộc tính Bảng thơng tin phân lớp thuộc tính Độ ẩm Hình 5: Một định chọn Nhiệt độ làm gốc Một thu nhận thông tin phân lớp tất thuộc tính, tính Entropy Một thuộc tính với Entropy lớn chọn làm phép thử để khai triển 2.3.1.1 Hàm Entropy Hàm Entropy xác định tính khơng khiết tập ca liệu Chúng ta gọi S tập ca dương tính (ví dụ Thi đấu) âm tính (ví dụ Không thi đấu), P⊕ tỉ lệ ca dương tính S, P⊖là tỉ lệ ca âm tính S Entropy = - P⊕ log2 P⊕ - P⊖log2 P⊖ Ví dụ Trong Bảng ví dụ thi đấu tennis, tập S có ca dương ca âm (ký hiệu [9+,5-]) Entropy(s) = Entropy([9+,5-]) = log2 - log2 = 0.94 10 Nhận xét Entropy tất ca S thuộc lớp Chẳng hạn như, tất ca dương P⊕ = P- = 0, vậy: Entropy(S) = -1og2 (1) – 0log2(0) = Entropy tập S chứa sốca dương âm Nếu số ca khác Entropy nằm 1.Trường hợp tổng quát, S bao gồm c lớp, Entropy S tính cơng thức sau: 2.3.1.2 Độ đo (Informatic Gain) Độ đo, đo mức độ hiệu thuộc tính tốn phân lớp liệu Đó rút gọn mà ta mong đợi phân chia ca liệu theo thuộc tính Nó tính theo cơng thức sau đây: Trong Value(A) tập tất cảcác giá trịcó thểcó thuộc tính A, S v tập S mà A có giá trị v Ví dụ 2: 2.3.1.3 Thuật tốn ID3 11 Thuật toán ID3 thực sau Trước hết, mở nút gốc cho cây, nhãn tập mẫu có giá trị nút gán nhãn chung này, cịn tập thuộc tính rỗng nút gán nhãn theo đa số thuật toán kết thúc Ngược lại, thuộc tính tốt chọn làm nút gốc tạo nhánh từ nút gốc tương ứng với giá trị thuộc tính chọn.Sau đó, tạo nút cho nhánh ứng với tập mẫu huấn luyện xếp phù hợp với nút con, tức là, xếp mẫu vào nhánh tương ứng với giá trị mẫu theo thuộc tính thuộc tính bị loại khỏi danh sách tập thuộc tính.Tồn q trình lặp lại cho tâp mẫu nút đểphát triển liệu thuộc tính kiểm tra hết nút trở thành nút vá gán nhãn tương ứng theo đa số Kết cho định phân loại (hoặc gần mẫu có nhiễu) tập mẫu đào tạo Bước Khởi tạo: D, tập nhãn, tập thuộc tính; Bước Tạo nút gốc (Root) cho cây; Bước Gán nhãn cho nút liệu tập thuộc tính rỗng 2.1 Nếu mẫu dương tính nhãn nút gốc = + 2.2 Nếu tất mẫu âm tính nhãn nút gốc = 2.3 Nếu tập thuộc tính rỗng trả nút gốc có nhãn = giá trị phổ biến thuộc tính đích tập mẫu; 2.4 Các trường hợp khác sang bước 3; Bước 3.1 Xác định thuộc tính phân loại tập mẫu tốt tập thuộc tính; 3.2 A thuộc tính phân loại tốt nhất; 3.4 Với giá trị vi thuộc tính A, thực hiện: 3.4.1 Thêm nhánh nút gốc với điều kiện A= vi; 3.4.2 Xác định Examplevi = {x tập mẫu: x có giá trị vi thuộc tính A}; 3.4.3 Nếu Examplevi rỗng thêm nhánh nút cónhãn nhãn phổ biến mẫu tập mẫu; 3.4.4 Ngược lại, trở lại bước với khởi tạo: 12 (D = Examplevi, tập nhãn, tập thuộc tính – {A}); 2.3.2 Thuật tốn C4.5 Thuật toán Quinlan đưa năm 1993 Thuật toán C4.5 sinh định phân lớp tập liệu cho cách phân chia đệ qui liệu Cây định triển khai theo chiến lược chiều sâu trước (Depth-first) Thuật toán xét tất phép thử phân chia tập liệu cho chọn phép thử cho GainRatio tốt GainRatio độ đo hiệu thuộc tính thuật tốn triển khai định Nó tính sở độ đo sau: Si tập S với A có giá trị Vi Đối với thuộc tính rời rạc, phải xét phép thử với tất giá trị khác Cịn thuộc tính liên tục, ta phải xét phép thửnhị phân cho giá trị phân biệt thuộc tính Đểthu thập Entropy Gain tất phép thử nhị phân cách hữu hiệu tập liệu thuộc đỉnh xét phải phân loại theo giá trị thuộc tính liên tục Entrropy Gains phép cắt nhị phân dựa giá trị phân biệt thuộc tính tính tốn lần duyệt liệu phân loại Quá trình thực thuộc tính liên tục • Thuật toán C4.5 Quinlan [18] đề xuất để khắc phục nhược điểm của ID3 Thuật toán thực theo lược đồ ID3 có cải tiến sau: 1) Ngồi việc áp dụng tiêu chuẩn Thu hoạch thơng tin cực đại, C4.5 cịn đề xuất sử dụng tiêu chuẩn Tỷ lệ thu hoạch thông tin cực đại (Gainratio) để dùng cho trường hợp mà tiêu chuẩn trước áp dụng không tốt (nhược điểm thứ ID3) 2) Áp dụng kỹ thuật chặn sớm phát triển dựa thống kê để tránh phù hợp trội không lớn 3) Đề xuất giải pháp xử lý trường hợp mẫu có thuộc tính thiếu giá trị 4) Đề xuất phương pháp áp dụng cho thuộc tính nhận giá trị liên tục 13 2.3.3 Ứng dụng thuật toán ID3 để xây dựng định Xây dựng định cho tập liệu học bảng thuật tốn ID3 Giá trị Lớp thuộc tính Thi đấu Bảng thơng tin Có thuộc tính Gió Khơng Giá trị Lớp thuộc tính Thi đấu Nắng Nhiều mây Mưa Không thi đấu phân Không thi đấu Bảng thông tin phân bố lớp thuộc tính Quang Cảnh Giá trị thuộc tính Lớp Thi đấu Không thi đấu Cao (>=75) Bình thường ( = 3.84 nên loại bỏ giả thiết khơng tính độc lập chấp nhận giả thiết thay tính phụ thuộc Do vậy, theo liệu học việc thi đấu tennis phụ thuộc vào trời nắng hay không Như vậy, khơng thể loại bỏ tiền đề • Độ ẩm bình thường Thực tế: Mong đợi: Do tần xuất mong đợi lớn m=20.6 nên ta chọn phép thửđộc lập Khi bình phương Từ đây, theo cơng thức ta có χ2 = 6.64 Bậc tự bảng df = (2-1)*(2-1) = Từ bảng Chi bình phương, ta có = 3.84 Vì χ2= 7.99> = 3.84 nên loại bỏ giả thiết khơng tính độc lập chấp nhận giả thiết thay tính phụ thuộc Do vậy, theo liệu học việc thi đấu tennis phụ thuộc vào trời nắng hay không Như vậy, loại bỏ tiền đề b Xét tiếp hai tiền đề luật 4: Trời mưa Có gió to • Trời mưa Thực tế 23 Mong đợi: Từ đây, theo công thức ta có Vì , nên chấp nhận giả thiết khơng tính độc lập Do vậy, theo liệu học việc thi đấu tennis khơng phụ thuộc vào Trời mưa Như vậy, loại bỏ tiền đề luật • Gió to Thực tế: Mong đợi: Từ đây, theo cơng thức ta có χ2= 7.99 24 Vì χ2>, nên loại bỏ giả thiết khơng vềtính khơng độc lập chấp nhận giả thiết thay tính phụ thuộc Do vậy, theo liệu học việc thi đấu tennis phụ thuộc vào Gió to Như vậy, loại bỏtiền đề Loại bỏ luật không cần thiết Qua việc thử tiền đề tập luật, thấy loại bỏhoàn toàn luật mà loại bỏđược tiền đề trời mưa luật Bảng luật thu gọn cho bảng sau: Đánh giá phân lớp liệu định lĩnh vực khai phá liệu − Thuận lợi: Quá trình xây dựng định khơng dùng kiến thức lĩnh vực liệu nghiên cứu thông số đầu vào Kết trình huấn luyện (học) biểu diễn dạng nên dễ hiểu gần gũi với người Nhìn chung, giải thuật định cho kết có độ xác cao − Khó khăn: Đối với tập liệu có nhiều thuộc tính định lớn (về chiều sâu chiều ngang), làm giảm độ dễ hiểu Việc xếp hạng thuộc tính để phân nhánh dựa vào lần phân nhánh trước bỏ qua phụ thuộc lẫn thuộc tính Khi dùng độ lợi thơng tin (Information Gain) để xác định thuộc tính rẽ nhánh, thuộc tính có nhiều giá trị thường ưu tiên chọn 25 ... C C2 (C2là phủ định C1) x1cho đến x2biểu diễn tần xuất cặp tiền đề - kết luận R1T, R2T, C1T, C 2Tl? ? tổng biên dòng cột tương ứng Các tổng biên T (tổng tất tần xuất bảng) sửdụng đểtính giá trị... kết có độ xác cao − Khó khăn: Đối với tập liệu có nhiều thuộc tính định lớn (về chiều sâu chiều ngang), làm giảm độ dễ hiểu Việc xếp hạng thuộc tính để phân nhánh dựa vào lần phân nhánh trước