Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 63 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
63
Dung lượng
1,26 MB
Nội dung
ĐẠI HỌC ĐÀ NẴNG TRƯỜNG ĐẠI HỌC BÁCH KHOA TRƯƠNG TIẾN QUỐC TRƯƠNG TIẾN QUỐC * KHOA HỌC MÁY TÍNH HƯỚNG XÂY DỰNG CÂY QUYẾT ĐỊNH VỚI CHI PHÍ HIỆU QUẢ LUẬN VĂN THẠC SĨ KHOA HỌC CHUYÊN NGÀNH KHOA HỌC MÁY TÍNH * KHĨA K32 Đà Nẵng - Năm 2018 ĐẠI HỌC ĐÀ NẴNG TRƢỜNG ĐẠI HỌC BÁCH KHOA - TRƢƠNG TIẾN QUỐC HƢỚNG XÂY DỰNG CÂY QUYẾT ĐỊNH VỚI CHI PHÍ HIỆU QUẢ Chuyên ngành : KHOA HỌC MÁY TÍNH Mã số: 60.48.01 LUẬN VĂN THẠC SĨ NGƢỜI HƢỚNG DẪN KHOA HỌC: TS Nguyễn Văn Hiệu Đà Nẵng – Năm 2018 i LỜI CAM ĐOAN Tôi cam đoan cơng trình nghiên cứu riêng tơi Các số liệu, kết nêu luận văn trung thực chưa công bố cơng trình khác Tác giả Trƣơng Tiến Quốc ii MỤC LỤC Trang phụ bìa Lời cam đoan Mục lục Tóm tắt luận văn Danh mục từ viết tắt Danh mục bảng Danh mục hình i ii iv v vi vii MỞ ĐẦU CHƢƠNG - GIỚI THIỆU TỔNG QUAN 1.1 Cây định: 1.1.1 Giới thiệu chung: 1.1.2 Các kiểu định: 1.1.3 Ƣu nhƣợc điểm định: 1.1.4 Phƣơng pháp tổng quát xây dựng định: 1.1.5 Phƣơng pháp đánh giá độ xác định: 1.1.6 Cách biểu diễn định: 1.1.7 Các vấn đề khó khăn: 1.2 Các thuật toán liên quan định: 10 1.2.1 Thuật toán ID3: 10 1.2.2 Thuật toán C4.5: 13 1.2.3 Thuật tốn tìm kiếm Heurictis: 16 1.2.4 Lập trình ràng buộc: 20 CHƢƠNG - XÂY DỰNG CÂY QUYẾT ĐỊNH VỚI CHI PHÍ HIỆU QUẢ 2.1 Giới thiệu D4: 25 2.2 Dữ liệu nhập liệu xuất: 26 2.3 Mơ hình xây dựng: 27 2.4 Tổng kết chƣơng 2: 29 CHƢƠNG - ĐÁNH GIÁ KẾT QUẢ THỬ NGHIỆM 3.1 Giới thiệu: 31 3.2 Dữ liệu: 31 3.3 Cây định có yếu tố chi phí: 32 3.4 Lợi ích nhị phân: 33 3.5 Ảnh hƣởng thuộc tính nhị phân đa dạng liệu: 37 iii 3.6 Tổng kết chƣơng 3: 43 KẾT LUẬN Kết luận: 44 Hƣớng nghiên cứu tƣơng lai: 44 DANH MỤC TÀI LIỆU THAM KHẢO QUYẾT ĐỊNH GIAO ĐỀ TÀI LUẬN VĂN (bản sao) 46 iv HƢỚNG TIẾP CẬN XÂY DỰNG CÂY QUYẾT ĐỊNH VỚI CHI PHÍ HIỆU QUẢ Học viên: TRƢƠNG TIẾN QUỐC Chuyên ngành: Khoa Học Máy Tính Mã số: 60.48.01 Khóa:32 Trƣờng Đại học Bách khoa – ĐHĐN Tóm tắt - Cây định kỹ thuật máy học phổ biến có nhiều ứng dụng thực tế Cây định đƣợc mở rộng để bao gồm chi phí liên quan đến lần kiểm thử, cho phép ƣu tiên không gian đặc trƣng Bài tốn giảm thiểu chi phí dự kiến định đƣợc gọi toán NP- đầy đủ Kết là, hầu hết phƣơng pháp tiếp cận để tạo định dựa vào heuristic Luận văn nhằm mở rộng phƣơng pháp đƣợc sử dụng nghiên cứu trƣớc để tìm kiếm định với chi phí dự kiến nhỏ so với cách sử dụng heuristic đơn giản Ngƣợc lại với nghiên cứu trƣớc định nhỏ sử dụng phƣơng pháp tiếp cận xác, nhiều nghiên cứu cho phƣơng pháp tiếp cận xác nói chung khơng tìm định thấp cách tiếp cận heuristic Luận văn thành công nghiên cứu trƣớc vấn đề giảm thiểu kích thƣớc định phụ thuộc phần vào việc chuyển đổi liệu sang dạng nhị phân Chuyển đổi sử dụng giá trị thuộc tính nhƣ phép thử nhị phân thay thuộc tính xây dựng định Phƣơng pháp chuyển đổi liệu sang dạng nhị phân đƣợc kiểm tra chi tiết thông qua nhiều phép đo liệu Từ khóa: định; giảm thiểu chi phí dự kiến; phƣơng pháp tiếp cận xác; tìm kiếm định nhỏ nhất; tiếp cận heuristic; chuyển liệu sang dạng nhị phân AN APPROACH TO BUILDING DECISION TREES WITH COST EFFICIENCY Abstract - Decision trees have been a popular machine learning technique for some time Decision trees are simple to construct, easy to understand on viewing, and have many desirable properties such as resistance to errors and noise in real world data Decision trees can be extended to include costs associated with each test, allowing a preference over the feature space The problem of minimizing the expected-cost of a decision tree is known to be NP-complete As a result, most approaches to decision tree induction rely on a heuristic This thesis extends the methods used in past research to look for decision trees with a smaller expected-cost than those found using a simple heuristic In contrast to the past research which found smaller decision trees using exact approaches, I find that exact approaches in general not find lower expected-cost decision trees than heuristic approaches It is the work of this thesis to show that the success of past research on the simpler problem of minimizing decision tree size is partially dependent on the conversion of the data to binary form This conversion uses the values of the attributes as binary tests instead of the attributes themselves when constructing the decision tree The effect of converting data to binary form is examined in detail and across multiple measures of data to show the extent of this effect Key words - decision tree; minimizing the expected-cost; exact approaches; search for the smallest decision tree; heuristic approaches; converting data to binary form v DANH MỤC CÁC TỪ VIẾT TẮT ACL Agent Communication Language AMS Agent Management System AP Agent Platform API Application Programming Interface CF Communication Failitator vi DANH MỤC CÁC BẢNG Số hiệu bảng 1.1 2.1 3.1 3.2 3.3 3.4 3.5 3.6 3.7 3.8 3.9 3.10 Tên bảng Đƣa tốn tìm định nhỏ Tập mẫu đƣợc đánh nhãn Các liệu từ UCI Machine Learning Repository đƣợc sử dụng để kiểm tra thuật toán D4 Bộ liệu chi phí từ UCI Machine Learning Respository đƣợc sử dụng để kiểm tra thuật tốn D4 Chi phí dự kiến định đƣợc tăng lên liệu từ UCI Machine Learning Repository So sánh J48 Weka, thuật tốn D4 lập trình ràng buộc (CP) Bessiere liệu phân loại So sánh J48 Weka, thuật toán D4, phƣơng pháp lập trình ràng buộc (CP) Bessiere liệu phân loại So sánh J48 WEKA phƣơng pháp lập trình ràng buộc (CP) liệu phân loại So sánh kích thƣớc định đặc điểm dạng nhị phân dạng nhị phân loại liệu So sánh kích thƣớc định đặc điểm dạng nhị phân dạng nhị phân loại liệu So sánh độ xác định có đặc điểm dạng nhị phân khơng phải dạng nhị phân loại liệu Các dạng tập liệu có kích thƣớc tƣơng tự đƣợc tìm thấy so sánh kích thƣớc định Trang 22 24 32 32 33 34 34 36 39 40 41 42 vii DANH MỤC CÁC HÌNH Số hiệu hình vẽ Tên hình vẽ Trang 1.1 Ƣớc lƣợng độ xác mơ hình phân lớp với phƣơng pháp holdout 1.2 Ví dụ định 1.3 Đồ thị cho giải thuật tìm kiếm tốt 17 1.4 Trạng thái bắt đầu kết thúc trò đố 18 1.5 Mơ hình CP [5] 21 2.1 Hình minh họa thuật tốn D4 24 3.1 3.2 3.3 Biều đồ cột cho thấy kích thƣớc trung bình định đƣợc tạo thuật toán tập liệu Biểu đồ cột cho thấy tính xác trung bình định liệu kiểm thử đƣợc tạo thuật toán tập liệu Ảnh hƣởng việc chuyển đổi thuộc tính sang dạng nhị phân 35 36 38 MỞ ĐẦU LÝ DO CHỌN ĐỀ TÀI: Trong trình hoạt động, ngƣời tạo nhiều liệu nghiệp vụ Các tập liệu đƣợc tích lũy có kích thƣớc ngày lớn, chứa nhiều thơng tin ẩn dạng quy luật chƣa đƣợc khám phá Chính vậy, nhu cầu đặt cần tìm cách trích rút từ tập liệu luật phân lớp liệu hay dự đoán xu hƣớng liệu tƣơng lai Những quy tắc nghiệp vụ thông minh đƣợc tạo phục vụ đắc lực cho hoạt động thực tiễn, nhƣ phục vụ đắc lực cho q trình nghiên cứu khoa học Cơng nghệ phân lớp dự đoán liệu đời để đáp ứng mong muốn Cơng nghệ phân lớp liệu đã, phát triển mạnh mẽ trƣớc khao khát tri thức ngƣời Trong năm qua, phân lớp liệu thu hút quan tâm nhà nghiên cứu nhiều lĩnh vực khác nhƣ học máy hệ chuyên gia, thống kê Công nghệ ứng dụng nhiều lĩnh vực thực tế nhƣ: thƣơng mại, nhà băng, maketing, nghiên cứu thị trƣờng, bảo hiểm, y tế, giáo dục Nhiều kỹ thuật phân lớp đƣợc đề xuất nhƣ: Phân lớp định phân lớp Bayesian, phân lớp sử dụng kỷ thuật láng giềng, mạng nơron nhân tạo, sử dụng kỹ thuật phân tích thống kê,… Trong kỹ thuật đó, định đƣợc coi cơng cụ mạnh, phổ biến đặc biệt thích hợp cho khai phá liệu[5][7] Trong mơ hình phân lớp, thuật toán phân lớp nhân tố chủ đạo Do cần xây dựng thuật tốn có độ xác cao, thực thi nhanh, có khả mở rộng để có thực thi với tập liệu ngày lớn Tuy nhiên, tập liệu có nhiều thuộc tính cấu trúc định lớn (lớn chiều sâu, lớn chiều ngang), vấn đề làm giảm độ lớn cấp thiết Việc xếp hạng thuộc tính để thực phân nhánh phụ thuộc vào lần phân nhánh trƣớc Chính khó khăn trên, nhà nghiên cứu khơng ngừng cải tiến thuật toán xây dựng định nhỏ với độ xác cao Nhƣng kèm theo có số khó khăn phải cân tính xác chi phí xây dựng định Vì vậy, luận văn “Hướng tiếp cận xây dựng định với chi phí hiệu quả” hƣớng tiếp cận để giải vấn đề đƣợc nêu MỤC TIÊU NGHIÊN CỨU: - Nghiên cứu định, cách xây dựng định - Nghiên cứu phƣơng pháp xây dựng định - Nghiên cứu cơng trình tối ƣu hóa định 40 Cột bên trái mô tả liệu đƣợc sử dụng Mã 4f 4v 10e nghĩa liệu có thuộc tính, giá trị cho thuộc tính 10 mẫu, 2-5v cho thấy phạm vi giá trị Bảng đƣợc chia thành ba mục: D4 không kèm theo số mẫu tối thiểu cần thiết cho không cắt tỉa, D4 kèm theo số mẫu tối thiểu cần thiết cho không cắt tỉa, cài đặt cắt tỉa mặc định WEKA J48 Trong mục có hai cột thể liệu bình thƣờng liệu đƣợc chuyển sang thuộc tính nhị phân cách sử dụng phƣơng pháp mà Bessiere [8] áp dụng Ba cột nhằm cho thấy định nhị phân thƣờng nhỏ định không nhị phân tƣơng ứng Khi đòi hỏi số lƣợng tối thiểu mẫu lá, định nhị phân khơng nhỏ nữa, khơng nhị phân khơng có trống Điều loại bỏ trống thu nhỏ kích thƣớc định đƣợc xây dựng liệu có thuộc tính khơng dạng nhị phân Trong thực nghiệm có thuộc tính tốt đƣợc kiểm tra nhƣ thuật toán heuristic xác định, D4 khơng thực tìm kiếm quay lui Bảng 3.8: So sánh kích thƣớc định thuộc tính dạng nhị phân khơng phải dạng nhị phân loại liệu D4 không cắt tỉa Không Dạng nhị phải dạng phân nhị phân 10f4v10 10f4v100 101 63 10f4v1000 1041 663 10f4v10000 11137 7927 10f2-6v10 10f2-6v100 94 61 10f2-6v1000 944 717 10f2-6v10000 10484 8263 10f8v10 10f8v100 153 55 10f8v1000 1433 539 10f8v10000 15713 6029 10f2-11v10 10f2-11v100 105 47 10f2-11v1000 1139 629 10f2-11v10000 11053 6483 D4 tối thiểu Không Dạng nhị phải dạng phân nhị phân 5 69 63 629 663 6277 7927 88 61 897 717 9472 8263 49 55 505 539 4353 6029 89 47 1038 629 9652 6483 WEKA có cắt tỉa Không Dạng phải dạng phân nhị phân 21 141 1761 23 226 1361 1 113 1265 22 153 1253 nhị 41 303 2939 41 321 2771 39 351 3295 33 347 3187 Tiếp tục bảng 3.7 với 10 thuộc tính thay thuộc tính.Bảng 3.9 xuất phát từ thí nghiệm nhƣng cho thấy độ xác định Tính xác định đƣợc kiểm tra liệu huấn luyện ban đầu Điều thú vị tính xác định không cắt tỉa, đƣợc xây dựng liệu dạng nhị phân liệu dạng nhị phân giống Mặc dù vậy, tính xác định mà đòi hỏi số mẫu tối thiểu lại giảm 41 khơng chứa mẫu thuộc loại Mức tối thiểu không ảnh hƣởng đến định đƣợc xây dựng dựa liệu dạng nhị phân rỗng bao hàm tất mẫu xuống nhánh đơn, dẫn đến khơng có độ lợi thơng tin Bảng 3.9: So sánh độ xác định có đặc điểm dạng nhị phân khơng phải dạng nhị phân loại liệu Bảng gồm độ xác huấn luyện định bảng 3.7 3.8 D4 không cắt tỉa Không Dạng nhị phải dạng phân nhị phân 4f4v10 100% 100% 4f4v100 89% 89% 4f4v1000 69% 69% 4f4v10000 56% 56% 4f2-5v10 100% 100% 4f2-5v100 84% 84% 4f2-5v1000 63% 63% 4f2-5v10000 54% 54% 4f8v10 100% 100% 4f8v100 100% 100% 4f8v1000 94% 93% 4f8v10000 74% 74% 4f2-10v10 100% 100% 4f2-10v100 97% 97% 4f2-10v1000 78% 78% 4f2-10v10000 60% 60% 10f4v10 100% 100% 10f4v100 100% 100% 10f4v1000 100% 100% 10f4v10000 100% 100% 10f2-6v10 100% 100% 10f2-6v100 100% 100% 10f2-6v1000 100% 100% 10f2-6v10000 99% 99% 10f8v10 100% 100% 10f8v100 100% 100% 10f8v1000 100% 100% 10f8v10000 100% 100% 10f2-11v10 100% 100% 10f2-11v100 100% 100% 10f2-11v1000 100% 100% 10f2-11v10000 100% 100% D4 tối thiểu Không Dạng nhị phải dạng phân nhị phân 80% 100% 76% 89% 69% 69% 56% 56% 100% 100% 83% 84% 63% 63% 54% 54% 40% 100% 69% 100% 72% 93% 68% 74% 90% 100% 92% 97% 78% 78% 60% 60% 90% 100% 91% 100% 90% 100% 88% 100% 100% 100% 98% 100% 99% 100% 97% 99% 100% 100% 83% 100% 85% 100% 82% 100% 100% 100% 95% 100% 97% 100% 96% 100% WEKA có cắt tỉa Khơng Dạng nhị phải dạng phân nhị phân 60% 90% 71% 74% 58% 64% 54% 55% 60% 90% 64% 68% 57% 60% 54% 54% 60% 60% 56% 81% 59% 73% 56% 66% 60% 90% 56% 69% 60% 67% 57% 58% 90% 90% 75% 92% 72% 87% 73% 83% 70% 90% 78% 93% 77% 86% 70% 82% 60% 100% 58% 95% 66% 92% 67% 89% 90% 80% 82% 94% 70% 88% 67% 87% Bảng 3.10 tóm tắt số dạng liệu Cột cho biết loại tập liệu đƣợc tính trung bình, ví dụ 10e đại diện cho tất liệu có 10 mẫu Cột 42 thứ hai tỷ số thuộc tính khơng phải dạng nhị phân thuộc tính dạng nhị phân Cột thứ ba tỷ số thuộc tính khơng phải dạng nhị phân có bắt buộc số mẫu tối thiểu thuộc tính nhị phân Những ƣu điểm thuộc tính nhị phân kích thƣớc định biến cần có số mẫu tối thiểu nút Bảng 3.10: Các dạng tập liệu có kích thƣớc tƣơng tự đƣợc tìm thấy so sánh kích thƣớc định Không phải dạng nhị phân / Nhị phân 1,71 1,79 1,47 1,26 Tối thiểu / Nhị phân 4f 10f 1,32 1,79 0,72 1,23 Phạm vi nhỏ 4v Phạm vi lớn 8v 1,13 1,31 1,65 2,14 1,08 0,79 1,31 0,70 10e 100e 1000e 10000e 1,05 1,03 0,94 0,86 Cột nhóm đƣợc tính trung bình, liệu có hàng trăm mẫu (100e), thuộc tính (4f) giá trị thuộc tính (8v) Cột thứ hai tỷ số kích thƣớc định đƣợc xây dựng cách sử dụng liệu ban đầu định đƣợc lập cách sử dụng liệu đƣợc chuyển đổi để có thuộc tính nhị phân Cột thứ ba tỷ số kích thƣớc định đƣợc xây dựng cách sử dụng liệu ban đầu, đòi hỏi phải có mẫu định sử dụng liệu đƣợc chuyển đổi để có thuộc tính nhị phân Kích thƣớc định đƣợc xây dựng dựa thuộc tính khơng phải dạng nhị phân chí nhỏ so với nhị phân số lƣợng mẫu tăng lên (điều đƣợc dự kiến việc chuyển đổi trực tiếp định thành dạng nhị phân làm tăng kích thƣớc thuộc tính có từ bốn giá trị trở lên) Khi số lƣợng mẫu tăng lên, tỷ lệ dạng nhị phân, không đƣợc cắt tỉa nhị phân giảm có nhiều liệu sẵn có để điền vào nút Khi số lƣợng thuộc tính tăng lên, tỷ lệ hai định tăng lên Các giá trị thuộc tính tăng lên, làm gia tăng tỉ lệ tiềm cho rỗng tăng lên Các thuộc tính có hai giá trị có tỷ lệ giá trị giá trị kia, thuộc tính thuộc tính nhị phân 43 Tóm lại, rõ ràng việc chuyển đổi liệu để có thuộc tính nhị phân làm ảnh hƣởng đến kích thƣớc định Tác động không đồng tất liệu mà biến đổi theo dạng liệu khác Bộ liệu lớn, kích thƣớc hai định liệu giống trở nên tƣơng đồng Khi có nhiều thuộc tính giá trị thuộc tính chênh lệch kích thƣớc định đƣợc tạo với thuộc tính khơng phải dạng nhị phân định đƣợc tạo với thuộc tính nhị phân gia tăng 3.6 TỔNG KẾT CHƢƠNG 3: Trong Chƣơng này, luận văn đánh giá thuật toán D4 nhƣ đánh giá lại kết mà Bessier [8] tìm Nhận thấy hầu hết trƣờng hợp, chi phí dự kiến qut định khơng giảm xuống thấp chi phí định đƣợc xây dựng theo thuật toán heuristic đơn giản Cũng nhận thấy việc chuyển đổi thuộc tính thành dạng nhị phân làm kích thƣớc định giảm nhiều, dù không thực số lƣợng kiểm thử cần thiết Ảnh hƣởng thuộc tính nhị phân đƣợc đánh giá thơng qua phạm vi kích thƣớc liệu khác 44 KẾT LUẬN KẾT LUẬN: Số lƣợng định để phân lớp liệu huấn luyện lớn thuật tốn heuristic nhằm tìm định có hiệu chi phí q hiệu đến mức khơng thể cải thiện chi phí dự kiến định thêm Việc tìm kiếm không gian định đƣợc thực ngẫu nhiên cách sử dụng thuật toán heuristic làm thuật tốn hƣớng dẫn khơng phải lúc tìm định tốt ban đầu mà thuật toán heuristic đơn giản đƣa Mặc dù tơi khơng thể loại bỏ viễn cảnh tình xấu cách sử dụng phƣơng pháp tìm kiếm thơng minh liệu giới thực, nhƣng nghiên cứu trƣớc lĩnh vực khơng thực có triển vọng nhƣ tƣởng Các kết Bessiere [8] việc tìm định nhỏ thơng qua việc tìm kiếm ngẫu nhiên khơng gian định, bị lệch chuyển đổi liệu huấn luyện sang dạng nhị phân (tức thay đổi thuộc tính thành tập bao gồm nhiều thuộc tính nhị phân tƣơng ứng với giá trị thuộc tính ban đầu) Từ nghiên cứu trƣớc với phát tơi, thấy định đƣợc xây dựng dựa liệu có thuộc tính nhị phân nhỏ xác định đƣợc xây dựng liệu nhƣng dạng ban đầu, dạng nhị phân Mặc dù vậy, khác biệt định nhị phân dạng nhị phân biến đổi tùy thuộc vào số lƣợng mẫu, thuộc tính giá trị cho thuộc tính liệu ban đầu so sánh trực tiếp Các nghiên cứu tƣơng lai việc xây dựng định ý xem xét kỹ lƣỡng ảnh hƣởng việc biểu diễn liệu vào chi tiết kiểm thử để giải thích kết cách xác HƢỚNG NGHIÊN CỨU TRONG TƢƠNG LAI: Thuật toán D4 giải khía cạnh chi phí liên quan đến việc tìm hiểu định Cùng với chi phí liên quan đến việc sử dụng thuộc tính để phân tách liệu, có chi phí phát sinh phân loại sai mẫu Chẳng hạn, chi phí việc chẩn đoán nhầm nhiễm trùng vi khuẩn thành nhiễm trùng virut, chi phí việc chẩn đốn nhầm nhiễm trùng virut thành nhiễm trùng vi khuẩn gì? Những chi phí khó phân định đòi hỏi liệu nghiên cứu sâu rộng, nhƣng lại đóng vai trò quan trọng việc cân chi phí định độ xác Nhƣợc điểm thuật tốn D4 việc tìm kiếm ngẫu nhiên thơng qua không gian định Hiện tại, ba thuộc tính phía trên, nhƣ đƣợc xác định thuật tốn heuristic, đƣợc lựa chọn với tỷ trọng ngang Một hƣớng tiếp cận khác 45 tìm kiếm cách có hệ thống thơng qua phần lớn thuộc tính phía cây, nhƣng sau chiều sâu định xem xét thuộc tính tốt Điều làm giảm đáng kể khơng gian tìm kiếm, không phụ thuộc nhiều vào thuật toán heuristic xuống phần sâu định, nơi thuật toán heuristic thực hiệu Đồng thời hƣớng tiếp cận việc tìm kiếm khơng gian định thơng qua phƣơng pháp quay lui (cho phép sử dụng thơng tin bổ sung mà thuật tốn heuristic khơng thể nắm bắt đƣợc) việc lựa chọn thuộc tính để phân tách mẫu Một ví dụ thơng tin mà thuật tốn heuristic khơng thể nắm bắt đƣợc, mối quan hệ thuộc tính xuất nhánh Đồng thời, phƣơng pháp đƣợc mở rộng để thực cách đáng tin cậy có ích cho việc xử lý giá trị thiếu bao gồm lựa chọn cắt tỉa định tìm 46 DANH MỤC TÀI LIỆU THAM KHẢO [1] T Menzies, Y Hu, Data Mining For Very Busy People IEEE Computer, tháng 10 năm 2003, pgs 18-25 [2] The Morgan Kaufmann Series in Data Management Systems, Jim Gray Datamining- Concepts and Techniques, Chapter 7-Classification and Prediction Series Editor Morgan Kaufmann Publishers, August 2000 [3] John Shafer, Rakesh Agrawal, Manish Mehta SPRINT- A Scalable Paralllel Classifier for Data mining In Predeeings of the 22nd International Conference on Very Large Database, India, 1996 [4] Mohammed J Zaki, Ching-Tien Ho, Rekesh Agrawal Parallel Classification for Data Mining on Shared-Memory Multiprocessors IVM Almaden Research Center, San Jose, CA 95120 [5] Pascal Van Hentenryck Laurent Michel, Comet in context, 2003 [6] Saher Esmeir and Shaul Markovitch Lookahead-based algorithms for anytime induction of decision trees In Proceedings of the twenty-first international conference on Machine learning, page 33 ACM, 2004 [7] Geoffrey Holmes, Andrew Donkin, and Ian H Witten Weka: A machine learning workbench In Intelligent Information Systems, 1994 Proceedings of the 1994 Second Australian and New Zealand Conference on, pages 357-361 IEEE, 1994 [8] Christian Bessiere, Emmanuel Hebrard, and Barry OSullivan Minimising decision tree size as combinatorial optimisation In Principles and Practice of Constraint Programming-CP 2009, pages 173-187 Springer, 2009 [9] Usama M Fayyad and Keki B Irani The attribute selection problem in decision tree generation In AAAI, pages 104-110, 1992 [10] J Ross Quinlan C4.5: Programs for Machine Learning, volume Morgan Kaufmann,1993 [11] Igor Kononenko, Ivan Bratko, and E Roskar Experiments in automatic learning of medical diagnostic rules 1984 [12] Barry Shepherd An appraisal of a decision tree approach to image classification In IJCAI, volume 83, pages 473-475, 1983 [13] Francesca Rossi, Peter Van Beek, and Toby Walsh Handbook of Constraint Programming Elsevier, 2006 ... tiến thuật toán xây dựng định nhỏ với độ xác cao Nhƣng kèm theo có số khó khăn phải cân tính xác chi phí xây dựng định Vì vậy, luận văn Hướng tiếp cận xây dựng định với chi phí hiệu quả hƣớng tiếp... xây dựng định với chi phí hiệu Chƣơng 3: Đánh giá kết thử nghiệm Kiểm tra tính hiệu việc xây dựng định với chi phí hiệu sử dụng thuật toán D4 Chƣơng - GIỚI THIỆU TỔNG QUAN 1.1 CÂY QUYẾT ĐỊNH: Trong... Giới thiệu tổng quan Giới thiệu định, ƣu điểm nhƣợc điểm định để từ đề xuất mơ hình Chƣơng 2: Xây dựng định với chi phí hiệu Trình bày cách thức xây dựng định, liệu nhập liệu xuất, mơ hình xây dựng