Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 67 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
67
Dung lượng
1 MB
Nội dung
ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Nguyễn Thị Thùy Linh NGHIÊN CỨU CÁC THUẬT TOÁN PHÂN LỚP DỮ LIỆU DỰA TRÊN CÂY QUYẾT ĐỊNH KHÓA LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY Ngành: Cơng nghệ thông tin HÀ NỘI - 2005 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Nguyễn Thị Thùy Linh NGHIÊN CỨU CÁC THUẬT TOÁN PHÂN LỚP DỮ LIỆU DỰA TRÊN CÂY QUYẾT ĐỊNH KHÓA LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY Ngành: Cơng nghệ thơng tin Cán hướng dẫn: TS Nguyễn Hải Châu HÀ NỘI - 2005 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com TÓM TẮT NỘI DUNG Phân lớp liệu hướng nghiên cứu khai phá liệu Cơng nghệ đã, có nhiều ứng dụng lĩnh vực thương mại, ngân hàng, y tế, giáo dục…Trong mơ hình phân lớp đề xuất, định coi công cụ mạnh, phổ biến đặc biệt thích hợp với ứng dụng khai phá liệu Thuật toán phân lớp nhân tố trung tâm mơ hình phân lớp Khóa luận nghiên cứu vấn đề phân lớp liệu dựa định Từ tập trung vào phân tích, đánh giá, so sánh hai thuật tốn tiêu biểu cho hai phạm vi ứng dụng khác C4.5 SPRINT Với chiến lược riêng lựa chọn thuộc tính phát triển, cách thức lưu trữ phân chia liệu, số đặc điểm khác, C4.5 thuật toán phổ biến phân lớp tập liệu vừa nhỏ, SPRINT thuật toán tiêu biểu áp dụng cho tập liệu có kích thước cực lớn Khóa luận chạy thử nghiệm mơ hình phân lớp C4.5 với tập liệu thực thu số kết phân lớp có ý nghĩa thực tiễn cao, đồng thời đánh giá hiệu mơ hình phân lớp C4.5 Trên sở nghiên cứu lý thuyết trình thực nghiệm, khóa luận đề xuất số cải tiến mơ hình phân lớp C4.5 tiến tới cài đặt SPRINT - i- LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com LỜI CẢM ƠN Trong suốt thời gian học tập, hoàn thành khóa luận em may mắn thầy bảo, dìu dắt gia đình, bạn bè quan tâm, động viên Em xin bày tỏ lịng biết ơn chân thành tới thầy trường Đại học Công Nghệ truyền đạt cho em nguồn kiến thức vô quý báu cách học tập nghiên cứu khoa học Cho phép em gửi lời cảm ơn sâu sắc tới TS Nguyễn Hải Châu, người thầy nhiệt tình bảo hướng dẫn em suốt trình thực khóa luận Với tất lịng mình, em xin bày tỏ lòng biết ơn sâu sắc đến TS Hà Quang Thụy tạo điều kiện thuận lợi cho em định hướng nghiên cứu Em xin lời cảm ơn tới Nghiên cứu sinh Đoàn Sơn (JAIST) cung cấp tài liệu cho em lời khuyên quý báu Em xin gửi lời cảm ơn tới thầy cô Bộ môn Các hệ thống thông tin, Khoa Cơng nghệ thơng tin giúp em có môi thực nghiệm thuận lợi Em xin gửi tới bạn nhóm Seminar “Khai phá liệu Tính tốn song song” lời cảm ơn chân thành đóng góp kiến thức quý báu em tiếp thu suốt thời gian tham gia nghiên cứu khoa học Cuối cùng, em xin cảm ơn gia đình, bạn bè tập thể lớp K46CA, người ln bên khích lệ động viên em nhiều Hà Nội, tháng năm 2005 Sinh viên Nguyễn Thị Thùy Linh - ii- LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com MỤC LỤC TÓM TẮT NỘI DUNG i LỜI CẢM ƠN ii MỤC LỤC iii DANH MỤC BIỂU ĐỒ HÌNH VẼ .v DANH MỤC THUẬT NGỮ vii ĐẶT VẤN ĐỀ .1 Chương TỔNG QUAN VỀ PHÂN LỚP DỮ LIỆU DỰA TRÊN CÂY QUYẾT ĐỊNH .3 1.1 Tổng quan phân lớp liệu data mining 1.1.1 Phân lớp liệu 1.1.2 Các vấn đề liên quan đến phân lớp liệu 1.1.3 Các phương pháp đánh giá độ xác mơ hình phân lớp 1.2 Cây định ứng dụng phân lớp liệu 1.2.1 Định nghĩa 1.2.2 Các vấn đề khai phá liệu sử dụng định 10 1.2.3 Đánh giá định lĩnh vực khai phá liệu 11 1.2.4 Xây dựng định 13 1.3 Thuật toán xây dựng định 14 1.3.1 Tư tưởng chung 14 1.3.2 Tình hình nghiên cứu thuật tốn 15 1.3.3 Song song hóa thuật tốn phân lớp dựa định 17 Chương C4.5 VÀ SPRINT 21 2.1 Giới thiệu chung 21 2.2 Thuật toán C4.5 21 2.2.1 C4.5 dùng Gain-entropy làm độ đo lựa chọn thuộc tính “tốt nhất” 22 2.2.2 C4.5 có chế riêng xử lý giá trị thiếu 25 2.2.3 Tránh “quá vừa” liệu 26 2.2.4 Chuyển đổi từ định sang luật 26 2.2.5 C4.5 thuật toán hiệu cho tập liệu vừa nhỏ 27 2.3 Thuật toán SPRINT 28 2.3.1 Cấu trúc liệu SPRINT 29 2.3.2 SPRINT sử dụng Gini-index làm độ đo tìm điểm phân chia tập liệu “tốt nhất” 31 2.3.3 Thực thi phân chia 34 2.3.4 SPRINT thuật toán hiệu với tập liệu lớn so với thuật toán khác 35 - iii- LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 2.4 So sánh C4.5 SPRINT 37 Chương CÁC KẾT QUẢ THỰC NGHIỆM 38 3.1 Môi trường thực nghiệm .38 3.2 Cấu trúc mơ hình phân lớp C4.5 release8: 38 3.2.1 Mơ hình phân lớp C4.5 có chương trình chính: 38 3.2.2 Cấu trúc liệu sử dụng C4.5 39 3.3 Kết thực nghiệm 40 3.3.1 `7Một số kết phân lớp tiêu biểu: 40 3.3.2 Các biểu đồ hiệu 47 3.4 Một số đề xuất cải tiến mô hình phân lớp C4.5 54 KẾT LUẬN 56 TÀI LIỆU THAM KHẢO 57 - iv- LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com DANH MỤC BIỂU ĐỒ HÌNH VẼ Hình - Quá trình phân lớp liệu - (a) Bước xây dựng mơ hình phân lớp Hình - Quá trình phân lớp liệu - (b1)Ước lượng độ xác mơ hình Hình - Quá trình phân lớp liệu - (b2) Phân lớp liệu Hình - Ước lượng độ xác mơ hình phân lớp với phương pháp holdout Hình 5- Ví dụ định .9 Hình - Mã giả thuật toán phân lớp liệu dựa định 14 Hình - Sơ đồ xây dựng định theo phương pháp đồng 18 Hình - Sơ đồ xây dựng định theo phương pháp phân hoạch .19 Hình - Sơ đồ xây dựng định theo phương pháp lai 20 Hình 10 - Mã giả thuật toán C4.5 22 Hình 11 - Mã giả thuật toán SPRINT 28 Hình 12 - Cấu trúc liệu SLIQ 29 Hình 13 - Cấu trúc danh sách thuộc tính SPRINT – Danh sách thuộc tính liên tục xếp theo thứ tự tạo 30 Hình 14 - Ước lượng điểm phân chia với thuộc tính liên tục 32 Hình 15 - Ước lượng điểm phân chia với thuộc tính rời rạc 33 Hình 16 - Phân chia danh sách thuộc tính node 34 Hình 17 - Cấu trúc bảng băm phân chia liệu SPRINT (theo ví dụ hình trước) 35 Hình 18 - File định nghĩa cấu trúc liệu sử dụng thực nghiệm 39 Hình 19 - File chứa liệu cần phân lớp 40 Hình 20 - Dạng định tạo từ tập liệu thử nghiệm 41 Hình 21 - Ước lượng định vừa tạo tập liệu training tập liệu test 42 Hình 22 - Một số luật rút từ liệu 19 thuộc tính, phân lớp loại thiết lập chế độ giao diện người sử dụng (WEB_SETTING_ID) 43 Hình 23 - Một số luật rút từ liệu thuộc tính, phân lớp theo số hiệu nhà sản xuất điện thoại (PRODUCTER_ID) 44 Hình 24 - Một số luật sinh từ tập liệu thuộc tính, phân lớp theo dịch vụ điệnthoại mà khách hàng sử dụng (MOBILE_SERVICE_ID) 45 Hình 25 - Ước lượng tập luật tập liệu đào tạo 46 - v- LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Bảng - Bảng liệu tập training với thuộc tính phân lớp buys_computer 24 Bảng - Thời gian xây dựng định tập luật sản xuất phụ thuộc vào kích thước tập liệu đào tạo thuộc tính 49 Bảng - Thời gian xây dựng định tập luật sản xuất phụ thuộc vào kích thước tập liệu đào tạo thuộc tính 50 Bảng - Thời gian xây dựng định tập luật sản xuất phụ thuộc vào kích thước tập liệu đào tạo18 thuộc tính 51 Bảng - Thời gian sinh định phụ thuộc vào số lượng thuộc tính 52 Bảng - Thời gian xây dựng định với thuộc tính rời rạc thuộc tính liên tục 53 Bảng - Thời gian sinh định phụ thuộc vào số giá trị phân lớp 54 Biểu đồ 1- So sánh thời gian thực thi mơ hình phân lớp SPRINT SLIQ theo kích thước tập liệu đào tạo 36 Biểu đồ - Thời gian xây dựng định tập luật sản xuất phụ thuộc vào kích thước tập liệu đào tạo thuộc tính 49 Biểu đồ - Thời gian xây dựng định tập luật sản xuất phụ thuộc vào kích thước tập liệu đào tạo thuộc tính 50 Biểu đồ - Thời gian xây dựng định tập luật sản xuất phụ thuộc vào kích thước tập liệu đào tạo18 thuộc tính 51 Biểu đồ - Sự phụ thuộc thời gian sinh định vào số lượng thuộc tính .52 Biểu đồ - So sánh thời gian xây dựng định từ tập thuộc tính liên tục từ tập thuộc tính rời rạc 53 Biểu đồ - Thời gian sinh định phụ thuộc vào số giá trị phân lớp .54 - vi- LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com DANH MỤC THUẬT NGỮ STT Tiếng Anh Tiếng Việt training data liệu đào tạo test data liệu kiểm tra Pruning decision tree Cắt, tỉa định Over fitting data Quá vừa liệu Noise Dữ liệu lỗi Missing value Giá trị thiếu Data tuple Phần tử liệu Case Case (được hiểu data tuple, chứa giá trị thuộc tính tập liệu) - vii- LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Nghiên cứu thuật toán phân lớp liệu dựa định ĐẶT VẤN ĐỀ Trong trình hoạt động, người tạo nhiều liệu nghiệp vụ Các tập liệu tích lũy có kích thước ngày lớn, chứa nhiều thông tin ẩn dạng quy luật chưa khám phá Chính vậy, nhu cầu đặt cần tìm cách trích rút từ tập liệu luật phân lớp liệu hay dự đoán xu hướng liệu tương lai Những quy tắc nghiệp vụ thông minh tạo phục vụ đắc lực cho hoạt động thực tiễn, phục vụ đắc lực cho trình nghiên cứu khoa học Cơng nghệ phân lớp dự đốn liệu đời để đáp ứng mong muốn Cơng nghệ phân lớp liệu đã, phát triển mạnh mẽ trước khao khát tri thức người Trong năm qua, phân lớp liệu thu hút quan tâm nhà nghiên cứu nhiều lĩnh vực khác học máy (machine learning), hệ chuyên gia (expert system), thống kê (statistics) Công nghệ ứng dụng nhiều lĩnh vực thực tế như: thương mại, nhà băng, maketing, nghiên cứu thị trường, bảo hiểm, y tế, giáo dục Nhiều kỹ thuật phân lớp đề xuất như: Phân lớp định (Decision tree classification), phân lớp Bayesian (Bayesian classifier), phân lớp Khàng xóm gần (K-nearest neighbor classifier), mạng nơron, phân tích thống kê,… Trong kỹ thuật đó, định coi cơng cụ mạnh, phổ biến đặc biệt thích hợp cho data mining [5][7] Trong mơ hình phân lớp, thuật tốn phân lớp nhân tố chủ đạo Do cần xây dựng thuật tốn có độ xác cao, thực thi nhanh, kèm với khả mở rộng để thao tác với tập liệu ngày lớn Khóa luận nghiên cứu tổng quan cơng nghệ phân lớp liệu nói chung phân lớp liệu dựa định nói riêng Từ tập trung hai thuật tốn tiêu biểu cho hai phạm vi ứng dụng khác C4.5 SPRINT Việc phân tích, đánh giá thuật tốn có giá trị khoa học ý nghĩa thực tiễn Tìm hiểu thuật tốn giúp tiếp thu phát triển mặt tư tưởng, kỹ thuật công nghệ tiên tiến thách thức nhà khoa học lĩnh vực data mining Từ triển khai cài đặt thử nghiệm mơ hình phân lớp liệu thực tế Tiến tới ứng dụng vào hoạt động thực tiễn Việt Nam, mà trước tiên hoạt động phân tích, nghiên cứu thị trường khách hàng Khóa luận tốt nghiệp – Nguyễn Thị Thùy Linh – K46CA - 1- LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Nghiên cứu thuật toán phân lớp liệu dựa định Hình 23 - Một số luật rút từ liệu thuộc tính, phân lớp theo số hiệu nhà sản xuất điện thoại (PRODUCTER_ID) Từ kết thực tế hình 23, từ Rule 1021, kết luận: khách hàng làm công việc Supervisory sinh khoảng từ năm 1969 đến 1973 loại điện thoại mà khách hàng dùng có số hiệu (là điện thoại SAMSUNG) Độ xác kết luận 91,7% Những luật giúp cho nhân viên maketing tìm thị trường điện thoại di động loại đối tượng khách hàng khác nhau, từ có chiến lược phát triển sản phẩm hợp lý Khóa luận tốt nghiệp – Nguyễn Thị Thùy Linh – K46CA - 44- LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Nghiên cứu thuật toán phân lớp liệu dựa định Hình 24 - Một số luật sinh từ tập liệu thuộc tính, phân lớp theo dịch vụ điện thoại mà khách hàng sử dụng (MOBILE_SERVICE_ID) Ví dụ từ Rule 661: khách hàng nam (F), nghề nghiệp Engineering, điện thoại sử dụng Erricsion (MOBILE_PRODUCTER_ID = 4) đăng ký năm 2004, dịch vụ mà khách hàng sử dụng gửi logo (MOBILE_SERVICE_ID = 2) Độ xác luật 79,4% Từ luật vậy, ta thống kê dự đoán xu hướng sử dụng loại dịch vụ đối tượng khách hàng khác Từ có chiến lược phát triển dịch vụ khách hàng hiệu Khóa luận tốt nghiệp – Nguyễn Thị Thùy Linh – K46CA - 45- LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Nghiên cứu thuật toán phân lớp liệu dựa định Hình 25 - Ước lượng tập luật tập liệu đào tạo Sau tạo ra, tập luật ước lượng lại tập training data, hay tập liệu test (tùy chọn) Mô tả số trường tiêu biểu: • Rule: số hiệu luật • Zize: Kích thước luật (số điều kiện so sánh phần điều kiện phân lớp) • Used: số lượng cases tập training áp dụng luật Trường quy định tính phổ biến luật • Wrong: số lượng case phân lớp sai -> tỉ lệ phần trăm lỗi Kết luận Từ trình thực nghiệm, chúng tơi nhận thấy vai trị q trình tiền xử lý liệu quan trọng Trong trình này, cần xác định xác thơng tin cần rút từ sở liệu đó, từ chọn thuộc tính phân lớp phù hợp Sau việc Khóa luận tốt nghiệp – Nguyễn Thị Thùy Linh – K46CA - 46- LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Nghiên cứu thuật toán phân lớp liệu dựa định lựa chọn thuộc tính liên quan quan trọng, định mơ hình phân lớp có đắn khơng, có ý nghĩa thực tế khơng áp dụng cho liệu tương lai hay không 3.3.2 Các biểu đồ hiệu Các tham số ảnh hưởng đến hiệu mơ hình phân lớp [6]: • Số ghi tập liệu đào tạo (N) • Số lượng thuộc tính (A) • Số giá trị rời rạc thuộc tính (nhân tố nhánh) (V) • Số lớp (C) Chi phí xây dựng định tổng chi phí xây dựng node: T = Σ tnode(i) Chi phí tốn cho node i tính tổng khoản chi phí riêng cho công việc: tnode(i) = tsingle(i) + tfreq(i) + tinfo(i) + tdiv(i) Với: • tsingle(i) chi phí thực thi việc kiểm tra xem liệu tất case tập liệu đào tạo có thuộc lớp khơng? • tdiv(i) chi phí phân chia tập liệu theo thuộc tính chọn • Việc lựa chọn thuộc tính có Information gain lớn tập liệu kết việc tính Information gain thuộc tính Chi phí cho q trình bao gồm thời gian tính tốn tần xuất phân phối theo giá trị phân lớp thuộc tính (tfreq(i)) thời gian để tính Information gain từ thơng tin phân phối (tinfo(i)) Có thể biểu diễn phụ thuộc khoản chi phí vào tham số hiệu mô tả sau: tfreq = k1 *AiNi tinfo = k2 * CAiV tdiv = k3 * Ai tsingle = k4*Ni Khóa luận tốt nghiệp – Nguyễn Thị Thùy Linh – K46CA - 47- LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Nghiên cứu thuật toán phân lớp liệu dựa định Với kj số có giá trị tùy theo ứng dụng cụ thể Số lượng ghi (Ni) số lượng thuộc tính (Ai) tương ứng với node phụ thuộc vào độ sâu node thân tập liệu Việc xác định xác chi phí cho trình xây dựng định (T) khó cần phải biết xác hình dáng định, điều xác định thời gian chạy Chính mà T đơn giản hóa cách dùng giá trị trung bình kèm với giả sử hình dáng giải phương trình lặp cho thành phân riêng lẻ mơ hình [6] Sau kết thực nghiệm đánh giá ảnh hưởng tham số hiệu kích thước tập liệu đào tạo, số lượng thuộc tính, thuộc tính liên tục, số giá trị phân lớp tới mơ hình phân lớp C4.5: Khóa luận tốt nghiệp – Nguyễn Thị Thùy Linh – K46CA - 48- LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Nghiên cứu thuật toán phân lớp liệu dựa định 3.3.2.1 Thời gian thực thi phụ thuộc vào kích thước tập liệu đào tạo Các thử nghiệm tiến hành nhiều tập liệu với kích thước, số lượng thuộc tính thuộc tính phân lớp khác Sau bảng kết biểu đồ thể phụ thuộc xét Thử nghiệm với tập liệu thuộc tính Bảng - Thời gian xây dựng định tập luật sản xuất phụ thuộc vào kích thước tập liệu đào tạo thuộc tính Kích thước 29000 Thời gian tập liệu xây dựng (giây) 60000 66000 131000 262000 Decision Tree Production Rules 0.46 6.82 0.47 8.85 1.17 20.51 2.2 37.94 (s) 0.15 3.21 40 Decision Tree 35 30 25 Productio n Rules 20 15 Trend line of Productio n rules 10 29000 60000 66000 131000 262000 (cases) Biểu đồ - Thời gian xây dựng định tập luật sản xuất phụ thuộc vào kích thước tập liệu đào tạo thuộc tính Khóa luận tốt nghiệp – Nguyễn Thị Thùy Linh – K46CA - 49- LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Nghiên cứu thuật toán phân lớp liệu dựa định Thử nghiệm với tập liệu thuộc tính Bảng - Thời gian xây dựng định tập luật sản xuất phụ thuộc vào kích thước tập liệu đào tạo thuộc tính Kích thước 1000 Thời gian tập liệu xây dựng (giây) 10000 15000 20000 25000 30000 36000 Decision Tree Production Rules 0.46 107.1 5.70 1211.0 8.31 2504.8 13.34 5999.5 0.03 0.13 1.90 276.2 2.79 709.9 10000 9000 8000 7000 6000 5000 4000 3000 2000 1000 Decision Tree Productio n Rules Trend line of Productio n rules 1000 10000 15000 20000 25000 30000 36000 Biểu đồ - Thời gian xây dựng định tập luật sản xuất phụ thuộc vào kích thước tập liệu đào tạo thuộc tính Khóa luận tốt nghiệp – Nguyễn Thị Thùy Linh – K46CA - 50- LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Nghiên cứu thuật toán phân lớp liệu dựa định Thử nghiệm với tập liệu 18 thuộc tính Bảng - Thời gian xây dựng định tập luật sản xuất phụ thuộc vào kích thước tập liệu đào tạo18 thuộc tính 6000 8500 10000 12000 15000 17500 20000 25000 Decision Tree 0.45 0.64 1.32 1.77 2.37 1.8 2.68 2.98 5.24 Production Rules 43.6 90.77 304.0 531.3 838.8 968.2 1584 63 2927 56 4617 23 5000 (s) Kích thước 4000 Thời gian tập liệu xây dựng (giây) 4500 Decision Tree 4000 3500 Productio n Rules 3000 2500 2000 Trend Line of Productio n Rules 1500 1000 500 (case) 4000 6000 8500 10000 12000 15000 17500 20000 25000 Biểu đồ - Thời gian xây dựng định tập luật sản xuất phụ thuộc vào kích thước tập liệu đào tạo18 thuộc tính Các đánh giá phụ thuộc thời gian thực thi vào kích thước tập liệu đào tạo tiến hành tập liệu với số lượng thuộc tính khác Có thể rút kết luận sau: • Kích thước tập liệu lớn thời gian sinh định thời gian sinh tập luật sản xuất lớn Căn vào đường trendline đường Khóa luận tốt nghiệp – Nguyễn Thị Thùy Linh – K46CA - 51- LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Nghiên cứu thuật toán phân lớp liệu dựa định biểu diễn thời gian sinh tập luật sản xuất vẽ thêm biểu đồ, chúng tơi dự đốn phụ thuộc diễn đạt hàm đa thức • Các biểu đồ cho thấy trình sinh luật sản xuất sau từ định tạo tốn tài nguyên tính tốn gấp nhiều lần so với q trình sinh định Thực nghiệm cho thấy với tập liệu cỡ trăm nghìn ghi, thời gian sinh luật sản xuất lâu ( thông thường > giờ) Đó lý khiến C4.5 áp dụng với tập liệu lớn Tập liệu đào tạo có nhiều thuộc tính chênh lệch thời gian thực thi trình lớn 3.3.2.2 Hiệu C4.5 phụ thuộc vào số lượng thuộc tính Để đánh giá phụ thuộc trên, thử nghiệm tiến hành với tập liệu có 2, 4, thuộc tính rời rạc, với thuộc tính phân lớp Bảng - Thời gian sinh định phụ thuộc vào số lượng thuộc tính attributes attributes attributes 6000 0.02 0.18 0.3 16000 0.05 0.82 3.56 23000 0.1 2.18 9.99 32000 0.18 3.32 23.40 40500 0.25 5.58 33.36 55500 0.39 11.83 47.62 65500 0.47 16.79 80 96600 0.89 33.49 106.61 131000 1.17 71.52 185 (s) 3000 0.01 0.12 0.14 200 180 160 140 attributes attributes attributes 120 100 80 60 40 20 00 10 (cases) 13 60 0 96 50 65 50 55 50 0 40 32 00 00 23 00 16 00 60 30 00 Biểu đồ - Sự phụ thuộc thời gian sinh định vào số lượng thuộc tính Khóa luận tốt nghiệp – Nguyễn Thị Thùy Linh – K46CA - 52- LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Nghiên cứu thuật toán phân lớp liệu dựa định Thời gian C4.5 xây dựng định phụ thuộc vào số lượng thuộc tính qua khoảng thời gian tfreq, tinfo, tdiv Số thuộc tính nhiều thời gian tính tốn để lựa chọn thuộc tính tốt test node lớn, thời gian sinh định tăng Do C4.5 bị hạn chế số lượng thuộc tính tập liệu đào tạo [2] Đây điểm khác biệt so với SPRINT 3.3.2.3 Hiệu C4.5 thao tác với thuộc tính liên tục Bảng - Thời gian xây dựng định với thuộc tính rời rạc thuộc tính liên tục 140 6000 0.18 16000 22000 31000 40000 55000 65000 96000 131000 0.92 2.18 3.32 5.74 11.83 16.79 33.47 61.52 0.24 0.66 3.02 5.01 11.56 16.99 30.37 38.16 70.38 125.21 (s) thuộc tính rời rạc+ thuộc tính liên tục thuộc tính liên tục 3000 0.12 120 100 categorical attributes + continuous attribute continuous attributes 80 60 40 20 13 10 00 96 00 65 00 55 00 40 00 31 00 22 00 (cases) 60 00 16 00 30 00 Biểu đồ - So sánh thời gian xây dựng định từ tập thuộc tính liên tục từ tập thuộc tính rời rạc Như phân tích thuật tốn C4.5 thuật toán phân lớp liệu dựa định nói chung, việc thao tác với thuộc tính liên tục chiếm nhiều tài ngun tính tốn với thuộc tính rời rạc Do tập liệu có nhiều Khóa luận tốt nghiệp – Nguyễn Thị Thùy Linh – K46CA - 53- LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Nghiên cứu thuật toán phân lớp liệu dựa định thuộc tính liên tục ảnh hưởng đáng kể đến thời gian sinh định so với tập liệu có nhiều thuộc tính rời rạc 3.3.2.4 Hiệu C4.5 thao tác với nhiều giá trị phân lớp Bảng - Thời gian sinh định phụ thuộc vào số giá trị phân lớp 6000 0.07 0.18 16000 23000 31000 40000 55000 0.22 0.35 0.61 0.97 1.8 0.82 2.18 3.32 5.74 11.83 65500 2.36 16.79 96600 3.68 33.49 131000 4.72 61.51 (s) 3000 classes 0.04 28 classes 0.12 classes 28 classes 16 00 23 00 31 00 40 00 55 00 65 50 96 60 13 10 00 60 00 30 00 70 60 50 40 30 20 10 (cases) Biểu đồ - Thời gian sinh định phụ thuộc vào số giá trị phân lớp Càng nhiều giá trị phân lớp thời gian tính Information gain cho thuộc tính (tinfo) nhiều Do thời gian sinh định lâu 3.4 Một số đề xuất cải tiến mơ hình phân lớp C4.5 Từ q trình nghiên cứu mơ hình phân lớp C4.5 so sánh với SPRINT để thấy ưu nhược điểm thuật tốn Và từ q trình thực nghiệm đưa số đề xuất cải tiến thuật tốn C4.5 Sinh luật sản xuất tính C4.5 so với thuật toán khác Hiện với sở liệu lớn, tập luật sinh dài, ví dụ với tập training cỡ 30000 cases với thuộc tính, tập luật lên tới 3000 luật Do việc xem trích rút thơng tin có ích tập luật khó khăn Trên thực tế đó, chúng tơi đề xuất tích hợp thêm vào C4.5 module trích chọn tập luật “tốt Khóa luận tốt nghiệp – Nguyễn Thị Thùy Linh – K46CA - 54- LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Nghiên cứu thuật toán phân lớp liệu dựa định nhất” có luật có độ xác chấp nhận (mức độ xác người dùng tùy chọn) có độ phổ biến cao (là luật mà áp dụng nhiều case tập liệu thử nghiệm) Sinh luật sản xuất tính mới, đem lại nhiều lợi ích C4.5 so với thuật toán phân lớp liệu khác Nhưng trình sinh luật sản xuất tốn nhiều tài ngun tính tốn so với q trình sinh định Do cần song song hóa giai đoạn sinh luật để cải tiến hiệu C4.5 C4.5 bị hạn chế số lượng thuộc tính tập liệu đào tạo, độ xác định hay luật sinh nói chung chưa cao Cần tập trung sử dụng phương pháp cải tiến độ xác mơ hình phân lớp bagging, boosting C4.5 thao tác với thuộc tính liên tục lâu thuộc tính rời rạc Điều giải thích bởi: với thuộc tính liên tục có n giá trị sẵp xếp, thuật tốn cần độ đo phân chia (n-1) ngưỡng nằm giá trị liền dãy xếp Từ tìm ngưỡng tốt để test thuộc tính Trong tập liệu đào tạo, thuộc tính liên tục nhiều giá trị, tài ngun tính tốn bỏ để thao tác với nhiều Hiện có số đề xuất cải tiến cách xử lý với thuộc tính liên tục [3][8], hướng nghiên cứu nghiên cứu đề tài Chúng tơi đề xuất chế xếp trước có sử dụng lược đồ phân phối lớp lần SPRINT áp dụng vào C4.5 Từ tiến tới xây dựng chế lưu trữ liệu thường trú đĩa Nếu thực làm tăng hiệu khả mở rộng mơ hình phân lớp C4.5 Khóa luận tốt nghiệp – Nguyễn Thị Thùy Linh – K46CA - 55- LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Nghiên cứu thuật toán phân lớp liệu dựa định KẾT LUẬN Trong khn khổ khóa luận tốt nghiệp này, chúng tơi nghiên cứu, phân tích, đánh giá thuật tốn phân lớp liệu dựa định Tiêu biểu thuật toán C4.5 SPRINT C4.5 SPRINT có cách thức lưu trữ liệu xây dựng định dựa độ đo khác Do hai thuật tốn có phạm vi ứng dụng vào sở liệu có kích thước khác C4.5 thuật toán xử lý đầy đủ vấn đề trình phân lớp liệu: lựa chọn thuộc tính tốt nhất, lưu trữ phân chia liệu, xử lý giá trị thiếu, tránh vừa, cắt tỉa cây,…Với lý C4.5 trở thành thuật toán phổ biến ứng dụng vừa nhỏ Quá trình triển khai, cài đặt thử nghiệm với đánh giá hiệu mơ hình phân lớp C4.5 tiến hành Và thu nhiều kết có ý nghĩa thực tiến, kết gợi mở hướng nghiên cứu SPRINT thuật toán tối ưu cho sở liệu cực lớn Những ưu điểm SPRINT tư tưởng thuật toán đơn giản, có khả mở rộng cao, lại dễ dàng song song hóa Do cài đặt triển khai SPRINT có ý nghĩa khoa học có khả triển khai ứng dụng đem lại nhiều lợi ích thực tế Khóa luận tốt nghiệp – Nguyễn Thị Thùy Linh – K46CA - 56- LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Nghiên cứu thuật toán phân lớp liệu dựa định TÀI LIỆU THAM KHẢO [1] Anurag Srivastava, Eui- Hong Han, Vipin Kumar, Vieet Singh Parallel Formulations of Decision-Tree Classification Algorithm Kluwer Academic Publisher, 1999 [2] Anurag Srivastava, Vineet Singh, Eui- Hong (Sam) Han, Vipin Kumar An Efficient, Scalable, Parallel Classifier for Data mining [3] Girija J Narlikar A Parallel, Multithreaded Decision Tree Builder CMU-CS-98184 reports-archive.adm.cs.cmu.edu/ anon/1998/CMU-CS-98-184.pdf [4] Henrique Andrade, Tahsin Kurc, Alan Sussman, Joel Saltz Decision Tree Construction for Data Ming on Cluster of Shared-Memory Multiprocessors http://citeseer.csail.mit.edu/178359.html [5] Ho Tu Bao, Chapter 3:Data mining with Decision Tree – http://www.netnam.vn/unescocourse/knowlegde/knowlegd.htm [6] John Darlington, Moustafa M Ghanem, Yike Guo, Hing Wing To Performance Model for Co-odinating Parallel Data Classification [7] John Shafer, Rakesh Agrawal, Manish Mehta SPRINT- A Scalable Paralllel Classifier for Data mining In Predeeings of the 22nd International Conference on Very Large Database, India, 1996 [8] J R Quinlan Improve Used of Continuous Attribute in C4.5 In Joural of Artficial Intelligence Research (1996) 77-90 [9] Manish Mehta, Rakesh Agrawal, Jorma Rissanen SLIQ: A Fast Scalable Classifier for Data mining IBM Amaden Research Center, 1996 [10] Mohammed J Zaki, Ching-Tien Ho, Rekesh Agrawal Parallel Classification for Data Mining on Shared-Memory Multiprocessors IVM Almaden Research Center, San Jose, CA 95120 [11] Rajeev Rastogi, Kyuseok Shim (Bell Laboratories) PUBLIC: A Decision Tree Classifier that Integrates Building and Pruning, 1998 www.vldb.org/conf/1998/p404.pdf [12] Richard Kufrin Generating C4.5 Production Rules in Parallel In Proceeding of Fourteenth National Conference on Artificial Intelligence, Providence RI, 1997 Khóa luận tốt nghiệp – Nguyễn Thị Thùy Linh – K46CA - 57- LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Nghiên cứu thuật toán phân lớp liệu dựa định www.almaden.ibm.com/software/quest/Publications/papers/vldb96_sprint.pdf [13] Ron Kohavi, J Ross Quinlan Decision Tree Discovery, 1999 [14] The Morgan Kaufmann Series in Data Management Systems, Jim Gray Datamining- Concepts and Techniques, Chapter 7-Classification and Prediction Series Editor Morgan Kaufmann Publishers, August 2000 Khóa luận tốt nghiệp – Nguyễn Thị Thùy Linh – K46CA - 58- LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com ... Nghiên cứu thuật toán phân lớp liệu dựa định 1.3.3 Song song hóa thuật tốn phân lớp dựa định Song song hóa xu hướng nghiên cứu thuật toán phân lớp liệu dựa định Nhu cầu song song hóa thuật tốn... Chương TỔNG QUAN VỀ PHÂN LỚP DỮ LIỆU DỰA TRÊN CÂY QUYẾT ĐỊNH 1.1 Tổng quan phân lớp liệu data mining 1.1.1 Phân lớp liệu Ngày phân lớp liệu (classification) hướng nghiên cứu khai phá liệu Thực tế đặt... trình phân lớp liệu - (b2) Phân lớp liệu Trong mơ hình phân lớp, thuật tốn phân lớp giữ vai trò trung tâm, định tới thành cơng mơ hình phân lớp Do chìa khóa vấn đề phân lớp liệu tìm thuật tốn phân