TRUNG
NIEN NAM THANHPHO THAP CO BAC TRE NU NONGTHON TRUNGBINH CO HAI
Ct TRUNG
NIEN NAM THANHPHO THAP KHONG KHO GIA NU THITRAN CAO KHONG HAI Ct TRUNG
NIEN NU THANHPHO CAO CO KHO GIA NAM NGOAIO THAP CO KHO TRE NU ■mrmAN THAP CO BAC GIA NU NONGTHON 7HAP KHONG BAC TRE NAM THANHPHO THAP CO MO
T GIA NU NONGTHON TRUNGBINH KHONG HAI
Ct TRUNG
NIEN NU NONGTHON THAP CO KHO
k ì
• Form áp dụng thuật toán ID3
5 g^pga ĩ I I số_c I gió'i_tính
Hình 3.5: Form tạo cây quyết định
• Form áp dụng thuật toán ID3
KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN
Hiện nay do nhu càu của xã hội, khách hàng vay vốn của ngân hàng ngày càng tăng cao vì thế công tác quản lý gặp nhiều khó khăn. Các thông tin về việc vay vốn của khách hàng như hộ khẩu, thu nhập, tuổi tác, tài sản,... quyết định đến việc cho vay hay không. Các thông tin tổng hợp này sẽ giúp các nhà quản lý đưa ra quyết định. Trong phạm vi của khóa luận này, em sử dụng các kỹ thuật khai phá dữ liệu, thuật toán ID3 chọn thuộc tính để phân lớp đối với cơ sở dữ liệu của khách hàng vay vốn để hỗ trợ đưa ra quyết định cho vay hay không.
Qua bốn năm học tập, tìm tòi, nghiên cứu, đặc biệt là trong khoảng thời gian làm khóa luận, em đã hoàn thiện khóa luận với các mục tiêu đặt ra ban đầu. Cụ thể khóa luận đã đạt được những kết quả sau:
+ Trình bày các kiến thức cơ bản về khám phá tri thức và khai phá dữ liệu.
+ Phương pháp xây dựng cây quyết định, thuật toán xây dựng cây quyết định ID3 cùng một số ví dụ minh họa cho các phương pháp xây dựng cây quyết định.
+ Cài đặt bằng ngôn ngữ c# thuật toán xây dựng cây quyết định ID3 để phân loại khách hàng vay vốn của ngân hàng thương mại cổ phàn Ngoại thương, chi nhánh Việt Trì.
Một số vẩn đề khóa luận phải tiếp tục nghiên cứu, tìm him:
+ Cần tiếp tục nghiên cứu các thuật toán khai phá dữ liệu bằng cây quyết định: thuật toán ADTCCC (dựa vào CORE và đại lượng đóng góp phân lớp của thuộc tính), thuật toán ADTNDA (dựa vào độ phụ thuộc mới của thuộc tính)...
+ Cần bổ sung thêm dữ liệu cho tập huấn luyện để mô hình cây quyết định có độ tin cậy cao hơn và hoạt động hiệu quả hơn. Tiếp tục phát triển hoàn thiện theo hướng trở thành phần mềm khai phá dữ liệu trong tín dụng tiêu dùng
nhằm hỗ ữợ cho cán bộ tín dụng đưa ra quyết định cho khách hàng vay hay không.
+ Hiện nay, dữ liệu được lưu trữ ngày một tăng, để ứng dụng khai phá dữ liệu vào các bài toán này càn tiếp tục nghiên cứu các phương pháp xử lý cho bài toán với dữ liệu lớn. xem xét nghiên cứu thêm một số ứng dụng khác của Khai phá dữ liệu.
+ Tìm hiểu nhu cầu thực tế để từ đó cải tiến chương trình, cài đặt lại bài toán theo các thuật toán đã nghiên cứu để làm việc tốt hơn với các cơ sở dữ liệu lớn và có thể có được sản phẩm trên thị trường.
Trong quá trình nghiên cứu, thực hiện khóa luận mặc dù đã cố gắng tập trung nghiên cứu và tham khảo nhiều tài liệu, báo cáo, tạp chí khoa học, nhưng do trình độ còn nhiều giới hạn nên không thể ữánh khỏi thiếu sót và hạn chế. Em rất mong được sự chỉ bảo đóng góp nhiều hơn nữa của các thày, cô giáo và các bạn.
Một làn nữa, em xin chân thành gửi lời cảm ơn sự giúp đỡ của các thầy, cô giáo khoa Công nghệ Thông tin, đặc biệt là TS. Lưu Thị Bích Hương đã giúp đỡ em trong quá trình làm khóa luận tốt nghiệp này.
TÀI LIỆU THAM KHẢO
Tiếng Việt:
1. Nguyễn Thanh Thuỷ (2001), Khai phá dữ liệu — Kỹ thuật và ứng dụng.
2. Huỳnh Trâm Võ - Học liệu mở Việt Nam - Tiếp cận ký hiệu: Giải thuật quy nạp cây quyết định ID3.
3. Lê Văn Dực (2006), Hệ hỗ trợ ra quyết định, NXB Đại học Quốc gia TP Hồ Chí Minh.
4. Khoa khoa học & Kỹ thuật máy tính - Slide & bài giảng Data mining
- Trường Đại học quốc gia TP Hồ Chí Minh.
5. PGS.TS.ĐỖ Phúc, Bài giảng khai thác dữ liệu, Đại học Quốc gia TP.HỒ Chí Minh, 2007.
6. Võ Huỳnh Tâm - Trần Ngân Bình, “Giáo trình trí tuệ nhân tạo”, Chương 9 Học máy, Nhà xuất bản: Đại học cần Thơ.
Tiếng Anh:
1. T. Menzies, Y. Hu (2003), Data Mining For Very Busy People. IEEE
Computer, pages 18-25.
2. Giáo trình“The ID3 Decision Tree Algorithm” - MONASH UNIVERSITY.
3. “A Pre-pruning Method in Belief Decision Tree” - Zied Elouedi, Khaled Mellouli, Philipe Smets.
4. “Decision Tree Induction: An Approach for Data Classification using