Tiểu luận Khai phá dữ liệu: Sử dụng phần mềm Weka phân lớp cho khả năng phê duyệt tín dụng cho các ứng dụng thẻ tín dụng

19 2K 9
Tiểu luận Khai phá dữ liệu: Sử dụng phần mềm Weka phân lớp cho khả năng phê duyệt tín dụng cho các ứng dụng thẻ tín dụng

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

I. ĐẶT VẤN ĐỀ Khai phá dữ liệu là một ngành khoa học thực nghiệm. Nó được thiết kế sao cho bạn có thể nhanh chống thử nghiệm những cách thức hiện tại trên cơ sở dữ liệu mới một cách linh hoạt. Nó cung cấp nhiều sự hỗ trợ cho toàn bộ quá trình xử lý số liệu thực nghiệm, bao gồm chuẩn bị dữ liệu đầu vào, việc ước lượng học những sơ đồ thống kê, và hình dung dữ liệu ra và kết quả của việc học. Weka được phát triển bởi đại học Waikato bang New Zealand, và có tên là Waikato Environment for Knowledge Analysis. Hệ thống được viết bởi java và phân phối dưới thuật ngữ GNU. Nó cung cấp một giao diện tương tự cho nhiều giải thuật học khác nhau với nhiều phương thức chho quá trình xử lý để ước lượng kết quả bằng sơ đồ cho bất kì một dữ liệu nào. Workbenh bao gồm những phương thức chuẩn cho các vấn đề của khai phá dữ liệu như: phân lớp,hồi quy, phân nhóm, phân cụm, luật kết hợp, và các thuộc tính kết hợp.Cụ thể đề tài này em tìm hiểu về bài toán phân lớp trong weka và áp dụng trong bài toán phê duyệt tín dụng cho các ứng dụng thẻ tín dụng.   II. XÂY DỰNG CƠ SỞ DỮ LIỆU Trong đề tài này, tập tin chứa các ứng dụng của thẻ tín dụng. Tất cả tên các thuộc tính và giá trị đều được thay thế bởi các biểu tượng vô nghĩa để bảo vệ bí mật về dữ liệu, số liệu này là thú vị bởi có sự kết hợp tốt giữa của các thuộc tính liên tục, danh nghĩa với số lượng nhỏ các giá trị, và danh nghĩa với số lượng lớn các giá trị. Ngoài ra còn thiếu 1 số các giá trị. Thông tin về dataset:

BÔ ̣ QUÔ ́ C PHO ̀ NG HO ̣ C VIÊ ̣ N KY ̃ THUÂ ̣ N QUÂN ̣ ************* BÀI TẬP LỚN KHAI PHÁ DỮ LIỆU Đê ̀ ta ̀ i: Sử dụng phần mềm Weka phân lớp cho khả năng phê duyệt tín dụng cho các ứng dụng thẻ tín dụng Sinh viên: Vũ Anh Toản Lớp: Hệ thống thông tin 6 I. ĐẶT VẤN ĐỀ Khai phá dữ liệu là một ngành khoa học thực nghiệm. Nó được thiết kế sao cho bạn có thể nhanh chống thử nghiệm những cách thức hiện tại trên cơ sở dữ liệu mới một cách linh hoạt. Nó cung cấp nhiều sự hỗ trợ cho toàn bộ quá trình xử lý số liệu thực nghiệm, bao gồm chuẩn bị dữ liệu đầu vào, việc ước lượng học những sơ đồ thống kê, và hình dung dữ liệu ra và kết quả của việc học. Weka được phát triển bởi đại học Waikato bang New Zealand, và có tên là Waikato Environment for Knowledge Analysis. Hệ thống được viết bởi java và phân phối dưới thuật ngữ GNU. Nó cung cấp một giao diện tương tự cho nhiều giải thuật học khác nhau với nhiều phương thức chho quá trình xử lý để ước lượng kết quả bằng sơ đồ cho bất kì một dữ liệu nào. Workbenh bao gồm những phương thức chuẩn cho các vấn đề của khai phá dữ liệu như: phân lớp,hồi quy, phân nhóm, phân cụm, luật kết hợp, và các thuộc tính kết hợp.Cụ thể đề tài này em tìm hiểu về bài toán phân lớp trong weka và áp dụng trong bài toán phê duyệt tín dụng cho các ứng dụng thẻ tín dụng. II. XÂY DỰNG CƠ SỞ DỮ LIỆU Trong đề tài này, tập tin chứa các ứng dụng của thẻ tín dụng. Tất cả tên các thuộc tính và giá trị đều được thay thế bởi các biểu tượng vô nghĩa để bảo vệ bí mật về dữ liệu, số liệu này là thú vị bởi có sự kết hợp tốt giữa của các thuộc tính liên tục, danh nghĩa với số lượng nhỏ các giá trị, và danh nghĩa với số lượng lớn các giá trị. Ngoài ra còn thiếu 1 số các giá trị. Thông tin về dataset: Tập dữ liệu Đặc điểm: Đa biến Trường hợp: 690 Diện tích: Tài chính Thuộc tính Đặc điểm: Chủng loại, Integer, Real Các thuộc tính: 15 Ngày viện trợ N / A Associated Nhiệm vụ: Phân loại Thiếu giá trị? Có Số lượng truy cập Web: 40570 Mô tả các thuộc tính: A1: b, a. A2: continuous. A3: continuous. A4: u, y, l. A5: g, p, gg. A6: c, d, cc, i, j, k, m, r, q, w, x, e, aa, ff. A7: v, h, bb, j, n, z, đ, ff, o. A8: continuous. A9: t, f. A10: t, f. A11: continuous. A12: t, f. A13: g, p, s. A14: continuous. A15: continuous. A16: +, - (class thuộc tính) III. PHÂN TÍCH BÀI TOÁN Đọc dữ liệu đầu vào sau đó áp dụng bài toán phân lớp dựa vào các thuộc tính để phân lớp khả năng phê duyệt tín dụng cho các ứng dụng của thẻ tín dụng. Tạo ra cây quyết định về khả năng phê duyệt các ứng dụng của thẻ tín dụng để hỗ trợ cho việc quản lý tín dụng hiệu quả nhất. IV. TIẾN HÀNH THỰC NGHIỆM TRÊN WEKA 1. Tiền xử lý dữ liệu Dữ liệu ban đầu khi ta lấy trên mạng về được lưu lại dưới dạng “.text” để đọc được nó trong Weka ta làm như sau: Đầu tiên mở Microsoft Exel 2010 ra nhấn “Ctr+O” chọn đến file text dữ liệu đã lưu. Mục đích: tạo cây quyết định trong Weka xem khả năng phê duyệt tín dụng Phê duyệt Không phê duyệt Weka decision tree Dữ liệu các thuộc tính liên quan Tiếp theo làm như hình dưới: Rồi nhấn Finish luôn ta sẽ được dữ liệu. Tiếp theo là Insert thêm 1 dòng bên trên đầu như hình rồi điền các thuộc tính tương ứng cách nhau bằng dấu “phảy” ta được Sau đó “Save as” lại thành dữ liệu có đuôi “.csv” như sau: Sau khi tạo xong ta tiến hành đọc dữ liệu vào Weka: chọn kiểu dữ liệu là “*.csv” rồi tìm đến thư mục đã lưu, chọn Open. Rồi ta được như sau: Chuyển kiểu dữ liệu của các attribute từ numeric sang nominal:chọn choose trong cây filter chọnNumericToNominal Bạn có thể chỉnh sửa dữ liệu bằng cách click vào , lúc đó bảng dữ liệu sẽ xuất hiện để bạn chỉnh sửa.

Ngày đăng: 03/12/2013, 16:10

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan