1. Trang chủ
  2. » Tất cả

Phân tích dữ liệu phân hạng tín dụng dựa trên bộ dữ liệu xyz bằng phần mềm orange

28 0 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 28
Dung lượng 1,13 MB

Nội dung

lOMoARcPSD|18034504 BỘ GIÁO DỤC VÀ ĐÀO TẠO ĐẠI HỌC KINH TẾ TP HỒ CHÍ MINH TRƯỜNG CƠNG NGHỆ VÀ THIẾT KẾ  ĐỒ ÁN MƠN HỌC ĐỀ TÀI: PHÂN TÍCH DỮ LIỆU PHÂN HẠNG TÍN DỤNG DỰA TRÊN BỘ DỮ LIỆU XYZ BẰNG PHẦN MỀM ORANGE Học phần: Khoa Học Dữ Liệu Nhóm Sinh Viên: Lê Thị Ngà Mssv: 31211025298 Bùi Phương Thảo Mssv: 31211021972 Chuyên Ngành: KẾ TỐN Khóa: K47 Giảng Viên: TS Đặng Ngọc Hồng Thành TP Hồ Chí Minh, Ngày tháng 10 năm 2022 Downloaded by vu ga (vuchinhhp2@gmail.com) lOMoARcPSD|18034504 MỤC LỤC MỤC LỤC CHƯƠNG TỔNG QUAN 1.1 Tổng Quan Về Bài Toán Phân Lớp Dữ Liệu 1.2 Giới Thiệu Về Python Phần Mềm Orange 1.3 Lý Do Chọn Lựa Đề Tài CHƯƠNG CÁC MÔ HÌNH PHÂN LỚP DỮ LIỆU 2.1 Các Mơ Hình Phân Lớp Dữ Liệu 2.1.1 Mơ Hình Logistic Regression 2.1.2 Mơ Hình Decision Tree 2.1.3 Mơ Hình Support Vector Machine 2.1.4 Mơ Hình Neural Network 12 2.2 Quy Trình Phân Lớp Dữ Liệu 12 2.2.1 Phân Cụm Dữ Liệu 13 2.2.1.1 Phân cụm phân cấp .13 2.2.1.2 Phân cụm phân cấp phương pháp Diana kết 14 2.2.1.3 Phân cụm phân hoạch thuật toán K-means kết .15 2.2.1.4 Đánh giá mơ hình phân cụm, chọn mơ hình phân cụm tối ưu 16 2.2.2 Phân Lớp Dữ Liệu 17 2.2.2.1 Một số phương pháp phân lớp liệu 17 2.2.2.2 Xây dựng mơ hình phân lớp, kiểm tra mơ hình phân lớp liệu .18 CHƯƠNG CÁC KẾT QUẢ THỰC NGHIỆM 21 3.1 Bộ Dữ Liệu 21 3.1.1 Mô tả liệu 22 3.1.2 Làm liệu 23 3.2 Các Kết Quả Thực Nghiệm 23 3.3 Phân Tích Đánh Giá 23 CHƯƠNG KẾT LUẬN 26 4.1 Các Kết Quả Đạt Được 26 4.2 Những Hạn Chế Hướng Phát Triển 26 LỜI CẢM ƠN 26 TÀI LIỆU THAM KHẢO 27 Downloaded by vu ga (vuchinhhp2@gmail.com) lOMoARcPSD|18034504 CHƯƠNG TỔNG QUAN 1.1 Tổng Quan Về Bài Toán Phân Lớp Dữ Liệu Định nghĩa phân lớp liệu: Là trình phân đối tượng liệu vào hay nhiều lớp (loại) cho trước nhờ mơ hình phân lớp Mơ hình xây dựng dựa tập liệu gán nhãn trước ( thuộc lớp ) Quá trình gán nhãn( thuộc lớp nào) cho đối tượng liệu q trình phân lớp liệu Quá trình phân lớp liệu: Bước 1: Xây dựng mơ hình ( hay cịn gọi giai đoạn “ học” “ huấn luyện”) Bước 2: Sử dụng mô hình chia thành bước nhỏ : Bước 2.1:Đánh giá mơ hình ( kiểm tra tính đắn mơ hình ) Bước 2.2: Phân lớp liệu 1.2 Giới Thiệu Về Python Phần Mềm Orange Python ngơn ngữ lập trình hướng đối tượng đơn giản, dễ học, mạnh mẽ, cấp cao Python có cấu trúc cú pháp ngơn ngữ khác  Python thơng dịch: Python trình thơng dịch xử lý thời gian chạy Bạn không cần phải biên dịch chương trình trước thực Nó tương tự với PERL PHP  Python tương tác (Interactive): Tại dấu nhắc Python (command line) bạn tương tác trực tiếp với trình thơng dịch để viết chương trình Python  Python hướng đối tượng: Python hỗ trợ kỹ thuật lập trình hướng đối tượng kỹ thuật lập trình đóng gói mã đối tượng  Python ngôn ngữ người bắt đầu: Python ngôn ngữ tuyệt vời cho lập trình viên bắt đầu hỗ trợ phát triển loạt ứng dụng từ xử lý văn đơn giản, lập trình web, lập trình game Downloaded by vu ga (vuchinhhp2@gmail.com) lOMoARcPSD|18034504 Các tính Python bao gồm:  Dễ học: Python có từ khóa, cấu trúc đơn giản cú pháp định nghĩa rõ ràng Điều cho phép người học tiếp cận ngơn ngữ cách nhanh chóng  Dễ đọc: Mã Python định nghĩa rõ ràng nhìn thấy mắt  Dễ bảo trì: Mã nguồn Python dễ bảo trì  Một thư viện tiêu chuẩn rộng: Phần lớn thư viện Python dễ đính kèm đa tảng tương thích UNIX, Windows Macintosh  Chế độ tương tác: Python có hỗ trợ cho chế độ tương tác cho phép kiểm tra tương tác debug  Portable: Python chạy nhiều tảng phần cứng khác có giao diện tất tảng  Có thể mở rộng: Bạn thêm module cấp thấp vào trình thơng dịch Python Các module cho phép lập trình viên thêm tùy chỉnh cơng cụ để hiệu  Cơ sở liệu: Python cung cấp phương thức giao tiếp cho tất sở liệu  Lập trình GUI: Python hỗ trợ ứng dụng GUI tạo chuyển sang nhiều gọi hệ thống, thư viện hệ thống cửa sổ, Windows MFC, Macintosh hệ thống X Window Unix  Khả mở rộng: Python cung cấp cấu trúc hỗ trợ tốt cho chương trình lớn so với kịch lệnh shell Tổng quan phần mềm Orange: Khai phá liệu (Data Mining) học máy (Machine Learning) lĩnh vực khó để khám phá nghiên cứu Do đó, nhiều phần mềm đời với mục tiêu giúp cho người dùng dễ dàng nghiên cứu toán lĩnh vực khó nhằn Một phần mềm kể đến Orange Phần mềm Orange biết đến việc tích hợp cơng cụ khai phá liệu mã nguồn mở học máy thông minh, đơn giản, lập trình Python với giao diện trực quan tương tác dễ dàng Với nhiều chức năng, phần mềm phân tích liệu từ đơn giản đến phức tạp, tạo đồ họa đẹp mắt thú vị giúp việc khai thác liệu học máy trở nên dễ dàng cho người dùng chuyên gia Các công cụ (widgets) cung cấp chức đọc liệu, hiển thị liệu dạng bảng , lựa chọn thuộc tính đặc điểm liệu, huấn luyện liệu để dự đoán, so sánh thuật tốn máy học , trực quan hóa phần tử liệu, … Data: Dùng để rút trích, biến đổi, nạp liệu (ETL process) Downloaded by vu ga (vuchinhhp2@gmail.com) lOMoARcPSD|18034504 Visualize: dùng để biểu diễn biểu đồ (chart) giúp quan sát liệu tốt Downloaded by vu ga (vuchinhhp2@gmail.com) lOMoARcPSD|18034504 Model: gồm hàm máy học (machine learning) phân lớp liệu với Tree, Logictis Regression, SVM, Evaluate: Là phương pháp đánh giá mơ : Test& Score, Prediction, Confusion Unsupervised: Gồm hàm máy học (machine learing) gom nhóm liệu như: Distance, K-means, Downloaded by vu ga (vuchinhhp2@gmail.com) lOMoARcPSD|18034504 Add ons: Giúp mở rộng chức nâng cao xử lý liệu lớn (Big Data) với Spark, xử lý ảnh với Deep learing, xử lý văn bản, phân tích mạng xã hội, Đây có lẽ điểm cộng Orange so với phần mềm khai phá liệu khác 1.3 Lý Do Chọn Lựa Đề Tài Những năm gần đây, vai trò hệ thống thông tin doanh nghiệp ngày lớn mạnh Những thành tựu công nghệ thông tin khiến cho doanh nghiệp ngày ý tới việc áp dụng để gia tưng cạnh tranh tạo hội cho Khoa học liệu thuật ngữ trở nên quen thuộc Việt Nam giai đoạn ngày nay, dần trở thành xu hướng doanh nghiệp hướng tới để đẩy mạnh hoath động kinh doanh Chúng em tìm liệu ngân hàng xử lý thông tin thông qua phần mềm orange để nhìn nhận tìm hướng phát triển Thơng qua việc gọi điện thoại khảo sát ngân hàng để tiếp thị dự đốn việc thành cơng liệu khách hàng có đăng ký tiền gửi ngân hàng có kỳ hạn không Sau bọn em làm rõ Downloaded by vu ga (vuchinhhp2@gmail.com) lOMoARcPSD|18034504 CHƯƠNG CÁC MÔ HÌNH PHÂN LỚP DỮ LIỆU 2.1 Các Mơ Hình Phân Lớp Dữ Liệu Mơ hình phân lớp phần mềm Orange: 2.1.1 Mơ Hình Logistic Regression Định nghĩa: Là mơ hình xác suất dự đốn giá trị đầu rời rạc từ tập giá trị đầu vào ( biểu diễn dạng vector) Thuật toán phân loại hồi quy logistic với quy hóa LASSO (L1) sườn núi (L2) Đầu vào Dữ liệu: liệu đầu vào Tiền xử lý: phương pháp tiền xử lý Đầu raHọc viên: thuật tốn học hồi quy logistic Mơ hình: mơ hình đào tạoCác hệ số: hệ số hồi quy logistic Hồi quy logistic học mơ hình hồi quy logistic từ liệu Nó hoạt động cho nhiệmvụ phân loại: Downloaded by vu ga (vuchinhhp2@gmail.com) lOMoARcPSD|18034504 Một tên mà theo người học xuất vật dụng khác Tên mặc định Hồi quy Logistic Regression Quy tắc loại (hoặc L1 L2 ) Đặt cường độ chi phí (mặc định C = 1) Nhấn Áp dụng để cam kết thay đổi Nếu Áp dụng Tự động đánh dấu, thay đổisẽ Nhấp vào Apply sau thay đổi Nếu bạn đánh dấu vào ô bên trái nút Apply , thayđổi tự động 2.1.2 Mơ Hình Decision Tree Định nghĩa : Trong lý thuyết quản trị, định đồ thị định kết kèm nhằm hỗ trợ trình định Trong lĩnh vực khai phá liệu, định phương pháp nhằm mơ tả, phân loại tổng qt hóa tập liệu cho trước Tree Đầu vào Dữ liệu: liệu đầu vào Tiền xử lý: phương pháp tiền xử lýĐầu raLearner: thuật tốn định Tree Mơ hình: mơ hình đào tạoTree thuật tốn đơn giản phân chia liệu thành nút lớp liệu Nó tiền thân Random Forest Tree phần mềm Orange thiết kế bên xử lý liệu rời rạc liên tục Nó sử dụng cho nhiệm vụ phân loại hồi quy Downloaded by vu ga (vuchinhhp2@gmail.com) lOMoARcPSD|18034504 Name: Người học đặt tên theo ý muốn Tên mặc định Tree Thông số: Induce binary tree: xây dựng nhị phân (chia thành hai nút con) Min number of instances in leaves (số tối thiểu ví dụ lá): chọn, thuậttốn khơng đặt số nút số liệu tham khảo Do not split subsets smaller than (Không phân chia tập hợp nhỏ hơn): cấmthuật toán phân chia nút có số lượng ví dụ cho Limit the maximal tree depth (Giới hạn độ sâu tối đa): giới hạn độ sâu câyphân loại số cấp nút định.4.Tạo báo cáo 3.Tạo báo cáo 4.Nhấp vào Apply sau thay đổi Nếu bạn đánh dấu vào ô bên trái nút Apply , thayđổi tự động 2.1.3 Mơ Hình Support Vector Machine Định nghĩa : Là thuật tốn có giám sát, SVM nhận liệu vào, xem chúng vector không gian phân loại chúng vào lớp khác cách xây dựng siêu phẳng Downloaded by vu ga (vuchinhhp2@gmail.com) lOMoARcPSD|18034504 Bước 2: Sử dụng mơ hình chia thành bước nhỏ • Bước 2.1: Đánh giá mơ hình (kiểm tra tính đắn mơ hình) • Bước 2.2: Phân lớp liệu 2.2.1 Phân cụm liệu - Phân cụm liệu trình gom cụm nhóm đối tượng hay liệu có đặc điểm tương đồng vào cụm/nhóm tương ứng Trong đó: - Các đối tượng cụm có tính chất tương tự Các đối tượng thuộc cụm nhóm khác có tính chất khác 2.2.1.1 Phân cụm phân cấp (Hierarchical Clustering) phương pháp Diana a) Phân cụm phân cấp (Hierarchical clustering) Xây dựng phân cấp cho liệu cần gom cụm dựa trên: - - Ma trận khoảng cách phần tử (similarity matrix dissimilarity matrix) • Similarity matrix số đo mức độ giống hai đối tượng • Dissimilarity matrix số đo mức độ khác hai đối tượng Độ đo khoảng cách cụm (single link, complete link…) Phương pháp không cần xác định trước số cụm cần xác định điều kiện dừng Các phương pháp điển hình: Agnes, Diana… b) Phương pháp phân cụm phân cấp Diana Theo chiến lược top down: - Bắt đầu với cụm gồm tất phần tử Ở bước, chia cụm ban đầu thành cụm: khoảng cách cụm khoảng cách điểm gần từ hai cụm, khoảng cách trung bình Thực đệ quy cụm tách lặp lại phần tử cụm Kết phát sinh phân cấp (dendrogram) Downloaded by vu ga (vuchinhhp2@gmail.com) lOMoARcPSD|18034504 2.2.1.2 Phân cụm phân cấp phương pháp Diana kết a) Dùng phần mềm Orange để phân cụm phân cấp phương pháp Diana chọn số cụm tốt nhất: - File input: Bộ liệu sử dụng cho dự án bỏ qua (skip) biến mục tiêu subcribed - Distances: Sử dụng độ đo khoảng cách Euclidean (Euclid=Minkowski (với n=2)) Hierarchical Clustering: Sử dụng phương pháp tính khoảng cách Single-link chia làm cụm để số Sihouette Cluster dương nhiều b) Kết Số cụm tốt (vì chia làm cụm để số Sihouette Cluster dương nhiều nhất) Phân cụm liệu dự án (5000 mẫu) thành cụm gồm C1 (195 mẫu) C2 (4805 mẫu) Phân cụm phân hoạch thuật toán K-means a) Phân cụm phân hoạch Phân tập liệu có n phần tử cho trước thành k tập (k

Ngày đăng: 23/02/2023, 21:59

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN