1. Trang chủ
  2. » Tất cả

Đề tài phân tích dữ liệu phân hạng tín dụng dựa trên bộ dữ liệu xyz bằng phần mềm orange

32 4 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 32
Dung lượng 0,96 MB

Nội dung

ĐẠI HỌC UEH TRƯỜNG KINH DOANH KHOA KẾ TOÁN ĐỒ ÁN MÔN HỌC BỘ MÔN: KHOA HỌC HỌC DỮ LIỆU ĐỀ TÀI: PHÂN TÍCH DỮ LIỆU PHÂN HẠNG TÍN DỤNG DỰA TRÊN BỘ DỮ LIỆU XYZ BẰNG PHẦN MỀM ORANGE Giảng viên: TS Thái Kim Phụng Mã lớp học phần: 22C1INF50905972 Chun ngành: Kiểm tốn – Khóa: 47 Nhóm sinh viên Phan Thị Thảo Nguyên Huỳnh Ngọc Phương Nghi Trương Hoàng Bảo Nghi Bùi Yến Nhi Lê Thị Bảo Ngọc 31211023814 31211023584 31211022129 31211024584 31211022130 TP Hồ Chí Minh, ngày 08 tháng 12 năm 2022 BẢNG PHÂN CÔNG NHIỆM VỤ STT Họ tên MSSV Phan Thị Thảo Nguyên 31211023814 Nhiệm vụ -Chọn Đánh giá 100% liệu -Tiến hành phân lớp dự báo -Tổng hợp kết Huỳnh Ngọc Phương Nghi 31211023584 -Chọn 100% liệu -Tổng quan lí thuyết -Mơ tả liệu Trương Hồng Bảo Nghi 31211022129 -Tổng quan lí 100% thuyết -Tổng hợp kết kết luận Bùi Yến Nhi 31211024584 -Tổng quan lý 100% thuyết - Kết luận Lê Thị Bảo Ngọc 31211022130 -Mô tả liệu -Tiến hành phân cụm liệu 100% MỤC LỤC CHƯƠNG TỔNG QUAN 1.1 Tổng quan toán phân lớp liệu 1.2 Giới thiệu Python Phần mềm Orange 1.3 Lý Do Chọn Lựa Đề Tài .7 CHƯƠNG CÁC MƠ HÌNH PHÂN LỚP DỮ LIỆU 2.1 Các mơ hình phân lớp liệu Mơ hình phân lớp phần mềm Orange: 2.1.1.Mơ hình Logistic Regression ( hồi quy logistic): 2.1.2.Mơ hình Decision tree ( định) : .9 2.1.3 Mơ hình Support Vector Machine 10 2.1.4 Mơ hình Neural Network 12 2.2 Quy trình phân lớp liệu 13 2.2.1 Phân cụm liệu 13 2.2.1.1 Phân cụm phân cấp (Hierarchical Clustering) phương pháp Diana 14 2.2.1.2 Phân cụm phân cấp phương pháp Diana kết 14 2.2.1.3 Phân cụm phân hoạch thuật toán K-means kết 16 2.2.1.4 Đánh giá mơ hình phân cụm, chọn mơ hình phân cụm tối ưu 17 2.2.2 Phân lớp liệu .18 2.2.2.1 Một số phương pháp phân lớp liệu 18 2.2.2.2 Xây dựng mơ hình phân lớp, kiểm tra mơ hình phân lớp liệu 19 CHƯƠNG CÁC KẾT QUẢ THỰC NGHIỆM 22 3.1 Bộ liệu .22 3.1.1 Mô tả liệu 23 3.2 Phân tích đánh giá 25 CHƯƠNG KẾT LUẬN 28 4.1 Các Kết Quả Đạt Được 28 4.2 Những hạn chế phát triển .28 LỜI CẢM ƠN 28 TÀI LIỆU THAM KHẢO 29 CHƯƠNG TỔNG QUAN 1.1 Tổng quan toán phân lớp liệu Định nghĩa phân lớp liệu: Phân lớp liệu kĩ thuật dựa tập huấn luyện giá trị hay nhãn lớp thuộc tính phân lớp sử dụng việc phân lớp liệu Quá trình phân lớp liệu: gồm bước Bước 1: Xây dựng mơ hình (hay cịn gọi giai đoạn “học” “huấn luyện”) Bước 2: Sử dụng mơ hình chia thành bước nhỏ: Bước 2.1: Đánh giá mô hình (kiểm tra tính đúngđắn mơ hình) Bước 2.2: Phân lớp liệu 1.2 Giới thiệu Python Phần mềm Orange Python ngôn ngữ lập trình mã nguồn mở, đa tảng, dễ học dễ đọc Python có cấu trúc rõ ràng, thuận tiện cho người học lập trình Vì sử dụng rộng rãi Python ngôn ngữ hỗ trợ nhiều mẫu đa lập trình khác như: mệnh lệnh, lập trình hướng đối tượng, lập trình hàm… dùng đa lĩnh vực: web, 3D CAD…  Python thông dịch: Python trình thơng dịch xử lý thời gian chạy Bạn khơng cần phải biên dịch chương trình trước thực Nó tương tự với PERL PHP  Python tương tác (Interactive): Tại dấu nhắc Python (command line) bạn tươngtác trực tiếp với trình thơng dịch để viết chương trình Python  Python hướng đối tượng: Python hỗ trợ kỹ thuật lập trình hướng đối tượng kỹ thuật lập trình đóng gói mã đối tượng  Python ngôn ngữ người bắt đầu: Python ngơn ngữ tuyệt vời cho lập trình viên bắt đầu hỗ trợ phát triển loạt ứng dụng từ xử lý văn đơn giản, lập trình web, lập trình game *Các tính Python bao gồm: “- Phát triển trang web (phía máy chủ) - Phát triển phần mềm - Kịch hệ thống - Python sử dụng với phần mềm nhằm tạo quy trình cơng việc - Python kết nối với hệ thống sở liệu.” - Python sử dụng để xử lý liệu lớn thực phép tốn phức tạp - Lập trình GUI: Python hỗ trợ ứng dụng GUI tạo chuyển sang nhiều cuộcgọi hệ thống, thư viện hệ thống cửa sổ, Windows MFC, Macintosh hệ thống XWindow Unix - Portable: Python chạy nhiều tảng phần cứng khác có giao diệntrên tất tảng Tổng quan phần mềm Orange: Orange cơng cụ trực quan hóa liệu, học máy khai thác liệu mã nguồn mở Được đời nhằm hỗ trợ người việc nghiên cứu giải vấn đề khó nhằn lĩnh vực khai phá liệu (Data mining) học máy (Marchine learning) Vì độ phổ biến việc tích hợp công cụ khai phá liệu mã nguồn mở học máy thông minh, đơn giản, lập trinh Python với giao diện trực quan tương tác dễ dàng, phần mềm Orange giúp người dùng phân tích liệu từ đơn giản đến phức tạp Bên cạnh đó, đồ họa đẹp mắt, thú vị cịn giúp việc khai thác liệu học máy dễ dàng cho chuyên gia người dùng Các chức cung cấp kể đến như: đọc liệu, hiển thị liệu dạng bảng, so sánh thuật tốn máy học, trực quan hóa phần tử liệu, lựa chọn thuộc tính đặc điểm liệu, huấn luyện liệu để dự đốn, ,… Data: cơng cụ để nhập liệu, lọc liệu, lấy mẫu, quy nạp, thao tác tính lựa chọn tính Visualize: cơng cụ để trực quan hóa thơng thường (biểu đồ hộp, biểu đồ, biểu đồ phân tán) trực quan hóa đa biến (hiển thị khảm, sơ đồ sàng) Model: hàm máy học (marchine learning) phân lớp liệu với Tree, Logictis, Regression, SVM,… Evaluate: xác thực chéo, quy trình dựa lấy mẫu, ước tính độ tin cậy tính điểm phương pháp dự đốn Unsupervised: thuật tốn học tập khơng giám sát để phân cụm (k-means, phân cụm theo cấp bậc) kỹ thuật chiếu liệu (chia tỷ lệ đa chiều, phân tích thành phần chính, phân tích tương ứng) Add ons: mở rộng chức nâng cao xử lý liệu lớn với Spank, xử lý ảnh với Deep learing, xử lý văn bản, phân tích mạng xã hội,… điểm ưu việt so với phần mềm khai phá liệu khác 1.3 Lý Do Chọn Lựa Đề Tài Trong 10 năm trở lại đây, khoa học liệu có đóng góp tạo nhiều thành tựu to lớn cho doanh nghiệp Thúc đẩy q trình cơng nghiệp hóa đại hóa đưa doanh nghiệp ngày phát triển, hoạt động hiệu hơn, suất Ở Việt Nam doanh nghiệp trọng việc xử lí thơng tin liệu phần quan trọng đưa doanh nghiệp dần hội nhập với thị trường quốc tếlà nguồn tài nguyên vô hạn cho doanh nghiệp Điều cho thấy khoa học liệu có tác động định đến kinh tế thị trường Chúng em tìm liệu ngân hàng xử lý thông tin thơng qua phần mềm orange để nhìn nhận tìm hướng phát triển Thông qua việc gọi điện thoại khảo sát ngân hàng để tiếp thị dự đốn việc thành cơng liệu khách hàng có đăng ký tiền gửi ngân hàng có kỳ hạn khơng Dưới chúng em xin làm rõ vấn đề - Distances: Sử dụng độ đo khoảng cách Euclidean (Euclid=Minkowski (n=2)) - Hierarchical Clustering: Sử dụng phương pháp tính khoảng cách Single-link chia làm cụm để số Sihouette Cluster dương nhiều b Kết Số cụm tốt (vì chia làm cụm để số Sihouette Cluster dương nhiều nhất) Phân cụm liệu dự án (5000 mẫu) thành cụm gồm C1 (195 mẫu) C2 (4805 mẫu) Phân cụm phân hoạch thuật toán K-means a Phân cụm phân hoạch: Phân tập liệu có n phần tử cho trước thành k tập (k

Ngày đăng: 24/02/2023, 21:26

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w