1. Trang chủ
  2. » Luận Văn - Báo Cáo

báo cáo đồ án học phần khoa học dữ liệu đề tài phân loại nhóm khách hàng tín dụng tại các ngân hàng tại đức

74 2 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Nội dung

HỒ CHÍ MINH TRƯỜNG CÔNG NGHỆ VÀ THIẾT KẾ KHOA CÔNG NGHỆ THÔNG TIN KINH DOANH BỘ MÔN CÔNG NGHỆ THÔNG TIN BÁO CÁO ĐỒ ÁN HỌC PHẦN KHOA HỌC DỮ LIỆU Đề tài: PHÂN LOẠI NHÓM KHÁCH HÀNG TÍN DỤNG

Trang 1

ĐẠI HỌC KINH TẾ TP HỒ CHÍ MINH TRƯỜNG CÔNG NGHỆ VÀ THIẾT KẾ KHOA CÔNG NGHỆ THÔNG TIN KINH DOANH

BỘ MÔN CÔNG NGHỆ THÔNG TIN

BÁO CÁO ĐỒ ÁN HỌC PHẦN KHOA HỌC DỮ LIỆU

Đề tài: PHÂN LOẠI NHÓM KHÁCH HÀNG TÍN DỤNG TẠI CÁC NGÂN HÀNG TẠI ĐỨC

GVHD: Trương Việt Phương

Nhóm thực hiện: 6

Nguyễn Ngô Anh Phương Nguyễn Minh Sướng Phạm Nguyễn Quỳnh Như Nguyễn Thị Thúy An

TP Hồ Chí Minh, Tháng 8/2023

Trang 2

MỤC LỤC

DANH MỤC HÌNH ẢNH 4

DANH MỤC BẢNG BIỂU 6

Lời mở đầu 7

BẢNG PHÂN CÔNG CÁC THÀNH VIÊN 8

Chương 1: GIỚI THIỆU VỀ KHOA HỌC DỮ LIỆU VÀ GIỚI THIỆU ĐỀ TÀI10 1 Lý do chọn đề tài: 10

2 Mục tiêu nghiên cứu: 10

3 Đối tượng nghiên cứu; 11

Chương 2: TỔNG QUAN VỀ CHƯƠNG TRÌNH SỬ DỤNG VÀ CÁC PHƯƠNG PHÁP SỬ DỤNG 12

1 Giới thiệu về Excel 12

2.3.3 Mô hình hồi quy Logistics 26

2.3.4 Mô hình Neraul Networking 26

Trang 3

4.1 Phân cụm theo phương pháp Hierchical Clustering: 46

4.2 Phương pháp phân cụm theo trực quan hóa dữ liệu nhiều chiều về 2 chiều: 53

4.3 Phân cụm theo phương pháp K-mean: 58

4.4 Chọn lựa mô hình phân cụm phù hợp với dữ liệu nghiên cứu 67

Chương 4: ĐÁNH GIÁ KẾT QUẢ CỦA MÔ HÌNH 68

KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 71

TÀI LIỆU THAM KHẢO 74

Trang 4

DANH MỤC HÌNH ẢNH

Hình 1 Hộp thoại thống kê mô tả 13

Hình 2 Bảng ví dụ thống kê mô tả 13

Hình 3 Hộp thoại Subtotal 15

Hình 4 Hình ảnh hộp thoại tạo Pivot Table 16

Hình 5 Hộp thoại Moving Average 17

Hình 6 Hộp thoại phương pháp san bằng mũ 18

Hình 7 Vẽ biểu đồ trong Excel 19

Hình 8 Hộp thoại hồi quy 19

Hình 9 Kết quả ví dụ hồi quy 20

Hình 10 Mô hình phân cụm dữ liệu 23

Hình 11 Mô hình phân lớp dữ liệu 25

Hình 12 Mô tả cách phân lớp dữ liệu 36

Hình 13 Các mô hình phân lớp 37

Hình 14 Mô hình phân lớp thực hiện bằng Excel 37

Hình 15 Kết quả chia mẫu thành 5 phần 38

Hình 16 Kết quả chia mẫu thành 10 phần 38

Hình 17 Kết quả chia mẫu 50-90% 39

Hình 18 Kết quả chia mẫu 20-70% 39

Hình 19 Kết quả chia mẫu thành 50-66% 40

Hình 20 Kết quả ma trận nhầm lẫn mô hình cây quyết định 41

Hình 21 Kết quả ma trận nhầm lẫn SVM 41

Hình 22 Kết quả ma trận nhầm lẫn Logistics Regresstion 42

Hình 23 Ma trận nhầm lẫn mô hình Neural Networking 42

Hình 24 Đường cong ROC với mục tiêu 0 43

Hình 25 Đường cong ROC với phụ thuộc là 1 43

Hình 26 Đánh giá mô hình phân lớp dữ liệu 44

Hình 27 Màn hình tổng thể phân lớp và dự đoán trong Orange 45

Hình 28 Kiểm tra mô hình phân lớp 45

Hình 29 Phân cụm theo Cosine-Complete 46

Hình 30 Phân cụm theo Cosine-Single 47

Hình 31 Phân cụm theo Cosine-Average 47

Trang 5

Hình 32 Phân cụm theo Cosine-Weighted 48

Hình 33 Phân cụm theo Cosine-Ward 48

Hình 34 Chọn 2 cụm bàng Hierarchical CLustering 49

Hình 35 Chỉ số Silhouette của 2 cụm Hierarchical Clustering 51

Hình 36 Kết quả phân thành 2 cụm Hierchical Clustering 52

Hình 37 Phân thành 3 cụm theo Hierarchical Clustering 53

Hình 38 Trực quan hóa dữ liệu trên không gian 2 chiều 53

Trang 6

DANH MỤC BẢNG BIỂU

Bảng 1 Số liệu cho vay 14

Bảng 2 Tạo bảng với Excel 16

Bảng 3 Phân tích ý nghĩa các biến 31

Bảng 4 Đánh giá dự đoán 46

Bảng 5 Bảng Pivot kết quả phân cụm Hierarchical Clustering 2 cụm 52

Bảng 6 Đánh giá kết quả phân cụm t-SNE bằng Pivot Table 57

Bảng 7 Kết quả phân cụm khi gom về 2 cụm t-SNE 58

Bảng 8 Đánh giá kết quả phân cụm K-Means 2 cụm 62

Bảng 9 Đánh giá mô hình phân cụm K-Means 3 cụm 66

Trang 7

Lời mở đầu

Lời đầu tiên, chúng em xin được gửi lời cảm ơn đến trường Đại học Kinh tế Thành phố Hồ Chí Minh vì đã đưa môn Khoa học dữ liệu vào chương trình giảng dạy, nhờ đó giúp chúng em có thêm sự hiển biết để phát triển bản thân Chúng em muốn gửi một lời cảm ơn chân thành đến thành Trương Việt Phương, đã đồng hành cùng với nhóm 4 người tụi em nhờ được thầy truyền dạy đầy đủ, nhiệt tình và sâu sắc đã giúp chúng em hiểu thêm về ứng dụng công nghệ số trong thời đại số hiện nay Nhờ kiến thức được thầy truyền tải, chúng em đã có thể sử dụng các phần mềm như Orange, Excel trong việc phân tích dự báo dữ liệu để có được mô hình chính xác, giúp đồ án của nhóm em được hoàn thành đúng hạn Qua việc thực hành xây dựng đồ án, chúng em xin được trình bày những kiến thức được học và áp dụng trong quá trình nghiên cứu

Trong quá trình làm đồ án, do có sự hạn chế về kiến thức nên không thể tránh khỏi những sai xót Vì vậy, chúng em rất mong nhận được sự góp ý cũng như đánh giá từ thầy để giúp bài đồ án của nhóm chúng em được hoàn thiện hơn Thời đại công nghệ số hiện nay, khoa học và phân tích dữ liệu đóng vai trò quan trọng trong kinh tế, xã hội, môi trường,… nhằm dự đoán đưa ra quyết định chính xác giảm thiểu tổn thất do quyết định sai Để tìm hiểu sâu hơn về vấn đề phân tích dữ liệu dựa trên cơ sở khoa học, nhóm của chúng em đã phát triển một dự án phân tích cụ thể bộ dữ liệu “Thanh khoản tín dụng” thông qua công cụ Orange để cung cấp cái nhìn tổng quát hơn về các chiến lược cho vay của khánh hàng nhằm thu được lợi nhuận tối đa giảm thiểu nợ xấu Đây là công cụ phân tích trực tuyến các xu hướng công nghệ phục vụ cho dịch vụ ngân hàng Ở phần đầu tiên, nhóm chúng em xây dựng mục đích nghiên cứu và giới thiệu đề tài Chương II được đề cập đến các phương pháp xử dụng trong nghiên cứu Chương III là việc áp dụng các phương pháp vào mô hình thực tế Chương IV là kết quả của các mô hình nghiên cứu Cuối cùng, nhóm đề cập đến hướng phát triển của đề tài nghiên cứu

Trang 8

BẢNG PHÂN CÔNG CÁC THÀNH VIÊN

1

Nguyễn Ngô Anh Phương

Lời mở đầu Chương 2 Excel

Chương 3 Phân tích thống kê mô tả số liệu (phần biểu đồ và ý nghĩa), chạy mô hình phân lớp dữ liệu và viết phân tích phân lớp dữ liệu

Chương 4 Ưu điểm và nhược điểm chung

100%

2

Nguyễn Minh Sướng

Chương 2 Orange

Chương 3 Tiền xử lí dữ liệu, chạy mô hình phân cụm dữ liệu và viết phân tích phân cụm Chương 4 Ưu điểm và nhược điểm của từng mô hình

100%

3

Phạm Ngọc Quỳnh Như

Chương 1 Lý do chọn đề tài Chương 3 Phân tích thống kê mô tả số liệu (phần mô tả biến dữ liệu, viết phân tích mô hình phân cụm dữ liệu

Kết luận và hướng phát triển: Hạn chế đề tài và thành quả đạt được

100%

Trang 9

Kết luận và hướng phát triển: Hướng phát triển của đề tài

Bảng 1 Phân công các nhiệm vụ các thành viên

Trang 10

Chương 1: GIỚI THIỆU VỀ KHOA HỌC DỮ LIỆU VÀ GIỚI THIỆU ĐỀ TÀI 1 Lý do chọn đề tài:

Hiện nay, bên cạnh sự phát triển không ngừng của nền kinh tế thì sự phát triển của ngành ngân hàng cũng có những bước tiến đáng kể Hoạt động ngân hàng nói chung, trong đó không thể không kể đến hoạt động tín dụng - hoạt động được xem là trung tâm đóng vai trò chủ chốt và chiếm tỷ trọng lớn nhất trên tổng tài sản của các ngân hàng Tín dụng ngân hàng được ví như hệ thần kinh của nền kinh tế với chức năng huy động các nguồn lực tài chính từ các chủ thể kinh tế để đầu tư phát triển kinh tế qua hình thức cấp tín dụng của ngân hàng Việc cấp tín dụng của ngân hàng là nguồn cung vốn chủ yếu cho nền kinh tế, thúc đẩy tăng trưởng kinh tế, đồng thời cũng đem lại lợi nhuận không nhỏ cho ngân hàng Hoạt động tín dụng không những mang lại thu nhập chủ yếu cho mỗi ngân hàng, mà còn là nghiệp vụ cơ sở để ngân hàng phát triển và đa dạng hóa các nghiệp vụ ngân hàng khác Tuy nhiên, cái gì cũng kèm theo những rủi ro, tín dụng ngân hàng cũng gặp không ít khó khăn và nhiều trở ngai Chính vì vậy, bất kỳ ngân hàng nào cũng luôn đề cao, ra sức củng cố và phát triển hoạt động tín dụng của mình Mỗi một báo cáo sẽ đưa ra cái nhìn tổng quan cụ thể về nguy cơ vay không trả nợ đúng hạn, để góp phần đánh giá hiệu quả được rủi ro tín dụng

Với đề tài: “Đánh giá nguy cơ khách hàng vay không trả nợ đúng hạn” sẽ giúp chúng ta tìm hiểu, phân tích, đánh giá và đưa ra các rủi ro tín dụng Tại sao các khách hàng lại vay không trả nợ đúng hạn? Nghiên cứu về rủi ro tín dụng của một ngân hàng đã trở thành đề tài rất quen thuộc đối với sinh viên nói riêng và rất nhiều các bài viết về lĩnh vực tài chính ngân hàng nói chung Tuy nhiên, để có một bài đánh giá cụ thể về rủi ro tín dụng thì vẫn còn hạn chế Nhờ tìm hiểu qua các tài liệu và thực tế, chúng tôi mong muốn đưa ra cái nhìn tổng quát về rủi ro tín dụng tại các ngân hàng trong thực tế Từ đó, đánh giá được hiệu quả về rủi ro tín dụng nói riêng, toàn ngành nói chung và đưa ra gợi ý góp phần hoàn thiện rủi ro tín dụng cho các ngân hàng trong nước và ngoài nước

2 Mục tiêu nghiên cứu:

Mục đích tổng quát: Đánh giá và đưa ra biện pháp hạn chế việc trả nợ không đúng hạn trong rủi ro tín dụng trên thực tế

Trang 11

• Đánh giá và đưa ra biện pháp hạn chế rủi ro tín dụng

3 Đối tượng nghiên cứu;

• Đối tượng nghiên cứu: Chọn bộ dữ liệu “Home Credit Default Risk Dataset” - bộ dữ liệu liên quan đến vấn đề dự đoán rủi ro vỡ nợ tín dụng Bộ dữ liệu này chứa thông tin giao dịch và viễn thông, được sử dụng rộng rãi trong nghiên cứu để xét xem khách hàng có gặp khó khăn trong việc thanh toán hay không

• Xác định mô hình mang lại đánh giá có độ chính xác cao nhất trong việc nghiên cứu nguy cơ khách hàng trở nợ vay vốn không đúng hạn

• Dựa trên mô hình đã xác định trên từ đó kết luận được những đặc điểm để dự đoán được hiệu quả về rủi ro tín dụng

Trang 12

Chương 2: TỔNG QUAN VỀ CHƯƠNG TRÌNH SỬ DỤNG VÀ CÁC PHƯƠNG PHÁP SỬ DỤNG

Nôi dung chương này, trình bày về tổng quan về chương trình sử dụng và các phương pháp sử dụng đến đề tài bao gồm:…

1 Giới thiệu về Excel

Excel là một phần mềm bảng tính nằm trong bộ Microsoft Office Phần mềm này giúp người dùng ghi lại dữ liệu, trình bày thông tin dưới dạng bảng, tính toán, xử lý thông tin nhanh chóng và chính xác với một lượng dữ liệu lớn

Các phương pháp EXCEL dùng để khai thác dữ liệu

Phương pháp thống kê mô tả

Thống kê bằng công cụ Descripitive Statistics Cách thực hiện:

− Bước 1: Chuẩn bị bảng số liệu cần thống kê

− Bước 2: Chọn lệnh Data — Data Analysis Descriptive Statistics, xuất hiện hộp thoại Descriptive Statistics

− Bước 3: Khai báo các thông số Input và lựa chọn các thông số Output Options tùy chỉnh

Ví dụ về việc lập tín dụng tại 1 ngân hàng ở Đức như sau:

Trang 13

Hình 1 Hộp thoại thống kê mô tả

Trong hộp thoại Descriptive Statistics, nhập vào Input Range là cột chứa dữ liệu về độ tuổi, Output Range là ô xuất dữ liệu Confidence Level for Mean là 95% Sau đó ta sẽ nhận được bảng kết quả sau đây:

Mean: Giá trị trung bình • Standard Error: Sai số chuẩn • Median: Trung vị

• Mole: Yếu vị

• Standard Deviation: Độ lệch chuẩn • Sample Variance: Phương sai mẫu • Kurtosis: Độ nhọn

• Skewness: Độ bất đối xứng (Độ nghiêng) • Range: Khoảng biển thiên (Max – Min) • Minimum: Số nhỏ nhất

• Maximum: Số lớn nhất • Sum: Tổng

• Count: Số lượng phần tử • Confidence Level: Độ tin cậy

Hình 2 Bảng ví dụ thống kê mô tả

Trang 14

Báo cáo tổng hợp nhóm với Subtotal

Chức năng của Subtotal:

• Cho phép tổng hợp từng nhóm dữ liệu của các cột kiểu số trong cơ sở dữ liệu như: tìm tổng, số lớn nhất, số nhỏ nhất, số trung bình,

• Kết quả tổng hợp được đặt trên hay dưới mỗi nhóm Cách thực hiện:

Bước 1: Sắp xếp dữ liệu theo cột muốn gom nhóm

Bước 2: Chọn toàn bộ cơ sở dữ liệu hay click chuột vào một ô bất kỳ trên dữ liệu Bước 3: Chọn Data Outline Subtotal, xuất hiện hộp thoại Subtotal

Số liệu về khách hàng cho vay

Bảng 2 Số liệu cho vay

Trang 15

Hình 3 Hộp thoại Subtotal

• At each change in: chọn cột gồm nhóm

• Use function: chọn hàm thống kê dùng để tổng hợp dữ liệu (Sum) • Add subtotal to: chọn cột thống kê giá trị

• Replace current subtotals: chọn để thay thế kết quả thống kê trước đó

• Page break between group: chọn để ngắt trang giữa các nhóm, khi in ra giấy thì mỗi nhóm một trag giấy

• Summary below data: chọn để kết quả tổng hợp ở dưới mỗi nhóm • Remove All: để xóa bỏ các kết quả tổng hợp

Tổng hợp đa chiều với Pivot table

Cách thực hiện trên Excel:

Bước 1: Click vào ô bất kỳ trên cơ sở dữ liệu Bước 2: Chọn lệnh Insert + PivotTable

Bước 3: Xuất hiện hộp thoại Create PivotTable, chọn dữ liệu nguồn và nơi chứa PivotTable, click nút OK

Bước 4: Drag các tên field từ PivotTable Fields vào 4 khu vực: FILTERS, ROWS, COLUMNS và VALUES

Trang 16

Bảng 3 Tạo bảng với Excel

Table/Range: Là các dữ liệu muốn thống kê

• New Worksheet: Pivot Table sẽ xuất hiện ở trang tính mới • Existing Worksheet: Sẽ xuất dữ liệu ở 1 trang tính mới

• Location: Chọn vị trí muốn tạo bảng Privot Table

Phương pháp về phân tích dự báo

Phương pháp trung bình trượt (Moving Average)

Chức năng: Giúp làm giảm độ nhiễu của dữ liệu bằng cách loại bỏ các giá trị nhiều tạm thời và tạo ra một bảng trung bình có ý nghĩa hơn Nó cũng giúp xác định xu hướng và mức độ biến động của dữ liệu, giúp cho việc dự đoán và quản lý rủi ro trở nên dễ dàng hơn

Cách thực hiện:

Bước 1: Chuẩn bị bảng số liệu cần dự báo

Hình 4 Hình ảnh hộp thoại tạo Pivot Table

Trang 17

Bước 2: Chọn lệnh Data — Data Analysis -> • Moving Average, xuất hiện hộp thoại Moving Average

Bước 3: Khai báo các thông số Input và Output Options • Input Range: tham chiếu đến vùng dữ liệu thực tế

• Labels in First Row: Khai báo hàng đầu tiên của Input range có chứa tiêu • đề cốt hay không

• Interval (w): Số lượng các kỳ trước đó muốn tỉnh

• Output Range: tham chiếu đến vùng xuất ra kết quả Những ô không đủ số lượng các giá trị các kỷ trước đó để tính toán thì sẽ xuất ra giá trị #N/A

• Chart Output: tùy chọn dùng tạo biểu đồ nhúng cùng với vùng • xuất kết quả

• Standard Errors: tùy chọn dùng tạo thêm 1 cột chứa các sai số chuẩn Dự báo về tỉ lệ nợ:

Hình 5 Hộp thoại Moving Average

Sau khi chọn vùng dữ liệu cần khai báo vào Input Range, chọn các kỳ trước đó muốn ước tính trong Interval, từ đó dự báo được tỉ lệ vỡ nợ Sau đó, chọn vùng muốn hiển thị kết quả ở ô Output Range

Phương pháp san bằng mũ

Chức năng: Dự báo giá trị tương lai của một chuỗi dữ liệu dựa trên xu hướng và mức độ biển động của dữ liệu trong quá khứ Nó cũng giúp loại bỏ các giá trị nhiều, dự báo kết quả kinh doanh và quản lý rủi ro, cải thiện độ chính xác của dự báo và đưa ra quyết định dựa trên dữ liệu chính xác hơn

Trang 18

Cách thực hiện

Bước 1: Chuẩn bị bảng số liệu cần dự báo

Bước 2: Chọn lệnh Data — Data Analysis— Exponential Smoothing, xuất hiện hộp thoại Exponential Smoothing

Bước 3: Khai báo các thông số Input và Output Options • Input Range: tham chiếu đến vùng dữ liệu thực tế

• Damping factor: giá trị dùng làm hệ số san bằng Đó là ổn của dữ liệu, giá trị mặc định là Damping factor giá trị điều chỉnh sự bất

• Labels: tùy chọn cho biết hàng/cột đầu tiên của Input Range có chứa tiêu đề hay không

Ví dụ: Dự báo về thu nhập hàng tháng của khách hàng

Hình 6 Hộp thoại phương pháp san bằng mũ

Input Range là cột dữ liệu cần được dự báo Hệ số san bằng Damping Factor là 0.7 Ta được hệ số điều chỉnh là 0.3

Phương pháp hồi quy

Chức năng: Ước tính mối quan hệ giữa một biến phụ thuộc và một hoặc nhiều biến độc lập, từ đó có thể dự đoán giá trị của biến phụ thuộc dựa trên các giá trị có sẵn của biển độc lập

* Cách thực hiện bằng đồ thị:

Bước 1: Chuẩn bị bảng số dữ liệu cần dự báo

Bước 2: Chọn lần lượt vùng địa chỉ chứa biến phụ thuộc Y, và vùng địa chỉ chứa biến độc lập X

Bước 3: Vẽ đồ thị dạng Scatter

Bước 4: Click chuột phải vào data series, chọn Add Trendline Bước 5: Tuỷ chọn hiển thị trong Trendline Options

• Linear: dạng đường thẳng

Trang 19

• Display Equation on chart

• Display R-squared value on chart Ví dụ: Tác động của tổng chi phí lên doanh thu

Hình 7 Vẽ biểu đồ trong Excel

Cách thực hiện công cụ Regeression:

Bước 1: Chuẩn bị bảng số dữ liệu cần dự báo

Bước 2: Chọn lệnh Duta– Data Analysis – Regression, xuất hiện hộp thoại Regression Bước 3: Khai báo các thông số Input và Output Options

Ví dụ: Tác động của chi phi lên doanh thu

Hình 8 Hộp thoại hồi quy

o Input Y Range: Vùng địa chỉ chứa biến phụ thuộc Y

Trang 20

o Input X Range: Vùng địa chỉ chứa các biển độc lập X (Có thể chọn nhiều biến X trong trường hợp hồi quy đa biến)

o Labels: Tích vào mục này để khẳng định ô (các ô) đầu tiên không chứa dữ liệu hồi quy

o Constant is Zero: Tích vào mục này để khẳng định hệ số tự do của hàm hồi quy tuyến tính a = 0

o Confidentce Level: Độ tin cậy của hồi quy (mặc định là 95%) bằng 1-a, với a là mức ý nghĩa hay xác suất mắc sai lầm loại một, bác bỏ HỌ trong khi Họ đúng

o Output Range: Vùng hoặc ở phía trên bên trái của vùng chưa kết quả loại một biến o New Worksheet Ply In kết quả ra một sheet khác

• New Workbook In kết quả ra một file Excel mới Residuals Sai số do ngẫu nhiên o Standardardlized Residuals: Chuán hóa sai só

o Residuals Plots Đô thị sai số

o Line Fit Plots Đồ thị hàm hồi quy tuyến tỉnh

o Normal Probability Plot: Đồ thị xác xuất phân phối chuẩn

Input Y Range là cột doanh thu, Input X Range là cột tổng chi phí Độ tin cậy hồi quy Confidence Level là 95%

Hình 9 Kết quả ví dụ hồi quy

Trang 21

2 Phần mềm Orange

Orange là giải pháp phần mềm Self-Service Business Intelligence Software với chức năng và chi phí phù hợp cho các doanh nghiệp từ nhỏ và vừa (SMEs) tới các doanh nghiệp lớn Phần mềm Orange được đánh giá cao bởi cả người dùng lẫn chuyên gia trong lĩnh vực Business Intelligence Software

Các thao tác được thực hiện trên orange • Làm sạch dữ liệu nghiên cứu • Phân cụm dữ liệu

• Phân lớp dữ liệu

• Dự đoán kết quả nghiên cứu

2.1 Làm sạch dữ liệu nghiên cứu

Các bước làm sạch dữ liệu nghiên cứu bao gồm: • Xử lí các dữ liệu bị trống

Nguyên nhân: Dữ liệu thu thập bị thiếu do các yếu tố như những người sử dụng dữ liệu không muón tiết lộ dữ liệu về yếu tố đó, các yếu tố khi thu thập chưa được chuẩn hóa khi thay đổi phần mềm do đó có các missing value

Cách xử lí: sử dụng processing của orange xóa các dòng có dữ liệu bị trống ra khỏi dữ liệu nghiên cứu, sử dụng giá trị trung bình trong cột điền vào dữ liệu bị thiếu Ở bước xử lí dữ liệu bị trống nhóm chọn phương pháp xóa các dòng bị thiếu dữ liệu nghiên cứu

• Xử lí dữ liệu bị nhiễu

Nguyên nhân: Dữ liệu thu thập quá nhỏ chưa có độ phủ nhất định dẫn đến nhiều dữ liệu nghiên cứu chưa được phân bổ đồng đều, làm mô hình đánh gía thiếu các biến quan sát thực tế dẫn đến các dữ liệu nhiễu trong nghiên cứu

Cách xử lí: đối với những dữ liệu nhiễu nhóm quyết định loại các dữ liệu nhiễu ra khỏi mô hình nghiên cứu bằng chức năng Binning của Orange (màn hình thực hiện)

• Xử lí dữ liệu không nhất quán

Nguyên nhân: dữ liệu nghiên cứu được ghi nhận khác nhau của cùng một đối trượng dữ liệu bị lẫn lộn giữa các dòng các cột với nhau dẫn đến biến quyết định có thêm các kết

Trang 22

quả của biến khác điều đó làm cho dữ liệu không đáng tin cậy và mất đi tính khách quan của nghiên cứu

Phân tích mối liên hệ giữa các feature và target: qua phân tích ở

2.2 Phân cụm dữ liệuĐịnh nghĩa

Là quá trình gom cụm/nhóm các đối tượng/dữ liệu có đặc điểm tương đồng vào các cụm/nhóm tương ứng Trong đó:

•Các đối tượng trong cùng một cụm sẽ có những tính chất tương tự nhau •Các đối tượng thuộc cụm/nhóm khác nhau sẽ có các tính chất khác nhau

Lưu ý: Dữ liệu của bài toán phân cụm là dữ liệu chưa được gán nhãn Đây là dữ liệu tự nhiên thường thấy trong thực tế

Mô hình phân cụm

Trang 23

Hình 10 Mô hình phân cụm dữ liệu

Đặc điểm:

Nhiệm vụ chính là tìm ra và đo đạc sự khác biệt giữa các đối tượng dữ liệu

- Phân cụm thuộc nhóm phương pháp học không giám sát (unsupervised learning) vì không biết trước được số nhóm (khác với bài toán phân lớp)

- Một phương pháp phân cụm tốt là phương pháp tạo ra các cụm có chất lượng cao: •Độ tương đồng bên trong cụm cao

•Độ tương tự giữa các cụm thấp (khác biệt cao) - Các ứng dụng điển hình:

•Công cụ phân cụm dữ liệu độc lập

•Là giai đoạn tiền xử lý cho các thuật toán - Một số cách phân cụm dữ liệu

Phân cụm phân cấp (Hierarchical clustering)

Xây dựng một cây phân cấp cho dữ liệu cần gom cụm dựa trên:

Ma trận khoảng cách giữa các phần tử (similarity matrix hoặc dissimilarity matrix)Độ đo khoảng cách giữa các cụm (single link, complete link…)

Phương pháp này không cần xác định trước số cụm nhưng cần xác định điều kiện dừng.

Các phương pháp điển hình: Diana, Agnes…

• Phân cụm phân hoạch

Phân tập dữ liệu có n phần tử cho trước thành k tập con (k<=n), mỗi tập con biểu diễn một cụm

Các cụm hình thành trên cơ sở tối ưu hóa giá trị hàm độ đo tương tự (độ đo phân cụm) sao cho:

Mỗi đối tượng thuộc duy nhất 1 cụm, các phần tử trong cụm có sự tương tự nhau Mỗi cụm có ít nhất 1 phần tử

Trang 24

Thuật toán điển hình: K-means, K-mediods, Fuzzy C-means Đánh giá mô hình phân cụm

Các phương pháp đánh giá mô hình phân cụm dữ liệu: đánh giá ngoài, đánh giá nội bộ, đánh giá tương đối

Một số tiêu chí để đánh giá chất lượng phân cụm Độ nén: các phần tử trong cụm phải gần nhau

Độ phân cách: khoảng cách giữa các cụm nên “xa nhau”, phân cách một cách rõ ràng giữa các cụm

Phương pháp đánh giá ngoài: là kết quả phân cụm dựa vào cấu trúc, xu hướng phân cụm được chỉ định trước cho tập dữ liệu

Phương pháp đánh giá nội bộ: Là đánh giá mô hình phân cụm không dựa vào các thông tin bên ngoài, chủ yếu dựa vào các vector chính của dữ liệu thông qua ma trận xấp xĩ (proximity matrix) tối ưu hóa các chỉ số nội bộ: độ nén, độ phân tách

Chỉ số đánh giá Silhoutte Index: Với các mức đánh giá chỉ số Si của mô hình thì việc đánh giá của đề tài này dựa trên chỉ số Si với các mức đánh giá như sau : Si>=0.5 thì mô hình phân cụm sát với thực tế, 0.25-0.5: cần phải đánh giá lại mô hình phân cụm, <0,25 không tin tưởng được

Phương pháp đánh giá tương đối: đánh giá việc phân cụm bằng cách so sánh với kết quả phân cụm:

Kết quả gọm cụm ứng với các bộ trị số khác nhau Kết quả phân cụm của các phương pháp khác nhau

2.3 Phân lớp dữ liệu Định nghĩa

Là quá trình phân một đối tượng dữ liệu vào một hay nhiều lớp (loại) đã cho trước nhờ một mô hình phân lớp

Trang 25

Mô hình này được xây dựng dựa trên một tập dữ liệu đã được gán nhãn trước đó (thuộc về lớp nào)

Quá trình gán nhãn (thuộc lớp nào) cho đối tượng dữ liệu chính là quá trình phân lớp dữ liệu

Hình 11 Mô hình phân lớp dữ liệu

Quá trình phân lớp dữ liệu gồm 2 bước chính:

Bước 1: Xây dựng mô hình (hay còn gọi là giai đoạn “học” hoặc “huấn luyện”) Bước 2: Sử dụng mô hình chia thành 2 bước nhỏ

•Bước 2.1: Đánh giá mô hình (kiểm tra tính đúng đắn của mô hình) •Bước 2.2: Phân lớp dữ liệu mới

2.3.1 Mô hình cây quyết định

Trong lý thuyết quản trị, cây quyết định là đồ thị các quyết định cùng các kết quả khả dĩ đi kèm nhằm hỗ trợ quá trình ra quyết định

Trong lĩnh vực khai thác dữ liệu, cây quyết định là phương pháp nhằm mô tả, phân loại và tổng quát hóa tập dữ liệu cho trước

Trang 26

Màn hình thực hiện qua Orange

2.3.2 Mô hình SVM

SVM là một thuật toán có giám sát, SVM nhận dữ liệu vào, xem chúng như những các vector trong không gian và phân loại chúng vào các lớp khác nhau bằng cách xây dựng một siêu phẳng trong không gian nhiều chiều làm mặt phân cách các lớp dữ liệu

Để tối ưu kết quả phân lớp thì phải xác định siêu phẳng (hyperplane) có khoảng cách đến các điểm dữ liệu (margin) của tất cả các lớp xa nhất có thể

SVM có nhiều biến thể phù hợp với các bài toán phân loại khác nhau Màn hình thực hiện trên Orange

2.3.3 Mô hình hồi quy Logistics

Định nghĩa: Là một mô hình xác suất dự đoán giá trị đầu ra rời rạc từ một tập các giá trị đầu vào (biểu diễn dưới dạng vector)

Mô tả về bài toán phân lớp bằng hồi quy Logistic: Tập nhãn y={y1,y2,y3, ,yn} với n là số lớp

Một đối tượng dữ liệu x={x1,x2,x3, ,xn} với d là thuộc tính mỗi dòng dữ liệu được biểu diễn dướu dạng vector

Hàm logistic P(y=1)=11+e-(w0+w1x1+w2x2+ +wdxd) dự đoán đối tường xem đối tượng x sỡ hữu các thuộc tính cụ thể sẽ thuộc vào lớp y nào

Màn hình thực hiện trên Orange

2.3.4 Mô hình Neraul Networking

Neural Network tương tự như bộ não của con người, nó sẽ kết nối các nút đơn giản và các nút này sẽ tạo thành một mạng lưới Do đó, nó được xem là hệ thống của các tế bào thần kinh nhân tạo Trong Neural Network, một loạt các thuật toán sẽ được sử dụng với mục đích xác định và nhận ra tất cả các mối quan hệ có trong các tập dữ liệu

Trang 27

Cross-• Confusion Matrix

Một phương pháp tốt hơn để đánh giá performance của mô hình phân lớp đó là confusion matrix (ma trận nhầm lẫn) Ý tưởng chính là đếm số lần phần tử thuộc class A bị phân loại nhầm vào class B

Để thực hiện tính toán ma trận nhầm lẫn, đầu tiên bạn phải có kết quả các dự đoán và so sánh với nhãn thật của nó Nghĩa là chúng ta phải dự đoán trên tập test, sau đó dúng kết quả dự đoán này để so sánh với nhãn ban đầu

Ma trận nhầm lẫn sẽ cho chúng ta nhiều thông tin về chất lượng của bộ phân lớp TP (True Positive): Số lượng dự đoán chính xác Là khi mô hình dự đoán đúng một số là số 5

TN (True Negative): Số lương dự đoán chính xác một cách gián tiếp Là khi mô hình dự đoán đúng một số không phải số 5, tức là việc không chọn trường hợp số 5 là chính xác FP (False Positive - Type 1 Error): Số lượng các dự đoán sai lệch Là khi mô hình dự đoán một số là số 5 và số đó lại không phải là số 5

Trang 28

FN (False Negative - Type 2 Error): Số lượng các dự đoán sai lệch một cách gián tiếp Là khi mô hình dự đoán một số không phải số 5 nhưng số đó lại là số 5, tức là việc không chọn trường hợp số 5 là sai

• Precision and Recall

Precision: Trong tất cả các dự đoán Positive được đưa ra, bao nhiêu dự đoán là chính xác? Chỉ số này được tính theo công thức

Recall: Trong tất cả các trường hợp Positive, bao nhiêu trường hợp đã được dự đoán chính xác? Chỉ số này được tính theo công thức:

• F1-SCORE

Để kết hợp 2 chỉ số này, người ta đưa ra chỉ số F1-score

Một mô hình có chỉ số F-score cao chỉ khi cả 2 chỉ số Precision và Recall để cao Một trong 2 chỉ số này thấp đều sẽ kéo điểm F-score xuống Trường hợp xấu nhất khi 1 trong hai chỉ số Precison và Recall bằng 0 sẽ kéo điểm F-score về 0 Trường hợp tốt nhất khi cả điểm chỉ số đều đạt giá trị bằng 1, khi đó điểm F-score sẽ là 1

Tuy nhiên thì không phải lúc nào ta cũng cần đến F1, 1 vài trường hợp ta chỉ quan tâm đến precision, 1 vài trường hợp ta quan tâm đến recall Ví dụ, nếu bạn huấn luyện 1 mô hình để phát hiện video an toàn cho trẻ em, bạn phải sử dụng bộ phân lớp mà có thể bỏ sót nhiều video an toàn (recall thấp) nhưng ít bỏ qua các video không an toàn (high precision) Hay còn gọi là giết nhầm còn hơn bỏ sót, thà không hiển thị video an toàn còn hơn là hiển thị video không an toàn

Trang 29

Chương 3: ỨNG DỤNG PHƯƠNG PHÁP VÀO BÀI TOÁN THỰC TẾ

Nôi dung chương này, trình bày tất cả vấn đề về ứng dụng phương pháp lựa chọn vào bài toán thực tế gồm:…

- Qua đánh giá sơ bộ lớp của bộ dữ liệu nhóm nhận thấy có 8357 khách hàng bị vỡ nợ nhưng với đối tượng khách hàng trả nợ đúng hạn thì mẫu gồm 111912 khách hàng trả nợ đúng hạn Hai lớp của biến kết quả có sự chênh lệch lớn về số lượng do đó nhóm quyết định sử dụng FILTER để giảm bớt các dữ liệu của các khách hàng không có khả năng vỡ nợ để nhằm đảm bảo tính khách quan của bộ dữ liệu

- Nhóm tác giả xác định bộ dữ liệu nghiên cứu ban đầu gồm 8357 khách hàng vỡ nợ và 41785 khách hàng không bị vỡ nợ từ bộ dữ liệu gốc Sau khi chọn mẫu ngẫu nhiên thì 2 lớp của biến kết quả thì tỉ lệ mẫu giữa 2 biến là 1:5 chấp nhận được với mẫu nghiên cứu nhỏ

- Đánh giá các biến liên quan có ảnh hưởng đến biến kết quả: qua việc phân tích sự tác động của các feature đến biến target ta loại các biến về tỉ lệ thu nhập trả nợ, thu nhập hàng tháng, do ít có ảnh hưởng đến biến target và không làm ảnh hưởng đến mô hình nghiên cứu của nhóm tác giả về khả năng vỡ nợ

- Đánh giá thực tế về kết quả đánh giá tác động tương quan giữa các biến và biến target:

+ Số lần trả nợ quá hạn ở các mức đều là mức đánh giả rủi ro tại các ngân hàng hiên nay do đó, các lần nợ xấu này ảnh hưởng đến xếp hạng tín dụng của các khách hàng tại các ngân hàng để đảm bảo rằng họ trả nợ cho ngân hàng

Trang 30

+ Độ tuổi là yếu tố cần đánh giá do độ tuổi quyết định khả năng lao động để trả các khoản nợ cho ngân hàng đảm bảo rằng độ tuổi của các cá nhân vay nợ phải nằm trong độ tuổi lao động để giảm thiểu rủi ro về khả năng chi trả cũng như rủi ro về trách nhiệm nợ nếu người đó gặp các vấn đề về sức khỏe, tính mạng

+ Tỉ lệ sử dụng tín dụng của khách hàng: theo đánh giá của các chuyên gia tài chính để đánh giá khả năng trả nợ phải phụ thuộc vào tỉ lệ này nhằm giải quyết các vấn đề về khả năng chi trả như: khách hàng có chỉ số sử dụng tín dụng cao thì họ ít có khả năng vỡ nợ, ngược lại những người ít sử dụng tín dụng sẽ dễ gây ra tình trạng không quản lí được tài chính gây ra vỡ nợ đối với khách hàng cá nhân

- Sau quá trình nghiên cứu, phần mềm ORANGE chỉ giải quyết được tốt nhất cho hầu hết các bộ dữ liệu dưới 5000 quan sát (Mô hình phân cụm tại Silhouette chỉ áp dụng đúng với các mẫu dưới 5000) do đó để đảm bảo sự chính xác của mô hình nhóm tác giả quyết định lấy ra 10% bộ dữ liệu làm bộ dữ liệu nghiên cứu chính thức của nhóm đảm bảo các yếu tố về phần mềm, số liệu khách quan, tính chính xác của mô hình đề xuất của nhóm Do đó, mấu nghiên cứu của nhóm gồm 4573 quan sát về 11 biến

- Nhóm tác giả quyết định loại các biến gây nhiễu và các outliers nhằm tạo sự chính xác ổn định cho mô hình đánh giá các kết quả do đó các biến nghiên cứu còn 4157 các quan sát để đảm bảo các giá trị cho nghiên cứu mà không bị ảnh hưởng bởi các biến gây nhiễu

2 Mô tả bộ dữ liệu

2.1 Thông tin về bộ dữ liệu

Sử dụng bộ dữ liệu “Home Credit Default Risk”, ta có 4573 mẫu và 10 biến, liên quan đến tất cả các khoản tín dụng trước đây của khách hàng do các tổ chức tài chính cung cấp Những dữ liệu ở các biến là thông tin liên quan tới tổng tiền nợ, số lần quá hạn, thu nhập, của mỗi khách hàng Từ đó có thể dự đoán khả năng thanh toán nợ của mỗi khách hàng

https://www.kaggle.com/competitions/home-credit-default-risk/data Phân tích biến:

SeriousDlqin2yrs (biến mục tiêu): người đã quá hạn 90 ngày hoặc tệ hơn

Trang 31

2.2 Phân tích biến:

SeriousDlqin2yrs (biến mục tiêu): người đã quá hạn 90 ngày hoặc tệ hơn STT Tên biến Ý nghĩa (định dạng)

1 Sử dụng quay vòng các đường dây không bảo đảm

Tổng số dư nợ và hạn mức tín dụng cá nhân ngoại trừ những trường hợp ngoại lệ như bất động sản và không có nợ trả góp như khoản vay mua ô tô chia cho tổng hạn mức tín dụng (numeric)

2 Độ tuổi Tuổi của người vay tính bằng năm (numeric) 3 Số thời gian quá hạn

Số lần người vay quá hạn 90 ngày trở lên (numeric) 8 Số khoản cho vay nợ

bất động sản Số lượng các khoản cho vay thế chấp và bất động sản bao gồm của hạn mức tín dụng thế chấp nhà (numeric)

9 Số thời gian quá hạn 60-89 Ngày

Số lần người vay quá hạn 60 đến 89 ngày nhưng xảy ra rất ít trong 2 năm qua (numeric)

10 Người bảo lãnh các

khoản vay Phụ thuộc trong gia đình không bao gồm chính họ (vợ/chồng, con cái, ) (numeric)

Bảng 4 Phân tích ý nghĩa các biến

2.3 Mục tiêu phân tích

Từ bộ dữ liệu “Home Credit Default Risk Dataset” ta có thể phân tích, dự báo xem liệu khách hàng có gặp khó khăn trong việc thanh toán đúng hạn hay không, từ đó rút ra kết luận và hướng phát triển

Thống kê mô tả các dữ liệu

Sử dụng quay vòng các đường dây không đảm bảo

Trang 32

Biểu đồ 1 Sử dụng vòng quay các đường dây không đảm bảo

Biểu đồ cột cho thấy việc sử dụng đáo hạn vòng quay các đường dây không đảm bảo thường xuyên chiếm một phần lớn đối tượng khảo sát cụ thể là 2484 (54.3%) trên tổng số 4573 đối tượng khảo sát Việc sử dụng đáo hạn không thường xuyên chiếm 1790 (39.2), còn lại đối tượng không sử dụng đáo hạn vòng quay chỉ chiếm một phần nhỏ là 299 (6.5%)

Độ tuổi

Biểu đồ 2 Độ tuổi khách hàng

Từ bộ dữ liệu “Home Credit Default Risk” thống kê thông tin của 4573 đối tượng thông qua quá trình khảo sát đã thực hiện, ta thấy nhóm đối tượng khách hàng được khảo sát trong độ tuổi từ 41 tuổi đến 50 tuổi chiếm 25% (1161 người) Còn ở nhóm tuổi trên 81 chỉ chiếm 3% (115 người) trên tổng số đối tượng khảo sát

Trang 33

− Số lần quá hạn trong quá khứ

Số thời gian quá hạn 30-59 Ngày

Theo bộ dữ liệu, số lần quá hạn 30 đến 59 ngày nhưng ít xảy ra trong 2 năm vừa qua được liệt kê như sau:

・3613 đối tượng không có số lần quá hạn 30 đến 59 ngày chiếm 79% trên tổng đối tượng

・598 đối tượng có 1 lần quá hạn chiếm 13,1% trên tổng đối tượng ・190 đối tượng có 2 lần quá hạn chiếm 4,2% trên tổng đối tượng ・88 đối tượng có 3 lần quá hạn chiếm 1,9% trên tổng đối tượng ・50 đối tượng có 4 lần quá hạn chiếm 1,1% trên tổng đối tượng ・17 đối tượng có 5 lần quá hạn chiếm 0,3%trên tổng đối tượng

・13 đối tượng có từ 6 đến 8 lần quá hạn chiếm 0,3% trên tổng đối tượng ・4 đối tượng có 98 lần quá hạn chiếm 0,1% trên tổng đối tượng

Số thời gian quá hạn 60-89 Ngày

Theo thống kê có 4545 đối tượng có số lần quá hạn 60 đến 89 ngày nhưng ít xảy ra trong 2 năm vừa qua từ 0 đến 3 lần (chiếm 99,4%) và 28 đối tượng còn lại có 4 đến 6 lần quá hạn (chiếm 0,6%)

Số lần trễ 90 ngày trở lên

Theo thống kê có 4554 đối tượng có số lần trễ hạn 90 ngày trở lên từ 0 đến 5 lần (chiếm 99,6%), 15 đối tượng có 6 đến 11 số lần (chiếm 0,3%) và có 4 đối tượng có 98 lần trễ hạn (chiếm 0,1%)

Trang 34

Tỉ lệ nợ

Biểu đồ 3 Tỉ lệ nợ

Quan sát biểu đồ cột ta thấy, tỉ lệ thu nhập dành cho việc trả nợ cao nhất ở nhóm người từ 31-40 tuổi và từ 51-60 tuổi là 0.4 Nhóm người từ 21-30 tuổi và từ 71-80 tuổi có tỉ lệ trả nợ trên thu nhập thấp nhất là 0.36 Vậy nên ta thấy được khoảng cách giữa 2 tỉ lệ thấp nhất và cao nhất không chênh lệch nhiều

− Thu nhập trung bình và số lượng mở thẻ tín dụng và các khoản vay

Biểu đồ 4 Thu nhập trung bình và số lần mở thẻ tín dụng

Thu nhập từ 0 đến 5000 có 2126 đối tượng (chiếm 46,5%) chủ yếu là những đối tượng có số lần quá hạn từ 30 đến 59 ngày từ 0 đến 4 lần

Thu nhập từ 5001 đến 10000 có 1775 đối tượng (chiếm 38,8%) chủ yếu là những đối tượng có số lần quá hạn từ 30 đến 59 ngày từ 0 đến 5 lần

Trang 35

Thu nhập từ 10001 đến 15000 có 490 đối tượng (chiếm 10,7%) chủ yếu là những đối tượng có số lần quá hạn từ 30 đến 59 ngày từ 0 đến 4 lần

Thu nhập từ 15001 đến 20000 có 113 đối tượng (chiếm 2,5%) chủ yếu là những đối tượng có số lần quá hạn từ 30 đến 59 ngày từ 0 đến 3 lần

Thu nhập từ 20001 đến 25000 có 34 đối tượng (chiếm 0,7%) chủ yếu là những đối tượng có số lần quá hạn từ 30 đến 59 ngày từ 0 đến 2 lần

Thu nhập từ 25001 trở lên có 35 đối tượng (chiếm 0,8%) chủ yếu là những đối tượng có số lần quá hạn từ 30 đến 59 ngày từ 0 đến 1 lần

Kết quả của thống kê mô tả, ta thấy được chủ yếu nhóm đối tượng khảo sát có thu nhập cao từ mức 6000 trở lên tập trung phần lớn ở độ tuổi từ 41 đến 70 tuổi, nhóm đối người từ 21-30 tuổi là những người có thu nhập thấp nhất với hơn 3000 và nhóm tuổi còn lại có mức thu nhập khá cao Tuy nhiên, nhóm đối tượng có tỉ lệ sử dụng tín dụng cao nhất lại từ 21-30 tuổi là 0.54 và nhóm sử dụng tín dụng thấp nhất từ 81 tuổi trở lên là 0.39

− Số lượng cho vay nợ bất động sản

Biểu đồ 5 Số lượng vay bất động sản

Biểu đồ cho thấy tỉ lệ vay để đầu tư các hoạt động bất động sản vẫn ở mức cao chiếm 64% trong tổng số 4573 đối tượng khảo sát Còn lại tỉ lệ vay không để đầu tư bất động sản chỉ chiếm 36%

− Người bảo lãnh các khoản vay

Trang 36

Biểu đồ 6 Người bảo lãnh các khoản vay

Số lượng người không được bảo lãnh khi thực hiện vay tín dụng chiếm số lượng lớn là 2421 (53%) trên tổng số 4573 đối tượng nghiên cứu Các đối tượng được bảo lãnh từ 1 người đến 3 người chiếm 2017 (44%) Còn lại các đối tượng được bảo lãnh nhiều hơn 3 người chiếm chưa đến 3% số đối tượng nghiên cứu

3 Phân lớp dữ liệu

Hình 12 Mô tả cách phân lớp dữ liệu

❖ Các phương pháp phân lớp dữ liệu được giới thiệu

• Hồi quy logistic (Logistic Regression)

Trang 37

• Cây quyết định (Decision Tree)

• SVM (Support Vector Machines) • Mạng Nơ Ron nhân tạo (Neural Network)

3.1 Kết quả mô hình khi sử dụng mô hình

Bởi vì các dữ liệu sau khi lấy mẫu đã đạt chuẩn, không có dữ liệu bị lỗi nên sẽ bỏ qua bước tiền xử lý dữ liệu

Sử dụng Test and Score để so sánh đánh giá các thuật toán Để lựa chọn thuật toán tốt nhất, chính xác nhất phục vụ cho việc dự xáo

Hình 14 Mô hình phân lớp thực hiện bằng ExcelHình 13 Các mô hình phân lớp

Ngày đăng: 14/08/2024, 16:14

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

  • Đang cập nhật ...

TÀI LIỆU LIÊN QUAN

w