1. Trang chủ
  2. » Luận Văn - Báo Cáo

phân tích và dự đoán chiến lược marketing của các tổ chức tài chính trong việc thu hút khách hàng đăng ký tiền gửi có kỳ hạn bằng phần mềm orange

32 0 0
Tài liệu được quét OCR, nội dung có thể không chính xác
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Phân tích và dự đoán chiến lược marketing của các tổ chức tài chính trong việc thu hút khách hàng đăng ký tiền gửi có kỳ hạn bằng phần mềm Orange
Tác giả Ngô Dương Tuấn, Lê Trần Thu Hiền, Phan Trần Phương Trinh, Nguyễn Vũ Quỳnh Phương
Người hướng dẫn TS. Đặng Ngọc Hồng Thành
Trường học Đại học UEH
Chuyên ngành Khoa học dữ liệu
Thể loại Đồ án môn học
Năm xuất bản 2021
Thành phố TP. Hồ Chí Minh
Định dạng
Số trang 32
Dung lượng 6,68 MB

Nội dung

Minh họa thuật toán phân lớp Hổi quy Logistic Logistic Regression Minh họa thuật toán phân lớp cây quyết định Decision tree Minh họa thuật toán phân lớp Support Vector Machine SVM Minh

Trang 1

ĐẠI HỌC UEH TRƯỜNG KINH DOANH _

KHOA TAI CHESANH - NGAN HANG UEH

UNIVERSITY

ĐỒ ÁN MÔN HỌC

ĐỀ TÀI

“PHAN TICH VA DU DOAN CHIEN LUOC MARKETING CUA CAC

TO CHUC TAI CHINH TRONG VIEC THU HUT KHACH HANG

DANG KY TIEN GUI CO KY HAN BANG PHAN MEM ORANGE”

Học phần: Khoa học dữ liệu

Nhóm sinh viên:

3 Phan Trần Phương Trinh - 31191024508

4 Nguyễn Vũ Quỳnh Phương - 31191023815 Chuyên ngành: Tài chính

Khóa : KhšÃa 45

Giảng viên: TS Đặng Ngọc Hoàng Thành TP.Hồ Chí Minh, Ngày 09 tháng 12 năm 2021

Trang 2

MỤC LỤC DANH MỤC HÌNH - 6 St 11H HT T1HH1 HH Tá HH TH TH tru 2 CHƯƠNG 1: TONG QUAN -2222212222200201110.21.111 1 ee 3

1.1 Tổng quan về bài tốn phân lớp dữ liệu - 2© :++EE£EecEectczxec 3

1.2 Giới thiệu về Python và phần mềm Orange eseseeseseseseees 3 1.3 Lý do chọn lựa để tài - 5-5 5c TH 1H TH TH HH TH HH tiêu 4

CHUONG 2: CÁC MƠ HÌNH PHÂN LỚP DỮ LIỆU - ¿sex cxe£ 6

2.1 Các mơ hình phân lớp dữ liệu - (6 St t2 kg eo 6

2.1.1 Mơ hình Logistic Đ©QT€SSỈOH HH HH HH HH kg HH HH kg, 6

PP MA jg nh 7 2.1.3 Mơ hình Support Vector Machine (SVM|) «c1 1111411121 x m2 8 2.1.4 Mơ hình Neurdl NGfWOFĂ HH HH HH Hà HH nà HH kg HH ke 8

2.3 Phương pháp đánh giá tính hiệu quả của các mơ hình phân lớp 13

2.3.1 Ma trận nhầm lẫn (Confusion mdtrix) -ccccc Si tk ray 13

2.3.2 Accuracy (DO CHIN 6.0 n6 n6 aaaỪ 15

2.3.3 Precision, Recall, ['Í—SCOF© HH Hà HH HH HH gà 15

QA, ROC VE AUC 17

2.3.9 Cross Validation: Flold-out và K-ƒỌỦ Sex HH re 18

CHƯƠNG 3: CÁC KẾT QUẢ THỰC NGHIỆM -22-22 2222222222225 20

3.2 Các kết quả thực nghiệm - 5£ S565 SE S121 321311111111 10121 crrey 21 3.3 Phân tích và đánh giá TH HH HH HH HH HH hh 24

CHƯƠNG 4: KẾT LUẬN -22222222222+c22cvc + 12122222211111111111212021111222222212121 Xe 27

Al Các kết quả đạt đưỢC 2c S21 112111121511 121 11 11 1 T11 1g nêu 27

4.2 Hạn chế và hướng phát triỂn - 2-5 SH HH HH HH ng gycyệc 28 TÀI LIỆU THAM KHẢO ©+©++++++++tE111112E171111111111111121121212212212771711212 xe I

Trang 3

Minh họa thuật toán phân lớp Hổi quy Logistic (Logistic Regression)

Minh họa thuật toán phân lớp cây quyết định (Decision tree) Minh họa thuật toán phân lớp Support Vector Machine (SVM)

Minh họa thuật toán phân lớp Neural Network

Minh họa quy trinh phân lớp dữ liệu

Bước 1 của quá trinh trinh phân lớp: Xây dựng mô hinh phân lớp

Bước 2.1 của quá trinh trinh phân lớp: Đánh giá mô hinh

Bước 2.2 của quá trinh trinh phân lớp: Phân lớp dữ liệu mới

Minh họa phương pháp ma trận nhầm lẫn (Confusion matrix) Hinh 2.10: Minh họa phương pháp Precision, Recall, F1—score

Hinh 2.11: Minh họa phương pháp ROC (Receiver Operating Characteristic) Hinh 2.12: Minh họa phương pháp AUC (Area Under the Curve)

Hinh 2.13: Minh họa phương pháp K-fold cross validation

Minh họa mô tả thống kê các thuộc tính trong bộ dữ liệu

Khai báo thuộc tính cho các biến trong bộ dữ liệu huấn luyện

Mô tả tổng quan quá trinh huấn luyện vào dự báo

Kết quả đánh giá mô hinh bằng phương pháp K-fold

Đánh giá mô hinh lớp thông qua Ma trận nhầm lẫn

Khai báo thuộc tính cho các biến trong bộ dữ liệu dự báo

Kết quả dự báo của 20 khách hàng đầu tiên

Chỉ số Neural Network của 20 khách hàng đầu tiên

Trang 4

3

CHƯƠNG 1: TỔNG QUAN

1.1 Tổng quan về bài toán phân lớp dữ liệu

Phân lớp dữ liệu là quá trinh phân chia một quan sát dữ liệu vào một hoặc nhỉ uêo ¡đã chotr tướ awàom t#Ðô hinh phân l pổãd tây d natr trđïÃ

và đã được gán nhãn Đây một kĩ thuật hay một hinh thức được giám sát dựa trên tập dữ liệu huấn luyện và những giá trị hay là nhãn của lớp trong một thuộc tính phân lớp và dữ liệu mới sẽ được phân lớp dựa trên tập huấn luyện Quá trinh gán nhãn (thuộc loại lớp nào) cho đối tượng dữ liệu chính là quá trinh phân lớp dữ liệu Nhiệm vụ của bài toán phân lớp là phân các đối tượng dữ liệu vào n lớp cho

trước: thuộc về phân lớp nhị phân nếu n ó 2 và phân lớp đa lớp nếu n > 2 Nếu mỗi

đối tượng dữ liệu chỉ thuộc vào 1 lớp duy nhất là phân lớp đơn nhãn và phân lớp đa nhãn nếu thuộc về nhiều lớp khác nhau

Ứng dụng của phân lớp dữ liệu được sử dụng rộng rãi trong nhiều lĩnh vực

và ngành nghề khác nhau như:

¢ Công nghệ: côngngh AŸ,nh nậi nệhuônm tặh nậ nạgi ngniRAi, phân lớp tim ra email spam

e© Tài chính ngân hàng: dự báo giá chứng khoán, xếp hạng tín dụng cá

nhân và tổ chức, đánh giá rủi ro tài chinh,

® - Sales & Marketing: dự báo doanh thu, dự báo khách hàng trung thành,

© - Kinh tế học: dự báo khủng hoảng kinh tế, dự báo cung cầu

1.2 Giới thiệu về Python và phần mềm Orange

Python là ngôn ngữ lập trinh hướng đối tượng được tạo ra bởi Guido van

Rossum và được phát hành vào năm 1991 Với các tính năng nổi bật, dễ dàng sử dụng và tim hiểu, Python dần trở thành một trong những ngôn ngữ lập trinh tốt nhất Python hoàn toàn tạo kiểu động và sử dụng cơ chế cấp phát bộ nhớ tự động Với cách tiếp cận đơn giản cùng với sự mạnh mẽ trong cấu trúc dữ liệu cấp cao, Python trở nên hiệu quả cho mọi đối tượng nhất là những người lần dầu tiếp xúc ngônng lũpậïinh Cú pháp! niệc a Èython c3WÃ sự rõ ràng, dễ hiểu và linh động để

Trang 5

4 viết script và phát triển trong nhiều lĩnh vực trong mọi nền tảng trở thành điểm cộng lớn

Orange là phần mềm tích hợp các công cụ khai phá dữ liệu mã nguồn mở và

học máy thông minh, đơn giản, được lập trinh bằng Python với giao diện trực quan

và tương tác dễ dàng Với nhiều chức năng, không cần viết bất kỳ dòng nào mà

phần mềm này cũng cà thể phân tích được những dữ liệu từ đơn giản đến phức tạp, tạo ra những đồ họa đẹp mắt và thú vị Cùng với khả năng hiển thị tốt các danh sách mô hinh và nhiều kỹ thuật đánh giá, phần mềm giúp khai thác dữ liệu và học máy trở nên dễ dàng hơn cho cả người dùng mới và chuyên gia

1.3 Lý do chọn lựa đề tài

Như mọi người đã biết, từ xưa đến nay, các tổ chức tài chính/ngân hàng luôn làm t Gong nh né@linh v cự#Ã hệ thống thông tin rất rộng lớn và đa dạng Do dữ liệu này luôn được cập nhật liên tục theo từng giao dịch trong ngày nên đã dẫn đến tỉnh trạng quá tải khiến cho các nhà quản lý mất kiểm soát trong việc xử lý chúng

T yA, khai pha dir liéu (Data Mining) đã được đưa vào sử dụng như một công cụ trich xu t, ch@y n hig@Aa cdc thong tint cict p@ lituéhd c3Wà sẵn thành các thông tin quan tr ng vỳcàXà ý nghĩa, giúp cáct cỗ cứ3§Ã thể dựa vào và đưa ra những quyết định tốt hơn

Trong các kỹ thuật của khai phá dữ liệu như khai thác tập phổ biến và luật kết hợp, phân cụm dữ liệu, thi phân lớp dữ liệu thường được sử dụng để khai thác các tập dữ liệu lớn nhằm cải thiện việc phân khúc thị trường của các tổ chức tài chính, ngân hàng Bằng cách phân tích mối quan hệ giữa các biến số như độ tuổi khách hàng, giới tính, t đWÃ sẽ xây dựng lên một mô hinh dự đoán để đo lường mức độ phản hồi của khách hàng đối với các dịch vụ và sản phẩm mà họ quan tâm

D atWào các thông tin trên,b gậi nậnarketing c adigân hàng s zxấc d nhinh}gAm khách hàng tiềm năng cho các sản phẩm mới và tạo ra một chiến lược phát triển phù hợp hơn trong tương lai Với cách can thiệp của kỹ thuật này sẽ giúp cho các doanh nghiệp tăng doanh thu, tiết kiệm được một phần chỉ phí và cải thiện, duy tri mối quan hệ lâu dài với khách hàng

Trang 6

Từ những lợi ích mà “Phân lớp dữ liệu” (Classification) đã mang lại trong quá

trinh lên các chiến lược Marketing tại các tổ chức tài chính như đã nêu ở phía trên,

chúng tôi quyết định đưa kỹ thuật này làm phương pháp nghiên cứu chính của bài Dựa vào cơ sở lý thuyết của bài toán phân lớp dữ liệu chúng tôi sẽ ứng dụng để xây dựng mô hinh dự đoán của tập dữ liệu được thu thập từ Kho lưu trữ học máy

UCI (UCI Machine Learning Repository) của một tổ chức tài chính đã sử dụng trung

tâm liên lạc của riêng minh để thực hiện các chiến dịch tiếp thị trực tiếp nhằm thúc

d yẩà thu hút khách hàng choch motrinh tỉ nề ¡ đà kỳ hạn của họ để nâng cao hoạt động kinh doanh Mục đích của bài nghiên nhằm đưa ra gợi ý cần thiết cho các

t ch cth cbi né@hi nd@ chiti péh vid dể dgánli uệhách hàng c7#Ã đăng ký một

kho nổi nệ ¡ ởWÃ kỳ hạn (biến y) hay không với sự trợ giúp của một tập hợp các

bi néh th céh t &nhi Do đặýÃ, chúng tôi quyết định chọn “Phân tích và dự đoán chiến lược Marketing của các tổ chức tài chính trong việc thu hút khách hàng đăng ký tiền gửi có kỳ hạn bằng phần mềm Orange” làm tên đề tài nghiên cứu

Trang 7

CHƯƠNG 2: CAC MÔ HINH PHAN LOP DU LIEU

2.1 Cac mé hinh phân lớp dữ liệu

.1.1 Mô hình Logistic Regression

Hồi quy Logistic là một kỹ thuật thống kê để các giá trị đầu ra rồi rạc được

dự báo thông qua một tập các giá trị đầu vào Thuật toán này sử dụng các hàm được

gọi là hàm logit, được biểu diễn dưới dạng vector, bằng cách dự đoán xác suất

hoặc cơ hội xảy ra giúp suy ra mối quan hệ giữa biến phụ thuộc và các biến độc lập Mô hinh này sử dụng thuật toán đơn giản, dễ thực hiện, dễ giải thích nên được các nhà phân tích dữ liệu và các nhà khoa học sử dụng rộng rãi, đặc biệt là trong các

bài toán phân loại nhị phân

CMA 3 dạng hồi quy Logistic:

° H iquyÖogistic nh phani Bi n phé thu ự ch Ñ3#Ä hai 2k tấn /ä pớjÄÄ thể xảy ra

° H ¡ âuy logistic đath cúBi nệh thu coh cHRA hai hoặc 3 kết quả /

1 ptr dén GRA th cổ#Ä mà thứ tự được xếp ngẫu nhiên

° H i Quy logistic théng th mờ Bi nệh thu coh c3fRA hai hoặc nhiều

h n3kơt qu ếl ñcjXAth cổyA được xếp theo đúng thứ tự

Trang 8

So 9 ŒŒ%

Hình 2.1: Minh họa thuật toán phan I6p H6i quy Logistic (Logistic Regression)

(Ngu6n: ANALYTICS VIDHYA Understanding Logistic Regression)

2.1.2 M6 hinh Decision Tree

Trong lý thuyết quản trị, cây quyết định là một đồ thị của các quyết định cùng các k tqu điấèmảjšÃth c a@ÿ8à vàlàm tô ngủ cặi tệ aủ uấúc cây NHSà được sử dụng để xây dựng một kế hoạch nhằm đạt được mục tiêu mong muốn cũng như hỗ trợ quá trinh ra quyết định

Trong lĩnh vực khai phá dữ liệu, đây được xem là sự kết hợp hoàn hảo của 2 khía cạnh: kỹ thuật toán học và tính toán nhằm hỗ trợ cho việc mô tả, phân loại và

t ng qđát hjŸÃat pậ lữuậ uâào Khi đ#Ä, cây quyết định mô tả một cấu trúc cây, trong đàNÃ, các lá đại diện cho các phân loại còn cành đại diện cho các kết hợp của các thu cộnhd nã ¡ ghânlo ¡ đầXÃ

M tộpã Iữuệ3šÃ thế được biểu diễn bởi nhiều cây quyết định tương ứng Cuối cùng, cây nào ngắn gọn nhất sẽ được lựa chọn (theo nguyên lý Ockham's

Trang 9

Hình 2.2: Minh họa thuật tốn phân lớp cây quyết định (Decision tree)

(Nguồn: help.sap Decision Tree Expression) 2.1.3 M6 hinh Support Vector Machine (SVM)

SVM lam t thu t adn cHRA giám sát, là phương pháp học sử dụng khơng gian giả thuyết các hàm tuyến tính trên khơng gian đặc trưng nhiều chiều, dựa trên lý thuyết tối ưu và lý thuyết thống kê SVM nhận dữ liệu vào, xem chúng như những

các vector trong khơng gian và phân loại chúng vào các lớp khác nhau bằng cách xây

dựng một siêu phẳng trong khơng gian nhiều chiều làm mặt phân cách các lớp dữ luệÐ tổiốuw tấu phân I pớhi ph ¡ đác đ nhị siêu ph ng (hyperplane) cA kho n&cdch d n@dc di méd lfrué@margin)c ah t@ cacl pé@anh t GRA thể Khi gidtr 1 cänl nthiớais t ngqđthj#Ãac aÄ tu tRhânlo i@àng bé.T đầWÃ sẽ hạn chế được việc phân lớp sai đối với điểm dữ liệu mới đưa vào

SVM c3WÃ nhiều biến thể như Hard Margin SVM, Soft Margin SVM, Multi-

class SVM, dé tích hợp với nhiều bài tốn phân lớp Các biến thể này giúp tiết

ki mệb rà ,lnh ho tạàs drngid tữ@ong khơng gian đa chỉ u/êuy nhiên, nà vẫn sẽ cho kết quả dự báo khơng tốt nếu số chiều dữ liệu lớn

Trang 10

Hình 2.3: Minh họa thuật toán phân lớp Support Vector Machine (SVM)

(Nguồn: Ông Xuân Hồng (2015) Support vector machine (SVM) hỏi gì đáp nấy)

2.1.4 M6 hinh Neural Network

Mạng Nơ ron nhân tạo (hay Neural Network) là mạng sử dụng một loạt các

thuật toán phức tạp nhằm xác định, xử lý thông tin và tỉm ra các mối quan hệ cơ bản tiềm ẩn trong bộ dữ liệu Lấy cảm hứng từ mô hinh hoạt động của các tế bảo thần kinh và khớp thần kinh trong não của con người, Neural Network là sự kết nối các nút đơn giản, còn được gợi là tế bào thần kinh Và một tập hợp các nút như vậy

t odhanhm tm nal — Iớc nút NäNá cách khác, đây được xem là hệ thống của các

t bấoth nẩ¡inh nhânt o,x3XÃ thể là hữu cơ hoặc nhân tạo về bản chất

Thu t an nay cA kha năng thích ứng được với mọi thay đổi từ dữ liệu đầu vào và ad ượi ¡ib ti cỗính xác nh tiãà c3WÃ thể giữ nguyên những tiêu chí đầu ra

Khái niệm này xuất phát từ trí tuệ nhân tạo và được sử dụng rộng rãi từ khi c3#Ä những hệ thống giao dịch ngày càng phát triển Mạng nơ ron nhân tạo sử dụng mạng đa tầng và mỗi một mạng nơ ron thường bao gồm ba tầng (lớp tế bào thần

Trang 11

10

° Tầng ẩn (hidden layer): nằm ở giữa tầng vào và tầng ra, thể hiện cho

quá trinh tư duy logic của mạng

Đặc biệt, m ¡ ỗ th nan rơn nhân t o—h cẳŸ#Ä duy nhất một tầng vào và một

t ngra@nh ngl wes th cẩýÃ rất nhiều tầng ẩn

Hidden

Output(s)

Hình 2.4: Minh họa thuật toán phân lớp Neural Network

(Nguồn: Innoarchitech AI, Deep Learning, and Neural Networks Explained)

Mô hinh Neural Network cho phép xây d ngrm t Âô hinh tính toán c3XÃ khả năng học dữ liệu rất cao N3#Ä c3RÄ thể là một hộp đen chứa nhiều đầu vào và nhiều

đ uẩ c3ŸÃ khả năng học được sự liên kết tiềm ẩn giữa 2 bộ dữ liệu: đầu vào và đầu

ra dựa trên dữ liệu được học Tuy c3#Ã khả năng mô phỏng dữ liệu mẫu rất tốt, nhưng phương pháp này lại phụ thuộc phân lớn vào kinh nghiệm của người thực

hi nệhi ch nọ dộ lữuậu nấy nệšïà thông số phù hợp cho mạng huấn luyện hội

t hay không và cũng không cWÃ cách tổng quát để đánh giá hoạt động thực sự bên trong mạng

Neural Network hiện nay được ứng dụng phổ biến trong nhiều lĩnh vực như

tài chính, giao dịch, phân tích kinh doanh, lập kế hoạch cho doanh nghiệp và bảo tri

sản phẩm; các hoạt động kinh doanh khác như: tim kiếm các giải pháp nhằm nghiên cứu Marketing, đánh giá rủi ro và phát hiện gian lận; Sử dụng nhiều trong lĩnh vực công ngh và các nạ†d ngkhácnh tròch ¡đi nệ, th na n@gi n@niRAi, loc

Trang 12

2.2 _ Quá trình phân lớp dữ liệu

Quá trình phân lớp dữ liệu

Thuật toán phân Kết quả phân lớp dùng để

lớp đánh giá mô hình luyện

Dữ liệu kiếm thử Mô hình

Hình 2.5: Minh họa quy trình phân lớp dữ liệu

(Nguồn: Slide bài giẳng Phân lớp dữ liệu của TS Đặng Ngọc Hoàng Thành) Quá trinh phân lớp dữ liệu gồm hai bước chính:

®_ Bước 1: Xây dựng mô hình (hay giai đoạn “học” hoặc “huấn luyện”)

Qua trinh hu néuy n@h maxayd nam tméhinh mot mtOpa lirué naa Đầu vào của quá trinh này là một tập dữ liệu mẫu đã được gán nhãn và tiền xử lý, mỗi phần tử dữ liệu được giả định thuộc về một lớp phân trước, lớp ở đây là giá trị của một thuộc tính được chọn làm thuộc tính gán nhãn hay thuộc tính phân lớp

M iỗ gãữuư dị ug ¡ dung làm tựh nầ dử lữu,&3Ěà thể là các mẫu, ví dụ, đối

tượng, hay trường hợp Kết quả của bước này là mô hinh phân lớp đã được huấn

luyện Quá trinh này được mô tả ở hinh 2.6

Trang 13

35 Minivan | Low ifage <31

= — T or Car Type =Sports

40 Combi Low then Risk = High

Hình 2.6: Bước 1 của quá trình trình phân lớp: Xây dựng mô hình phân lớp (Nguồn: Slide bài giẳng Phân lớp dữ liệu của TS Đặng Ngọc Hoàng Thành) )

« _ Bước 2: Sử dụng mô hình, được chia thành 2 bước nhỏ:

* Bước 2.1: Đánh giá mô hinh (kiểm tra tính đúng đắn của mô hinh)

Đầu vào là một tập dữ liệu mẫu được chọn ngẫu nhiên và độc lập với các mẫu trong tập dữ liệu huấn luyện, cũng đã được gán nhãn và tiền xử lý Tuy nhiên thuộc tính đã được gán nhãn này bị “lờ” khi được đưa vào mô hinh tiến hành phân

lớp

Bằng cách so sánh thuộc tính gán nhãn của dữ liệu đầu vào và kết quả phân

lớp từ mô hinh, ta dễ dàng xác định được tính đúng đắn của mô hinh Holdout là

một kỹ thuật đơn giản để ước lượng tính đúng đắn này dựa trên tỷ lệ phần trăm

các các mẫu trong tập dữ liệu dự báo được mô hinh phân lớp đúng (so với thực tế) Kết quả của bước này là mô hinh sẽ được sử dụng để phân lóp những dữ liệu cần thiết trong tương lai, hoặc những dữ liệu mà giá trị của thuộc tính phân lớp là chưa

bi tế uế ainô hinh phùh p@à c3WÃ độ chính xác cao

Trang 14

KếƑ quả phân lớp

oa =

1 Risk_ |\

High Low Low High

s* Bước 2.2: Phân lớp dữ liệu mới

Ở bước này, dữ liệu đầu vào là dữ liệu “khuyết? thuộc tính cần dự đoán lớp (nhãn) Mô hinh sẽ tự động phân lớp (gán nhãn) cho các đối tượng dữ liệu này dựa

vào những gi được huấn luyện ở bước 1 Tính đúng đắn của mô hinh sẽ được xác

định bằng cách so sánh thuộc tính gán nhãn của dữ liệu đầu vào và kết quả phân lớp của mô hinh

Trang 15

Age Car Type Risk

Hình 2.8: Bước 2.2 của quá trình trình phân lớp: Phân lớp dữ liệu mới

(Nguồn: Slide bài giẳng Phân lớp dữ liệu của TS Đặng Ngọc Hoàng Thành)

T_ đầý5 chúng ta c3WÃ thể thấy rằng để xây dựng và sử dụng mô hinh chúng ta cần phải chuẩn bị dữ liệu hợp lý: Làm sạch các dữ liệu với các giá trị bị khuyết và

gây nhiễu trong quá trinh phân tích, phân tích sự liên quan và cuối cùng là biến đổi

dữ liệu sao cho phù hợp trong quá trinh phân tích và nghiên cứu để giải quyết được

vấn đề được nêu

2.3 Phương pháp đánh giá tính hiệu quả của các mô hình phân lớp

Là các phương pháp nhằm kiểm tra tính hiệu quả của mô hinh phân lớp trên

d li uc3ÿÄữi ệthù c ặth ,t UGB guy td nếc3§ÃÄ s dirngimé hinh dA hay không MỆ

mô hinh lý tưởng là một mô hinh không quá đơn giản, không quá phức tạp và không

quá nhạy cảm với nhiễu (tránh underfitting và overfitting) Ngoài thực tế mô hinh

tốt là mô hinh cho kết quả hợp lý một cách chấp nhận được trên dữ liệu mẫu lẫn

dữ liệu mới

Tính hiệu quả của một mô hinh phân lớp được đánh giá dựa trên các chỉ số

như ma trận nhầm lẫn (Confusion Matrix), Hold-out, F1-score, Do mỗi phương

pháp s cÑýAÃ bản chất, cách thực hiện cũng như mức độ chính xác khác nhau nên tùy vào bài toán mà ta sẽ chọn ra phương pháp đánh giá hiệu quả nhất

2.3.1 Mua trận nhầm lẫn (Confusion matrix)

Trang 16

15

Một confusion matrix sẽ cho chúng ta thấy nơi mà mô hinh đang bị nhầm lẫn

Cụ thể hơn, ma trận nhầm lẫn sẽ cho chúng ta thấy những danh mục nào mà mô

hinh dự đoán chính xác và những danh mục nào mô hinh dự đoán sai Đối với các dự

đoán không chính xác, chúng ta cðWÃ thể xem mô hinh đã dự đoán những danh mục nào trong bộ cơ sở dữ liệu và điều này sẽ cho chúng ta biết danh mục nào đang gây

nh mA nãho mô hinhd cổyà thể kịp thời xử lý và đưa ra những chỉnh sửa hợp lý

Ph_ m@pháp này là cðWÃ kích thước k x k với k là số lượng lớp của dữ liệu Phương pháp đánh giá kết quả của những bài toán phân loại với việc xem xét cả

những chỉ số về độ chính xác và độ bao quát của các dự đoán cho từng lớp Đây còn

là một trong những phương pháp đánh giá mô hinh phân loại quan trọng và phổ biến

nhất và ngoài ra, đây cũng là cơ sở cho những phương pháp đánh giá tương tự

Hình 2.9: Minh họa phương pháp ma trận nhầm lẫn (Confusion matrix)

(Nguồn: Sang Hà Ngọc (2021) Confusion Matrix/Ma trận nhầm lẫn/Ma trận lỗi)

Giả sử lớp A là lớp tích cực và lớp B là lớp tiêu cực Dựa vào hinh 2.9 ta sẽ

cùng nhau phân tích các thuật ngữ chính của ma trận nhầm lẫn như sau:

e _ Tích cực thực sự (TP) : Dự đoán lớp tích cực là tích cực

e _ Tích cực giả (FP) : Dự đoán lớp phủ định là tích cực

e Phu dinh gia (FN) : Duy đoán lớp tích cực là tiêu cực

Ngày đăng: 22/08/2024, 21:41

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w