Minh họa thuật toán phân lớp Hổi quy Logistic Logistic Regression Minh họa thuật toán phân lớp cây quyết định Decision tree Minh họa thuật toán phân lớp Support Vector Machine SVM Minh
Trang 1ĐẠI HỌC UEH TRƯỜNG KINH DOANH _
KHOA TAI CHESANH - NGAN HANG UEH
UNIVERSITY
ĐỒ ÁN MÔN HỌC
ĐỀ TÀI
“PHAN TICH VA DU DOAN CHIEN LUOC MARKETING CUA CAC
TO CHUC TAI CHINH TRONG VIEC THU HUT KHACH HANG
DANG KY TIEN GUI CO KY HAN BANG PHAN MEM ORANGE”
Học phần: Khoa học dữ liệu
Nhóm sinh viên:
3 Phan Trần Phương Trinh - 31191024508
4 Nguyễn Vũ Quỳnh Phương - 31191023815 Chuyên ngành: Tài chính
Khóa : KhšÃa 45
Giảng viên: TS Đặng Ngọc Hoàng Thành TP.Hồ Chí Minh, Ngày 09 tháng 12 năm 2021
Trang 2MỤC LỤC DANH MỤC HÌNH - 6 St 11H HT T1HH1 HH Tá HH TH TH tru 2 CHƯƠNG 1: TONG QUAN -2222212222200201110.21.111 1 ee 3
1.1 Tổng quan về bài tốn phân lớp dữ liệu - 2© :++EE£EecEectczxec 3
1.2 Giới thiệu về Python và phần mềm Orange eseseeseseseseees 3 1.3 Lý do chọn lựa để tài - 5-5 5c TH 1H TH TH HH TH HH tiêu 4
CHUONG 2: CÁC MƠ HÌNH PHÂN LỚP DỮ LIỆU - ¿sex cxe£ 6
2.1 Các mơ hình phân lớp dữ liệu - (6 St t2 kg eo 6
2.1.1 Mơ hình Logistic Đ©QT€SSỈOH HH HH HH HH kg HH HH kg, 6
PP MA jg nh 7 2.1.3 Mơ hình Support Vector Machine (SVM|) «c1 1111411121 x m2 8 2.1.4 Mơ hình Neurdl NGfWOFĂ HH HH HH Hà HH nà HH kg HH ke 8
2.3 Phương pháp đánh giá tính hiệu quả của các mơ hình phân lớp 13
2.3.1 Ma trận nhầm lẫn (Confusion mdtrix) -ccccc Si tk ray 13
2.3.2 Accuracy (DO CHIN 6.0 n6 n6 aaaỪ 15
2.3.3 Precision, Recall, ['Í—SCOF© HH Hà HH HH HH gà 15
QA, ROC VE AUC 17
2.3.9 Cross Validation: Flold-out và K-ƒỌỦ Sex HH re 18
CHƯƠNG 3: CÁC KẾT QUẢ THỰC NGHIỆM -22-22 2222222222225 20
3.2 Các kết quả thực nghiệm - 5£ S565 SE S121 321311111111 10121 crrey 21 3.3 Phân tích và đánh giá TH HH HH HH HH HH hh 24
CHƯƠNG 4: KẾT LUẬN -22222222222+c22cvc + 12122222211111111111212021111222222212121 Xe 27
Al Các kết quả đạt đưỢC 2c S21 112111121511 121 11 11 1 T11 1g nêu 27
4.2 Hạn chế và hướng phát triỂn - 2-5 SH HH HH HH ng gycyệc 28 TÀI LIỆU THAM KHẢO ©+©++++++++tE111112E171111111111111121121212212212771711212 xe I
Trang 3Minh họa thuật toán phân lớp Hổi quy Logistic (Logistic Regression)
Minh họa thuật toán phân lớp cây quyết định (Decision tree) Minh họa thuật toán phân lớp Support Vector Machine (SVM)
Minh họa thuật toán phân lớp Neural Network
Minh họa quy trinh phân lớp dữ liệu
Bước 1 của quá trinh trinh phân lớp: Xây dựng mô hinh phân lớp
Bước 2.1 của quá trinh trinh phân lớp: Đánh giá mô hinh
Bước 2.2 của quá trinh trinh phân lớp: Phân lớp dữ liệu mới
Minh họa phương pháp ma trận nhầm lẫn (Confusion matrix) Hinh 2.10: Minh họa phương pháp Precision, Recall, F1—score
Hinh 2.11: Minh họa phương pháp ROC (Receiver Operating Characteristic) Hinh 2.12: Minh họa phương pháp AUC (Area Under the Curve)
Hinh 2.13: Minh họa phương pháp K-fold cross validation
Minh họa mô tả thống kê các thuộc tính trong bộ dữ liệu
Khai báo thuộc tính cho các biến trong bộ dữ liệu huấn luyện
Mô tả tổng quan quá trinh huấn luyện vào dự báo
Kết quả đánh giá mô hinh bằng phương pháp K-fold
Đánh giá mô hinh lớp thông qua Ma trận nhầm lẫn
Khai báo thuộc tính cho các biến trong bộ dữ liệu dự báo
Kết quả dự báo của 20 khách hàng đầu tiên
Chỉ số Neural Network của 20 khách hàng đầu tiên
Trang 43
CHƯƠNG 1: TỔNG QUAN
1.1 Tổng quan về bài toán phân lớp dữ liệu
Phân lớp dữ liệu là quá trinh phân chia một quan sát dữ liệu vào một hoặc nhỉ uêo ¡đã chotr tướ awàom t#Ðô hinh phân l pổãd tây d natr trđïÃ
và đã được gán nhãn Đây một kĩ thuật hay một hinh thức được giám sát dựa trên tập dữ liệu huấn luyện và những giá trị hay là nhãn của lớp trong một thuộc tính phân lớp và dữ liệu mới sẽ được phân lớp dựa trên tập huấn luyện Quá trinh gán nhãn (thuộc loại lớp nào) cho đối tượng dữ liệu chính là quá trinh phân lớp dữ liệu Nhiệm vụ của bài toán phân lớp là phân các đối tượng dữ liệu vào n lớp cho
trước: thuộc về phân lớp nhị phân nếu n ó 2 và phân lớp đa lớp nếu n > 2 Nếu mỗi
đối tượng dữ liệu chỉ thuộc vào 1 lớp duy nhất là phân lớp đơn nhãn và phân lớp đa nhãn nếu thuộc về nhiều lớp khác nhau
Ứng dụng của phân lớp dữ liệu được sử dụng rộng rãi trong nhiều lĩnh vực
và ngành nghề khác nhau như:
¢ Công nghệ: côngngh AŸ,nh nậi nệhuônm tặh nậ nạgi ngniRAi, phân lớp tim ra email spam
e© Tài chính ngân hàng: dự báo giá chứng khoán, xếp hạng tín dụng cá
nhân và tổ chức, đánh giá rủi ro tài chinh,
® - Sales & Marketing: dự báo doanh thu, dự báo khách hàng trung thành,
© - Kinh tế học: dự báo khủng hoảng kinh tế, dự báo cung cầu
1.2 Giới thiệu về Python và phần mềm Orange
Python là ngôn ngữ lập trinh hướng đối tượng được tạo ra bởi Guido van
Rossum và được phát hành vào năm 1991 Với các tính năng nổi bật, dễ dàng sử dụng và tim hiểu, Python dần trở thành một trong những ngôn ngữ lập trinh tốt nhất Python hoàn toàn tạo kiểu động và sử dụng cơ chế cấp phát bộ nhớ tự động Với cách tiếp cận đơn giản cùng với sự mạnh mẽ trong cấu trúc dữ liệu cấp cao, Python trở nên hiệu quả cho mọi đối tượng nhất là những người lần dầu tiếp xúc ngônng lũpậïinh Cú pháp! niệc a Èython c3WÃ sự rõ ràng, dễ hiểu và linh động để
Trang 54 viết script và phát triển trong nhiều lĩnh vực trong mọi nền tảng trở thành điểm cộng lớn
Orange là phần mềm tích hợp các công cụ khai phá dữ liệu mã nguồn mở và
học máy thông minh, đơn giản, được lập trinh bằng Python với giao diện trực quan
và tương tác dễ dàng Với nhiều chức năng, không cần viết bất kỳ dòng nào mà
phần mềm này cũng cà thể phân tích được những dữ liệu từ đơn giản đến phức tạp, tạo ra những đồ họa đẹp mắt và thú vị Cùng với khả năng hiển thị tốt các danh sách mô hinh và nhiều kỹ thuật đánh giá, phần mềm giúp khai thác dữ liệu và học máy trở nên dễ dàng hơn cho cả người dùng mới và chuyên gia
1.3 Lý do chọn lựa đề tài
Như mọi người đã biết, từ xưa đến nay, các tổ chức tài chính/ngân hàng luôn làm t Gong nh né@linh v cự#Ã hệ thống thông tin rất rộng lớn và đa dạng Do dữ liệu này luôn được cập nhật liên tục theo từng giao dịch trong ngày nên đã dẫn đến tỉnh trạng quá tải khiến cho các nhà quản lý mất kiểm soát trong việc xử lý chúng
T yA, khai pha dir liéu (Data Mining) đã được đưa vào sử dụng như một công cụ trich xu t, ch@y n hig@Aa cdc thong tint cict p@ lituéhd c3Wà sẵn thành các thông tin quan tr ng vỳcàXà ý nghĩa, giúp cáct cỗ cứ3§Ã thể dựa vào và đưa ra những quyết định tốt hơn
Trong các kỹ thuật của khai phá dữ liệu như khai thác tập phổ biến và luật kết hợp, phân cụm dữ liệu, thi phân lớp dữ liệu thường được sử dụng để khai thác các tập dữ liệu lớn nhằm cải thiện việc phân khúc thị trường của các tổ chức tài chính, ngân hàng Bằng cách phân tích mối quan hệ giữa các biến số như độ tuổi khách hàng, giới tính, t đWÃ sẽ xây dựng lên một mô hinh dự đoán để đo lường mức độ phản hồi của khách hàng đối với các dịch vụ và sản phẩm mà họ quan tâm
D atWào các thông tin trên,b gậi nậnarketing c adigân hàng s zxấc d nhinh}gAm khách hàng tiềm năng cho các sản phẩm mới và tạo ra một chiến lược phát triển phù hợp hơn trong tương lai Với cách can thiệp của kỹ thuật này sẽ giúp cho các doanh nghiệp tăng doanh thu, tiết kiệm được một phần chỉ phí và cải thiện, duy tri mối quan hệ lâu dài với khách hàng
Trang 6Từ những lợi ích mà “Phân lớp dữ liệu” (Classification) đã mang lại trong quá
trinh lên các chiến lược Marketing tại các tổ chức tài chính như đã nêu ở phía trên,
chúng tôi quyết định đưa kỹ thuật này làm phương pháp nghiên cứu chính của bài Dựa vào cơ sở lý thuyết của bài toán phân lớp dữ liệu chúng tôi sẽ ứng dụng để xây dựng mô hinh dự đoán của tập dữ liệu được thu thập từ Kho lưu trữ học máy
UCI (UCI Machine Learning Repository) của một tổ chức tài chính đã sử dụng trung
tâm liên lạc của riêng minh để thực hiện các chiến dịch tiếp thị trực tiếp nhằm thúc
d yẩà thu hút khách hàng choch motrinh tỉ nề ¡ đà kỳ hạn của họ để nâng cao hoạt động kinh doanh Mục đích của bài nghiên nhằm đưa ra gợi ý cần thiết cho các
t ch cth cbi né@hi nd@ chiti péh vid dể dgánli uệhách hàng c7#Ã đăng ký một
kho nổi nệ ¡ ởWÃ kỳ hạn (biến y) hay không với sự trợ giúp của một tập hợp các
bi néh th céh t &nhi Do đặýÃ, chúng tôi quyết định chọn “Phân tích và dự đoán chiến lược Marketing của các tổ chức tài chính trong việc thu hút khách hàng đăng ký tiền gửi có kỳ hạn bằng phần mềm Orange” làm tên đề tài nghiên cứu
Trang 7CHƯƠNG 2: CAC MÔ HINH PHAN LOP DU LIEU
2.1 Cac mé hinh phân lớp dữ liệu
.1.1 Mô hình Logistic Regression
Hồi quy Logistic là một kỹ thuật thống kê để các giá trị đầu ra rồi rạc được
dự báo thông qua một tập các giá trị đầu vào Thuật toán này sử dụng các hàm được
gọi là hàm logit, được biểu diễn dưới dạng vector, bằng cách dự đoán xác suất
hoặc cơ hội xảy ra giúp suy ra mối quan hệ giữa biến phụ thuộc và các biến độc lập Mô hinh này sử dụng thuật toán đơn giản, dễ thực hiện, dễ giải thích nên được các nhà phân tích dữ liệu và các nhà khoa học sử dụng rộng rãi, đặc biệt là trong các
bài toán phân loại nhị phân
CMA 3 dạng hồi quy Logistic:
° H iquyÖogistic nh phani Bi n phé thu ự ch Ñ3#Ä hai 2k tấn /ä pớjÄÄ thể xảy ra
° H ¡ âuy logistic đath cúBi nệh thu coh cHRA hai hoặc 3 kết quả /
1 ptr dén GRA th cổ#Ä mà thứ tự được xếp ngẫu nhiên
° H i Quy logistic théng th mờ Bi nệh thu coh c3fRA hai hoặc nhiều
h n3kơt qu ếl ñcjXAth cổyA được xếp theo đúng thứ tự
Trang 8So 9 ŒŒ%
Hình 2.1: Minh họa thuật toán phan I6p H6i quy Logistic (Logistic Regression)
(Ngu6n: ANALYTICS VIDHYA Understanding Logistic Regression)
2.1.2 M6 hinh Decision Tree
Trong lý thuyết quản trị, cây quyết định là một đồ thị của các quyết định cùng các k tqu điấèmảjšÃth c a@ÿ8à vàlàm tô ngủ cặi tệ aủ uấúc cây NHSà được sử dụng để xây dựng một kế hoạch nhằm đạt được mục tiêu mong muốn cũng như hỗ trợ quá trinh ra quyết định
Trong lĩnh vực khai phá dữ liệu, đây được xem là sự kết hợp hoàn hảo của 2 khía cạnh: kỹ thuật toán học và tính toán nhằm hỗ trợ cho việc mô tả, phân loại và
t ng qđát hjŸÃat pậ lữuậ uâào Khi đ#Ä, cây quyết định mô tả một cấu trúc cây, trong đàNÃ, các lá đại diện cho các phân loại còn cành đại diện cho các kết hợp của các thu cộnhd nã ¡ ghânlo ¡ đầXÃ
M tộpã Iữuệ3šÃ thế được biểu diễn bởi nhiều cây quyết định tương ứng Cuối cùng, cây nào ngắn gọn nhất sẽ được lựa chọn (theo nguyên lý Ockham's
Trang 9
Hình 2.2: Minh họa thuật tốn phân lớp cây quyết định (Decision tree)
(Nguồn: help.sap Decision Tree Expression) 2.1.3 M6 hinh Support Vector Machine (SVM)
SVM lam t thu t adn cHRA giám sát, là phương pháp học sử dụng khơng gian giả thuyết các hàm tuyến tính trên khơng gian đặc trưng nhiều chiều, dựa trên lý thuyết tối ưu và lý thuyết thống kê SVM nhận dữ liệu vào, xem chúng như những
các vector trong khơng gian và phân loại chúng vào các lớp khác nhau bằng cách xây
dựng một siêu phẳng trong khơng gian nhiều chiều làm mặt phân cách các lớp dữ luệÐ tổiốuw tấu phân I pớhi ph ¡ đác đ nhị siêu ph ng (hyperplane) cA kho n&cdch d n@dc di méd lfrué@margin)c ah t@ cacl pé@anh t GRA thể Khi gidtr 1 cänl nthiớais t ngqđthj#Ãac aÄ tu tRhânlo i@àng bé.T đầWÃ sẽ hạn chế được việc phân lớp sai đối với điểm dữ liệu mới đưa vào
SVM c3WÃ nhiều biến thể như Hard Margin SVM, Soft Margin SVM, Multi-
class SVM, dé tích hợp với nhiều bài tốn phân lớp Các biến thể này giúp tiết
ki mệb rà ,lnh ho tạàs drngid tữ@ong khơng gian đa chỉ u/êuy nhiên, nà vẫn sẽ cho kết quả dự báo khơng tốt nếu số chiều dữ liệu lớn
Trang 10
Hình 2.3: Minh họa thuật toán phân lớp Support Vector Machine (SVM)
(Nguồn: Ông Xuân Hồng (2015) Support vector machine (SVM) hỏi gì đáp nấy)
2.1.4 M6 hinh Neural Network
Mạng Nơ ron nhân tạo (hay Neural Network) là mạng sử dụng một loạt các
thuật toán phức tạp nhằm xác định, xử lý thông tin và tỉm ra các mối quan hệ cơ bản tiềm ẩn trong bộ dữ liệu Lấy cảm hứng từ mô hinh hoạt động của các tế bảo thần kinh và khớp thần kinh trong não của con người, Neural Network là sự kết nối các nút đơn giản, còn được gợi là tế bào thần kinh Và một tập hợp các nút như vậy
t odhanhm tm nal — Iớc nút NäNá cách khác, đây được xem là hệ thống của các
t bấoth nẩ¡inh nhânt o,x3XÃ thể là hữu cơ hoặc nhân tạo về bản chất
Thu t an nay cA kha năng thích ứng được với mọi thay đổi từ dữ liệu đầu vào và ad ượi ¡ib ti cỗính xác nh tiãà c3WÃ thể giữ nguyên những tiêu chí đầu ra
Khái niệm này xuất phát từ trí tuệ nhân tạo và được sử dụng rộng rãi từ khi c3#Ä những hệ thống giao dịch ngày càng phát triển Mạng nơ ron nhân tạo sử dụng mạng đa tầng và mỗi một mạng nơ ron thường bao gồm ba tầng (lớp tế bào thần
Trang 1110
° Tầng ẩn (hidden layer): nằm ở giữa tầng vào và tầng ra, thể hiện cho
quá trinh tư duy logic của mạng
Đặc biệt, m ¡ ỗ th nan rơn nhân t o—h cẳŸ#Ä duy nhất một tầng vào và một
t ngra@nh ngl wes th cẩýÃ rất nhiều tầng ẩn
Hidden
Output(s)
Hình 2.4: Minh họa thuật toán phân lớp Neural Network
(Nguồn: Innoarchitech AI, Deep Learning, and Neural Networks Explained)
Mô hinh Neural Network cho phép xây d ngrm t Âô hinh tính toán c3XÃ khả năng học dữ liệu rất cao N3#Ä c3RÄ thể là một hộp đen chứa nhiều đầu vào và nhiều
đ uẩ c3ŸÃ khả năng học được sự liên kết tiềm ẩn giữa 2 bộ dữ liệu: đầu vào và đầu
ra dựa trên dữ liệu được học Tuy c3#Ã khả năng mô phỏng dữ liệu mẫu rất tốt, nhưng phương pháp này lại phụ thuộc phân lớn vào kinh nghiệm của người thực
hi nệhi ch nọ dộ lữuậu nấy nệšïà thông số phù hợp cho mạng huấn luyện hội
t hay không và cũng không cWÃ cách tổng quát để đánh giá hoạt động thực sự bên trong mạng
Neural Network hiện nay được ứng dụng phổ biến trong nhiều lĩnh vực như
tài chính, giao dịch, phân tích kinh doanh, lập kế hoạch cho doanh nghiệp và bảo tri
sản phẩm; các hoạt động kinh doanh khác như: tim kiếm các giải pháp nhằm nghiên cứu Marketing, đánh giá rủi ro và phát hiện gian lận; Sử dụng nhiều trong lĩnh vực công ngh và các nạ†d ngkhácnh tròch ¡đi nệ, th na n@gi n@niRAi, loc
Trang 122.2 _ Quá trình phân lớp dữ liệu
Quá trình phân lớp dữ liệu
Thuật toán phân Kết quả phân lớp dùng để
lớp đánh giá mô hình luyện
Dữ liệu kiếm thử Mô hình
Hình 2.5: Minh họa quy trình phân lớp dữ liệu
(Nguồn: Slide bài giẳng Phân lớp dữ liệu của TS Đặng Ngọc Hoàng Thành) Quá trinh phân lớp dữ liệu gồm hai bước chính:
®_ Bước 1: Xây dựng mô hình (hay giai đoạn “học” hoặc “huấn luyện”)
Qua trinh hu néuy n@h maxayd nam tméhinh mot mtOpa lirué naa Đầu vào của quá trinh này là một tập dữ liệu mẫu đã được gán nhãn và tiền xử lý, mỗi phần tử dữ liệu được giả định thuộc về một lớp phân trước, lớp ở đây là giá trị của một thuộc tính được chọn làm thuộc tính gán nhãn hay thuộc tính phân lớp
M iỗ gãữuư dị ug ¡ dung làm tựh nầ dử lữu,&3Ěà thể là các mẫu, ví dụ, đối
tượng, hay trường hợp Kết quả của bước này là mô hinh phân lớp đã được huấn
luyện Quá trinh này được mô tả ở hinh 2.6
Trang 1335 Minivan | Low ifage <31
= — T or Car Type =Sports
40 Combi Low then Risk = High
Hình 2.6: Bước 1 của quá trình trình phân lớp: Xây dựng mô hình phân lớp (Nguồn: Slide bài giẳng Phân lớp dữ liệu của TS Đặng Ngọc Hoàng Thành) )
« _ Bước 2: Sử dụng mô hình, được chia thành 2 bước nhỏ:
* Bước 2.1: Đánh giá mô hinh (kiểm tra tính đúng đắn của mô hinh)
Đầu vào là một tập dữ liệu mẫu được chọn ngẫu nhiên và độc lập với các mẫu trong tập dữ liệu huấn luyện, cũng đã được gán nhãn và tiền xử lý Tuy nhiên thuộc tính đã được gán nhãn này bị “lờ” khi được đưa vào mô hinh tiến hành phân
lớp
Bằng cách so sánh thuộc tính gán nhãn của dữ liệu đầu vào và kết quả phân
lớp từ mô hinh, ta dễ dàng xác định được tính đúng đắn của mô hinh Holdout là
một kỹ thuật đơn giản để ước lượng tính đúng đắn này dựa trên tỷ lệ phần trăm
các các mẫu trong tập dữ liệu dự báo được mô hinh phân lớp đúng (so với thực tế) Kết quả của bước này là mô hinh sẽ được sử dụng để phân lóp những dữ liệu cần thiết trong tương lai, hoặc những dữ liệu mà giá trị của thuộc tính phân lớp là chưa
bi tế uế ainô hinh phùh p@à c3WÃ độ chính xác cao
Trang 14KếƑ quả phân lớp
oa =
1 Risk_ |\
High Low Low High
s* Bước 2.2: Phân lớp dữ liệu mới
Ở bước này, dữ liệu đầu vào là dữ liệu “khuyết? thuộc tính cần dự đoán lớp (nhãn) Mô hinh sẽ tự động phân lớp (gán nhãn) cho các đối tượng dữ liệu này dựa
vào những gi được huấn luyện ở bước 1 Tính đúng đắn của mô hinh sẽ được xác
định bằng cách so sánh thuộc tính gán nhãn của dữ liệu đầu vào và kết quả phân lớp của mô hinh
Trang 15Age Car Type Risk
Hình 2.8: Bước 2.2 của quá trình trình phân lớp: Phân lớp dữ liệu mới
(Nguồn: Slide bài giẳng Phân lớp dữ liệu của TS Đặng Ngọc Hoàng Thành)
T_ đầý5 chúng ta c3WÃ thể thấy rằng để xây dựng và sử dụng mô hinh chúng ta cần phải chuẩn bị dữ liệu hợp lý: Làm sạch các dữ liệu với các giá trị bị khuyết và
gây nhiễu trong quá trinh phân tích, phân tích sự liên quan và cuối cùng là biến đổi
dữ liệu sao cho phù hợp trong quá trinh phân tích và nghiên cứu để giải quyết được
vấn đề được nêu
2.3 Phương pháp đánh giá tính hiệu quả của các mô hình phân lớp
Là các phương pháp nhằm kiểm tra tính hiệu quả của mô hinh phân lớp trên
d li uc3ÿÄữi ệthù c ặth ,t UGB guy td nếc3§ÃÄ s dirngimé hinh dA hay không MỆ
mô hinh lý tưởng là một mô hinh không quá đơn giản, không quá phức tạp và không
quá nhạy cảm với nhiễu (tránh underfitting và overfitting) Ngoài thực tế mô hinh
tốt là mô hinh cho kết quả hợp lý một cách chấp nhận được trên dữ liệu mẫu lẫn
dữ liệu mới
Tính hiệu quả của một mô hinh phân lớp được đánh giá dựa trên các chỉ số
như ma trận nhầm lẫn (Confusion Matrix), Hold-out, F1-score, Do mỗi phương
pháp s cÑýAÃ bản chất, cách thực hiện cũng như mức độ chính xác khác nhau nên tùy vào bài toán mà ta sẽ chọn ra phương pháp đánh giá hiệu quả nhất
2.3.1 Mua trận nhầm lẫn (Confusion matrix)
Trang 1615
Một confusion matrix sẽ cho chúng ta thấy nơi mà mô hinh đang bị nhầm lẫn
Cụ thể hơn, ma trận nhầm lẫn sẽ cho chúng ta thấy những danh mục nào mà mô
hinh dự đoán chính xác và những danh mục nào mô hinh dự đoán sai Đối với các dự
đoán không chính xác, chúng ta cðWÃ thể xem mô hinh đã dự đoán những danh mục nào trong bộ cơ sở dữ liệu và điều này sẽ cho chúng ta biết danh mục nào đang gây
nh mA nãho mô hinhd cổyà thể kịp thời xử lý và đưa ra những chỉnh sửa hợp lý
Ph_ m@pháp này là cðWÃ kích thước k x k với k là số lượng lớp của dữ liệu Phương pháp đánh giá kết quả của những bài toán phân loại với việc xem xét cả
những chỉ số về độ chính xác và độ bao quát của các dự đoán cho từng lớp Đây còn
là một trong những phương pháp đánh giá mô hinh phân loại quan trọng và phổ biến
nhất và ngoài ra, đây cũng là cơ sở cho những phương pháp đánh giá tương tự
Hình 2.9: Minh họa phương pháp ma trận nhầm lẫn (Confusion matrix)
(Nguồn: Sang Hà Ngọc (2021) Confusion Matrix/Ma trận nhầm lẫn/Ma trận lỗi)
Giả sử lớp A là lớp tích cực và lớp B là lớp tiêu cực Dựa vào hinh 2.9 ta sẽ
cùng nhau phân tích các thuật ngữ chính của ma trận nhầm lẫn như sau:
e _ Tích cực thực sự (TP) : Dự đoán lớp tích cực là tích cực
e _ Tích cực giả (FP) : Dự đoán lớp phủ định là tích cực
e Phu dinh gia (FN) : Duy đoán lớp tích cực là tiêu cực