Trong đồ án cudi ky, nhóm chúng em sẽ vận dụng những kiến thức và các phương pháp phân tích dữ liệu được tiếp thu trong suốt quá trình học.. Phân tích đữ liệu trong KHDL có thể được sử d
Trang 1
DAI HOC KINH TE TP, HO CHi MINH TRUONG CONG NGHE VA THIET KE KHOA CONG NGHE THONG TIN KINH DOANH
BO MON CONG NGHE THONG TIN
UEH
UNIVERSITY
Dé tai: PHAN TICH CAC YEU TO ANH HUONG VA DU
BAO PHA SAN CAC DOANH NGHIEP TAI MY
Trang 2BANG PHAN CO AC THANH VIEN 11
Chương 1: GIỚI THIỆU VỀ KHOA HỌC DỮ LIỆU VÀ GIỚI THIỆU ĐỀ TÀI
13
1.1 Giới thiệu về khoa học dữ liệu 13
1.1.1 Khái niệm dữ liệu 13
1.1.2 Tống quan về KHDL, 13
1,1,3 Sự phát triển của KHDL 14
1.1.4 Ứng dụng tiêu biểu của KHDL 15
1.2 Giới thiệu đề tài 15
1.2.1, Lý đo chọn đề tài 15
1.2.2 Mục tiêu nghiên cứu 16
Chương 2: TỎNG QUAN VẺ CHƯƠNG TRÌNH SỬ DỤNG VÀ CÁC PHƯƠNG
2.1, Các phương pháp dùng Excel dé khai phá dữ liệu 18
2.1.1 Thống kê mô tả 18
2.1.2 Phương pháp phân tích dự báo 24
2.1.3 Phương pháp phân tích tối ưu 31
2.4.3 Đánh giá mô hình phân cụm 56
Chương 3: ỨNG DỤNG PHƯƠNG PHÁP VÀO BÀI TOÁN THỰC TẾ 57
4.1 Ưu điểm của mô hình 84
4.2 Hạn chế của mô hình 84
Chương 5: KẾT LUẬN VÀ HƯỚNG PHÁT TRIEN §5
Trang 3Chương 2
Hinh 2.1 Hop thoai Descriptive Statistics 18
Hinh 2.2 Giao dién Descriptive Statistics 19
Hình 2.3 Số liệu bán hàng trong thang 3 tại siêu thị ABC và hộp thoai Descriptive
Hình 2.10 Hộp thoại Pivot Table 23
Hình 2.11 Thống kê bằng Pivot Table 24
Hình 2.12 Lệnh Data Analysis 24
Hinh 2.13 Lénh Moving Average 25
Hình 2.14 Khai báo các thôngsó 25
Hình 2.18 Đồ thị sau khi Add Trendlin 29
Hinh 2.19 Chon Regression 29
Hình 2.20 Khai báo các thông số 30
Hình 2.21 Tạo bảng tính 32
Hình 2.22 Hộp thoại Solver Parameters 33
Hình 2.23 Đưa các rang bude vao Add Constraint 34
Hình 2.24 Hộp thoại Solver Results 34
Hình 2.25 Kết quả 35
Hình 2.26 Hình ảnh phần mềm Orange 35
Hình 2.27 Các tiện ích trong nhóm Data 36
Hình 2.28 Giao diện tiện ích “Eile” 37
Hinh 2.30 Giao dién cua tién ich “Data Table” 38
Hinh 2.31 Giao dién tién ich “Data Sampler” 39
Hinh 2.32 Giao dién chirc nang Visualize 40
Hình 2.34 Giao dién cia tién ich “Scatter Plot” 41
Hình 2.35 Các tiện ích có trong nhóm Model 42
Trang 4Hình 2.37 Giao điện tiện ích SVM 43
Hình 2.38 Giao dién tién ich Logistic regression 44
Hinh 2.39 Cac tién ich trong nhom Evaluate 45
Hinh 2.40 Giao dién Test and Score 45
Hình 2.41 Giao diện củ nfusion Matrix 46
Hình 2.42 Các tiện ích của nhóm Unsupervised 46
Hình 2.43 Giao diện K-means 47
Hình 2.44 Quá trình phân lớp dữ liệu 47
Hình 2.45 Hồi quy Logistic 48
Hình 2.46 Cây quyết định 48
Hình 2.47 Ma trận nhằm lẫn 50
Hình 2.48 ROC 50
Hình 2.50 Dữ liệu trước và sau khi được phân cụm 51
Hinh 2.51 Mô hình quá trình phân cum đữ liệu 52
Hinh 2.52 Do thi cia qua trinh phan chia hodc hop nhat theo phuong phap phân cụm phân
cấp 33
Hình 2.53 Phương pháp Agnes 53
Hinh 2.54 Phuong phap Diana 54
Hinh 2.55 So dé giai thích hoạt động của thuật toán k-Means 55
Chương 3
Hình 3.1 Biêu đồ cột thể hiện số công ty phá sản trong giai đoạn từ 2014 - 2018 60
Hình 3.2 Biêu đồ cột thể hiện số công ty chưa phá sản trong giai đoạn từ 2014 -
Hình 3.3 Biéu do histogram thê hiện giá trị biến XI 61
Hình 3.4 Biêu đô tròn thê hiện tỉ trọng các khoảng của biên X2 so với tông công ty cùng kỳ
từ năm 2014 đến 2018 63
Hinh 3.5 Biéu dé histogram thé hiện giá trị biến X3 64
Hình 3.8 Loại bỏ bién “Year” 67
Hình 3.9 Lấy mẫu 70% từ đữ liệu ban đầu 67
Hình 3.10 Kết quả lấy mẫu huấn luyện 68
Hình 3.11 Lấy mẫu 30% từ dữ liệu ban đầu 69
Hình 3 12 Kết quả lấy mẫu huấn luyện 69
Hình 3.13 Thông tin các biến trong tập đữ liệu huấn luyện 70
Hình 3.14 Kết quả mẫu khi chia mẫu đữ liệu 5 phần 71
Hình 3.15 Kết quả mẫu khi chia mẫu đữ liệu 10 phần 71
Hình 3.17 Kết quả khi chia mẫu dữ liệu 20-70% 72
Hình 3.18 Kết quả khi chia mẫu dữ liệu 50-66% 73
Hinh 3.19 Ket qua ma tran nham lan cua phuong phap SVM, Tree va Logistic
Regression 74
Hình 3.20 Kết quả ROC Analysis của 3 phương pháp khi target là alive 75
Hình 3.2L Kết quả ROC Analysis của 3 phương pháp khi target la failed 75
Hình 3.22 Xóa cột “S(atus” trong Excel 76
Trang 5Hình 3.23 Mô hình hoàn chỉnh 77
Hình 3.24 Kết quả dự báo phá sản bằng phương pháp Logistie Regression 77
Hình 3.25 Kết quả lấy mẫu phân cụm 79
Hình 3.26 Thông tin các biến trong tập đữ liệu huấn luyện 79
Hình 3.27 Nói k-Means vao file dé tinh chi s6 Silhouette 80
Hình 3.28 Chỉ số Silhouette của phương án phân cụm từ 2 đến 10 §0
Hinh 3.29 Re-runs: 10 va Maximum Iterations: 500 80
Hinh 3.30 Re-runs: 20 va Maximum Iterations: 500 81
Hinh 3.31 Re-runs: 50 va Maximum Iterations: 1000 81
Hinh 3.32 Biéu đồ phân phối trường hợp 4 cụm 82
Hình 3.33 Biểu đồ phân phối trường hợp 6 cụm 82
Hinh 3.34 Biéu dé scatter trường hợp phân 4 và 6 cụm 83
0 DANH MUC BANG BIEU
Chương 2
Bảng 2.1 Kết quả sau khi thực hiện 26
Bảng 2.2 Kết quả sau khi thực hiện 27
Bảng 2.3 Vùng địa chỉ chứa lần lượt X và Y 28
Bảng 2.4 Kết quả sau khi thực hiện 31
Bảng 2.5 Bảng số liệu dự án 31
Bang 2.6 Bang chire nang cua File 37
Chương 3
Bảng 3.1 Mô tả dữ liệu các biến 57
Bảng 3.2 Bảng tần số thê hiện tình trạng các công ty qua từng năm (2014 - 2018) 59
Bang 3.3 Bảng liệt kê dữ liệu thống kê tông quan vẻ biến XI 61
Bảng 3.4 Bảng tần số thê hiện tý trọng các khoảng của biến X2 so với tông công ty cùng kỳ
từ năm 2014 đến 2018 62
Bang 3.5 Bảng liệt kê dữ liệ hé kê tổ é bié x3 63
Bảng 3.6 Bảng liệt kê dữ liệu thống kê tông quan về biến X4 64
Bang 3.7 Bang liệt kê dữ liệu thống kê tông quan về biến X5 65
ũ
DANH MUC TU VIET TAT
KHDL: Khoa hoc dit liéu
SVM: Support vector machine
ROC: Receiver Operating Characteristic
AUC: Receiver Operating Characteristic
XI: Vốn lưu động/ Tong tai san
X2: Lợi nhuận sau thuế chưa phân phối/ Tổng tài sản
X3: Lợi nhuận trước lãi vay và thué/Tong tai sản
X4: Vốn chủ sở hữu/ Tổng nợ phải trả
X5: Doanh thu về bán hàng và địch vụ/ Tông tai sản
Ũ Lời cảm ơn
Trang 6Sau khi hoàn thành đồ án, nhóm chúng em xin gửi lời cảm ơn sâu sắc và chân thành
đến thầy Nguyễn Quốc Hùng- TS GVC bộ môn Khoa học dữ liệu vi trong suốt quá trình
học tập và tìm hiểu, chúng em đã nhận được rất nhiều sự giúp đỡ, tận tình hướng dẫn, giải
đáp thắc mắc nhanh chóng từ thầy Nhờ đó giúp cho dự án của nhóm hoàn thành một cách
nhanh chóng và trọn vẹn hơn
Dù chưa có nhiều kinh nghiệm và còn nhiều hạn chế, nhưng nhóm em đã cô gắng hết
sức để hoàn thành đồ án Vì vậy, đồ án của chúng em có thê không tránh khỏi những thiếu
sót nên nhóm rất mong nhận được những góp ý, nhận xét đến từ thầy
Cuỗi lời thì chúng em xin chúc thầy luôn có nhiều sức khoẻ, hạnh phúc và thành công
trên hành trình ươm mầm và nuôi dưỡng các thế hệ UEH
LỜI MỞ ĐẦU
Khoa học dữ liệu là môn học có tính ứng dụng cực kỳ cao nên hiểu biết và học cách
ứng dụng tốt bộ môn này là điều tiên quyết cho sinh viên của bắt kỳ ngành học nào Trong
đồ án cudi ky, nhóm chúng em sẽ vận dụng những kiến thức và các phương pháp phân tích
dữ liệu được tiếp thu trong suốt quá trình học
Phá sản là một hiện tượng không thê tránh khỏi và tat yéu trong qua trinh phat trién
của nền kinh tế thị trường Khi kinh tế thị trường phát triển, tình trạng phá sản ngày càng
phô biến Đây là một xu hướng tắt yếu trong quá trình cạnh tranh và lựa chọn tự nhiên Mục
đích của việc pha san là loại bỏ những doanh nghiệp yếu kém, từ đó kiểm soát sự phát trién
của nền kinh tế và đóng góp vào việc cơ cấu lại nền kinh tế
Làn sóng phá sản doanh nghiệp đang tăng nhanh chóng nhưng vần có một sỐ doanh
nghiệp vẫn bám trụ được sau hậu quả của đại dịch Covid- 19 Nhiều người cho rằng doanh
nghiệp tổn tại lâu đài là đo họ có nguồn vốn lớn và hoạt động trong ngành hàng thiết yếu
Tuy nhiên, đây chỉ là một góc nhìn không thực sự khách quan Dù có nguôn vôn lớn, nêu
doanh nghiệp không nghiên cứu chính sách sử dụng vốn một cách hợp lý và không đánh giá
khả năng phá sản, họ có thể mắt tất cả chỉ sau một thời gian ngắn Vì vậy, việc dự báo khả
năng phá sản của doanh nghiệp là cần thiết, không chỉ trong giai đoạn dịch bệnh mà còn
trong trạng thái bình thường Điều này giúp doanh nghiệp lựa chọn các phương án thích hợp
dé phát triên vững mạnh và tránh rơi vào tình trạng phá sản (Tiên và cộng sự, 2022)
Do đó, nhóm đã chọn đề tài “Phân tích các yếu tổ ảnh hưởng và dự báo phá sản các
doanh nghiệp tại Mỹ”Í[I
BANG PHAN CONG CAC THANH VIEN
TT Họ và tên Công việc phụ trách Mức độ hoàn thành
1 - Phân công nhiệm vụ, phụ trách
nhận xét và chỉnh sửa bài làm Trần Thị Minh Trúc của các thành viên ; , n= ` 100%
(Trưởng nhóm) - Nội dung chương 4 và 5
- Hoản thiện hình thức đỗ án
- Lam slide
2 - - Nội dung chương 1 va 2
Lê Huyện Kha - Viết “Lời mở đầu” và “Lời 100%
Trang 7Chương 1: GIỚI THIỆU VẺ KHOA HỌC DỮ LIỆU VÀ GIỚI
THIEU DE TAI
1.1 Giới thiệu về khoa học dữ liệu
1.1.1 Khái niệm dữ liệu "
Dữ liệu là một tập hợp thông tin, tập hợp đó có thê gồm các sô, chữ cái, hình ảnh,
được sử dụng rộng rãi trong các lĩnh vực kỹ thuật, công nghệ, và khoa học đề giúp mọi
người hình dung ra toàn bộ sự vật, sự việc Dữ liệu được đo lường, thu thập, báo cáo và
phân tích trước khi được hiển thị dưới dạng đồ thị, bảng hoặc hình ảnh
Dữ liệu có thể được tổ chức theo cấu trúc hoặc không có cấu trúc, tùy thuộc vào cách
nó được sắp xếp và lưu trữ
1.1.2 Tống quan về KHDL
Khoa học dữ liệu (KHDL) được định nghĩa là “lĩnh vực nghiên cứu dữ liệu nhằm khai
thác những thông tin chuyên sâu có ý nghĩa đỗi với hoạt động kinh doanh” KHDL là một
phương pháp tiếp cận đa ngành, kết hợp các nguyên tắc và phương pháp của toán học,
thống kê, trí tuệ nhân tạo, kỹ thuật máy tính, để phân tích dữ liệu Mục đích của KHDL là
tìm kiếm những thông tin hữu ích từ dữ liệu, nhằm giải quyết các vấn để thực tiễn trong
nhiều lĩnh vực, bao gồm kinh doanh, khoa học, kỹ thuật, y tế, Phân tích đữ liệu trong
KHDL có thể được sử dụng để trả lời các câu hỏi như:
- Sự kiện gì đã xảy ra?
- Tại sao nó xảy ra?
- Sự kiện gì sẽ xảy ra?
- C6 thé str dung két quả thu được cho mục đích gì?
Sự kết hợp giữa trí thông minh của con người và tính tự động hóa của hệ thống giúp
KHDL phân tích dữ liệu một cách chi tiết và sâu sắc, từ đó đưa ra kết quả chính xác hon
Quy trình phân tích KHDL gồm 5 bước:
Bước 1: Đặt vấn đề và thu thập dữ liệu
- Trước hết, chúng ta cần xác định vấn đề hoặc câu hỏi mà bạn muốn giải quyết thông
qua dữ liệu
- Giai đoạn này tập trung vào việc thu thập dữ liệu da ngudn, bao gom cơ sở dữ liệu,
tệp tin, hệ thong cảm biến, mạng xã hội và các nguồn khác Dữ liệu có thê được thu thập
bằng cách tiến hành cuộc khảo sát, sử dụng hệ thông cảm biến, thu thập dữ liệu trực tuyến
hoặc thông qua các nguồn đữ liệu công cộng
Bước 2: Tiền xử lý đữ liệu
~- Kiểm tra và xử lý dữ liệu nhiễu, dữ liệu thiếu hoặc không chính xác
- Chuẩn hóa định dạng dữ liệu và đồng nhất các biến
Bước 3: Chuyên đổi dữ liệu
7 Trích xuất các đặc trưng (feature extraction) hoặc tạo ra các đặc trưng mới từ dữ liệu
gốc
- Áp dụng các phép biến đổi hoặc mã hóa dữ liệu nếu cần thiết
Bước 4: Phân tích dữ liệu
- Áp dụng các phương pháp và mô hình phân tích đữ liệu để tìm kiếm mẫu, tương
quan hoặc phát hiện thông 1in quan trọng
- Sử dụng các kỹ thuật thong kê, máy học và khai phá dữ liệu để xác định mô hình và
tìm ra câu trả lời cho câu hỏi được đặt ra ở bước 1
Bước 5: Trình bày kết quả phân tích
- Trinh bày kết quả phân tích một cách rõ ràng và đễ hiểu bằng cách sử dụng biểu
Trang 8đồ, đồ thị, bảng và báo cáo
- Giải thích ý nghĩa của kết quả, đưa ra nhận định và khuyến nghị dựa trên phân tích
đữ liệu
1.1.3 Sự phát triển của KHDL,
Với sự phát triên của công nghệ thông tin, kha năng thu thập va lưu trữ dữ liệu của các
công ty và tô chức đã được cải thiện đáng kê, và KHDL đã trở thành một công cụ hữu ích
dé phân tích và đưa ra dự đoán
Trong những năm gan day, KHDL đã trở thành một lĩnh vực rộng lớn vả ngày cảng
phô biến trong nhiều ngành công nghiệp,gồm tài chính, y tế, giáo dục và còn nhiều lĩnh vực
khác
KHDL liên tục tiến bộ và phát triên theo thời gian Sự gia tăng về lượng đữ liệu và sự
phát triên của trí tuệ nhân tạo sẽ mở ra những cơ hội mới cho ngành này Trong tương lai,
KHDL có thể sẽ áp dụng rộng rãi trong các lĩnh vực như tự động hóa, xe tự lát, chăm sóc
sức khỏe thông minh và nhiều lĩnh vực công nghiệp khác
1.1.4 Ứng dụng tiêu biểu của KHDL
KHDL co ứng dụng rộng rãi trong nhiều lĩnh vực Các lĩnh vực và ứng dụng tiêu biểu
bao gồm (TS&TT, 2023):
- Kinh doanh và Marketing: KHDL giúp các doanh nghiệp khai thác dữ liệu khách
hàng, nắm bắt hành vị tiêu dùng, dự đoán xu hướng và tôi ưu hóa chiên luge marketing dé
tăng doanh sô bán hàng và lợi nhuận
- Y tế: Trong lĩnh vực y tế, KHDL đóng vai trò quan trọng trong phân tích dữ liệu y tế,
dự báo dịch bệnh, hỗ trợ chân đoán và phát hiện bat thường trong dữ liệu y khoa
- Tài chính: Trong lĩnh vực tài chính, KHDL được sử dụng dé phan tích dữ liệu tài
chính, dự đoán thị trường tài chính và tôi ưu hóa các chiến lược đầu tư
- Khoa học xã hội: KHDL cung cấp những cơ hội mới trong việc nghiên cứu các xu
hướng xã hội, phân tích dữ liệu xã hội và dự đoán các sự kiện xã hội
- Giao thông vận tải: KHDL giúp môi trường giao thông an toàn hơn cho người điều
khiển giao thông, giúp các phương tiện giao thông được cải tiến, thêm yếu tổ tự động hoá
Thông qua nhiều biển số của thông tin khách hàng, địa điểm, chỉ dẫn kinh tế, logistics,
phương tiện như xe cộ có thê nhận biết đoạn đường thuận lợi và chỉ hướng cho người điều
khiển một cách tự động
1.2 Giới thiệu đề tài
1.2.1 Lý đo chọn đề tài
Sự phá sản của một doanh nghiệp quan trọng, đặc biệt là doanh nghiệp có ảnh hưởng
lớn đến thị trường, sẽ gây ra các hệ lụy tiêu cực đến kinh tế và xã hội
Trước hết, việc phá sản của một doanh nghiệp lớn sẽ dan dén tinh trạng thất nghiệp
đồng loạt Khi doanh nghiệp phá sản, cơ sở kinh doanh sẽ đóng cửa và người lao động sẽ
mat việc làm Điều này gây khó khăn cho người lao động và gia đình họ
Thứ hai, phá sản của một doanh nghiệp sẽ làm giảm tính ôn định của thị trường Khi
một doanh nghiệp quan trọng phá sản, thị trường sẽ mắt đi một nguồn cung lớn về hàng hóa
và dịch vụ Điều này dẫn đến tình trạng tăng giá và gây khó khăn cho người tiêu dùng
Thứ ba, việc phá sản của một doanh nghiệp lớn sẽ ảnh hưởng đến uy tín của các
doanh nghiệp khác Khi một doanh nghiệp quan trọng phá sản, người tiêu dùng sẽ mắt niềm
tin vào các doanh nghiệp khác, dẫn đến giảm doanh số bán hàng
Trước kia, dưới tác động của đại dịch Covid - 19, nhiều doanh nghiệp đã gặp phải vô
vàn khó khăn như chi phí hoạt động gia tăng, doanh thu tăng trưởng chậm, thậm chí có
nguy cơ phá sản Vì thế, những nghiên cứu dự đoán về rủi ro phá sản và tình hình tài chính
của doanh nghiệp hiện nay đã trở thành một trong những lĩnh vực được quan tâm nhiều
nhất Các nghiên cứu nảy cung cấp nền tảng lý thuyết cho việc xây dựng và phát triển các
mô hình nghiên cứu để đo lường các nhân tổ ảnh hưởng đến rủi ro phá sản của doanh
nghiệp Điều này cũng giúp hình thành chính sách và hướng xử lý cho các nha quan lý trong
doanh nghiệp, các tô chức nghề nghiệp và cơ ‘quan quản lý của Nhà nước
Từ những phân tích trên có thé thấy rằng việc nhận diện và phân tích các yếu tố ảnh
hưởng và dự báo việc phá sản của một doanh nghiệp là hết sức cần thiết, vì điều này sẽ hỗ
trợ các doanh nghiệp tìm kiếm lựa chọn phù hợp cho hoạt động kinh doanh của họ, giúp
doanh nghiệp phát triển vững mạnh và tránh rơi vào tình trạng phá sản Do đó, nhóm đã
chọn đề tài “Phân tích các yếu tô ảnh hưởng và dự báo phá sản các doanh nghiệp tại Mỹ”
làm tên đồ án nhằm mục đích giúp các nhà quản lý, nhà đầu tư có thêm thông tin trong việc
ra quyết định của mình
Trang 91.2.2 Mục tiêu nghiên cứu
® Phân tích các yếu tô ảnh hưởng đến việc phá sản của các doanh nghiệp đã phá sản và
chưa phá sản tại Mỹ trong giai đoạn 2014 — 2018
* Xây dựng mô hình dự báo nguy cơ phá sản dựa trên các yếu tố đã phân tích bằng
phương pháp phân lớp
* Xây dựng mô hình đánh giá tình trạng doanh nghiệp chưa phá sản bằng phương pháp
phân cụm
* Dé xuất một số khuyến nghị để cải thiện tình trạng doanh nghiệp bằng cách cải thiện
những yếu tổ ảnh hưởng đến việc phá sản
® Thực hành, vận dụng những kiến thức của môn học KHDL vảo thực tế
Các công ty đại chúng của Mỹ được niém yet trên San giao dịch chứng khoán New
York (NYSE) và NASDAQ, gồm dữ liệu kê toán từ 260 công ty riêng biệt được ghi lại
trong giai đoạn từ 2014 đên 2018
ũ
Chuong 2: TONG QUAN VE CHUONG TRÌNH SU DUNG VA
CAC PHUONG PHAP SU DUNG
Nội dung chương gồm tổng quan về chương trình sử dụng và các phương pháp sử
dụng trong đê tài bao gôm: ứng dụng excel để khai phá dữ liệu và các tính năng, phương
pháp sử dụng phân mêm Orange dé áp dụng xử lý bài toán thực tê
2.1 Các phương pháp dùng Excel đề khai phá dữ liệu
2.1.1 Thắng kê mô tả
2.1.1.1 Thắng kê bằng công cụ Descripitive Statistics
Các bước thực hiện:
Bước 1: Chuan bi bang số liệu
Bước 2: Chọn Data > Data Analysis > Descriptive Statistics > Chon OK
Hình 2.1 Hp thoai Descriptive Statistics Bude 3 Trong hép thoai Descriptive Statistics, co thé cài đặt các tùy chọn sau:
* “Input Range”: Phạm vi dữ liệu cần phân tích
* “Output Range”: Pham vi 6 dé luu két qua phân tích
* “Labels in First Row”: Nếu dữ liệu của có hang đầu tiên là tên các thuộc tính, hãy
chọn tùy chon nay dé Excel sẽ bỏ qua hàng đầu tiên khi phân tích
° “Summary Statistics”: Chon tùy chọn này để Excel sẽ hiển thị các thống kê mô tả cơ
bản, bao gồm số lượng giá trị, trung bình, độ lệch chuẩn, v.v
* “Confidence Level for Mean”: Độ tin cậy của giá trị trung bình
Trang 10© output Range: E8;
New Worksheet Ply:
© New Workbook L1 Summary statistics
L confidence Level for Mean: 95 %
DO kth Largest:
L] Kth Smallest:
Hình 2.2 Giao dién Descriptive Statistics
Ví dụ: Thống kê mô tả cho lượng thịt heo (theo kg) bán được trong tháng 3 tại siêu thi
Số liệu bán hàng trong tháng 03 tại siéu thi ABC như sau masala ents =
liệu Confidence Level for Mean là 95% Nhân OK đề xuất kết quả
* Mean: Giá trị trung bình
Standard Error 1.889595967 ie i
Median 65 * Standard Deviation: D6 léch chuan
Mode 4] « Sample Variance: Phương sai mâu
Standard Deviation 7.558383866| * Kurtosis: Độ nhọn
Sample Variance §7.12916667| + Skewness: Độ bất đối xứng (Độ nghiêng)
Kurtosis -0.538643031 + Range: Khoang bién thién (Max — Min)
Skewness 0.03452706 * Minimum: $6 nho nhat
me = * Maximum: S6 lớn nhất
Maximum 50, sem os -
Sum 575 s Count: Sô lượng phân tử
Count 16 * Confidence Level: D6 tin cậy
F~-<Œ4~.~~~ need (NE 0 "ÔôÔ
Hình 2.4 Kết quả thống kê bằng Descriptive Statistics 2.1.1.2 Báo cáo tông hợp nhóm voi Subtotal
Chức năng của Subtotal:
- Cho phép người dùng tổng hợp nhóm đữ liệu theo một trường (hoặc nhiều trường)
Trang 11và tính toán các tổng hợp cho mỗi nhóm
- Thực hiện phân tích đữ liệu đễ dàng và nhanh chóng, cung cấp cái nhìn tông quan về
phân phôi của các giá trị trong dữ liệu
Cách thực hiện:
Bước l: Sắp xếp đữ liệu theo cột muốn gom nhóm
Bước 2: Chọn toàn bộ cơ sở đữ liệu
Bước 3: Chọn Data > Qutline > Subtotal
Bước 4: Trong hộp thoại Subtotal, hãy cài đặt các tùy chọn sau:
* “At each change in”: Chọn tiêu chí để tính tổng phụ
* “Use function”: Chọn hàm để tính tông phụ
® “Add subtotal to”: Chọn phạm v1 6 để hiển thị tong phu
* “Replace current subtotal”: Nếu phạm vi ô đã có tổng phụ, có thê chọn tùy chọn
nay dé thay thế tông phụ hiện có bằng tổng phụ mới
* “Page break between groups”: Chọn nếu muốn mỗi nhóm trong báo cáo tổng hợp
nằm trên một trang khác
® “Summary below data”: Chọn nếu muốn tông phụ nằm bên dưới đữ liệu,
Ví dụ minh họa _ _ T
At each change in:
Replace current subtotals
Page break between groups
Summary below data Remove All Cancel
Chức năng của Consolidate: Cho phép hợp nhật dữ liệu từ những bảng dữ liệu khác
nhau Consolidate có thê hợp nhất dữ liệu theo 2 hình thức:
- Tổng hợp theo vị trí: các bảng dữ liệu giống nhau về cấu trúc
Trang 12Các bước thực hiện:
Bước 1: Chon vùng sẽ chứa dữ liệu được hợp nhất
Bước 2: Chọn Data > Data Tools > Consolidate
We rs SES deena" Cape & sae don at | SanS Soman ne Ww han at ee `
Hình 2.7 Hộp thoại Consoldate Trong đó:
* “Function”: Chon ham dé thie hién hop nhất đữ liệu
* “Reference”: Chon pham vi ô chứa dữ liệu cần hợp nhất
“All reference”: Phạm vi dữ liệu nguồn cần hợp nhát
* “Top row”: Chi dinh hàng chứa nhãn cho đữ liệu cần hợp nhất
“Left column”: Chi định cột chứa nhãn cho đữ liệu cần hợp nhất
Ee Browse
All references:
Add Delete
L] Left column L] Create links to source data
Hình 2.8 Giao diện Consolidate
Ví dụ:
« Funetion: chọn hàm tông hợp
Consolidate oy * Reference: dé tham chiéu lan lurot
faci các bảng dữ liệu nguôn
eee) * All referenees: chứa tât cả các
#irexr vùng dữ liệu nguồn cần thiết cho việc
item Gereonre * Create links to source data: chon
“ma nếu muốn dữ liệu hợp nhất được cập
nhật mỗi khi có thay đôi ở vùng dữ
liệu nguồn
Hình 2.9 Hộp thoại Consolidate 2.1.1.4 Tông hợp đu chiều véi Pivot Table
Các bước thực hiện:
Bước 1: Chọn ô bắt kỳ trong cơ sở dữ liệu
Trang 13Bước 2: Chọn Insert > PivotTable
i me cj m ore “ese 1 Visio Data Visalizer 1? wert " ww
web Selo Saati: |) Bing Maps Der hee Bie [Sen Po PivorTable Re Table ">> 0 ợn 3 | line
Thời: nations | Adlis cht huh
Hình 2.10 Hộp thoai Pivot Table Create PivotTable ? x
Choose the data that you want to analyze
@ Select a table or range
Table/Range: Sheet1!$A$2:$E$22 ER:
O Use an external data source
Choose whether you want to analyze multiple tables
(_] Add this data to the Data Model
Hinh 2.11 Théng ké bang Pivot Table
2.1.2 Phuong phap phan tich dy bao
2.1.2.1 Phuong phap trung binh truot (Moving Average)
Khái nệm: Phương pháp trung binh truot là một phương pháp được sử dụng để tính
toán trung bình của một tập hợp các giá trị theo thời gian Có tác dụng giúp xác định xu
hướng và mức độ biên động của dữ liệu, giúp cho việc dự đoán và quản lý rủi ro trở nên đê
đàng hơn
Các bước thực hiện:
Bước 1: Chọn phạm vi ô chứa dữ liệu cần tính
Bước 2: Chọn Data > Data Analysis > Moving Average
BeConsolidate
vow Queries 9, Ecomnactions 0 Y: +
l M nữ scene Sources “aire | Yaavences comes len - (fjMamsgeDsaModel „aay ¿ ates Whstff
Son & Fer jer cast tung Anh
Hình 2.12 Lệnh Data Analysis
a Histogram
Cancel Random Number Generation
Rank and Percentile
Regression
Sampling
t-Test: Paired Two Sample for Means
t-Test: Two-Sample Assuming Equal Variances
t-Test: Two-Sample Assuming Unequal Variances
z-Test: Two Sample for Means
Help
Trang 14Hình 2.13 Lệnh Moving Average Bước 3: Trong hộp thoại Moving Average, cài đặt các tùy chọn sau:
+ “Input Range”: Phạm vi ô chứa đữ liệu cần tinh Moving Average
+ “Interval”: Số lượng giá trị cần tinh Moving Average
+ “Output Range”: Phạm vi ô dé lưu két qua tinh Moving Average
+ “Labels 1n ñrst row”: Nếu đữ liệu của bạn có hàng đầu tiên là tên các thuộc tính, hãy
chọn tùy chọn nảy đề Excel sẽ bỏ qua hàng đâu tiên khi tinh Moving Average
+ “Chart Output”: tùy chọn dùng tạo biêu đồ nhúng cùng với vùng xuất kết qua
» “Standard Errors”: tùy chọn dùng tạo thêm 1 cột chứa các sai số chuẩn
= Input Range: $D$4:$D$19 ñ;
— Cancel L_Ì Labels m First Row
Hel Interval: 4 Help Output options
Qutput Range: $H$5 ñ
L_) chart Output (_) Standard Errors
Hình 2.14 Khai báo các thông số Bảng 2.1 Kết quả sau khi thực hiện
2.1.2.2 Phương pháp san bằng mũ (Exponemial Smoothing) _
Khái nệm: Là phương pháp ước tính giá trị trung bình của chuỗi thời gian và sử dụng
nó đề dự báo giá trị tương lai của chuối thời gian đó
Các bước thực hiện:
Bước 1: Chọn dữ liệu cần dự báo
Bước 2: Chọn Data > Data Analysis > Exponential Smoothing
Trang 15Data Analysis ? x
Analysis Tools
Anova: Single Factor
Anova: Two-Factor With Replication Cancel
Anova: Two-Factor Without Replication
® “Input Range”: Phạm vi dữ liệu cần dự báo
* “Damping factor”: Hệ số san bằng - một tham số giúp giảm bớt sự đao động của dự
báo, mặc định là (1 - ø)
* “Labels”: Chon néu hàng/cột đầu tiên là tiêu đẻ
® “Output Range”: Phạm vi ô để lưu kết quả dự báo
Exponential Smoothing if x
Input
Input Range: $C$4:$C$20| ERS
Damping factor: 0.6 Cancel
Output options
Qutput Range: $H$4 ERs
New Worksheet Ply
New Workbook
(} chart Output () standard Errors
Hình 2.16 Hộp thoai Exponential Smoothing Bảng 2.2 Kết quả sau khi thực hiện
2.1.2.3 Phương pháp hồi quy (Regression) - ;
Khái niệm: Phương pháp hội quy là một phương pháp được sử dụng đề phân tích môi
quan hệ giữa một biên phụ thuộc và một hay nhiêu biên độc lập Từ đó có thê dự đoán giá
trị của biên phụ thuộc dựa trên các giá trị có săn của biên độc lập
Các bước thực hiện:
Trang 16- Với kết quả là đồ thị:
Bước 1: Chọn dữ liệu cần phân tích
Bước 2: Chọn phạm vi ô chứa biến phụ thuộc (Y), và vùng phạm vi ô biến độc lập (X)
Bảng 2.3 Vùng địa chỉ chứa lần lượt X và Y PHÂN TÍCH DOANH THU - CHI PHÍ
Hình 2.18 Đồ thị sau khi Add Trendline
Bước 5: Tùy chỉnh đường xu hướng nảy bằng cách sử dụng các tùy chọn Trendline Options
® “Linear”: đường xu hướng tuyến tính
* “Display Equation on chart”: Hién thị phương trình của đường xu hướng trên biểu
đề
* “Display R-squared value on chart”: Hién thị giá trị R-squared trên biểu đồ
- Cách thực hiện bằng céng cu Regression:
Bước 1: Chọn dữ liệu cần phân tích
Bước 2: Chọn Data > Data Analysis > Regression,
Trang 17— Histogram
Moving Average Cancel
Random Number Generation
Rank and Percentile
Lp
Sampling
t-Test: Paired Two Sample for Means
t-Test: Two-Sample Assuming Equal Variances
t-Test: Two-Sample Assuming Unequal Variances
z-Test: Two Sample for Means
Hinh 2.19, Chon Regression Bước 3: Khai báo các thông số Input va Output Options
“Input Y Range”: Pham vi 6 chita dữ liệu bién phụ thuộc
“Input X Range”: Pham vi ô chứa dữ liệu biến độc lập
“Constant is Zero”: Chọn nếu hệ số tự do của hàm hồi quy tuyến tính bằng 0
“Confidence Level”: Confidence Level: Mức độ tin cậy của mô hình Giá trị mặc định
là 95%
“Output Range”: Phạm vi ô để lưu kết quả phân tích
“New Worksheet Ply”: Xuất kết quả ra bảng tính mới
“New Workbook”: Xuất kết quả ra ñle Excel mới
“Residual Plots”: Dé thi sai s6
“Line Fit Plots”: Dé thị hàm hồi quy tuyến tính
“Normal Probability Plots”: Dé thị xác suất phân phối chuẩn
O Output Range: $F$15|
©) New Worksheet Ply:
© New Workbook Residuals () Residuals () Residual Plots
|_J Standardized Residuals |_} Line Fit Plots Normal Probability
(_) Normal Probability Plots
Hình 2.20 Khai báo các thông số
Bảng 2.4 Kết quả sau khi thực hiện
Trang 182.1.3 Phương pháp phân tích tối ưu
2.1.3.1 Lập mô hình tỗi ưu
Bài toán minh họa: Một người nông dân đang phân vân không biết nên trồng bao
nhiêu tấn lúa mì và lúa gạo để đạt được lợi nhuận tôi đa với các số liệu sau:
Nhân công(người/tấn) 15 12 250 người
Các bước lập mô hình tối ưu:
Bước 1: Xác định biến quyết định
Gọi x, là lượng lúa gạo, x„ là lượng lúa mì (tấn) cần trồng
Bước 2: Xác định hàm mục tiêu
Mục tiêu bài toán là tối đa hoá lợi nhuận, ta lập được công thức:
P =P(lúa gao) + P(lua mi) = 18x,+ 21x, > max
- Rang buộc tự nhiên: X,,X,20
2.1.3.2 Sử dụng công cụ SOLVE để giải mô hình tỗi wu:
Bước l: Tạo bảng tính
Trang 19g_- - Lúa gạo Lúamì Vế trái Về phải
4 Biến quyết định Sản lượng | 1 1
s Hàm mục tiêu Loinhuan | $18 $21 $39-> Max
Min O value of: 0
By Changing Variable Cells:
Options
Select the GRG Nonlinear engine for Solver Problems that are smooth nonlinear Select the LP Simplex
engine for linear Solver Problems, and select the Evolutionary engine for Solver problems that are
* “Set Objective”: Ô chứa giá trị mục tiêu ($E$5)
* “To”: Chọn “Max” vì bài toán này là tôi đa hoá lợi nhuận
* “By Changing Variable Cells”: Chon 6 chita bién quyét dinh ($C$4 :$D$4)
* Dua cac rang buộc vao 6 “Subject to the Constraints” bang cach nhan Add
Add Constraint Cell Reference: Constraint:
Trang 20Bước 3: Nhắn “Solve” để giải mô hình
Khai báo các lựa chọn trong hộp thoại Solver Results:
* “Keep Solver Solution”: Giit nguyén giai phap cua Solver va in ra bang tinh
* “Restore Original Values”: Huy két quả vừa tìm được và khôi phục giá trị ban đầu của
Solver found a solution All Constraints and optimality
conditions are satisfied
@ Keep Solver Solution
© Restore Original Values
(FJ Return to Solver Parameters Dialog (J Outline Reports
Reports
Creates the type of report that you specify, and places each report on a separate sheet in the workbook
Hình 2.24 Hộp thoai Solver Results Bước 4: Nhắn OK
Lúa gạo | Lua mi Về trái Về phải
Biến quyết định Sản lượng | 7 | 12
Hàm mục tiêu Lợi nhuận $18 $21 $378-> Max
Diện tích 2 3 50 <= 50
Hé rang bugéc_— Lugng nue | 6 | 4 90) <= | 90
E5 = SUMPRODUCT($C$4:$D$4,C5:D5) E6 = SUMPRODUCT($C$4:$D$4,C6:D6) E7 = SUMPRODUCT($C$4:$D$4,C7:D7) E8 = SUMPRODUCT($C$4:$D$4,C8:D8)
Hình 2.25 Kết quả
Và ta thu được kết qua bai toan là để thỏa mãn tất cả điều kiện ràng buộc ta sẽ đạt lợi
nhuận tôi đa là 378 đô la với việc trông 7 cây lúa gạo và 12 cây lúa mì
Trang 21Tuy nhiên, đây cũng là những lĩnh vực phức tạp và khó khăn đối với người dùng mới Để
giải quyết vân để nảy, nhiêu phân mềm khai phá dữ liệu và học máy đã được phát triển,
trong dé cd Orange
Orange là một phần mềm mã nguồn mở, tích hợp nhiều công cụ khai phá dữ liệu và
học máy hiện đại Phân mêm nảy có giao diện trực quan vả dễ sử dụng, giúp người dùng có
thê dê dàng thực hiện các thao tác phân tích dữ liệu và xây dựng mô hình
Data Table Paint Data Data Info Sampler
Salect Select Rows Pivot Table Rank Columns
- File: cho phép đọc dữ liệu từ một tệp đầu vào và gửi dữ liệu đó đến một kênh đầu ra
Tiện ích này cũng lưu giữ lịch sử của các tệp đã mở gân đây và bao gôm một thư mục chứa
các bộ dữ liệu mâu duge cai dat san voi Orange
Trang 22OFile: ¢s-training.csv = © Reload URL:
1 ature 1 numeric skip
3 RevolvingUti numeric feature
4 age numeric feature
5 NumberOfTi numeric feature
6 DebtRatio numeric feature
7 Monthlylnco numeric feature
6 NumberOfO numeric feature
Browse documentation datasets Apply
Hình 2.28 Giao diện tiện ich “File”
Bảng 2.6 Bảng chức năng cua File
Info Instances: ban ghi
Features: trường dữ liệu Missing values/ No Missing values: trường bị lỗi/ trường không bị lỗi
Columns | Name: Tên thường
Type: Kiểu dữ liệu
Role: Vai trò các trường dữ liệu và thông thường dữ liệu tồn tại ở 2 dạng ( feature: trường độc lập, target: trường phụ thuộc )
- Datasets: Chức năng giúp nạp dữ liệu và kết nỗi với các dữ liệu trên Internet được
chia sẻ miên phí Và đây cũng là nơi cung cấp các thông tin mô tả về bộ dữ liệu trong phân
Description
ene Data Sets
toto ° Tite a Sue Instances Varabies Target Tage e
detects ris 4.5 K8 150 5 @ categorical
3 data sets cached Kickstarter p 24.1 kB 1183 15 @ categorical
Poker Hand 28.9 MB 1025010 10 @ categorical synthetic
Sailing 456 bytes 20 3 @ categorical wee, synthetic Titanic 441KB 2201 4 B categorical Traffic accid 4.3 M8 17931 18 location, date, traffic Traffic acid 2.8 MB 32857 1 location, date, traffic Traffic signs 3.8K 40 3 @ categorical images
campaigns started from January to April, 2016 Even though the attributes contain very besic information
° of h these are
as ‘sufficient for solid prediction of success of the project
Hình 2.29 Giao diện về tiện ich “Dataset”
1 Thông tin về số lượng bộ đữ liệu có sẵn
2 Nội dung của bộ dữ liệu có săn Mỗi bộ dữ liệu được mô tả với kích thước, số
lượng phiên bản và biến, loại biến mục tiêu và thẻ
Nếu
đạt
Mô tả chính thức của tập dữ liệu được chọn
Send data tự động được đánh dấu, tập dữ liệu đã chọn sẽ tự động được truyền
Trang 23- Data Table: Tiện ích nhận một hoặc nhiều bộ dữ liệu trong đầu vào của nó và trình
bày chúng dưới dạng bảng tính Data Table là nơi lưu trữ và quản lý đữ liệu trong Orange va
cho phép bạn có thể thêm, xóa, sắp xếp và chỉnh sửa đữ liệu trong bảng dữ liệu
Hinh 2.30 Giao dién cua tién ich “Data Table”
- Data Sampler: thực hiện một số phương pháp lấy mẫu dữ liệu Nó xuất ra một bộ dữ
liệu được lấy mẫu và một bộ dữ liệu bỗ sung (với các phiên bản từ bộ đầu vào không có
trong bộ dữ liệu được lay mau) Đầu ra được xử lý sau khi tập dữ liệu đầu vào được cung
cap va Sample Data được nhắn
e Data Sampler
Information o
No data on input
Sampling Type e Fixed proportion of data:
Fixed sample size
Instances: 1 Sample with replacement Cross validation
Number of folds: 10
Selected fold: 1 Bootstrap Options © Replicable (deterministic) sampling Stratify sample (when possible)
Hình 2.31 Giao diện tiện ích “Data Sampler”
1 Thông tin về tập dữ liệu đầu vào và đầu ra
2 Phương pháp lấy mẫu mong muốn:
® “Fixed proportion of data”: trả về một tỷ lệ phan trăm đã chọn của toàn bộ đữ liệu
* “Fixed sample size”: trả về một số phiên bản dữ liệu đã chọn với cơ hội đặt Sample
with replacement, lay mau tir toàn bộ tập dữ liệu Với việc thay thế, ta có thể tạo nhiều
phiên bản hơn sô lượng có săn trong tập dữ liệu đầu vào
* “Cross Validation”: phân vùng các phiên bản dữ liệu thành số tập hợp con bổ sung
được chỉ định
* “Bootstrap”: suy ra từ mẫu từ thong ké dan sé
* “Replicable sampling”: duy trì lấy mẫu có thê được thực hiện giữa những người dùng,
trong khi stratify sample bắt chước thành phần của tập đữ liệu đầu vào
3 Nhan sample Data dé xuat mau đữ liệu
* “Save Data”: Lưu trữ dữ liệu ta thực hiện trên Orange vào máy tính
2.2.2.2 Nhóm Visualize
Chức năng: Dùng dé biéu diễn biểu đồ (chart) Trực quan hóa dữ liệu giúp người dùng
nam bat dit liéu tot hon
Trang 24ee
Linear
Projection oe — Diagram
# tử =-
Silhouette Pythagorean Pythagorean CN2Rule
Plot Tree Forest Viewer
5E
Hình 2.32 Giao diện chức năng Visualize Một số tiện ích thường sử dụng:
* Tién ich “Tree Viewer” là một tiện ích linh hoạt với hình ảnh 2 chiều của cây phân
loại và hồi quy
tal width
Target class: None 8 =
“1700 « >1.700
° Save Image Report
cạnh
Hình 2.33 Giao diện của Tree Viewer Thông tin về đầu vào
Tùy chọn hiển thị: phóng to hoặc thu nhỏ, chọn độ sâu của cây, chiều rộng của
3 Nhắn Save image để lưu biểu đồ cây đã tạo vào máy tính của bạn dưới dạng tỆp svg
hoặc png
4 Tạo báo cáo
Tiện ích “Scatter Plot” là một công cụ hữu ích để hiển thị biểu đồ phân tán của dữ
liệu, cho phép trực quan hoá mỗi quan hệ giữa hai hoặc nhiều biến trong tập đữ liệu
Trang 25sa ee © We-veginica
a e petal length PBOQS | 04-1- B-iseiz
Hình 2.34 Giao diện của tiện ích “Scatter Plot”
Nhóm Model gôm cac “ham may hoc” (machine learmng) phân lớp dữ liệu bằng
phương pháp Tree, Logistic Regression, SVM,
cà và oe
sh ° Random a Linear Logistic Forest Regressi Regressi
sóc ti `, Naive Neural Stochastic Bayes “48B008t Network Gradient
Hi
Save Load
Model Model
Hình 2.35 Các tiện ích có trong nhóm Model
Tiện ích “Tree” là là một thuật toán học máy được sử dụng để phân loại hoặc dự đoán
dữ liệu Cây quyêt định hoạt động bang cách chia dữ liệu thành những mẫu nhỏ hơn dựa
trên các đặc điểm của đữ liệu
Min number of instances in leaves: 2ic
Do not split subsets smaller than: BÍ Limit the maximal tree depth to: 100 ` Classification ° Stop when majority reaches [%]: 95°
° @ Apply Automatically
Report
Hinh 2.36 Giao dién tién ich Tree
1 Người dùng có thể tự đặt tên cho cây Mặc định là '“Tree”
2 Thông số cây:
Trang 26® “Induee binary tree”: xây dựng cây nhị phân
* “Min number of instances in leaves”: nếu được chọn, thuật toán sẽ không bao giờ tạo
một phép tách mà sẽ đặt ít hơn số lượng mẫu huấn luyện đã chỉ định vào bất kỳ nhánh nào
* “Do not split subsets smaller than”: ngăn thuật toán chia các nút có ít số lượng hơn
4 Tạo một báo cáo
® Tiện ich “SVM” (Support vector machine) la thuat toan học máy phân lớp dữ liệu
SVM hoạt động bằng cách tìm một siêu phẳng trong không gian thuộc tính của đữ liệu, sao
cho siêu phăng đó cách đêu các điểm dữ liệu của các lớp khác nhau Khoảng cách giữa các
điểm dữ liệu của các lớp khác nhau được gọi là lê
Kết quả dự đoán của SVM thường có độ chính xác cao Điều này là do SVM tìm cách
tôi đa lề giữa các điểm đữ liệu của các lớp khác nhau Lễ càng lớn, thì các điểm dữ liệu của
các lớp khác nhau càng cách xa nhau, và điều này giúp giảm thiểu khả năng xảy ra sai phân
loại
ee Name eo SVM
SVM Type e Osvm Cost (C) 1,00 °
Regression loss epsilon (e): 0,10 2 v-SVM Regression cost (C):
Nưmerical tolerance: 0,0010
Iteration limit: 100 `
© e Report
Hinh 2.37 Giao dién tién ich SVM
Tên mặc định là “SVM” và người dùng có thé thay đối nó
— Loại SVM va cai đặt lỗi kiểm tra
9 Kernel là một hàm chuyên đối không gian thuộc tính thành không gian đặc trưng mới,
phù hợp với siêu phẳng có lề tối đa
3 Trong Numerical Tolerance, đặt độ lệch cho phép so với giá trị dự kiến Chọn hộp
Iteration Limit dé dat số lần lặp lại tôi đa được phép
nA Nhắn vào Apply để cam kết thay đôi Nếu bạn đánh dấu vào ô bên trái của nút Apply,
các thay đôi sẽ được thông báo tự động
® Tiện ích “Logistic regression” la một kỹ thuật phân tích dữ liệu sử dụng toán học dé
tìm ra mối quan hệ giữa hai yếu tố đữ liệu Mối quan hệ nảy có thê được sử dụng để dự
đoán khả năng xảy ra của một kêt quả nhật định, kết quả này thường chỉ có hai khả năng,
chăng hạn như có khả năng xảy ra hoặc không có khả năng xảy ra
Trang 27Report pply Aut t
Hinh 2.38 Giao dién tién ich Logistic regression
Lift Curve Calibration
- Plot
Hình 2.39 Các tiện ích trong nhóm Evaluate
Một số tiện ích hay sử dụng của nhóm Evaluate
* Tién ich “Test and Score”: là một công cụ trong KHDL giúp đánh giá hiệu suất của các thuật toán Công cụ này sử dụng các chương trình lấy mẫu khác nhau, bao gồm cả việc
sử dụng dữ liệu thử nghiệm riêng biệt Tiện ích thực hiện hai chức năng chính:
- Hién thi bảng với các thước đo hiệu suất của bộ phân loại khác nhau, như độ chính xác
của phân loại và diện tích dưới dwong cong ROC
- Tạo ra kết quả đánh giá Kết quả này có thể được sử dụng bởi các tiện ích khác đểphân
tích hiệu suất của bộ phân loại, chăng han nhu ROC Analysis, Confusion Matrix
Hình 2.40 Giao diện Test and Score
*® Tiện ích “Prediction” dự báo và xuất ra các đữ liệu
* Tién ich “Confusion Matrix” là bước bố sung tiếp theo của Test and Score, đưa ra phan trăm xảy ra các tình huống lớp được dự đoán và lớp thực tế