1. Trang chủ
  2. » Luận Văn - Báo Cáo

đề tài phân tích các yếu tố ảnh hưởng và dự báo phá sản các doanh nghiệp tại mỹ

55 0 0
Tài liệu được quét OCR, nội dung có thể không chính xác
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Phân tích các yếu tố ảnh hưởng và dự báo phá sản các doanh nghiệp tại Mỹ
Tác giả Trần Thị Minh Trực, Lò Huyện Kha, Phó Tuần Thành, Nguyễn Thị Tỳ Uyên
Người hướng dẫn TS.GVC Nguyễn Quốc Hựng
Trường học Đại học Kinh tế TP. Hồ Chí Minh
Chuyên ngành Công nghệ thông tin kinh doanh
Thể loại Báo cáo đồ án học phần khoa học dữ liệu
Năm xuất bản 2023
Thành phố TP. Hồ Chí Minh
Định dạng
Số trang 55
Dung lượng 19,81 MB

Nội dung

Trong đồ án cudi ky, nhóm chúng em sẽ vận dụng những kiến thức và các phương pháp phân tích dữ liệu được tiếp thu trong suốt quá trình học.. Phân tích đữ liệu trong KHDL có thể được sử d

Trang 1

DAI HOC KINH TE TP, HO CHi MINH TRUONG CONG NGHE VA THIET KE KHOA CONG NGHE THONG TIN KINH DOANH

BO MON CONG NGHE THONG TIN

UEH

UNIVERSITY

Dé tai: PHAN TICH CAC YEU TO ANH HUONG VA DU

BAO PHA SAN CAC DOANH NGHIEP TAI MY

Trang 2

BANG PHAN CO AC THANH VIEN 11

Chương 1: GIỚI THIỆU VỀ KHOA HỌC DỮ LIỆU VÀ GIỚI THIỆU ĐỀ TÀI

13

1.1 Giới thiệu về khoa học dữ liệu 13

1.1.1 Khái niệm dữ liệu 13

1.1.2 Tống quan về KHDL, 13

1,1,3 Sự phát triển của KHDL 14

1.1.4 Ứng dụng tiêu biểu của KHDL 15

1.2 Giới thiệu đề tài 15

1.2.1, Lý đo chọn đề tài 15

1.2.2 Mục tiêu nghiên cứu 16

Chương 2: TỎNG QUAN VẺ CHƯƠNG TRÌNH SỬ DỤNG VÀ CÁC PHƯƠNG

2.1, Các phương pháp dùng Excel dé khai phá dữ liệu 18

2.1.1 Thống kê mô tả 18

2.1.2 Phương pháp phân tích dự báo 24

2.1.3 Phương pháp phân tích tối ưu 31

2.4.3 Đánh giá mô hình phân cụm 56

Chương 3: ỨNG DỤNG PHƯƠNG PHÁP VÀO BÀI TOÁN THỰC TẾ 57

4.1 Ưu điểm của mô hình 84

4.2 Hạn chế của mô hình 84

Chương 5: KẾT LUẬN VÀ HƯỚNG PHÁT TRIEN §5

Trang 3

Chương 2

Hinh 2.1 Hop thoai Descriptive Statistics 18

Hinh 2.2 Giao dién Descriptive Statistics 19

Hình 2.3 Số liệu bán hàng trong thang 3 tại siêu thị ABC và hộp thoai Descriptive

Hình 2.10 Hộp thoại Pivot Table 23

Hình 2.11 Thống kê bằng Pivot Table 24

Hình 2.12 Lệnh Data Analysis 24

Hinh 2.13 Lénh Moving Average 25

Hình 2.14 Khai báo các thôngsó 25

Hình 2.18 Đồ thị sau khi Add Trendlin 29

Hinh 2.19 Chon Regression 29

Hình 2.20 Khai báo các thông số 30

Hình 2.21 Tạo bảng tính 32

Hình 2.22 Hộp thoại Solver Parameters 33

Hình 2.23 Đưa các rang bude vao Add Constraint 34

Hình 2.24 Hộp thoại Solver Results 34

Hình 2.25 Kết quả 35

Hình 2.26 Hình ảnh phần mềm Orange 35

Hình 2.27 Các tiện ích trong nhóm Data 36

Hình 2.28 Giao diện tiện ích “Eile” 37

Hinh 2.30 Giao dién cua tién ich “Data Table” 38

Hinh 2.31 Giao dién tién ich “Data Sampler” 39

Hinh 2.32 Giao dién chirc nang Visualize 40

Hình 2.34 Giao dién cia tién ich “Scatter Plot” 41

Hình 2.35 Các tiện ích có trong nhóm Model 42

Trang 4

Hình 2.37 Giao điện tiện ích SVM 43

Hình 2.38 Giao dién tién ich Logistic regression 44

Hinh 2.39 Cac tién ich trong nhom Evaluate 45

Hinh 2.40 Giao dién Test and Score 45

Hình 2.41 Giao diện củ nfusion Matrix 46

Hình 2.42 Các tiện ích của nhóm Unsupervised 46

Hình 2.43 Giao diện K-means 47

Hình 2.44 Quá trình phân lớp dữ liệu 47

Hình 2.45 Hồi quy Logistic 48

Hình 2.46 Cây quyết định 48

Hình 2.47 Ma trận nhằm lẫn 50

Hình 2.48 ROC 50

Hình 2.50 Dữ liệu trước và sau khi được phân cụm 51

Hinh 2.51 Mô hình quá trình phân cum đữ liệu 52

Hinh 2.52 Do thi cia qua trinh phan chia hodc hop nhat theo phuong phap phân cụm phân

cấp 33

Hình 2.53 Phương pháp Agnes 53

Hinh 2.54 Phuong phap Diana 54

Hinh 2.55 So dé giai thích hoạt động của thuật toán k-Means 55

Chương 3

Hình 3.1 Biêu đồ cột thể hiện số công ty phá sản trong giai đoạn từ 2014 - 2018 60

Hình 3.2 Biêu đồ cột thể hiện số công ty chưa phá sản trong giai đoạn từ 2014 -

Hình 3.3 Biéu do histogram thê hiện giá trị biến XI 61

Hình 3.4 Biêu đô tròn thê hiện tỉ trọng các khoảng của biên X2 so với tông công ty cùng kỳ

từ năm 2014 đến 2018 63

Hinh 3.5 Biéu dé histogram thé hiện giá trị biến X3 64

Hình 3.8 Loại bỏ bién “Year” 67

Hình 3.9 Lấy mẫu 70% từ đữ liệu ban đầu 67

Hình 3.10 Kết quả lấy mẫu huấn luyện 68

Hình 3.11 Lấy mẫu 30% từ dữ liệu ban đầu 69

Hình 3 12 Kết quả lấy mẫu huấn luyện 69

Hình 3.13 Thông tin các biến trong tập đữ liệu huấn luyện 70

Hình 3.14 Kết quả mẫu khi chia mẫu đữ liệu 5 phần 71

Hình 3.15 Kết quả mẫu khi chia mẫu đữ liệu 10 phần 71

Hình 3.17 Kết quả khi chia mẫu dữ liệu 20-70% 72

Hình 3.18 Kết quả khi chia mẫu dữ liệu 50-66% 73

Hinh 3.19 Ket qua ma tran nham lan cua phuong phap SVM, Tree va Logistic

Regression 74

Hình 3.20 Kết quả ROC Analysis của 3 phương pháp khi target là alive 75

Hình 3.2L Kết quả ROC Analysis của 3 phương pháp khi target la failed 75

Hình 3.22 Xóa cột “S(atus” trong Excel 76

Trang 5

Hình 3.23 Mô hình hoàn chỉnh 77

Hình 3.24 Kết quả dự báo phá sản bằng phương pháp Logistie Regression 77

Hình 3.25 Kết quả lấy mẫu phân cụm 79

Hình 3.26 Thông tin các biến trong tập đữ liệu huấn luyện 79

Hình 3.27 Nói k-Means vao file dé tinh chi s6 Silhouette 80

Hình 3.28 Chỉ số Silhouette của phương án phân cụm từ 2 đến 10 §0

Hinh 3.29 Re-runs: 10 va Maximum Iterations: 500 80

Hinh 3.30 Re-runs: 20 va Maximum Iterations: 500 81

Hinh 3.31 Re-runs: 50 va Maximum Iterations: 1000 81

Hinh 3.32 Biéu đồ phân phối trường hợp 4 cụm 82

Hình 3.33 Biểu đồ phân phối trường hợp 6 cụm 82

Hinh 3.34 Biéu dé scatter trường hợp phân 4 và 6 cụm 83

0 DANH MUC BANG BIEU

Chương 2

Bảng 2.1 Kết quả sau khi thực hiện 26

Bảng 2.2 Kết quả sau khi thực hiện 27

Bảng 2.3 Vùng địa chỉ chứa lần lượt X và Y 28

Bảng 2.4 Kết quả sau khi thực hiện 31

Bảng 2.5 Bảng số liệu dự án 31

Bang 2.6 Bang chire nang cua File 37

Chương 3

Bảng 3.1 Mô tả dữ liệu các biến 57

Bảng 3.2 Bảng tần số thê hiện tình trạng các công ty qua từng năm (2014 - 2018) 59

Bang 3.3 Bảng liệt kê dữ liệu thống kê tông quan vẻ biến XI 61

Bảng 3.4 Bảng tần số thê hiện tý trọng các khoảng của biến X2 so với tông công ty cùng kỳ

từ năm 2014 đến 2018 62

Bang 3.5 Bảng liệt kê dữ liệ hé kê tổ é bié x3 63

Bảng 3.6 Bảng liệt kê dữ liệu thống kê tông quan về biến X4 64

Bang 3.7 Bang liệt kê dữ liệu thống kê tông quan về biến X5 65

ũ

DANH MUC TU VIET TAT

KHDL: Khoa hoc dit liéu

SVM: Support vector machine

ROC: Receiver Operating Characteristic

AUC: Receiver Operating Characteristic

XI: Vốn lưu động/ Tong tai san

X2: Lợi nhuận sau thuế chưa phân phối/ Tổng tài sản

X3: Lợi nhuận trước lãi vay và thué/Tong tai sản

X4: Vốn chủ sở hữu/ Tổng nợ phải trả

X5: Doanh thu về bán hàng và địch vụ/ Tông tai sản

Ũ Lời cảm ơn

Trang 6

Sau khi hoàn thành đồ án, nhóm chúng em xin gửi lời cảm ơn sâu sắc và chân thành

đến thầy Nguyễn Quốc Hùng- TS GVC bộ môn Khoa học dữ liệu vi trong suốt quá trình

học tập và tìm hiểu, chúng em đã nhận được rất nhiều sự giúp đỡ, tận tình hướng dẫn, giải

đáp thắc mắc nhanh chóng từ thầy Nhờ đó giúp cho dự án của nhóm hoàn thành một cách

nhanh chóng và trọn vẹn hơn

Dù chưa có nhiều kinh nghiệm và còn nhiều hạn chế, nhưng nhóm em đã cô gắng hết

sức để hoàn thành đồ án Vì vậy, đồ án của chúng em có thê không tránh khỏi những thiếu

sót nên nhóm rất mong nhận được những góp ý, nhận xét đến từ thầy

Cuỗi lời thì chúng em xin chúc thầy luôn có nhiều sức khoẻ, hạnh phúc và thành công

trên hành trình ươm mầm và nuôi dưỡng các thế hệ UEH

LỜI MỞ ĐẦU

Khoa học dữ liệu là môn học có tính ứng dụng cực kỳ cao nên hiểu biết và học cách

ứng dụng tốt bộ môn này là điều tiên quyết cho sinh viên của bắt kỳ ngành học nào Trong

đồ án cudi ky, nhóm chúng em sẽ vận dụng những kiến thức và các phương pháp phân tích

dữ liệu được tiếp thu trong suốt quá trình học

Phá sản là một hiện tượng không thê tránh khỏi và tat yéu trong qua trinh phat trién

của nền kinh tế thị trường Khi kinh tế thị trường phát triển, tình trạng phá sản ngày càng

phô biến Đây là một xu hướng tắt yếu trong quá trình cạnh tranh và lựa chọn tự nhiên Mục

đích của việc pha san là loại bỏ những doanh nghiệp yếu kém, từ đó kiểm soát sự phát trién

của nền kinh tế và đóng góp vào việc cơ cấu lại nền kinh tế

Làn sóng phá sản doanh nghiệp đang tăng nhanh chóng nhưng vần có một sỐ doanh

nghiệp vẫn bám trụ được sau hậu quả của đại dịch Covid- 19 Nhiều người cho rằng doanh

nghiệp tổn tại lâu đài là đo họ có nguồn vốn lớn và hoạt động trong ngành hàng thiết yếu

Tuy nhiên, đây chỉ là một góc nhìn không thực sự khách quan Dù có nguôn vôn lớn, nêu

doanh nghiệp không nghiên cứu chính sách sử dụng vốn một cách hợp lý và không đánh giá

khả năng phá sản, họ có thể mắt tất cả chỉ sau một thời gian ngắn Vì vậy, việc dự báo khả

năng phá sản của doanh nghiệp là cần thiết, không chỉ trong giai đoạn dịch bệnh mà còn

trong trạng thái bình thường Điều này giúp doanh nghiệp lựa chọn các phương án thích hợp

dé phát triên vững mạnh và tránh rơi vào tình trạng phá sản (Tiên và cộng sự, 2022)

Do đó, nhóm đã chọn đề tài “Phân tích các yếu tổ ảnh hưởng và dự báo phá sản các

doanh nghiệp tại Mỹ”Í[I

BANG PHAN CONG CAC THANH VIEN

TT Họ và tên Công việc phụ trách Mức độ hoàn thành

1 - Phân công nhiệm vụ, phụ trách

nhận xét và chỉnh sửa bài làm Trần Thị Minh Trúc của các thành viên ; , n= ` 100%

(Trưởng nhóm) - Nội dung chương 4 và 5

- Hoản thiện hình thức đỗ án

- Lam slide

2 - - Nội dung chương 1 va 2

Lê Huyện Kha - Viết “Lời mở đầu” và “Lời 100%

Trang 7

Chương 1: GIỚI THIỆU VẺ KHOA HỌC DỮ LIỆU VÀ GIỚI

THIEU DE TAI

1.1 Giới thiệu về khoa học dữ liệu

1.1.1 Khái niệm dữ liệu "

Dữ liệu là một tập hợp thông tin, tập hợp đó có thê gồm các sô, chữ cái, hình ảnh,

được sử dụng rộng rãi trong các lĩnh vực kỹ thuật, công nghệ, và khoa học đề giúp mọi

người hình dung ra toàn bộ sự vật, sự việc Dữ liệu được đo lường, thu thập, báo cáo và

phân tích trước khi được hiển thị dưới dạng đồ thị, bảng hoặc hình ảnh

Dữ liệu có thể được tổ chức theo cấu trúc hoặc không có cấu trúc, tùy thuộc vào cách

nó được sắp xếp và lưu trữ

1.1.2 Tống quan về KHDL

Khoa học dữ liệu (KHDL) được định nghĩa là “lĩnh vực nghiên cứu dữ liệu nhằm khai

thác những thông tin chuyên sâu có ý nghĩa đỗi với hoạt động kinh doanh” KHDL là một

phương pháp tiếp cận đa ngành, kết hợp các nguyên tắc và phương pháp của toán học,

thống kê, trí tuệ nhân tạo, kỹ thuật máy tính, để phân tích dữ liệu Mục đích của KHDL là

tìm kiếm những thông tin hữu ích từ dữ liệu, nhằm giải quyết các vấn để thực tiễn trong

nhiều lĩnh vực, bao gồm kinh doanh, khoa học, kỹ thuật, y tế, Phân tích đữ liệu trong

KHDL có thể được sử dụng để trả lời các câu hỏi như:

- Sự kiện gì đã xảy ra?

- Tại sao nó xảy ra?

- Sự kiện gì sẽ xảy ra?

- C6 thé str dung két quả thu được cho mục đích gì?

Sự kết hợp giữa trí thông minh của con người và tính tự động hóa của hệ thống giúp

KHDL phân tích dữ liệu một cách chi tiết và sâu sắc, từ đó đưa ra kết quả chính xác hon

Quy trình phân tích KHDL gồm 5 bước:

Bước 1: Đặt vấn đề và thu thập dữ liệu

- Trước hết, chúng ta cần xác định vấn đề hoặc câu hỏi mà bạn muốn giải quyết thông

qua dữ liệu

- Giai đoạn này tập trung vào việc thu thập dữ liệu da ngudn, bao gom cơ sở dữ liệu,

tệp tin, hệ thong cảm biến, mạng xã hội và các nguồn khác Dữ liệu có thê được thu thập

bằng cách tiến hành cuộc khảo sát, sử dụng hệ thông cảm biến, thu thập dữ liệu trực tuyến

hoặc thông qua các nguồn đữ liệu công cộng

Bước 2: Tiền xử lý đữ liệu

~- Kiểm tra và xử lý dữ liệu nhiễu, dữ liệu thiếu hoặc không chính xác

- Chuẩn hóa định dạng dữ liệu và đồng nhất các biến

Bước 3: Chuyên đổi dữ liệu

7 Trích xuất các đặc trưng (feature extraction) hoặc tạo ra các đặc trưng mới từ dữ liệu

gốc

- Áp dụng các phép biến đổi hoặc mã hóa dữ liệu nếu cần thiết

Bước 4: Phân tích dữ liệu

- Áp dụng các phương pháp và mô hình phân tích đữ liệu để tìm kiếm mẫu, tương

quan hoặc phát hiện thông 1in quan trọng

- Sử dụng các kỹ thuật thong kê, máy học và khai phá dữ liệu để xác định mô hình và

tìm ra câu trả lời cho câu hỏi được đặt ra ở bước 1

Bước 5: Trình bày kết quả phân tích

- Trinh bày kết quả phân tích một cách rõ ràng và đễ hiểu bằng cách sử dụng biểu

Trang 8

đồ, đồ thị, bảng và báo cáo

- Giải thích ý nghĩa của kết quả, đưa ra nhận định và khuyến nghị dựa trên phân tích

đữ liệu

1.1.3 Sự phát triển của KHDL,

Với sự phát triên của công nghệ thông tin, kha năng thu thập va lưu trữ dữ liệu của các

công ty và tô chức đã được cải thiện đáng kê, và KHDL đã trở thành một công cụ hữu ích

dé phân tích và đưa ra dự đoán

Trong những năm gan day, KHDL đã trở thành một lĩnh vực rộng lớn vả ngày cảng

phô biến trong nhiều ngành công nghiệp,gồm tài chính, y tế, giáo dục và còn nhiều lĩnh vực

khác

KHDL liên tục tiến bộ và phát triên theo thời gian Sự gia tăng về lượng đữ liệu và sự

phát triên của trí tuệ nhân tạo sẽ mở ra những cơ hội mới cho ngành này Trong tương lai,

KHDL có thể sẽ áp dụng rộng rãi trong các lĩnh vực như tự động hóa, xe tự lát, chăm sóc

sức khỏe thông minh và nhiều lĩnh vực công nghiệp khác

1.1.4 Ứng dụng tiêu biểu của KHDL

KHDL co ứng dụng rộng rãi trong nhiều lĩnh vực Các lĩnh vực và ứng dụng tiêu biểu

bao gồm (TS&TT, 2023):

- Kinh doanh và Marketing: KHDL giúp các doanh nghiệp khai thác dữ liệu khách

hàng, nắm bắt hành vị tiêu dùng, dự đoán xu hướng và tôi ưu hóa chiên luge marketing dé

tăng doanh sô bán hàng và lợi nhuận

- Y tế: Trong lĩnh vực y tế, KHDL đóng vai trò quan trọng trong phân tích dữ liệu y tế,

dự báo dịch bệnh, hỗ trợ chân đoán và phát hiện bat thường trong dữ liệu y khoa

- Tài chính: Trong lĩnh vực tài chính, KHDL được sử dụng dé phan tích dữ liệu tài

chính, dự đoán thị trường tài chính và tôi ưu hóa các chiến lược đầu tư

- Khoa học xã hội: KHDL cung cấp những cơ hội mới trong việc nghiên cứu các xu

hướng xã hội, phân tích dữ liệu xã hội và dự đoán các sự kiện xã hội

- Giao thông vận tải: KHDL giúp môi trường giao thông an toàn hơn cho người điều

khiển giao thông, giúp các phương tiện giao thông được cải tiến, thêm yếu tổ tự động hoá

Thông qua nhiều biển số của thông tin khách hàng, địa điểm, chỉ dẫn kinh tế, logistics,

phương tiện như xe cộ có thê nhận biết đoạn đường thuận lợi và chỉ hướng cho người điều

khiển một cách tự động

1.2 Giới thiệu đề tài

1.2.1 Lý đo chọn đề tài

Sự phá sản của một doanh nghiệp quan trọng, đặc biệt là doanh nghiệp có ảnh hưởng

lớn đến thị trường, sẽ gây ra các hệ lụy tiêu cực đến kinh tế và xã hội

Trước hết, việc phá sản của một doanh nghiệp lớn sẽ dan dén tinh trạng thất nghiệp

đồng loạt Khi doanh nghiệp phá sản, cơ sở kinh doanh sẽ đóng cửa và người lao động sẽ

mat việc làm Điều này gây khó khăn cho người lao động và gia đình họ

Thứ hai, phá sản của một doanh nghiệp sẽ làm giảm tính ôn định của thị trường Khi

một doanh nghiệp quan trọng phá sản, thị trường sẽ mắt đi một nguồn cung lớn về hàng hóa

và dịch vụ Điều này dẫn đến tình trạng tăng giá và gây khó khăn cho người tiêu dùng

Thứ ba, việc phá sản của một doanh nghiệp lớn sẽ ảnh hưởng đến uy tín của các

doanh nghiệp khác Khi một doanh nghiệp quan trọng phá sản, người tiêu dùng sẽ mắt niềm

tin vào các doanh nghiệp khác, dẫn đến giảm doanh số bán hàng

Trước kia, dưới tác động của đại dịch Covid - 19, nhiều doanh nghiệp đã gặp phải vô

vàn khó khăn như chi phí hoạt động gia tăng, doanh thu tăng trưởng chậm, thậm chí có

nguy cơ phá sản Vì thế, những nghiên cứu dự đoán về rủi ro phá sản và tình hình tài chính

của doanh nghiệp hiện nay đã trở thành một trong những lĩnh vực được quan tâm nhiều

nhất Các nghiên cứu nảy cung cấp nền tảng lý thuyết cho việc xây dựng và phát triển các

mô hình nghiên cứu để đo lường các nhân tổ ảnh hưởng đến rủi ro phá sản của doanh

nghiệp Điều này cũng giúp hình thành chính sách và hướng xử lý cho các nha quan lý trong

doanh nghiệp, các tô chức nghề nghiệp và cơ ‘quan quản lý của Nhà nước

Từ những phân tích trên có thé thấy rằng việc nhận diện và phân tích các yếu tố ảnh

hưởng và dự báo việc phá sản của một doanh nghiệp là hết sức cần thiết, vì điều này sẽ hỗ

trợ các doanh nghiệp tìm kiếm lựa chọn phù hợp cho hoạt động kinh doanh của họ, giúp

doanh nghiệp phát triển vững mạnh và tránh rơi vào tình trạng phá sản Do đó, nhóm đã

chọn đề tài “Phân tích các yếu tô ảnh hưởng và dự báo phá sản các doanh nghiệp tại Mỹ”

làm tên đồ án nhằm mục đích giúp các nhà quản lý, nhà đầu tư có thêm thông tin trong việc

ra quyết định của mình

Trang 9

1.2.2 Mục tiêu nghiên cứu

® Phân tích các yếu tô ảnh hưởng đến việc phá sản của các doanh nghiệp đã phá sản và

chưa phá sản tại Mỹ trong giai đoạn 2014 — 2018

* Xây dựng mô hình dự báo nguy cơ phá sản dựa trên các yếu tố đã phân tích bằng

phương pháp phân lớp

* Xây dựng mô hình đánh giá tình trạng doanh nghiệp chưa phá sản bằng phương pháp

phân cụm

* Dé xuất một số khuyến nghị để cải thiện tình trạng doanh nghiệp bằng cách cải thiện

những yếu tổ ảnh hưởng đến việc phá sản

® Thực hành, vận dụng những kiến thức của môn học KHDL vảo thực tế

Các công ty đại chúng của Mỹ được niém yet trên San giao dịch chứng khoán New

York (NYSE) và NASDAQ, gồm dữ liệu kê toán từ 260 công ty riêng biệt được ghi lại

trong giai đoạn từ 2014 đên 2018

ũ

Chuong 2: TONG QUAN VE CHUONG TRÌNH SU DUNG VA

CAC PHUONG PHAP SU DUNG

Nội dung chương gồm tổng quan về chương trình sử dụng và các phương pháp sử

dụng trong đê tài bao gôm: ứng dụng excel để khai phá dữ liệu và các tính năng, phương

pháp sử dụng phân mêm Orange dé áp dụng xử lý bài toán thực tê

2.1 Các phương pháp dùng Excel đề khai phá dữ liệu

2.1.1 Thắng kê mô tả

2.1.1.1 Thắng kê bằng công cụ Descripitive Statistics

Các bước thực hiện:

Bước 1: Chuan bi bang số liệu

Bước 2: Chọn Data > Data Analysis > Descriptive Statistics > Chon OK

Hình 2.1 Hp thoai Descriptive Statistics Bude 3 Trong hép thoai Descriptive Statistics, co thé cài đặt các tùy chọn sau:

* “Input Range”: Phạm vi dữ liệu cần phân tích

* “Output Range”: Pham vi 6 dé luu két qua phân tích

* “Labels in First Row”: Nếu dữ liệu của có hang đầu tiên là tên các thuộc tính, hãy

chọn tùy chon nay dé Excel sẽ bỏ qua hàng đầu tiên khi phân tích

° “Summary Statistics”: Chon tùy chọn này để Excel sẽ hiển thị các thống kê mô tả cơ

bản, bao gồm số lượng giá trị, trung bình, độ lệch chuẩn, v.v

* “Confidence Level for Mean”: Độ tin cậy của giá trị trung bình

Trang 10

© output Range: E8;

New Worksheet Ply:

© New Workbook L1 Summary statistics

L confidence Level for Mean: 95 %

DO kth Largest:

L] Kth Smallest:

Hình 2.2 Giao dién Descriptive Statistics

Ví dụ: Thống kê mô tả cho lượng thịt heo (theo kg) bán được trong tháng 3 tại siêu thi

Số liệu bán hàng trong tháng 03 tại siéu thi ABC như sau masala ents =

liệu Confidence Level for Mean là 95% Nhân OK đề xuất kết quả

* Mean: Giá trị trung bình

Standard Error 1.889595967 ie i

Median 65 * Standard Deviation: D6 léch chuan

Mode 4] « Sample Variance: Phương sai mâu

Standard Deviation 7.558383866| * Kurtosis: Độ nhọn

Sample Variance §7.12916667| + Skewness: Độ bất đối xứng (Độ nghiêng)

Kurtosis -0.538643031 + Range: Khoang bién thién (Max — Min)

Skewness 0.03452706 * Minimum: $6 nho nhat

me = * Maximum: S6 lớn nhất

Maximum 50, sem os -

Sum 575 s Count: Sô lượng phân tử

Count 16 * Confidence Level: D6 tin cậy

F~-<Œ4~.~~~ need (NE 0 "ÔôÔ

Hình 2.4 Kết quả thống kê bằng Descriptive Statistics 2.1.1.2 Báo cáo tông hợp nhóm voi Subtotal

Chức năng của Subtotal:

- Cho phép người dùng tổng hợp nhóm đữ liệu theo một trường (hoặc nhiều trường)

Trang 11

và tính toán các tổng hợp cho mỗi nhóm

- Thực hiện phân tích đữ liệu đễ dàng và nhanh chóng, cung cấp cái nhìn tông quan về

phân phôi của các giá trị trong dữ liệu

Cách thực hiện:

Bước l: Sắp xếp đữ liệu theo cột muốn gom nhóm

Bước 2: Chọn toàn bộ cơ sở đữ liệu

Bước 3: Chọn Data > Qutline > Subtotal

Bước 4: Trong hộp thoại Subtotal, hãy cài đặt các tùy chọn sau:

* “At each change in”: Chọn tiêu chí để tính tổng phụ

* “Use function”: Chọn hàm để tính tông phụ

® “Add subtotal to”: Chọn phạm v1 6 để hiển thị tong phu

* “Replace current subtotal”: Nếu phạm vi ô đã có tổng phụ, có thê chọn tùy chọn

nay dé thay thế tông phụ hiện có bằng tổng phụ mới

* “Page break between groups”: Chọn nếu muốn mỗi nhóm trong báo cáo tổng hợp

nằm trên một trang khác

® “Summary below data”: Chọn nếu muốn tông phụ nằm bên dưới đữ liệu,

Ví dụ minh họa _ _ T

At each change in:

Replace current subtotals

Page break between groups

Summary below data Remove All Cancel

Chức năng của Consolidate: Cho phép hợp nhật dữ liệu từ những bảng dữ liệu khác

nhau Consolidate có thê hợp nhất dữ liệu theo 2 hình thức:

- Tổng hợp theo vị trí: các bảng dữ liệu giống nhau về cấu trúc

Trang 12

Các bước thực hiện:

Bước 1: Chon vùng sẽ chứa dữ liệu được hợp nhất

Bước 2: Chọn Data > Data Tools > Consolidate

We rs SES deena" Cape & sae don at | SanS Soman ne Ww han at ee `

Hình 2.7 Hộp thoại Consoldate Trong đó:

* “Function”: Chon ham dé thie hién hop nhất đữ liệu

* “Reference”: Chon pham vi ô chứa dữ liệu cần hợp nhất

“All reference”: Phạm vi dữ liệu nguồn cần hợp nhát

* “Top row”: Chi dinh hàng chứa nhãn cho đữ liệu cần hợp nhất

“Left column”: Chi định cột chứa nhãn cho đữ liệu cần hợp nhất

Ee Browse

All references:

Add Delete

L] Left column L] Create links to source data

Hình 2.8 Giao diện Consolidate

Ví dụ:

« Funetion: chọn hàm tông hợp

Consolidate oy * Reference: dé tham chiéu lan lurot

faci các bảng dữ liệu nguôn

eee) * All referenees: chứa tât cả các

#irexr vùng dữ liệu nguồn cần thiết cho việc

item Gereonre * Create links to source data: chon

“ma nếu muốn dữ liệu hợp nhất được cập

nhật mỗi khi có thay đôi ở vùng dữ

liệu nguồn

Hình 2.9 Hộp thoại Consolidate 2.1.1.4 Tông hợp đu chiều véi Pivot Table

Các bước thực hiện:

Bước 1: Chọn ô bắt kỳ trong cơ sở dữ liệu

Trang 13

Bước 2: Chọn Insert > PivotTable

i me cj m ore “ese 1 Visio Data Visalizer 1? wert " ww

web Selo Saati: |) Bing Maps Der hee Bie [Sen Po PivorTable Re Table ">> 0 ợn 3 | line

Thời: nations | Adlis cht huh

Hình 2.10 Hộp thoai Pivot Table Create PivotTable ? x

Choose the data that you want to analyze

@ Select a table or range

Table/Range: Sheet1!$A$2:$E$22 ER:

O Use an external data source

Choose whether you want to analyze multiple tables

(_] Add this data to the Data Model

Hinh 2.11 Théng ké bang Pivot Table

2.1.2 Phuong phap phan tich dy bao

2.1.2.1 Phuong phap trung binh truot (Moving Average)

Khái nệm: Phương pháp trung binh truot là một phương pháp được sử dụng để tính

toán trung bình của một tập hợp các giá trị theo thời gian Có tác dụng giúp xác định xu

hướng và mức độ biên động của dữ liệu, giúp cho việc dự đoán và quản lý rủi ro trở nên đê

đàng hơn

Các bước thực hiện:

Bước 1: Chọn phạm vi ô chứa dữ liệu cần tính

Bước 2: Chọn Data > Data Analysis > Moving Average

BeConsolidate

vow Queries 9, Ecomnactions 0 Y: +

l M nữ scene Sources “aire | Yaavences comes len - (fjMamsgeDsaModel „aay ¿ ates Whstff

Son & Fer jer cast tung Anh

Hình 2.12 Lệnh Data Analysis

a Histogram

Cancel Random Number Generation

Rank and Percentile

Regression

Sampling

t-Test: Paired Two Sample for Means

t-Test: Two-Sample Assuming Equal Variances

t-Test: Two-Sample Assuming Unequal Variances

z-Test: Two Sample for Means

Help

Trang 14

Hình 2.13 Lệnh Moving Average Bước 3: Trong hộp thoại Moving Average, cài đặt các tùy chọn sau:

+ “Input Range”: Phạm vi ô chứa đữ liệu cần tinh Moving Average

+ “Interval”: Số lượng giá trị cần tinh Moving Average

+ “Output Range”: Phạm vi ô dé lưu két qua tinh Moving Average

+ “Labels 1n ñrst row”: Nếu đữ liệu của bạn có hàng đầu tiên là tên các thuộc tính, hãy

chọn tùy chọn nảy đề Excel sẽ bỏ qua hàng đâu tiên khi tinh Moving Average

+ “Chart Output”: tùy chọn dùng tạo biêu đồ nhúng cùng với vùng xuất kết qua

» “Standard Errors”: tùy chọn dùng tạo thêm 1 cột chứa các sai số chuẩn

= Input Range: $D$4:$D$19 ñ;

— Cancel L_Ì Labels m First Row

Hel Interval: 4 Help Output options

Qutput Range: $H$5 ñ

L_) chart Output (_) Standard Errors

Hình 2.14 Khai báo các thông số Bảng 2.1 Kết quả sau khi thực hiện

2.1.2.2 Phương pháp san bằng mũ (Exponemial Smoothing) _

Khái nệm: Là phương pháp ước tính giá trị trung bình của chuỗi thời gian và sử dụng

nó đề dự báo giá trị tương lai của chuối thời gian đó

Các bước thực hiện:

Bước 1: Chọn dữ liệu cần dự báo

Bước 2: Chọn Data > Data Analysis > Exponential Smoothing

Trang 15

Data Analysis ? x

Analysis Tools

Anova: Single Factor

Anova: Two-Factor With Replication Cancel

Anova: Two-Factor Without Replication

® “Input Range”: Phạm vi dữ liệu cần dự báo

* “Damping factor”: Hệ số san bằng - một tham số giúp giảm bớt sự đao động của dự

báo, mặc định là (1 - ø)

* “Labels”: Chon néu hàng/cột đầu tiên là tiêu đẻ

® “Output Range”: Phạm vi ô để lưu kết quả dự báo

Exponential Smoothing if x

Input

Input Range: $C$4:$C$20| ERS

Damping factor: 0.6 Cancel

Output options

Qutput Range: $H$4 ERs

New Worksheet Ply

New Workbook

(} chart Output () standard Errors

Hình 2.16 Hộp thoai Exponential Smoothing Bảng 2.2 Kết quả sau khi thực hiện

2.1.2.3 Phương pháp hồi quy (Regression) - ;

Khái niệm: Phương pháp hội quy là một phương pháp được sử dụng đề phân tích môi

quan hệ giữa một biên phụ thuộc và một hay nhiêu biên độc lập Từ đó có thê dự đoán giá

trị của biên phụ thuộc dựa trên các giá trị có săn của biên độc lập

Các bước thực hiện:

Trang 16

- Với kết quả là đồ thị:

Bước 1: Chọn dữ liệu cần phân tích

Bước 2: Chọn phạm vi ô chứa biến phụ thuộc (Y), và vùng phạm vi ô biến độc lập (X)

Bảng 2.3 Vùng địa chỉ chứa lần lượt X và Y PHÂN TÍCH DOANH THU - CHI PHÍ

Hình 2.18 Đồ thị sau khi Add Trendline

Bước 5: Tùy chỉnh đường xu hướng nảy bằng cách sử dụng các tùy chọn Trendline Options

® “Linear”: đường xu hướng tuyến tính

* “Display Equation on chart”: Hién thị phương trình của đường xu hướng trên biểu

đề

* “Display R-squared value on chart”: Hién thị giá trị R-squared trên biểu đồ

- Cách thực hiện bằng céng cu Regression:

Bước 1: Chọn dữ liệu cần phân tích

Bước 2: Chọn Data > Data Analysis > Regression,

Trang 17

— Histogram

Moving Average Cancel

Random Number Generation

Rank and Percentile

Lp

Sampling

t-Test: Paired Two Sample for Means

t-Test: Two-Sample Assuming Equal Variances

t-Test: Two-Sample Assuming Unequal Variances

z-Test: Two Sample for Means

Hinh 2.19, Chon Regression Bước 3: Khai báo các thông số Input va Output Options

“Input Y Range”: Pham vi 6 chita dữ liệu bién phụ thuộc

“Input X Range”: Pham vi ô chứa dữ liệu biến độc lập

“Constant is Zero”: Chọn nếu hệ số tự do của hàm hồi quy tuyến tính bằng 0

“Confidence Level”: Confidence Level: Mức độ tin cậy của mô hình Giá trị mặc định

là 95%

“Output Range”: Phạm vi ô để lưu kết quả phân tích

“New Worksheet Ply”: Xuất kết quả ra bảng tính mới

“New Workbook”: Xuất kết quả ra ñle Excel mới

“Residual Plots”: Dé thi sai s6

“Line Fit Plots”: Dé thị hàm hồi quy tuyến tính

“Normal Probability Plots”: Dé thị xác suất phân phối chuẩn

O Output Range: $F$15|

©) New Worksheet Ply:

© New Workbook Residuals () Residuals () Residual Plots

|_J Standardized Residuals |_} Line Fit Plots Normal Probability

(_) Normal Probability Plots

Hình 2.20 Khai báo các thông số

Bảng 2.4 Kết quả sau khi thực hiện

Trang 18

2.1.3 Phương pháp phân tích tối ưu

2.1.3.1 Lập mô hình tỗi ưu

Bài toán minh họa: Một người nông dân đang phân vân không biết nên trồng bao

nhiêu tấn lúa mì và lúa gạo để đạt được lợi nhuận tôi đa với các số liệu sau:

Nhân công(người/tấn) 15 12 250 người

Các bước lập mô hình tối ưu:

Bước 1: Xác định biến quyết định

Gọi x, là lượng lúa gạo, x„ là lượng lúa mì (tấn) cần trồng

Bước 2: Xác định hàm mục tiêu

Mục tiêu bài toán là tối đa hoá lợi nhuận, ta lập được công thức:

P =P(lúa gao) + P(lua mi) = 18x,+ 21x, > max

- Rang buộc tự nhiên: X,,X,20

2.1.3.2 Sử dụng công cụ SOLVE để giải mô hình tỗi wu:

Bước l: Tạo bảng tính

Trang 19

g_- - Lúa gạo Lúamì Vế trái Về phải

4 Biến quyết định Sản lượng | 1 1

s Hàm mục tiêu Loinhuan | $18 $21 $39-> Max

Min O value of: 0

By Changing Variable Cells:

Options

Select the GRG Nonlinear engine for Solver Problems that are smooth nonlinear Select the LP Simplex

engine for linear Solver Problems, and select the Evolutionary engine for Solver problems that are

* “Set Objective”: Ô chứa giá trị mục tiêu ($E$5)

* “To”: Chọn “Max” vì bài toán này là tôi đa hoá lợi nhuận

* “By Changing Variable Cells”: Chon 6 chita bién quyét dinh ($C$4 :$D$4)

* Dua cac rang buộc vao 6 “Subject to the Constraints” bang cach nhan Add

Add Constraint Cell Reference: Constraint:

Trang 20

Bước 3: Nhắn “Solve” để giải mô hình

Khai báo các lựa chọn trong hộp thoại Solver Results:

* “Keep Solver Solution”: Giit nguyén giai phap cua Solver va in ra bang tinh

* “Restore Original Values”: Huy két quả vừa tìm được và khôi phục giá trị ban đầu của

Solver found a solution All Constraints and optimality

conditions are satisfied

@ Keep Solver Solution

© Restore Original Values

(FJ Return to Solver Parameters Dialog (J Outline Reports

Reports

Creates the type of report that you specify, and places each report on a separate sheet in the workbook

Hình 2.24 Hộp thoai Solver Results Bước 4: Nhắn OK

Lúa gạo | Lua mi Về trái Về phải

Biến quyết định Sản lượng | 7 | 12

Hàm mục tiêu Lợi nhuận $18 $21 $378-> Max

Diện tích 2 3 50 <= 50

Hé rang bugéc_— Lugng nue | 6 | 4 90) <= | 90

E5 = SUMPRODUCT($C$4:$D$4,C5:D5) E6 = SUMPRODUCT($C$4:$D$4,C6:D6) E7 = SUMPRODUCT($C$4:$D$4,C7:D7) E8 = SUMPRODUCT($C$4:$D$4,C8:D8)

Hình 2.25 Kết quả

Và ta thu được kết qua bai toan là để thỏa mãn tất cả điều kiện ràng buộc ta sẽ đạt lợi

nhuận tôi đa là 378 đô la với việc trông 7 cây lúa gạo và 12 cây lúa mì

Trang 21

Tuy nhiên, đây cũng là những lĩnh vực phức tạp và khó khăn đối với người dùng mới Để

giải quyết vân để nảy, nhiêu phân mềm khai phá dữ liệu và học máy đã được phát triển,

trong dé cd Orange

Orange là một phần mềm mã nguồn mở, tích hợp nhiều công cụ khai phá dữ liệu và

học máy hiện đại Phân mêm nảy có giao diện trực quan vả dễ sử dụng, giúp người dùng có

thê dê dàng thực hiện các thao tác phân tích dữ liệu và xây dựng mô hình

Data Table Paint Data Data Info Sampler

Salect Select Rows Pivot Table Rank Columns

- File: cho phép đọc dữ liệu từ một tệp đầu vào và gửi dữ liệu đó đến một kênh đầu ra

Tiện ích này cũng lưu giữ lịch sử của các tệp đã mở gân đây và bao gôm một thư mục chứa

các bộ dữ liệu mâu duge cai dat san voi Orange

Trang 22

OFile: ¢s-training.csv = © Reload URL:

1 ature 1 numeric skip

3 RevolvingUti numeric feature

4 age numeric feature

5 NumberOfTi numeric feature

6 DebtRatio numeric feature

7 Monthlylnco numeric feature

6 NumberOfO numeric feature

Browse documentation datasets Apply

Hình 2.28 Giao diện tiện ich “File”

Bảng 2.6 Bảng chức năng cua File

Info Instances: ban ghi

Features: trường dữ liệu Missing values/ No Missing values: trường bị lỗi/ trường không bị lỗi

Columns | Name: Tên thường

Type: Kiểu dữ liệu

Role: Vai trò các trường dữ liệu và thông thường dữ liệu tồn tại ở 2 dạng ( feature: trường độc lập, target: trường phụ thuộc )

- Datasets: Chức năng giúp nạp dữ liệu và kết nỗi với các dữ liệu trên Internet được

chia sẻ miên phí Và đây cũng là nơi cung cấp các thông tin mô tả về bộ dữ liệu trong phân

Description

ene Data Sets

toto ° Tite a Sue Instances Varabies Target Tage e

detects ris 4.5 K8 150 5 @ categorical

3 data sets cached Kickstarter p 24.1 kB 1183 15 @ categorical

Poker Hand 28.9 MB 1025010 10 @ categorical synthetic

Sailing 456 bytes 20 3 @ categorical wee, synthetic Titanic 441KB 2201 4 B categorical Traffic accid 4.3 M8 17931 18 location, date, traffic Traffic acid 2.8 MB 32857 1 location, date, traffic Traffic signs 3.8K 40 3 @ categorical images

campaigns started from January to April, 2016 Even though the attributes contain very besic information

° of h these are

as ‘sufficient for solid prediction of success of the project

Hình 2.29 Giao diện về tiện ich “Dataset”

1 Thông tin về số lượng bộ đữ liệu có sẵn

2 Nội dung của bộ dữ liệu có săn Mỗi bộ dữ liệu được mô tả với kích thước, số

lượng phiên bản và biến, loại biến mục tiêu và thẻ

Nếu

đạt

Mô tả chính thức của tập dữ liệu được chọn

Send data tự động được đánh dấu, tập dữ liệu đã chọn sẽ tự động được truyền

Trang 23

- Data Table: Tiện ích nhận một hoặc nhiều bộ dữ liệu trong đầu vào của nó và trình

bày chúng dưới dạng bảng tính Data Table là nơi lưu trữ và quản lý đữ liệu trong Orange va

cho phép bạn có thể thêm, xóa, sắp xếp và chỉnh sửa đữ liệu trong bảng dữ liệu

Hinh 2.30 Giao dién cua tién ich “Data Table”

- Data Sampler: thực hiện một số phương pháp lấy mẫu dữ liệu Nó xuất ra một bộ dữ

liệu được lấy mẫu và một bộ dữ liệu bỗ sung (với các phiên bản từ bộ đầu vào không có

trong bộ dữ liệu được lay mau) Đầu ra được xử lý sau khi tập dữ liệu đầu vào được cung

cap va Sample Data được nhắn

e Data Sampler

Information o

No data on input

Sampling Type e Fixed proportion of data:

Fixed sample size

Instances: 1 Sample with replacement Cross validation

Number of folds: 10

Selected fold: 1 Bootstrap Options © Replicable (deterministic) sampling Stratify sample (when possible)

Hình 2.31 Giao diện tiện ích “Data Sampler”

1 Thông tin về tập dữ liệu đầu vào và đầu ra

2 Phương pháp lấy mẫu mong muốn:

® “Fixed proportion of data”: trả về một tỷ lệ phan trăm đã chọn của toàn bộ đữ liệu

* “Fixed sample size”: trả về một số phiên bản dữ liệu đã chọn với cơ hội đặt Sample

with replacement, lay mau tir toàn bộ tập dữ liệu Với việc thay thế, ta có thể tạo nhiều

phiên bản hơn sô lượng có săn trong tập dữ liệu đầu vào

* “Cross Validation”: phân vùng các phiên bản dữ liệu thành số tập hợp con bổ sung

được chỉ định

* “Bootstrap”: suy ra từ mẫu từ thong ké dan sé

* “Replicable sampling”: duy trì lấy mẫu có thê được thực hiện giữa những người dùng,

trong khi stratify sample bắt chước thành phần của tập đữ liệu đầu vào

3 Nhan sample Data dé xuat mau đữ liệu

* “Save Data”: Lưu trữ dữ liệu ta thực hiện trên Orange vào máy tính

2.2.2.2 Nhóm Visualize

Chức năng: Dùng dé biéu diễn biểu đồ (chart) Trực quan hóa dữ liệu giúp người dùng

nam bat dit liéu tot hon

Trang 24

ee

Linear

Projection oe — Diagram

# tử =-

Silhouette Pythagorean Pythagorean CN2Rule

Plot Tree Forest Viewer

5E

Hình 2.32 Giao diện chức năng Visualize Một số tiện ích thường sử dụng:

* Tién ich “Tree Viewer” là một tiện ích linh hoạt với hình ảnh 2 chiều của cây phân

loại và hồi quy

tal width

Target class: None 8 =

“1700 « >1.700

° Save Image Report

cạnh

Hình 2.33 Giao diện của Tree Viewer Thông tin về đầu vào

Tùy chọn hiển thị: phóng to hoặc thu nhỏ, chọn độ sâu của cây, chiều rộng của

3 Nhắn Save image để lưu biểu đồ cây đã tạo vào máy tính của bạn dưới dạng tỆp svg

hoặc png

4 Tạo báo cáo

Tiện ích “Scatter Plot” là một công cụ hữu ích để hiển thị biểu đồ phân tán của dữ

liệu, cho phép trực quan hoá mỗi quan hệ giữa hai hoặc nhiều biến trong tập đữ liệu

Trang 25

sa ee © We-veginica

a e petal length PBOQS | 04-1- B-iseiz

Hình 2.34 Giao diện của tiện ích “Scatter Plot”

Nhóm Model gôm cac “ham may hoc” (machine learmng) phân lớp dữ liệu bằng

phương pháp Tree, Logistic Regression, SVM,

cà và oe

sh ° Random a Linear Logistic Forest Regressi Regressi

sóc ti `, Naive Neural Stochastic Bayes “48B008t Network Gradient

Hi

Save Load

Model Model

Hình 2.35 Các tiện ích có trong nhóm Model

Tiện ích “Tree” là là một thuật toán học máy được sử dụng để phân loại hoặc dự đoán

dữ liệu Cây quyêt định hoạt động bang cách chia dữ liệu thành những mẫu nhỏ hơn dựa

trên các đặc điểm của đữ liệu

Min number of instances in leaves: 2ic

Do not split subsets smaller than: BÍ Limit the maximal tree depth to: 100 ` Classification ° Stop when majority reaches [%]: 95°

° @ Apply Automatically

Report

Hinh 2.36 Giao dién tién ich Tree

1 Người dùng có thể tự đặt tên cho cây Mặc định là '“Tree”

2 Thông số cây:

Trang 26

® “Induee binary tree”: xây dựng cây nhị phân

* “Min number of instances in leaves”: nếu được chọn, thuật toán sẽ không bao giờ tạo

một phép tách mà sẽ đặt ít hơn số lượng mẫu huấn luyện đã chỉ định vào bất kỳ nhánh nào

* “Do not split subsets smaller than”: ngăn thuật toán chia các nút có ít số lượng hơn

4 Tạo một báo cáo

® Tiện ich “SVM” (Support vector machine) la thuat toan học máy phân lớp dữ liệu

SVM hoạt động bằng cách tìm một siêu phẳng trong không gian thuộc tính của đữ liệu, sao

cho siêu phăng đó cách đêu các điểm dữ liệu của các lớp khác nhau Khoảng cách giữa các

điểm dữ liệu của các lớp khác nhau được gọi là lê

Kết quả dự đoán của SVM thường có độ chính xác cao Điều này là do SVM tìm cách

tôi đa lề giữa các điểm đữ liệu của các lớp khác nhau Lễ càng lớn, thì các điểm dữ liệu của

các lớp khác nhau càng cách xa nhau, và điều này giúp giảm thiểu khả năng xảy ra sai phân

loại

ee Name eo SVM

SVM Type e Osvm Cost (C) 1,00 °

Regression loss epsilon (e): 0,10 2 v-SVM Regression cost (C):

Nưmerical tolerance: 0,0010

Iteration limit: 100 `

© e Report

Hinh 2.37 Giao dién tién ich SVM

Tên mặc định là “SVM” và người dùng có thé thay đối nó

— Loại SVM va cai đặt lỗi kiểm tra

9 Kernel là một hàm chuyên đối không gian thuộc tính thành không gian đặc trưng mới,

phù hợp với siêu phẳng có lề tối đa

3 Trong Numerical Tolerance, đặt độ lệch cho phép so với giá trị dự kiến Chọn hộp

Iteration Limit dé dat số lần lặp lại tôi đa được phép

nA Nhắn vào Apply để cam kết thay đôi Nếu bạn đánh dấu vào ô bên trái của nút Apply,

các thay đôi sẽ được thông báo tự động

® Tiện ích “Logistic regression” la một kỹ thuật phân tích dữ liệu sử dụng toán học dé

tìm ra mối quan hệ giữa hai yếu tố đữ liệu Mối quan hệ nảy có thê được sử dụng để dự

đoán khả năng xảy ra của một kêt quả nhật định, kết quả này thường chỉ có hai khả năng,

chăng hạn như có khả năng xảy ra hoặc không có khả năng xảy ra

Trang 27

Report pply Aut t

Hinh 2.38 Giao dién tién ich Logistic regression

Lift Curve Calibration

- Plot

Hình 2.39 Các tiện ích trong nhóm Evaluate

Một số tiện ích hay sử dụng của nhóm Evaluate

* Tién ich “Test and Score”: là một công cụ trong KHDL giúp đánh giá hiệu suất của các thuật toán Công cụ này sử dụng các chương trình lấy mẫu khác nhau, bao gồm cả việc

sử dụng dữ liệu thử nghiệm riêng biệt Tiện ích thực hiện hai chức năng chính:

- Hién thi bảng với các thước đo hiệu suất của bộ phân loại khác nhau, như độ chính xác

của phân loại và diện tích dưới dwong cong ROC

- Tạo ra kết quả đánh giá Kết quả này có thể được sử dụng bởi các tiện ích khác đểphân

tích hiệu suất của bộ phân loại, chăng han nhu ROC Analysis, Confusion Matrix

Hình 2.40 Giao diện Test and Score

*® Tiện ích “Prediction” dự báo và xuất ra các đữ liệu

* Tién ich “Confusion Matrix” là bước bố sung tiếp theo của Test and Score, đưa ra phan trăm xảy ra các tình huống lớp được dự đoán và lớp thực tế

Ngày đăng: 10/08/2024, 16:06

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w