phân tích tình hình doanh thu của ida dựa trên dữ liệu historical ida balance sheets data bằng phần mềm orange

Tong Quan Vé Cac Phương Pháp Sử Dụng: TLL Quá trình thực hiện trì thức và khai phá đữ liệu: - Việc chọn lọc và sử dụng thông tin hiệu quả có thể quyết định sự thành công trong phân tích

Trang 1

BỘ GIÁO DỤC VÀ ĐÀO TẠO DAI HOC KINH TE TP HO CHI MINH TRUONG CONG NGHE VA THIET KE

UEH

UNIVERSITY

ĐỎ ÁN MÔN HỌC

ĐÈ TÀI:

PHAN TICH TINH HINH DOANH THU CUA IDA DUA TREN DU LIEU

“Historical IDA Balance Sheets Data” BANG PHAN MEM ORANGE

Học phần: Khoa học dữ liệu Nhóm Sỉnh Viên:

Giảng Viên: TS Võ Thành Đức

TP Hồ Chí Minh, Ngày 28 tháng 02 năm 2023

Trang 2

1.1 _ Tổng Quan Về Các Phương Pháp Sử Dụng 0 SH 21222212 rryu 2

LAL Quá trình thực hiện trì thức và khai phá dữ HIỆM: à cac ch HH HH Hy re 2

PM 1Ì :.:Ớớ:ẳẳẳẢẳăăảẳăẳăảảẳảầảäăăảảỶảỶẳả 2

113 Tổng quan về phân cụm dữ liỆH à on T222 222 rve 3

12 Giới Thiệu Về Phần Mềm Orange

13 Lý Do Chọn Đề Tài

2.2 _ Trình Bảy Sơ Lược Các Thuộc Tính Lựa Chọn Đưa Vào Mô Himh: 223cc 10

2.3 Tiên Xử Lý Dữ Liệu HH HH HH HH He rrưk 13

3.1 _ Thực Hiện Mô Hình Dự Đoản: ccceccccecencncecececcnteueeececensuavevecensniseeeecevnutevareevensnrvenees 16

3.2 Kết Qủa Của Từng Phương Pháp: 2S 2n n1 nang rxrrue 16

a Phân cụm phân lớp (Hierarchical Clhustering) bằng phương pháp Diana con 16

b Phân tích phân hoạch sử dụng thuộc tính K-means 3 2 20 2212211211221 221128121811 xcsxe 19

CHƯƠNG 4 ĐÁNH GIÁ VẢ LỰA CHỌN MÔ HÌNH

4.1 Các Kết Quả Đạt Được c2 2222222222112 eruee

Trang 3

CHUONG 1 TONG QUAN

1.1 Tong Quan Vé Cac Phương Pháp Sử Dụng:

TLL Quá trình thực hiện trì thức và khai phá đữ liệu:

- Việc chọn lọc và sử dụng thông tin hiệu quả có thể quyết định sự thành công trong phân tích dữ liệu Điều đó co nghĩa phải tìm ra những gái trị tiềm ẩn, các yếu tố tác động

và những xu hướng phát triển của các dữ liệu có sẵn ấy Quá trình đó được gọi là quá trinh phá hiện trị thức (Knowledge Diseovery in Database - KDD) ma trong do khai phá

dữ liệu là một kỹ thuật quan trọng cho phép ta hu được các trị thức mong muốn

- _ Sơ đồ quá trình phát hiện tri thức gồm 5 bước cơ bản sau:

- _ Bước l: Chon lọc dữ liệu( selection): Giai đoàn này cần thu gom các đữ liệu khai thác được vào một cơ sở dữ liệu (CSDL) riêng ở bước này, chúng ta chi cần chọc lọc và giữ lại những dữ liệu cần thiết và giai đoạn sau yêu cầu Tuy nhiên, công việc này thường khó khăn và tốn nhiều thời gian vì dữ liệu tồn tại ở nhiều dạng khác nhau và nằm rải rác khắp nơi

- - Bước 2: Tiền xử lý dữ liệu (preprocessing): Khi tập hợp dữ liệu thường mắc phải một số lỗi như dữ liệu thiếu logic, thiếu chặt chẽ, chưa đầy đủ, hiếm khi nào các dữ liệu thu thập được đều mang tính nhất quán Do đó, “tiền xử lý” là một bước quan trọng giúp hạn chế những kết quả sai lệch không mong muốn trước khi bước vào qua trình khai phá

đữ liệu

- - Bước 3: Chuyên đổi dữ liệu (transformation): Dinh dang lai cầu trúc của dữ liệu

hỗ trợ cho việc phân tích dữ liệu dé dàng và cái thiện kết quả phân tích

- Bước 4: Khai phá dữ liệu ( Data mining): Vận dụng các phương pháp thống kế, phân tích dự đoán, các thuật toán học máy dé chon lọc thông tin chỉ tiết từ bộ dữ liệu đã chuẩn bị trước Áp dụng các phương pháp tính toán xây dựng mô hình giải quyết cho vấn

đề được đặt ra

- _ Bước 5: Trình bày kết quả phân tích (interpretation evaluation): Đây cũng là bước cuỗi cùng trong quá trình phát hiện tri thức (KDD) Dựa trên những tiêu chuẩn đánh giá phù hợp sẽ được chọn lọc và sử dụng sao cho các mẫu dữ liệu được trích bởi các phần mềm khai phá đữ liệu có thê sử dụng được

Từ quá trình phát hiện tri thức, ta thấy các kỹ thuật phát hiện tri thức trải qua rất nhiều giai đoạn và sử dụng nhiều phương pháp đề cho ra kết quả cuối cùng Đây là một quá trình liên tục, đầu vào của gia đoạn sau xuất phát từ đầu ra của giai đoạn trước Trong đó khai phá dữ liệu được coi trọng hơn cả bởi việc tìm ra những tri thức và thông tin có cầu

trúc chặt chẽ tiềm an trong khi dữ liệu khong lồ

1.12 Tiên xử lý dữ liệu:

Dữ liệu thực tế thường không đây đủ , nhiễu và không nhát quán Các kỹ thuật tiền xử

ly dữ liệu nhằm mục đích cải thiện được chất lượng của dữ liệu, dó đó nó giúp các quá

tình khai phá dữ liệu chính xác và hiệu quả Tiền xử lý dữ liệu là một bước quan trọng trong quá trình khai phá tri thức bởi vì các quyết định dựa trên chất lượng của dữ liệu

Quá trình làm sạch dữ liệu bao gồm làm sạch dữ liệu, tích hợp, biến đôi dữ liệu và rút

gọn dữ liệu

1.12.1 Làm sạch dữ liệu

Dữ liệu trong thực tế thường không đầy đủ, nhiễu và không nhất quán Quá trình làm sạch dữ liệu có gắng điền các giá trị thiếu, loại bỏ nhiễu, và sữa chữa sự không nhất quán của dữ liệu

Trang 4

Với dữ liệu bị thiếu:

Too long to read on your phone? Save to

Bỏ qua bộ có giá trị thiêu: PB

hoặc lớp bị thiêu Phương phát computer

trị trong từng thuộc tính đáng |

Điền bằng tay các giá trị bị t

không khả thi khi thực hiện trê

Sử dụng một hằng số toàn Cục ‹

read later on your

Save to a Studylist

toàn bộ các giá tj bị thiếu của thuộc tính bằng một hằng số _ như

“Unknown” hay vô cực

Sử dụng các giá trị trung bình của thuộc tính cho tất cả mẫu thử thuộc về

cùng một lớp với bộ mã đã cho

Sử dung mot gia trị có khá năng cao nhất để điền vào các giá trị thiểu: giá trị này có thê tìm ra bằng phương pháp hồi quy, hay dựa trên các cộng cụ sử dụng hình thức Bayesian

Với dữ liệu nhiễu: Nhiễu là một lối hay một sự mâu thuẫn ngẫu nhiên trong việc đo các biến số Các kỹ thuật loại bỏ nhiễu bao gồm:

"_ Phương pháp Bing: Đầu tiên sắp xếp dữ liệu và phân hoạch đữ liệu thành những bín Sau đó, người dùng có thể làm trơn dữ liệu bằng các giá trị trung bình của bin, bằng các biên của bi Bin có độ rộng

càng lớn thì tập dữ liệu thu được càng “trơn”

" Phương pháp hồi quy: Phương pháp hồi quy tuyến tính tìm một đường thăng tôi ưu để khít với 2 thuộc tính (hay 2 biến), do đó một thuộc tính có thể dùng để dự đoán thuộc tính còn lại

"_ Phương pháp phân cụm: Các giá trị ngoại lai có thể được dò hỏi bởi

sự phân cụm, trong đó các giá trị được tô chức thành các nhóm, hay

còn gọi là cái “cluster” Bằng trực giác, các giá trị rơi ra ngoài tập hợp của các cluster có thể được xem như là các giá trị ngoại lai

1.1.3 Tổng quan về phân cụm dữ liệu:

> Định nghĩa:

Là quá trình gom cụm/nhóm các đối tượng/dữ liệu có đặc điểm tương đồng vào

các cụm/nhóm tương ứng, Trong đó:

"Các đối tượng frong cùng một cụm sẽ có tính chất tương tự nhau

"Các đối tượng thuộc cụm/nhóm khác nhau sẽ có tính chất khác nhau

Dữ liệu của bài toán là dữ liệu chưa gán nhãn, là dữ liệu thường thấy trong thực tế

Trang 5

Hình 1.1: Mô hình về quá trình phân cụm dữ liệu

> Dac diem:

- Nhiệm vụ chính là tìm ra và đo đạc sự khác biệt giữa các đối tượng dữ liệu

-_ Phân cụm thuộc nhóm phương pháp học không giám sát vì không biệt trước

được sô nhóm

- _ Phương pháp phân cụm tốt là phương pháp tạo ra các cụm có chất lượng cao

- _ Là công cụ phân dữ liệu độc lập hoặc là giai đoạn tiên xử lý cho các thuận toán khác

> Phân loại một số phương pháp phân cụm chính:

Dựa trên phân cấp

(Hierarchical approach) Phân cấp các đối tượng dựa trên một số tiêu chí Diana, Agnes, BIRCH, CAMELEON

Dựa trên phân hoạch Xây dựng các phân hoạch khác nhau và đánh giá chúng

(Partitioning approach) Sau đó, tim cách tối thiểu hóa tổng bình phương độ lỗi |K-means, k-medoids, fuzzy C-means Dựa trên mật độ

(Density-based approach) Dựa trên các kết nối giữa các đối tượng và hàm mật độ |DBSCAN, OPTICS, DenClue Dựa trên lưới

(Grid-based approach) Dựa trên cấu trúc độ chỉ tiết nhiều cấp STING, WaveCluster, CLIQUE

Dựa trên mô hình Giả định mỗi cụm có một mô hình và

(Model-based) tìm cách fit mô hình đó vào mỗi ụm EM, SOM, COBWEB

Hình 1.2: Một số phương pháp phân cụm chính

> Các ứng dụng phân cụm trong kinh tế:

- _ Dự báo khách hàng tiềm năng

- _ Phân tích xu hướng hành vi khách hàng

- _ Phân tích đặc tính sản phẩm dịch vụ

- _ Đánh giá kết quả hoạt động kinh doanh

- _ Phân tích hàng vi người dùng mạng xã hội

»> Phân tích phương pháp phân cụm chính được sử dụng trong đề tài:

" Phân cụm phân cập (Hierarchical Clustering) bằng phương pháp Diana:

®- Phân cụm phân cấp (Hierarchical Clustering):

Xây dựng một cây phân cấp cho dữ liệu cần gom cụm dựa trên:

- _ Ma trận khoảng cách giữa các phần tử (similarity matrix hoặc

dissmilarity matrix)

- Dodo khoang cach gitra cac cum (single link, complete link )

Phương pháp này không cần xác định trước số cụm như cần xác định

điều diện dừng

Các phương pháp điển hình : Dmana, Agnes,

s- Phân cụm phân cấp bằng phương pháp Diana:

Theo chiến lược top down:

- Bat dau với Ì cụm gồm tất cả các phần tử

- _ Ở mỗi bước, chia cụm ban đầu thành 2 cụm

Trang 6

=> Khoảng cách giữa 2 cụm là khoảng cách giữa 2 điểm gần nhất từ hai cụm, hoặc khoảng cách trung bình

- _ Thực hiện đệ quy trên các cụm mới được tách ra và lặp lại cho đến khi

Trang 7

= Phân cụm phân hoạch bằng thuật toán K-means:

® Phân cụm phân hoạch:

Phân tập dữ liệu có n phần tử cho trước thành k tập con (k<=n), mỗi tập con biểu diễn một cụm

Các cụm hình thành trên cơ sở tối ưu hóa giá trị hàm độ đo tương tự (đô đo phân cụm) sao cho:

- Mỗi đối tượng thuộc duy nhất Ì cụm, các phần tử trong cụm có

sự tương tự như nhau

- - Mỗi cụm có ít nhất | phan ter

Thuật toán điển hình: K-means, K-mediods, Fuzzy C-means

® Thuật toản K-meqns Thuộc nhóm thuật toán phân cụm dựa trên phân hoạch

Ta xem mỗi đối tượng trong tập dữ liệu là một điểm trong không gian d chiều (với d là số lượng thuộc tính của đối tượng)

- _ Bước 1: Chọn k điểm bất kỳ làm các trung tâm ban

- Bước 3: Cập nhật lại trung tâm cho từng cụm bằng

cách lây trung bình cộng của tất cả các điểm dữ liệu đã

được gán vào cụm đó sau khi phân chia ở bước 2

- Bước 4: Quay lại bước 2

12 Giới Thiệu Về Phần Mềm Orange

Phần mềm Orange là phần mềm được làm ra với mục tiêu giúp người dùng có thể

dễ dàng nghiên cứu về các bài toán khai phá dữ liệu và học máy

Phan mén được biết đến với việc tích học các công cụ khai phá dữ liệu mã nguồn

mở và học máy thông minh, đơn giản, được lập trình bằng Python với giao diện trực quan

và tương tác dễ dàng Ngoài ra, phần mềm này có thê phân tích được những dữ liệu từ

đơn giản đến phức tạp, tạo ra những đồ họa đẹp mắt và thú vi

Các cộng cụ (widget) cung cấp các chức năng cơ bản như đọc dữ liệu, hiển thị dữ liệu dạng bảng, lựa chọn thuộc tính đặc điểm của dữ liệu dạng bảng, lựa chọn thuộc tính đặc điểm của dữ liệu, huấn luyện dữ liệu để dự đoán, so sánh các thuật toán máy học, trực

quan hóa các phần tử dự liệu,

Data: Dùng đề nạp dữ liệu, rút trích, biến đổi, lưu dữ liệu

Trang 8

Visualize: ding dé biéu dién biéu 46 (chart) giúp quan sát dữ liệu được tốt hơn

Venn Silhouette § Pythagorean

— Diagram Plot Tree

tử —

Pythagorean CN2 Rule

Forest rae Nomogram

Model: gồm các ham may hoc (machine learning) phan dp dit liéu voi Tree, Logictis, SVM

Trang 9

fa ihe

Random Gradient Forest Boosting

Z ® Logistic Regression a

e

Neural Stochastic Network Gradient De

Calibration Plot

Trang 10

Unsupervised: Gom các hàm máy học (machine learning) gom nhóm dữ liệu như:

= fl @ Save Distance Self-Organiz

1.3 Ly Do Chon Dé Tài

1.3.1 Cơ sở hình thành, mục tiêu của đề tài nghiên Cử:

Khoa học đữ liệu đóng vai trò rat quan trọng trong một số ngành thuộc về kinh tế- như: thương mại điện tử, ngân hàng, tài chính hay là ngay ca trong y té Thuật toán trong Khoa học dữ liệu có thê thúc day nang suat lam viéc, phat triển công việc theo định hướng bềnh vững bằng cách chat lọc những dữ liệu sẵn

có của doanh nghiệp Nó cho phép công ty dự báo nhiều giá trị khác nhau, thị phần

họ đang và có thể chiếm lĩnh, hoặc sử dung Machine learning và dựa vào đó dé

phan tich tinh hinh tai chinh

Hiệp hội Phát triển Quốc té, viết tắt theo tiếng Anh là IDA ( International Development Association) 1a m6t tô chức phi lợi nhuận quốc tế hoạt động trong lĩnh vực cung cấp hỗ trợ tài chính cho các quốc gia nghèo nhất thế giới, và các quốc gia đang phát triển có trình độ thấp Được thành lập năm 1960 và có trụ sở tại Washingtion D.C Mỹ

Nhận thấy được tầm quan trọng của [DA và lợi ích thiết thực mà khoa học

dữ liệu, nhóm đã chọn đề tài: “ Phân tích tình hình tài chính của tổ chức IDA

thông qua phân tích Bảng cân đối kêt toán”

Qua việc phân tích tình hình tài chính của IDA, nhóm sẽ biết được tình hình tài chính của IDA đang trên đà phát triển hay bị suy giảm, đưa ra một số lý do có thê là nguyên nhân của việc dẫn đến suy giảm, và một số đề xuất giúp tỉnh hình tài chính càng thêm phát triền

1.3.2 Đối tượng nghiên cứu:

MDS

Trang 11

Đối tương nghiên cứu: Bao gồm các thành phần trong bảng cân đối kế toán được dua vao m6 hinh nhu: Classification, Grouping, Final Catergory, Category, Year, Amount, Line Item Description

Phạm vi nghiên cứu: Bao gồm có 1797 mẫu (instance) được cung cấp bởi World Bank Group và chủ sở hữu là World Bank Group Finances Dữ liệu được cập nhật lần

cuối 9/1/2022

10

Trang 12

CHƯƠNG 2 THU THẬP VÀ LÀM SẠCH DỮ LIỆU

2.1 Mô Tả Tổng Quát Dữ Liệu:

- Bộ dữ liệu “Historical IDA Balance Sheets Data.csv” —- nguồn : Historical [DA

Balance Sheets Data | WBG Open Finances (worldbank org)

- Bé6 dtr ligu cé 1797 mẫu (instances) được cung cấp bởi World Bank Group và chủ

sở hữu là World Bank Group Finances Dữ liệu được cập nhật lần cuối 9/1/2022

- Dữ liệu được thu thập ty nam 1961 - 2022

Bộ dữ liệu chứa dữ liệu từ bảng cân đối kế toán từ báo cáo tài chính đã xuất bản của IDA

2.2 Trình Bày Sơ Lược Các Thuộc Tính Lựa Chọn Đưa Vào Mô Hinh:

11

Trang 13

Final Dan Featur

Catergory h muc ono

12

Tiêu đề	Phân Tích Tình Hình Doanh Thu Của IDA Dựa Trên Dữ Liệu “Historical IDA Balance Sheets Data” Bằng Phần Mềm Orange
Tác giả	Vừ Tuấn Cường, Vũ Minh Dat, Tran Gia Dung, Nguyễn Thị Thơm, Đào Bùi Hương Thuy
Người hướng dẫn	TS. Vừ Thành Đức
Trường học	Đại Học Kinh Tế TP Hồ Chí Minh
Chuyên ngành	Khoa Học Dữ Liệu
Thể loại	Đồ Án Môn Học
Năm xuất bản	2023
Thành phố	TP. Hồ Chí Minh

Định dạng
Số trang	27
Dung lượng	3,52 MB