Tong Quan Vé Cac Phương Pháp Sử Dụng: TLL Quá trình thực hiện trì thức và khai phá đữ liệu: - Việc chọn lọc và sử dụng thông tin hiệu quả có thể quyết định sự thành công trong phân tích
Trang 1BỘ GIÁO DỤC VÀ ĐÀO TẠO DAI HOC KINH TE TP HO CHI MINH TRUONG CONG NGHE VA THIET KE
UEH
UNIVERSITY
ĐỎ ÁN MÔN HỌC
ĐÈ TÀI:
PHAN TICH TINH HINH DOANH THU CUA IDA DUA TREN DU LIEU
“Historical IDA Balance Sheets Data” BANG PHAN MEM ORANGE
Học phần: Khoa học dữ liệu Nhóm Sỉnh Viên:
Giảng Viên: TS Võ Thành Đức
TP Hồ Chí Minh, Ngày 28 tháng 02 năm 2023
Trang 21.1 _ Tổng Quan Về Các Phương Pháp Sử Dụng 0 SH 21222212 rryu 2
LAL Quá trình thực hiện trì thức và khai phá dữ HIỆM: à cac ch HH HH Hy re 2
PM 1Ì :.:Ớớ:ẳẳẳẢẳăăảẳăẳăảảẳảầảäăăảảỶảỶẳả 2
113 Tổng quan về phân cụm dữ liỆH à on T222 222 rve 3
12 Giới Thiệu Về Phần Mềm Orange
13 Lý Do Chọn Đề Tài
2.2 _ Trình Bảy Sơ Lược Các Thuộc Tính Lựa Chọn Đưa Vào Mô Himh: 223cc 10
2.3 Tiên Xử Lý Dữ Liệu HH HH HH HH He rrưk 13
3.1 _ Thực Hiện Mô Hình Dự Đoản: ccceccccecencncecececcnteueeececensuavevecensniseeeecevnutevareevensnrvenees 16
3.2 Kết Qủa Của Từng Phương Pháp: 2S 2n n1 nang rxrrue 16
a Phân cụm phân lớp (Hierarchical Clhustering) bằng phương pháp Diana con 16
b Phân tích phân hoạch sử dụng thuộc tính K-means 3 2 20 2212211211221 221128121811 xcsxe 19
CHƯƠNG 4 ĐÁNH GIÁ VẢ LỰA CHỌN MÔ HÌNH
4.1 Các Kết Quả Đạt Được c2 2222222222112 eruee
Trang 3CHUONG 1 TONG QUAN
1.1 Tong Quan Vé Cac Phương Pháp Sử Dụng:
TLL Quá trình thực hiện trì thức và khai phá đữ liệu:
- Việc chọn lọc và sử dụng thông tin hiệu quả có thể quyết định sự thành công trong phân tích dữ liệu Điều đó co nghĩa phải tìm ra những gái trị tiềm ẩn, các yếu tố tác động
và những xu hướng phát triển của các dữ liệu có sẵn ấy Quá trình đó được gọi là quá trinh phá hiện trị thức (Knowledge Diseovery in Database - KDD) ma trong do khai phá
dữ liệu là một kỹ thuật quan trọng cho phép ta hu được các trị thức mong muốn
- _ Sơ đồ quá trình phát hiện tri thức gồm 5 bước cơ bản sau:
- _ Bước l: Chon lọc dữ liệu( selection): Giai đoàn này cần thu gom các đữ liệu khai thác được vào một cơ sở dữ liệu (CSDL) riêng ở bước này, chúng ta chi cần chọc lọc và giữ lại những dữ liệu cần thiết và giai đoạn sau yêu cầu Tuy nhiên, công việc này thường khó khăn và tốn nhiều thời gian vì dữ liệu tồn tại ở nhiều dạng khác nhau và nằm rải rác khắp nơi
- - Bước 2: Tiền xử lý dữ liệu (preprocessing): Khi tập hợp dữ liệu thường mắc phải một số lỗi như dữ liệu thiếu logic, thiếu chặt chẽ, chưa đầy đủ, hiếm khi nào các dữ liệu thu thập được đều mang tính nhất quán Do đó, “tiền xử lý” là một bước quan trọng giúp hạn chế những kết quả sai lệch không mong muốn trước khi bước vào qua trình khai phá
đữ liệu
- - Bước 3: Chuyên đổi dữ liệu (transformation): Dinh dang lai cầu trúc của dữ liệu
hỗ trợ cho việc phân tích dữ liệu dé dàng và cái thiện kết quả phân tích
- Bước 4: Khai phá dữ liệu ( Data mining): Vận dụng các phương pháp thống kế, phân tích dự đoán, các thuật toán học máy dé chon lọc thông tin chỉ tiết từ bộ dữ liệu đã chuẩn bị trước Áp dụng các phương pháp tính toán xây dựng mô hình giải quyết cho vấn
đề được đặt ra
- _ Bước 5: Trình bày kết quả phân tích (interpretation evaluation): Đây cũng là bước cuỗi cùng trong quá trình phát hiện tri thức (KDD) Dựa trên những tiêu chuẩn đánh giá phù hợp sẽ được chọn lọc và sử dụng sao cho các mẫu dữ liệu được trích bởi các phần mềm khai phá đữ liệu có thê sử dụng được
Từ quá trình phát hiện tri thức, ta thấy các kỹ thuật phát hiện tri thức trải qua rất nhiều giai đoạn và sử dụng nhiều phương pháp đề cho ra kết quả cuối cùng Đây là một quá trình liên tục, đầu vào của gia đoạn sau xuất phát từ đầu ra của giai đoạn trước Trong đó khai phá dữ liệu được coi trọng hơn cả bởi việc tìm ra những tri thức và thông tin có cầu
trúc chặt chẽ tiềm an trong khi dữ liệu khong lồ
1.12 Tiên xử lý dữ liệu:
Dữ liệu thực tế thường không đây đủ , nhiễu và không nhát quán Các kỹ thuật tiền xử
ly dữ liệu nhằm mục đích cải thiện được chất lượng của dữ liệu, dó đó nó giúp các quá
tình khai phá dữ liệu chính xác và hiệu quả Tiền xử lý dữ liệu là một bước quan trọng trong quá trình khai phá tri thức bởi vì các quyết định dựa trên chất lượng của dữ liệu
Quá trình làm sạch dữ liệu bao gồm làm sạch dữ liệu, tích hợp, biến đôi dữ liệu và rút
gọn dữ liệu
1.12.1 Làm sạch dữ liệu
Dữ liệu trong thực tế thường không đầy đủ, nhiễu và không nhất quán Quá trình làm sạch dữ liệu có gắng điền các giá trị thiếu, loại bỏ nhiễu, và sữa chữa sự không nhất quán của dữ liệu
Trang 4
Với dữ liệu bị thiếu:
Too long to read on your phone? Save to
Bỏ qua bộ có giá trị thiêu: PB
hoặc lớp bị thiêu Phương phát computer
trị trong từng thuộc tính đáng |
Điền bằng tay các giá trị bị t
không khả thi khi thực hiện trê
Sử dụng một hằng số toàn Cục ‹
read later on your
Save to a Studylist
toàn bộ các giá tj bị thiếu của thuộc tính bằng một hằng số _ như
“Unknown” hay vô cực
Sử dụng các giá trị trung bình của thuộc tính cho tất cả mẫu thử thuộc về
cùng một lớp với bộ mã đã cho
Sử dung mot gia trị có khá năng cao nhất để điền vào các giá trị thiểu: giá trị này có thê tìm ra bằng phương pháp hồi quy, hay dựa trên các cộng cụ sử dụng hình thức Bayesian
Với dữ liệu nhiễu: Nhiễu là một lối hay một sự mâu thuẫn ngẫu nhiên trong việc đo các biến số Các kỹ thuật loại bỏ nhiễu bao gồm:
"_ Phương pháp Bing: Đầu tiên sắp xếp dữ liệu và phân hoạch đữ liệu thành những bín Sau đó, người dùng có thể làm trơn dữ liệu bằng các giá trị trung bình của bin, bằng các biên của bi Bin có độ rộng
càng lớn thì tập dữ liệu thu được càng “trơn”
" Phương pháp hồi quy: Phương pháp hồi quy tuyến tính tìm một đường thăng tôi ưu để khít với 2 thuộc tính (hay 2 biến), do đó một thuộc tính có thể dùng để dự đoán thuộc tính còn lại
"_ Phương pháp phân cụm: Các giá trị ngoại lai có thể được dò hỏi bởi
sự phân cụm, trong đó các giá trị được tô chức thành các nhóm, hay
còn gọi là cái “cluster” Bằng trực giác, các giá trị rơi ra ngoài tập hợp của các cluster có thể được xem như là các giá trị ngoại lai
1.1.3 Tổng quan về phân cụm dữ liệu:
> Định nghĩa:
Là quá trình gom cụm/nhóm các đối tượng/dữ liệu có đặc điểm tương đồng vào
các cụm/nhóm tương ứng, Trong đó:
"Các đối tượng frong cùng một cụm sẽ có tính chất tương tự nhau
"Các đối tượng thuộc cụm/nhóm khác nhau sẽ có tính chất khác nhau
Dữ liệu của bài toán là dữ liệu chưa gán nhãn, là dữ liệu thường thấy trong thực tế
Trang 5Hình 1.1: Mô hình về quá trình phân cụm dữ liệu
> Dac diem:
- Nhiệm vụ chính là tìm ra và đo đạc sự khác biệt giữa các đối tượng dữ liệu
-_ Phân cụm thuộc nhóm phương pháp học không giám sát vì không biệt trước
được sô nhóm
- _ Phương pháp phân cụm tốt là phương pháp tạo ra các cụm có chất lượng cao
- _ Là công cụ phân dữ liệu độc lập hoặc là giai đoạn tiên xử lý cho các thuận toán khác
> Phân loại một số phương pháp phân cụm chính:
Dựa trên phân cấp
(Hierarchical approach) Phân cấp các đối tượng dựa trên một số tiêu chí Diana, Agnes, BIRCH, CAMELEON
Dựa trên phân hoạch Xây dựng các phân hoạch khác nhau và đánh giá chúng
(Partitioning approach) Sau đó, tim cách tối thiểu hóa tổng bình phương độ lỗi |K-means, k-medoids, fuzzy C-means Dựa trên mật độ
(Density-based approach) Dựa trên các kết nối giữa các đối tượng và hàm mật độ |DBSCAN, OPTICS, DenClue Dựa trên lưới
(Grid-based approach) Dựa trên cấu trúc độ chỉ tiết nhiều cấp STING, WaveCluster, CLIQUE
Dựa trên mô hình Giả định mỗi cụm có một mô hình và
(Model-based) tìm cách fit mô hình đó vào mỗi ụm EM, SOM, COBWEB
Hình 1.2: Một số phương pháp phân cụm chính
> Các ứng dụng phân cụm trong kinh tế:
- _ Dự báo khách hàng tiềm năng
- _ Phân tích xu hướng hành vi khách hàng
- _ Phân tích đặc tính sản phẩm dịch vụ
- _ Đánh giá kết quả hoạt động kinh doanh
- _ Phân tích hàng vi người dùng mạng xã hội
»> Phân tích phương pháp phân cụm chính được sử dụng trong đề tài:
" Phân cụm phân cập (Hierarchical Clustering) bằng phương pháp Diana:
®- Phân cụm phân cấp (Hierarchical Clustering):
Xây dựng một cây phân cấp cho dữ liệu cần gom cụm dựa trên:
- _ Ma trận khoảng cách giữa các phần tử (similarity matrix hoặc
dissmilarity matrix)
- Dodo khoang cach gitra cac cum (single link, complete link )
Phương pháp này không cần xác định trước số cụm như cần xác định
điều diện dừng
Các phương pháp điển hình : Dmana, Agnes,
s- Phân cụm phân cấp bằng phương pháp Diana:
Theo chiến lược top down:
- Bat dau với Ì cụm gồm tất cả các phần tử
- _ Ở mỗi bước, chia cụm ban đầu thành 2 cụm
Trang 6=> Khoảng cách giữa 2 cụm là khoảng cách giữa 2 điểm gần nhất từ hai cụm, hoặc khoảng cách trung bình
- _ Thực hiện đệ quy trên các cụm mới được tách ra và lặp lại cho đến khi
Trang 7= Phân cụm phân hoạch bằng thuật toán K-means:
® Phân cụm phân hoạch:
Phân tập dữ liệu có n phần tử cho trước thành k tập con (k<=n), mỗi tập con biểu diễn một cụm
Các cụm hình thành trên cơ sở tối ưu hóa giá trị hàm độ đo tương tự (đô đo phân cụm) sao cho:
- Mỗi đối tượng thuộc duy nhất Ì cụm, các phần tử trong cụm có
sự tương tự như nhau
- - Mỗi cụm có ít nhất | phan ter
Thuật toán điển hình: K-means, K-mediods, Fuzzy C-means
® Thuật toản K-meqns Thuộc nhóm thuật toán phân cụm dựa trên phân hoạch
Ta xem mỗi đối tượng trong tập dữ liệu là một điểm trong không gian d chiều (với d là số lượng thuộc tính của đối tượng)
- _ Bước 1: Chọn k điểm bất kỳ làm các trung tâm ban
- Bước 3: Cập nhật lại trung tâm cho từng cụm bằng
cách lây trung bình cộng của tất cả các điểm dữ liệu đã
được gán vào cụm đó sau khi phân chia ở bước 2
- Bước 4: Quay lại bước 2
12 Giới Thiệu Về Phần Mềm Orange
Phần mềm Orange là phần mềm được làm ra với mục tiêu giúp người dùng có thể
dễ dàng nghiên cứu về các bài toán khai phá dữ liệu và học máy
Phan mén được biết đến với việc tích học các công cụ khai phá dữ liệu mã nguồn
mở và học máy thông minh, đơn giản, được lập trình bằng Python với giao diện trực quan
và tương tác dễ dàng Ngoài ra, phần mềm này có thê phân tích được những dữ liệu từ
đơn giản đến phức tạp, tạo ra những đồ họa đẹp mắt và thú vi
Các cộng cụ (widget) cung cấp các chức năng cơ bản như đọc dữ liệu, hiển thị dữ liệu dạng bảng, lựa chọn thuộc tính đặc điểm của dữ liệu dạng bảng, lựa chọn thuộc tính đặc điểm của dữ liệu, huấn luyện dữ liệu để dự đoán, so sánh các thuật toán máy học, trực
quan hóa các phần tử dự liệu,
Data: Dùng đề nạp dữ liệu, rút trích, biến đổi, lưu dữ liệu
Trang 8Visualize: ding dé biéu dién biéu 46 (chart) giúp quan sát dữ liệu được tốt hơn
Venn Silhouette § Pythagorean
— Diagram Plot Tree
tử —
Pythagorean CN2 Rule
Forest rae Nomogram
Model: gồm các ham may hoc (machine learning) phan dp dit liéu voi Tree, Logictis, SVM
Trang 9fa ihe
Random Gradient Forest Boosting
Z ® Logistic Regression a
e
Neural Stochastic Network Gradient De
Calibration Plot
Trang 10Unsupervised: Gom các hàm máy học (machine learning) gom nhóm dữ liệu như:
= fl @ Save Distance Self-Organiz
1.3 Ly Do Chon Dé Tài
1.3.1 Cơ sở hình thành, mục tiêu của đề tài nghiên Cử:
Khoa học đữ liệu đóng vai trò rat quan trọng trong một số ngành thuộc về kinh tế- như: thương mại điện tử, ngân hàng, tài chính hay là ngay ca trong y té Thuật toán trong Khoa học dữ liệu có thê thúc day nang suat lam viéc, phat triển công việc theo định hướng bềnh vững bằng cách chat lọc những dữ liệu sẵn
có của doanh nghiệp Nó cho phép công ty dự báo nhiều giá trị khác nhau, thị phần
họ đang và có thể chiếm lĩnh, hoặc sử dung Machine learning và dựa vào đó dé
phan tich tinh hinh tai chinh
Hiệp hội Phát triển Quốc té, viết tắt theo tiếng Anh là IDA ( International Development Association) 1a m6t tô chức phi lợi nhuận quốc tế hoạt động trong lĩnh vực cung cấp hỗ trợ tài chính cho các quốc gia nghèo nhất thế giới, và các quốc gia đang phát triển có trình độ thấp Được thành lập năm 1960 và có trụ sở tại Washingtion D.C Mỹ
Nhận thấy được tầm quan trọng của [DA và lợi ích thiết thực mà khoa học
dữ liệu, nhóm đã chọn đề tài: “ Phân tích tình hình tài chính của tổ chức IDA
thông qua phân tích Bảng cân đối kêt toán”
Qua việc phân tích tình hình tài chính của IDA, nhóm sẽ biết được tình hình tài chính của IDA đang trên đà phát triển hay bị suy giảm, đưa ra một số lý do có thê là nguyên nhân của việc dẫn đến suy giảm, và một số đề xuất giúp tỉnh hình tài chính càng thêm phát triền
1.3.2 Đối tượng nghiên cứu:
MDS
Trang 11Đối tương nghiên cứu: Bao gồm các thành phần trong bảng cân đối kế toán được dua vao m6 hinh nhu: Classification, Grouping, Final Catergory, Category, Year, Amount, Line Item Description
Phạm vi nghiên cứu: Bao gồm có 1797 mẫu (instance) được cung cấp bởi World Bank Group và chủ sở hữu là World Bank Group Finances Dữ liệu được cập nhật lần
cuối 9/1/2022
10
Trang 12CHƯƠNG 2 THU THẬP VÀ LÀM SẠCH DỮ LIỆU
2.1 Mô Tả Tổng Quát Dữ Liệu:
- Bộ dữ liệu “Historical IDA Balance Sheets Data.csv” —- nguồn : Historical [DA
Balance Sheets Data | WBG Open Finances (worldbank org)
- Bé6 dtr ligu cé 1797 mẫu (instances) được cung cấp bởi World Bank Group và chủ
sở hữu là World Bank Group Finances Dữ liệu được cập nhật lần cuối 9/1/2022
- Dữ liệu được thu thập ty nam 1961 - 2022
Bộ dữ liệu chứa dữ liệu từ bảng cân đối kế toán từ báo cáo tài chính đã xuất bản của IDA
2.2 Trình Bày Sơ Lược Các Thuộc Tính Lựa Chọn Đưa Vào Mô Hinh:
11
Trang 13Final Dan Featur
Catergory h muc ono
12