1. Trang chủ
  2. » Luận Văn - Báo Cáo

phân tích dữ liệu chi tiêu hàng tháng của sinh viên đại học dựa trên bộ dữ liệu kaggle bằng phần mềm orange tiểu luận cuối kỳ

23 0 0
Tài liệu được quét OCR, nội dung có thể không chính xác
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Phân tích dữ liệu chi tiêu hàng tháng của sinh viên đại học dựa trên bộ dữ liệu Kaggle bằng phần mềm Orange
Tác giả Vế Kim Tú, Tran Bảo Ngan
Người hướng dẫn TS. Đặng Ngọc Hoàng Thành
Trường học Đại học Kinh tế TP Hồ Chí Minh
Chuyên ngành Khoa học Dữ liệu
Thể loại Bài luận cuối kỳ
Năm xuất bản 2022
Thành phố TP. Hồ Chí Minh
Định dạng
Số trang 23
Dung lượng 5,39 MB

Nội dung

Định nghĩa - Là quá trình phân một đối tượng dữ liệu vào một hay nhiều lớp loại đã cho trước nhờ một mô hình phân lớp.. Mô hình này được xây dựng dựa trên một tập dữ liệu đã được gán nhã

Trang 1

BO GIAO DUC VA DAO TAO

DAI HOC KINH TE TP HO CHi MINH

TRUONG KINH DOANH

alle UEH

TP Hồ Chí Minh, Ngày 21 tháng 10 năm 2022

Trang 2

MỤC LỤC CHUONG 1 TỔNG QUAN Q0 0121222112 n2 11 H211 2110111111 rước 2 1.1 Tông Quan Về Bài Toán Phân Lớp Dữ Liệu 5-2522 2E2E2E9EEE2E25EE5E52121232x2 xe 2 4.2 Giới Thiệu Về Python và Phần Mềm Orange - G2223 E2 1E13212521215121511212 te 2 1.3 Lý Do Chọn Lựa Đề Tài - S1 1212121 21211115121112121 T1 2110111212111 12112 01010121211 1g 2 CHUONG 2 CAC MO HINH PHAN LỚP DỮ LIỆU 222525222222 1e 4 2.1 Các Mô Hình Phân Lớp Dữ Liệu - cect cee cnteeeeeeeeceeeeceeeeessnaeeeeeneneeeees 4 2.1.1 Mô Hình Logistic Regression - - 000000000222 221 2011 ng 1 vn g0 ra ‘ 2.1.2 Mô Hình Decision Tree L Q2 11 S2 HH TT TH KT TK HT HE ‘ 2.1.3 M6 Hinh Support Vector Machine 0 0 cece cece cee ceceeeececeeeeseeceeeeeestneeeeesnteeeeenaas “ 2.1.4 Mô Hình Neural Nefwork - L Q Q.12 HH n 1 nàn HT TH KT KE TH KT TK KH kt E 2.2 Quy Trình Phân Lớp Dữ Liệu cece 220111122111 111 1111111111011 1 11111 kg kiệt 6

2.2.1 Phân Chia Dữ Liệu . - - 2Q L 0 2n cư |

- Phuong pháp Hold-out phân chia tập dữ liệu ban đầu thành 2 tập độc lập theo 1 tỷ lệ nhất định Ví dụ, tập huấn luyện (training set) chiếm 70%, tập thử nghiệm (testing set) chiếm

KÌtbaiidỎÚẮ A.aă.ỐốỐ

2.2.2 Phan Lop Dit LIGU .ằ ố4 ( 2.2.3 Đánh Giá Tính Hiệu QUả 0 2212222111121 1111 v1 10111 TH TT KH KH kg 7 CHƯƠNG 3 CÁC KÉT QUÁ THỰC NGHIỆM ĐQ QQ222121 2222122218221 7

3.1.1 Muc ti@U NQhi6n COU

3.1.2 Mô tả dữ liệu - L2 0 221121211111 11 1112111 111111 K 1n KT KH KT 7 3.1.2.1 Nguồn gốc dữ liệu - L5: 22221 1232112115151 1111 121111118111 22111 2110101011112 1E 1g ; 3.1.2.2 Câu trúc dữ liệU - 5-5: 1211921 1221212121212121211151111511111211111111111111101111111 011 6 :

Trang 3

4.3 Lời kết -L- 1c TT TH TT 1111 HH1 nh HH c1 11x11 H HT HH HH trêu 2° TÀI LIỆU THAM KH/ÁO - Đ S22 S222 E22125232321212111211111111112112112111111111111111211 01111 ren 22

CHUONG 1 TONG QUAN

1.1 Téng Quan Về Bài Toán Phân Lớp Dữ Liệu

1.1.1 Định nghĩa

- Là quá trình phân một đối tượng dữ liệu vào một hay nhiều lớp (loại) đã cho trước nhờ một mô hình phân lớp Mô hình này được xây dựng dựa trên một tập dữ liệu đã được gán nhãn trước đó (thuộc vẻ lớp nào) Quá trình gán nhãn (thuộc lớp nào) cho đối tượng dữ liệu chính là quá trình phân lớp dữ liệu

1.1.2 Phân loại bài toán phan lớp

- Nhiệm vụ của bài toán phân lớp là phân các đối tượng dữ liệu vào n lớp cho trước Nếu: +n=2: Phân lớp nhị phân

+n>2: Phân lớp đa lớp

+ Mỗi đối tượng dữ liệu chỉ thuộc vào 1 lớp duy nhát: Phân lớp đơn nhãn

+ Một đối tượng dữ liệu có thẻ cùng lúc thuộc vẻ nhiều lớp khác nhau: Phân lớp đa nhãn 1.2 Giới Thiệu Về Python và Phần Mềm Orange

- Python là một ngôn ngữ lập trình thông dịch (interpreted), hướng đối tượng (object-oriented),

và là một ngôn ngữ bậc cao (high-level) ngữ nghĩa động (dynamic semantics) Python hỗ trợ các module và gói (packages), khuyến khích chương trình module hóa và tái sử dụng mã Trình thông dịch Python và thư viện chuân mở rộng có sẵn dưới dạng mã nguồn hoặc dạng nhị phân miễn phí cho tất cả các nèn tảng chính và có thê được phân phối tự do

- Phản mềm Orange biết đến bởi việc tích hợp các công cụ khai phá dữ liệu mã nguồn mở và

học máy thông minh, đơn giản, được lập trình bằng Python với giao diện trực quan và tương tác

dễ dàng Với nhiều chức năng, phần mềm này có thế phân tích được những dữ liệu từ đơn giản đến phức tạp, tạo ra những đỗ họa đẹp mắt và thú vị và còn giúp việc khai thác dữ liệu và học máy trở nên dễ dàng hơn cho cả người dùng mới và chuyên gia

1.3 Lý Do Chọn Lựa Đề Tài

Những năm trở lại đây, tình hình kinh tế Việt Nam nhiều biến động, một số cân đối vĩ mô bat ồn Lạm phát dù được kiêm soát vẫn duy trì ở mức khá Hệ lụy tất yếu là giá cả nhu yếu phẩm tăng, ảnh hưởng lớn đến mức sông của người dân nói chung và sinh viên nói riêng Đặc biệt hơn, với phần lớn thu nhập từ sự trợ cấp của gia đình, lại sinh sống và học tập ở những thành phó đắt đỏ, sinh viên trở nên nhạy cảm hơn với Sự tăng giá Chính vì thế, nghiên cứu về thu nhập, chỉ tiêu và tiết kiệm của sinh viên đã trở thành một trong những mối quan tâm của nhiều viện nghiên cứu và đặc biệt là các trường đại học

2

Trang 4

Đặc biệt là nghiên cứu được hoàn thành thông qua khảo sát của các bạn sinh viên trên

hàu hết các quốc gia trên thé giới về số lượng thu nhập cũng như chi tiêu trong | thang, duoc thực hiện bởi nhóm sinh viên ngành Khoa học Máy tính đến từ trường đại học Quốc tế Islamuc Malaysia Kết quả khảo sát được xác thực qua trang web Kaggle - “Kaggle” được biết đến là

một công ty con, hoạt động dưới sự điều hành, quản lý của tập đoàn Google LLC - một tập

đoàn về công nghệ đa quốc gia được thành lập và có trụ sở chính tại Mỹ Đây là doanh nghiệp lớn chuyên hoạt động về những dịch vị và các sản phẩm có liên quan đến mạng Internet như là

dịch vụ Công nghệ thông tin, quảng cáo trực tuyến, các công cụ tìm kiếm thông tin, phân cứng (hardware), phản mềm Và Kagsle được thành lập với hoạt động chủ yếu là một cộng đồng trực tuyến và dành cho những nhà khoa học dữ liệu cùng mọi đối tượng Theo đó, các số liệu

dữ liệu được xác nhận có sự chính xác tuyệt đối cũng như đưa ra một cái nhìn tông quan nhất

về tình trạng, vấn đề được phân tích

Trong khuôn khỏ môn học Khoa Học Dữ Liệu, nhóm chúng em đã thực hiện Dự án với

đề tài “Phân tích số liệu chỉ tiêu hàng tháng của sinh viên Đại học dựa trên bộ dữ liệu Kaggle bang phản mềm Orange” Qua đó, phác họa tông quan vẻ tình hình tài chính cũng như mức

sống của một bộ phận sinh viên và dựa theo só liệu đó thực hiện những phép toán phân tích dữ

liệu thông qua các mô hình bài toán để đưa ra các thống kế két quả chính xác nhát Từ đó đưa

ra những phương án hỗ trợ sinh viên trong việc quản lí chỉ tiêu của mình trong cuộc sống Bài nghiên cứu còn nhiều sai sót, mong thầy cô và các bạn góp ý, sửa chữa Chúng em xin chân thành cảm ơn sự giúp đỡ nhiệt tình của giảng viên, thạc sĩ Đặng Ngọc Hoàng Thành

đã giúp chúng em hoàn thành bài dự án

Trang 5

CHUONG 2 CAC MO HINH PHAN LOP DU LIEU

2.1 Cac M6 Hinh Phan Lép Da Liéu

2.1.1 M6 Hinh Logistic Regression

Logistic Regression Example

* Boundary + False samples

« True samples

- Là một mô hình xác suất dự đoán giá trị đầu ra rời rạc từ một tập các giá trị đầu vào (biếu diễn dưới dạng vector)

2.1.2 Mô Hình Decision Tree

- Trong lý thuyết quản trị, cây quyết định là đồ thị các quyết định cùng các kết quả khả đĩ đi kèm nhăm hỗ trợ quá trình ra quyết định

2.1.3 Mô Hình Support Vector Machine

- SVM là một thuật toán có giám sát, SVM nhận dữ liệu vào, xem chúng như những các vector

trong không gian và phân loại chúng vào các lớp khác nhau bằng cách xây dựng một siêu phăn trong không gian nhiều chiều làm mặt phân cách các lớp dữ liệu

- Đề tối ưu kết quả phân lớp thì phải xác định siêu phăng (hyperplane) có khoảng cách đến các điểm dữ liệu (margin) của tất cả các lớp xa nhát có thẻ

- SVM có nhiều biến thẻ phù hợp với các bài toán phân loại khác nhau.

Trang 6

Loại SVM Tính chất

Hard Margin SVM |Hai lớp cân phân lớp là có thê phân chia tuyến tính (1inearly seperable)

Soft Margin SVM_|Hai lop can phan lop 1a "gan" phan chia tuyén tinh (almost linear seperable) Multi-class SVM_|Phan lớp đa lớp (biên giữa các lớp là tuyến tính)

Kemel SVM Dữ liệu là phi tuyến

2.1.4 M6 Hinh Neural Network

- Mạng lưới nơ-ron nhân tạo hoạt động như no-ron trong não bộ con người Trong đó, mỗi nơ- ron là một hàm toán học, có chức năng thu thập và phân loại dữ liệu, thông tin theo câu trúc chi tiệt

- Neural Network tương đồng với những phương pháp thông kê theo đồ thị đường cong hoặc phân tích hồi quy Dé giải thich don gian nhat, ban hay hinh dung Neural Network bao ham Các nút mạng liên kết với nhau

- Mỗi nút là một tập hợp tri giác, cầu tạo tương tự hàm hỏi quy đa tuyến tính, được sắp xếp liên kết với nhau Các lớp này sẽ thu thập thông tin, sau đó phân loại và phát tín hiệu đầu ra tương ứng

input layer hidden layer 1 hidden layer 2 output layer

Trang 7

2.2 Quy Trình Phân Lớp Dữ Liệu

2.2.1 Phân Chia DZ Liệu

- Phương pháp Hold-out phân chia tập dữ liệu ban đầu thành 2 tập độc lập theo 1 tỷ lệ nhất định Ví dụ, tập huấn luyện (training set) chiếm 70%, tập thử nghiệm (testing set) chiếm 30%

- Phương pháp này thích hợp cho các tập dữ liệu nhỏ Tuy nhiên, các mẫu có thẻ không đại

diện cho toàn bộ dữ liệu (thiếu lớp trong tập thử nghiệm)

- Có thể cải tiến bằng cách đùng phương pháp lấy mẫu sao cho mỗi lớp được phân bó đẻu

2.2.2 Phân Lớp D# Liệu

GIỚI THIỆU PHẦN LỚP DỮ LIỆU

Quá trình phân lớp dữ liệu

Dữ liệu huấn Thuật to in phan Ket de i lop dùng đc

Iép đánh giá mô hình

Quá trình phân lớp dự liệu gồm 2 bước chính

- Bước 1: Xây dựng mô hình (hay còn gọi là giai đoạn “học” hoặc “huấn luyện”)

Dữ liệu đầu vào : Là dữ liệu mẫn đã được gán nhãn và tiền xử lý

Các thuật toán phân lớp: Cây quyết định, hàm só toán học, tập luật

Kết quá cuả bước này là MÔ HÌNH PHÂN LỚP đã được huắn luyện (trình phân lớp)

- Bước 2: Sử dụng mô hình chia làm 2 bước nhỏ

* Bước 2.1: Đánh giá mô hình (kiểm tra tính đúng đăn của mô hình)

* Bước 2.2 : Phân lớp dữ liệu mới

Trang 8

2.2.3 Đánh Giá Tính Hiệu Quá

- Dữ liệu đầu vào: là một tập dữ liệu mẫn khác đã được gán nhãn và tiền xử lý Tuy nhiên lúc

đưa vào mô hình phân lớp, ta “lờ” đi thuộc tính đã được gán nhãn

- Tính đúng đắn của mô hình sẽ được xác định băng cách so sánh thuộc tính gán nhãn của dữ liệu đầu vào và kết quả phân lớp của mô hình

CHƯƠNG 3 CAC KET QUA THUC NGHIEM

3.1 Bộ Dữ Liệu

3.1.1 Mực tiêu nghiên cứu

- Thứ 1: Dự báo mức độ chị tiêu hàng tháng của sinh viên thông qua đữ liệu

chứa các thông tin về những khoản thu — chỉ

- Thứ 2: Phân loại những đữ liệu về chi tiêu hàng tháng của sinh viên sao cho

hợp lý dựa vào kết quả dự báo

- Thứ 3: Đưa ra phương án hỗ trợ quản lí chi tiêu hàng tháng hợp lí

- Thứ 4: Đánh giá tiềm năng của các phương án hỗ trợ quản lí chi tiêu hàng

tháng hợp lí đối với sinh viên

3.1.2 Mô tá dữ liệu

3.1.2.1 Nguồn gốc dữ liệu

Bộ dữ liệu chứa thông tin các khoản thu - chỉ khác nhau trong chỉ tiêu hàng

tháng của sinh viên được cung cấp bởi nhóm sinh viên ngành Khoa học Máy

tính đến từ trường đại học Quốc tế Islamue Malaysia Link truy cập đến đữ liệu:

u Trò chơi và sở thích -Care và chăm sóc bản thân

u

Trang 9

3.1.2.3 M6 ta bai toan

Sử dụng Orange đề xử lý dữ liệu và giải quyết bài toán phân lớp, từ đó

đưa ra dự đoán cho tập dữ liệu thử nghiệm (testing set) tốt nhất cho phân tích chi tiêu hang tháng của sinh viên

3.2 Các Kết Quả Thực Nghiệm

*Phân lớp và dự đoán mức độ thu chỉ của Sinh viên

3.2.1 Mô tả bài toán:

Dự đoán mức độ thu chị của sinh viên dựa vào các thông tin hạng mục tử bộ dữ liệu sẽ giúp cho sinh viên đánh giá được những hạng mục nào có sự chỉ tiêu cao nhất đê từ đó đưa ra các phương pháp chi tiêu hợp lý

3.2.2 Mô tả dữ liệu

- Dữ liệu bài toán phan lop: Expense of University student

- Dữ liệu thô bao gồm 105 mẫu dữ liệu (instance), 13 biến (feature)

‘Show variable labels (if present)

Visualize numeric values

Color by instance classes

Selection

© Select full rows

Restore Original Order

0 Male

Bảng dữ liệu sau xử lý Gender ag tudy_ yer r Scholarship Pa Female 0.5 -0.6 0.3-0.4 Home no no Male 20.9 06-07 hostel no yes Male 0.7-0.8 0.3-0.4 home yes No Male 0.2-0.3 06-07 hostel no No Female 0.2-0.3 03-04 home no No Male 0.6 - 0.7 06-07 hostel no yes Female 0.5 - 0.6 0.3-0.4 home yes No Male 0.6 - 0.7 0.6-0.7 hostel no yes Female 0.1-0.2 <041 home yes No 0.2-0.3 <0.1 home no No Male 0.6 - 0.7 06-07 home no no Male 0.1-0.2 0.3-0.4 hostel no no Female 0.1-0.2 0.3-0.4 home no no Male 0.2-0.3 0.3-04 home no yes Female 0.6-0.7 209 hostel yes yes

Female <01 <01 home no no Female 0.2-0.3 0.3-0.4 hostel no no Female 0.7 -0.8 20.9 home no no Female 0.2-0.3 06-07 home no no Male 0.2-0.3 0.3-0.4 hostel no yes Female 0.6 - 0.7 209 home ye yes

Female 0.6 - 0.7 209 home no yes Male 0.1-0.2 0.3-0.4 home no no Female 0.2-0.3 0.5-0.6 hostel no no Male 0.6 - 0.7 209 home yes no Male 01-02 <01 home yes no

Transporting

no Motorcycle

no Motorcycle car Motorcycle

No car Motorcycle

Trang 10

e_ Xử lý dữ liệu bị thiếu

se - Nởời rạc hóa các thuộc tính số

- _ Chuẩn hóa các thuộc tính số về đoạn [ 0; 1]

- Chuyén thuéc tinh numeric —» Nominal

> Tw Data table widger, ta thay c6 5,6 % di liéu bi thiéu (missing value),

ta sẽ tiễn hành công việc xử ly đữ liệu thong qua Preprocessing widget

> Sau khi xuat file expense of uni, Chung ta sẽ tiễn hành xử lý các đữ liệu thiếu cùng với Preprocess

Hinh: 3.3 : Tap dữ liệu xử lý Preprocess

e Normalize Features: chuan hoá đữ liệu về đoạn [0-1]

e Impute Missing Values: dién giá trị trung bình cho kiêu dữ liệu dạng số và giá trị phô biến cho kiều đữ liệu dang category

Discretize Continuous Variables: chia gid dir ligu 10 bins va mỗi bin có sai biệt đều nhau

> Sau khi xử lý dữ liệu bị thiếu, tạo Data table hiến thị kết quả tong quát của đữ

liệu bị thiếu.

Trang 11

13 features 1 Female 2-28 19-22 Home 0 "

No target variable vate 224 28-34 nostot no yor Preprocessac Osta > —— 2 Mate 228-734 19-22 heme yes No

} ows { ỳ =a (& — show veriable bets Gl present) + ot 5 #esse wea 28-34 188-304 16-22 home m se ne No

Visvalles rumarie valoss © Mae 28-226 28-31 poate! nơ yes Expense of un Xử N Data Tae (2) B ceter by trtense cesses 7 Female 21-218 — 19-22 home yes No

28-26 28-3 rostot nọ ve

9 Femae ah «13 yes No Select tl rows 19 Mole 185-194 <1.3 so No

"Mae 8-26 28-34 heme 0 m

12 Male 178-6 19-22 hostel ro =

12 Female 78-6 19-22 home 0 0 186-1804 16-22 no ve

15 Female 28-226 237 hostel yes yes Male 218-226 >37 home no " Female <7, 13 heme số n°

18 Female 1868-194 19-22 hon " = Female 228-234 x37 nome 0 "0

20 Female 186-194 28-3 ome no =

2 Male 186-184 19-22 "ca nơ yes

22 Female 28-226 237 home yes yes aed data ro an ru hot neòne% (nó 23 Male nome no =

24 Female 28-26 x37 hong 0 ves

2 Male 218.220 237 home yes ”=

Db Tướng Datasets 8 SOLTable Ø) Data (®) Preprocessed Osta + Date (—) Selected Data + Data (=)

Select a widget to show its description

See workflow examples, YouTube tutorials,

or open the welcome screen

Hình 3.5: Mô hình dữ liệu sau khi xử lý 16i missing data

Ngày đăng: 09/08/2024, 20:53

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w