1. Trang chủ
  2. » Luận Văn - Báo Cáo

Bài tập lớn cá nhân phân tích dữ liệu đã xử lý trên google colab

18 0 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Bài Tập Lớn Cá Nhân Phân Tích Dữ Liệu Đã Xử Lý Trên Google Colab
Tác giả Trần Thị Uyên Trân
Người hướng dẫn TS. Lê Ngọc Hiếu
Trường học Trường Đại Học Sư Phạm Kỹ Thuật TP. Hồ Chí Minh
Chuyên ngành Kinh Tế
Thể loại bài tập lớn
Năm xuất bản 2022
Thành phố Thành Phố Hồ Chí Minh
Định dạng
Số trang 18
Dung lượng 1,24 MB

Nội dung

Phân tích nội dung dữ liệuBộ dữ liệu “ World University Rankings 2023” bao gồm thứ tự xếp hạng của 1422 trường đại học trên toàn thế giới dựa trên các tiêu chí được đề ra.. Các tiêu chí

Trang 1

TRƯỜNG ĐẠI HỌC SƯ PHẠM KỸ THUẬT TP HỒ CHÍ MINH

KHOA KINH TẾ

BÀI TẬP LỚN CÁ NHÂN

MÔN TIN HỌC ỨNG DỤNG

ĐỀ THI KẾT THÚC HỌC PHẦN

GVHD: TS Lê Ngọc Hiếu

Mã Môn học: APCM230307_22_1_02

Trần Thị Uyên Trân 21132243

THÀNH PHỐ HỒ CHÍ MINH, THÁNG 12 NĂM 2022

Trang 2

MỤC LỤC

Contents

Phần 1 Tìm kiếm dữ liệu 3

1.1 Tìm dữ liệu 3

1.2 Phân tích nội dung dữ liệu 3

Phần 2 Xử lý dữ liệu và tạo báo cáo trên Excel 4

2.1 Sắp xếp và xử lý dữ liệu 4

2.2 Sử dụng Conditional Formating để highlight dữ liệu 5

2.3 Tạo dashboard và báo cáo 5

2.4 Sử dụng VBA 7

Phần 3 Phân tích dữ liệu đã xử lý trên GOOGLE COLAB 7

3.1 Sử dụng GOOGLE COLAB để đọc bộ dữ liệu, mô tả các đặc tính cơ bản của bộ dữ liệu: kích thước, số lượng, loại dữ liệu 7

3.2 Sử dụng Seaborn để vẽ biểu đồ 14

Trang 3

Phần 1 Tìm kiếm dữ liệu

1.1 Tìm dữ liệu

“ World University Rankings 2023”

Nguồn: https://www.kaggle.com/datasets?tags=11105-Education

1.2 Phân tích nội dung dữ liệu

Bộ dữ liệu “ World University Rankings 2023” bao gồm thứ tự xếp hạng của 1422 trường đại học trên toàn thế giới dựa trên các tiêu chí được đề ra Các tiêu chí bao gồm như sau:

Rank: thứ tự xếp hạng của các trường đại học trên toàn thế giới

Institution: tên của trường đại học

Location: nơi tọa lạc của trường đại học

Location Code: viết tắt của tên nước mà trường đại học tọa lạc

Ar Score: điểm danh tiếng học thuật

Ar Rank: xếp hạng danh tiếng học thuật

Er Score: điểm danh tiếng của nhà tuyển dụng

Trang 4

Er Rank: xếp hạng danh tiếng của nhà tuyển dụng

Fsr Score: điểm số sinh viên trường

Fsr Rank: xếp hạng điểm số sinh viên trường

Cpf Score: trích dẫn trên mỗi điểm của giảng viên

Cpf Rank: trích dẫn theo thứ hạng của khoa

Ifr Score: điểm khoa quốc tế

Ifr Rank: xếp hạng khoa quốc tế

Irn Score: điểm mạng lưới nghiên cứu quốc tế

Irn Rank: xếp hạng mạng lưới nghiên cứu quốc tế

Ger Score: điểm kết quả việc làm

Ger Rank: thứ hạng kết quả việc làm

Score Scaled: tổng thể

Phần 2 Xử lý dữ liệu và tạo báo cáo trên Excel

2.1 Sắp xếp và xử lý dữ liệu

Sử dụng các công cụ định dạng trong excel bằng Tab Home (phổ biến) như ở các

nhóm sau:

- Nhóm Font: dùng để chỉnh kiểu chữ Time New Roman và size chữ 12 cho toàn

bộ bảng dữ liệu ở sheet 2023 QS World University Ranking

- Để tạo bảng : Chọn toàn bộ dữ liệu Vào Tab Insert chọn Table Create Table Bạn có thể chỉnh màu sắc cũng như định dạng theo mong muốn bằng Tab Table Design và cho ra bảng dữ liệu sau:

Trang 5

2.2 Sử dụng Conditional Formating để highlight dữ liệu

- Tô màu vàng để hightlight các dòng có Location là United States và có Academic Reputation Score ( ar score) là 100

- Tô màu xanh dương để highlight các dòng có Location Code là JP và có Academic Reputation rank (ar score rank) dưới 10

- Tô màu xanh lá các trường đại học có Location Code là UK và có Ar Rank nhỏ hơn 20

2.3 Tạo dashboard và báo cáo

- Thống kê thứ hạng của các trường ĐH tại Việt Nam trong bảng xếp hạng các trường đại học trên thế giới

Trang 6

- Các trường ĐH ở Úc có xếp hạng từ 500 – 1000 trên bảng xếp hạng các trường đại học trên thế giới

Sử dụng slicer tạo dashbroad liên kết các dữ liệu:

Trang 7

2.4 Sử dụng VBA

- Sử dụng VBA để hightlight các trường có Location code được nhập

- Sử dụng VBA để hight light các trường có Academic Reputation Score trên 50

- Sử dụng VBA để hiển thị thông tin về trường có Location được nhập

Phần 3 Phân tích dữ liệu đã xử lý trên GOOGLE COLAB

3.1 Sử dụng GOOGLE COLAB để đọc bộ dữ liệu, mô tả các đặc tính cơ bản của bộ

dữ liệu: kích thước, số lượng, loại dữ liệu.

- Khi muốn Python liên kết Google Drive, bạn có thể làm như sau:

Trang 8

Bạn gõ hai dòng code như trên (các dòng lệnh này có chức năng liên kết với Google Drive của bạn), sau khi chạy code thì sẽ xuất hiện:

Và bạn cần chọn (Kết nối với Google Drive Gmail Cho phép) Kết nối với Google Drive bấm chọn Gmail, sau đó cho phép quyền truy cập Cuối cùng chạy code lại lần nữa sẽ cho ra kết quả Nếu code thực hiện đúng tức là bạn đã liên kết được với Google Drive của mình

- Đối với đề tài được chọn là Data World University Rankings 2023thì cần (truy cập vào đường link: Tải xuống dữ liệu về máy Giải nén Up lên Google Drive) tải kiểu dữ liệu về máy để giải nén và up lên Google Drive

Trang 9

Kế tiếp gõ 4 dòng code như trên:

Các dòng chữ màu đỏ lần lượt là đường dẫn và tên file mà bạn tải lên Ở dòng thứ 2, bạn để nguyên đường dẫn, sau đó copy tên file xuống dòng thứ 4, cuối cùng chạy code

đó (Kết quả True – True Thực hiện đúng Dữ liệu được kích hoạt) Kết quả ra True – True như hình trên tức là bạn đã thực hiện đúng, dữ liệu đã được kích hoạt

- Khai báo thư viện như sau:

- Sau đó chạy các lệnh đọc file bằng pandas và cho biết kích thức của bộ dữ liệu

Trang 10

Sau khi chạy code sẽ ra được kết quả Kết quả của code trên là (1422,21) tức là file dữ liệu có 1422 dòng và 21 cột

- Tạo ra danh sách các cột dữ liệu bằng các lệnh sau đây:

Do bảng số liệu có 21 cột nên lệnh này sẽ cho ra 21 dòng tương ứng, với mỗi dòng là một nội dung khác nhau

- Dòng lệnh data.head() sẽ cho ra tất cả số liệu của những dòng đầu tiên, mặc định là 5 dòng đầu Tương ứng với chủ đề sẽ ra những kiểu dữ liệu khác nhau

Trang 11

Vậy kết quả thu được là bảng số liệu có 5 hàng và 21 cột

- Lệnh data.describe() sẽ tính toán ra số liệu theo dữ liệu đã có trong file

Chẳng hạn như ở cột Rank có:

Count: tính toán trên 1422 quan sát

Mean: trung bình của cột này là 711.5

Std: Độ lệch chuẩn là 410.640254

Min: giá trị nhỏ nhất là 1

25%: Mức phân vị thứ nhất là 356.25

50%: Mức phân vị thứ hai là 711.5

75%: Mức phân vị thứ ba là 1066.75

Max: giá trị lớn nhất là 1422

Tương tự ở các cột khác cũng được tính toán như trên

- Lệnh data.info() sẽ cho biết kiểu dữ liệu của 21 cột tương ứng có trong file

Trang 13

Ta thấy có 12 cột có kiểu dữ liệu là float64 (chẳng hạn như cột ar score, er score, ifr score,…), 1 cột có kiểu dữ liệu là int64 – Rank và 12 cột có kiểu dữ liệu là object ( ví

dụ như institution, location code, location,…)

Kích thước của bộ dữ liệu là 233.4+ KB

Biểu đồ xếp hạng các trường đại học hàng đầu theo quốc gia

Đứng đầu là USA, là nước có số trường đại học đứng top đầu trên thế nhiều nhất, khoảng gần 200 trường; kế tiếp đến là UK có số lượng hơn 90 trường

Biểu đồ so sánh số lượng các trường đại học được xếp hạng hàng đầu của các quốc gia Nam Á

Trang 14

Trong số 9 quốc gia ở Nam Á, 4 quốc gia đã có thể có được một vị trí trong danh sách các trường đại học hàng đầu đó là India, Pakistan, Bangladesh, Sri Lanka

Ấn Độ có số lượng các trường đại học hàng đầu cao nhất trong khu vực Nam Á với số lượng là hơn 40 trường, kế tiếp đó là Pakistan với gần 15 trường

3.2 Sử dụng Seaborn để vẽ biểu đồ

1 Biểu đồ điểm số và thứ hạng

Trang 15

Đây là 8 biểu đồ thể hiện thứ hạng dựa trên 8 loại điểm là: ar score, er score, fsr score, cpf score, ifr score, isn score, irn score, ger score:

- Các trường đại học có ar score càng cao thì có thứ tự xếp hạng càng cao, tương tự giống như cpf score,

- Các trường đại học có er score cao, nhưng có các loại điểm khác không cao thì vẫn chưa đánh giá được thứ tự xếp hạng…

Nhìn chung thì các trường đại học có số điểm càng cao thì thứ tự xếp hạng cũng được nâng cao

2 Biểu đồ mối quan hệ giữa Rank và Ar Score

Trang 16

Như ta thấy, các trường đại học có ar score càng cao thì được xếp hạng càng cao, chẳng hạn như có một số trường có ar score là 100 thì có xếp hạng từ 1 – 200, còn các trường đại học có ar score thấp hơn thì có xếp hạng thấp hơn

3 Biểu đồ thể hiện mối quan hệ giữa Rank và Ar Rank ở các quốc gia Nam Á

Có 4 quốc gia Nam Á xuất hiện trong top những quốc gia có trong bảng xếp hạng các trường đại học hàng đầu trên thế giới đó là IN, PK, BD và LK

Theo như quan sát ta thấy, IN là quốc gia có nhiều trường đại học xuất hiện trong bảng xếp hạng nhất trong khu vực Nam Á, và các trường có thứ hạng từ 200 còn các

Trang 17

quốc gia còn lại có thứ hạng từ 300 trở đi Các quốc gia Nam Á có ar rank dao động từ

145 đến 501+, chứng tỏ xếp hạng học thuật càng cao (145) sẽ có thứ hạng (Rank) cao hơn các trường đại học có xếp hạng học thuật thấp

4 Biểu đồ thứ hạng của các trường đại học ở khu vực Nam Á

Biểu đồ cho ta thấy, các trường đại học của khu vực Nam Á xuất hiện trong bảng xếp hạng các trường đại học, có 6 trường có thứ hạng từ 200 – 300, 5 trường có thứ hạng

400, 5 trường có thứ hạng từ 500 – 600, 12 trường có thứ hạng từ 1000 – 1100 và rải rác một vài trường có thứ sau 1200 Theo như quan sát, thứ hạng cao nhất mà các trường đại học khu vực Nam Á đạt được là từ 200 – 300

5 Biểu đồ thể hiện mối quan hệ giữa Rank và Fsr Rank của các trường đại học ở khu vực Nam Á

Trang 18

Theo như quan sát ta thấy, hầu hết các trường có thứ hạng cao trên bảng xếp hạng thì thứ hạng của sinh viên cũng cao Chẳng hạn như trường có xếp hạng 200 thì thứ hạng của sinh viên cũng khá cao, là 276 Còn các trường có thứ hạng từ 1200 trở đi thì có thứ hạng của sinh viên thuộc vào top cuối là từ 600+

Link dữ liệu:

https://www.kaggle.com/datasets/jkanthony/world-university-rankings-202223

Link gg drive:

https://drive.google.com/drive/folders/13H9S2kVlmq36T7eJxEZOflmDzOW_CkeX? usp=sharing

Ngày đăng: 16/04/2024, 16:30

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w