Phân tích nội dung dữ liệuBộ dữ liệu “ World University Rankings 2023” bao gồm thứ tự xếp hạng của 1422 trường đại học trên toàn thế giới dựa trên các tiêu chí được đề ra.. Các tiêu chí
Trang 1TRƯỜNG ĐẠI HỌC SƯ PHẠM KỸ THUẬT TP HỒ CHÍ MINH
KHOA KINH TẾ
BÀI TẬP LỚN CÁ NHÂN
MÔN TIN HỌC ỨNG DỤNG
ĐỀ THI KẾT THÚC HỌC PHẦN
GVHD: TS Lê Ngọc Hiếu
Mã Môn học: APCM230307_22_1_02
Trần Thị Uyên Trân 21132243
THÀNH PHỐ HỒ CHÍ MINH, THÁNG 12 NĂM 2022
Trang 2MỤC LỤC
Contents
Phần 1 Tìm kiếm dữ liệu 3
1.1 Tìm dữ liệu 3
1.2 Phân tích nội dung dữ liệu 3
Phần 2 Xử lý dữ liệu và tạo báo cáo trên Excel 4
2.1 Sắp xếp và xử lý dữ liệu 4
2.2 Sử dụng Conditional Formating để highlight dữ liệu 5
2.3 Tạo dashboard và báo cáo 5
2.4 Sử dụng VBA 7
Phần 3 Phân tích dữ liệu đã xử lý trên GOOGLE COLAB 7
3.1 Sử dụng GOOGLE COLAB để đọc bộ dữ liệu, mô tả các đặc tính cơ bản của bộ dữ liệu: kích thước, số lượng, loại dữ liệu 7
3.2 Sử dụng Seaborn để vẽ biểu đồ 14
Trang 3Phần 1 Tìm kiếm dữ liệu
1.1 Tìm dữ liệu
“ World University Rankings 2023”
Nguồn: https://www.kaggle.com/datasets?tags=11105-Education
1.2 Phân tích nội dung dữ liệu
Bộ dữ liệu “ World University Rankings 2023” bao gồm thứ tự xếp hạng của 1422 trường đại học trên toàn thế giới dựa trên các tiêu chí được đề ra Các tiêu chí bao gồm như sau:
Rank: thứ tự xếp hạng của các trường đại học trên toàn thế giới
Institution: tên của trường đại học
Location: nơi tọa lạc của trường đại học
Location Code: viết tắt của tên nước mà trường đại học tọa lạc
Ar Score: điểm danh tiếng học thuật
Ar Rank: xếp hạng danh tiếng học thuật
Er Score: điểm danh tiếng của nhà tuyển dụng
Trang 4Er Rank: xếp hạng danh tiếng của nhà tuyển dụng
Fsr Score: điểm số sinh viên trường
Fsr Rank: xếp hạng điểm số sinh viên trường
Cpf Score: trích dẫn trên mỗi điểm của giảng viên
Cpf Rank: trích dẫn theo thứ hạng của khoa
Ifr Score: điểm khoa quốc tế
Ifr Rank: xếp hạng khoa quốc tế
Irn Score: điểm mạng lưới nghiên cứu quốc tế
Irn Rank: xếp hạng mạng lưới nghiên cứu quốc tế
Ger Score: điểm kết quả việc làm
Ger Rank: thứ hạng kết quả việc làm
Score Scaled: tổng thể
Phần 2 Xử lý dữ liệu và tạo báo cáo trên Excel
2.1 Sắp xếp và xử lý dữ liệu
Sử dụng các công cụ định dạng trong excel bằng Tab Home (phổ biến) như ở các
nhóm sau:
- Nhóm Font: dùng để chỉnh kiểu chữ Time New Roman và size chữ 12 cho toàn
bộ bảng dữ liệu ở sheet 2023 QS World University Ranking
- Để tạo bảng : Chọn toàn bộ dữ liệu Vào Tab Insert chọn Table Create Table Bạn có thể chỉnh màu sắc cũng như định dạng theo mong muốn bằng Tab Table Design và cho ra bảng dữ liệu sau:
Trang 52.2 Sử dụng Conditional Formating để highlight dữ liệu
- Tô màu vàng để hightlight các dòng có Location là United States và có Academic Reputation Score ( ar score) là 100
- Tô màu xanh dương để highlight các dòng có Location Code là JP và có Academic Reputation rank (ar score rank) dưới 10
- Tô màu xanh lá các trường đại học có Location Code là UK và có Ar Rank nhỏ hơn 20
2.3 Tạo dashboard và báo cáo
- Thống kê thứ hạng của các trường ĐH tại Việt Nam trong bảng xếp hạng các trường đại học trên thế giới
Trang 6- Các trường ĐH ở Úc có xếp hạng từ 500 – 1000 trên bảng xếp hạng các trường đại học trên thế giới
Sử dụng slicer tạo dashbroad liên kết các dữ liệu:
Trang 72.4 Sử dụng VBA
- Sử dụng VBA để hightlight các trường có Location code được nhập
- Sử dụng VBA để hight light các trường có Academic Reputation Score trên 50
- Sử dụng VBA để hiển thị thông tin về trường có Location được nhập
Phần 3 Phân tích dữ liệu đã xử lý trên GOOGLE COLAB
3.1 Sử dụng GOOGLE COLAB để đọc bộ dữ liệu, mô tả các đặc tính cơ bản của bộ
dữ liệu: kích thước, số lượng, loại dữ liệu.
- Khi muốn Python liên kết Google Drive, bạn có thể làm như sau:
Trang 8Bạn gõ hai dòng code như trên (các dòng lệnh này có chức năng liên kết với Google Drive của bạn), sau khi chạy code thì sẽ xuất hiện:
Và bạn cần chọn (Kết nối với Google Drive Gmail Cho phép) Kết nối với Google Drive bấm chọn Gmail, sau đó cho phép quyền truy cập Cuối cùng chạy code lại lần nữa sẽ cho ra kết quả Nếu code thực hiện đúng tức là bạn đã liên kết được với Google Drive của mình
- Đối với đề tài được chọn là Data World University Rankings 2023thì cần (truy cập vào đường link: Tải xuống dữ liệu về máy Giải nén Up lên Google Drive) tải kiểu dữ liệu về máy để giải nén và up lên Google Drive
Trang 9Kế tiếp gõ 4 dòng code như trên:
Các dòng chữ màu đỏ lần lượt là đường dẫn và tên file mà bạn tải lên Ở dòng thứ 2, bạn để nguyên đường dẫn, sau đó copy tên file xuống dòng thứ 4, cuối cùng chạy code
đó (Kết quả True – True Thực hiện đúng Dữ liệu được kích hoạt) Kết quả ra True – True như hình trên tức là bạn đã thực hiện đúng, dữ liệu đã được kích hoạt
- Khai báo thư viện như sau:
- Sau đó chạy các lệnh đọc file bằng pandas và cho biết kích thức của bộ dữ liệu
Trang 10Sau khi chạy code sẽ ra được kết quả Kết quả của code trên là (1422,21) tức là file dữ liệu có 1422 dòng và 21 cột
- Tạo ra danh sách các cột dữ liệu bằng các lệnh sau đây:
Do bảng số liệu có 21 cột nên lệnh này sẽ cho ra 21 dòng tương ứng, với mỗi dòng là một nội dung khác nhau
- Dòng lệnh data.head() sẽ cho ra tất cả số liệu của những dòng đầu tiên, mặc định là 5 dòng đầu Tương ứng với chủ đề sẽ ra những kiểu dữ liệu khác nhau
Trang 11Vậy kết quả thu được là bảng số liệu có 5 hàng và 21 cột
- Lệnh data.describe() sẽ tính toán ra số liệu theo dữ liệu đã có trong file
Chẳng hạn như ở cột Rank có:
Count: tính toán trên 1422 quan sát
Mean: trung bình của cột này là 711.5
Std: Độ lệch chuẩn là 410.640254
Min: giá trị nhỏ nhất là 1
25%: Mức phân vị thứ nhất là 356.25
50%: Mức phân vị thứ hai là 711.5
75%: Mức phân vị thứ ba là 1066.75
Max: giá trị lớn nhất là 1422
Tương tự ở các cột khác cũng được tính toán như trên
- Lệnh data.info() sẽ cho biết kiểu dữ liệu của 21 cột tương ứng có trong file
Trang 13Ta thấy có 12 cột có kiểu dữ liệu là float64 (chẳng hạn như cột ar score, er score, ifr score,…), 1 cột có kiểu dữ liệu là int64 – Rank và 12 cột có kiểu dữ liệu là object ( ví
dụ như institution, location code, location,…)
Kích thước của bộ dữ liệu là 233.4+ KB
Biểu đồ xếp hạng các trường đại học hàng đầu theo quốc gia
Đứng đầu là USA, là nước có số trường đại học đứng top đầu trên thế nhiều nhất, khoảng gần 200 trường; kế tiếp đến là UK có số lượng hơn 90 trường
Biểu đồ so sánh số lượng các trường đại học được xếp hạng hàng đầu của các quốc gia Nam Á
Trang 14Trong số 9 quốc gia ở Nam Á, 4 quốc gia đã có thể có được một vị trí trong danh sách các trường đại học hàng đầu đó là India, Pakistan, Bangladesh, Sri Lanka
Ấn Độ có số lượng các trường đại học hàng đầu cao nhất trong khu vực Nam Á với số lượng là hơn 40 trường, kế tiếp đó là Pakistan với gần 15 trường
3.2 Sử dụng Seaborn để vẽ biểu đồ
1 Biểu đồ điểm số và thứ hạng
Trang 15Đây là 8 biểu đồ thể hiện thứ hạng dựa trên 8 loại điểm là: ar score, er score, fsr score, cpf score, ifr score, isn score, irn score, ger score:
- Các trường đại học có ar score càng cao thì có thứ tự xếp hạng càng cao, tương tự giống như cpf score,
- Các trường đại học có er score cao, nhưng có các loại điểm khác không cao thì vẫn chưa đánh giá được thứ tự xếp hạng…
Nhìn chung thì các trường đại học có số điểm càng cao thì thứ tự xếp hạng cũng được nâng cao
2 Biểu đồ mối quan hệ giữa Rank và Ar Score
Trang 16Như ta thấy, các trường đại học có ar score càng cao thì được xếp hạng càng cao, chẳng hạn như có một số trường có ar score là 100 thì có xếp hạng từ 1 – 200, còn các trường đại học có ar score thấp hơn thì có xếp hạng thấp hơn
3 Biểu đồ thể hiện mối quan hệ giữa Rank và Ar Rank ở các quốc gia Nam Á
Có 4 quốc gia Nam Á xuất hiện trong top những quốc gia có trong bảng xếp hạng các trường đại học hàng đầu trên thế giới đó là IN, PK, BD và LK
Theo như quan sát ta thấy, IN là quốc gia có nhiều trường đại học xuất hiện trong bảng xếp hạng nhất trong khu vực Nam Á, và các trường có thứ hạng từ 200 còn các
Trang 17quốc gia còn lại có thứ hạng từ 300 trở đi Các quốc gia Nam Á có ar rank dao động từ
145 đến 501+, chứng tỏ xếp hạng học thuật càng cao (145) sẽ có thứ hạng (Rank) cao hơn các trường đại học có xếp hạng học thuật thấp
4 Biểu đồ thứ hạng của các trường đại học ở khu vực Nam Á
Biểu đồ cho ta thấy, các trường đại học của khu vực Nam Á xuất hiện trong bảng xếp hạng các trường đại học, có 6 trường có thứ hạng từ 200 – 300, 5 trường có thứ hạng
400, 5 trường có thứ hạng từ 500 – 600, 12 trường có thứ hạng từ 1000 – 1100 và rải rác một vài trường có thứ sau 1200 Theo như quan sát, thứ hạng cao nhất mà các trường đại học khu vực Nam Á đạt được là từ 200 – 300
5 Biểu đồ thể hiện mối quan hệ giữa Rank và Fsr Rank của các trường đại học ở khu vực Nam Á
Trang 18Theo như quan sát ta thấy, hầu hết các trường có thứ hạng cao trên bảng xếp hạng thì thứ hạng của sinh viên cũng cao Chẳng hạn như trường có xếp hạng 200 thì thứ hạng của sinh viên cũng khá cao, là 276 Còn các trường có thứ hạng từ 1200 trở đi thì có thứ hạng của sinh viên thuộc vào top cuối là từ 600+
Link dữ liệu:
https://www.kaggle.com/datasets/jkanthony/world-university-rankings-202223
Link gg drive:
https://drive.google.com/drive/folders/13H9S2kVlmq36T7eJxEZOflmDzOW_CkeX? usp=sharing