1. Trang chủ
  2. » Luận Văn - Báo Cáo

Bài tập lớn cá nhân phân tích dữ liệu đã xử lý trên google colab

18 0 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Nội dung

Phân tích nội dung dữ liệuBộ dữ liệu “ World University Rankings 2023” bao gồm thứ tự xếp hạng của 1422 trường đại học trên toàn thế giới dựa trên các tiêu chí được đề ra.. Các tiêu chí

Trang 1

TRƯỜNG ĐẠI HỌC SƯ PHẠM KỸ THUẬT TP HỒ CHÍ MINH

Trang 2

MỤC LỤC

Phần 1 Tìm kiếm dữ liệu 3

1.1 Tìm dữ liệu 3

1.2 Phân tích nội dung dữ liệu 3

Phần 2 Xử lý dữ liệu và tạo báo cáo trên Excel 4

2.1 Sắp xếp và xử lý dữ liệu 4

2.2 Sử dụng Conditional Formating để highlight dữ liệu 5

2.3 Tạo dashboard và báo cáo 5

2.4 Sử dụng VBA 7

Phần 3 Phân tích dữ liệu đã xử lý trên GOOGLE COLAB 7

3.1 Sử dụng GOOGLE COLAB để đọc bộ dữ liệu, mô tả các đặc tính cơ bản của bộdữ liệu: kích thước, số lượng, loại dữ liệu 7

3.2 Sử dụng Seaborn để vẽ biểu đồ 14

Trang 3

Phần 1 Tìm kiếm dữ liệu

1.1 Tìm dữ liệu

“ World University Rankings 2023”

Nguồn: https://www.kaggle.com/datasets?tags=11105-Education

1.2 Phân tích nội dung dữ liệu

Bộ dữ liệu “ World University Rankings 2023” bao gồm thứ tự xếp hạng của 1422 trường đại học trên toàn thế giới dựa trên các tiêu chí được đề ra Các tiêu chí bao gồm như sau:

Rank: thứ tự xếp hạng của các trường đại học trên toàn thế giới

Institution: tên của trường đại họcLocation: nơi tọa lạc của trường đại học

Location Code: viết tắt của tên nước mà trường đại học tọa lạc

Ar Score: điểm danh tiếng học thuậtAr Rank: xếp hạng danh tiếng học thuật

Er Score: điểm danh tiếng của nhà tuyển dụng

Trang 4

Er Rank: xếp hạng danh tiếng của nhà tuyển dụng

Fsr Score: điểm số sinh viên trường

Fsr Rank: xếp hạng điểm số sinh viên trường

Cpf Score: trích dẫn trên mỗi điểm của giảng viênCpf Rank: trích dẫn theo thứ hạng của khoa

Ifr Score: điểm khoa quốc tếIfr Rank: xếp hạng khoa quốc tế

Irn Score: điểm mạng lưới nghiên cứu quốc tế

Irn Rank: xếp hạng mạng lưới nghiên cứu quốc tếGer Score: điểm kết quả việc làm

Ger Rank: thứ hạng kết quả việc làm

- Nhóm Font: dùng để chỉnh kiểu chữ Time New Roman và size chữ 12 cho toàn bộ bảng dữ liệu ở sheet 2023 QS World University Ranking.

- Để tạo bảng : Chọn toàn bộ dữ liệu Vào Tab Insert chọn Table Create Table Bạn có thể chỉnh màu sắc cũng như định dạng theo mong muốn bằng Tab Table Design và cho ra bảng dữ liệu sau:

Trang 5

2.2 Sử dụng Conditional Formating để highlight dữ liệu

- Tô màu vàng để hightlight các dòng có Location là United States và có Academic Reputation Score ( ar score) là 100

- Tô màu xanh dương để highlight các dòng có Location Code là JP và có Academic Reputation rank (ar score rank) dưới 10

- Tô màu xanh lá các trường đại học có Location Code là UK và có Ar Rank nhỏ hơn 20.

2.3 Tạo dashboard và báo cáo

- Thống kê thứ hạng của các trường ĐH tại Việt Nam trong bảng xếp hạng các trường đại học trên thế giới.

Trang 6

- Các trường ĐH ở Úc có xếp hạng từ 500 – 1000 trên bảng xếp hạng các trường đại học trên thế giới.

Sử dụng slicer tạo dashbroad liên kết các dữ liệu:

Trang 7

2.4 Sử dụng VBA

- Sử dụng VBA để hightlight các trường có Location code được nhập

- Sử dụng VBA để hight light các trường có Academic Reputation Score trên 50 - Sử dụng VBA để hiển thị thông tin về trường có Location được nhập

Phần 3 Phân tích dữ liệu đã xử lý trên GOOGLE COLAB

3.1 Sử dụng GOOGLE COLAB để đọc bộ dữ liệu, mô tả các đặc tính cơ bản của bộ dữ liệu: kích thước, số lượng, loại dữ liệu.

- Khi muốn Python liên kết Google Drive, bạn có thể làm như sau:

Trang 8

Bạn gõ hai dòng code như trên (các dòng lệnh này có chức năng liên kết với Google Drive của bạn), sau khi chạy code thì sẽ xuất hiện:

Và bạn cần chọn (Kết nối với Google Drive Gmail Cho phép) Kết nối với Google Drive bấm chọn Gmail, sau đó cho phép quyền truy cập Cuối cùng chạy code lại lần nữa sẽ cho ra kết quả Nếu code thực hiện đúng tức là bạn đã liên kết được với Google Drive của mình.

- Đối với đề tài được chọn là Data World University Rankings 2023thì cần (truy cập vào đường link: Tải xuống dữ liệu về máy Giải nén Up lên Google Drive) tải kiểu dữ liệu về máy để giải nén và up lên Google Drive.

Trang 9

Kế tiếp gõ 4 dòng code như trên:

Các dòng chữ màu đỏ lần lượt là đường dẫn và tên file mà bạn tải lên Ở dòng thứ 2, bạn để nguyên đường dẫn, sau đó copy tên file xuống dòng thứ 4, cuối cùng chạy code đó (Kết quả True – True Thực hiện đúng Dữ liệu được kích hoạt) Kết quả ra True – True như hình trên tức là bạn đã thực hiện đúng, dữ liệu đã được kích hoạt.

- Khai báo thư viện như sau:

- Sau đó chạy các lệnh đọc file bằng pandas và cho biết kích thức của bộ dữ liệu

Trang 10

Sau khi chạy code sẽ ra được kết quả Kết quả của code trên là (1422,21) tức là file dữ liệu có 1422 dòng và 21 cột.

- Tạo ra danh sách các cột dữ liệu bằng các lệnh sau đây:

Do bảng số liệu có 21 cột nên lệnh này sẽ cho ra 21 dòng tương ứng, với mỗi dòng là một nội dung khác nhau.

- Dòng lệnh data.head() sẽ cho ra tất cả số liệu của những dòng đầu tiên, mặc định là 5 dòng đầu Tương ứng với chủ đề sẽ ra những kiểu dữ liệu khác nhau.

Trang 11

Vậy kết quả thu được là bảng số liệu có 5 hàng và 21 cột

- Lệnh data.describe() sẽ tính toán ra số liệu theo dữ liệu đã có trong file.

Chẳng hạn như ở cột Rank có:

Count: tính toán trên 1422 quan sát Mean: trung bình của cột này là 711.5

Tương tự ở các cột khác cũng được tính toán như trên.

- Lệnh data.info() sẽ cho biết kiểu dữ liệu của 21 cột tương ứng có trong file.

Trang 13

Ta thấy có 12 cột có kiểu dữ liệu là float64 (chẳng hạn như cột ar score, er score, ifr score,…), 1 cột có kiểu dữ liệu là int64 – Rank và 12 cột có kiểu dữ liệu là object ( ví dụ như institution, location code, location,…)

Kích thước của bộ dữ liệu là 233.4+ KB.

Biểu đồ xếp hạng các trường đại học hàng đầu theo quốc gia

Đứng đầu là USA, là nước có số trường đại học đứng top đầu trên thế nhiều nhất, khoảng gần 200 trường; kế tiếp đến là UK có số lượng hơn 90 trường

Biểu đồ so sánh số lượng các trường đại học được xếp hạng hàng đầu của các quốc gia Nam Á

Trang 14

Trong số 9 quốc gia ở Nam Á, 4 quốc gia đã có thể có được một vị trí trong danh sách các trường đại học hàng đầu đó là India, Pakistan, Bangladesh, Sri Lanka.

Ấn Độ có số lượng các trường đại học hàng đầu cao nhất trong khu vực Nam Á với số lượng là hơn 40 trường, kế tiếp đó là Pakistan với gần 15 trường.

3.2 Sử dụng Seaborn để vẽ biểu đồ

1 Biểu đồ điểm số và thứ hạng

Trang 15

Đây là 8 biểu đồ thể hiện thứ hạng dựa trên 8 loại điểm là: ar score, er score, fsr score, cpf score, ifr score, isn score, irn score, ger score:

- Các trường đại học có ar score càng cao thì có thứ tự xếp hạng càng cao, tương tự giống như cpf score,

- Các trường đại học có er score cao, nhưng có các loại điểm khác không cao thì vẫn chưa đánh giá được thứ tự xếp hạng…

Nhìn chung thì các trường đại học có số điểm càng cao thì thứ tự xếp hạng cũng được nâng cao.

2 Biểu đồ mối quan hệ giữa Rank và Ar Score

Trang 16

Như ta thấy, các trường đại học có ar score càng cao thì được xếp hạng càng cao, chẳng hạn như có một số trường có ar score là 100 thì có xếp hạng từ 1 – 200, còn các trường đại học có ar score thấp hơn thì có xếp hạng thấp hơn.

3 Biểu đồ thể hiện mối quan hệ giữa Rank và Ar Rank ở các quốc gia Nam Á

Có 4 quốc gia Nam Á xuất hiện trong top những quốc gia có trong bảng xếp hạng các trường đại học hàng đầu trên thế giới đó là IN, PK, BD và LK

Theo như quan sát ta thấy, IN là quốc gia có nhiều trường đại học xuất hiện trong bảng xếp hạng nhất trong khu vực Nam Á, và các trường có thứ hạng từ 200 còn các

Trang 17

quốc gia còn lại có thứ hạng từ 300 trở đi Các quốc gia Nam Á có ar rank dao động từ 145 đến 501+, chứng tỏ xếp hạng học thuật càng cao (145) sẽ có thứ hạng (Rank) cao hơn các trường đại học có xếp hạng học thuật thấp.

4 Biểu đồ thứ hạng của các trường đại học ở khu vực Nam Á

Biểu đồ cho ta thấy, các trường đại học của khu vực Nam Á xuất hiện trong bảng xếp hạng các trường đại học, có 6 trường có thứ hạng từ 200 – 300, 5 trường có thứ hạng 400, 5 trường có thứ hạng từ 500 – 600, 12 trường có thứ hạng từ 1000 – 1100 và rải rác một vài trường có thứ sau 1200 Theo như quan sát, thứ hạng cao nhất mà các trường đại học khu vực Nam Á đạt được là từ 200 – 300.

5 Biểu đồ thể hiện mối quan hệ giữa Rank và Fsr Rank của các trường đại học ở khu vực Nam Á

Trang 18

Theo như quan sát ta thấy, hầu hết các trường có thứ hạng cao trên bảng xếp hạng thì thứ hạng của sinh viên cũng cao Chẳng hạn như trường có xếp hạng 200 thì thứ hạng của sinh viên cũng khá cao, là 276 Còn các trường có thứ hạng từ 1200 trở đi thì có thứ hạng của sinh viên thuộc vào top cuối là từ 600+.

Link dữ liệu: https://www.kaggle.com/datasets/jkanthony/world-university-rankings-202223

Link gg drive:

https://drive.google.com/drive/folders/13H9S2kVlmq36T7eJxEZOflmDzOW_CkeX? usp=sharing

Ngày đăng: 16/04/2024, 16:30

TÀI LIỆU CÙNG NGƯỜI DÙNG

  • Đang cập nhật ...

TÀI LIỆU LIÊN QUAN