1. Trang chủ
  2. » Luận Văn - Báo Cáo

tiểu luận tìm hiểu và phân tích dữ liệu world development indicators

22 0 0
Tài liệu được quét OCR, nội dung có thể không chính xác
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Tìm Hiểu Và Phân Tích Dữ Liệu "World Development Indicators"
Tác giả Nguyén Hà Yén Nhi, Nguyén Thị Nhu Y
Người hướng dẫn Phan Thanh Hy, GVHD
Trường học Trường Đại Học Sư Phạm Kỹ Thuật Tp. Hcm
Chuyên ngành Tin Học Ứng Dụng
Thể loại Tiểu Luận
Năm xuất bản 2023
Thành phố Thủ Đức
Định dạng
Số trang 22
Dung lượng 4,04 MB

Nội dung

PHẦN 1 – CHỌN CHỦ ĐỀ NGHIÊN CỨU VÀ THU THẬP DỮ LIỆU1.3 Các bước tìm kiếm và thu thập dữ liệu: Bước 1: Chọn database: World Development Indicators – Các chỉ số phát triển trên thếgiới..

Trang 1

TRƯỜNG ĐẠI HỌC SƯ PHẠM KỸ THUẬT TP HCM

KHOA KINH TẾ

- š›&š›

TIỂU LUẬN MÔN HỌC: TIN HỌC ỨNG DỤNG

TÌM HIỂU VÀ PHÂN TÍCH DỮ LIỆU “WORLD DEVELOPMENT

INDICATORS”

GVHD: Phan Thanh Hy SVTH:

1 Nguyễn Hà Yến Nhi 21125329

2 Nguyễn Thị Như Ý 21125195

Mã lớp: APCM220307_22_2_01

Thành phố Thủ Đức, ngày 31 tháng 05 năm 2023

Trang 3

BẢNG PHÂN CÔNG NHIỆM VỤ ĐÁNH GIÁ VÀ NHẬN XÉT CỦA GIÁO VIÊN

STT Họ tên người thực

1 Nguyễn Hà Yến Nhi

Trang 4

NHẬN XÉT CỦA GIÁO VIÊN

Ký tên

Phan Thanh Hy

Trang 5

MỤC LỤC

PHẦN 1 – CHỌN CHỦ ĐỀ NGHIÊN CỨU VÀ THU THẬP DỮ LIỆU 1

1.1 Chủ đề nghiên cứu: 1

1.2 Nguyên nhân chọn chủ đề: 1

1.3 Các bước tìm kiếm và thu thập dữ liệu: 1

PHẦN 2 – XỬ LÝ VÀ TẠO BÁO CÁO TRÊN EXCEL 3

2.1 Sắp xếp lại dữ liệu: 3

2.2 Thực hành sử dụng Conditional Formating với các yêu cầu sau: 4

2.2.1 Tô màu vàng những năm có tốc độ tăng trưởng GDP từ 6.0 trở lên: 4

2.2.2 Tô màu đỏ quốc gia có lượng khí thải lớn hơn 5.000.000 và nhỏ hơn 11.000.000: 5

2.2.3 Tô màu xanh biển 10 mức xuất khẩu hàng hóa thấp nhất của các quốc gia: 5 2.2.4 Tô màu xanh lá quốc gia nào có tỉ lệ người sử dụng internet từ 90% trở lên vào năm 2019: 6

2.3 Tạo dashboard và báo cáo các dữ liệu: 7

2.4 Viết hàm VBA theo các yêu cầu: 7

PHẦN 3 - PHÂN TÍCH DỮ LIỆU TRÊN GOOGLE COLAB 9

3.1 Kết nối Google Drive với Google Colab 9

3.2 Đưa đến đường dẫn liên kết và đọc file 9

3.3 Nhận xét biểu đồ: 12

TÀI LIỆU THAM KHẢO 17

Trang 6

PHẦN 1 – CHỌN CHỦ ĐỀ NGHIÊN CỨU VÀ THU THẬP DỮ LIỆU

1.3 Các bước tìm kiếm và thu thập dữ liệu:

Bước 1: Chọn database: World Development Indicators – Các chỉ số phát triển trên thếgiới

Bước 2: Lựa chọn quốc gia: gồm 6 quốc gia

Bước 3: Lựa chọn các tiêu chí:

- Nuôi trồng thủy sản (tấn): Aquaculture Production

- Diện tích đất có thể canh tác (ha): Arable land

Trang 7

- Đánh bắt thủy sản (tấn): Capture fisheries production

- Lượng khí thải CO : CO emissions 2 2

- Tỷ lệ việc làm trong độ tuổi từ 15 đến 24 trên tổng số dân số quốc gia (%):Employment to population ratio, ages 15-24, total (%)

- Diện tích rừng (km ): Forest area (sq.km)2

- Tăng trưởng GDP hàng năm (%): GDP growth (annual %)

- Tỷ lệ cá nhân sử dụng internet trên tổng dân số (%): Individuals using the Internet(% of population)

- Diện tích đất (km ): Land area (sq.km)2

- Xuất khẩu hàng hóa (USD): Merchandise exports (current US$)

Bước 4: Chọn thời gian khảo sát: từ năm 2010 đến 2019

 Các quốc gia, các tiêu chí hay thời gian khảo sát ở trên nhóm chúng em cùng nhauthống nhất chọn vì chúng tôi muốn tìm hiểu thêm về các quốc gia trên phát triểnnhư nào trước thời gian dịch Covid-19 bùng nổ ra toàn thế giới, đó cũng là cụmthời gian gần nhất tính đến thời điểm hiện tại

Trang 8

PHẦN 2 – XỬ LÝ VÀ TẠO BÁO CÁO TRÊN EXCEL

2.1 Sắp xếp lại dữ liệu:

Trên đây là dữ liệu đã được chúng em sử dụng các hàm để loại bỏ những giá trị trống vàthay thế bằng những giá trị phù hợp hơn Cách trình bày dữ liệu chúng em đã sắp xếp lại

để có thể dễ dàng hình dung và để các thao tác sau đó nhanh hơn, cũng như sẽ nhìn được

sự thay đổi về các tiêu chí của các quốc gia qua những năm khác nhau

Trang 9

2.2 Thực hành sử dụng Conditional Formating với các yêu cầu sau:

2.2.1 Tô màu vàng những năm có tốc độ tăng trưởng GDP từ 6.0 trở lên:

Hình ảnh trên minh chứng cho yêu cầu Qua đó, chúng ta có thể thấy được chỉ có cácquốc như Campuchia, Việt Nam và Trung Quốc là những quốc gia trong khoảng thời gian

từ năm 2010 đến năm 2019 có chỉ số GDP từ 6.0 trở lên Đặc biệt là Campuchia và TrungQuốc là hai quốc gia giữ mức GDP trên 6.0 liên tục qua các năm Cụ thể, Campuchia từnăm 2011 đến năm 2019 còn Trung Quốc từ năm 2010 đến năm 2018

Trang 10

2.2.2 Tô màu đỏ quốc gia có lượng khí thải lớn hơn 5.000.000 và nhỏ hơn 11.000.000:

Tại điểm được tô màu đỏ cho chúng ta thấy được mức khí thải CO được thải ra nhiều2

nhất ở Trung Quốc, đây là quốc gia lớn nhất nhì thế giới với những ngành công nghiệpphát triển dẫn đầu, nền kinh tế phát triển nhưng đây lại là quốc gia phát thải CO cao nhất2

không chỉ trong quá khứ

2.2.3 Tô màu xanh biển 10 mức xuất khẩu hàng hóa thấp nhất của các quốc gia:

Trang 11

Khi tìm 10 mức xuất khẩu hàng hóa thấp nhất thì ta thấy được mức xuất khẩu ởCampuchia khá ít so với các quốc gia khác vì chủ yếu ở Campuchia là xuất khẩu các sảnphẩm của nông nghiệp đến các quốc gia vùng lân cận và Campuchia là một quốc gia nhỏvới mức dân số chỉ ở khoảng 15 triệu người

2.2.4 Tô màu xanh lá quốc gia nào có tỉ lệ người sử dụng internet từ 90% trở lên vào năm 2019:

Qua hình ảnh miêu tả trên cho thấy được vào năm 2019 thì chỉ có Canada và Nhật Bản làhai quốc gia vào 2019 có tỉ lệ người dân sử dụng mạng internet cao nhất so với 4 quốcgia còn lại Không chỉ từ năm 2019 mà vào những năm đầu của năm 2000 mạng internetngày càng được lan truyền rộng rãi trên thế giới, đây là một kho lưu trữ thông tin nhiềunhất với mọi ngành nghề và còn khiến mọi người ở khắp nơi trên thế giới có thể gắn kếtvới nhau

Trang 12

2.3 Tạo dashboard và báo cáo các dữ liệu:

Dashboard được tạo trong excel với mục đích có thể nhìn thấy sự thay đổi theo các QuốcGia qua các năm hoặc của Quốc Gia bất kỳ theo năm về mức khí thải CO2 được thải rangoài môi trường sống hoặc tổng mức xuất khẩu hàng hóa của các Quốc Gia QuaDashboard ta có thể dễ dàng thay đổi theo Quốc Gia hoặc theo năm mà ta muốn so sánh

2.4 Viết hàm VBA theo các yêu cầu:

 Hàm VBA highlight dữ liệu theo thời gian và quốc gia:

 Nhập số n để tìm tỉ lệ việc làm có mức % lớn hơn n:

Trang 14

PHẦN 3 - PHÂN TÍCH DỮ LIỆU TRÊN GOOGLE COLAB

Sau khi thay đối các giá trị null ở cột Employment to population ratio, ages 15-24, total (%) (national estimate) và cột Individuals using the Internet (% of population) thành 0) thì tiến hành:

3.1 Kết nối Google Drive với Google Colab.

3.2 Đưa đến đường dẫn liên kết và đọc file

- File dữ liệu gồm 12 cột và 60 dòng

Trang 15

- Các cột của file dữ liệu cùng với số hàng cột đã điền dữ liệu.

+ Cột Country Name được điền 60 dòng, với kiểu dữ liệu là object (ký tự)

+ Cột Year được điền 60 dòng, với kiểu dữ liệu là int64

+ Cột Aquaculture production (metric tons) được điền 60 dòng, với kiểu dữ liệu là int64.+ Cột Arable land (hectares) được điền 60 dòng, với kiểu dữ liệu là int64

+ Cột Capture fisheries production (metric tons), với kiểu dữ liệu là int64

+ Cột CO2 emissions (kt), với kiểu dữ liệu là int64

+ Cột Employment to population ratio and ages 15024 and total (%) (national estimate),

với kiểu dữ liệu là int64

+ Cột Forest area (sq Km), với kiểu dữ liệu là int64

+ Cột GDP growth (annual %), với kiểu dữ liệu là int64

+ Cột Individuals using the Internet (% of population), với kiểu dữ liệu là int64

Trang 16

+ Cột Land area (sq km), với kiểu dữ liệu là int64.

+ Cột Merchandise exports (current US$), với kiểu dữ liệu là int64

- 5 dòng đầu tiên của bảng dữ liệu

- Thống kê số giá trị độc nhất trong các cột có kiểu dữ liệu là object

- Thống kê các dữ liệu số trong file dữ liệu ban đầu

+ Country Name là dữ liệu thể hiện tên quốc gia và có 6 giá trị độc lập

+ Year có kiểu số, có giá trị trung bình là 2014, giá trị lớn nhất là 2019 và nhỏ nhất là

2010, độ lệch chuẩn là 2.89

+ Aquaculture production (metric tons) có kiểu số, có giá trị trung bình là 10538590, giátrị lớn nhất là 68423860 và nhỏ nhất là 60000, có độ lệch chuẩn là 21708270

Trang 17

+ Arable land (hectares) có kiểu số, có giá trị trung bình là 31834350, giá trị lớn nhất là

Trang 18

Biểu đồ cho thấy lượng khí thải CO2 (kt) lơn nhất là hơn 10000000 (kt), giá trị nhỏ nhấtnằm khoảng 1000000 và giá trị trung bình nằm giữa 2500000 và 2000000 Lượng khí thảiCO2 dao động khoảng 500000 đến 1250000 nên nữa bên phải nhiều hơn nữa bên trái, do

đó dữ liệu bị lệch nữa bên phải Cho thấy chỉ số phát triển thế giới tập trung ở mức trên

Trang 19

Biểu đồ thể hiện mối quan hệ giữa diện tích khu rừng và lượng khí thải CO2 Cho thấylượng khí thải CO2 tập trung cao nhất ở những khu rừng có diện tích từ 200000 tới2500000km2 Với khu rừng có diện tích cao hơn thì lượng khí thải CO2 tập trung ít hơn,hầu như là không có Cho thấy chỉ số phát triển thế giới tập trung ở mức trên.

Trang 20

Biểu đồ thể hiện mối quan hệ giữa tăng trưởng GDP và diện tích đất Tốc độ tăng tậptrung nhiều nhất là từ 6%-8% Ở mức này diện tích đất cao nhất hơn 8000000 và nhỏnhất là 100000 Cho thấy đa phần chỉ số phát triển thế giới tập trung ở mức trên.

Trang 21

Biểu đồ cho thấy những nơi tốc độ tăng trưởng GDP cao nhất tập trung từ 6%-4% và ởmức này thì diện tích đất cũng nằm ở mức cao Cho thấy chỉ số phát triển thế giới đangtập trung ở mức này.

Trang 22

TÀI LIỆU THAM KHẢO

*Dữ liệu Databank World Bank Tuy cập ngày 25/05/2023 tại:https://databank.worldbank.org/source/world-development-indicators

Ngày đăng: 13/07/2024, 16:49

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w