PHẦN 1 – CHỌN CHỦ ĐỀ NGHIÊN CỨU VÀ THU THẬP DỮ LIỆU1.3 Các bước tìm kiếm và thu thập dữ liệu: Bước 1: Chọn database: World Development Indicators – Các chỉ số phát triển trên thếgiới..
Trang 1TRƯỜNG ĐẠI HỌC SƯ PHẠM KỸ THUẬT TP HCM
KHOA KINH TẾ
- š›&š›
TIỂU LUẬN MÔN HỌC: TIN HỌC ỨNG DỤNG
TÌM HIỂU VÀ PHÂN TÍCH DỮ LIỆU “WORLD DEVELOPMENT
INDICATORS”
GVHD: Phan Thanh Hy SVTH:
1 Nguyễn Hà Yến Nhi 21125329
2 Nguyễn Thị Như Ý 21125195
Mã lớp: APCM220307_22_2_01
Thành phố Thủ Đức, ngày 31 tháng 05 năm 2023
Trang 3BẢNG PHÂN CÔNG NHIỆM VỤ ĐÁNH GIÁ VÀ NHẬN XÉT CỦA GIÁO VIÊN
STT Họ tên người thực
1 Nguyễn Hà Yến Nhi
Trang 4NHẬN XÉT CỦA GIÁO VIÊN
Ký tên
Phan Thanh Hy
Trang 5MỤC LỤC
PHẦN 1 – CHỌN CHỦ ĐỀ NGHIÊN CỨU VÀ THU THẬP DỮ LIỆU 1
1.1 Chủ đề nghiên cứu: 1
1.2 Nguyên nhân chọn chủ đề: 1
1.3 Các bước tìm kiếm và thu thập dữ liệu: 1
PHẦN 2 – XỬ LÝ VÀ TẠO BÁO CÁO TRÊN EXCEL 3
2.1 Sắp xếp lại dữ liệu: 3
2.2 Thực hành sử dụng Conditional Formating với các yêu cầu sau: 4
2.2.1 Tô màu vàng những năm có tốc độ tăng trưởng GDP từ 6.0 trở lên: 4
2.2.2 Tô màu đỏ quốc gia có lượng khí thải lớn hơn 5.000.000 và nhỏ hơn 11.000.000: 5
2.2.3 Tô màu xanh biển 10 mức xuất khẩu hàng hóa thấp nhất của các quốc gia: 5 2.2.4 Tô màu xanh lá quốc gia nào có tỉ lệ người sử dụng internet từ 90% trở lên vào năm 2019: 6
2.3 Tạo dashboard và báo cáo các dữ liệu: 7
2.4 Viết hàm VBA theo các yêu cầu: 7
PHẦN 3 - PHÂN TÍCH DỮ LIỆU TRÊN GOOGLE COLAB 9
3.1 Kết nối Google Drive với Google Colab 9
3.2 Đưa đến đường dẫn liên kết và đọc file 9
3.3 Nhận xét biểu đồ: 12
TÀI LIỆU THAM KHẢO 17
Trang 6PHẦN 1 – CHỌN CHỦ ĐỀ NGHIÊN CỨU VÀ THU THẬP DỮ LIỆU
1.3 Các bước tìm kiếm và thu thập dữ liệu:
Bước 1: Chọn database: World Development Indicators – Các chỉ số phát triển trên thếgiới
Bước 2: Lựa chọn quốc gia: gồm 6 quốc gia
Bước 3: Lựa chọn các tiêu chí:
- Nuôi trồng thủy sản (tấn): Aquaculture Production
- Diện tích đất có thể canh tác (ha): Arable land
Trang 7- Đánh bắt thủy sản (tấn): Capture fisheries production
- Lượng khí thải CO : CO emissions 2 2
- Tỷ lệ việc làm trong độ tuổi từ 15 đến 24 trên tổng số dân số quốc gia (%):Employment to population ratio, ages 15-24, total (%)
- Diện tích rừng (km ): Forest area (sq.km)2
- Tăng trưởng GDP hàng năm (%): GDP growth (annual %)
- Tỷ lệ cá nhân sử dụng internet trên tổng dân số (%): Individuals using the Internet(% of population)
- Diện tích đất (km ): Land area (sq.km)2
- Xuất khẩu hàng hóa (USD): Merchandise exports (current US$)
Bước 4: Chọn thời gian khảo sát: từ năm 2010 đến 2019
Các quốc gia, các tiêu chí hay thời gian khảo sát ở trên nhóm chúng em cùng nhauthống nhất chọn vì chúng tôi muốn tìm hiểu thêm về các quốc gia trên phát triểnnhư nào trước thời gian dịch Covid-19 bùng nổ ra toàn thế giới, đó cũng là cụmthời gian gần nhất tính đến thời điểm hiện tại
Trang 8PHẦN 2 – XỬ LÝ VÀ TẠO BÁO CÁO TRÊN EXCEL
2.1 Sắp xếp lại dữ liệu:
Trên đây là dữ liệu đã được chúng em sử dụng các hàm để loại bỏ những giá trị trống vàthay thế bằng những giá trị phù hợp hơn Cách trình bày dữ liệu chúng em đã sắp xếp lại
để có thể dễ dàng hình dung và để các thao tác sau đó nhanh hơn, cũng như sẽ nhìn được
sự thay đổi về các tiêu chí của các quốc gia qua những năm khác nhau
Trang 92.2 Thực hành sử dụng Conditional Formating với các yêu cầu sau:
2.2.1 Tô màu vàng những năm có tốc độ tăng trưởng GDP từ 6.0 trở lên:
Hình ảnh trên minh chứng cho yêu cầu Qua đó, chúng ta có thể thấy được chỉ có cácquốc như Campuchia, Việt Nam và Trung Quốc là những quốc gia trong khoảng thời gian
từ năm 2010 đến năm 2019 có chỉ số GDP từ 6.0 trở lên Đặc biệt là Campuchia và TrungQuốc là hai quốc gia giữ mức GDP trên 6.0 liên tục qua các năm Cụ thể, Campuchia từnăm 2011 đến năm 2019 còn Trung Quốc từ năm 2010 đến năm 2018
Trang 102.2.2 Tô màu đỏ quốc gia có lượng khí thải lớn hơn 5.000.000 và nhỏ hơn 11.000.000:
Tại điểm được tô màu đỏ cho chúng ta thấy được mức khí thải CO được thải ra nhiều2
nhất ở Trung Quốc, đây là quốc gia lớn nhất nhì thế giới với những ngành công nghiệpphát triển dẫn đầu, nền kinh tế phát triển nhưng đây lại là quốc gia phát thải CO cao nhất2
không chỉ trong quá khứ
2.2.3 Tô màu xanh biển 10 mức xuất khẩu hàng hóa thấp nhất của các quốc gia:
Trang 11Khi tìm 10 mức xuất khẩu hàng hóa thấp nhất thì ta thấy được mức xuất khẩu ởCampuchia khá ít so với các quốc gia khác vì chủ yếu ở Campuchia là xuất khẩu các sảnphẩm của nông nghiệp đến các quốc gia vùng lân cận và Campuchia là một quốc gia nhỏvới mức dân số chỉ ở khoảng 15 triệu người
2.2.4 Tô màu xanh lá quốc gia nào có tỉ lệ người sử dụng internet từ 90% trở lên vào năm 2019:
Qua hình ảnh miêu tả trên cho thấy được vào năm 2019 thì chỉ có Canada và Nhật Bản làhai quốc gia vào 2019 có tỉ lệ người dân sử dụng mạng internet cao nhất so với 4 quốcgia còn lại Không chỉ từ năm 2019 mà vào những năm đầu của năm 2000 mạng internetngày càng được lan truyền rộng rãi trên thế giới, đây là một kho lưu trữ thông tin nhiềunhất với mọi ngành nghề và còn khiến mọi người ở khắp nơi trên thế giới có thể gắn kếtvới nhau
Trang 122.3 Tạo dashboard và báo cáo các dữ liệu:
Dashboard được tạo trong excel với mục đích có thể nhìn thấy sự thay đổi theo các QuốcGia qua các năm hoặc của Quốc Gia bất kỳ theo năm về mức khí thải CO2 được thải rangoài môi trường sống hoặc tổng mức xuất khẩu hàng hóa của các Quốc Gia QuaDashboard ta có thể dễ dàng thay đổi theo Quốc Gia hoặc theo năm mà ta muốn so sánh
2.4 Viết hàm VBA theo các yêu cầu:
Hàm VBA highlight dữ liệu theo thời gian và quốc gia:
Nhập số n để tìm tỉ lệ việc làm có mức % lớn hơn n:
Trang 14PHẦN 3 - PHÂN TÍCH DỮ LIỆU TRÊN GOOGLE COLAB
Sau khi thay đối các giá trị null ở cột Employment to population ratio, ages 15-24, total (%) (national estimate) và cột Individuals using the Internet (% of population) thành 0) thì tiến hành:
3.1 Kết nối Google Drive với Google Colab.
3.2 Đưa đến đường dẫn liên kết và đọc file
- File dữ liệu gồm 12 cột và 60 dòng
Trang 15- Các cột của file dữ liệu cùng với số hàng cột đã điền dữ liệu.
+ Cột Country Name được điền 60 dòng, với kiểu dữ liệu là object (ký tự)
+ Cột Year được điền 60 dòng, với kiểu dữ liệu là int64
+ Cột Aquaculture production (metric tons) được điền 60 dòng, với kiểu dữ liệu là int64.+ Cột Arable land (hectares) được điền 60 dòng, với kiểu dữ liệu là int64
+ Cột Capture fisheries production (metric tons), với kiểu dữ liệu là int64
+ Cột CO2 emissions (kt), với kiểu dữ liệu là int64
+ Cột Employment to population ratio and ages 15024 and total (%) (national estimate),
với kiểu dữ liệu là int64
+ Cột Forest area (sq Km), với kiểu dữ liệu là int64
+ Cột GDP growth (annual %), với kiểu dữ liệu là int64
+ Cột Individuals using the Internet (% of population), với kiểu dữ liệu là int64
Trang 16+ Cột Land area (sq km), với kiểu dữ liệu là int64.
+ Cột Merchandise exports (current US$), với kiểu dữ liệu là int64
- 5 dòng đầu tiên của bảng dữ liệu
- Thống kê số giá trị độc nhất trong các cột có kiểu dữ liệu là object
- Thống kê các dữ liệu số trong file dữ liệu ban đầu
+ Country Name là dữ liệu thể hiện tên quốc gia và có 6 giá trị độc lập
+ Year có kiểu số, có giá trị trung bình là 2014, giá trị lớn nhất là 2019 và nhỏ nhất là
2010, độ lệch chuẩn là 2.89
+ Aquaculture production (metric tons) có kiểu số, có giá trị trung bình là 10538590, giátrị lớn nhất là 68423860 và nhỏ nhất là 60000, có độ lệch chuẩn là 21708270
Trang 17+ Arable land (hectares) có kiểu số, có giá trị trung bình là 31834350, giá trị lớn nhất là
Trang 18Biểu đồ cho thấy lượng khí thải CO2 (kt) lơn nhất là hơn 10000000 (kt), giá trị nhỏ nhấtnằm khoảng 1000000 và giá trị trung bình nằm giữa 2500000 và 2000000 Lượng khí thảiCO2 dao động khoảng 500000 đến 1250000 nên nữa bên phải nhiều hơn nữa bên trái, do
đó dữ liệu bị lệch nữa bên phải Cho thấy chỉ số phát triển thế giới tập trung ở mức trên
Trang 19Biểu đồ thể hiện mối quan hệ giữa diện tích khu rừng và lượng khí thải CO2 Cho thấylượng khí thải CO2 tập trung cao nhất ở những khu rừng có diện tích từ 200000 tới2500000km2 Với khu rừng có diện tích cao hơn thì lượng khí thải CO2 tập trung ít hơn,hầu như là không có Cho thấy chỉ số phát triển thế giới tập trung ở mức trên.
Trang 20Biểu đồ thể hiện mối quan hệ giữa tăng trưởng GDP và diện tích đất Tốc độ tăng tậptrung nhiều nhất là từ 6%-8% Ở mức này diện tích đất cao nhất hơn 8000000 và nhỏnhất là 100000 Cho thấy đa phần chỉ số phát triển thế giới tập trung ở mức trên.
Trang 21Biểu đồ cho thấy những nơi tốc độ tăng trưởng GDP cao nhất tập trung từ 6%-4% và ởmức này thì diện tích đất cũng nằm ở mức cao Cho thấy chỉ số phát triển thế giới đangtập trung ở mức này.
Trang 22TÀI LIỆU THAM KHẢO
*Dữ liệu Databank World Bank Tuy cập ngày 25/05/2023 tại:https://databank.worldbank.org/source/world-development-indicators