KHẢO SÁT1.1 Requirement Thực trạng hiện nay về an toàn giao thông gây ra nhiều lo ngại và đòi hỏisự chú ý đặc biệt từ cộng đồng và các cơ quan chức năng.Tai nạn giaothông tăng đột biến,
Trang 1TRƯỜNG ĐẠI HỌC KINH TẾ_ ĐẠI HỌC ĐÀ NẴNG
KHOA THƯƠNG MẠI ĐIỆN TỬ
-
-BÁO CÁO THỰC HÀNH PHÂN TÍCH VÀ TRỰC QUAN HÓA
DỮ LIỆU
Đề tài:
PHÂN TÍCH VÀ DỰ ĐOÁN TÌNH HÌNH TAI NẠN GIAO THÔNG
TẠI ÚC VÀ NEWZEALAND GVHD: NGUYỄN VĂN CHỨC
THÀNH VIÊN NHÓM 10 LỚP ELC3005_48K29.2:
-VÕ HOÀNG TIÊN( 40%)
-NGUYỄN KHOA DIỆU CHI( 25%)
-NGUYỄN THỊ DUYÊN HỒNG( 25%)
-NGUYỄN THỊ MINH TÂM( 10%)
-ĐINH VĂN HOÀNG( 0%)
Trang 2MỤC LỤC
I KHẢO SÁT 2
1.1 Requirement 2
1.2 Quy mô dữ liệu 3
1.3 Data Exploration 5
II ETL 7
2.1 Các nội dung ETL 7
2.1.2 Chọn lọc dữ liệu 7
2.1.2 Xử lý các giá trị Null/Blank 9
2.1.3 Định dạng lại dữ liệu 10
2.1.4 Thêm các cột thông tin cần thiết 11
2.2 Dimension 12
2.3 Data model 13
III PHÂN TÍCH DỮ LIỆU 14
3.1 Số tai nạn giao thông 14
3.1.1 Theo bang 14
3.1.2 Số vụ tai nạn theo thời gian: 15
3.1.3 Theo kiểu tai nạn 16
3.1.4 Theo giới hạn về tốc độ 17
3.1.5 Theo các phương tiện tham gia 17
Trang 3I KHẢO SÁT
1.1 Requirement
Thực trạng hiện nay về an toàn giao thông gây ra nhiều lo ngại và đòi hỏi
sự chú ý đặc biệt từ cộng đồng và các cơ quan chức năng.Tai nạn giao thông tăng đột biến, số lượng tai nạn giao thông và tỷ lệ thương vong do tai nạn giao thông vẫn đang tăng đáng kể, đặc biệt là ở các khu vực đông dân cư và trên các tuyến đường chính
Nguyên nhân gây tai nạn đa dạng và phức tạp:
Vi phạm luật giao thông
Tốc độ cao
Thiếu chú ý khi lái xe
Sử dụng cồn rượu hoặc chất kích thích khi lái xe
Thiếu hạ tầng giao thông
Các yếu tố môi trường như thời tiết xấu
Dựa trên các nguyên nhân đã xác định, đề xuất và triển khai các biện pháp cải thiện nhằm giảm thiểu nguy cơ tai nạn giao thông
Quy trình xử lý tai nạn giao thông:
+ Bước 1: Tiếp nhận tin báo và xử lý tin báo;
+ Bước 2 ; Giải quyết ban đầu khi cán bộ Cảnh sát giao thông phụ trách + Bước 3: Khám nghiệm hiện trường ghi lời khai;
+ Bước 4: Thu thập thông tin liên quan đến vụ tai nạn giao thông như: Kiểm tra, xác minh phương tiện, người điều khiển phương tiện; hành khách, hàng hóa vận chuyển và các giấy tờ có liên quan; xác định các điều kiện tác động xung quanh khi xảy ra tai nạn
+ Bước 5: Thực hiện các giám định chuyên môn;
+ Bước 6: Giải quyết và lưu thông tin liên quan để phục vụ cho phân tích, đánh giá
Phân tích nghiệp vụ
+ Đo lường và đánh giá các kết quả đem lại
+ Khai thác thông tin giá trị, phục vụ đánh giá tình hình giao thông hiện tại và tương lai Cần thiết phải có biện pháp cải thiện và giải pháp toàn diện
Trang 4Input Output
Dữ liệu về các vụ tai nạn của các
bang, vùng lãnh thổ của Úc và
NewZealand
Dashboard
Chủ đề chính của dashboard:(dashboard sẽ trả lời các vấn đề nào) + Số tai nạn:
.Số tai nạn theo thời gian (theo ngày, tuần, tháng, năm)
.Số tai nạn theo địa điểm (bang, vùng lãnh thổ)
.Số tai nạn theo các điều kiện xảy ra tai nạn
=>.Phân tích xu hướng và biến động của số lượng tai nạn theo thời gian
.Xác định các khu vực có nguy cơ tai nạn cao
Nhận diện các yếu tố gây ra tai nạn
+ Số thương vong:
.Số thương vong theo thời gian (theo ngày, tuần, tháng, năm) .Số thương vong theo địa điểm (bang, vùng lãnh thổ)
.Số thương vong theo các điều kiện xảy ra tai nạn
=>.Phân tích xu hướng và biến động của số lượng thương vong theo thời gian
Xác định các khu vực có nguy cơ thương vong cao
.Nhận diện các yếu tố gây ra thương vong
=> Đánh giá và cải thiện an toàn giao thông, từ đó giảm thiểu nguy cơ tai nạn gây thương vong trong cộng đồng
1.2 Quy mô dữ liệu
Báo cáo, đánh giá về tai nạn tại các bang, lãnh thổ của Úc và New Zealand từ năm 2012-2019 được lấy từ kaggle, gồm 6 bảng: + Crash: 1.048.576, 8 columns
+ Description :1.048.576 rows, 17 columns
+ Casualities: 259 rows, 5 columns
+ Vehicles: 2434 rows, 20 columns
+ Date: 127.506 rows, 8 columns
Too long to read on your phone? Save
to read later on your computer
Save to a Studylist
Trang 5+ Location: 922.135 rows, 8 columns
Đây là các trường dữ liệu quan trọng và ý nghĩa tương ứng của chúng.Các trường dữ liệu này mô tả các đặc điểm như là thương vong, giới hạn về tốc độ, đặc điểm của các đoạn đường nơi xảy ra tai nạn và vị trí xảy ra tai nạn Ngoài các trường dữ liệu nêu ra ở đây thì còn có các trường dữ liệu cung cấp các thông tin về thời gian xảy ra tai nạn và các loại phương tiện liên quan đến tai nạn
Trang 61.3 Data Exploration
Data Exploration – Khám phá dữ liệu để có một cái nhìn tổng quan hơn về dữ liệu Biểu đồ mô tả tình hình tai nạn giao thông tại Úc qua các năm từ 2014 đến năm 2018 Có thể thấy số tai nạn giảm nhưng không đáng kể qua các năm, trung bình 1 ngày có 259 vụ tai nạn, 13 người tử vong và lên đến 84 người bị thương
Đây là các lược đồ biểu diễn các giá trị xuất hiện nhiều và có ảnh hưởng tới kết quả nhất của các trường dữ liệu Nhìn vào các lược đồ này, chúng ta có thể đưa
Trang 7ra một số nhận xét như sau, có thể thấy phần lớn các vụ tai nạn ghi nhận được là:
Vào ban ngày hoặc ban đêm với điều kiện ánh sáng kém
Loại va chạm phổ biến là giữa các phương tiện giao thông va chạm với nhau
Hậu quả các vụ tai nạn khi nhận được phần lớn là thiệt hại về tài sản hoặc là bị thương nhẹ
Ghi nhận nhiều vụ tai nạn ở các khu vực không có tín hiệu đèn giao thông
Đây là các biểu đồ thể hiện phân bố giá trị của các trường dữ liệu Với trường speedlimit, các giá trị rời rạc được chia thành các khoảng đều nhau Cùng với các trường còn lại như điều kiện có ở ngã tư hay không, hay là tình trạng đường
có ướt hay không hoặc đường có bị phong tỏa hay không là các kiểu dữ liệu True/False hoặc chưa xác định, ký hiệu là Null
Trang 8II ETL
2.1 Các nội dung ETL
2.1.2 Chọn lọc dữ liệu
Để đi vào chi tiết Đây là hình ảnh minh họa bước đầu tiên là quá trình thực hiện chọn lọc dữ liệu Các cột không chứa dữ liệu hoặc không có giá trị phân tích sau quá trình lọc dữ liệu đã được xóa bỏ
Trang 9Bước này và các bước tiếp theo nhóm sử dụng công cụ Power Querry, được tích hợp trong Excel
Trang 102.1.2 Xử lý các giá trị Null/Blank
Đối với mộtđịnh số cột có các giá trị null/blank, nhóm đưa về một giá trị là unknown Trong quá trình phân tích sẽ coi như các trường dữ liệu này là không
có thông tin
=>
Trang 112.1.3 Định dạng lại dữ liệu
Tiến hành định dạng lại dữ liệu ở trường vĩ độ và kinh độ: chuyển về dạng số thực, làm tròn với 2 chữ số thập phân Sai lệch 0.01 về vĩ độ và kinh độ không làm ảnh hưởng đến các trường dữ liệu liên quan như bang, thành phố,…
=>
2.1.4 Thêm các cột thông tin cần thiết
Tiếp theo là xử lý các giá trị đa trị Cột ngày tháng chứa thông tin về ngày, giờ
Trang 12Nhóm kết hợp 2 cột là vĩ độ và kinh độ thành một cột duy nhất là tọa độ, chính
là thông tin về tọa độ nơi xảy ra tai nạn
Trang 132.2 Dimension
Cụ thể hơn, sau đây là một số ví dụ minh họa về dữ liệu của các dimension:
Dimension về thời gian có giá trị từ năm 2012 – 2019
Dữ liệu về các bang gồm 5 bang "SA" là South Australia (Nam Úc), "VIC"
là Victoria, "QLD" là Queensland, "WA" là Western Australia (Tây Úc), và
"ACT" là Australian Capital Territory (Lãnh thổ Thủ đô Úc), và các thành
Trang 14 Các chiều về điều kiện xảy ra tai nạn như:
Tín hiệu điều khiển giao thông: không có, đèn giao thông, biển báo dừng,…
Mức độ thương vong: Thiệt hại về tài sản, thương nặng, thương nhẹ, tai nạn chết người
Loại va chạm: Va chạm với phương tiện khác, với động vật, với người qua đường,…
Giới hạn tốc độ: 5-110 km/h
2.3 Data model
Tiếp theo là data model Các thực thể ở đây gồm có:
Local: Vị trí nơi xảy ra tai nạn, khóa chính là tọa độ và các cột là quốc gia, bang, khu vực hành chính,…
Crash: Khóa chính là crash_id, là id của vụ tai nạn, các thông tin là các đặc điểm của vụ tai nạn như thời gian, tọa độ, các điều kiện xảy ra tai nạn
Vehicle: Bảng các phương tiện giao thông
Casuality: Bảng các loại thương vong
Vehicle Detail: Chứa các bản ghi về vụ tai nạn nào ở bảng Crash liên quan đến loại phương tiện nào ở bảng Vehicle, số lượng bao nhiêu
Casuality Detail: Chứa các bản ghi về số lượng thương vong tương ứng của các vụ tai nạn ở bảng Crash với các loại thương vong ở bảng Casuality Các bảng được liên kết với nhau như hình dưới
Trang 15III PHÂN TÍCH DỮ LIỆU
3.1 Số tai nạn giao thông
3.1.1 Theo bang
Phân tích theo số liệu thống kê của tiểu bang cho thấy rằng, số tai nạn ở mỗi tiểu bang khá phù hợp với quy mô dân số của từng tiểu bang
Trang 16 Từ biểu đồ, có thể thấy ở bang Victoria-một tiểu bang có dân số cao thứ hai ở Úc, chiếm 26 phần trăm nhưng số tai nạn đứng nhất với gần 270.000 vụ tai nạn Lãnh thổ thủ đô nơi có dân số thấp nhất so với bất kỳ tiểu bang nào tại Úc, chỉ chiếm 2% dân số, cũng có số tai nạn thấp nhất là hơn 2.000 vụ từ năm 2014 đến năm 2017
Số tai nạn gây thiệt hại về người cũng như tử vong chiếm tỉ lệ chủ yếu tại các nơi đông dân cư, đặc biệt là Victoria Tại South Australia, tuy là một bang có dân số gần như là thấp nhất nhưng số tai nạn đứng thứ hai, đa phần là gây thiệt hại về tài sản Nguyên nhân có thể là do địa hình phức tạp, bao gồm đường đèo, đường quanh co, hoặc đường đồi núi
3.1.2 Số vụ tai nạn theo thời gian:
Số vụ tai nạn tại các khung giờ từ 6 giờ sáng đến 14 giờ chiều tăng cao đột biến so với các khung giờ khác.Đây là khoảng thời gian đi làm hoặc tan ca
=> Số lượng người tham gia giao thông tăng cao, đồng thời người điều khiển phương tiện giao thông có thể bị tác động tâm lý, mong muốn nhanh chóng di chuyển đến chỗ làm hoặc về nhà Buổi trưa là lúc số vụ tai nạn đạt đỉnh trong ngày Một phần có thể là do sự chênh lệch nhiệt độ và ánh sáng giữa ngày và đêm Do vậy số vụ tai nạn gây chết người cũng như mức thiệt hại về người và tài sản tăng cao so với các khung giờ còn lại Như từ 19 đến 23 giờ tối số vụ tai nạn đã giảm sâu.Có thể, đó là thời điểm và số người tham gia giao thông đã giảm
Số vụ tai nạn theo các ngày trong tuần
Số vụ tai nạn tăng dần từ đầu tuần đến thứ 6 và giảm dần vào 2 ngày cuối tuần là thứ 7 và chủ nhật Thứ 6 hằng tuần là lúc tai nạn xảy ra nhiều nhất
và lại thấp nhất vào ngày chủ nhật Có thể rằng,trong các ngày làm việc, người dân thường phải đối mặt với áp lực công việc và căng thẳng từ cuộc sống hàng ngày, điều này có thể làm giảm tập trung và tăng nguy cơ gây tai nạn
Số tai nạn tại Úc theo từng tháng trong năm
Các tháng trước và sau các đợt nghỉ lễ tại Úc có xu hướng tăng Ví dụ tháng 3 và tháng 5 có xu hướng tăng vọt do có ngày lễ phục sinh, quốc tế lao động, Queen’s day, đều là các dịp lễ lớn của Úc
Trang 173.1.3 Theo kiểu tai nạn
Xếp thứ nhất là số vụ tai nạn do va chạm giữa 2 phương tiện với nhau Đây cũng là loại tai nạn xếp thứ nhất ở ba mục hậu quả gây thiệt hại về người Loại tai nạn này thường xảy ra do người tham gia giao thông thiếu quan sát, chú ý xung quanh, hoặc không giữ tốc độ ổn định cũng như khoảng cách an toàn với các phương tiện lân cận
Việc va chạm với các vật thể cố định thường là kết quả của việc thiếu tập trung và tăng tốc đột ngột, hoặc do xe không bảo dưỡng định kỳ, chất lượng phanh hay máy móc xe không còn nguyên vẹn Đây cũng là lý do khiến cho các vụ tai nạn với phương tiện đang đỗ chiếm tỉ lệ gần 50% trong các vụ gây thiệt hại về tài sản
Xếp theo sau trong mục thiệt hại tài sản là va chạm với động vật, phần lớn
là chuột túi Vì Chuột túi thường hoạt động vào buổi tối và buổi sáng sớm, khi đó tầm nhìn của lái xe giảm sút, dễ dẫn đến xung đột Vậy chính phủ cần quan tâm hơn về sự tràn lan của chuột túi trên các tuyến đường, các nút giao thông khó quan sát, kiểm soát tốc độ Đồng thời, kiểm soát
và cân bằng quá trình đô thị hóa hoặc các hoạt động tàn phá rừng, nơi sinh sống của chuột túi
Cần để ý đến số vụ tai nạn va chạm với người đi bộ Tuy chỉ xếp thứ 5 trong xếp hạng theo kiểu tai nạn nhưng lại chiếm một tỉ lệ không nhỏ
Trang 18băng qua đường và kiểm soát tốc độ của người điều khiển phương tiện, người điều khiển phương tiện cố gắng tăng tốc để vượt đèn vàng, còn người đi bộ chủ quan vượt qua đường trước khi đèn chuyển xanh, gây nên hậu quả nặng nề Hoặc do rủi ro của hệ thống giao thông vẫn còn tồn tại Vậy, cần tăng các mức phạt về các hình thức vượt đèn vàng, song song đó
là thường xuyên tuyên truyền để tăng trách nhiệm khi tham gia giao thông
3.1.4 Theo giới hạn về tốc độ
Ta biết rằng, 60km/h là giới hạn tốc độ của đường quốc lộ nội thành Từ thống kê, có thể thấy tại giới hạn tốc độ này có số tai nạn cao nhất Đây là các tuyến đường có nhiều điểm giao, phương tiện lưu thông hỗn hợp với mật độ động, dễ xảy ra va chạm Còn đường cao tốc có giới hạn tốc độ lớn hơn hoặc bằng 100km/h được phân làn cụ thể, không giao với các đường khác và chỉ cho xe ra vào ở các lối nhất định, có quy định rõ ràng
về loại phương tiện được phép lưu thông, không tồn tại phương tiện hỗn hợp Do vậy mà ở khoảng giới hạn tốc độ này, số tai nạn giảm đi rõ rệt Vậy có thể đưa ra một phương án để giảm thiểu tai nạn giao thông, là cần đầu tư cơ sở vật chất, hạ tầng giao thông, chủ động phân làn trên các tuyến đường có nhiều điểm giao
3.1.5 Theo các phương tiện tham gia
Trong các vụ tai nạn, dễ dàng nhận thấy, hơn 75% các vụ tai nạn đều có
sự tham gia của các loại xe ô tô Ô tô là phương tiện di chuyển chính thống nhất tại Úc, được sử dụng hàng ngày bởi đa số người dân để đi lại
Sự phổ biến này là một nguyên nhân chính khiến tai nạn liên quan đến ô
tô trở thành đa số Có thể thấy, bus, tàu điện và tàu hỏa là các phương tiện
ít gây tai nạn nhất tại Úc Từ đó, ta có thể có thêm một phương án nữa để cải thiện tình hình giao thông là khuyến khích người dân sử dụng phương tiện giao thông công cộng
Theo các tín hiệu điều khiển giao thông
Nguyên nhân chính gây tai nạn giao thông là do còn tồn tại nhiều tuyến đường không có các tín hiệu điều khiển giao thông Khi đó, phương tiện
sẽ không được kiểm soát, dễ gây va chạm, gây nên các thiệt hại rất lớn về
cả người và tài sản
Trang 19 Theo sau là các vụ tai nạn do vượt đèn đỏ và tại nơi có các biển báo về đường ưu tiên Việc thiếu quan sát hoặc thiếu kiến thức về các biển báo có thể là nguyên nhân chính của các vụ tai nạn này
Theo bang
Số người chết và số người bị thương ở các bang tỉ lệ thuận với nhau
Theo các giờ trong ngày
Số người chết tăng và số người bị thương tăng cao đột biến vào 2h,6h sáng và khung giờ 10-14h trưa Thời điểm từ 0-3h đêm, số người bị thương có sự suy giảm, nhưng số người tử vong lại có xu hướng tăng, chứng tỏ các vụ tai nạn ở khung giờ này đa phần là các tai nạn nghiêm trọng, gây chết người
Theo các ngày trong tuần
Số vụ tai nạn có xu hướng tăng từ thứ 2 đến thứ 5 và giảm vào các ngày cuối tuần(phân tích ở dashboard thứ nhất) Nhưng số người bị thương và
tử vong lại có xu hướng ngược lại, giảm vào các ngày trong tuần, tăng vào các ngày cuối tuần