Báo cáo đồ án cuối kỳ môn Kho Dữ Liệu Trường Đại Học Sư Phạm Kỹ Thuật HCM Thầy Nguyễn Văn Thành,Báo cáo đồ án cuối kỳ môn Kho Dữ Liệu Trường Đại Học Sư Phạm Kỹ Thuật HCM Thầy Nguyễn Văn Thành,Báo cáo đồ án cuối kỳ môn Kho Dữ Liệu Trường Đại Học Sư Phạm Kỹ Thuật HCM Thầy Nguyễn Văn Thành,Báo cáo đồ án cuối kỳ môn Kho Dữ Liệu Trường Đại Học Sư Phạm Kỹ Thuật HCM Thầy Nguyễn Văn Thành,
TRƯỜNG ĐẠI HỌC SƯ PHẠM KỸ THUẬT TP.HCM KHOA CÔNG NGHỆ THÔNG TIN BÁO CÁO ĐỒ ÁN MÔN KHO DỮ LIỆU ĐỀ TÀI: ANALYSIS OF ACCIDENT (PHÂN TÍCH DỮ LIỆU TAI NẠN GIAO THƠNG) Mơn học: Lớp: GVHD: Thành viên nhóm: Kho liệu DAWH430784_22_2_01 Th.S Nguyễn Văn Thành Lê Hoàng Khang - 20133050 Nguyễn Thanh Hùng - 20133045 Nguyễn Duy Thái - 20133020 TP Hồ Chí Minh, Tháng Năm 2023 LỜI CẢM ƠN Lời mở đầu, nhóm xin gửi lời cảm ơn đến thầy Nguyễn Văn Thành (Giảng viên hướng dẫn môn Kho liệu) Thầy cung cấp kiến thức, bảo đóng góp ý kiến q báu giúp nhóm hồn thành đồ án mơn học Trong thời gian học đề tài, nhóm chúng em vận dụng kiến thức tảng tích lũy đồng thời kết hợp với việc học hỏi nghiên cứu kiến thức vận dụng tối đa thu thập để hoàn thành đề tài đồ án tốt Tuy nhiên, q trình thực hiện, nhóm chúng em khơng tránh khỏi thiếu sót Nhóm mong nhận góp ý từ phía thầy nhằm rút kinh nghiệm quý báu hoàn thiện vốn kiến thức để nhóm tiếp tục hồn thành đồ án khác tương lai Xin chân thành cảm ơn thầy ! MỤC LỤC I TỔNG QUAN ĐỀ TÀI Giới thiệu đề tài 1.1 Lý chọn đề tài 1.2 Nội dung đề tài 1.3 Mô tả liệu gốc 1.4 Giới thiệu công cụ sử dụng đồ án .11 Xử lý liệu 13 2.1 Quá trình xử lý 13 2.2 Dữ liệu sau xử lí 17 II Thiết kế kho liệu 19 3.1 Lược đồ hình bơng tuyết (snowflake schema) 19 3.2 Bảng FACT 19 3.3 Bảng DIM 20 XÂY DỰNG KHO DỮ LIỆU (SSIS) 25 Mô tả chủ đề 25 Quá trình SSIS 25 III 2.1 Đổ liệu từ file csv vào extenal source 25 2.2 Đổ liệu từ extenal source vào stage 32 2.3 Quá trình đổ stage vào DWH 56 PHÂN TÍCH KHO DỮ LIỆU (SSAS) 79 Tạo project SSAS 79 Tạo Data Source 79 Tạo Data Source View .81 Tạo Cube 82 Chỉnh sửa bảng DIM 85 Chạy tiến trình để Deployment 87 Thực câu truy vấn sử dụng SSAS 88 Sử dụng Power BI để trực quan hóa liệu 94 IV KẾT LUẬN 97 Kết đạt 97 Những hạn chế 97 Bảng phân công nhiệm vụ 97 Tài liệu tham khảo .99 I TỔNG QUAN ĐỀ TÀI Giới thiệu đề tài 1.1 Lý chọn đề tài Ngày xã hội phát triển nhu cầu sở vật chất người ngày tăng Đối với chuyện lại thế, ngày nhu cầu lại ngày nhiều Chính mà tình trạng gia thơng ngày phức tạp, vấn đề nghiêm trọng ảnh hưởng đến sức khỏe tính mạng cá nhân Việc phân tích liệu tai nạn giao thơng giúp hiểu rõ tình hình tai nạn giao thơng tại, từ đề xuất giải pháp cải thiện để giảm thiểu số vụ tai nạn giảm thiểu tổn thất người tài sản Tai nạn giao thông ảnh hưởng đến kinh tế tài quốc gia Các chi phí liên quan đến tai nạn giao thơng, bao gồm chi phí y tế, bảo hiểm, chi phí sửa chữa thay phương tiện nhiều chi phí khác, ảnh hưởng đến tài cá nhân quốc gia Phân tích liệu tai nạn giao thơng cung cấp thông tin giá trị cho nhà lãnh đạo định sách Dữ liệu giúp nhà quản lý địa phương quốc gia hiểu rõ ngun nhân mơ hình tai nạn giao thơng, từ đưa định sách phù hợp để giảm thiểu số vụ tai nạn Cuối cùng, phân tích liệu tai nạn giao thơng giúp đưa giải pháp công nghệ để giảm thiểu số vụ tai nạn tăng cường an tồn giao thơng Các cơng nghệ xe tự lái, hệ thống cảnh báo động, v.v phát triển dựa liệu tai nạn giao thông thông tin liên quan đến an tồn giao thơng 1.2 Nội dung đề tài Nhóm chúng em sử dụng tập liệu để thực Một liệu mô tả tai nạn xe toàn quốc , bao gồm 49 tiểu bang Hoa Kỳ lấy trang web www.kaggle.com Tập liệu US_Accidents (20165 2021) tập liệu lớn tai nạn giao thông xảy đường cao tốc đường phố Hoa Kỳ Tập liệu bao gồm triệu ghi tai nạn giao thơng tồn quốc từ năm 2016 đến năm 2021, thu thập từ nhiều nguồn khác nhau, bao gồm cảnh sát, trạm thu phí, báo cáo người dùng, nguồn thông tin khác Mỗi ghi tập liệu chứa thông tin chi tiết tai nạn giao thông, bao gồm địa điểm, thời gian, điều kiện thời tiết, tình trạng đường, loại xe, số lượng tính chất phương tiện tham gia, mức độ nghiêm trọng thương vong Tập liệu cung cấp thông tin địa lý, bao gồm vị trí địa lý tai nạn, thông tin địa lý khác tên tiểu bang, thành phố, mã bưu chính, v.v Link Dataset: https://www.kaggle.com/datasets/sobhanmoosavi/us-accidents Bộ liệu thứ hai chi tiết tai nạn đường phương tiện liên quan Vương quốc Anh (2005-2017) Dataset gồm 1488981 dịng có 24 thuộc tính Link Dataset: https://www.kaggle.com/datasets/tsiaras/uk-road-safety-accidentsand-vehicles?select=Vehicle_Information.csv 1.3 Mô tả liệu gốc Tập liệu Accident.csv STT Tên thuộc tính ID Severity Start_Time End_Time Start_Lat Start_Lng End_Lat End_Lng Ý nghĩa ID tai nạn giao thông Mức độ nghiêm trọng tai nạn, đánh giá từ đến 4, với mức độ nghiêm trọng thấp mức độ nghiêm trọng cao Thời gian bắt đầu tai nạn Thời gian kết thúc tai nạn Vĩ độ vị trí bắt đầu tai nạn Kinh độ vị trí bắt đầu tai nạn Vĩ độ vị trí kết thúc tai nạn Kinh độ vị trí kết thúc tai nạn 10 11 12 13 Distance(mi) Description Number Street Side 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 City County State Zipcode Country Timezone Airport_Code Weather_Timestamp Temperature(F) Wind_Chill(F) Humidity(%) Pressure(in) Visibility(mi) Wind_Direction Wind_Speed(mph) Precipitation(in) Weather_Condition Amenity 32 33 34 35 36 37 38 39 Bump Crossing Give_Way Junction No_Exit Railway Roundabout Station 40 41 Stop Traffic_Calming 42 43 44 Traffic_Signal Turning_Loop Sunrise_Sunset Khoảng cách tai nạn tính dặm Mơ tả vụ tai nạn Số nhà gần vị trí tai nạn Tên đường gần vị trí tai nạn Vị trí tai nạn đường (trái, phải giữa) Tên thành phố gần vị trí tai nạn Tên quận gần vị trí tai nạn Tên tiểu bang gần vị trí tai nạn Mã bưu gần vị trí tai nạn Tên quốc gia Múi địa phương vị trí tai nạn Mã sân bay gần vị trí tai nạn Thời gian thu thập thông tin thời tiết Nhiệt độ tính độ Fahrenheit Nhiệt độ gió tính độ Fahrenheit Độ ẩm tính phần trăm Áp suất khí tính inches Tầm nhìn tính dặm Hướng gió Tốc độ gió tính dặm/giờ Lượng mưa tính inches Điều kiện thời tiết Có đối tượng tiện ích (như cối, đèn đường, cầu ) gây cản trở đường khơng Có chướng ngại vật đường khơng Có đường giao khơng Có phải đường ưu tiên hay khơng Có đường giao khơng Có đường cụt khơng Có đường sắt qua đường khơng Có vịng xuyến khơng Có trạm xăng, trạm thu phí hay nhà ga đường khơng Có dấu STOP đường khơng Có biện pháp hạn chế tốc độ đường khơng Có đèn giao thơng khơng Có lối rẽ hay khơng Tình trạng ánh sáng mặt trời (mặt trời 45 Civil_Twilight 46 47 Nautical_Twilight Astronomical_Twilight mọc mặt trời lặn) Tình trạng ánh sáng dân (hồng bình minh) Tình trạng ánh sáng hàng hải Tình trạng ánh sáng thiên văn học Tập liệu Vehicle_Information.csv STT Tên thuộc tính Accident_Index Age_Band_of_Driver Age_of_Vehicle Driver_Home_Area_Type Driver_IMD_Decile 10 11 12 13 14 15 16 Engine_Capacity_.CC Hit_Object_in_Carriageway Hit_Object_off_Carriageway Journey_Purpose_of_Driver Junction_Location make model Propulsion_Code Sex_of_Driver Skidding_and_Overturning Towing_and_Articulation 17 18 19 Vehicle_Leaving_Carriageway Vehicle_Location.Restricted_Lan e Vehicle_Manoeuvre 20 Vehicle_Reference 21 22 23 24 Vehicle_Type Was_Vehicle_Left_Hand_Drive X1st_Point_of_Impact Year Ý nghĩa Mã định danh cho vụ tai nạn Nhóm tuổi tài xế Tuổi phương tiện Loại khu vực sinh sống tài xế Hạng tài xế số đa dạng bình đẳng Dung tích động phương tiện Vật thể bị va chạm đường Vật thể bị va chạm ngồi đường Mục đích chuyến tài xế Vị trí phương tiện điểm giao Mã động phương tiện Giới tính tài xế Tình trạng trượt hay lật phương tiện Loại phương tiện kéo có phần nối khác Phương tiện rời khỏi đường Vị trí phương tiện đường, có Hành động phương tiện trước xảy tai nạn Mã định danh cho phương tiện liên quan đến vụ tai nạn Loại phương tiện Phương tiện có lái bên trái hay không Điểm va chạm Năm xảy tai nạn 1.4 • Giới thiệu cơng cụ sử dụng đồ án Tổng quan Visual Studio 2019 Visual Studio 2019 mơi trường phát triển tích hợp (IDE) phát triển Microsoft Nó cung cấp cho nhà phát triển công cụ để phát triển ứng dụng nhiều tảng, bao gồm Windows, iOS, Android tảng web Visual Studio 2019 có nhiều tính cơng cụ hỗ trợ cho việc phát triển phần mềm, bao gồm trình biên tập mã, trình gỡ lỗi, hỗ trợ cho ngơn ngữ lập trình khác C++, C#, Python, JavaScript, TypeScript nhiều ngơn ngữ khác Ngồi ra, Visual Studio 2019 cung cấp công cụ hỗ trợ cho quản lý mã nguồn, kiểm thử triển khai ứng dụng Nó hỗ trợ tích hợp với cơng cụ quản lý dự án hệ thống kiểm soát phiên bản, cho phép nhà phát triển làm việc dự án phức tạp Visual Studio 2019 có cộng đồng rộng lớn với tài liệu hướng dẫn, phần mở rộng đánh giá từ nhà phát triển khác nhau, giúp nhà phát triển tìm kiếm giải pháp trao đổi kinh nghiệm cách dễ dàng Tóm lại, Visual Studio 2019 tảng phát triển phần mềm đầy đủ tính hỗ trợ nhiều tảng, giúp nhà phát triển phát triển ứng dụng hiệu dễ dàng quản lý dự án phức tạp Tổng quan SQL Server 2019 SQL Server 2019 hệ quản trị sở liệu quan hệ phát triển Microsoft Nó cung cấp tảng để lưu trữ, quản lý truy xuất liệu cho ứng dụng hệ thống thông tin doanh nghiệp SQL Server 2019 bao gồm nhiều tính cải tiến, bao gồm hỗ trợ cho tính AI (trí tuệ nhân tạo) lưu trữ liệu tảng khác nhau, bao gồm Windows, Linux môi trường đám mây Azure AWS Nó cung cấp công cụ hỗ trợ cho quản lý sở liệu, bao gồm công cụ quản lý giám sát hiệu suất, công cụ lưu phục hồi liệu, công cụ quản lý bảo mật 10