1. Trang chủ
  2. » Luận Văn - Báo Cáo

Tiểu luận Xây dựng kho dữ liệu và OLAP trên dữ liệu các vụ tai nạn giao thông tại Anh

231 161 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Nội dung

ĐẠI HỌC QUỐC GIA TP HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN  XÂY DỰNG KHO DỮ LIỆU VÀ OLAP TRÊN DỮ LIỆU CÁC VỤ TAI NẠN GIAO THƠNG TẠI ANH 2005 - 2015 Hồ Chí Minh LỜI CẢM ƠN Đầu tiên, nhóm xin gởi lời cảm ơn chân thành đến cô Đỗ Thị Minh Phụng (Giảng viên môn Kho liệu OLAP) giúp cho nhóm có kiến thức làm tảng để thực đề tài Cô trực tiếp hướng dẫn tận tình, sửa chữa đóng góp nhiều ý kiến q báu giúp nhóm hồn thành tốt báo cáo mơn học Trong thời gian học đề tài, nhóm vận dụng kiến thức tảng tích lũy đồng thời kết hợp với việc học hỏi nghiên cứu kiến thức Từ đó, nhóm vận dụng tối đa thu thập để hồn thành báo cáo đồ án tốt Tuy nhiên, trình thực hiện, nhóm khơng tránh khỏi thiếu sót Chính vậy, nhóm mong nhận góp ý từ phía nhằm hồn thiện kiến thức mà nhóm học tập hành trang để nhóm thực tiếp đề tài khác tương lai Xin chân thành cảm ơn cô! Mục Lục LỜI CẢM ƠN NHẬN XÉT CỦA GIẢNG VIÊN CHƯƠNG 1: TỔNG QUAN VỀ ĐỀ TÀI 1.1 Giới thiệu liệu 1.1.1 Thông tin liệu 1.1.2 Ý nghĩa đề tài 1.2 Mô tả liệu gốc 1.2.1 Mô tả liệu 1.2.2 Mơ tả thuộc tính 1.3 Mơ tả thuộc tính bảng tạo sơ đồ hình  Bảng Dim_Urban_or_Rural_Area  Bảng Dim_Accident_Severity  Bảng Dim_Police_Force  Bảng Dim_Road_Surface_Conditions  Bảng Dim_Weather_Conditions .10  Bảng Dim_Light_Conditions 10  Bảng Dim_Road_Type 10  Bảng Dim_Date .10  Bảng Dim_Time 10  Bảng Fact .10 1.4 Sơ đồ hình 12 1.5 Các câu hỏi truy vấn (15 câu) 12 CHƯƠNG 2: QUÁ TRÌNH SSIS 14 2.1 Tạo Database trống SQL để đổ liệu vào 14 2.2 Tạo Project thiết lập kết nối 14 2.2.1 Tạo “Integration Service Project” 14 2.2.2 Thêm cấu hình kết nối tới Database hệ quản trị SQL Server 15 2.3 Quá trình làm liệu .18 2.4 Thực tạo bảng Dim .24 2.4.1 Tạo bảng Dim_Urban_or_Rural_Area 25 2.4.2 Tạo bảng Dim_Accident_Severity 28 2.4.3 Tạo bảng Dim_Police_Force 32 2.4.4 Tạo bảng Dim_Road_Surface_Conditions .36 2.4.5 Tạo bảng Dim_Weather_Conditions 39 2.4.6 Tạo Dim_Light_Conditions 42 2.4.7 Tạo bảng Dim_Road_Type .45 2.4.8 Tạo bảng Dim_Date 49 2.4.9 Tạo bảng Dim_Time 56 2.5 Tạo bảng Fact 63 2.6 Tạo xóa ràng buộc SQL .89 2.7 Thực thi Package 97 CHƯƠNG 3: QUÁ TRÌNH SSAS 99 3.1 Tạo ứng dụng SSAS 99 3.2 Tạo Datasource 99 3.3 Tạo DataSource View 104 3.4 Tạo cube 108 3.5 Sửa bảng chiều 112 3.6 Deploy cube lên server 117 3.7 Tạo Measures, Hierarchies xóa liệu Unknow 118 3.7.1 Tạo Measures 118 3.7.2 Tạo Hierarchies định nghĩa Attribute Relationship 119 3.7.3 Xóa dịng liệu Unknow 121 3.8 Định nghĩa Named set 122 3.8.1 Tạo Named set 122 3.9 Thực câu truy vấn MDX, BI Pivot Excel 124 3.9.1 Câu 125 3.9.2 Câu 126 3.9.3 Câu 127 3.9.4 Câu 129 3.9.5 Câu 131 3.9.6 Câu 132 3.9.7 Câu 134 3.9.8 Câu 136 3.9.9 Câu 138 3.9.10 Câu 10 139 3.9.11 Câu 11 141 3.9.12 Câu 12 143 3.9.13 Câu 13 145 3.9.14 Câu 14 147 3.9.15 Câu 15 149 3.9.16 Câu 16 151 3.9.17 Câu 17 152 3.9.18 Câu 18 154 CHƯƠNG 4: QUÁ TRÌNH SSRS 156 4.1 Tạo report công cụ SSRS 156 4.1.1 Tạo Report Service Project 156 4.1.2 Tạo cấu hình Share Data Sources 156 4.2 Thống kê số vụ tai nạn giao thông nông thôn, thành thị, nước bao nhiêu? 158 4.2.1 Tạo Reports 158 4.2.2 Tạo Dataset 159 4.2.3 Tạo table định dạng report 162 4.2.4 Báo cáo hoàn chỉnh 167 4.3 Thống kê số xe thiệt hại, số người bị thương, số vụ tai nạn giao thông theo điều kiện thời tiết từ năm 2005 - 2015 168 4.3.1 Tạo Reports 168 4.3.2 Tạo DataSet 168 4.3.3 Tạo Table Grouping 172 4.3.4 Tạo Total định dạng Report 178 4.3.5 Báo cáo hoàn chỉnh 185 4.4 Thống kê theo tháng, năm tổng số xe bị hư hại, số người bị thương, tổng số vụ tai nạn, tốc độ lớn xảy loại đường với tốc độ lớn 20-70km/h ,với tổng số lượng vụ tai nạn lớn vụ, mức độ nguy hiểm tử vong (Fatal) 186 4.4.1 Tạo Report 186 4.4.2 Tạo DataSet 187 4.4.3 Tạo Table Grouping 189 4.4.4 Tạo Total định dạng Report 194 4.4.5 Báo cáo hoàn chỉnh 199 4.5 Đăng kí dịch vụ Power BI 200 4.6 Tạo Report Power BI 202 4.6.1 Roport 1: Thống kê số vụ tai nạn giao thông qua khu vực 205 4.6.2 Report 2: Thống kê tổng số thương vong theo điều kiện thời tiết qua năm từ 2005 - 2015 209 4.6.3 Report 3: Thống kê tổng xe thiệt hại, tổng số thương vong, tổng số vụ tai nạn xảy tai đồn cảnh sát qua năm từ 2005 - 2015 211 CHƯƠNG 5: DATA MINING 213 5.1 Thực trình Data Mining 213 5.2 Tạo xử lý Models 218 5.3 Cây định 219 5.4 Thuật toán Microsoft Clustering 222 5.5 Thuật toán Microsoft Naive Bayes 225 5.6 Đánh giá thuật toán Mining Accuracy Chart 227 CHƯƠNG TÀI LIỆU THAM KHẢO 230 CHƯƠNG 1: TỔNG QUAN VỀ ĐỀ TÀI 1.1 Giới thiệu liệu 1.1.1 Thông tin liệu Đơn vị cung cấp liệu: Bộ giao thông vận tải vương quốc Anh Thời gian thu thập liệu: từ năm 2005 đến 2015 Dữ liệu xuất công khai tại: https://data.gov.uk/dataset/road-accidents-safety-data 1.1.2 Ý nghĩa đề tài An toàn giao thơng ln chủ đề tồn xã hội quan tâm hướng tới xây dựng văn hóa giao thông tiến để giảm thiểu thiệt hại tai nạn giao thông gây Ngày nay, xã hội phố biến nhiêu kéo theo đông đúc đường phố với tai nạn giao thơng ngày tăng lên đáng kể Vì vậy, vấn đề an tồn giao thơng thực vấn đề quan trọng nhân loại Hiện ngày thống kê nhiều vụ tai nạn giao thông để lại hậu đáng buồn Tại việc an tồn giao thơng lại khó đến vậy? Nguyên nhân điều đâu? Đó người dân khơng chủ quan mà thiếu ý thức trách nhiệm tham gia giao thơng lạn lách, đánh võng, khơng đội nón bão hiểm Nhất tình trạng người tham gia giao thơng có nồng độ cồn vượt q mức quy định ảnh hưởng đến tỉnh táo tay lái gây tai nạn Khơng trường hợp mà mẹ con, cha, gia đình đau xót, cá nhân mát sau tai nạn vậy, người cịn sống nhiều để lại hậu di chứng sau Đó mát giao thơng gây nên Để lại nhiều hậu đau lịng vậy, rõ ràng an tồn giao thơng đóng vai trò quan trọng cho cá nhân cho xã hội Việc chấp hành nội dung điều luật an tồn giao thơng góp phần giảm thiểu số vụ tai nạn đáng tiếc xảy giảm theo bớt phần đau đớn mát mà gia đình cá nhân phải chịu đựng có người tai nạn giao thông mà sinh mạng dị tật đời Thêm vào đó, giảm thiểu tai nạn giao thơng giảm thiểu chi phí việc gây Đối với xã hội mà an toàn giao thông giữ vững, luật giao thông chấp nhận, người tham gia giao thơng có ý thức an tồn định xã hội ngày lên Mỗi để thực an tồn giao thơng cần tự xác lập cho ý thức trách nhiệm việc chấp hành quy định tham gia giao thông Nhưng ngày nay, không thiếu hành vi coi thường luật giao thông để gây hậu đáng tiếc cho gia đình xã hội Những hành vi định cần có biện pháp xử lí đích đáng.’Phía trước tay lái sống” Hãy nhớ hiệu ln ý thức trách nhiệm giữ an tồn giao thơng cho người khác lúc nơi 1.2 Mô tả liệu gốc 1.2.1 Mô tả liệu Các vụ tai nạn ô tô vương quốc Anh từ năm 2005- 2015 Link: https://www.kaggle.com/silicon99/dft-accident-data 1.2.2 Mô tả thuộc tính File dataset: Accidents0515 Accidents0515: gồm 1.780.653 dịng liệu, 32 thuộc tính STT Field Name Accident_Index Description Type Mã vụ tai nạn String Location_Easting_OSGR Tọa độ địa phương Anh (X) String Location_Northing_OSGR Tọa độ địa phương Anh (Y) String Longitude Kinh độ String Latitude Vĩ độ String Police_Force Đồn cảnh sát Int Accident_Severity Mức độ nghiêm trọng Int Number_of_Vehicles Số phương tiện bị hư hại liên quan tai nạn Int Number_of_Casualties Số thương vong Int 10 Date Ngày xảy tai nạn Date 11 Day_of_Week Thứ tuần int 12 Time Thời gian xảy tai nạn DateTime 13 Local_Authority_(District) Tên khu vực địa phương xảy vụ việc Int 14 Local_Authority_(Highway) Tên đường xảy tai nạn String 15 1st_Road_Class Phân loại đường Int 16 1st_Road_Number Số đường Int 17 Road_Type Loại đường Int 18 Speed_limit Tốc độ giới hạn float 19 Junction_Detail Chi tiết giao lộ Int 20 Junction_Control Kiểm soát giao lộ Int 21 2nd_Road_Class Phân loại đường Int 22 2nd_Road_Number Số đường Int 23 Pedestrian_CrossingHuman_Control Sự kiểm soát người qua đường Int 24 Pedestrian_CrossingPhysical_Facilities Cơ sở vật chất cho người qua đường Int 25 Light_Conditions Điều kiện ánh sáng Int 26 Weather_Conditions Điều kiện thời tiết Int 27 Road_Surface_Conditions Điều kiện mặt đường Int 28 Special_Conditions_at_Site Điều kiện đặc biệt Int 29 Carriageway_Hazards Mối hiểm họa Int 30 Urban_or_Rural_Area Thành thị nông thông Int 31 Did_Police_Officer_Attend_Sc ene_of_Accident Cảnh sát có tham gia vào trường tai nạn hay không? Int 32 LSOA_of_Accident_Location Khu vực địa lý vị trí xảy tai nạn String 1.3 Mơ tả thuộc tính bảng tạo sơ đồ hình  Bảng Dim_Urban_or_Rural_Area Field Name Urban_or_Rural_Area Description Mã thành thị nông thôn Name_Urban_or_Rural_Area Tên thành thị nông thôn Type int varchar  Bảng Dim_Accident_Severity Field Name ID_Accident_Severity Accident_Severity Description Mã mức độ nghiệm trọng Mức độ nghiêm trọng Type int varchar  Bảng Dim_Police_Force Field Name ID_Police_Force Police_Force Description Mã đồn cảnh sát Đồn cảnh sát  Bảng Dim_Road_Surface_Conditions Type int varchar Bước 7: Tại hộp thoại Specify Table Types Tại mục case, chọn Fact 216 Bước 8: Tại hộp thoại Specify the Training Data, chọn  Key : Fact  Input: ID_Weather_Conditions, ID_Road_Type, ID_Road_Surface, Speech_limit, ID_Light_Conditions  Prediction: Urban_Or_Rural_Area 217 Bước 9: Tại hình Specify Columns’ Content and Data Type chọn kiểu Content Type Data type hình Nhấn Next 5.2 Tạo xử lý Models Tại hình Create Testing Set: Chọn phần tram liệu cho testing 30% Số trường hợp lớn cho mẫu testing: 100 000 trường hợp 218 5.3 Cây định Trong điều kiện tốc độ giới hạn lớn 21 nhỏ 35, điều kiện ánh sáng (ID=4) buổi tối có đèn, loại đường (ID = 6) đường đơn, điều kiện mặt đường (ID = 2) ẩm ướt, điều kiện thời tiết (ID = 2) mưa khơng có gió lớn Thì tỷ lệ xảy tai nạn giao thông thành thị 91,01% (35661 trường hợp) Trong điều kiện: tốc độ lớn 56 nhỏ 63, loại đường (ID=6) đường đơn, điều kiện ánh sáng (ID = 1) ánh sáng ban ngày, điều kiện 219 mặt đường (ID =4) sương mù, điều kiện thời tiết (ID=1) điều kiện tốt khơng có gió lớn Thì tỷ lệ xảy tai nạn nông thôn 96.02% (130304 trường hợp)  Dependency Network thuật toán Microsoft Decision Tree cho thấy thuộc tính có ảnh hưởng tới việc xảy tai nạn giao thông  Những thuộc tính có ảnh hưởng giảm dần là: Speed Limit -> ID Road Type -> ID Light Conditions -> ID Road Surface Conditions -> ID Weather Conditions 220 221 5.4 Thuật toán Microsoft Clustering Cluster Diagram thuật toán với Shading Variable Urban Or Rural Area, value = (Urban - thành thị) 222 Tập lục cho ta thấy khả xảy tai nạn giao thông thành thị cao 90,5% Với điều kiện sau: Tốc độ giới hạn lớn 19,29 km/h nhỏ 20,69 km/h, loại đường (ID = 2, ID = 9, ID = 6) đường chiều, đường đơn, đường không xác định; điều kiện mặt đường (ID = 1) mặt đường khô, điều kiện thời tiết (ID = 1, ID = 9) điều kiện tốt gió 223 lớn, thời tiết khơng xác định, điều kiện ánh sáng (ID = 1,4,5) ánh sáng ban ngày ban đêm có đèn khơng có đèn Tập màu đỏ cho ta thấy tỷ lệ xảy tai nạn giao thông nông thôn 95% Với điều kiện sau: Tốc độ giới hạn 60% (Speed Limit = 60), điều kiện tối đèn xe (ID Light Conditions=6 Darkness - no lighting), loại đường đường đơn (ID Road Type=6 Single carriageway), điều kiện mặt đường ẩm ướt (ID Road Surface Conditions=2 Wet/Damp), điều kiện mặt đường có sương mù băng tuyết (ID Road Surface Conditions=4 Frost/Ice), điều kiện thời tiết có sương mù (ID Weather Conditions=7 Fog or mist), thời tiết mưa mà khơng có gió lớn (ID Weather Conditions=2 Raining without high winds), điều kiện mặt đường có tuyết (ID Road Surface Conditions=3 Snow), điều kiện thời tiết có mưa gió lớn (ID Weather Conditions=5 Raining with high winds), điều kiện mặt đường ngập lụt với mức nước từ 3cm trở lên (ID Road Surface Conditions=5 Flood over 3cm of water), điều kiện thời tiết tốt có gió lớn 224 (ID Weather Conditions=4 Fine with high winds), điều kiện thời tiết có tuyết có gió lớn (ID Weather Conditions=3 Snowing with high winds), điều kiện thời tiết có tuyết khơng có gió lớn (ID Weather Conditions=6 Snowing without high winds) 5.5 Thuật toán Microsoft Naive Bayes Dependency Network thuật toán Microsoft Naive Bayes cho ta mức độ ảnh hưởng yếu tố đến việc xảy tai nạn giao thông khu vực 225 Điều kiện tối ánh sáng đèn (ID = 6), khả cao xảy tai nạn nông thôn cao so với thành thị Trong điều kiện trời tối có ánh sáng (ID = 4), khả cao xảy tai nạn giao thông thành thị nông thôn 226 5.6 Đánh giá thuật tốn Mining Accuracy Chart Thiết lập thơng số Input Selection với khu vực thành thị (ID = 1) Line chart cho ta thấy tỷ lệ xác thuật toán mining trường hợp khu vực thành thị  Microsoft Decision Tree: 0.94 Score 227  Microsoft Clustering: 0.93 Score  Microsoft Naive Bayes: 0.84 Score Thiết lập thông số Input Selection với khu vực nông thôn (ID = 2) Line chart cho ta thấy tỷ lệ xác thuật tốn mining trường hợp khu vực thành thị 228  Microsoft Decision Tree: 0.91 Score  Microsoft Clustering: 0.89 Score  Microsoft Naive Bayes: 0.76 Score 229 CHƯƠNG TÀI LIỆU THAM KHẢO  Các slide giảng môn Kho Dữ Liệu Và OLAP giảng viên cung cấp  https://docs.microsoft.com/en-us/analysis-services/datamining/microsoft-decision-trees-algorithm?view=asallproductsallversions  https://docs.microsoft.com/en-us/sql/mdx/except-mdxoperator?view=sql-server-ver15 230 ... thiểu số vụ tai nạn đáng tiếc xảy giảm theo bớt phần đau đớn mát mà gia đình cá nhân phải chịu đựng có người tai nạn giao thơng mà sinh mạng dị tật đời Thêm vào đó, giảm thiểu tai nạn giao thơng... giảm thiểu thiệt hại tai nạn giao thông gây Ngày nay, xã hội phố biến nhiêu kéo theo đông đúc đường phố với tai nạn giao thông ngày tăng lên đáng kể Vì vậy, vấn đề an tồn giao thơng thực vấn đề... CHƯƠNG TÀI LIỆU THAM KHẢO 230 CHƯƠNG 1: TỔNG QUAN VỀ ĐỀ TÀI 1.1 Giới thiệu liệu 1.1.1 Thông tin liệu Đơn vị cung cấp liệu: Bộ giao thông vận tải vương quốc Anh Thời gian thu thập liệu:

Ngày đăng: 09/08/2021, 11:28

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w