Tiểu luận môn kho dữ liệu và olap xây dựng kho dữ liệu và olap trên dữ liệu các vụ tai nạn giao thông tại anh 2005 2015

234 4 0
Tiểu luận môn kho dữ liệu và olap  xây dựng kho dữ liệu và olap trên dữ liệu các vụ tai nạn giao thông tại anh 2005 2015

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

ĐẠI HỌC QUỐC GIA TP HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN  XÂY DỰNG KHO DỮ LIỆU VÀ OLAP TRÊN DỮ LIỆU CÁC VỤ TAI NẠN GIAO THƠNG TẠI ANH 2005 - 2015 Hồ Chí Minh, Ngày 30/ 11/ 2020 LỜI CẢM ƠN Đầu tiên, nhóm xin gởi lời cảm ơn chân thành đến Đỗ Thị Minh Phụng (Giảng viên môn Kho liệu OLAP) giúp cho nhóm có kiến thức làm tảng để thực đề tài Cơ trực tiếp hướng dẫn tận tình, sửa chữa đóng góp nhiều ý kiến quý báu giúp nhóm hồn thành tốt báo cáo mơn học Trong thời gian học đề tài, nhóm vận dụng kiến thức tảng tích lũy đồng thời kết hợp với việc học hỏi nghiên cứu kiến thức Từ đó, nhóm vận dụng tối đa thu thập để hoàn thành báo cáo đồ án tốt Tuy nhiên, q trình thực hiện, nhóm khơng tránh khỏi thiếu sót Chính vậy, nhóm mong nhận góp ý từ phía nhằm hồn thiện kiến thức mà nhóm học tập hành trang để nhóm thực tiếp đề tài khác tương lai Xin chân thành cảm ơn cô! NHẬN XÉT CỦA GIẢNG VIÊN ….…………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… ………… Mục Lục LỜI CẢM ƠN NHẬN XÉT CỦA GIẢNG VIÊN .2 CHƯƠNG 1: TỔNG QUAN VỀ ĐỀ TÀI 1.1 Giới thiệu liệu 1.1.1 Thông tin liệu 1.1.2 Ý nghĩa đề tài .7 1.2 Mô tả liệu gốc 1.2.1 Mô tả liệu 1.2.2 Mô tả thuộc tính 1.3 Mô tả thuộc tính bảng tạo sơ đồ hình 10  Bảng Dim_Urban_or_Rural_Area 10  Bảng Dim_Accident_Severity 10  Bảng Dim_Police_Force 10  Bảng Dim_Road_Surface_Conditions 11  Bảng Dim_Weather_Conditions .11  Bảng Dim_Light_Conditions 11  Bảng Dim_Road_Type 11  Bảng Dim_Date 11  Bảng Dim_Time .11  Bảng Fact 12 1.4 Sơ đồ hình 13 1.5 Các câu hỏi truy vấn (15 câu) 13 CHƯƠNG 2: QUÁ TRÌNH SSIS 15 2.1 Tạo Database trống SQL để đổ liệu vào 15 2.2 Tạo Project thiết lập kết nối 15 2.2.1 Tạo “Integration Service Project” 15 2.2.2 Thêm cấu hình kết nối tới Database hệ quản trị SQL Server 16 2.3 Quá trình làm liệu 19 2.4 Thực tạo bảng Dim .25 2.4.1 Tạo bảng Dim_Urban_or_Rural_Area 26 2.4.2 Tạo bảng Dim_Accident_Severity 29 2.4.3 Tạo bảng Dim_Police_Force 33 2.4.4 Tạo bảng Dim_Road_Surface_Conditions .37 2.4.5 Tạo bảng Dim_Weather_Conditions 40 2.4.6 Tạo Dim_Light_Conditions .43 2.4.7 Tạo bảng Dim_Road_Type .46 2.4.8 Tạo bảng Dim_Date 50 2.4.9 Tạo bảng Dim_Time 57 2.5 Tạo bảng Fact 64 2.6 Tạo xóa ràng buộc SQL 90 2.7 Thực thi Package .98 CHƯƠNG 3: QUÁ TRÌNH SSAS 100 3.1 Tạo ứng dụng SSAS 100 3.2 Tạo Datasource 100 3.3 Tạo DataSource View 105 3.4 Tạo cube 109 3.5 Sửa bảng chiều 113 3.6 Deploy cube lên server 118 3.7 Tạo Measures, Hierarchies xóa liệu Unknow 119 3.7.1 Tạo Measures 119 3.7.2 Tạo Hierarchies định nghĩa Attribute Relationship .120 3.7.3 Xóa dịng liệu Unknow .122 3.8 Định nghĩa Named set .123 3.8.1 Tạo Named set 123 3.9 Thực câu truy vấn MDX, BI Pivot Excel 125 3.9.1 Câu .126 3.9.2 Câu .127 3.9.3 Câu .128 3.9.4 Câu .130 3.9.5 Câu .132 3.9.6 Câu .133 3.9.7 Câu .135 3.9.8 Câu .137 3.9.9 Câu .139 3.9.10 Câu 10 .140 3.9.11 Câu 11 .142 3.9.12 Câu 12 .144 3.9.13 Câu 13 .146 3.9.14 Câu 14 .148 3.9.15 Câu 15 .150 3.9.16 Câu 16 .152 3.9.17 Câu 17 .153 3.9.18 Câu 18 .155 CHƯƠNG 4: QUÁ TRÌNH SSRS 157 4.1 Tạo report công cụ SSRS .157 4.1.1 Tạo Report Service Project 157 4.1.2 Tạo cấu hình Share Data Sources 157 4.2 Thống kê số vụ tai nạn giao thông nông thôn, thành thị, nước bao nhiêu? .159 4.2.1 Tạo Reports 159 4.2.2 Tạo Dataset .160 4.2.3 Tạo table định dạng report .163 4.2.4 Báo cáo hoàn chỉnh 168 4.3 Thống kê số xe thiệt hại, số người bị thương, số vụ tai nạn giao thông theo điều kiện thời tiết từ năm 2005 - 2015 169 4.3.1 Tạo Reports 169 4.3.2 Tạo DataSet 169 4.3.3 Tạo Table Grouping 173 4.3.4 Tạo Total định dạng Report .179 4.3.5 Báo cáo hoàn chỉnh 186 4.4 Thống kê theo tháng, năm tổng số xe bị hư hại, số người bị thương, tổng số vụ tai nạn, tốc độ lớn xảy loại đường với tốc độ lớn 20-70km/h ,với tổng số lượng vụ tai nạn lớn vụ, mức độ nguy hiểm tử vong (Fatal) 187 4.4.1 Tạo Report 187 4.4.2 Tạo DataSet 188 4.4.3 Tạo Table Grouping 190 4.4.4 Tạo Total định dạng Report .195 4.4.5 Báo cáo hoàn chỉnh 200 4.5 Đăng kí dịch vụ Power BI .201 4.6 Tạo Report Power BI .203 4.6.1 Roport 1: Thống kê số vụ tai nạn giao thông qua khu vực 206 4.6.2 Report 2: Thống kê tổng số thương vong theo điều kiện thời tiết qua năm từ 2005 - 2015 210 4.6.3 Report 3: Thống kê tổng xe thiệt hại, tổng số thương vong, tổng số vụ tai nạn xảy tai đồn cảnh sát qua năm từ 2005 - 2015 212 CHƯƠNG 5: DATA MINING 214 5.1 Thực trình Data Mining 214 5.2 Tạo xử lý Models 219 5.3 Cây định 220 5.4 Thuật toán Microsoft Clustering 223 5.5 Thuật toán Microsoft Naive Bayes 226 5.6 Đánh giá thuật toán Mining Accuracy Chart 228 CHƯƠNG TÀI LIỆU THAM KHẢO .231 CHƯƠNG 1: TỔNG QUAN VỀ ĐỀ TÀI 1.1 Giới thiệu liệu 1.1.1 Thông tin liệu Đơn vị cung cấp liệu: Bộ giao thông vận tải vương quốc Anh Thời gian thu thập liệu: từ năm 2005 đến 2015 Dữ liệu xuất công khai tại: https://data.gov.uk/dataset/road-accidents-safety-data 1.1.2 Ý nghĩa đề tài An tồn giao thơng ln chủ đề tồn xã hội quan tâm hướng tới xây dựng văn hóa giao thông tiến để giảm thiểu thiệt hại tai nạn giao thông gây Ngày nay, xã hội phố biến nhiêu kéo theo đông đúc đường phố với tai nạn giao thơng ngày tăng lên đáng kể Vì vậy, vấn đề an tồn giao thơng thực vấn đề quan trọng nhân loại Hiện ngày thống kê nhiều vụ tai nạn giao thông để lại hậu đáng buồn Tại việc an toàn giao thơng lại khó đến vậy? Ngun nhân điều đâu? Đó người dân khơng chủ quan mà thiếu ý thức trách nhiệm tham gia giao thông lạn lách, đánh võng, không đội nón bão hiểm Nhất tình trạng người tham gia giao thơng có nồng độ cồn vượt q mức quy định ảnh hưởng đến tỉnh táo tay lái gây tai nạn Khơng trường hợp mà mẹ con, cha, gia đình đau xót, cá nhân mát sau tai nạn vậy, người cịn sống nhiều để lại hậu di chứng sau Đó mát giao thông gây nên Để lại nhiều hậu đau lịng vậy, rõ ràng an tồn giao thơng đóng vai trò quan trọng cho cá nhân cho xã hội Việc chấp hành nội dung điều luật an tồn giao thơng góp phần giảm thiểu số vụ tai nạn đáng tiếc xảy giảm theo bớt phần đau đớn mát mà gia đình cá nhân phải chịu đựng có người tai nạn giao thông mà sinh mạng dị tật đời Thêm vào đó, giảm thiểu tai nạn giao thơng giảm thiểu chi phí việc gây Đối với xã hội mà an toàn giao thông giữ vững, luật giao thông chấp nhận, người tham gia giao thơng có ý thức an tồn định xã hội ngày lên Mỗi để thực an tồn giao thơng cần tự xác lập cho ý thức trách nhiệm việc chấp hành quy định tham gia giao thông Nhưng ngày nay, không thiếu hành vi coi thường luật giao thông để gây hậu đáng tiếc cho gia đình xã hội Những hành vi định cần có biện pháp xử lí đích đáng.’Phía trước tay lái sống” Hãy nhớ hiệu ln ý thức trách nhiệm giữ an tồn giao thông cho người khác lúc nơi 1.2 Mô tả liệu gốc 1.2.1 Mô tả liệu Các vụ tai nạn ô tô vương quốc Anh từ năm 2005- 2015 Link: https://www.kaggle.com/silicon99/dft-accident-data 1.2.2 Mô tả thuộc tính File dataset: Accidents0515 Accidents0515: gồm 1.780.653 dịng liệu, 32 thuộc tính STT Field Name Accident_Index Description Type Mã vụ tai nạn String Location_Easting_OSGR Tọa độ địa phương Anh (X) String Location_Northing_OSGR Tọa độ địa phương Anh (Y) String Longitude Kinh độ String Latitude Vĩ độ String Police_Force Đồn cảnh sát Int Accident_Severity Mức độ nghiêm trọng Int Number_of_Vehicles Số phương tiện bị hư hại liên quan tai nạn Int Number_of_Casualties Số thương vong Int 10 Date Ngày xảy tai nạn Date 11 Day_of_Week Thứ tuần int 12 Time Thời gian xảy tai nạn DateTime 13 Local_Authority_(District) Tên khu vực địa phương xảy vụ việc Int 14 Local_Authority_(Highway) Tên đường xảy tai nạn String 15 1st_Road_Class Phân loại đường Int 16 1st_Road_Number Số đường Int 17 Road_Type Loại đường Int 18 Speed_limit Tốc độ giới hạn float 19 Junction_Detail Chi tiết giao lộ Int 20 Junction_Control Kiểm soát giao lộ Int 21 2nd_Road_Class Phân loại đường Int 22 2nd_Road_Number Số đường Int 23 Pedestrian_CrossingHuman_Control Sự kiểm soát người qua đường Int 24 Pedestrian_CrossingPhysical_Facilities Cơ sở vật chất cho người qua đường Int Bước 7: Tại hộp thoại Specify Table Types Tại mục case, chọn Fact 219 Bước 8: Tại hộp thoại Specify the Training Data, chọn  Key : Fact  Input: ID_Weather_Conditions, ID_Road_Type, ID_Road_Surface, Speech_limit, ID_Light_Conditions  Prediction: Urban_Or_Rural_Area 220 Bước 9: Tại hình Specify Columns’ Content and Data Type chọn kiểu Content Type Data type hình Nhấn Next 5.2 Tạo xử lý Models Tại hình Create Testing Set: Chọn phần tram liệu cho testing 30% Số trường hợp lớn cho mẫu testing: 100 000 trường hợp 221 5.3 Cây định Trong điều kiện tốc độ giới hạn lớn 21 nhỏ 35, điều kiện ánh sáng (ID=4) buổi tối có đèn, loại đường (ID = 6) đường đơn, điều kiện mặt đường (ID = 2) ẩm ướt, điều kiện thời tiết (ID = 2) mưa khơng có gió lớn Thì tỷ lệ xảy tai nạn giao thông thành thị 91,01% (35661 trường hợp) Trong điều kiện: tốc độ lớn 56 nhỏ 63, loại đường (ID=6) đường đơn, điều kiện ánh sáng (ID = 1) ánh sáng ban ngày, điều 222 kiện mặt đường (ID =4) sương mù, điều kiện thời tiết (ID=1) điều kiện tốt khơng có gió lớn Thì tỷ lệ xảy tai nạn nông thôn 96.02% (130304 trường hợp)  Dependency Network thuật toán Microsoft Decision Tree cho thấy thuộc tính có ảnh hưởng tới việc xảy tai nạn giao thông  Những thuộc tính có ảnh hưởng giảm dần là: Speed Limit -> ID Road Type -> ID Light Conditions -> ID Road Surface Conditions -> ID Weather Conditions 223 224 5.4 Thuật toán Microsoft Clustering Cluster Diagram thuật toán với Shading Variable Urban Or Rural Area, value = (Urban - thành thị) 225 Tập lục cho ta thấy khả xảy tai nạn giao thông thành thị cao 90,5% Với điều kiện sau: Tốc độ giới hạn lớn 19,29 km/h nhỏ 20,69 km/h, loại đường (ID = 2, ID = 9, ID = 6) đường chiều, đường đơn, đường không xác định; điều kiện mặt đường (ID = 1) mặt đường khô, điều kiện thời tiết (ID = 1, ID = 9) điều kiện tốt khơng 226 có gió lớn, thời tiết khơng xác định, điều kiện ánh sáng (ID = 1,4,5) ánh sáng ban ngày ban đêm có đèn khơng có đèn Tập màu đỏ cho ta thấy tỷ lệ xảy tai nạn giao thông nông thôn 95% Với điều kiện sau: Tốc độ giới hạn 60% (Speed Limit = 60), điều kiện tối khơng có đèn xe (ID Light Conditions=6 Darkness - no lighting), loại đường đường đơn (ID Road Type=6 Single carriageway), điều kiện mặt đường ẩm ướt (ID Road Surface Conditions=2 Wet/Damp), điều kiện mặt đường có sương mù băng tuyết (ID Road Surface Conditions=4 Frost/Ice), điều kiện thời tiết có sương mù (ID Weather Conditions=7 Fog or mist), thời tiết mưa mà khơng có gió lớn (ID Weather Conditions=2 Raining without high winds), điều kiện mặt đường có tuyết (ID Road Surface Conditions=3 Snow), điều kiện thời tiết có mưa gió lớn (ID Weather Conditions=5 Raining with high winds), điều kiện mặt đường ngập lụt với mức nước từ 3cm trở lên (ID Road Surface Conditions=5 Flood over 3cm of water), điều kiện thời tiết tốt có gió lớn 227 (ID Weather Conditions=4 Fine with high winds), điều kiện thời tiết có tuyết có gió lớn (ID Weather Conditions=3 Snowing with high winds), điều kiện thời tiết có tuyết khơng có gió lớn (ID Weather Conditions=6 Snowing without high winds) 5.5 Thuật toán Microsoft Naive Bayes Dependency Network thuật toán Microsoft Naive Bayes cho ta mức độ ảnh hưởng yếu tố đến việc xảy tai nạn giao thông khu vực 228 Điều kiện tối khơng có ánh sáng đèn (ID = 6), khả cao xảy tai nạn nông thôn cao so với thành thị Trong điều kiện trời tối có ánh sáng (ID = 4), khả cao xảy tai nạn giao thông thành thị nông thôn 229 5.6 Đánh giá thuật tốn Mining Accuracy Chart Thiết lập thơng số Input Selection với khu vực thành thị (ID = 1) Line chart cho ta thấy tỷ lệ xác thuật toán mining trường hợp khu vực thành thị  Microsoft Decision Tree: 0.94 Score 230  Microsoft Clustering: 0.93 Score  Microsoft Naive Bayes: 0.84 Score Thiết lập thông số Input Selection với khu vực nông thôn (ID = 2) 231 Line chart cho ta thấy tỷ lệ xác thuật tốn mining trường hợp khu vực thành thị  Microsoft Decision Tree: 0.91 Score  Microsoft Clustering: 0.89 Score  Microsoft Naive Bayes: 0.76 Score 232 CHƯƠNG TÀI LIỆU THAM KHẢO  Các slide giảng môn Kho Dữ Liệu Và OLAP giảng viên cung cấp  https://docs.microsoft.com/en-us/analysis-services/data-mining/ microsoft-decision-trees-algorithm?view=asallproducts-allversions  https://docs.microsoft.com/en-us/sql/mdx/except-mdx-operator? view=sql-server-ver15 233

Ngày đăng: 14/04/2023, 10:34

Tài liệu cùng người dùng

Tài liệu liên quan