Tiểu luận trình bày giới thiệu bộ dữ liệu; mô tả bộ dữ liệu gốc; mô tả thuộc tính từng bảng khi tạo sơ đồ hình sao; quá trình SSIS; Data Mining. Mời các bạn cùng tham khảo để nắm chi tiết hơn nội dung nghiên cứu.
ĐẠI HỌC QUỐC GIA TP. HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC CƠNG NGHỆ THƠNG TIN XÂY DỰNG KHO DỮ LIỆU VÀ OLAP TRÊN DỮ LIỆU CÁC VỤ TAI NẠN GIAO THƠNG TẠI ANH 2005 2015 LỜI CẢM ƠN Đầu tiên, nhóm xin gởi lời cảm ơn chân thành đến cơ Đỗ Thị Minh Phụng (Giảng viên mơn Kho dữ liệu và OLAP) đã giúp cho nhóm có những kiến thức cơ bản làm nền tảng để thực hiện đề tài này. Cơ đã trực tiếp hướng dẫn tận tình, sửa chữa và đóng góp nhiều ý kiến q báu giúp nhóm hồn thành tốt báo cáo mơn học của mình. Trong thời gian một học kỳ thực hiện đề tài, nhóm đã vận dụng những kiến thức nền tảng đã tích lũy đồng thời kết hợp với việc học hỏi và nghiên cứu những kiến thức mới. Từ đó, nhóm vận dụng tối đa những gì đã thu thập được để hồn thành một báo cáo đồ án tốt nhất. Tuy nhiên, trong q trình thực hiện, nhóm khơng tránh khỏi những thiếu sót. Chính vì vậy, nhóm rất mong nhận được những sự góp ý từ phía các cơ nhằm hồn thiện những kiến thức mà nhóm đã học tập và là hành trang để nhóm thực hiện tiếp các đề tài khác trong tương lai Xin chân thành cảm ơn cơ! NHẬN XÉT CỦA GIẢNG VIÊN ….…………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… ………… Mục Lục CHƯƠNG 1: TỔNG QUAN VỀ ĐỀ TÀI 1.1 Giới thiệu bộ dữ liệu 1.1.1 Thông tin về bộ dữ liệu Đơn vị cung cấp dữ liệu: Bộ giao thông vận tải vương quốc Anh Thời gian thu thập dữ liệu: từ năm 2005 đến 2015 Dữ liệu được xuất bản và cơng khai tại: https://data.gov.uk/dataset/roadaccidentssafetydata 1.1.2 Ý nghĩa của đề tài An tồn giao thơng ln là chủ đề được tồn xã hội quan tâm và hướng tới xây dựng văn hóa giao thơng tiến bộ nhất để giảm thiểu những thiệt hại do tai nạn giao thơng gây ra. Ngày nay, xã hội càng phố biến bấy nhiêu kéo theo là sự đơng đúc trên đường phố cùng với tai nạn giao thơng ngày càng tăng lên đáng kể. Vì vậy, vấn đề an tồn giao thơng thực sự là một vấn đề quan trọng của nhân loại Hiện nay mỗi ngày chúng ta có thể thống kê được rất nhiều những vụ tai nạn giao thơng để lại biết bao hậu quả đáng buồn. Tại sao việc an tồn giao thơng lại khó đến vậy? Ngun nhân điều này là do đâu? Đó là do người dân khơng chỉ chủ quan mà cịn thiếu ý thức trách nhiệm trong khi tham gia giao thơng lạn lách, đánh võng, khơng đội nón bão hiểm Nhất là tình trạng người tham gia giao thơng có nồng độ cồn vượt q mức quy định ảnh hưởng đến sự tỉnh táo của tay lái và gây tai nạn. Khơng ít những trường hợp mà mẹ mất con, con mất cha, gia đình đau xót, cá nhân mất mát sau những tai nạn như vậy, người cịn sống cũng ít nhiều để lại những hậu di chứng về sau. Đó đều là mất mát do giao thơng gây nên Để lại nhiều hậu quả đau lịng như vậy, rõ ràng an tồn giao thơng đóng một vai trị quan trọng cho cá nhân và cho xã hội. Việc chấp hành các nội dung trong điều luật về an tồn giao thơng sẽ góp phần giảm thiểu số vụ tai nạn đáng tiếc xảy ra cũng giảm theo và bớt đi phần nào những nổi đau đớn mất mát mà gia đình và cá nhân phải chịu đựng khi có một người vì tai nạn giao thơng mà mất đi sinh mạng hoặc dị tật cả đời Thêm vào đó, giảm thiểu tai nạn giao thơng cũng là giảm thiểu chi phí do việc này gây ra. Đối với một xã hội mà an tồn giao thơng được giữ vững, luật giao thơng được chấp nhận, người tham gia giao thơng có ý thức và an tồn thì nhất định là một xã hội ngày càng đi lên. Mỗi chúng ta để thực hiện được an tồn giao thơng thì cần tự xác lập cho mình ý thức trách nhiệm về việc chấp hành những quy định khi tham gia giao thơng Nhưng ngày nay, khơng thiếu những hành vi coi thường luật giao thơng để rồi gây ra những hậu quả đáng tiếc cho gia đình và xã hội Những hành vi ấy nhất định cần có biện pháp xử lí đích đáng.’Phía trước tay lái là cuộc sống”. Hãy nhớ khẩu hiệu đó và ln ý thức trách nhiệm giữ an tồn giao thơng cho người khác ở mọi lúc mọi nơi 1.2 Mơ tả bộ dữ liệu gốc 1.2.1 Mơ tả dữ liệu Các vụ tai nạn ơ tơ ở vương quốc Anh từ năm 2005 2015 Link: https://www.kaggle.com/silicon99/dftaccidentdata 1.2.2 Mơ tả thuộc tính File dataset: Accidents0515 Accidents0515: gồm 1.780.653 dịng dữ liệu, 32 thuộc tính ST T Field Name Description Type Accident_Index Mã vụ tai nạn String Location_Easting_OSGR Tọa độ địa phương ở String Anh (X) Location_Northing_OSGR Tọa độ địa phương ở String Anh (Y) Longitude Kinh độ String Latitude Vĩ độ String Police_Force Đồn cảnh sát Int Accident_Severity Mức độ nghiêm trọng Int Number_of_Vehicles Số phương tiện bị hư Int hại liên quan tai nạn Number_of_Casualties Số thương vong Int 10 Date Ngày xảy ra tai nạn Date 11 Day_of_Week Thứ trong tuần int 12 Time Thời gian xảy tai DateTime nạn 13 Local_Authority_(District) Tên khu vực địa Int phương xảy ra vụ việc 14 Local_Authority_(Highway) Tên đường xảy String ra tai nạn 15 1st_Road_Class Phân loại đường bộ Int 16 1st_Road_Number Số đường Int 17 Road_Type Loại đường Int 18 Speed_limit Tốc độ giới hạn float 19 Junction_Detail Chi tiết giao lộ Int 20 Junction_Control Kiểm soát giao lộ Int 21 2nd_Road_Class Phân loại đường bộ Int 22 2nd_Road_Number Số đường Int 23 Pedestrian_Crossing Human_Control Sự kiểm soát người đi Int bộ qua đường 24 Pedestrian_Crossing Physical_Facilities Cơ sở vật chất cho Int người đi bộ qua đường 25 Light_Conditions Điều kiện ánh sáng Int 26 Weather_Conditions Điều kiện thời tiết Int 27 Road_Surface_Conditions Điều kiện mặt đường Int 28 Special_Conditions_at_Site Điều kiện đặc biệt Int 29 Carriageway_Hazards Mối hiểm họa Int 30 Urban_or_Rural_Area Thành thị nông Int thông 31 Did_Police_Officer_Attend_Sc ene_of_Accident Cảnh sát có tham gia vào trường tai Int nạn hay khơng? 32 LSOA_of_Accident_Location Khu vực địa lý của vị String trí xảy ra tai nạn 1.3 Mơ tả thuộc tính từng bảng khi tạo sơ đồ hình sao Bảng Dim_Urban_or_Rural_Area Field Name Urban_or_Rural_Area Description Mã thành thị hoặc Type int nơng thơn Name_Urban_or_Rural_Area Tên thành thị và nông thôn varchar Bảng Dim_Accident_Severity Field Name ID_Accident_Severity Accident_Severity Description Mã mức độ nghiệm trọng Mức độ nghiêm trọng Type int varchar Bảng Dim_Police_Force Field Name ID_Police_Force Police_Force Description Mã đồn cảnh sát Đồn cảnh sát Type int varchar Bảng Dim_Road_Surface_Conditions Field Name ID_Road_Surface_Condition s Road_Surface_Conditions Description Mã điều kiện mặt đường Điều kiện mặt đường Type int varchar Bảng Dim_Weather_Conditions Field Name ID_Weather_Conditions Weather_Conditions Description Mã thời tiết Thời tiết Type int varchar Bảng Dim_Light_Conditions Field Name ID_Light_Conditions Light_Conditions Bảng Dim_Road_Type Description Type Mã điều kiện ánh sáng int Điều kiện ánh sáng varchar Field Name ID_Road_Type Road_Type Description Mã tên đường Tên đường Type int varchar Bảng Dim_Date Field Name Date_Accident Day_Accident Month_Accident Year_Accident Description Ngày xảy ra tai nạn Ngày Tháng Năm Type Date Description Thời gian xảy ra tai nạn Giờ Phút Type SmallDateTime int int int Bảng Dim_Time Field Name Time_Accident Hour_Accident Minutes_Accident int int Bảng Fact STT Field Name Description Type Accident_Index Mã vụ tai nạn Varchar ID_Police_Force Đồn cảnh sát Int ID_Accident_Severity Mức độ nghiêm trọng Int Number_of_Vehicles Số phương tiện bị hư Int hại liên quan tai nạn Number_of_Casualties Số thương vong Int Date_Accident Ngày xảy ra tai nạn Date Time_Accident Thời gian xảy tai SmallDateTime nạn ID_Road_Type Loại đường Int Speed_limit Tốc độ giới hạn Float Bước 8: Tại hộp thoại Specify the Training Data, chọn Key : Fact 5 Input: ID_Weather_Conditions, ID_Road_Type, ID_Road_Surface, Speech_limit, ID_Light_Conditions 1 Prediction: Urban_Or_Rural_Area Bước 9: Tại màn hình Specify Columns’ Content and Data Type chọn kiểu Content Type và Data type như hình. Nhấn Next 5.2 Tạo và xử lý Models Tại màn hình Create Testing Set: Chọn phần tram dữ liệu cho testing là 30% Số trường hợp lớn nhất cho mẫu testing: 100 000 trường hợp 5.3 Cây quyết định Trong điều kiện tốc độ giới hạn lớn hơn hoặc bằng 21 và nhỏ hơn 35, điều kiện ánh sáng (ID=4) trong buổi tối và có đèn, loại đường (ID = 6) đường đơn, điều kiện mặt đường (ID = 2) ẩm ướt, điều kiện thời tiết (ID = 2) mưa và khơng có gió lớn. Thì tỷ lệ xảy ra tai nạn giao thơng ở thành thị là 91,01%. (35661 trường hợp) Trong điều kiện: tốc độ lớn hơn 56 và nhỏ hơn 63, loại đường (ID=6) đường đơn, điều kiện ánh sáng (ID = 1) ánh sáng ban ngày, điều kiện mặt đường khơng phải là (ID =4) sương mù, và điều kiện thời tiết (ID=1) điều kiện tốt khơng có gió lớn. Thì tỷ lệ xảy ra tai nạn ở nơng thơn là 96.02% (130304 trường hợp) Dependency Network của thuật tốn Microsoft Decision Tree cho thấy những thuộc tính có ảnh hưởng tới việc xảy ra tai nạn giao thơng. Những thuộc tính có ảnh hưởng giảm dần là: Speed Limit > ID Road Type > ID Light Conditions > ID Road Surface Conditions > ID Weather Conditions. 5.4 Thuật tốn Microsoft Clustering Cluster Diagram của thuật tốn với Shading Variable Urban Or Rural Area, value = 1 (Urban thành thị) Tập lục cho ta thấy khả năng xảy ra tai nạn giao thơng thành thị cao nhất là 90,5% Với những điều kiện như sau: Tốc độ giới hạn lớn hơn hoặc bằng 19,29 km/h và nhỏ hơn 20,69 km/h, loại đường là (ID = 2, ID = 9, ID = 6) đường một chiều, đường đơn, đường không xác định; điều kiện mặt đường (ID = 1) mặt đường khơ, điều kiện thời tiết (ID = 1, ID = 9) điều kiện tốt và khơng có gió lớn, thời tiết khơng xác định, điều kiện ánh sáng (ID = 1,4,5) ánh sáng ban ngày hoặc ban đêm có đèn hoặc khơng có đèn Tập màu đỏ cho ta thấy tỷ lệ xảy ra tai nạn giao thơng ở nơng thơn là 95% Với những điều kiện như sau: Tốc độ giới hạn là 60% (Speed Limit = 60), điều kiện trong tối và khơng có đèn xe (ID Light Conditions=6 Darkness no lighting), loại đường là đường đơn (ID Road Type=6 Single carriageway), điều kiện mặt đường là ẩm ướt (ID Road Surface Conditions=2 Wet/Damp), điều kiện mặt đường có sương mù và băng tuyết (ID Road Surface Conditions=4 Frost/Ice), điều kiện thời tiết có sương mù (ID Weather Conditions=7 Fog or mist), thời tiết mưa mà khơng có gió lớn (ID Weather Conditions=2 Raining without high winds), điều kiện mặt đường có tuyết (ID Road Surface Conditions=3 Snow), điều kiện thời tiết có mưa và gió lớn (ID Weather Conditions=5 Raining with high winds), điều kiện mặt đường ngập lụt với mức nước từ 3cm trở lên (ID Road Surface Conditions=5 Flood over 3cm of water), điều kiện thời tiết tốt và có gió lớn (ID Weather Conditions=4 Fine with high winds), điều kiện thời tiết có tuyết và có gió lớn (ID Weather Conditions=3 Snowing with high winds), điều kiện thời tiết có tuyết nhưng khơng có gió lớn (ID Weather Conditions=6 Snowing without high winds) 5.5 Thuật tốn Microsoft Naive Bayes Dependency Network của thuật tốn Microsoft Naive Bayes cho ta mức độ ảnh hưởng của các yếu tố đến việc xảy ra tai nạn giao thơng ở các khu vực Điều kiện trong tối và khơng có ánh sáng của đèn (ID = 6), thì khả năng cao xảy ra tai nạn ở nơng thơn cao hơn so với thành thị Trong điều kiện trời tối và có ánh sáng (ID = 4), thì khả năng cao sẽ xảy ra tai nạn giao thơng ở thành thị hơn nơng thơn 5.6 Đánh giá các thuật tốn bằng Mining Accuracy Chart Thiết lập thơng số Input Selection với khu vực là thành thị (ID = 1) Line chart cho ta thấy tỷ lệ chính xác của 3 thuật tốn khi mining trường hợp là khu vực thành thị Microsoft Decision Tree: 0.94 Score. Microsoft Clustering: 0.93 Score. Microsoft Naive Bayes: 0.84 Score. Thiết lập thơng số Input Selection với khu vực là nơng thơn (ID = 2) Line chart cho ta thấy tỷ lệ chính xác của 3 thuật tốn khi mining trường hợp là khu vực thành thị Microsoft Decision Tree: 0.91 Score. Microsoft Clustering: 0.89 Score. Microsoft Naive Bayes: 0.76 Score. CHƯƠNG 6 TÀI LIỆU THAM KHẢO Các slide bài giảng môn Kho Dữ Liệu Và OLAP được giảng viên cung cấp https://docs.microsoft.com/enus/analysisservices/data mining/microsoftdecisiontreesalgorithm?view=asallproducts allversions https://docs.microsoft.com/enus/sql/mdx/exceptmdxoperator? view=sqlserverver15 ... Giới thiệu bộ? ?dữ? ?liệu 1.1.1 Thơng tin về bộ? ?dữ? ?liệu Đơn vị cung cấp? ?dữ? ?liệu: Bộ? ?giao? ?thơng vận tải vương quốc? ?Anh Thời gian thu thập? ?dữ? ?liệu: từ năm 2005 đến 2015 Dữ? ?liệu? ?được xuất bản? ?và? ?cơng khai? ?tại: ... trước tay lái là cuộc sống”. Hãy nhớ khẩu hiệu đó? ?và? ?ln ý thức trách nhiệm giữ an tồn? ?giao? ?thơng cho người khác ở mọi lúc mọi nơi 1.2 Mơ tả bộ? ?dữ? ?liệu? ?gốc 1.2.1 Mơ tả? ?dữ? ?liệu Các? ?vụ? ?tai? ?nạn? ?ơ tơ ở vương quốc? ?Anh? ?từ năm 2005 2015... Câu 15: Thống kê theo năm, tháng tổng số xe bị hư hại, số người bị thương, tổng số? ?vụ? ?tai? ?nạn, tốc độ lớn nhất xảy ra? ?tại? ?các? ?loại đường với tốc độ lớn nhất là 2070km/h ,với tổng số lượng? ?vụ? ?tai? ?nạn? ?là lớn hơn hoặc bằng 5? ?vụ, mức độ nguy hiểm là tử vong (Fatal).