1. Trang chủ
  2. » Luận Văn - Báo Cáo

Tiểu luận môn Kho dữ liệu và OLAP: Xây dựng kho dữ liệu và OLAP trên dữ liệu các vụ tai nạn giao thông tại anh 2005-2015

240 22 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 240
Dung lượng 25,31 MB

Nội dung

Tiểu luận trình bày giới thiệu bộ dữ liệu; mô tả bộ dữ liệu gốc; mô tả thuộc tính từng bảng khi tạo sơ đồ hình sao; quá trình SSIS; Data Mining. Mời các bạn cùng tham khảo để nắm chi tiết hơn nội dung nghiên cứu.

ĐẠI HỌC QUỐC GIA TP. HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC CƠNG NGHỆ THƠNG TIN  XÂY DỰNG KHO DỮ LIỆU VÀ OLAP TRÊN DỮ LIỆU CÁC VỤ TAI NẠN GIAO THƠNG TẠI ANH 2005 ­ 2015 LỜI CẢM ƠN    Đầu tiên, nhóm xin gởi lời cảm  ơn chân thành đến cơ Đỗ  Thị Minh Phụng   (Giảng viên mơn Kho dữ  liệu và OLAP) đã giúp cho nhóm có những kiến   thức cơ  bản làm nền tảng để  thực hiện đề  tài này. Cơ đã trực tiếp hướng  dẫn tận tình, sửa chữa và đóng góp nhiều ý kiến q báu giúp nhóm hồn   thành tốt báo cáo mơn học của mình. Trong thời gian một học kỳ thực hiện   đề tài, nhóm đã vận dụng những kiến thức nền tảng đã tích lũy đồng thời kết  hợp với việc học hỏi và nghiên cứu những kiến thức mới. Từ đó, nhóm vận   dụng tối đa những gì đã thu thập được để  hồn thành một báo cáo đồ  án tốt  nhất. Tuy nhiên, trong q trình thực hiện, nhóm khơng tránh khỏi những   thiếu sót. Chính vì vậy, nhóm rất mong nhận được những sự  góp ý từ  phía  các cơ nhằm hồn thiện những kiến thức mà nhóm đã học tập và là hành   trang để nhóm thực hiện tiếp các đề tài khác trong tương lai Xin chân thành cảm ơn cơ!   NHẬN XÉT CỦA GIẢNG VIÊN ….…………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… ………… Mục Lục CHƯƠNG 1: TỔNG QUAN VỀ ĐỀ TÀI 1.1 Giới thiệu bộ dữ liệu 1.1.1 Thông tin về bộ dữ liệu Đơn vị cung cấp dữ liệu: Bộ giao thông vận tải vương quốc Anh Thời gian thu thập dữ liệu: từ năm 2005 đến 2015 Dữ liệu được xuất bản và cơng khai tại:   https://data.gov.uk/dataset/road­accidents­safety­data 1.1.2 Ý nghĩa của đề tài An tồn giao thơng ln là chủ đề được tồn xã hội quan tâm và  hướng tới xây dựng văn hóa giao thơng tiến bộ  nhất để  giảm thiểu  những thiệt hại do tai nạn giao thơng gây ra. Ngày nay, xã hội càng phố  biến bấy nhiêu kéo theo là sự  đơng đúc trên đường phố  cùng với tai   nạn giao thơng ngày càng tăng lên đáng kể. Vì vậy, vấn đề an tồn giao   thơng thực sự là một vấn đề quan trọng của nhân loại            Hiện nay mỗi ngày chúng ta có thể  thống kê được rất nhiều   những vụ  tai nạn giao thơng để  lại biết bao hậu quả  đáng buồn. Tại  sao việc an tồn giao thơng lại khó đến vậy? Ngun nhân điều này là  do đâu? Đó là do người dân khơng chỉ  chủ  quan mà cịn thiếu ý thức   trách nhiệm trong khi tham gia giao thơng lạn lách, đánh võng, khơng  đội nón bão hiểm  Nhất là tình trạng người tham gia giao thơng có  nồng độ  cồn vượt q mức quy định  ảnh hưởng đến sự  tỉnh táo của  tay lái và gây tai nạn. Khơng ít những trường hợp mà mẹ mất con, con  mất cha, gia đình đau xót, cá nhân mất mát sau những tai nạn như vậy,   người cịn sống cũng ít nhiều để  lại những hậu di chứng về  sau. Đó  đều là mất mát do giao thơng gây nên Để  lại nhiều hậu quả  đau lịng như  vậy, rõ ràng an tồn giao thơng  đóng một vai trị quan trọng cho cá nhân và cho xã hội. Việc chấp hành  các nội dung trong điều luật về  an tồn giao thơng sẽ  góp phần giảm  thiểu số vụ tai nạn đáng tiếc xảy ra cũng giảm theo và bớt đi phần nào  những nổi đau đớn mất mát mà gia đình và cá nhân phải chịu đựng khi  có một người vì tai nạn giao thơng mà mất đi sinh mạng hoặc dị tật cả  đời Thêm vào đó, giảm thiểu tai nạn giao thơng cũng là giảm thiểu chi phí   do việc này gây ra. Đối với một xã hội mà an tồn giao thơng được giữ  vững, luật giao thơng được chấp nhận, người tham gia giao thơng có ý  thức và an tồn thì nhất định là một xã hội ngày càng đi lên. Mỗi chúng  ta để thực hiện được an tồn giao thơng thì cần tự xác lập cho mình ý  thức trách nhiệm về  việc chấp hành những quy định khi tham gia giao  thơng Nhưng ngày nay, khơng thiếu những hành vi coi thường luật giao   thơng để  rồi gây ra những hậu quả  đáng tiếc cho gia đình và xã hội   Những hành vi  ấy nhất định cần có biện pháp xử  lí đích đáng.’Phía  trước tay lái là cuộc sống”. Hãy nhớ khẩu hiệu đó và ln ý thức trách   nhiệm giữ an tồn giao thơng cho người khác ở mọi lúc mọi nơi 1.2 Mơ tả bộ dữ liệu gốc 1.2.1 Mơ tả dữ liệu Các vụ tai nạn ơ tơ ở vương quốc Anh từ năm 2005­ 2015 Link:  https://www.kaggle.com/silicon99/dft­accident­data 1.2.2 Mơ tả thuộc tính File dataset: Accidents0515 Accidents0515: gồm 1.780.653 dịng dữ liệu, 32 thuộc tính ST T Field Name Description Type Accident_Index Mã vụ tai nạn String Location_Easting_OSGR Tọa  độ   địa  phương  ở  String Anh (X) Location_Northing_OSGR Tọa  độ   địa  phương  ở  String Anh (Y) Longitude Kinh độ  String Latitude Vĩ độ String Police_Force Đồn cảnh sát Int Accident_Severity Mức độ nghiêm trọng Int Number_of_Vehicles Số  phương tiện bị  hư  Int hại liên quan tai nạn Number_of_Casualties Số thương vong Int 10 Date Ngày xảy ra tai nạn Date 11 Day_of_Week Thứ trong tuần int 12 Time Thời   gian   xảy     tai  DateTime nạn 13 Local_Authority_(District) Tên   khu   vực   địa  Int phương xảy ra vụ việc 14 Local_Authority_(Highway) Tên   đường     xảy  String ra tai nạn 15 1st_Road_Class Phân loại đường bộ  Int 16 1st_Road_Number Số đường Int 17 Road_Type Loại đường Int 18 Speed_limit Tốc độ giới hạn float 19 Junction_Detail Chi tiết giao lộ Int 20 Junction_Control Kiểm soát giao lộ Int 21 2nd_Road_Class Phân loại đường bộ Int 22 2nd_Road_Number Số đường Int 23 Pedestrian_Crossing­ Human_Control Sự  kiểm soát người đi  Int bộ qua đường 24 Pedestrian_Crossing­ Physical_Facilities Cơ   sở   vật   chất   cho  Int người đi bộ qua đường 25 Light_Conditions Điều kiện ánh sáng Int 26 Weather_Conditions Điều kiện thời tiết Int 27 Road_Surface_Conditions Điều kiện mặt đường Int 28 Special_Conditions_at_Site Điều kiện đặc biệt Int 29 Carriageway_Hazards Mối hiểm họa Int 30 Urban_or_Rural_Area Thành   thị     nông  Int thông 31 Did_Police_Officer_Attend_Sc ene_of_Accident Cảnh   sát   có   tham   gia  vào     trường   tai  Int nạn hay khơng? 32 LSOA_of_Accident_Location Khu vực địa lý của vị  String trí xảy ra tai nạn 1.3 Mơ tả thuộc tính từng bảng khi tạo sơ đồ hình sao  Bảng Dim_Urban_or_Rural_Area Field Name Urban_or_Rural_Area Description Mã thành thị hoặc  Type int nơng thơn Name_Urban_or_Rural_Area Tên thành thị và  nông thôn varchar Bảng Dim_Accident_Severity Field Name ID_Accident_Severity Accident_Severity Description Mã mức độ nghiệm  trọng Mức độ nghiêm trọng Type int varchar Bảng Dim_Police_Force Field Name ID_Police_Force Police_Force Description Mã đồn cảnh sát Đồn cảnh sát Type int varchar Bảng Dim_Road_Surface_Conditions Field Name ID_Road_Surface_Condition s Road_Surface_Conditions Description Mã điều kiện mặt  đường Điều kiện mặt  đường Type int varchar Bảng Dim_Weather_Conditions Field Name ID_Weather_Conditions Weather_Conditions Description Mã thời tiết Thời tiết Type int varchar Bảng Dim_Light_Conditions Field Name ID_Light_Conditions Light_Conditions Bảng Dim_Road_Type Description Type Mã điều kiện ánh sáng int Điều kiện ánh sáng varchar Field Name ID_Road_Type Road_Type Description Mã tên đường Tên đường Type int varchar Bảng Dim_Date Field Name Date_Accident Day_Accident Month_Accident Year_Accident Description Ngày xảy ra tai  nạn Ngày Tháng Năm Type Date Description Thời gian xảy  ra tai nạn Giờ Phút Type SmallDateTime int int int Bảng Dim_Time Field Name Time_Accident Hour_Accident Minutes_Accident int int Bảng Fact STT Field Name Description Type Accident_Index Mã vụ tai nạn Varchar ID_Police_Force Đồn cảnh sát Int ID_Accident_Severity Mức độ nghiêm trọng Int Number_of_Vehicles Số phương tiện bị hư  Int hại liên quan tai nạn Number_of_Casualties Số thương vong Int Date_Accident Ngày xảy ra tai nạn Date Time_Accident Thời   gian   xảy     tai  SmallDateTime nạn ID_Road_Type Loại đường Int Speed_limit Tốc độ giới hạn Float Bước 8: Tại hộp thoại Specify the Training Data, chọn  Key : Fact 5 Input: ID_Weather_Conditions, ID_Road_Type, ID_Road_Surface,    Speech_limit, ID_Light_Conditions   1 Prediction: Urban_Or_Rural_Area Bước 9: Tại màn hình Specify Columns’ Content and Data Type chọn  kiểu Content Type và Data type như hình. Nhấn Next 5.2 Tạo và xử lý Models Tại màn hình Create Testing Set:  Chọn phần tram dữ liệu cho testing là 30%  Số trường hợp lớn nhất cho mẫu testing: 100 000 trường hợp  5.3 Cây quyết định Trong điều kiện tốc độ  giới hạn lớn hơn hoặc bằng 21 và nhỏ  hơn 35,   điều kiện ánh sáng (ID=4) trong buổi tối và có đèn, loại đường (ID = 6)  đường đơn, điều kiện mặt đường (ID = 2)  ẩm  ướt, điều kiện thời tiết  (ID = 2) mưa và khơng có gió lớn. Thì tỷ  lệ  xảy ra tai nạn giao thơng  ở  thành thị là 91,01%. (35661 trường hợp) Trong  điều  kiện:   tốc  độ  lớn  hơn     56  và   nhỏ  hơn  63,  loại  đường (ID=6) đường đơn, điều kiện ánh sáng (ID = 1) ánh sáng ban ngày,  điều kiện mặt đường khơng phải là (ID =4) sương mù, và điều kiện thời  tiết (ID=1) điều kiện tốt khơng có gió lớn. Thì tỷ lệ xảy ra tai nạn ở nơng  thơn là 96.02% (130304 trường hợp)  Dependency Network của thuật tốn Microsoft Decision Tree cho  thấy những thuộc tính có  ảnh hưởng tới việc xảy ra tai nạn giao   thơng.   Những thuộc tính có  ảnh hưởng giảm dần là: Speed Limit ­> ID Road   Type ­> ID Light Conditions ­> ID Road Surface Conditions ­> ID Weather  Conditions.  5.4 Thuật tốn Microsoft Clustering  Cluster Diagram của thuật tốn với Shading Variable Urban Or Rural  Area, value = 1 (Urban ­ thành thị)  Tập lục cho ta thấy khả  năng xảy ra tai nạn giao thơng   thành thị  cao   nhất là 90,5% Với những điều kiện như sau: Tốc độ giới hạn lớn hơn hoặc bằng 19,29   km/h và nhỏ  hơn 20,69 km/h, loại đường là (ID = 2, ID = 9, ID = 6)   đường một chiều,  đường đơn, đường không xác  định;  điều kiện mặt  đường (ID = 1) mặt đường khơ, điều kiện thời tiết (ID = 1, ID = 9) điều   kiện tốt và khơng có gió lớn, thời tiết khơng xác định, điều kiện ánh sáng   (ID = 1,4,5) ánh sáng ban ngày hoặc ban đêm có đèn hoặc khơng có đèn Tập màu đỏ cho ta thấy tỷ lệ xảy ra tai nạn giao thơng ở nơng thơn là 95% Với những điều kiện như  sau: Tốc độ  giới hạn là 60% (Speed Limit = 60),  điều kiện trong tối và khơng có đèn xe (ID Light Conditions=6 Darkness ­ no  lighting), loại  đường là đường đơn (ID Road Type=6 Single carriageway),  điều kiện mặt đường là ẩm ướt (ID Road Surface Conditions=2 Wet/Damp),  điều kiện mặt đường có sương mù và băng tuyết (ID Road Surface Conditions=4 Frost/Ice), điều kiện thời tiết có sương mù (ID Weather Conditions=7 Fog or mist), thời tiết mưa mà khơng có gió lớn (ID Weather Conditions=2 Raining without high winds), điều kiện mặt đường  có tuyết (ID Road Surface Conditions=3 Snow), điều kiện thời tiết có mưa và   gió lớn (ID Weather Conditions=5 Raining with high winds), điều kiện mặt  đường     ngập   lụt   với   mức   nước   từ   3cm   trở   lên   (ID   Road   Surface  Conditions=5 Flood over 3cm of water), điều kiện thời tiết tốt và có gió lớn (ID Weather Conditions=4 Fine with high winds), điều kiện thời tiết có tuyết  và có gió lớn (ID Weather Conditions=3 Snowing with high winds), điều kiện   thời tiết có tuyết nhưng khơng có gió lớn (ID Weather Conditions=6 Snowing without high winds) 5.5 Thuật tốn Microsoft Naive Bayes Dependency Network của thuật tốn Microsoft Naive Bayes cho ta mức độ  ảnh hưởng của các yếu tố đến việc xảy ra tai nạn giao thơng ở các khu vực Điều kiện trong tối và khơng có ánh sáng của đèn (ID = 6), thì khả năng cao  xảy ra tai nạn ở nơng thơn cao hơn so với thành thị Trong điều kiện trời tối và có ánh sáng (ID = 4), thì khả năng cao sẽ xảy ra  tai nạn giao thơng ở thành thị hơn nơng thơn 5.6 Đánh giá các thuật tốn bằng Mining Accuracy Chart Thiết lập thơng số Input Selection với khu vực là thành thị (ID = 1) Line chart cho ta thấy tỷ lệ chính xác của 3 thuật tốn khi mining trường hợp  là khu vực thành thị  Microsoft Decision Tree: 0.94 Score.   Microsoft Clustering: 0.93 Score.   Microsoft Naive Bayes: 0.84 Score.  Thiết lập thơng số Input Selection với khu vực là nơng thơn (ID = 2) Line chart cho ta thấy tỷ lệ chính xác của 3 thuật tốn khi mining trường hợp  là khu vực thành thị  Microsoft Decision Tree: 0.91 Score.   Microsoft Clustering: 0.89 Score.   Microsoft Naive Bayes: 0.76 Score.  CHƯƠNG 6 TÀI LIỆU THAM KHẢO   Các slide bài giảng môn Kho Dữ Liệu Và OLAP được giảng viên cung  cấp   https://docs.microsoft.com/en­us/analysis­services/data­  mining/microsoft­decision­trees­algorithm?view=asallproducts­ allversions  https://docs.microsoft.com/en­us/sql/mdx/except­mdx­operator? view=sql­server­ver15 ... Giới thiệu bộ? ?dữ? ?liệu 1.1.1 Thơng tin về bộ? ?dữ? ?liệu Đơn vị cung cấp? ?dữ? ?liệu:  Bộ? ?giao? ?thơng vận tải vương quốc? ?Anh Thời gian thu thập? ?dữ? ?liệu:  từ năm 2005 đến 2015 Dữ? ?liệu? ?được xuất bản? ?và? ?cơng khai? ?tại:   ... trước tay lái là cuộc sống”. Hãy nhớ khẩu hiệu đó? ?và? ?ln ý thức trách   nhiệm giữ an tồn? ?giao? ?thơng cho người khác ở mọi lúc mọi nơi 1.2 Mơ tả bộ? ?dữ? ?liệu? ?gốc 1.2.1 Mơ tả? ?dữ? ?liệu Các? ?vụ? ?tai? ?nạn? ?ơ tơ ở vương quốc? ?Anh? ?từ năm 2005­ 2015... Câu 15: Thống kê theo năm, tháng tổng số xe bị hư hại, số người bị  thương, tổng số? ?vụ? ?tai? ?nạn,  tốc độ lớn nhất xảy ra? ?tại? ?các? ?loại đường với  tốc độ lớn nhất là 20­70km/h ,với tổng số lượng? ?vụ? ?tai? ?nạn? ?là lớn hơn  hoặc bằng 5? ?vụ,  mức độ nguy hiểm là tử vong (Fatal). 

Ngày đăng: 26/05/2021, 07:43

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w