Trang 10 2 Location_Easting_OSGR Tọa độ địa phương ởAnh X String3 Location_Northing_OSGR Tọa độ địa phương ởAnh Y String4 Longitude Kinh độ String5 Latitude Vĩ độ String6 Police_Force Đồ
TỔNG QUAN VỀ ĐỀ TÀI
Giới thiệu bộ dữ liệu
1.1.1 Thông tin về bộ dữ liệu Đơn vị cung cấp dữ liệu: Bộ giao thông vận tải vương quốc Anh.
Thời gian thu thập dữ liệu: từ năm 2005 đến 2015.
Dữ liệu được xuất bản và công khai tại: https://data.gov.uk/dataset/road-accidents-safety-data
An toàn giao thông là vấn đề toàn xã hội quan tâm, nhằm xây dựng văn hóa giao thông tiến bộ, giảm thiệt hại do tai nạn Sự phát triển đô thị dẫn đến giao thông đông đúc và tai nạn gia tăng đáng kể, đặt an toàn giao thông lên hàng đầu.
Tình trạng tai nạn giao thông gia tăng đáng báo động do ý thức người tham gia giao thông còn hạn chế, thể hiện qua việc lạng lách, đánh võng, không đội mũ bảo hiểm và đặc biệt là lái xe khi có nồng độ cồn vượt quá quy định Hậu quả khôn lường của tai nạn giao thông gây ra nỗi đau mất mát to lớn cho gia đình và cá nhân, nhấn mạnh tầm quan trọng của nghiên cứu khoa học nhằm cải thiện an toàn giao thông và giảm thiểu thiệt hại.
Giảm thiểu tai nạn giao thông đồng nghĩa với giảm chi phí xã hội Một xã hội có an toàn giao thông tốt, luật lệ được chấp hành nghiêm chỉnh, người tham gia giao thông có ý thức sẽ phát triển bền vững Trách nhiệm cá nhân trong việc chấp hành luật giao thông là yếu tố then chốt cho an toàn giao thông.
Vi phạm luật giao thông gây hậu quả nghiêm trọng cho cá nhân, gia đình và xã hội, đòi hỏi biện pháp xử lý nghiêm minh Luôn nhớ khẩu hiệu "Phía trước tay lái là cuộc sống" và ý thức trách nhiệm an toàn giao thông.
Mô tả bộ dữ liệu gốc
Các vụ tai nạn ô tô ở vương quốc Anh từ năm 2005- 2015.
Link: https://www.kaggle.com/silicon99/dft-accident-data
Accidents0515: gồm 1.780.653 dòng dữ liệu, 32 thuộc tính. Đề tài NCKH
2 Location_Easting_OSGR Tọa độ địa phương ở
3 Location_Northing_OSGR Tọa độ địa phương ở
6 Police_Force Đồn cảnh sát Int
7 Accident_Severity Mức độ nghiêm trọng Int
8 Number_of_Vehicles Số phương tiện bị hư hại liên quan tai nạn Int
9 Number_of_Casualties Số thương vong Int
10 Date Ngày xảy ra tai nạn Date
11 Day_of_Week Thứ trong tuần int
12 Time Thời gian xảy ra tai nạn DateTime
13 Local_Authority_(District) Tên khu vực địa phương xảy ra vụ việc Int
14 Local_Authority_(Highway) Tên đường chính xảy ra tai nạn String
15 1st_Road_Class Phân loại đường bộ Int
16 1st_Road_Number Số đường Int
17 Road_Type Loại đường Int
18 Speed_limit Tốc độ giới hạn float
19 Junction_Detail Chi tiết giao lộ Int
20 Junction_Control Kiểm soát giao lộ Int
21 2nd_Road_Class Phân loại đường bộ Int
22 2nd_Road_Number Số đường Int Đề tài NCKH
25 Light_Conditions Điều kiện ánh sáng Int
26 Weather_Conditions Điều kiện thời tiết Int
27 Road_Surface_Conditions Điều kiện mặt đường Int
28 Special_Conditions_at_Site Điều kiện đặc biệt Int
29 Carriageway_Hazards Mối hiểm họa Int
30 Urban_or_Rural_Area Thành thị hoặc nông thông Int
31 Did_Police_Officer_Attend_Sc ene_of_Accident
Cảnh sát có tham gia vào hiện trường tai nạn hay không?
32 LSOA_of_Accident_Location Khu vực địa lý của vị trí xảy ra tai nạn String
Mô tả thuộc tính từng bảng khi tạo sơ đồ hình sao
Bảng Dim_Urban_or_Rural_Area
Urban_or_Rural_Area Mã thành thị hoặc nông thôn int
Name_Urban_or_Rural_Area Tên thành thị và nông thôn varchar
ID_Accident_Severity Mã mức độ nghiệm trọng int
Accident_Severity Mức độ nghiêm trọng varchar
Field Name Description Type Đề tài NCKH
Mã điều kiện mặt đường int
Road_Surface_Conditions Điều kiện mặt đường varchar
ID_Weather_Conditions Mã thời tiết int
Weather_Conditions Thời tiết varchar
ID_Light_Conditions Mã điều kiện ánh sáng int
Light_Conditions Điều kiện ánh sáng varchar
ID_Road_Type Mã tên đường int
Road_Type Tên đường varchar
Date_Accident Ngày xảy ra tai nạn
Time_Accident Thời gian xảy ra tai nạn
Hour_Accident Giờ int Đề tài NCKH
1 Accident_Index Mã vụ tai nạn Varchar
2 ID_Police_Force Đồn cảnh sát Int
3 ID_Accident_Severity Mức độ nghiêm trọng Int
4 Number_of_Vehicles Số phương tiện bị hư hại liên quan tai nạn Int
5 Number_of_Casualties Số thương vong Int
6 Date_Accident Ngày xảy ra tai nạn Date
7 Time_Accident Thời gian xảy ra tai nạn SmallDateTime
8 ID_Road_Type Loại đường Int
9 Speed_limit Tốc độ giới hạn Float
10 ID_Light_Conditions Điều kiện ánh sáng Int
11 ID_Weather_Conditions Điều kiện thời tiết Int
12 ID_Road_Surface_Conditions Điều kiện mặt đường Int
13 Urban_or_Rural_Area Thành thị hoặc nông thông Int Đề tài NCKH
Các câu hỏi truy vấn (15 câu)
Câu 1: Thống kê số vụ tai nạn giao thông ở nông thôn, thành thị, cả nước là bao nhiêu?
Câu 2: Số lượng xe lớn nhất thiệt hại, số xe thiệt hại nhỏ nhất do điều kiện bề mặt đường trong năm 2015?
Câu 3: Sắp xếp số người thương vong theo chiều tăng dần, theo các năm? Câu 4: Top 3 khung giờ xảy ra nhiều tai nạn nhất?
Câu 5: Top 3 khung giờ xảy ra ít tai nạn nhất?
Câu 6: Thống kê tổng số người thương vong xảy ra từ năm 2008 đến 2015 tại mỗi thành phố cùng thời tiết và điều kiện ánh sáng? Đề tài NCKH
Câu 8: Liệt kê 10 đồn cảnh sát ghi nhận tai nạn, có số xe thiệt hại nhiều nhất, nhưng số thương vong lớn hơn 10000 người.Từ năm 2012 đến năm 2015?
Câu 9: Thống kê số thương vong theo từng tháng của năm 2007?
Câu 10: Sắp xếp các đồn cảnh sát bắt đầu bằng chữ S theo chiều giảm dần số vụ tai nạn giao thông, qua các tháng trong năm?
Câu 11: Truy vấn 5 loại đường,tổng số xe tai nạn được sắp xếp giảm dần, lấy bắt đầu từ vị trí thứ 2 Thống kê theo từng năm.
Câu 12: Thống kê theo năm, vùng (nông thôn hay thành thị) 5 điều kiện thời tiết gây ra số lượng vụ tai nạn cao nhất và ngoại trừ vùng Unallocated
Thống kê tai nạn giao thông đô thị cho thấy mối liên hệ giữa số vụ tai nạn với tốc độ (trên 30km/h), loại đường, điều kiện ánh sáng và thời tiết, được sắp xếp theo thứ tự giảm dần mức độ nguy hiểm.
Bài toán yêu cầu thống kê các đồn cảnh sát có tổng số người bị thương từ 5000 trở lên, phân loại theo mức độ nghiêm trọng (Dim_Accident_Severity), và sắp xếp kết quả tăng dần theo số vụ việc.
Nghiên cứu thống kê số vụ tai nạn giao thông (≥5 vụ) gây tử vong, số người bị thương và xe hư hại theo năm, tháng Dữ liệu tập trung vào các vụ tai nạn xảy ra ở tốc độ 20-70km/h trên các loại đường khác nhau Đây là đề tài nghiên cứu khoa học.
QUÁ TRÌNH SSIS
Tạo Database trống trong SQL để đổ dữ liệu vào
Để tạo Database mới có tên là “Accidents” ta thực hiện như sau:
- Khởi động SQL Server 2014 Management.
- Viết câu lệnh CREATE DATABASE Accident_DW.
Tạo Project và thiết lập kết nối
2.2.1 Tạo mới “Integration Service Project”
- Ở Installed, chọn tab Business Intelligence -> Integration Services Project
- Đặt tên Project là “SSIS_Accidents”. Đề tài NCKH
2.2.2 Thêm và cấu hình kết nối tới Database của hệ quản trị SQL Server
2.2.2.1 Kết nối tới Database “Accident_DW”
- Tại phần Solution Explorer, click chuột phải vào folder
Connection Managers, sau đó chọn New Connection Manager để tiến hành tạo một kết nối mới. Đề tài NCKH
- Chọn New để tiếp tục.
- Điền tên Server Name, chọn database “Accident_DW” trong Select or enter a database name Sau đó nhấn ok để hoàn tất. Đề tài NCKH Đề tài NCKH
- Kết nối đã thành công.
2.3 Quá trình làm sạch dữ liệu
Thêm Data Flow Task từ SSIS Toolbox vào Control Flow và đổi tên thành "Quá trình làm sạch dữ liệu: Đề tài NCKH".
- Kéo thả Flat File Source, Conditional Split, 2 bảng OLE DB Destination, Sort
+ Đổi tên Flat File Source thành Data Gốc Accident CSV. + Đổi tên 1 bảng OLE DB Destination thành Data Sạch.
- Kích chuột vào Data Gốc Accident CSV, chọn edit.
- Tại phần Flat file connection manager, chọn New. Đề tài NCKH
- Chọn đường dẫn tới file Accidents0515 Sau đó nhấn OK. Đề tài NCKH
- Tích chọn những cột cần thiết Sau đó nhấn OK.
- Kích chuột vào Conditional Split, chọn edit.
- Nhằm thực hiện chia dữ liệu thành 2 phần là DataNull và
- Tại ô Output Name ta sửa thành “DataNull”, tại ô condition ta thêm câu lệnh sau:
ISNULL([Accident_Index])||ISNULL([Police_Force])||
ISNULL([Accident_Severity])||ISNULL([Number_of_Vehicles])|| ISNULL([Number_of_Casualties])||
ISNULL([Weather_Conditions])|| Đề tài NCKH
- Tại ô Default out name điền “DataNotNull”.
- Thực hiện phân chia dữ liệu cho DataNull và DataNotNull trên OLE DB Destination.
- Thực hiện DataNotNull. Đề tài NCKH
- Thực hiện DataNull. Đề tài NCKH
- Sau đó nhấn OK. Đề tài NCKH
- Đổi tên thành” Tạo các bảng Dim”.
2.4.1 Tạo bảng Dim_Urban_or_Rural_Area
- Kéo thả Data Flow Task vào Control Flow Sau đó đổi tên Data Flow thành Tạo Dim_Urban_or_Rural_Area.
- Chọn Flat File Source, Sort, OLE DB Destination.
- Đổi tên Flat File Source thành Data Gốc Urban_or_Rural_Area.
- Đổi tên OLE DB Destination thành Dim_Urban_or_Rural_Area. Đề tài NCKH
- Nhấn chuột vào Data Gốc Urban_or_Rural_Area chọn edit.
- Chọn đường dẫn đến file Urban_Rural.csv, sau đó nhấn OK. Đề tài NCKH
- Nhấn Sort, chọn edit Sau đó nhấn OK. Đề tài NCKH
- Tạo và cấu hình Dim_Urban_or_Rural_Area.
2.4.2 Tạo bảng Dim_Accident_Severity
- Tạo và cấu hình Flat File Source.
- Chọn công cụ “Flat File Source” tại SSIS Toolbox vào vùng làm việc Data Flow, và đổi tên thành Data Gốc Accident_Severity.
- Nhấn đúp chuột vào Data Gốc Accident_Severity và thực hiện:
- Chọn New. Đề tài NCKH
- Chọn đường dẫn tới file.
- Sau đó nhấn OK. Đề tài NCKH
- Tạo và cấu hình Sort như sau: Đề tài NCKH
- Tạo và cấu hình OLE DB Destination Đổi tên thành Dim_Accident_Severity. Đề tài NCKH
2.4.3 Tạo bảng Dim_Police_Force Đề tài NCKH
- Nhấn đúp chuột vào Data Gốc Police_Force và thực hiện:
- Chọn đường dẫn tới file.
- Sau đó nhấn OK. Đề tài NCKH Đề tài NCKH
- Tạo và cấu hình “Sort” Đề tài NCKH
- Tạo và cấu hình OLE DB Destination, đổi tên thành Dim_Police_Force.
- Sau đó nhấn OK. Đề tài NCKH
- Nhấn New Chọn đường dẫn đến file excel, sau đó OK. Đề tài NCKH
- Chọn và cấu hình Sort. Đề tài NCKH
- Chọn OLE DB Destination, đổi tên thành
Dim_Road_Surface_Conditions, cấu hình như sau:
2.4.5 Tạo bảng Dim_Weather_Conditions
- Tạo Excel Source và đổi tên thành Data Gốc Weather, cấu hình như sau: Đề tài NCKH Đề tài NCKH
- Tạo và cấu hình Sort. Đề tài NCKH
2.4.6 Tạo bản Dim_Light_Conditions
- Tạo Excel Source đổi tên thành Data Gốc Light_Conditions, cấu hình như sau: Đề tài NCKH Đề tài NCKH
- Tạo và cấu hình Sort. Đề tài NCKH
- Tạo OLE DB Destination đổi tên thành Dim_Light_Conditions, cấu hình như sau:
2.4.7 Tạo bảng Dim_Road_Type
- Tạo Flat File Source và đổi tên thành Data Gốc Road_Type, cấu hình như sau: Đề tài NCKH Đề tài NCKH Đề tài NCKH
- Tạo và cấu hình Sort Đề tài NCKH
- Tạo OLE DB Destination đổi tên thành Dim_Road_Type, cấu hình như sau:
- Kéo thả Data Flow Task Và đổi tên thành”Tạo Dim_Date”
- Sử dụng OLE DB Source , Aggregate , Sort, Script Component, OLE DB Destination. Đề tài NCKH
- Thực hiện bên trong OLE DB Source.
- Sau đó nhấn “OK”. Đề tài NCKH
- Thực hiện bên trong Aggregate
- Sau đó nhấn “OK”. Đề tài NCKH
- Thực hiện bên trong Sort
- Sau đó nhấn “OK”. Đề tài NCKH
- Thực hiện bên trong Script Component
- Vào Script để chỉnh sửa code.
- Vào Edit Script Đề tài NCKH
- Vào Input Columns. Đề tài NCKH
- Sau đó nhấn “OK”. Đề tài NCKH
- Thực hiện bên trong OLE DB Destination.
- Kéo thả Data Flow Task Và đổi tên thành”Tạo Dim_Time”
- Sử dụng OLE DB Source , Aggregate , Sort, Script Component, OLE DB Destination. Đề tài NCKH
- Thực hiện bên trong OLE DB Source.
- Sau đó nhấn “OK”. Đề tài NCKH
- Thực hiện bên trong Aggregate
- Sau đó nhấn “OK”. Đề tài NCKH
- Thực hiện bên trong Sort
- Sau đó nhấn “OK”. Đề tài NCKH
- Thực hiện bên trong Script Component
- Vào Script để chỉnh sửa code.
- Vào Edit Script Đề tài NCKH
- Vào Input Columns. Đề tài NCKH
-Sau đó nhấn “OK”. Đề tài NCKH
- Thực hiện bên trong OLE DB Destination.
Tạo bảng Fact
- Kéo thả Data Flow Task Và đổi tên thành” Create table Fact_Accidents”
- Sử dụng OLE DB Soucre, Lookup, OLE DB Destination. Đề tài NCKH
- Thực hiện OLE DB Soucre.
- Sau đó nhấp OK. Đề tài NCKH
- Thực hiện Lookup cho Dim_Accident_Severity. Đề tài NCKH Đề tài NCKH
- Sau đó nhấp OK. Đề tài NCKH
- Thực hiện Lookup Dim_Date Đề tài NCKH Đề tài NCKH
- Sau đó nhấn OK. Đề tài NCKH
- Thực hiện Lookup Dim_Light_Conditions. Đề tài NCKH Đề tài NCKH
- Sau đó nhấp OK. Đề tài NCKH
- Thực hiện Lookup Dim_Police_Force Đề tài NCKH
- Sau đó nhấp OK. Đề tài NCKH
- Thực hiện Lookup Dim_Road_Surface_Conditions. Đề tài NCKH Đề tài NCKH Đề tài NCKH
- Thưc hiện Lookup Dim_Road_Type. Đề tài NCKH
- Sau đó nhấp OK. Đề tài NCKH
-Thưc hiện Lookup Dim_Time. Đề tài NCKH
- Sau đó nhấp OK. Đề tài NCKH
-Thưc hiện Lookup Dim_Urban_or_Rural_Area. Đề tài NCKH
- Sau đó nhấn OK. Đề tài NCKH
- Thực hiện Lookup với Dim_Weather_Conditions. Đề tài NCKH Đề tài NCKH
- Tạo và cấu hình OLE DB Destination. Đề tài NCKH Đề tài NCKH
Tạo và xóa các ràng buộc SQL
- Tạo và cấu hình “Execute SQL Task” Xóa dữ liệu DataNull, DataNotNull trong Database “Data_Emptied”. Đề tài NCKH
- Tạo và cấu hình “Execute SQL Task” Xóa các ràng buộc khóa ngoại giữa Fact và các bảng Dim.
- Câu lệnh SQL xóa các khóa ngoại như sau:
ALTER TABLE FACT Đề tài NCKH
DROP CONSTRAINT fk_police; Go
DROP CONSTRAINT fk_severity; Go
DROP CONSTRAINT fk_Weather; Go
DROP CONSTRAINT fk_RoadType; Đề tài NCKH
- Tạo và cấu hình “Execute SQL Task” Xóa các bảng Dim.
This research project utilized SQL commands to delete data from several dimensional tables including Dim_Accident_Severity, Dim_Date, Dim_Light_Conditions, Dim_Police_Force, Dim_Road_Surface_Conditions, Dim_Road_Type, Dim_Time, and Dim_Urban_or_Rural_Area The `DELETE FROM` statement was employed for each table.
- Tạo và cấu hình “Execute SQL Task” Xóa bảng Fact. Đề tài NCKH
- Tạo và cấu hình “Execute SQL Task” Tạo các ràng buộc giữa Fact và các bảng Dim.
- Câu lệnh SQL tạo khóa ngoại như sau:
Alter table FACT add constraint fk_time foreign key (Time_Accident) references Dim_Time (Time_Accident); Đề tài NCKH references Dim_Date (Date_Accident);
Alter table FACT add constraint fk_police foreign key (ID_Police_Force) references Dim_Police_Force (ID_Police_Force);
Alter table FACT add constraint fk_severity foreign key (ID_Accident_Severity) references Dim_Accident_Severity(ID_Accident_Severity);
Alter table FACT add constraint fk_Area foreign key (Urban_or_Rural_Area) references Dim_Urban_or_Rural_Area (Urban_or_Rural_Area);
Alter table FACT add constraint fk_Light foreign key (ID_Light_Conditions) references Dim_Light_Conditions (ID_Light_Conditions);
Alter table FACT add constraint fk_Weather foreign key (ID_Weather_Conditions) references Dim_Weather_Conditions (ID_Weather_Conditions); Đề tài NCKH
Alter table FACT add constraint fk_Road foreign key (ID_Road_Surface_Conditions) references Dim_Road_Surface_Conditions (ID_Road_Surface_Conditions);
Alter table FACT add constraint fk_RoadType foreign key (ID_Road_Type) references Dim_Road_Type (ID_Road_Type); Đề tài NCKH
Thực thi Package
Đề tài NCKH Đề tài NCKH
QUÁ TRÌNH SSAS
Tạo ứng dụng SSAS
- Khởi động Microsoft Visual Studio.
- Tạo một Analysis Services Project mới có tên “SSAS“.
Tạo Datasource
Bước 1: Trong khung Solution Explorer, phải chuột Data Sources và chọn New Data
- Bước 2:Tại màn hình Welcome to Data Source Wizard, nhấn Next để chuyển sang cửa sổ Select how to define connection
To define a data source, select "New" in the "Select how to define connection" window to create a new connection.
- Bước 4: Trong dialog box Connection Manager, ta sẽ định nghĩa giá trị thuộc tính cho Data Source Trong danh sách Provider, chọn Native OLE DB\SQL Server Native Cilent 10.0.
- Bước 5: Trong server name gõ vào “LAPTOP-9SK5B3CV”
- Bước 6: Kiểm tra giá trị Use Windows Authentication được chọn, trong danh sách Select or enter a database name , ở đây ta chọn “Accident DW”
- Bước 7:Nhấn Test Connection để kiểm tra kết nối đến với SQL Server.
- Bước 8: Chọn OK và nhấn Next. Đề tài NCKH
- Bước 10: Tại màn hình Completing the wizard , thiết lập tên của Data Source là “Accident DW” và chọn Finish Đề tài NCKH
Tạo DataSource View
- Bước 1: Trong khung Solution Explorer , phải chuột Data Sources Views, và chọn New Data Sources Views.
- Bước 2: Welcome to Data Sources Views Wizard xuất hiện, nhấn Next. Đề tài NCKH
- Bước 3: Dialog select Data source xuất hiện, tại mục Relational Data Sources, chọn “Accident DW” mà ta đã tạo như trên rồi chọn Next.
- Bước 4: Tại Dialog Select Tables and Views, ta sẽ chọn các bảng dữ liệu và views từ danh sách đối tượng , ta sẽ chọn các đối tượng.
- Bước 5: Nhấn nút “>” để thêm các bảng vào danh sách Included Object.
- Bước 6: Nhấn Next. Đề tài NCKH
Bước 7: Tại thuộc tính Name, ta thiết lập là warehouse và nhấn finish để hoàn tất việc định nghĩa data source view Đề tài NCKH
Sau khi hoàn tất bước này, ta sẽ có khung nhìn toàn diện về các bảng dữ liệu và mối quan hệ của chúng Đề tài NCKH
Tạo cube
- Bước 1: Trong pane Solutin Explorer, phải chuột vào Cubes, chọn New Cubes.
- Bước 2: Tại cửa sổ Welcome to Cubes Wizard, chọn Next.
- Bước 3: Tại cửa sổ Select Creation Method, đảm bảo tùy chọn Use an Existing
Table được chọn và nhấn Next. Đề tài NCKH
- Bước 5: Nhấn Suggest để cửa sổ Suggest Table hiển thị và đề xuất các table cần thiết để xây dựng các measure group.
- Bước 7: Tại cửa sổ Select Measure, xem lại các measures Nhấn next Đề tài NCKH
- Bước 8: Tại cửa sổ Selecting Existing Dimensions, chọn Data Dimension đã được định nghĩa Đề tài NCKH
- Bước 9: Tại cửa sổ Completing the Wizard, thiết lập name của Cube là
“Accident DW” Đề tài NCKH
Sửa bảng chiều
- Trong Folder Dimensions Nhấp đúp chuột vào Dim date
- Trong Data Source View, di chuyển các trường trong Dim_date vào Dim date trong Attributes. Đề tài NCKH
Với bảng Dim_Road_Type
- Trong Folder Dimensions Nhấp đúp chuột vào Dim Road Type.
- Trong Data Source View, di chuyển các trường trong Dim_Road_Type vào Dim Road Type trong Attributes.
- Trong Folder Dimensions Nhấp đúp chuột vào Dim Time
- Trong Data Source View, di chuyển các trường trong Dim_time vào Dim Time trong Attributes. Đề tài NCKH
Với bảng Dim_Urban_Or_Rural_Area
- Trong Folder Dimensions Nhấp đúp chuột vào Dim Time.
- Trong Data Source View, di chuyển các trường trong
Dim_Urban_Or_Rural_Area vào Dim Urban Or Rural trong Attributes.
Với bảng Dim_Road_Surface_Conditions
- Trong Folder Dimensions Nhấp đúp chuột vào Dim Road Surface Conditions.
- Trong Data Source View, di chuyển các trường trong
Dim_Road_Surface_Conditions vào Dim Road Surface Conditions trong Attributes. Đề tài NCKH
Với bảng Dim_Weather_Conditions
- Trong Folder Dimensions Nhấp đúp chuột vào Dim Weather
- Trong Data Source View, di chuyển các trường trong
Dim_Weather_Conditions vào Dim Weather Conditions trong
Với bảng Dim_Accident_Severity
- Trong Folder Dimensions Nhấp đúp chuột vào Dim Accident Severity.
- Trong Data Source View, di chuyển các trường trong
Dim_Accident_Severity vào Dim Accident Severity trong Attributes. Đề tài NCKH
Với bảng Dim_Light_Conditions
- Trong Folder Dimensions Nhấp đúp chuột vào Dim Light Conditions.
- Trong Data Source View, di chuyển các trường trong
Dim_Light_Conditions vào Dim Light Conditions trong Attributes.
Với bảng Dim_Police_Force
- Trong Folder Dimensions Nhấp đúp chuột vào Dim Police Force. Đề tài NCKH
Deploy cube lên server
- Bước 1: Trong pane Solutin Explorer, phải chuột vào Analysic Services
- Bước 2: Tại Configuration Properties tại panel bên trái, chọn Deployment
Sửa lại Server và Database để deploy.
- Bước 3: Phải chuột Analysic Services Tutorial project và chọn Deploy Đề tài NCKH
Như vậy project SSAS đã được deploy lên server.
Tạo mới các Measures, Hierarchies và xóa dữ liệu Unknow
- Bước 1: Chuyển sang Cube Designer bằng cách nhấn đúp chuột
- Bước 2: Trong tab Cube Structure Ở ô Measures, nhấp phải chuột vào Fact, chọn New Measure. Đề tài NCKH
Usage : là các hàm tính toán thống kê.
- Ta có các measure sau:
- Bước 4:Nhấp phải chuột vào Accident DW.cube Chọn Process
3.7.2 Tạo mới Hierarchies và định nghĩa Attribute Relationship Ở phần này sẽ tiến hành tạo thuộc tính Hierarchies và định nghĩa Attribute Relationships cho bảng Dim_Date
Attribute Relationships có tác dụng:
- Tăng thời gian xử lý cube và các bảng Dimension
- Tăng dung lượng dữ liệu trên đĩa
- Tăng hiệu suất câu truy vấn.
Tạo Hierarchy phân cấp theo Year-Month-Day, Year_Month
Kéo thả các thuộc tính Year Accident, Month Accident, Day Đề tài NCKH
+ Ta tạo mới 2 Hierachies là: Y_M_D và Y_M.
Chuyển sang tab Attribute Relationships để tiến hành định nghĩa Attribute Relationships:
Tiến hành kéo thả phân cấp từ nhỏ đến lớn theo thứ tự từ phải sang trái.
Chỉnh sửa Relationship Type thành Regid: Đề tài NCKH
3.7.3 Xóa dòng dữ liệu Unknow
Chọn bảng Dim Police_Force, Right-Click vào tên bảng Dim ở cột Attributes
Chỉnh sửa ở dòng UnknowMemberName, mặc định là Visible thành Hidden: Đề tài NCKH
Ta thực hiện tương tự như trên với các bảng Dim khác.
Định nghĩa Named set
Double-click vào Cube ở màn hình Solution Explorer: Đề tài NCKH
Chọn tab Calculations: Đề tài NCKH
Right-click vùng trống ở mục Script Organizer và chọn New Named set để tiến hành tạo 1 Named Set mới. Đặt tên Name set tại ô Name
Kéo thả hàm cần chọn từ Funtions vào ô Expression Đề tài NCKH
Thực hiện các câu truy vấn trên MDX, BI và Pivot Excel
Câu 1: Thống kê số vụ tai nạn giao thông ở nông thôn, thành thị, cả nước là bao nhiêu? (Fact Count ->Dùng hàm Count để đếm các dòng dữ liệu).
Chạy câu truy vấn thực hiện bằng ngôn ngữ MDX.
Select {[Measures].[Fact Count]} on columns, non empty {[Dim Urban Or Rural Area].[Name Urban Or Rural
Chạy câu truy vấn bằng công cụ BI. Đề tài NCKH
Chạy câu truy vấn trên Pivot Excel.
Câu 2: Số lượng xe lớn nhất thiệt hại, số xe thiệt hại nhỏ nhất do điều kiện bề mặt đường trong năm 2015? (Roll Up)
( Dùng hàm [SoXeLonNhat] dùng hàm max tìm ra số lượng xe lớn nhất,
[SoXeNhoNhat] dùng hàm min tìm ra số lượng xe nhỏ nhất ).
Chạy câu truy vấn bằng ngôn ngữ MDX. select ({[Measures].[SoXeLonNhat],[Measures].[SoXeNhoNhat]}) on columns,
Non empty {[Dim Road Surface Conditions].[Road Surface
From [Accident DW] where [Dim Date].[Year Accident].&[2015] Đề tài NCKH
Chạy câu truy vấn trên Pivot Excel.
Câu 3: Sắp xếp số người thương vong theo chiều tăng dần, theo các năm?
(Dùng hàm Order để sắp xếp theo chiều tăng dần, [TongSoThuongVong] dùng hàm Sum)
Thực hiện câu truy vấn bằng ngôn ngữ MDX. select
{[Measures].[TongSoThuongVong]} on columns, non empty Order (
{[Dim Date].[Year Accident].children} Đề tài NCKH
Thực hiện câu truy vấn bằng BI. Đề tài NCKH
Câu 4: Top 3 khung giờ xảy ra nhiều tai nạn nhất? (Dùng hàm Head kết hợp Order)
Thực hiện câu truy vấn bằng ngôn ngữ MDX. select {[Measures].[Fact Count]} on columns,
[Dim Time].[Hour Accident].children ,[Measures].[Fact Count]
, Desc) ,3) on rows from [Accident DW] Đề tài NCKH
Thực hiện câu truy vấn bằng BI.
Thực hiện câu truy vấn bằng Pivot Excel. Đề tài NCKH
Câu 5: Top 3 khung giờ xảy ra ít tai nạn nhất? (Dùng hàm Tail kết hợp Order)
Thực hiện câu truy vấn bằng ngôn ngữ MDX. select {[Measures].[Fact Count]} on columns, non empty Tail(
Order([Dim Time].[Hour Accident].children,[Measures].[Fact
Count],DESC) ,3) on rows from [Accident DW]
Thực hiện câu truy vấn bằng BI. Đề tài NCKH
Thực hiện câu truy vấn bằng Pivot Excel.
Câu 6: Thống kê tổng số người thương vong xảy ra từ năm 2008 đến 2015 tại mỗi thành phố cùng thời tiết và điều kiện ánh sáng? (Dùng CrossJoin)
Thực hiện câu truy vấn bằng ngôn ngữ MDX. select {[Measures].[TongSoThuongVong]} on 0, Đề tài NCKH
Where ([Dim Date].[Year Accident].&[2008]
Thực hiện câu truy vấn bằng BI.
Thực hiện câu truy vấn bằng Pivot Excel. Đề tài NCKH
Năm 2013, số lượng xe bị hư hại do điều kiện mặt đường (không tính đường khô) được sắp xếp giảm dần theo số lượng xe lớn nhất, sử dụng toán tử "-".
Thực hiện câu truy vấn bằng ngôn ngữ MDX.
Select {[Measures].[SoXeLonNhat],[Measures].[SoXeNhoNhat]} on 0, non empty Order (
{[Dim Road Surface Conditions].[Road Surface Conditions].members}
- {[Dim Road Surface Conditions].[Road Surface Conditions].&[Dry]}
Where ([Dim Date].[Year Accident].&[2013]); Đề tài NCKH
Thực hiện câu truy vấn bằng BI.
Thực hiện câu truy vấn bằng Pivot Excel. Đề tài NCKH
Câu 8: Liệt kê 10 đồn cảnh sát ghi nhận tai nạn, có số xe thiệt hại nhiều nhất, nhưng số thương vong lớn hơn 10000 người.Từ năm 2012 đến năm 2015?
(Dùng TopCount kết hợp Filter)
Thực hiện câu truy vấn bằng ngôn ngữ MDX. select {[Measures].[TongSoThuongVong], [Measures].[TongXeThietHai]}on 0,
Filter([Dim Police Force].[Police Force].children, [Measures].[TongSoThuongVong]>10000)
Where ([Dim Date].[Year Accident].&[2012]:[Dim Date].[Year
Thực hiện câu truy vấn bằng BI.
Thực hiện câu truy vấn bằng Pivot Excel. Đề tài NCKH
Câu 9: Thống kê số thương vong theo từng tháng của năm 2007?(Drill Down)
Thực hiện câu truy vấn bằng MDX.
[Dim Date].[Y_M].[Year Accident].&[2007].children on 1
From [Accident DW] Đề tài NCKH
Thực hiện câu truy vấn bằng Pivot Excel.
Bài viết này trình bày cách sắp xếp các đồn cảnh sát bắt đầu bằng chữ S theo số vụ tai nạn giao thông giảm dần qua các tháng, sử dụng công thức `select [Measures].[Fact Count] on 0` Dữ liệu được phân tích phục vụ đề tài nghiên cứu khoa học.
Filter([Dim Police Force].[Police Force].children
,Left([Dim Police Force].[Police Force].CurrentMember.Name,1)="S")*[Dim Date].[Year Accident].CurrentMember*[Dim Date].[Month Accident].children )
,[Measures].[Fact Count],DESC)on 1
Thực hiện bằng BI. Đề tài NCKH
Câu 11: Truy vấn 5 loại đường,tổng số xe tai nạn được sắp xếp giảm dần, lấy bắt đầu từ vị trí thứ 2 Thống kê theo từng năm.
Thực hiện câu truy vấn bằng ngôn ngữ MDX. select {[Measures].[Fact Count],[Measures].[TongXeThietHai]} on 0,
Generate([Dim Date].[Year Accident].children,
Subset([Dim Date].[Year Accident].CurrentMember*Order([Dim Road Type].[Road Type].children,[Measures].[TongXeThietHai],DESC),2,5)) on 1 From [Accident DW] Đề tài NCKH
Thực hiện câu truy vấn bằng BI.
Thực hiện câu truy vấn bằng Pivot Excel. Đề tài NCKH
Câu 12: Thống kê theo năm, vùng (nông thôn hay thành thị) 5 điều kiện thời tiết gây ra số lượng vụ tai nạn cao nhất và ngoại trừ vùng Unallocated
Thực hiện câu truy vấn bằng ngôn ngữ MDX.
Select {[Measures].[Fact Count]} on 0,
CrossJoin([Dim Date].[Year Accident].children
,EXCEPT([Dim Urban Or Rural Area].[Name Urban Or Rural Area].children,[Dim Urban Or Rural Area].[Name Urban Or Rural
,TopCount([Dim Weather Conditions].[Weather
Conditions].children,5,[Measures].[Fact Count])
From [Accident DW] Đề tài NCKH
Thực hiện câu truy vấn bằng BI.
Thực hiện câu truy vấn bằng Pivot Excel. Đề tài NCKH
Thống kê tai nạn giao thông đô thị cho thấy mối liên hệ giữa số vụ tai nạn với loại đường, ánh sáng, thời tiết và tốc độ phương tiện, được sắp xếp theo thứ tự giảm dần.
Thực hiện câu truy vấn bằng ngôn ngữ MDX.
Select {[Measures].[TocDoLonNhat],[Measures].[Fact Count]} on 0,
Non Empty(CrossJoin({[Dim Road Type].[Road Type].children*
[Dim Light Conditions].[Light Conditions].children},
(Filter([Dim Weather Conditions].[Weather Conditions].children, [Measures].[TocDoLonNhat]>30))
,[Measures].[Fact Count],DESC)))on 1
From [Accident DW] where [Dim Urban Or Rural Area].[Name Urban Or Rural Area].&[Urban] Đề tài NCKH
Thực hiện câu truy vấn bằng BI.
Thực hiện câu truy vấn bằng Pivot Excel. Đề tài NCKH
Bài viết này thống kê các đồn cảnh sát có tổng số người bị thương từ 5000 trở lên, phân loại theo mức độ nghiêm trọng (Dim_Accident_Severity), và sắp xếp tăng dần theo số vụ việc.
Thực hiện câu truy vấn bằng ngôn ngữ MDX. select [Measures].[TongSoThuongVong] on 0, generate(
[Dim Accident Severity].[Accident Severity].children,
Filter([Dim Accident Severity].[Accident Severity].CurrentMember*
Order([Dim Police Force].[Police Force].children, [Measures].[TongSoThuongVong],ASC),[Measures].
From [Accident DW] Đề tài NCKH
Thực hiện câu truy vấn bằng BI.
Thực hiện câu truy vấn bằng Pivot Excel. Đề tài NCKH
Thống kê cho thấy trên các loại đường, đã xảy ra từ 5 vụ tai nạn trở lên với tốc độ từ 20-70km/h, gây ra thương vong (tử vong) và thiệt hại về xe cộ.
Thực hiện câu truy vấn bằng ngôn ngữ MDX.
Select {[Measures].[TongSoThuongVong],[Measures].[TongXeThietHai], [Measures].[Fact Count],[Measures].[TocDoLonNhat]} on 0,
{Generate([Dim Date].[Year Accident].Children,
Filter([Dim Date].[Year Accident].CurrentMember*[Dim Date]. [Month Accident].children*[Dim Road Type].[Road Type].children
{Generate([Dim Date].[Year Accident].Children, Đề tài NCKH
Where [Dim Accident Severity].[Accident Severity].&[Fatal]
Thực hiện câu truy vấn bằng BI Đề tài NCKH
Câu 16: Roll Up, Tổng số vụ tai nạn giao thông xảy ra trong năm 2009
Thực hiện câu truy vấn bằng ngôn ngữ MDX.
Select [Measures].[Fact Count] on 0,
[Dim Date].[Year Accident].&[2009] on 1
From [Accident DW] Đề tài NCKH
Thực hiện câu truy vấn bằng Pivot Excel.
Câu 17: Drill Down, Thống kê số thương vong theo từng ngày, tháng, năm trong năm 2012 Đề tài NCKH
[Dim Date].[Year Accident].&[2012]*[Dim Date].[Month Accident].children*[Dim Date].[Day Accident].children on 1 From [Accident DW]
Thực hiện câu truy vấn bằng BI.
Thực hiện câu truy vấn bằng Pivot Excel. Đề tài NCKH
Câu 18: Slice & dice Thống kê tổng xe thiệt hại, trong năm 2005, năm 2015
Thực hiện câu truy vấn bằng MDX.
{[Dim Date].[Year Accident].&[2005],[Dim Date].[Year Accident].&[2015]} on 0
From [Accident DW] Đề tài NCKH
Thực hiện truy vấn bằng Pivot Excel. Đề tài NCKH
QUÁ TRÌNH SSRS
Tạo report bằng công cụ SSRS
Tạo mới Report Services project Chọn dòng Report Services Project. Đặt tên Project và chọn chỗ lưu
4.1.2 Tạo và cấu hình Share Data Sources
Click chuột phải vào Share Data Sources chọn Add New Data Source Type chọn Microsoft SQL Analysis Service Đề tài NCKH
Chọn Build => Nhập server name và chọn database cần thực hiện sau đó nhấn OK Đề tài NCKH
Credentials chọn Use windows Authentication (Integrated security)
Thống kê số vụ tai nạn giao thông ở nông thôn, thành thị, cả nước là bao nhiêu?
Click chuột phải vào Reports chọn Add => New Item chọn Report. Đặt tên cho Report và nhấn Add Đề tài NCKH
Click chuột phải vào Datasets chọn Add dataset… Đặt tên Dataset
Chọn Use a dataset embedded inmy report
Chọn Data Source được tạo trước đó Đề tài NCKH
Chọn Query Designer Đề tài NCKH
Chọn thuộc tính cần tạo report và chọn Ok Đề tài NCKH
4.2.3 Tạo table và định dạng report
Click chuột phải chọn Insert => Table, chọn các thuộc tính cần thiết như:
Name_Urban_Or_Rural_Area, Fact_Count.
- Đổi màu tô vàng ô chữ: click vào ô cần chỉnh sửa, sau đó chỉnh sửa trong bảng properties, thay đổi thuộc tính BackgroundColor thành “Gold: như sau: Đề tài NCKH
- Thêm biểu đồ tròn vào báo cáo ta làm như sau:
Click phải chuột trong phần report chọn insert -> chart Đề tài NCKH
Sau đó chọn biểu đồ tròn, nhấn OK. Đề tài NCKH
Thêm các thuộc tính khác của biểu đồ tròn.
- Cách chèn hình ảnh vào report.
Cick chuột phải chọn insert -> ImageĐề tài NCKH
Trong hộp thoại Image Properties, nhấn Import chọn đường dẫn tới hình ảnh, sau đó nhấn OK.
- Thêm Text Box ta làm như sau: Cick phải chọn Insert -> Text Box. Đề tài NCKH
4.2.4 Báo cáo hoàn chỉnh Đề tài NCKH
Thống kê số xe thiệt hại, số người bị thương, số vụ tai nạn giao thông theo từng điều kiện thời tiết từ năm 2005 - 2015
Click chuột phải vào Reports chọn Add => New Item chọn Report Đặt tên cho Report và nhấn Add
Click chuột phải vào Datasets chọn Add dataset… Đặt tên Dataset
Chọn Use a dataset embedded inmy report
Chọn Data Source được tạo trước đó. Đề tài NCKH
Chọn Query Designer.Đề tài NCKH
Chọn thuộc tính cần tạo report và chọn Ok Đề tài NCKH Đề tài NCKH
Click chuột phải chọn Insert => Table
Kéo thả thuộc tính Year_Accident vào bảng
Click chuột phải chọn Add Group => Row Group chọn Parent Group… Đề tài NCKH
Cick chuột phải Year_Accident chọn Add Group -> Child Group
Chọn Month_Accident, tick vào Add Group Footer, sau đó nhấn OK. Đề tài NCKH
Cick phải Month_Accident chọn Add Group -> Child Group Đề tài NCKH
Cick phải Weather_Conditions, chọn Add Group -> Child Group…
Chọn [TongXeThietHai], tick Add Group Footer, sau đó nhấn OK. Đề tài NCKH
Cick phải chuột TongXeThietHai, chọn Add Group -> Child Group
Chọn TongSoThuongVong, chọn OK. Đề tài NCKH
Cick phải TongSoThuongVong, chọn Add Group -> Child Group …
Chọn Fact_Count, nhấn OK. Đề tài NCKH
4.3.4 Tạo Total và định dạng Report Đề tài NCKH
Tương tự với TongSoThuongVong, Fact Count, Month Accident, Year Accident.
Hoặc ta có thể làm theo cách sau đây:
Chọn TongXeThietHai, click chuột phải chọn Expression. Đề tài NCKH
Ta thêm “= sum(Fields!TongXeThietHai.Value)” vào khung nhập Sau đó nhấn OK. Đề tài NCKH
Làm tương tự với TongSoThuongVong, Fact Count ứng với giá trị tương ứng. Đề tài NCKH
Click chuột phải chọn Insert -> Chart.
Chọn biểu đồ đường, nhấn OK.Đề tài NCKH
Tại ô Values thêm [Sum(TongXeThietHai)], [Sum(TongSoThuongVong)], [Sum(Fact_Count)].
Tại Category Groups, chọn Year_Accident. Đề tài NCKH
Ta có được biểu đồ như sau Định dạng Report Đề tài NCKH
Chỉnh sửa Font: chọn Font, và tùy chỉnh theo ý Nhấn OK Đề tài NCKH
Sau khi định dạng xong ta có như sau:
Tạo Page header và Page Footer Đề tài NCKH
Thống kê theo tháng, năm tổng số xe bị hư hại, số người bị thương, tổng số vụ tai nạn, tốc độ lớn nhất xảy ra tại các loại đường với tốc độ lớn nhất là 20-70km/h ,với tổng số lượng vụ tai nạn là lớn hơn hoặc bằng 5 vụ, mức độ nguy hiểm là tử vong (Fatal)
Tai nạn giao thông nghiêm trọng (tử vong) chủ yếu xảy ra trên các loại đường với tốc độ từ 20-70km/h, với số vụ tai nạn lớn hơn hoặc bằng 5 vụ.
Click chuột phải vào Reports chọn Add => New Item chọn Report Đặt tên cho Report và nhấn Add Đề tài NCKH
Click chuột phải vào Datasets chọn Add dataset… Đặt tên Dataset
Chọn Use a dataset embedded inmy report
Chọn Data Source được tạo trước đó.
Chọn Query Designer. Đề tài NCKH
Chọn thuộc tính cần tạo report và chọn Ok Đề tài NCKH
Click chuột phải chọn Insert => Table
Kéo thả Year_Accident vào bảng
Click chuột phải chọn Add Group => Row Group chọn Parent Group… Đề tài NCKH
Chọn Year_Accident và tick vào Add Group Footer, sau đó nhấn OK.
Cick chuột phải Year_Accident chọn Add Group -> Child Group Đề tài NCKH
Chọn Month_Accident, tick vào Add Group Footer, sau đó nhấn OK.
Cick phải Month_Accident chọn Add Group -> Child Group Đề tài NCKH
Chọn Road_Type, tick Add Group Footer, sau đó nhấn OK.
Click chuột phải Road_Type, chọn Add Group -> Child Group… Đề tài NCKH
Chọn TongSoThuongVong, tick Add Group Footer Sau đó nhấn OK.
Ta kéo thả thêm các TongXeThietHai, Fact Count, TocDoLonNhat vao bảng. Đề tài NCKH
4.4.4 Tạo Total và định dạng Report
Chọn TongSoThuongVong click chuột phải chọn Expression. Đề tài NCKH
Nhập câu lệnh “=Sum(Field!TongSoThuongVong.Value)”. Đề tài NCKH Định dạng Report Đề tài NCKH
Thay đổi màu ô chữ, chọn Fill, thay đổi màu sắc trong Fill Color. Đề tài NCKH
Sau khi chỉnh sửaĐề tài NCKH
4.4.5 Báo cáo hoàn chỉnh Đề tài NCKH
Đăng kí dịch vụ Power BI
-Truy cập link sau: https://powerbi.microsoft.com/en-us/
Chọn Start free -> Try free Đề tài NCKH
Nhập email đăng kí và mật khẩu
Giao diện Mời thêm người hiện ra , bạn có thể nhập email của bạn bè để giới thiệu hoặc chọn bỏ qua
Giao diện Power BI hiện ra Đề tài NCKH
Chọn Cách tạo báo cáo -> Tải xuống Desktop
Tạo Report bằng Power BI
- Chọn Get Data -> Chọn nguồn dữ liệu để import, ở đây mình chọn là Analysis Services. Đề tài NCKH
- Nhập Server: LAPTOP-9SK5B3CV, nhập Dattabase là “SSAS”, chọn Import
- Sau đó chọn Cube mà muốn nhập vào report. Đề tài NCKH
- Nếu kết nối thành thì các trường dữ liệu sẽ hiển thị phía bên phải Đề tài NCKH
- Tiếp đến kéo thả các Dimenstion và Mesure tương ứng để có thể tạo nên report mong muốn.
4.6.1 Roport 1: Thống kê số vụ tai nạn giao thông qua các khu vực
Xây dựng report bằng biểu đồ hình cột :
Mình sẽ chọn Visualization mà mình muốn trong Visualizations Panel, ở đây mình chọn là Column Chart. Đề tài NCKH
Xây dựng report bằng biểu đồ hình tròn :
Mình sẽ chọn Visualization mà mình muốn trong Visualizations Panel, ở đây mình chọn là Pie Chart. Đề tài NCKH
Tạo report qua biểu đồ đường:
Mình sẽ chọn Visualization mà mình muốn trong Visualizations Panel, ở đây mình chọn là Line Chart. Đề tài NCKH
Tạo report bằng nhóm cột: Clustered Column Chart. Đề tài NCKH
4.6.2 Report 2: Thống kê tổng số thương vong theo từng điều kiện thời tiết qua các năm từ 2005 - 2015. Đề tài NCKH Đề tài NCKH
4.6.3 Report 3: Thống kê tổng xe thiệt hại, tổng số thương vong, tổng số vụ tai nạn xảy ra tai mỗi đồn cảnh sát qua các năm từ 2005 - 2015. Đề tài NCKH Đề tài NCKH
DATA MINING
Thực hiện quá trình Data Mining
Bước 1: Phải chuột vào project và chọn Deploy.
Bước 2 : Trong Solution Explorer, phải chuột vào Mining Structures
Bước 3: Welcome to Data Mining Wizard xuất hiện, nhấn Next. Đề tài NCKH
Bước 4: Chọn From Existing relation database or data warhouse Chọn
Bước 5: Tại hộp thoại Creat the Data Mining Structure Chọn Creat mining structure with a mining model Chọn Microsoft Decision Trees Nhấn next.
Bước 6: Tại hộp thoại Select Data Source View chọn Accident DW Nhấn Next. Đề tài NCKH
Bước 7: Tại hộp thoại Specify Table Types Tại mục case, chọn Fact Đề tài NCKH
Bước 8: Tại hộp thoại Specify the Training Data, chọn
5 Input: ID_Weather_Conditions, ID_Road_Type, ID_Road_Surface, Speech_limit, ID_Light_Conditions.
1 Prediction: Urban_Or_Rural_Area Đề tài NCKH
Bước 9: Tại màn hình Specify Columns’ Content and Data Type chọn kiểu
Content Type và Data type như hình Nhấn Next
Tạo và xử lý Models
Tại màn hình Create Testing Set:
Chọn phần tram dữ liệu cho testing là 30%
Số trường hợp lớn nhất cho mẫu testing: 100 000 trường hợp Đề tài NCKH
Cây quyết định
Tỷ lệ tai nạn giao thông thành thị đạt 91,01% (35.661 trường hợp) khi tốc độ 21-35km/h, trời tối có đèn (ID=4), đường đơn (ID=6), mặt đường ẩm ướt (ID=2), mưa không gió lớn (ID=2) Ngược lại, tại nông thôn, tỷ lệ này lên tới 96,02% (130.304 trường hợp) với điều kiện thời tiết tốt, không gió lớn (ID=1) và mặt đường không có sương mù (ID=4).
Dependency Network của thuật toán Microsoft Decision Tree cho thấy những thuộc tính có ảnh hưởng tới việc xảy ra tai nạn giao thông
Những thuộc tính có ảnh hưởng giảm dần là: Speed Limit ->
ID Road Type -> ID Light Conditions -> ID Road Surface Conditions -> ID Weather Conditions Đề tài NCKH Đề tài NCKH
Thuật toán Microsoft Clustering
Cluster Diagram của thuật toán với Shading Variable Urban Or Rural Area, value = 1 (Urban - thành thị) Đề tài NCKH
Tập lục cho ta thấy khả năng xảy ra tai nạn giao thông ở thành thị cao nhất là 90,5%.
Nghiên cứu này tập trung vào điều kiện giao thông với tốc độ giới hạn từ 19,29 km/h đến dưới 20,69 km/h trên đường một chiều, đường đơn, hoặc đường không xác định (ID = 2, 6, 9) Các điều kiện khác bao gồm thời tiết có gió lớn, không xác định và ánh sáng ban ngày/ban đêm (có hoặc không có đèn, ID = 1, 4, 5).
Tập màu đỏ cho ta thấy tỷ lệ xảy ra tai nạn giao thông ở nông thôn là 95%.
Driving conditions included a 60% speed limit, darkness with no headlights, a single carriageway road, wet/damp road surface, and the presence of fog and ice.
(ID Road Surface Conditions=4 Frost/Ice), điều kiện thời tiết có sương mù (ID Weather Conditions=7 Fog or mist), thời tiết mưa mà không có gió lớn
Road conditions included snow (ID Road Surface Conditions=3) and flooding exceeding 3cm (ID Road Surface Conditions=5) Weather conditions ranged from rain without high winds (ID Weather Conditions=2) to rain with high winds (ID Weather Conditions=5).
Weather conditions include fine weather with high winds (ID Weather Conditions=4), snowy conditions with high winds (ID Weather Conditions=3), and snowy conditions with light winds.
(ID Weather Conditions=6 Snowing without high winds).
Thuật toán Microsoft Naive Bayes
Mạng lưới phụ thuộc của thuật toán Naive Bayes của Microsoft cho thấy mức độ ảnh hưởng của các yếu tố đến tai nạn giao thông Nghiên cứu (ID = 6) chỉ ra rằng điều kiện thiếu sáng, đặc biệt ở nông thôn, làm tăng nguy cơ tai nạn so với khu vực thành thị.
Trong điều kiện trời tối và có ánh sáng (ID = 4), thì khả năng cao sẽ xảy ra tai nạn giao thông ở thành thị hơn nông thôn. Đề tài NCKH
Đánh giá các thuật toán bằng Mining Accuracy Chart
Thiết lập thông số Input Selection với khu vực là thành thị (ID 1).
Line chart cho ta thấy tỷ lệ chính xác của 3 thuật toán khi Đề tài NCKH
Thiết lập thông số Input Selection với khu vực là nông thôn (ID
Line chart cho ta thấy tỷ lệ chính xác của 3 thuật toán khi mining trường hợp là khu vực thành thị.
Microsoft Naive Bayes: 0.76 Score Đề tài NCKH