Chương 3: Xây dựng kho dữ liệu quản lý thông tin giao thông đô thị Nội dung chính của chương này bao gồm: Tìm hiểu về dữ liệu giao thông; xác định yêu cầu phân tích; thiết kế mô hình dữ
Trang 1ĐẠI HỌC QUỐC GIA TP HỒ CHÍ MINH
TRƯỜNG ĐẠI HỌC BÁCH KHOA
-HOÀNG VĂN CÔNG
QUẢN LÝ THÔNG TIN GIAO THÔNG ĐÔ THỊ DỰA VÀO DỮ LIỆU TỪ CỘNG ĐỒNG VÀ PHÂN TÍCH DỮ LIỆU LỚN
CHUYÊN NGÀNH: KHOA HỌC MÁY TÍNH
MÃ NGÀNH: 60.48.01.01
LUẬN VĂN THẠC SĨ
TP HỒ CHÍ MINH, tháng 8 năm 2020
Trang 2ĐẠI HỌC QUỐC GIA TP HỒ CHÍ MINH
TRƯỜNG ĐẠI HỌC BÁCH KHOA
-HOÀNG VĂN CÔNG
QUẢN LÝ THÔNG TIN GIAO THÔNG ĐÔ THỊ DỰA VÀO DỮ LIỆU TỪ CỘNG ĐỒNG VÀ PHÂN TÍCH DỮ LIỆU LỚN
CHUYÊN NGÀNH: KHOA HỌC MÁY TÍNH
MÃ NGÀNH: 60.48.01.01
LUẬN VĂN THẠC SĨ
TP HỒ CHÍ MINH, tháng 8 năm 2020
Trang 3CÔNG TRÌNH ĐƯỢC HOÀN THÀNH TẠI TRƯỜNG ĐẠI HỌC BÁCH KHOA –ĐHQG -HCM
Cán bộ hướng dẫn khoa học: PGS.TS Trần Minh Quang
2 Thư ký: TS Lê Hồng Trang
3 Phản biện 1: TS Phan Trọng Nhân
4 Phản biện 2: TS Đặng Trần Trí
5 Ủy viên: PGS.TS Vũ Thanh Nguyên
Xác nhận của Chủ tịch Hội đồng đánh giá LV và Trưởng Khoa quản lý chuyên ngành sau khi luận văn đã được sửa chữa (nếu có)
CHỦ TỊCH HỘI ĐỒNG TRƯỞNG KHOA KH&KTMT
Trang 4ĐẠI HỌC QUỐC GIA TP.HCM
TRƯỜNG ĐẠI HỌC BÁCH KHOA CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM Độc lập - Tự do - Hạnh phúc
NHIỆM VỤ LUẬN VĂN THẠC SĨ
Họ tên học viên: HOÀNG VĂN CÔNG MSHV: 1670213
Ngày, tháng, năm sinh: 10/10/1988 Nơi sinh: Hà Tĩnh
Chuyên ngành: Khoa học máy tính Mã số :
I TÊN ĐỀ TÀI: QUẢN LÝ THÔNG TIN GIAO THÔNG ĐÔ THỊ DỰA VÀO
DỮ LIỆU TỪ CỘNG ĐỒNG VÀ PHÂN TÍCH DỮ LIỆU LỚN
( URBAN TRAFFIC INFORMATION MANAGEMENT BASED ON
CROWD-SENSING AND BIG DATA ANALYTICS)
II NHIỆM VỤ VÀ NỘI DUNG:
- Quản lý thông tin dữ liệu giao thông từ cộng đồng, phân tích dữ liệu lớn
- Tìm hiểu về kho dữ liệu, phân tích thiết kế kho dữ liệu quản lý thông tin giao thông đô thị (TPHCM)
III NGÀY GIAO NHIỆM VỤ : (Ghi theo trong QĐ giao đề tài) 24/02/2020
IV NGÀY HOÀN THÀNH NHIỆM VỤ: (Ghi theo trong QĐ giao đề tài) 21/6/2020
V CÁN BỘ HƯỚNG DẪN: PGS.TS Trần Minh Quang
Tp HCM, ngày tháng năm 2020
TRƯỞNG KHOA KHOA HỌC VÀ KỸ THUẬT MÁY TÍNH
Trang 5LỜI CẢM ƠN
Trước tiên, em xin bày tỏ lời cảm ơn sâu sắc nhất tới thầy giáo hướng dẫn PGS.TS Trần Minh Quang là người đã tận tình hướng dẫn, chỉ bảo, giúp đỡ em rất nhiều trong quá trình tìm hiểu nghiên cứu để hoàn thành luận văn tốt nghiệp này
Em xin chân thành cảm ơn các thầy cô trong khoa Khoa học và Kỹ thuật máy tính, trường Đại học Bách khoa – DHQG TP.HCM đã dạy bảo, trang bị cho
em những kiến thức cơ bản trong suốt thời gian nghiên cứu và học tập tại trường của em
Cuối cùng, em xin gửi lời cảm ơn đến gia đình và bạn bè, đồng nghiệp vì
đã luôn hỗ trợ em và khuyến khích liên tục trong suốt những năm học tập và qua quá trình nghiên cứu và viết luận văn này
Xin chân thành cảm ơn!
Trang 6TÓM TẮT LUẬN VĂN
Ngoài phần mở đầu và kết luận, cấu trúc nội dung của luận văn bao gồm
có 4 chương được tóm tắt như sau:
Chương 1: Tổng quan
Nội dung chính của chương này là trình bày tổng quan về thực trạng giao thông, công tác quản lý giao thông thành phố Hồ Chí Minh hiện nay; mục tiêu, phạm vi và đối tượng nghiên cứu của luận văn
Chương 2: Tổng quan về Data Warehouse
Nội dung chính của chương này là trình bày tổng quan kho dữ liệu gồm định nghĩa, đặc tính, lợi ích, xu hướng tương lai, kiến trúc, tổ chức lô gíc, tổ chức vật lý của kho dữ liệu
Chương 3: Xây dựng kho dữ liệu quản lý thông tin giao thông đô thị
Nội dung chính của chương này bao gồm: Tìm hiểu về dữ liệu giao thông; xác định yêu cầu phân tích; thiết kế mô hình dữ liệu dựa trên yêu cầu phân tích; thiết kế mô hình; thiết kế trích xuất chuyển đổi và nạp số liệu từ hệ thống cung cấp dữ liệu vào kho dữ liệu; xây dựng công cụ báo cáo, thống kê
Chương 4: Kết quả và hướng phát triển
Nội dung chính của chương này là trình bày các kết quả của luận văn, đồng thời đưa ra những vấn đề nghiên cứu tiếp theo cho tương lai
Trang 7Chapter 2: Overview of Data Warehouse
The main content of this chapter is to present an overview of a data warehouse, including definition, characteristics, benefits, future trends, architecture, logical organization, and physical organization of the data warehouse
Chapter 3: Building urban traffic information management data warehouse
The main contents of this chapter include: Learn about traffic data; determine analysis requirements; design the data model based on analysis requirements; model design; design, extract, convert and load data from data provisioning system into data warehouse; build tools for reporting and statistics
Chapter 4: Results and development direction
The main content of this chapter is to present the results of the thesis, and
at the same time give further research issues for the future
Trang 8LỜI CAM ĐOAN
Với mục đích học tập, nghiên cứu để nâng cao kiến thức và trình độ chuyên môn nên tôi đã làm luận văn này một cách nghiêm túc và hoàn toàn trung thực
Trong luận văn, tôi có sử dụng một số tài liệu tham khảo của một số tác giả Tôi đã nêu ra trong phần tài liệu tham khảo ở cuối luận văn
Tôi xin cam đoan và chịu trách nhiệm về nội dung và sự trung thực trong luận văn tốt nghiệp Thạc sĩ của mình!
Học viên, Hoàng Văn Công
Trang 9MỤC LỤC
DANH SÁCH HÌNH VẼ 8
DANH SÁCH BẢNG BIỀU 8
CÁC THUẬT NGỮ VÀ VIẾT TẮT 8
MỞ ĐẦU 10
Chương 1: TỔNG QUAN 11
1.1 Thực trạng giao thông Thành phố Hồ Chí Minh 11
1.2 Công tác quản lý giao thông tại TP.HCM hiện nay 13
1.3 Lý do chọn đề tài 14
1.4 Mục tiêu nghiên cứu 14
1.5 Đối tượng và phạm vi nghiên cứu 14
1.6 Ý nghĩa khoa học và thực tiễn của đề tài nghiên cứu 15
Chương 2: TỔNG QUAN VỀ DATA WAREHOUSE 16
2.1 Định nghĩa kho dữ liệu 16
2.2 Đặc tính của kho dữ liệu 17
2.3 Kho dữ liệu và các cơ sở dữ liệu 19
2.4 Lợi ích của kho dữ liệu 20
2.5 Kho dữ liệu hiện nay 21
2.6 Xu hướng tương lai của kho dữ liệu 23
2.7 Kiến trúc của kho dữ liệu 26
2.7.1 Nguồn dữ liệu 27
2.7.2 Công cụ trích xuất chuyển đổi và nạp dữ liệu (ETL) 28
2.7.3 Siêu dữ liệu 29
2.7.4 Kho dữ liệu chủ đề 30
2.7.5 Các công cụ truy vấn, tạo báo cáo, phân tích dữ liệu 31
2.8 Tổ chức dữ liệu lôgíc 31
2.8.1 Lược đồ kho dữ liệu 31
2.8.1.1 Lược đồ hình sao 31
2.8.1.2 Lược đồ bông tuyết rơi 32
2.8.1.3 Lược đồ kết hợp 33
2.8.2 Mô hình dữ liệu đa chiều 33
2.8.3 Bảng sự kiện 35
2.8.4 Bảng chiều 35
2.8.5 Bảng sự kiện tổng hợp 36
Trang 102.9 Tổ chức dữ liệu vật lý 37
2.9.1 Phân vùng 37
2.9.2 Chỉ mục 37
Chương 3: XÂY DỰNG KHO DỮ LIỆU QUẢN LÝ THÔNG TIN GIAO THÔNG ĐÔ THỊ 39
3.1 Công trình liên quan và tổng quan hệ thống 39
3.1.1 Một số nghiên cứu liên quan 39
3.1.2 Tổng quan về hệ thống 40
3.2 Mục tiêu của kho dữ liệu quản lý thông tin giao thông 41
3.3 Dữ liệu giao thông sử dụng trong nghiên cứu 42
3.4 Tiêu chí xác định ùn tắc giao thông 43
3.5 Xây dựng kho dữ liệu quản lý thông tin giao thông đô thị 44
3.5.1 Xác định yêu cầu phân tích 44
3.5.2 Kiến trúc của kho dữ liệu 45
3.5.3 Thiết kế mô hình dữ liệu 46
3.5.4 Tạo cấu trúc database 49
3.5.5 Thiết kế trích xuất chuyển đổi nạp dữ liệu 49
3.5.5.1 Mô tả chung 49
3.5.5.2 Kết nối dữ liệu nguồn vào các bảng chiều 50
3.5.6 Xử lý bằng kĩ thuật OLAP sử dụng công cụ Schema-workbench 51
3.5.6.1 Tạo Cube và publish lên server 51
3.5.6.2 Thiết kế biểu đồ thống kê, báo cáo 53
Chương 4: KẾT QUẢ VÀ HƯỚNG PHÁT TRIỂN 54
4.1 Các kết quả đạt được 54
4.2 Hướng nghiên cứu 55
DANH MỤC TÀI LIỆU THAM KHẢO 56
Trang 11DANH SÁCH HÌNH VẼ
Hình 1 Kiến trúc DWH cơ bản 26
Hình 2 Kiến trúc DWH với Staging Area 27
Hình 3 Kiến trúc kho dữ liệu với Staging Area và Data Mart 27
Hình 4 Lược đồ hình sao 32
Hình 5 Lược đồ bông tuyết rơi 33
Hình 6 Mô hình đa chiều 34
Hình 7 Kiến trúc của DWH thử nghiệm 45
Hình 8: Mô hình quan hệ thông tin giao thông 49
Hình 9 Các trường dữ liệu trong SegmentsReport 50
Hình 10 Kết nối dữ liệu nguồn vào chiều Dim_Date 50
Hình 11 Kết nối dữ liệu nguồn vào bảng Dim_time_of_day 51
Hình 12 Kết nối dữ liệu nguồn vào bảng Dim_Location 51
Hình 13 Kết nối dữ liệu vào bảng fact 51
Hình 14 Tạo Cube 52
Hình 15 Public lên server 53
Hình 16 Thiết kế thống kê, báo cáo 53
DANH SÁCH BẢNG BIỀU Bảng 1: Cấu trúc bảng mô tả chiều ngày 46
Bảng 2: Bảng mô tả chiều thời gian của ngày 47
Bảng 3: Bảng mô tả chiều vị trí 47
Bảng 4: Bảng mô tả Bảng sự kiên 48
CÁC THUẬT NGỮ VÀ VIẾT TẮT
TP.HCM: Thành phố Hồ Chí Minh
GTVT: Giao thông vận tải
CNTT: Công nghệ thông tin
ATGT: An toàn giao thông
DWH (Data Warehouse): Kho dữ liệu
BI (Business Intelligence): Quản trị doanh nghiệp thông minh
Trang 12 CDI (Customer Data Integration): Tích hợp dữ liệu khách hàng
CSDL: Cơ sở dữ liệu
CRM (Customer relationship management): Quản lý mối quan hệ với khách hàng
DM (Data mart): Kho dữ liệu chủ đề
ETL (Extract Transform Load): Trích xuất chuyển đổi dữ liệu
MDM (Master Data Management): Quản lý dữ liệu chủ
OLTP (Online Transaction Processing): Xử lý giao dịch trực tuyến
OLAP (Online Analytical Processing): Xử lý phân tích trực tuyến
SOA (Service-Oriented Architecture): Kiến trúc hướng dịch vụ
VLDB (Very large DB): Cơ sở dữ liệu rất lớn
SA (Subject Area) : Vùng chủ đề
Trang 13MỞ ĐẦU
Với dân số hơn 10 triệu người, Thành phố Hồ Chí Minh (TP.HCM) là điểm nóng về an toàn giao thông (ATGT) Tắc nghẽn giao thông không chỉ làm tê liệt thành phố vào giờ cao điểm, mà còn tăng lượng khí thải độc hại Tình trạng thiếu phương tiện giao thông công cộng cũng ảnh hưởng rất lớn đến chất lượng sống của người dân Trong thời gian qua, TP.HCM đã không ngừng nỗ lực cải tạo, xây dựng phát triển hệ thống cơ sở hạ tầng giao thông vận tải (GTVT) đảm bảo trật tự
an toàn giao thông ở mức độ cao nhất với việc triển khai nhiều giải pháp; đặc biệt
là việc ứng dụng khoa học công nghệ vào công tác quản lý điều hành giao thông
đô thị TP.HCM đã đạt được những thành tựu đáng kể trong việc ứng dụng công nghệ vào quản lý điều hành giao thông vận tải gắn với Đề án xây dựng TP.HCM trở thành đô thị thông minh và gắn với xu hướng ứng dụng những thành tựu khoa học công nghệ trên thế giới, nhất là những thành tựu của cuộc cách mạng công nghiệp 4.0 Tuy nhiên, bên cạnh kết quả đạt được, việc ứng dụng các giải pháp khoa học công nghệ cho công tác quản lý giao thông đô thị vẫn còn nhiều mặt hạn chế, chưa theo kịp với tốc độ phát triển đô thị của thành phố và tình hình giao thông diễn biến ngày càng phức tạp Nguyên nhân là do các vướng mắc về cơ chế phối hợp, về xây dựng, quản lý cơ sở dữ liệu (CSDL)
Xuất phát từ thực tế đó, đồ án tốt nghiệp này trình bày về việc ứng dụng công nghệ thông tin (CNTT) mà cụ thể là ứng dụng công nghệ kho dữ liệu (DWH
- Data Warehouse) vào “Quản lý thông tin giao thông đô thị dựa vào dữ liệu
từ cộng đồng và phân tích dữ liệu lớn” được thực hiện với mong muốn xây
dựng được một DWH ban đầu để hỗ trợ quản lý thông tin giao thông tại Thành phố Hồ Chí Minh
Trang 14Chương 1: TỔNG QUAN
1.1 Thực trạng giao thông Thành phố Hồ Chí Minh
Giao thông Thành phố Hồ Chí Minh là tổng hòa của nhiều loại hình giao thông hiện hữu phục vụ nhu cầu đi lại trong phạm vi thành phố, giữa TP.HCM với các vùng lân cận và toàn cầu Là đô thị lớn nhất và là đầu mối giao thông quan trọng của Việt Nam, Thành phố Hồ Chí Minh có hệ thống cơ sở hạ tầng đa dạng
và hiện đại với nhiều đường trục liên vùng lớn, hai đường cao tốc chính nối các tỉnh miền Tây và miền Đông Nam Bộ, cùng nhiều tuyến quốc lộ trọng điểm Hệ thống đường bộ của TP.HCM dày đặc, có tổng chiều dài 4.044 km lớn nhất trong các đô thị ở Việt Nam
Trong những năm qua, quá trình đô thị hóa diễn ra mạnh mẽ, dân số nhập
cư tăng cao, hệ thống cơ sở hạ tầng chưa đồng bộ, định hướng quy hoạch đô thị chưa thật sự đúng đắn, sự quản lý yếu của cơ quan quản lí, ý thức kém của người tham gia giao thông đã làm cho giao thông thành phố Hồ Chí Minh ngày càng tồi tệ Tình trạng kẹt xe, tiếng ồn, ô nhiễm bụi do khí thải của các phương tiện tham gia giao thông đã trở thành một vấn nạn của thành phố Hồ Chí Minh
1.1.1 Quy hoạch đô thị không ổn định
Quy hoạch đô thị bao gồm rất nhiều lĩnh vực (không gian, hạ tầng kỹ thuật
đô thị, kinh tế, dân số, môi trường, cảnh quan…) trong đó quy hoạch giao thông luôn là một nôi dung cơ bản, gắn liền với quy hoạch không gian và quy hoạch các phân khu chức năng Tuy nhiên, phần lớn các đô thị trên thế giới không được quy hoạch hiện đại ngay từ khi mới xây dựng mà thường là kế thừa những đô thị đã hình thành một cách tự nhiên trước đó, Sài Gòn - TP.HCM cũng nằm trong trường hợp này
Quy hoạch không ổn định là khó khăn lớn nhất đối với ngành GTVT thành phố vì không còn quỹ đất để tăng tỷ lệ diện tích giao thông thì cũng không thể cải thiện được tình trạng tắc đường, kẹt xe và khi cần chỉnh trang, mở rộng hay tạo ra những trục đường mới cũng không thể làm xáo trộn cuộc sống của quá nhiều người dân và không đủ kinh phí rất lớn để đền bù giải tỏa
Trang 151.1.2 Dân số đông, mật độ cao
Những năm gần đây, TP.HCM đang chịu áp lực lớn từ việc gia tăng dân
số TP.HCM cũng là nơi đông dân nhất cả nước (chiếm 9,35%) và chiếm hơn 50% dân số vùng Đông Nam bộ Mật độ dân số TP.HCM là 4.292 người/km2 (tăng gần 26% so với năm 2009) và cũng là thành phố có mật độ dân số cao nhất của cả nước Dân số đông, tỷ lệ gia tăng dân số cơ học cao đang dẫn đến tình trạng phương tiện cá nhân tăng cao đây là vấn đề gây nên tình trạng ùn tắc giao thông tại TP.CHCM
1.1.3 Ý thức của người tham gia giao thông còn thấp
Theo thống kê của Ban An toàn giao thông TP.HCM, có đến 90% tai nạn giao thông xảy ra do ý thức người dân còn kém, không chấp hành luật lệ gây hậu quả đáng tiếc
Tình trạng ùn tắc giao thông hiện nay xảy ra hầu hết các nước trên thế giới Tuy nhiên, ở các nước đó khác với ta ở chỗ, khi có ùn tắc giao thông những người điều khiển phương tiện vẫn chấp hành nghiêm chỉnh Luật Giao thông, không luồn lách, đi lên vỉa hè, rú còi inh ỏi, còn ở nước ta thì ngược lại mạnh ai nấy đi, "hở chỗ nào đi chỗ nấy", không theo qui định nào cả
Phần lớn người đi đường cố ý vượt đèn đỏ, leo lề, lấn làn… không chỉ gây
ùn tắc, dễ xảy ra tai nạn, mà còn làm xấu xí bộ mặt giao thông đô thị tại Việt Nam Lâu nay chúng ta vẫn nói nhiều đến văn hóa giao thông Nhiều người bảo do dân trí còn thấp nên việc vi phạm giao thông còn diễn biến phức tạp Nhưng thực tế khẳng định rằng, văn hóa giao thông không phụ thuộc vào trình độ văn hóa Bởi,
ở các đô thị là nơi tập trung của rất nhiều nhân sĩ, trí thức, người có trình độ văn hóa cao… Tôn trọng pháp luật là tôn trọng chính mình Có ý thức chấp hành luật
lệ giao thông đồng nghĩa với việc đem lại an toàn cho chính bạn và những người xung quanh Tình trạng ùn tắc giao thông, tai nạn giao thông gia tăng như hiện nay không thể chỉ đổ lỗi tại hạ tầng giao thông mà trong đó nguyên nhân không nhỏ từ ý thức của người Việt khi tham gia giao thông
Trang 161.1.4 Hạ tầng giao thông kém, phương tiện cá nhân tăng cao
Cho đến nay, hạ tầng giao thông TP.HCM chỉ đáp ứng được khoảng 30%
so với quy hoạch phát triển giao thông của thành phố Các công trình hạ tầng, đường xá, cầu cống chật hẹp, xuống cấp Quá trình xây dựng chậm chạp, đình trệ
Trong khi đó lượng dân cư tập trung đông, số phương tiện cá nhân ngày càng gia tăng đã trở thành "gánh nặng" cho hạ tầng giao thông Giải pháp mang tính quyết định, trước hết phải là cải tạo, mở rộng và xây dựng mới cơ sở hạ tầng, nhanh chóng mở rộng, xây dựng mới các đường trục chính, hoàn thành các tuyến vành đai, cải tạo các nút giao thông
1.2 Công tác quản lý giao thông tại TP.HCM hiện nay
Trong thời gian qua, TP.HCM đã và đang triển khai nhiều giải pháp ứng dụng CNTT trong quản lý và điều hành giao thông đô thị, đảm bảo trật tự ATGT trên địa bàn thành phố Cụ thể, từ đầu năm 2019, đã hoàn thành và đưa vào sử dụng Trung tâm quản lý điều hành giao thông đặt tại Trung tâm Quản lý đường hầm sông Sài Gòn, tăng cường ứng dụng CNTT giải quyết tình trạng ùn tắc giao thông, tai nạn giao khu vực trung tâm thành phố
Theo đó, khu vực giám sát - vận hành hệ thống thiết bị đường hầm gồm 9 màn hình 42 inch để giám sát tình hình giao thông qua đường hầm sông Sài Gòn,
2 màn hình 65 inch phục vụ công tác vận hành hệ thống thiết bị điện, thông gió, thoát nước và hệ thống khẩn cấp đường hầm Khu vực giám sát - vận hành và điều khiển giao thông TP gồm 18 màn hình 42 inch để giám sát camera giao thông, 30 màn hình ghép thành 2 Video Wall (1 video wall có 9 màn hình 46 inch và 1 video wall có 21 màn hình 49 inch) để giám sát, vận hành các hệ thống điều khiển giao thông tích hợp
Bên cạnh đó, TP cũng triển khai một số các giải pháp khác liên quan đến việc ứng dụng CNTT trong lĩnh vực GTVT như: Đưa vào hoạt động hệ thống thu phí dịch vụ sử dụng đường bộ điện tử tự động không dừng (ETC) tại Trạm thu phí cầu Phú Mỹ, Trạm thu phí An Sương - An Lạc Đồng thời, triển khai thí điểm sử dụng vé điện tử smartcard dành cho cho xe buýt; triển khai thực hiện việc thu phí
Trang 17và quản lý công tác thu phí sử dụng lòng đường để đỗ xe ô tô thông qua ứng dụng
di động MyParking trên 22 tuyến đường trên địa bàn TP;
1.3 Lý do chọn đề tài
Trong tình hình giao thông thành phố còn nhiều phức tạp như hiện nay, công tác quản lý giao thông đô thị còn nhiều bất cập, chưa giải quyết hoàn toàn được tình trạng ùn tắc giao thông thường xuyên trên địa bàn thành phố Công tác quản
lý, khai thác dữ liệu thông tin giao thông đô thị còn nhiều hạn chế Do đó, tôi chọn
đề tài “Quản lý thông tin giao thông đô thị dựa vào dữ liệu từ cộng đồng và
phân tích dữ liệu lớn” để từ đó sử dụng dữ liệu giao thông có được tiến hành
phân tích và xây dựng báo cáo giúp các nhà quản lý giao thông cũng như công chúng những người tham gia, quan tâm đến vấn đề giao thông dễ dàng tìm hiểu thông tin giao thông
1.4 Mục tiêu nghiên cứu
Xây dựng và triển khai kho dữ liệu để lưu trữ và quản lý thông tin giao thông một cách hiệu quả hơn Với việc quản lý thông tin giao thông đô thị dựa vào dữ liệu từ cộng đồng và phân tích dữ liệu lớn hệ thống sẽ giúp ích trong việc quản lý: thông tin về hạ tầng giao thông, tình trạng giao thông, xác định được tình trạng giao thông của từng con đường cụ thể, lưu lượng phương tiện tham gia giao thông ở các thời điểm khác nhau Phát hiện ra những điểm nóng giao thông và những nguyên nhân gây ra tình trạng giao thông đó từ đó có các phương án giải quyết vấn đề
1.5 Đối tượng và phạm vi nghiên cứu
Xây dựng Kho dữ liệu đặc biệt là DWH u về quản lý thông tin giao thông TP.HCM là một quá trình lâu dài với nhiều công việc Trong luận văn này, dữ liệu DWH được xây dựng chủ yếu tập trung vào xử lý, chuẩn dữ liệu thông tin giao thông từ nhiều nguồn khác nhau để đưa vào kho dữ liệu Quy mô hệ thống thử nghiệm được xây dựng áp dụng cho việc quản lý thông tin giao thông ở thành phố
Hồ Chí Minh Tập trung thiết kế mô hình dữ liệu và thu thập dữ liệu từ hệ thống nguồn, xử lý chuẩn hóa dữ liệu, thiết kế một số các báo cáo, thống kê và tra cứu
Trang 18cơ bản
1.6 Ý nghĩa khoa học và thực tiễn của đề tài nghiên cứu
Ý nghĩa khoa học: Chuẩn hóa dữ liệu từ nhiều nguồn khác nhau vào kho dữ
liệu Làm tiền đề cho việc phát triển các hệ thống quản lý thông tin sau này
Ý nghĩa thực tiễn: Kết quả nghiên cứu làm cơ sở để công tác theo dõi, quản
lý cũng như khi cần tra cứu các thông tin giao thông hiệu quả hơn Từ các nhà quản lý cũng như người dân, những người quan tâm đến dữ liệu giao thông sẽ nắm được tình trạng giao thông một cách chính xác hơn
Trang 19Chương 2: TỔNG QUAN VỀ DATA WAREHOUSE
2.1 Định nghĩa kho dữ liệu
Kho dữ liệu trong tiếng Anh là Data Warehousing
Kho dữ liệu là kho lưu trữ điện tử của một lượng lớn thông tin của một doanh nghiệp hoặc tổ chức Kho dữ liệu là một thành phần quan trọng của phân tích kinh doanh, sử dụng các kĩ thuật phân tích trên dữ liệu doanh nghiệp
Khái niệm kho dữ liệu được giới thiệu vào năm 1988 bởi 2 nhà nghiên cứu của IBM là Barry Devlin và Paul Murphy Nhu cầu lưu trữ dữ liệu phát triển khi các hệ thống máy tính trở nên phức tạp hơn và phải xử lí lượng dữ liệu ngày càng tăng Một cuốn sách quan trọng về lưu trữ dữ liệu là "Xây dựng kho dữ liệu" của W.H Inmon, được xuất bản lần đầu tiên vào năm 1990 và đã được tái bản nhiều lần kể từ đó
Kho dữ liệu được sử dụng để cung cấp cái nhìn sâu sắc hơn về hiệu suất của một công ty bằng cách so sánh dữ liệu được hợp nhất từ nhiều nguồn không đồng nhất Kho dữ liệu được thiết kế để chạy các câu hỏi và phân tích trên dữ liệu lịch sử có nguồn gốc từ các nguồn giao dịch
Dữ liệu có tính hướng chủ đề (subject-oriented)
Được tổ chức xung quanh các chủ đề chính, như khách hàng (customer), sản phẩm (product), bán hàng (sales)
Tập trung vào việc mô hình hóa và phân tích dữ liệu cho các nhà đưa ra quyết định, mà không tập trung vào các hoạt động hay các xử lý giao dịch hàng ngày
Cung cấp một khung nhìn đơn giản và súc tích xung quanh các sự kiện của các chủ đề
Trang 20đổi về các dạng qui định, tạo nên một sự nhất quán trong việc hiển thị nội dung khung nhìn duy nhất cho người dùng Để làm được việc này ta cần phải sử dụng các kĩ thuật làm sạch và tích hợp dữ liệu
Dữ liệu có tính biến đổi theo thời gian (time-variant):
Vì nó chỉ đúng và chính xác tại một thời điểm nào đó, hay trong một khoản thời gian nào đó Các CSDL tác nghiệp lưu trữ dữ liệu có giá trị hiện thời, còn kho dữ liệu cung cấp thông tin để thể hiện triển vọng dựa vào những
dữ liệu mang tính lịch sử (chẳng hạn như dựa vào dữ liệu được tích hợp trong 5-10 năm qua)
Có thể hình dung dữ liệu bên trong kho dữ liệu ở đây được thể hiện như một dãy hình ảnh theo dãy thời điểm trong tiến triển của thời gian
Dữ liệu có tính ổn định (non-volatile):
Vì không được cập nhập theo thời gian thực dữ liệu mới sẽ được đưa vào kho dữ liệu như là dữ liệu cung cấp thêm chứ không phải như một thay đổi cho dữ liệu đã có
Kho dữ liệu liên tục hấp thu những dữ liệu mới tích hợp và thêm vào bổ sung vào những dữ liệu trước đó
Cập nhật tác nghiệp của dữ liệu không xuất hiện trong môi trường kho dữ liệu
o Không yêu cầu các cơ chế xử lý giao dịch, phục hồi và điều khiển tương tranh
o Chỉ yêu cầu hai thao tác trong truy cập dữ liệu: Nạp dữ liệu và truy cập
dữ liệu
2.2 Đặc tính của kho dữ liệu
Trước hết ta tìm hiểu khái niệm về vùng chủ đề (SA - Subject Area): một SA
là một chủ đề được tách ra từ tập hợp lớn các chủ đề mà người sử dụng cuối quan tâm trong một lĩnh vực tác nghiệp cụ thể nào đó
Trang 21Những đặc điểm cơ bản của DWH:
về một khách hàng Khung nhìn đó bao gồm các phần dữ liệu khác nhau từ các hệ thống tác nghiệp khác nhau
Gắn thời gian
Mỗi bản ghi của kho dữ liệu chứa một yếu tố thời gian như một phần của khóa chính để bảo đảm tính duy nhất của mỗi bản ghi và cung cấp một đặc trưng về thời gian cho dữ liệu Toàn bộ dữ liệu trong kho được tạo ra và gắn liền với một giá trị thời gian nhất định
Trang 22 Dữ liệu tổng hợp và chi tiết
Dữ liệu chi tiết là thông tin mức thấp nhất được lưu trữ trong kho dữ liệu Dữ liệu tác nghiệp chính là thông tin mức thấp nhất Dữ liệu tổng hợp được tích hợp lại qua nhiều giai đoạn khác nhau
2.3 Kho dữ liệu và các cơ sở dữ liệu
DWH về bản chất cũng là một database bình thường, các hệ quản trị CSDL quản lý và lưu trữ nó như các database thông thường (tuy nhiên có hỗ trợ thêm về quản lý dữ liệu lớn và truy vấn) Thực ra nét khác biệt của DWH so với database
là ở quan niệm, cách nhìn vấn đề:
Trước tiên DWH là database rất lớn (VLDB - very large database)
Database hướng về xử lý thời gian thực, DWH hướng về tính ổn định
Database phục vụ xử lý transaction, cập nhật Datawarehouse thường chỉ đọc, phục vụ cho những nhu cầu báo cáo VD: Chúng ta sẽ yêu cầu hãy cho biết trong 5 năm, bộ phận phần mềm đã làm được những dự án nào từ đó chúng ta sẽ có quyết định về hiệu năng của nhóm này
DWH sẽ lấy thông tin có thể từ nhiều nguồn khác nhau: DB2, Oracle, SQLserver thậm chí cả File thông thưởng rồi làm sạch chúng và đưa vào cấu trúc của nó đó là VLDB DWH rất lớn nên muốn cho từng bộ phận chuyên biệt người sử dụng cuối cùng có thể khai thác thông dễ dàng thì bản thân DWH phải được chuyên hoá, phân ra thành những chủ đề, do đó những chủ đề chuyên môn hóa đó tạo thành một Database chuyên biệt-đó là Data mart VD: DWH của Microsoft là rất lớn, trong một núi thông tin đó làm sao khai thác? Vì thế có rất nhiều Data mart về kinh doanh, tiếp thị, kỹ thuật, testing, Có một điểm lưu ý ở đây là có một công cụ hay đúng hơn
là một chuẩn công cụ mà mọi hệ quản trị Database hỗ trợ cho việc truy vấn thông tin trong Datamart rồi đưa ra những quyết định, nhận dịnh những thông tin trong Datamart - Đó là xử lý phân tích trực tuyến (OLAP - Online Analytical Processing)
Trang 23 Một điểm quan trọng là Database thường được chuẩn hóa (Dạng chuẩn 1,
2, 3, BCK) để khai thác DWH phải phi chuẩn hoá rồi sau đó có thể chuẩn hoá theo start chema trong Data mart, điều này đồng nghĩa vớI việc DWH
sẽ trùng lắp thông tin Thật ra điều này theo tôi nghĩ là hiển nhiên vì việc chuẩn hoá nhằm tránh sự trùng lắp thông tin, do đó sẽ nhất quán trong việc cập nhật, thêm, xoá, sửa, tuy nhiên DWH là Database rất lớn phục vụ cho báo cáo, truy vấn chỉ đọc nên việc trùng lắp thông tin sẽ giúp thao tác tìm kiếm sẽ nhanh hơn Đây cũng là một quy luật: Càng trùng lắp thông tin thì tìm kiếm càng dễ dàng và ngược lại
2.4 Lợi ích của kho dữ liệu
Tạo ra những quyết định có ảnh hưởng lớn: Một DWH cho phép trích rút tài nguyên nhân lực và máy tính theo yêu cầu để cung cấp các câu truy vấn và các báo cáo dựa vào CSDL hoạt động và sản xuất Điều này tạo ra sự tiết kiệm đáng
kể Có kho dữ liệu cũng trích rút tài nguyên khan hiếm của hệ thống sản xuất khi thực thi một chương trình quá lâu hoặc các báo cáo và các câu truy vấn phức hợp
Công việc kinh doanh trở nên thông minh hơn: Tăng thêm chất lượng và tính linh hoạt của việc phân tích kinh doanh do phát sinh từ cấu trúc dữ liệu đa tầng của kho dữ liệu, đó là nơi cung cấp dữ liệu được sắp xếp từ mức độ chi tiết của công việc kinh doanh cho đến mức độ cao hơn - mức độ tổng quát Đảm bảo được dữ liệu chính xác và đáng tin cậy do đảm bảo được là trong kho dữ liệu chỉ chứa duy nhất dữ liệu có chất lượng cao và ổn định (trusted data)
Dịch vụ khách hàng được nâng cao: Một doanh nghiệp có thể giữ gìn mối quan hệ với khách hàng tốt hơn do có mối tương quan với dữ liệu của tất cả khách hàng qua một kho dữ liệu riêng
Tái sáng tạo những tiến trình kinh doanh: Sự cho phép phân tích không ngừng thông tin kinh doanh thường cung cấp sự hiểu biết mọi mặt của phương thức kinh doanh do đó có thể làm nảy sinh ra những ý kiến cho sự sáng tạo ra những tiến trình này lại Chỉ khi xác định chính xác các nhu cầu từ kho dữ liệu thì mới giúp ta đánh giá được những hạn chế và mục tiêu kinh doanh một cách chính
Trang 24xác hơn
Tái sáng tạo hệ thống thông tin: Một DWH là nền tảng cho các yêu cầu dữ liệu trong mọi lĩnh vực kinh doanh, nó cung cấp một chi phí ảnh hưởng nghĩa là đưa ra thói quen cho cho cả hai sự chuẩn hóa dữ liệu và sự chuẩn hóa hoạt động của hệ điều hành theo chuẩn quốc tế
2.5 Kho dữ liệu hiện nay
Ngày nay, hầu hết các kho dữ liệu đang được dùng cho quản trị doanh nghiệp thông minh làm tăng mối quan hệ khách hàng (CRM - Customer Relationship Management) và khai thác dữ liệu Một số được sử dụng để báo cáo tổng hợp, một số được sử dụng để tích hợp dữ liệu Các cách sử dụng này đều tương quan với nhau; ví dụ, quản trị doanh nghiệp thông minh (BI - Business Intelligence) và CRM sử dụng khai thác dữ liệu, kinh doanh thông minh sử dụng báo cáo, còn BI và CRM còn sử dụng tích hợp dữ liệu Trong các phần sau sẽ mô
tả cách sử dụng chính, bao gồm quản trị doanh nghiệp thông minh, CRM và khai thác dữ liệu
Quản trị doanh nghiệp thông minh
Dường như nhiều nhà cung cấp thích dùng quản trị doanh nghiệp thông minh hơn là DWH Nói cách khác, họ tập trung hơn vào việc xem DWH có thể làm gì cho doanh nghiệp Nhiều DWH hiện nay được dùng cho BI: giúp nhà kinh doanh hiểu công việc kinh doanh của họ hơn; giúp họ đưa ra các quyết định hành động, chiến lược, và mục tiêu kinh doanh tốt hơn; giúp họ cải tiến hoạt động kinh doanh
Một số các nhà lãnh đạo doanh nghiệp ngày nay ra quyết định dựa trên dữ liệu Và 1 công cụ quản trị doanh nghiệp thông minh chạy và vận hành trên của kho dữ liệu có thể là một công cụ hỗ trợ tốt cho mục đích đó Điều này có được
là do sử dụng báo cáo và OLAP Báo cáo DWH được sử dụng để đưa ra số liệu kinh doanh đã tổng hợp trong DWH tới những người kinh doanh OLAP cho phép doanh nghiệp phân tích sự ảnh hưởng lẫn nhau của dữ liệu giao dịch kinh doanh được lưu trữ trong DWH đa chiều
Trang 25 Quản lý mối quan hệ khách hàng:
Một hệ thống quản lý mối quan hệ khách hàng (CRM - Customer Relationship Management) gồm có những ứng dụng mà hỗ trợ quản lý mối quan
hệ khách hàng Trong một hệ thống CRM, chức năng lý tưởng sau đây được xây dựng trong một DWH đa chiều:
Quản lý dữ liệu chủ:
Trong hệ thống xử lý giao dịch trực tuyến (OLTP - Online Transaction Processing), có hai loại dữ liệu: dữ liệu giao dịch và dữ liệu chủ Dữ liệu giao dịch ghi các sự kiện kinh doanh Dữ liệu chủ bao gồm các thực thể mô tả các sự kiện kinh doanh Dữ liệu chủ bao gồm những câu trả lời của những câu hỏi của ai, cái
gì, và ở đâu về một giao dịch kinh doanh
Ví dụ: Trong cửa hàng âm nhạc trực tuyến, sự kiện kinh doanh là một khách hàng mua một bài hát đây là dữ liệu giao dịch Dữ liệu chủ là khách hàng, sản
Trang 26phẩm, nhãn hiệu
Quản lý dữ liệu chủ (MDM - Master Data Management) là quá trình chiết, làm sạch, lưu trữ, cập nhật, và phân phối dữ liệu chủ Một hệ thống MDM khôi phục dữ liệu chủ từ hệ thống OLTP Hệ thống MDM cũng cố dữ liệu chủ và xử
lý dữ liệu thông qua việc định nghĩa trước các quy tắc về chất lượng dữ liệu Dữ liệu chủ sau đó được nạp tới DWH chủ Bất kỳ sự thay đổi nào trên dữ liệu chủ trong hệ thống OLTP được gửi tới hệ thống MDM, và DWH chủ được cập nhật
để phản ánh những thay đổi đó Hệ thống MDM sau đó chuyển dữ liệu chính tới những hệ thống khác
Tích hợp dữ liệu khách hàng:
Tích hợp dữ liệu khách hàng (CDI - Customer Data Integration) là MDM cho dữ liệu khách hàng CDI là một quá trình chiết, làm sạch, lưu trữ, duy trì, và phân phối dữ liệu của khách hàng CDI hệ thống chiết dữ liệu khách hàng từ hệ thống OLTP, làm sạch nó, lưu trữ trong một kho dữ liệu khách hàng chính, duy trì dữ liệu của khách hàng, lưu giữ nó, và phân phối các dữ liệu khách hàng cho các hệ thống khác
Hệ thống CDI cho phép bạn có một phiên bản dữ liệu khách hàng sạch hơn, duy nhất, đáng tin cậy mà các ứng dụng khác trong các doanh nghiệp có thể sử dụng Điều này cũng có thể gia tăng lợi ích kinh doanh chẳng hạn như tăng sự hài lòng của khách hàng và phân tích kinh doanh tốt hơn, và nó làm giảm sự phức tạp của các quá trình sử dụng dữ liệu khách hàng Tất cả các loại khác nhau của quản
lý dữ liệu chính, CDI là sử dụng rộng rãi nhất bởi vì mỗi tổ chức có khách hàng CDI cung cấp dữ liệu tích hợp sạch cho quản lý mối quan hệ khách hàng
2.6 Xu hướng tương lai của kho dữ liệu
Dữ liệu phi cấu trúc:
Dữ liệu có cấu trúc thường dùng để chỉ dữ liệu lưu trữ trong các hệ quản trị CSDL quan hệ như Oracle, MS SQL Server, MySQL, trong đó các thực thể và các thuộc tính được định nghĩa sẵn Ví dụ, dữ liệu của một thí sinh dự thi đại học
có thể bao gồm các thông tin như họ tên, năm sinh, trường dự thi, điểm thi các
Trang 27môn
Trong khi đó dữ liệu phi cấu trúc (Unstructured Data) thường dùng để chỉ
dữ liệu ở dạng tự do (free type) và không cần có cấu trúc định nghĩa sẵn Các trang web, video, ảnh, âm thanh là các ví dụ của dữ liệu phi cấu trúc
Dữ liệu phi cấu trúc được lưu trữ trong kho dữ liệu như thế nào? Và, sau khi lưu giữ, làm thế nào để nhận được những thông tin mà bạn cần ra khỏi dữ liệu này? Để trả lời câu hỏi thứ nhất, đối với mỗi thành phần dữ liệu phi cấu trúc bạn định nghĩa thuộc tính và sau đó thiết lập những thành phần đó theo các thuộc tính Bạn có thể lưu trữ các thành phần dữ liệu phi cấu trong một CSDL quan hệ như
là một cột đối tượng nhị phân, với các thuộc tính như là các cột khác Hoặc bạn
có thể lưu trữ các thành phần dữ liệu phi cấu trúc trong hệ thống tập tin và chỉ cần lưu trữ các con trỏ vào tập tin trong CSDL
Mỗi kiểu của dữ liệu phi cấu trúc có thuộc tính về vật lý và nội dung khác nhau Các thuộc tính có thể được lưu giữ trong một hay nhiều CSDL để cho phép người sử dụng dễ dàng tìm thấy dữ liệu phi cấu trúc riêng chi tiết Nội dung của các dữ liệu phi cấu trúc chính nó có thể được phân tích, trích xuất, phân loại, lưu trữ và để hỗ trợ truy vấn thông tin
Để có được thông tin từ dữ liệu phi cấu trúc, đặc biệt là các văn bản dữ liệu như các tài liệu, email, và các trang web, bạn thực hiện tìm kiếm Giống như trên Internet, các công cụ tìm kiếm đã thu thập thông tin kho dữ liệu và đánh chỉ mục các dữ liệu phi cấu trúc Các công cụ tìm kiếm có phân loại các dữ liệu phi cấu trúc dựa trên kiểu và thuộc tính của nó và, trong trường hợp các trang web, liên
Trang 28kết của nó
Khi bạn gõ thông tin tìm kiếm vào ô tìm kiếm, và các công cụ tìm kiếm sẽ
đi qua các chỉ mục, tìm đến vị trí của những thông tin, và hiển thị các kết quả Nó cũng có thể cung cấp giới hạn trước tìm kiếm, nó có thể hiển thị cấu trúc cây cho bạn để điều hướng và lựa chọn Nó cũng có thể nhớ người sử dụng tìm kiếm mà
có thể hỗ trợ bạn trong việc xác định những gì để loại khi tìm kiếm
Hiện nay tìm kiếm đã trở thành một xu hướng trong quản trị doanh nghiệp thông minh và kho dữ liệu, bởi họ có thể lựu chọn dữ liệu phi cấu trúc của kho trong kho dữ liệu khổng lồ
Kiến trúc hướng dịch vụ:
Kiến trúc hướng dịch vụ (SOA - Service-Oriented Architecture) là một hướng tiếp cận với việc thiết kế và tích hợp các phần mềm, chức năng, hệ thống theo dạng module, trong đó mỗi module đóng vai trò là một dịch vụ và có khả năng truy nhập thông qua môi trường mạng Hiểu một cách đơn giản thì một hệ thống SOA là một tập hợp các dịch vụ được chuẩn hóa trên mạng trao đổi với nhau trong nhữ cảnh một tiến trình nghiêp vụ
Một DWH hệ thống bao gồm nhiều thành phần: hệ thống nguồn, hệ thống sao chép dữ liệu từ một hoặc nhiều nguồn vào hệ thống đích (ETL - Extract Transform Load), hệ thống siêu dữ liệu, hệ thống báo cáo, hệ thống CSDL riêng của mình, Bạn có thể xây dựng nó như một ứng dụng khổng lồ với tất cả các thành phần quan hệ chặt chẽ; có nghĩa là, bạn không thể thay thế một phần mà không ảnh hưởng đến các thành phần khác Hoặc bạn có thể xây dựng theo kiến trúc hướng dịch vụ với nhiều thành phần nhỏ hơn, các thành phần độc lập mà nói chuyện với nhau bằng cách cung cấp và sử dụng các dịch vụ của nó Trong tương lai, nó cũng có thể dễ dàng hơn để cập nhật một thành phần không ảnh hưởng của những người khác và các thành phần khác nhau để kết nối được thực hiện bằng cách sử dụng các công nghệ khác nhau
Kho dữ liệu thời gian thực:
DWH ngày nay thông thường được cập nhật từng ngày, từng tuần, từng
Trang 29tháng, Có một số yêu cầu của những người sử dụng muốn nhìn thấy dữ liệu trong kho dữ liệu được cập nhật cứ hai phút một lần hay thậm chí thời gian thực Một DWH thời gian thực (Real-Time Data Warehouse) là một DWH mà được cập nhật (bởi ETL) ngay thời điểm giao dịch xảy ra trong hệ thống nguồn
2.7 Kiến trúc của kho dữ liệu
DWH và kiến trúc của nó tùy thuộc vào vị trí của từng tổ chức Có 3 kiến trúc phổ biến của DWH:
Kiến trúc DWH cơ bản: Đây là kiến trức đơn giản cho DWH
Kiến trúc DWH với Staging Area: thêm thành phần làm sạch và xử lý dữ liệu trước khi đưa vào DWH
Trang 30Hình 2 Kiến trúc DWH với Staging Area [10]
Kiến trúc DWH với Staging Area và Data Mart: So với kiến trúc trên có thêm data mart, dữ liệu được chuyển đổi và biểu diễn theo yêu cầu bởi một nhóm các người dùng đặc biệt
Hình 3 Kiến trúc kho dữ liệu với Staging Area và Data Mart [10]
2.7.1 Nguồn dữ liệu
Nguồn dữ liệu của DWH gồm nhiều loại khác nhau:
Dữ liệu từ các hệ thống tác nghiệp
o Chứa dữ liệu chi tiết và hiện tại
o Được sử dụng cho các giao dịch hàng ngày
o Chứa dữ liệu thích hợp hiện hành