1. Trang chủ
  2. » Luận Văn - Báo Cáo

Luận văn thạc sĩ Khoa học máy tính: Quản lý thông tin giao thông đô thị dựa vào dữ liệu từ cộng đồng và phân tích dữ liệu lớn

60 0 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Nội dung

Trang 1

ĐẠI HỌC QUỐC GIA TP HỒ CHÍ MINH

TRƯỜNG ĐẠI HỌC BÁCH KHOA

-HOÀNG VĂN CÔNG

QUẢN LÝ THÔNG TIN GIAO THÔNG ĐÔ THỊ DỰA VÀO DỮ LIỆU TỪ CỘNG ĐỒNG VÀ PHÂN TÍCH DỮ LIỆU LỚN

CHUYÊN NGÀNH: KHOA HỌC MÁY TÍNH MÃ NGÀNH: 60.48.01.01

LUẬN VĂN THẠC SĨ

TP HỒ CHÍ MINH, tháng 8 năm 2020

Trang 2

ĐẠI HỌC QUỐC GIA TP HỒ CHÍ MINH

TRƯỜNG ĐẠI HỌC BÁCH KHOA

-HOÀNG VĂN CÔNG

QUẢN LÝ THÔNG TIN GIAO THÔNG ĐÔ THỊ DỰA VÀO DỮ LIỆU TỪ CỘNG ĐỒNG VÀ PHÂN TÍCH DỮ LIỆU LỚN

CHUYÊN NGÀNH: KHOA HỌC MÁY TÍNH MÃ NGÀNH: 60.48.01.01

LUẬN VĂN THẠC SĨ

TP HỒ CHÍ MINH, tháng 8 năm 2020

Trang 3

CÔNG TRÌNH ĐƯỢC HOÀN THÀNH TẠI TRƯỜNG ĐẠI HỌC BÁCH KHOA –ĐHQG -HCM Cán bộ hướng dẫn khoa học: PGS.TS Trần Minh Quang

2 Thư ký: TS Lê Hồng Trang

3 Phản biện 1: TS Phan Trọng Nhân 4 Phản biện 2: TS Đặng Trần Trí 5 Ủy viên: PGS.TS Vũ Thanh Nguyên

Xác nhận của Chủ tịch Hội đồng đánh giá LV và Trưởng Khoa quản lý chuyên ngành sau khi luận văn đã được sửa chữa (nếu có)

CHỦ TỊCH HỘI ĐỒNG TRƯỞNG KHOA KH&KTMT

Trang 4

ĐẠI HỌC QUỐC GIA TP.HCM

TRƯỜNG ĐẠI HỌC BÁCH KHOA CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM Độc lập - Tự do - Hạnh phúc

NHIỆM VỤ LUẬN VĂN THẠC SĨ

Họ tên học viên: HOÀNG VĂN CÔNG MSHV: 1670213 Ngày, tháng, năm sinh: 10/10/1988 Nơi sinh: Hà Tĩnh Chuyên ngành: Khoa học máy tính Mã số :

I TÊN ĐỀ TÀI: QUẢN LÝ THÔNG TIN GIAO THÔNG ĐÔ THỊ DỰA VÀO DỮ LIỆU TỪ CỘNG ĐỒNG VÀ PHÂN TÍCH DỮ LIỆU LỚN

( URBAN TRAFFIC INFORMATION MANAGEMENT BASED ON

CROWD-SENSING AND BIG DATA ANALYTICS)

II NHIỆM VỤ VÀ NỘI DUNG:

- Quản lý thông tin dữ liệu giao thông từ cộng đồng, phân tích dữ liệu lớn - Tìm hiểu về kho dữ liệu, phân tích thiết kế kho dữ liệu quản lý thông tin giao

thông đô thị (TPHCM)

III NGÀY GIAO NHIỆM VỤ : (Ghi theo trong QĐ giao đề tài) 24/02/2020

IV NGÀY HOÀN THÀNH NHIỆM VỤ: (Ghi theo trong QĐ giao đề tài) 21/6/2020 V CÁN BỘ HƯỚNG DẪN: PGS.TS Trần Minh Quang

Tp HCM, ngày tháng năm 2020

TRƯỞNG KHOA KHOA HỌC VÀ KỸ THUẬT MÁY TÍNH

Trang 5

LỜI CẢM ƠN

Trước tiên, em xin bày tỏ lời cảm ơn sâu sắc nhất tới thầy giáo hướng dẫn PGS.TS Trần Minh Quang là người đã tận tình hướng dẫn, chỉ bảo, giúp đỡ em rất nhiều trong quá trình tìm hiểu nghiên cứu để hoàn thành luận văn tốt nghiệp này

Em xin chân thành cảm ơn các thầy cô trong khoa Khoa học và Kỹ thuật máy tính, trường Đại học Bách khoa – DHQG TP.HCM đã dạy bảo, trang bị cho em những kiến thức cơ bản trong suốt thời gian nghiên cứu và học tập tại trường của em

Cuối cùng, em xin gửi lời cảm ơn đến gia đình và bạn bè, đồng nghiệp vì đã luôn hỗ trợ em và khuyến khích liên tục trong suốt những năm học tập và qua quá trình nghiên cứu và viết luận văn này

Xin chân thành cảm ơn!

Trang 6

Chương 2: Tổng quan về Data Warehouse

Nội dung chính của chương này là trình bày tổng quan kho dữ liệu gồm định nghĩa, đặc tính, lợi ích, xu hướng tương lai, kiến trúc, tổ chức lô gíc, tổ chức vật lý của kho dữ liệu

Chương 3: Xây dựng kho dữ liệu quản lý thông tin giao thông đô thị

Nội dung chính của chương này bao gồm: Tìm hiểu về dữ liệu giao thông; xác định yêu cầu phân tích; thiết kế mô hình dữ liệu dựa trên yêu cầu phân tích; thiết kế mô hình; thiết kế trích xuất chuyển đổi và nạp số liệu từ hệ thống cung cấp dữ liệu vào kho dữ liệu; xây dựng công cụ báo cáo, thống kê

Chương 4: Kết quả và hướng phát triển

Nội dung chính của chương này là trình bày các kết quả của luận văn, đồng thời đưa ra những vấn đề nghiên cứu tiếp theo cho tương lai

Trang 7

Chapter 2: Overview of Data Warehouse

The main content of this chapter is to present an overview of a data warehouse, including definition, characteristics, benefits, future trends, architecture, logical organization, and physical organization of the data warehouse

Chapter 3: Building urban traffic information management data warehouse

The main contents of this chapter include: Learn about traffic data; determine analysis requirements; design the data model based on analysis requirements; model design; design, extract, convert and load data from data provisioning system into data warehouse; build tools for reporting and statistics

Chapter 4: Results and development direction

The main content of this chapter is to present the results of the thesis, and at the same time give further research issues for the future

Trang 8

LỜI CAM ĐOAN

Với mục đích học tập, nghiên cứu để nâng cao kiến thức và trình độ chuyên môn nên tôi đã làm luận văn này một cách nghiêm túc và hoàn toàn trung thực

Trong luận văn, tôi có sử dụng một số tài liệu tham khảo của một số tác giả Tôi đã nêu ra trong phần tài liệu tham khảo ở cuối luận văn

Tôi xin cam đoan và chịu trách nhiệm về nội dung và sự trung thực trong luận văn tốt nghiệp Thạc sĩ của mình!

Học viên, Hoàng Văn Công

Trang 9

1.1 Thực trạng giao thông Thành phố Hồ Chí Minh 11

1.2 Công tác quản lý giao thông tại TP.HCM hiện nay 13

1.3 Lý do chọn đề tài 14

1.4 Mục tiêu nghiên cứu 14

1.5 Đối tượng và phạm vi nghiên cứu 14

1.6 Ý nghĩa khoa học và thực tiễn của đề tài nghiên cứu 15

Chương 2: TỔNG QUAN VỀ DATA WAREHOUSE 16

2.1 Định nghĩa kho dữ liệu 16

2.2 Đặc tính của kho dữ liệu 17

2.3 Kho dữ liệu và các cơ sở dữ liệu 19

2.4 Lợi ích của kho dữ liệu 20

2.5 Kho dữ liệu hiện nay 21

2.6 Xu hướng tương lai của kho dữ liệu 23

2.7 Kiến trúc của kho dữ liệu 26

Trang 10

3.1 Công trình liên quan và tổng quan hệ thống 39

3.1.1 Một số nghiên cứu liên quan 39

3.1.2 Tổng quan về hệ thống 40

3.2 Mục tiêu của kho dữ liệu quản lý thông tin giao thông 41

3.3 Dữ liệu giao thông sử dụng trong nghiên cứu 42

3.4 Tiêu chí xác định ùn tắc giao thông 43

3.5 Xây dựng kho dữ liệu quản lý thông tin giao thông đô thị 44

3.5.1 Xác định yêu cầu phân tích 44

3.5.2 Kiến trúc của kho dữ liệu 45

3.5.3 Thiết kế mô hình dữ liệu 46

3.5.4 Tạo cấu trúc database 49

3.5.5 Thiết kế trích xuất chuyển đổi nạp dữ liệu 49

3.5.5.1 Mô tả chung 49

3.5.5.2 Kết nối dữ liệu nguồn vào các bảng chiều 50

3.5.6 Xử lý bằng kĩ thuật OLAP sử dụng công cụ Schema-workbench 51

3.5.6.1 Tạo Cube và publish lên server 51

3.5.6.2 Thiết kế biểu đồ thống kê, báo cáo 53

Chương 4: KẾT QUẢ VÀ HƯỚNG PHÁT TRIỂN 54

4.1 Các kết quả đạt được 54

4.2 Hướng nghiên cứu 55

DANH MỤC TÀI LIỆU THAM KHẢO 56

Trang 11

DANH SÁCH HÌNH VẼ

Hình 1 Kiến trúc DWH cơ bản 26

Hình 2 Kiến trúc DWH với Staging Area 27

Hình 3 Kiến trúc kho dữ liệu với Staging Area và Data Mart 27

Hình 4 Lược đồ hình sao 32

Hình 5 Lược đồ bông tuyết rơi 33

Hình 6 Mô hình đa chiều 34

Hình 7 Kiến trúc của DWH thử nghiệm 45

Hình 8: Mô hình quan hệ thông tin giao thông 49

Hình 9 Các trường dữ liệu trong SegmentsReport 50

Hình 10 Kết nối dữ liệu nguồn vào chiều Dim_Date 50

Hình 11 Kết nối dữ liệu nguồn vào bảng Dim_time_of_day 51

Hình 12 Kết nối dữ liệu nguồn vào bảng Dim_Location 51

Hình 13 Kết nối dữ liệu vào bảng fact 51

Hình 14 Tạo Cube 52

Hình 15 Public lên server 53

Hình 16 Thiết kế thống kê, báo cáo 53

DANH SÁCH BẢNG BIỀU Bảng 1: Cấu trúc bảng mô tả chiều ngày 46

Bảng 2: Bảng mô tả chiều thời gian của ngày 47

Bảng 3: Bảng mô tả chiều vị trí 47

Bảng 4: Bảng mô tả Bảng sự kiên 48

CÁC THUẬT NGỮ VÀ VIẾT TẮT

 TP.HCM: Thành phố Hồ Chí Minh

 GTVT: Giao thông vận tải

 CNTT: Công nghệ thông tin

 ATGT: An toàn giao thông

 DWH (Data Warehouse): Kho dữ liệu

 BI (Business Intelligence): Quản trị doanh nghiệp thông minh

Trang 12

 CDI (Customer Data Integration): Tích hợp dữ liệu khách hàng

 CSDL: Cơ sở dữ liệu

 CRM (Customer relationship management): Quản lý mối quan hệ với khách hàng

 DM (Data mart): Kho dữ liệu chủ đề

 ETL (Extract Transform Load): Trích xuất chuyển đổi dữ liệu

 MDM (Master Data Management): Quản lý dữ liệu chủ

 OLTP (Online Transaction Processing): Xử lý giao dịch trực tuyến

 OLAP (Online Analytical Processing): Xử lý phân tích trực tuyến

 SOA (Service-Oriented Architecture): Kiến trúc hướng dịch vụ

 VLDB (Very large DB): Cơ sở dữ liệu rất lớn

 SA (Subject Area) : Vùng chủ đề

Trang 13

MỞ ĐẦU

Với dân số hơn 10 triệu người, Thành phố Hồ Chí Minh (TP.HCM) là điểm nóng về an toàn giao thông (ATGT) Tắc nghẽn giao thông không chỉ làm tê liệt thành phố vào giờ cao điểm, mà còn tăng lượng khí thải độc hại Tình trạng thiếu phương tiện giao thông công cộng cũng ảnh hưởng rất lớn đến chất lượng sống của người dân Trong thời gian qua, TP.HCM đã không ngừng nỗ lực cải tạo, xây dựng phát triển hệ thống cơ sở hạ tầng giao thông vận tải (GTVT) đảm bảo trật tự an toàn giao thông ở mức độ cao nhất với việc triển khai nhiều giải pháp; đặc biệt là việc ứng dụng khoa học công nghệ vào công tác quản lý điều hành giao thông đô thị TP.HCM đã đạt được những thành tựu đáng kể trong việc ứng dụng công nghệ vào quản lý điều hành giao thông vận tải gắn với Đề án xây dựng TP.HCM trở thành đô thị thông minh và gắn với xu hướng ứng dụng những thành tựu khoa học công nghệ trên thế giới, nhất là những thành tựu của cuộc cách mạng công nghiệp 4.0 Tuy nhiên, bên cạnh kết quả đạt được, việc ứng dụng các giải pháp khoa học công nghệ cho công tác quản lý giao thông đô thị vẫn còn nhiều mặt hạn chế, chưa theo kịp với tốc độ phát triển đô thị của thành phố và tình hình giao thông diễn biến ngày càng phức tạp Nguyên nhân là do các vướng mắc về cơ chế phối hợp, về xây dựng, quản lý cơ sở dữ liệu (CSDL)

Xuất phát từ thực tế đó, đồ án tốt nghiệp này trình bày về việc ứng dụng công nghệ thông tin (CNTT) mà cụ thể là ứng dụng công nghệ kho dữ liệu (DWH

- Data Warehouse) vào “Quản lý thông tin giao thông đô thị dựa vào dữ liệu

từ cộng đồng và phân tích dữ liệu lớn” được thực hiện với mong muốn xây

dựng được một DWH ban đầu để hỗ trợ quản lý thông tin giao thông tại Thành phố Hồ Chí Minh

Trang 14

Chương 1: TỔNG QUAN

1.1 Thực trạng giao thông Thành phố Hồ Chí Minh

Giao thông Thành phố Hồ Chí Minh là tổng hòa của nhiều loại hình giao thông hiện hữu phục vụ nhu cầu đi lại trong phạm vi thành phố, giữa TP.HCM với các vùng lân cận và toàn cầu Là đô thị lớn nhất và là đầu mối giao thông quan trọng của Việt Nam, Thành phố Hồ Chí Minh có hệ thống cơ sở hạ tầng đa dạng và hiện đại với nhiều đường trục liên vùng lớn, hai đường cao tốc chính nối các tỉnh miền Tây và miền Đông Nam Bộ, cùng nhiều tuyến quốc lộ trọng điểm Hệ thống đường bộ của TP.HCM dày đặc, có tổng chiều dài 4.044 km lớn nhất trong các đô thị ở Việt Nam

Trong những năm qua, quá trình đô thị hóa diễn ra mạnh mẽ, dân số nhập cư tăng cao, hệ thống cơ sở hạ tầng chưa đồng bộ, định hướng quy hoạch đô thị chưa thật sự đúng đắn, sự quản lý yếu của cơ quan quản lí, ý thức kém của người tham gia giao thông đã làm cho giao thông thành phố Hồ Chí Minh ngày càng tồi tệ Tình trạng kẹt xe, tiếng ồn, ô nhiễm bụi do khí thải của các phương tiện tham gia giao thông đã trở thành một vấn nạn của thành phố Hồ Chí Minh

1.1.1 Quy hoạch đô thị không ổn định

Quy hoạch đô thị bao gồm rất nhiều lĩnh vực (không gian, hạ tầng kỹ thuật đô thị, kinh tế, dân số, môi trường, cảnh quan…) trong đó quy hoạch giao thông luôn là một nôi dung cơ bản, gắn liền với quy hoạch không gian và quy hoạch các phân khu chức năng Tuy nhiên, phần lớn các đô thị trên thế giới không được quy hoạch hiện đại ngay từ khi mới xây dựng mà thường là kế thừa những đô thị đã hình thành một cách tự nhiên trước đó, Sài Gòn - TP.HCM cũng nằm trong trường hợp này

Quy hoạch không ổn định là khó khăn lớn nhất đối với ngành GTVT thành phố vì không còn quỹ đất để tăng tỷ lệ diện tích giao thông thì cũng không thể cải thiện được tình trạng tắc đường, kẹt xe và khi cần chỉnh trang, mở rộng hay tạo ra những trục đường mới cũng không thể làm xáo trộn cuộc sống của quá nhiều người dân và không đủ kinh phí rất lớn để đền bù giải tỏa

Trang 15

1.1.2 Dân số đông, mật độ cao

Những năm gần đây, TP.HCM đang chịu áp lực lớn từ việc gia tăng dân số TP.HCM cũng là nơi đông dân nhất cả nước (chiếm 9,35%) và chiếm hơn 50% dân số vùng Đông Nam bộ Mật độ dân số TP.HCM là 4.292 người/km2 (tăng gần 26% so với năm 2009) và cũng là thành phố có mật độ dân số cao nhất của cả nước Dân số đông, tỷ lệ gia tăng dân số cơ học cao đang dẫn đến tình trạng phương tiện cá nhân tăng cao đây là vấn đề gây nên tình trạng ùn tắc giao thông tại TP.CHCM

1.1.3 Ý thức của người tham gia giao thông còn thấp

Theo thống kê của Ban An toàn giao thông TP.HCM, có đến 90% tai nạn giao thông xảy ra do ý thức người dân còn kém, không chấp hành luật lệ gây hậu quả đáng tiếc

Tình trạng ùn tắc giao thông hiện nay xảy ra hầu hết các nước trên thế giới Tuy nhiên, ở các nước đó khác với ta ở chỗ, khi có ùn tắc giao thông những người điều khiển phương tiện vẫn chấp hành nghiêm chỉnh Luật Giao thông, không luồn lách, đi lên vỉa hè, rú còi inh ỏi, còn ở nước ta thì ngược lại mạnh ai nấy đi, "hở chỗ nào đi chỗ nấy", không theo qui định nào cả

Phần lớn người đi đường cố ý vượt đèn đỏ, leo lề, lấn làn… không chỉ gây ùn tắc, dễ xảy ra tai nạn, mà còn làm xấu xí bộ mặt giao thông đô thị tại Việt Nam Lâu nay chúng ta vẫn nói nhiều đến văn hóa giao thông Nhiều người bảo do dân trí còn thấp nên việc vi phạm giao thông còn diễn biến phức tạp Nhưng thực tế khẳng định rằng, văn hóa giao thông không phụ thuộc vào trình độ văn hóa Bởi, ở các đô thị là nơi tập trung của rất nhiều nhân sĩ, trí thức, người có trình độ văn hóa cao… Tôn trọng pháp luật là tôn trọng chính mình Có ý thức chấp hành luật lệ giao thông đồng nghĩa với việc đem lại an toàn cho chính bạn và những người xung quanh Tình trạng ùn tắc giao thông, tai nạn giao thông gia tăng như hiện nay không thể chỉ đổ lỗi tại hạ tầng giao thông mà trong đó nguyên nhân không nhỏ từ ý thức của người Việt khi tham gia giao thông

Trang 16

1.1.4 Hạ tầng giao thông kém, phương tiện cá nhân tăng cao

Cho đến nay, hạ tầng giao thông TP.HCM chỉ đáp ứng được khoảng 30% so với quy hoạch phát triển giao thông của thành phố Các công trình hạ tầng, đường xá, cầu cống chật hẹp, xuống cấp Quá trình xây dựng chậm chạp, đình trệ Trong khi đó lượng dân cư tập trung đông, số phương tiện cá nhân ngày càng gia tăng đã trở thành "gánh nặng" cho hạ tầng giao thông Giải pháp mang tính quyết định, trước hết phải là cải tạo, mở rộng và xây dựng mới cơ sở hạ tầng, nhanh chóng mở rộng, xây dựng mới các đường trục chính, hoàn thành các tuyến vành đai, cải tạo các nút giao thông

1.2 Công tác quản lý giao thông tại TP.HCM hiện nay

Trong thời gian qua, TP.HCM đã và đang triển khai nhiều giải pháp ứng dụng CNTT trong quản lý và điều hành giao thông đô thị, đảm bảo trật tự ATGT trên địa bàn thành phố Cụ thể, từ đầu năm 2019, đã hoàn thành và đưa vào sử dụng Trung tâm quản lý điều hành giao thông đặt tại Trung tâm Quản lý đường hầm sông Sài Gòn, tăng cường ứng dụng CNTT giải quyết tình trạng ùn tắc giao thông, tai nạn giao khu vực trung tâm thành phố

Theo đó, khu vực giám sát - vận hành hệ thống thiết bị đường hầm gồm 9 màn hình 42 inch để giám sát tình hình giao thông qua đường hầm sông Sài Gòn, 2 màn hình 65 inch phục vụ công tác vận hành hệ thống thiết bị điện, thông gió, thoát nước và hệ thống khẩn cấp đường hầm Khu vực giám sát - vận hành và điều khiển giao thông TP gồm 18 màn hình 42 inch để giám sát camera giao thông, 30 màn hình ghép thành 2 Video Wall (1 video wall có 9 màn hình 46 inch và 1 video wall có 21 màn hình 49 inch) để giám sát, vận hành các hệ thống điều khiển giao thông tích hợp

Bên cạnh đó, TP cũng triển khai một số các giải pháp khác liên quan đến việc ứng dụng CNTT trong lĩnh vực GTVT như: Đưa vào hoạt động hệ thống thu phí dịch vụ sử dụng đường bộ điện tử tự động không dừng (ETC) tại Trạm thu phí cầu Phú Mỹ, Trạm thu phí An Sương - An Lạc Đồng thời, triển khai thí điểm sử dụng vé điện tử smartcard dành cho cho xe buýt; triển khai thực hiện việc thu phí

Trang 17

và quản lý công tác thu phí sử dụng lòng đường để đỗ xe ô tô thông qua ứng dụng di động MyParking trên 22 tuyến đường trên địa bàn TP;

1.3 Lý do chọn đề tài

Trong tình hình giao thông thành phố còn nhiều phức tạp như hiện nay, công tác quản lý giao thông đô thị còn nhiều bất cập, chưa giải quyết hoàn toàn được tình trạng ùn tắc giao thông thường xuyên trên địa bàn thành phố Công tác quản lý, khai thác dữ liệu thông tin giao thông đô thị còn nhiều hạn chế Do đó, tôi chọn

đề tài “Quản lý thông tin giao thông đô thị dựa vào dữ liệu từ cộng đồng và

phân tích dữ liệu lớn” để từ đó sử dụng dữ liệu giao thông có được tiến hành

phân tích và xây dựng báo cáo giúp các nhà quản lý giao thông cũng như công chúng những người tham gia, quan tâm đến vấn đề giao thông dễ dàng tìm hiểu thông tin giao thông

1.4 Mục tiêu nghiên cứu

Xây dựng và triển khai kho dữ liệu để lưu trữ và quản lý thông tin giao thông một cách hiệu quả hơn Với việc quản lý thông tin giao thông đô thị dựa vào dữ liệu từ cộng đồng và phân tích dữ liệu lớn hệ thống sẽ giúp ích trong việc quản lý: thông tin về hạ tầng giao thông, tình trạng giao thông, xác định được tình trạng giao thông của từng con đường cụ thể, lưu lượng phương tiện tham gia giao thông ở các thời điểm khác nhau Phát hiện ra những điểm nóng giao thông và những nguyên nhân gây ra tình trạng giao thông đó từ đó có các phương án giải quyết vấn đề

1.5 Đối tượng và phạm vi nghiên cứu

Xây dựng Kho dữ liệu đặc biệt là DWH u về quản lý thông tin giao thông TP.HCM là một quá trình lâu dài với nhiều công việc Trong luận văn này, dữ liệu DWH được xây dựng chủ yếu tập trung vào xử lý, chuẩn dữ liệu thông tin giao thông từ nhiều nguồn khác nhau để đưa vào kho dữ liệu Quy mô hệ thống thử nghiệm được xây dựng áp dụng cho việc quản lý thông tin giao thông ở thành phố Hồ Chí Minh Tập trung thiết kế mô hình dữ liệu và thu thập dữ liệu từ hệ thống nguồn, xử lý chuẩn hóa dữ liệu, thiết kế một số các báo cáo, thống kê và tra cứu

Trang 18

cơ bản

1.6 Ý nghĩa khoa học và thực tiễn của đề tài nghiên cứu

Ý nghĩa khoa học: Chuẩn hóa dữ liệu từ nhiều nguồn khác nhau vào kho dữ

liệu Làm tiền đề cho việc phát triển các hệ thống quản lý thông tin sau này

Ý nghĩa thực tiễn: Kết quả nghiên cứu làm cơ sở để công tác theo dõi, quản

lý cũng như khi cần tra cứu các thông tin giao thông hiệu quả hơn Từ các nhà quản lý cũng như người dân, những người quan tâm đến dữ liệu giao thông sẽ nắm được tình trạng giao thông một cách chính xác hơn

Trang 19

Chương 2: TỔNG QUAN VỀ DATA WAREHOUSE

2.1 Định nghĩa kho dữ liệu

Kho dữ liệu trong tiếng Anh là Data Warehousing

Kho dữ liệu là kho lưu trữ điện tử của một lượng lớn thông tin của một doanh nghiệp hoặc tổ chức Kho dữ liệu là một thành phần quan trọng của phân tích kinh doanh, sử dụng các kĩ thuật phân tích trên dữ liệu doanh nghiệp

Khái niệm kho dữ liệu được giới thiệu vào năm 1988 bởi 2 nhà nghiên cứu của IBM là Barry Devlin và Paul Murphy Nhu cầu lưu trữ dữ liệu phát triển khi các hệ thống máy tính trở nên phức tạp hơn và phải xử lí lượng dữ liệu ngày càng tăng Một cuốn sách quan trọng về lưu trữ dữ liệu là "Xây dựng kho dữ liệu" của W.H Inmon, được xuất bản lần đầu tiên vào năm 1990 và đã được tái bản nhiều lần kể từ đó

Kho dữ liệu được sử dụng để cung cấp cái nhìn sâu sắc hơn về hiệu suất của một công ty bằng cách so sánh dữ liệu được hợp nhất từ nhiều nguồn không đồng nhất Kho dữ liệu được thiết kế để chạy các câu hỏi và phân tích trên dữ liệu lịch sử có nguồn gốc từ các nguồn giao dịch

Dữ liệu có tính hướng chủ đề (subject-oriented)

 Được tổ chức xung quanh các chủ đề chính, như khách hàng (customer), sản phẩm (product), bán hàng (sales)

 Tập trung vào việc mô hình hóa và phân tích dữ liệu cho các nhà đưa ra quyết định, mà không tập trung vào các hoạt động hay các xử lý giao dịch hàng ngày

 Cung cấp một khung nhìn đơn giản và súc tích xung quanh các sự kiện của các chủ đề

Trang 20

đổi về các dạng qui định, tạo nên một sự nhất quán trong việc hiển thị nội dung khung nhìn duy nhất cho người dùng Để làm được việc này ta cần phải sử dụng các kĩ thuật làm sạch và tích hợp dữ liệu

Dữ liệu có tính biến đổi theo thời gian (time-variant):

 Vì nó chỉ đúng và chính xác tại một thời điểm nào đó, hay trong một khoản thời gian nào đó Các CSDL tác nghiệp lưu trữ dữ liệu có giá trị hiện thời, còn kho dữ liệu cung cấp thông tin để thể hiện triển vọng dựa vào những dữ liệu mang tính lịch sử (chẳng hạn như dựa vào dữ liệu được tích hợp trong 5-10 năm qua)

 Có thể hình dung dữ liệu bên trong kho dữ liệu ở đây được thể hiện như một dãy hình ảnh theo dãy thời điểm trong tiến triển của thời gian

Dữ liệu có tính ổn định (non-volatile):

 Vì không được cập nhập theo thời gian thực dữ liệu mới sẽ được đưa vào kho dữ liệu như là dữ liệu cung cấp thêm chứ không phải như một thay đổi cho dữ liệu đã có

 Kho dữ liệu liên tục hấp thu những dữ liệu mới tích hợp và thêm vào bổ sung vào những dữ liệu trước đó

 Cập nhật tác nghiệp của dữ liệu không xuất hiện trong môi trường kho dữ liệu

o Không yêu cầu các cơ chế xử lý giao dịch, phục hồi và điều khiển tương tranh

o Chỉ yêu cầu hai thao tác trong truy cập dữ liệu: Nạp dữ liệu và truy cập dữ liệu

2.2 Đặc tính của kho dữ liệu

Trước hết ta tìm hiểu khái niệm về vùng chủ đề (SA - Subject Area): một SA là một chủ đề được tách ra từ tập hợp lớn các chủ đề mà người sử dụng cuối quan tâm trong một lĩnh vực tác nghiệp cụ thể nào đó

Trang 21

Những đặc điểm cơ bản của DWH:

 Gắn thời gian

Mỗi bản ghi của kho dữ liệu chứa một yếu tố thời gian như một phần của khóa chính để bảo đảm tính duy nhất của mỗi bản ghi và cung cấp một đặc trưng về thời gian cho dữ liệu Toàn bộ dữ liệu trong kho được tạo ra và gắn liền với một giá trị thời gian nhất định

Trang 22

 Dữ liệu tổng hợp và chi tiết

Dữ liệu chi tiết là thông tin mức thấp nhất được lưu trữ trong kho dữ liệu Dữ liệu tác nghiệp chính là thông tin mức thấp nhất Dữ liệu tổng hợp được tích hợp lại qua nhiều giai đoạn khác nhau

2.3 Kho dữ liệu và các cơ sở dữ liệu

DWH về bản chất cũng là một database bình thường, các hệ quản trị CSDL quản lý và lưu trữ nó như các database thông thường (tuy nhiên có hỗ trợ thêm về quản lý dữ liệu lớn và truy vấn) Thực ra nét khác biệt của DWH so với database là ở quan niệm, cách nhìn vấn đề:

 Trước tiên DWH là database rất lớn (VLDB - very large database)

 Database hướng về xử lý thời gian thực, DWH hướng về tính ổn định

 Database phục vụ xử lý transaction, cập nhật Datawarehouse thường chỉ đọc, phục vụ cho những nhu cầu báo cáo VD: Chúng ta sẽ yêu cầu hãy cho biết trong 5 năm, bộ phận phần mềm đã làm được những dự án nào từ đó chúng ta sẽ có quyết định về hiệu năng của nhóm này

 DWH sẽ lấy thông tin có thể từ nhiều nguồn khác nhau: DB2, Oracle, SQLserver thậm chí cả File thông thưởng rồi làm sạch chúng và đưa vào cấu trúc của nó đó là VLDB DWH rất lớn nên muốn cho từng bộ phận chuyên biệt người sử dụng cuối cùng có thể khai thác thông dễ dàng thì bản thân DWH phải được chuyên hoá, phân ra thành những chủ đề, do đó những chủ đề chuyên môn hóa đó tạo thành một Database chuyên biệt-đó là Data mart VD: DWH của Microsoft là rất lớn, trong một núi thông tin đó làm sao khai thác? Vì thế có rất nhiều Data mart về kinh doanh, tiếp thị, kỹ thuật, testing, Có một điểm lưu ý ở đây là có một công cụ hay đúng hơn là một chuẩn công cụ mà mọi hệ quản trị Database hỗ trợ cho việc truy vấn thông tin trong Datamart rồi đưa ra những quyết định, nhận dịnh những thông tin trong Datamart - Đó là xử lý phân tích trực tuyến (OLAP - Online Analytical Processing)

Trang 23

 Một điểm quan trọng là Database thường được chuẩn hóa (Dạng chuẩn 1, 2, 3, BCK) để khai thác DWH phải phi chuẩn hoá rồi sau đó có thể chuẩn hoá theo start chema trong Data mart, điều này đồng nghĩa vớI việc DWH sẽ trùng lắp thông tin Thật ra điều này theo tôi nghĩ là hiển nhiên vì việc chuẩn hoá nhằm tránh sự trùng lắp thông tin, do đó sẽ nhất quán trong việc cập nhật, thêm, xoá, sửa, tuy nhiên DWH là Database rất lớn phục vụ cho báo cáo, truy vấn chỉ đọc nên việc trùng lắp thông tin sẽ giúp thao tác tìm kiếm sẽ nhanh hơn Đây cũng là một quy luật: Càng trùng lắp thông tin thì tìm kiếm càng dễ dàng và ngược lại

2.4 Lợi ích của kho dữ liệu

Tạo ra những quyết định có ảnh hưởng lớn: Một DWH cho phép trích rút tài nguyên nhân lực và máy tính theo yêu cầu để cung cấp các câu truy vấn và các báo cáo dựa vào CSDL hoạt động và sản xuất Điều này tạo ra sự tiết kiệm đáng kể Có kho dữ liệu cũng trích rút tài nguyên khan hiếm của hệ thống sản xuất khi thực thi một chương trình quá lâu hoặc các báo cáo và các câu truy vấn phức hợp Công việc kinh doanh trở nên thông minh hơn: Tăng thêm chất lượng và tính linh hoạt của việc phân tích kinh doanh do phát sinh từ cấu trúc dữ liệu đa tầng của kho dữ liệu, đó là nơi cung cấp dữ liệu được sắp xếp từ mức độ chi tiết của công việc kinh doanh cho đến mức độ cao hơn - mức độ tổng quát Đảm bảo được dữ liệu chính xác và đáng tin cậy do đảm bảo được là trong kho dữ liệu chỉ chứa duy nhất dữ liệu có chất lượng cao và ổn định (trusted data)

Dịch vụ khách hàng được nâng cao: Một doanh nghiệp có thể giữ gìn mối quan hệ với khách hàng tốt hơn do có mối tương quan với dữ liệu của tất cả khách hàng qua một kho dữ liệu riêng

Tái sáng tạo những tiến trình kinh doanh: Sự cho phép phân tích không ngừng thông tin kinh doanh thường cung cấp sự hiểu biết mọi mặt của phương thức kinh doanh do đó có thể làm nảy sinh ra những ý kiến cho sự sáng tạo ra những tiến trình này lại Chỉ khi xác định chính xác các nhu cầu từ kho dữ liệu thì mới giúp ta đánh giá được những hạn chế và mục tiêu kinh doanh một cách chính

Trang 24

xác hơn

Tái sáng tạo hệ thống thông tin: Một DWH là nền tảng cho các yêu cầu dữ liệu trong mọi lĩnh vực kinh doanh, nó cung cấp một chi phí ảnh hưởng nghĩa là đưa ra thói quen cho cho cả hai sự chuẩn hóa dữ liệu và sự chuẩn hóa hoạt động của hệ điều hành theo chuẩn quốc tế

2.5 Kho dữ liệu hiện nay

Ngày nay, hầu hết các kho dữ liệu đang được dùng cho quản trị doanh nghiệp thông minh làm tăng mối quan hệ khách hàng (CRM - Customer Relationship Management) và khai thác dữ liệu Một số được sử dụng để báo cáo tổng hợp, một số được sử dụng để tích hợp dữ liệu Các cách sử dụng này đều tương quan với nhau; ví dụ, quản trị doanh nghiệp thông minh (BI - Business Intelligence) và CRM sử dụng khai thác dữ liệu, kinh doanh thông minh sử dụng báo cáo, còn BI và CRM còn sử dụng tích hợp dữ liệu Trong các phần sau sẽ mô tả cách sử dụng chính, bao gồm quản trị doanh nghiệp thông minh, CRM và khai thác dữ liệu

Quản trị doanh nghiệp thông minh

Dường như nhiều nhà cung cấp thích dùng quản trị doanh nghiệp thông minh hơn là DWH Nói cách khác, họ tập trung hơn vào việc xem DWH có thể làm gì cho doanh nghiệp Nhiều DWH hiện nay được dùng cho BI: giúp nhà kinh doanh hiểu công việc kinh doanh của họ hơn; giúp họ đưa ra các quyết định hành động, chiến lược, và mục tiêu kinh doanh tốt hơn; giúp họ cải tiến hoạt động kinh doanh

Một số các nhà lãnh đạo doanh nghiệp ngày nay ra quyết định dựa trên dữ liệu Và 1 công cụ quản trị doanh nghiệp thông minh chạy và vận hành trên của kho dữ liệu có thể là một công cụ hỗ trợ tốt cho mục đích đó Điều này có được là do sử dụng báo cáo và OLAP Báo cáo DWH được sử dụng để đưa ra số liệu kinh doanh đã tổng hợp trong DWH tới những người kinh doanh OLAP cho phép doanh nghiệp phân tích sự ảnh hưởng lẫn nhau của dữ liệu giao dịch kinh doanh được lưu trữ trong DWH đa chiều

Trang 25

Quản lý mối quan hệ khách hàng:

Một hệ thống quản lý mối quan hệ khách hàng (CRM - Customer Relationship Management) gồm có những ứng dụng mà hỗ trợ quản lý mối quan hệ khách hàng Trong một hệ thống CRM, chức năng lý tưởng sau đây được xây dựng trong một DWH đa chiều:

o Đồng nhất khách hàng o Quản lý cho phép o Phân đoạn chiến dịch o Dịch vụ/hỗ trợ khách hàng o Phân tích khách hàng o Cá nhân hóa,

Khai phá dữ liệu:

Data mining là quá trình tìm kiếm các mẫu mới, những thông tin tiềm ẩn mang tính dự đoán trong các khối dữ liệu lớn Những công cụ data mining có thể phát hiện những xu hướng trong tương lai, các tri thức mà data mining mang lại cho các doanh nghiệp có thể ra các quyết định kịp thời và trả lời những câu hỏi trong lĩnh vực kinh doanh mà trước đây tốn nhiều thời gian để xử lý Với ưu điểm trên, Data mining đã chứng tỏ được tính hữu dụng của nó trong môi trường kinh doanh đầy tính cạnh tranh ngày nay và được ứng dụng rộng rãi trong các lĩnh vực thương mại, tài chính, điều trị y học, giáo dục, viễn thông,

Quản lý dữ liệu chủ:

Trong hệ thống xử lý giao dịch trực tuyến (OLTP - Online Transaction Processing), có hai loại dữ liệu: dữ liệu giao dịch và dữ liệu chủ Dữ liệu giao dịch ghi các sự kiện kinh doanh Dữ liệu chủ bao gồm các thực thể mô tả các sự kiện kinh doanh Dữ liệu chủ bao gồm những câu trả lời của những câu hỏi của ai, cái gì, và ở đâu về một giao dịch kinh doanh

Ví dụ: Trong cửa hàng âm nhạc trực tuyến, sự kiện kinh doanh là một khách hàng mua một bài hát đây là dữ liệu giao dịch Dữ liệu chủ là khách hàng, sản

Trang 26

phẩm, nhãn hiệu

Quản lý dữ liệu chủ (MDM - Master Data Management) là quá trình chiết, làm sạch, lưu trữ, cập nhật, và phân phối dữ liệu chủ Một hệ thống MDM khôi phục dữ liệu chủ từ hệ thống OLTP Hệ thống MDM cũng cố dữ liệu chủ và xử lý dữ liệu thông qua việc định nghĩa trước các quy tắc về chất lượng dữ liệu Dữ liệu chủ sau đó được nạp tới DWH chủ Bất kỳ sự thay đổi nào trên dữ liệu chủ trong hệ thống OLTP được gửi tới hệ thống MDM, và DWH chủ được cập nhật để phản ánh những thay đổi đó Hệ thống MDM sau đó chuyển dữ liệu chính tới những hệ thống khác

Tích hợp dữ liệu khách hàng:

Tích hợp dữ liệu khách hàng (CDI - Customer Data Integration) là MDM cho dữ liệu khách hàng CDI là một quá trình chiết, làm sạch, lưu trữ, duy trì, và phân phối dữ liệu của khách hàng CDI hệ thống chiết dữ liệu khách hàng từ hệ thống OLTP, làm sạch nó, lưu trữ trong một kho dữ liệu khách hàng chính, duy trì dữ liệu của khách hàng, lưu giữ nó, và phân phối các dữ liệu khách hàng cho các hệ thống khác

Hệ thống CDI cho phép bạn có một phiên bản dữ liệu khách hàng sạch hơn, duy nhất, đáng tin cậy mà các ứng dụng khác trong các doanh nghiệp có thể sử dụng Điều này cũng có thể gia tăng lợi ích kinh doanh chẳng hạn như tăng sự hài lòng của khách hàng và phân tích kinh doanh tốt hơn, và nó làm giảm sự phức tạp của các quá trình sử dụng dữ liệu khách hàng Tất cả các loại khác nhau của quản lý dữ liệu chính, CDI là sử dụng rộng rãi nhất bởi vì mỗi tổ chức có khách hàng CDI cung cấp dữ liệu tích hợp sạch cho quản lý mối quan hệ khách hàng

2.6 Xu hướng tương lai của kho dữ liệu

Dữ liệu phi cấu trúc:

Dữ liệu có cấu trúc thường dùng để chỉ dữ liệu lưu trữ trong các hệ quản trị CSDL quan hệ như Oracle, MS SQL Server, MySQL, trong đó các thực thể và các thuộc tính được định nghĩa sẵn Ví dụ, dữ liệu của một thí sinh dự thi đại học có thể bao gồm các thông tin như họ tên, năm sinh, trường dự thi, điểm thi các

Trang 27

môn

Trong khi đó dữ liệu phi cấu trúc (Unstructured Data) thường dùng để chỉ dữ liệu ở dạng tự do (free type) và không cần có cấu trúc định nghĩa sẵn Các trang web, video, ảnh, âm thanh là các ví dụ của dữ liệu phi cấu trúc

Dữ liệu phi cấu trúc được lưu trữ trong kho dữ liệu như thế nào? Và, sau khi lưu giữ, làm thế nào để nhận được những thông tin mà bạn cần ra khỏi dữ liệu này? Để trả lời câu hỏi thứ nhất, đối với mỗi thành phần dữ liệu phi cấu trúc bạn định nghĩa thuộc tính và sau đó thiết lập những thành phần đó theo các thuộc tính Bạn có thể lưu trữ các thành phần dữ liệu phi cấu trong một CSDL quan hệ như là một cột đối tượng nhị phân, với các thuộc tính như là các cột khác Hoặc bạn có thể lưu trữ các thành phần dữ liệu phi cấu trúc trong hệ thống tập tin và chỉ cần lưu trữ các con trỏ vào tập tin trong CSDL

Mỗi kiểu của dữ liệu phi cấu trúc có thuộc tính về vật lý và nội dung khác nhau Các thuộc tính có thể được lưu giữ trong một hay nhiều CSDL để cho phép người sử dụng dễ dàng tìm thấy dữ liệu phi cấu trúc riêng chi tiết Nội dung của các dữ liệu phi cấu trúc chính nó có thể được phân tích, trích xuất, phân loại, lưu trữ và để hỗ trợ truy vấn thông tin

Tìm kiếm

Phần này câu trả lời câu hỏi thứ hai, làm thế nào để bạn nhận được những thông tin ra? Câu trả lời là bằng cách tìm kiếm (Search) Để có được thông tin từ dữ liệu có cấu trúc, bạn có thể sử dụng các câu truy vấn như báo cáo tỉnh, hoặc câu truy vấn tự xây dựng Nếu bạn sử dụng một ứng dụng BI, các ứng dụng có thể đi qua các siêu dữ liệu và hiển thị các cấu trúc dữ liệu, và sau đó hỗ trợ bạn trong việc điều hướng qua các dữ liệu để lấy lại thông tin bạn cần

Để có được thông tin từ dữ liệu phi cấu trúc, đặc biệt là các văn bản dữ liệu như các tài liệu, email, và các trang web, bạn thực hiện tìm kiếm Giống như trên Internet, các công cụ tìm kiếm đã thu thập thông tin kho dữ liệu và đánh chỉ mục các dữ liệu phi cấu trúc Các công cụ tìm kiếm có phân loại các dữ liệu phi cấu trúc dựa trên kiểu và thuộc tính của nó và, trong trường hợp các trang web, liên

Trang 28

kết của nó

Khi bạn gõ thông tin tìm kiếm vào ô tìm kiếm, và các công cụ tìm kiếm sẽ đi qua các chỉ mục, tìm đến vị trí của những thông tin, và hiển thị các kết quả Nó cũng có thể cung cấp giới hạn trước tìm kiếm, nó có thể hiển thị cấu trúc cây cho bạn để điều hướng và lựa chọn Nó cũng có thể nhớ người sử dụng tìm kiếm mà có thể hỗ trợ bạn trong việc xác định những gì để loại khi tìm kiếm

Hiện nay tìm kiếm đã trở thành một xu hướng trong quản trị doanh nghiệp thông minh và kho dữ liệu, bởi họ có thể lựu chọn dữ liệu phi cấu trúc của kho trong kho dữ liệu khổng lồ

Kiến trúc hướng dịch vụ:

Kiến trúc hướng dịch vụ (SOA - Service-Oriented Architecture) là một hướng tiếp cận với việc thiết kế và tích hợp các phần mềm, chức năng, hệ thống theo dạng module, trong đó mỗi module đóng vai trò là một dịch vụ và có khả năng truy nhập thông qua môi trường mạng Hiểu một cách đơn giản thì một hệ thống SOA là một tập hợp các dịch vụ được chuẩn hóa trên mạng trao đổi với nhau trong nhữ cảnh một tiến trình nghiêp vụ

Một DWH hệ thống bao gồm nhiều thành phần: hệ thống nguồn, hệ thống sao chép dữ liệu từ một hoặc nhiều nguồn vào hệ thống đích (ETL - Extract Transform Load), hệ thống siêu dữ liệu, hệ thống báo cáo, hệ thống CSDL riêng của mình, Bạn có thể xây dựng nó như một ứng dụng khổng lồ với tất cả các thành phần quan hệ chặt chẽ; có nghĩa là, bạn không thể thay thế một phần mà không ảnh hưởng đến các thành phần khác Hoặc bạn có thể xây dựng theo kiến trúc hướng dịch vụ với nhiều thành phần nhỏ hơn, các thành phần độc lập mà nói chuyện với nhau bằng cách cung cấp và sử dụng các dịch vụ của nó Trong tương lai, nó cũng có thể dễ dàng hơn để cập nhật một thành phần không ảnh hưởng của những người khác và các thành phần khác nhau để kết nối được thực hiện bằng cách sử dụng các công nghệ khác nhau

Kho dữ liệu thời gian thực:

DWH ngày nay thông thường được cập nhật từng ngày, từng tuần, từng

Trang 29

tháng, Có một số yêu cầu của những người sử dụng muốn nhìn thấy dữ liệu trong kho dữ liệu được cập nhật cứ hai phút một lần hay thậm chí thời gian thực Một DWH thời gian thực (Real-Time Data Warehouse) là một DWH mà được cập nhật (bởi ETL) ngay thời điểm giao dịch xảy ra trong hệ thống nguồn

2.7 Kiến trúc của kho dữ liệu

DWH và kiến trúc của nó tùy thuộc vào vị trí của từng tổ chức Có 3 kiến trúc phổ biến của DWH:

 Kiến trúc DWH cơ bản: Đây là kiến trức đơn giản cho DWH

 Kiến trúc DWH với Staging Area: thêm thành phần làm sạch và xử lý dữ liệu trước khi đưa vào DWH

Trang 30

Hình 2 Kiến trúc DWH với Staging Area [10]

 Kiến trúc DWH với Staging Area và Data Mart: So với kiến trúc trên có thêm data mart, dữ liệu được chuyển đổi và biểu diễn theo yêu cầu bởi một nhóm các người dùng đặc biệt

Hình 3 Kiến trúc kho dữ liệu với Staging Area và Data Mart [10]

2.7.1 Nguồn dữ liệu

Nguồn dữ liệu của DWH gồm nhiều loại khác nhau:

 Dữ liệu từ các hệ thống tác nghiệp o Chứa dữ liệu chi tiết và hiện tại

o Được sử dụng cho các giao dịch hàng ngày o Chứa dữ liệu thích hợp hiện hành

Ngày đăng: 03/08/2024, 13:53

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w