1. Trang chủ
  2. » Luận Văn - Báo Cáo

Áp dụng Data Warehouse trong phân tích thông tin về các dịch vụ giá trị gia tăng trên điện thoại

73 1,1K 9
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 73
Dung lượng 1,71 MB

Nội dung

Tài liệu tham khảo công nghệ thông tin Áp dụng Data Warehouse trong phân tích thông tin về các dịch vụ giá trị gia tăng trên điện thoại

Trang 1

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

1 Nguyễn Lương Thái Đức

Áp dụng Data Warehouse trong phân tích thông tin về

các dịch vụ giá trị gia tăng trên điện thoại

KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY

Ngành: Công Nghệ Thông Tin

HÀ NỘI - 2010

Trang 2

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

2 Nguyễn Lương Thái Đức

Áp dụng Data Warehouse trong phân tích thông tin về

các dịch vụ giá trị gia tăng trên điện thoại

KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY

Ngành: Công Nghệ Thông Tin

Cán bộ hướng dẫn: ThS Lê Hồng Hải

HÀ NỘI - 2010

Trang 3

LỜI CẢM ƠN

Trước tiên, em muốn gửi lời cảm ơn sâu sắc nhất đến thầy giáo ThS Lê Hồng Hải, ngườiđã tận tình hướng dẫn em trong suốt quá trình nghiên cứu và hoàn thành khóa luận tốtnghiệp

Em xin bày tỏ lời cảm ơn sâu sắc đến những thầy cô giáo đã giảng dạy em trong bốn nămqua, những kiến thức mà em nhận được trên giảng đường đại học sẽ là hành trang giúp

em vững bước trong tương lai

Cuối cùng, em muốn gửi lời cảm ơn sâu sắc đến gia đình và bạn bè, những người luônkịp thời động viên và giúp đỡ em vượt qua những khó khăn trong cuộc sống

Hà nội, ngày 21/05/2010

Nguyễn Lương Thái Đức

Trang 4

DANH SÁCH HÌNH VẼ 4

THUẬT NGỮ VÀ VIẾT TẮT 6

TÓM TẮT NỘI DUNG 7

MỞ ĐẦU 8

Chương 1: Tổng quan 8

1.1 Tổng quan về hệ thống và lý do lựa chọn đề tài 10

1.2 Dữ liệu của hệ thống 11

1.3 Mục tiêu và phạm vi của đề tài 11

1.3.1 Mục tiêu 11

1.3.2 Phạm vi của đề tài 12

1.4 Công cụ thực hiện 12

1.4.2 Hệ quản trị cơ sở dữ liệu cho kho dữ liệu 12

1.4.2 Công cụ xây dựng kho dữ liệu 12

1.4.3 Công cụ xây dựng báo cáo 12

CHƯƠNG 2: TỔNG QUAN VỀ DATA WAREHOUSE 13

2.1 Định nghĩa kho dữ liệu 13

2.2 Các đặc trưng của kho dữ liệu 13

2.2.1 Hướng chủ đề 13

2.2.2 Tính tích hợp 13

2.2.3 Tính bền vững: 13

2.2.4 Gắn với thời gian 14

2.2.5 Dữ liệu tổng hợp : 14

2.3 Kiến trúc của kho dữ liệu 14

2.3.1 Nguồn dữ liệu 14

2.3.2 Khu vực xử lý 15

2.3.2.1 Nhiệm vụ : 15

2.3.2.2 Các bước : 15

2.3.2.3 Các kiểu kiến trúc ETL 16

2.3.3 Kho dữ liệu 18

2.4 Mô hình logic của kho dữ liệu 19

2.4.1 Lược đồ hình sao 19

2.4.2 Lược đồ hình bông tuyết 19

2.4.3 Mô hình dữ liệu nhiều chiều 20

2.5 Kho dữ liệu ngày nay 21

2.5.1 Quản trị doanh nghiệp thông minh (Busines Intelligence) 21

Trang 5

2.5.2 Quản lý mối quan hệ khách hàng 21

2.5.3 Khai phá dữ liệu 21

2.5.4 Quản lý dữ liệu chủ 22

2.5.5 Tích hợp dữ liệu khách hàng 22

2.6 Xu hướng tương lai của kho dữ liệu 22

2.6.1 Dữ liệu phi cấu trúc 23

2.6.2 Tìm kiếm 23

2.6.3 Kiến trúc hướng dịch vụ 23

2.6.4 Kho dữ liệu thời gian thực 23

CHƯƠNG 3:TỔNG QUAN VỀ MICROSOFT SQL SERVER 2005 24

3.1 Tổng quan về hệ quản trị cơ sở dữ liệu Microsoft SQL Server 24

3.2 Tổng quan về SQL Server Integration Service(SSIS) 26

3.3 Tổng quan về SQL Server Analysis Service 27

3.4 Tổng quan về ngôn ngữ truy vấn MDX 29

3.5 Tổng quan về SQL Server Reporting Services 32

3.6 Phương pháp xây dựng kho dữ liệu bằng các công cụ của Microsoft SQL Server 2005 33

CHƯƠNG 4: PHÂN TÍCH THIẾT KẾ 35

4.1 Phân tích hệ thống nguồn 35

4.1.1 Chức năng thống kê báo cáo và theo dõi lịch sử hoạt động của khách hàng 35

4.1.2 Quản lý quảng cáo của các dịch vụ 36

4.2 Thiết kế kho dữ liệu 36

4.2.1 Kho dữ liệu chủ đề tổng hợp sản lượng dịch vụ 36

4.2.2 Hệ thống quản lý quảng cáo 41

4.2.3 Kho dữ liệu chủ đề chi tiết sử dụng dịch vụ của khách hàng 45

4.3 Sử dụng SSIS để xây dựng tiến trình ETL 47

4.3.1 Mô tả chung 47

4.3.2 Ánh xạ dữ liệu cho các chiều 47

4.3.2.1 Chiều mã dịch vụ 47

4.3.2.2 Chiều mạng viễn thông 48

4.3.2.3 Chiều đầu số 48

4.3.2.4 Chiều nhóm dịch vụ 49

4.3.2.5 Chiều thời gian 49

4.3.2.6 Bảng sự kiện tổng hợp sản lượng 49

4.3.2.7 Chiều Quảng cáo 50

4.3.2.8 Chiều khách hàng 50

4.3.2.9 Ánh xạ dữ liệu cho bảng sự kiện quảng cáo 51

4.3.2.10 Ánh xạ dữ liệu cho bảng sự kiện chi tiết dịch vụ 51

Trang 6

4.4 Sử dụng dịch vụ SSAS để xây dựng các cơ sở dữ liệu nhiều chiều 51

4.4.1 Xây dựng cube cho kho dữ liệu chủ đề tổng hợp sản lượng 51

4.4.2 Xây dựng cube cho kho dữ liệu chủ đề quảng cáo và chi phí 56

4.4.3 Xây dựng cube cho kho dữ liệu chủ đề chi tiết sử dụng dịch vụ 57

4.4.4 Sử dụng truy vấn MDX để lấy dữ liệu trên cube 57

4.4 Sử dụng dịch vụ SSRS để xây dựng các báo cáo 58

4.4.1 Báo cáo sản lượng đầu số 58

4.4.1.1 Yêu cầu: 58

4.4.1.2 Cách xây dựng 58

4.4.2 Báo cáo sản lượng theo các mạng viễn thông 62

4.4.3 Báo cáo sản lượng theo đầu số và nhóm dịch vụ 63

KẾT LUẬN 65

5.1 Những điều đã làm được 65

5.2 Những điều chưa làm được và hướng phát triển 65

TÀI LIỆU THAM KHẢO 66

PHỤ LỤC 1 67

PHỤ LỤC 2 68

Trang 7

DANH SÁCH HÌNH VẺ

Hình 1.1 Kiến trúc kho dữ liệu 12

Hình 2.2 tiến trình ETL nằm ở nguồn dữ liệu 15

Hình 2.3 Tiến trình ETL nằm ở server chứa kho dữ liệu 15

Hình 2.3 Tiến trình ETL nằm ở server trung gian 16

Hình 2.4 Lược đồ hình sao 17

Hình 2.5 lược đồ hình bông tuyết 18

Hình 2.6 Mô hình dữ liệu nhiều chiều 18

Hình 3.1 Các dịch vụ của SQL Server 2005 22

Hình 3.2 Công cụ phát triển SSIS 24

Hình 3.3 Kiến trúc của SSAS 26

Hình 3.4 Kết quả truy vấn 29

Hình 3.5 Kiến trúc của Reporting Service 31

Hình 3.5 Mô hình xây dựng kho dữ liệu 32

Hình 4.1 sơ đồ kho dữ liệu tổng hợp sản lượng dịch vụ 35

Hình 4.2 Sơ đồ kho dữ liệu chủ đề quảng cáo và doanh thu 40

Hình 4.3Mô hình dữ liệu nguồn của chiều quảng cáo 42

Hình 4.4 Mô hình kho dữ liệu chủ đề chi tiết sử dụng dịch vụ 43

Hình 4.5 Mô hình ETL 45

Hình 4.6 Ánh xạ chiều mã dịch vụ 46

Hình 4.7 Ánh xạ chiều mạng viễn thông 46

Hình 4.8 Ánh xạ chiều đầu số 47

Hình 4.9 Ánh xạ nhóm dịch vụ 47

Hình 4.10 Ánh xạ chiều quảng cáo 48

Hình 4.11 Ánh xạ cho chiều khách hàng 49

Hình 4.12 Lược đồ kho dữ liệu tổng hợp sản lượng 50

Trang 8

Hình 4.13 Chọn các bảng cho data soures views 51

Hình 4.14 Đặt các quan hệ cho các bảng 52

Hình 4.15 Quyết định các bảng chiều và sự kiện 53

Hình 4.17 Chọn các Measures Các thành phần tính toán 53

Hình 4.18 Định nghĩa các hàm tính toán 54

Hình 4.19 Kết quả hiển thị truy vấn 55

Hình 4.20 Xây dựng truy vấn 57

Hình 4.21 Thiết kế báo cáo 58

Hình 4.22 Màn hình xây dựng báo cáo 58

Hình 4.22 Kết quả hiển thị .59

Hình 4.24 Báo cáo theo mạng viễn thông 60

Hình 4.25 Báo cáo theo nhóm dịch vụ 61

Trang 9

THUẬT NGỮ VÀ VIẾT TẮT

SSIS (SQL Server Intergration Services): Dịch vụ tích hợp dữ liệu của SQL Server 2005SSAS(SQL Server Analysis Services): Dịch vụ phân tích dữ liệu của SQL Server 2005SSRS(SQL Server Reporting Services): Dịch vụ quản lý báo cáo của SQL Server 2005MSSQL(Microsoft SQL Server ): Hệ quản trị cơ sở dữ liệu của Microsoft

OLAP (Online Transaction Processing): xử lý giao dịch trực tuyến

ETL (Extract Transform Load ): Tiến trình trích xuất, chuyển đổi và nạp dữ liệu

MDX(Multidimensional eXpressions) : Ngôn ngữ truy vấn đa chiều

BIDS(Business Intelligence Deverlopment Studio) : công cụ phát triển của SQL Server 2005

Trang 10

TÓM TẮT NỘI DUNG

Nội dung chính của đề tài là xây dựng kho dữ liệu cho việc quản lý kinh doanh cácdịch vụ giá trị gia tăng trên điện thoại tại Công Ty Cổ Phần Truyền Thông VMG Việt Nam Đề tài sẽ sử dụng các công cụ của Microsoft SQL Server 2005 để xây dựng kho dữ liệu từ hệ thống hiện tại của công ty, quản lý kho dữ liệu và xây dựng các báo cáo cho người dùng có thể xem qua web

Trang 11

MỞ ĐẦU

Trong nền kinh tế hiện nay, thông tin là yếu tố sống còn đối với bất kỳ doanh nghiệp nào.Việc nắm bắt thông tin giúp cho các doanh nghiệp hoạch định các chiến lược kinh doanh cho mình một cách chính xác

Trong những năm gần đây, công nghệ kho dữ liệu ra đời đáp ứng được nhu cầu quản lý, lưu trữ thông tin có khối lượng lớn và có khả năng khai thác dữ liệu đa chiều và theo chiều sâu nhằm hỗ trợ việc ra quyết định của các nhà quản lý

Đối với các doanh nghiệp nước ngoài, họ đã áp dụng kho dữ liệu trong quản lý phân tích dữ liệu và đã cho thấy hiệu quả to lớn giúp ích cho việc hoạch định các chiến lược kinh doanh cũng như nghiên cứu phát triển các ứng dụng phân tích dữ liệu

Tại Công Ty Cổ Phần Truyền Thông VMG , xây dựng kho dữ liệu có ý nghĩa hết sức quan trọng Kho dữ liệu sẽ thu thập dữ liệu từ các hệ thống nghiệp vụ, cung cấp các thôngtin hữu ích cho các nhà quản lý có thể có những thông tin chính xác nhanh chóng, hỗ trợcho việc ra các quyết định kịp thời và có lợi nhất cho doanh nghiệp Ngoài ra kho dữ liệu còn cung cấp cho những người phát triển các ứng dụng phân tích dữ liệu dễ dàng tiếp cận dữ liệu, có được dữ liệu chính xác hơn và phát triển ứng dụng dễ dàng hơn

Xuất phát từ nhu cầu thực tiễn tại Công Ty Cổ Phần Truyền Thông VMG , khóa luận sẽ thực hiện “Áp dụng kho dữ liệu trong phân tích số liệu về các dịch vụ giá trị gia tăng trên điện thoại” bằng công cụ của Microsoft SQL Server 2005 với mong muốn xây dựng được kho dữ liệu hoàn chỉnh hỗ trợ cho việc quản lý tại Công Ty Cổ Phần Truyển Thông VMG

Nội dung của khóa luận bao gồm những phần chính như sau:

Mở đầu

Đây là phần giới thiệu chung về lý do chọn đề tài, cũng như bố cục chung của khóa luận

Trang 12

Chương 1: Tổng quan

Nội dung chính của chương này là nêu lên tổng quan về dữ liệu của hệ thống cung cấp các dịch vụ giá trị gia tăng trên điện thoại, mục tiêu , phạm vi của đồ án , công cụ và phương pháp xây dựng kho dữ liệu

Chương 2: Tổng quan về Data WareHouse

Nội dung chính của chương này là trình bày tổng quan về data warehouse gồm: định nghĩa, đặc tính,mô hình, kiến trúc và xu hướng tương lai của data warehouse

Chương 3 Tổng quan về Microsoft SQL Server 2005

Mục tiêu chính của chương này nhằm giới thiệu về các công cụ sẽ được sử dụng để xây dựng kho dữ liệu Hệ quản trị cơ sở dữ liệu Microsoft SQL Server 2005 , dịch vụ Sql Server Analysis Service , Ngôn ngữ truy vấn MDX trên cơ sở dữ liệu đa chiều, dịch vụ Sql Server Reporting Service và hướng xây dựng kho dữ liệu bằng các công

cụ này

Chương 4: Phân tích thiết kế và triển khai kho dữ liệu hoạt động dịch vụ

Nội dung chính của chương này bao gồm : Tìm hiểu về dữ liệu hệ thống, xác định yêu cầu đặt ra , thiết kế mô hình kho dữ liệu dựa trên yêu cầu đã phân tích và dữ liệu hệ thống nguồn, thiết kế tiến trình ETL để chuyển dữ liệu vào hệ thống, sử dụng công

cụ SQL Server Analysis Service để xây dựng các cơ sở dữ liệu nhiều chiều , sử dụng công cụ SQL Reporting Service để xây dựng các báo cáo

Kết luận

Đây là phần kết kuận của khóa luận đưa ra những điều đã làm được và chưa làm

được của khóa luận và hướng phát triển của khóa luận

Các tài liệu tham khảo.

Các phụ lục

Trang 13

CHƯƠNG 1: TỔNG QUAN

Tóm lược nội dung :

Mục tiêu của chương này nhằm trình bày lý do lựa chọn đề tài, tổng quan về dữ liệu của hệ thống cung cấp các dịch vụ giá trị gia tăng trên điện thoại, mục tiêu và phạm

vi của đồ án , công cụ và phương pháp xây dựng kho dữ liệu.

1.1 Tổng quan về hệ thống và lý do lựa chọn đề tài.

Công Ty Cổ Phần Truyền Thông VMG là một trong những đơn vị đi đầu về kinhdoanh dịch vụ giá trị gia tăng trên điện thoại di động Công ty có một hệ thống theodõi và báo cáo sản lượng nhằm phục vụ cho báo cáo thống kê và phân tích hoạt độngcủa dịch vụ phục vụ cho việc quản lý Hệ thống này hoạt động dựa trên số liệu về quátrình sử dụng dịch vụ của khách hàng Sau một thời gian dài hoạt động gần đây do dữliệu hệ thống ngày một gia tăng cùng với nhu cầu cao hơn trong phân tích số liệukhách hàng hệ thống cũ đã không đáp ứng được các nhu cầu sau đây:

- Do dữ liệu ngày càng gia tăng vì thế tốc độ xử lý các truy vấn để tạo báo cáosản lượng chậm

- Tổ chức dữ liệu theo mô hình cơ sở dữ liệu quan hệ khiến cho việc truy vấndữ liệu không linh hoạt Với những câu hỏi nghiệp vụ phức tạp việc truy vấnlà rất khó khăn và thời gian xử lý chậm

- Dữ liệu dùng cho hệ thống báo cáo sản lượng là dữ liệu nghiệp vụ chưa quaxử lý, còn dư thừa nhiều, không phù hợp với một hệ thống báo cáo và phântích số liệu

Trong những năm gần đây, kho dữ liệu được phát triển và sử dụng nhiều trong cáchệ thống phân tích số liệu Với những ưu thế có thể lưu trữ dữ liệu lớn , có khả năngkhai thác dữ liệu đa chiều và theo chiều sâu , đáp ứng được nhu cầu phân tích số liệucủa các doanh nghiệp Xuất phát từ nhu cầu thực tiễn tại Công Ty Cổ Phần TruyềnThông VMG, đồ án sẽ xây dựng kho dữ liệu cho hệ thống quản lý của công ty và xâydựng các báo cáo phục vụ cho công việc quản lý của công ty

Trang 14

1.2 Dữ liệu của hệ thống

Dữ liệu báo cáo và thống kê của hệ thống cung cấp dịch vụ giá trị gia tăng baogồm dữ liệu lịch sử hoạt động của khách hàng, dữ liệu kế toán, và dữ liệu chăm sóckhách hàng

- Dữ liệu lịch sử hoạt động khách hàng : mỗi yêu cầu khách hàng vào hệ thống

sẽ được lưu giữ lại trong cơ sở dữ liệu, nó bao gồm thông tin về dịch vụ sửdụng, yêu cầu, thời gian, trạng thái của các yêu cầu Thông thường những dữliệu này chỉ dùng để đối soát và thanh toán với các mạng viễn thông , khôngđược ứng dụng vào các công cụ phân tích theo dõi Cấu trúc dữ liệu các bảngbao gồm

- Dữ liệu kế toán : đây là dữ liệu về các thông tin kế toán bao gồm giá trị của

các dịch vụ, giá thanh toán với các mạng viễn thông, thông tin về các quảngcáo của các dịch vụ Dữ liệu này kết hợp với dữ liệu lịch sử hoạt động kháchhàng để thanh toán tiền với các đối tác thuê sử dụng dịch vụ và các mạng viễnthông Dữ liệu này cùng với dữ liệu tổng hợp của lịch sử hoạt động khách hàngcòn dùng cho phân tích , thống kê và báo cáo định kỳ

- Dữ liệu chăm sóc khách hàng: Đây là dữ liệu về thông tin về khách hàng của

trung tâm chăm sóc khách hàng của công ty gồm các cuộc gọi đến trung tâm,trạng thái khách hàng, thông tin về thắc mắc của khách hàng

1.3 Mục tiêu và phạm vi của đề tài.

1.3.1 Mục tiêu.

Xây dựng và triển khai kho dữ liệu cho hệ thống báo cáo và thống kê sản lượngdịch vụ dựa trên kết quả tìm hiểu và phân tích hệ thống nguồn tại công ty Cổ Phần vàTruyền Thông VMG đang sử dụng nhằm hỗ trợ các phòng ban , lãnh đạo công ty đưa

ra các quyết định nhanh chóng và chính xác Xây dựng cơ sở dữ liệu hoàn chỉnh chokho dữ liệu, ánh xạ dữ liệu từ hệ thống nguồn vào kho dữ liệu, xây dựng các báo cáovà công cụ tra cứu báo cáo

Trang 15

1.3.2 Phạm vi của đề tài.

Việc xây dựng kho dữ liệu là một quá trình lâu dài phức tạp và bao gồm nhiềucông đoạn Trong phạm vi đồ án này, dữ liệu xây dựng chỉ tập trung vào dữ liệukhách hàng, thông tin chăm sóc khách hàng và dữ liệu kế toán Đồ án này sẽ tậptrung vào xây dựng kho dữ liệu từ các hệ thống nguồn nói trên sau đó sử dụng công

cụ SQL Server Analysis Service để định nghĩa lên các khối dữ liệu đa chiều cuốicùng sử dụng công cụ SQL Server Reporting Service để tạo ra các báo cáo và xuất raứng dụng cho người dùng xem

1.4 Công cụ thực hiện

1.4.1 Hệ quản trị cơ sở dữ liệu cho kho dữ liệu

Trong những năm gần đây, Microsoft SQL Server là một hệ quản trị cơ sở dữ liệuthông dụng với nhiều ưu điểm: Công cụ quản lý mạnh mẽ, công cụ phát triển đa dạng,khả năng mở rộng tốt, phù hợp với các doanh nghiệp trung bình Chính vì thế đồ án sẽsử dụng SQL Server 2005 làm công cụ quản lý kho dữ liệu

1.4.2 Công cụ xây dựng kho dữ liệu.

Tiến trình ETL sẽ được xây dựng bằng ngôn ngữ truy vấn T-SQL của MSSQL hỗtrợ cùng với công cụ SQL Server Business Intelligent và dịch vụ SQL ServerIntergration Service Thông qua tiến trình ETL dữ liệu được đưa từ dữ liệu nguồn đếnkho dữ liệu được xây dựng Sau đó sử dụng dịch vụ SQL Server Analysis Service đểxây dựng lên các khối dữ liệu đa chiều(cubes) phục vụ phân tích

1.4.3 Công cụ xây dựng báo cáo.

Sử dụng dịch vụ SQL Server reporting Services và công cụ cụ SQL ServerBusiness Intelligent để xây dựng và quản lý các báo cáo, đưa báo cáo lên web serversử dụng IIS(Internet Information System) để người dùng có thể tra cứu qua web

Trang 16

CHƯƠNG 2 TỔNG QUAN VỀ DATA WAREHOUSE

Tóm lược nội dung:

Nội dung chính của chương này là trình bày tổng quan về data warehouse gồm: định nghĩa, đặc tính,mô hình, kiến trúc và xu hướng tương lai của data

warehouse.

2.1 Định nghĩa kho dữ liệu.

Định nghĩa do W.H.Inmon đề xướng : DWH là tập hợp dữ liệu tương đối ổn định (không hay thay đổi),cập nhật theo thời gian, được tích hợp theo hướng chủ đề nhằm hỗ trợ quá trình tạo quyết định về mặt quản lý.[1]

2.2 Các đặc trưng của kho dữ liệu

2.2.1 Hướng chủ đề

Hướng chủ để có nghĩa là kho dữ liệu được tổ chức xung quanh các chủ đề chính như khách hàng, sản phẩm, sản xuất Tập trung vào việc mô hình hóa và phân tích dữ liệu cho các nhà ra quyết định mà không tập trung vào các xử lý thông thường Cung cấp cho người dùng một khung nhìn toàn vẹn, đơn giản và đầy đủ về các sự kiện quanh các chủ đề

2.2.2 Tính tích hợp

Dữ liệu trong kho dữ liệu được xây dựng bằng cách tổng hợp dữ liệu từ nhiều nguồnkhác nhau và các nguồn có tổ chức khác nhau : Cơ sở dữ liệu, các file excel, các flat file hoặc các raw file Khi đưa vào kho dữ liệu , các dữ liệu được làm sạch và tích hợp dữ liệunhằm đảm bảo tính nhất quán của dữ liệu

2.2.3 Tính bền vững:

Dữ liệu trong kho dữ liệu được chuyển đổi từ môi trường tác nghiệp và được lưu trữ trong một thời gian dài, khi dữ liệu được chuyển đổi vào đây thì các thao tác cập nhậtvà xóa dữ liệu thường không xảy ra Dữ liệu trong kho dữ liệu chỉ có hai thao tác: Chèn mới và đọc dữ liệu

Trang 17

2.2.4 Gắn với thời gian

Phạm vi về thời gian của dữ liệu được lưu trữ trong kho dữ liệu dài hơn so với các hệ thống tác nghiệp, nếu như dữ liệu tác nghiệp chỉ có giá trị hiện thời kho dữ liệu cung cấp thông tin lịch sử lâu dài vì thế nó cung cấp một cái nhìn đầy đủ và nhiều thông tin hơn Trong kho dữ liệu thời gian được lưu trữ như một thành phần của khóa chính để đảm bảo tính duy nhất của dữ liệu và cung cấp một đặc trưng thời gian của dữ liệu Dữ liệu trong kho luôn gắn với một giá trị thời gian nhất định

2.2.5 Dữ liệu tổng hợp :

Dữ liệu được tích hợp vào các bảng tổng hợp trong kho dữ liệu nhằm phục vụ cho các mục đích xử lý và phân tích Ngoài ra còn có các bảng ghi dữ liệu chi tiết các sự kiện nhằm cung cấp các thông tin chi tiết

2.3 Kiến trúc của kho dữ liệu

Mô hình kiến trúc của kho dữ liệu cơ bản gồm có ba thành phần : Dữ liệu nguồn, khu vực xử lý và kho dữ liệu

Hình 2.1 Kiến trúc kho dữ liệu

2.3.1 Nguồn dữ liệu

Nguồn dữ liệu của kho dữ liệu bao gồm từ rất nhiều nguồn khác nhau và có cấu trúcdữ liệu khác nhau:

Trang 18

- Dữ liệu từ hệ thống tác nghiệp: Đây là nguồn dữ liệu chính để xây dựng kho dữ liệu, chứa các dữ liệu chi tiết hiện tại của hệ thống tác nghiệp.

- Dữ liệu từ hệ thống phân tích : Đây là dữ liệu được tổng hợp từ dữ liệu nguồn đã

cũ và tổ chức lại theo nhiều phương pháp khác nhau

- Dữ liệu từ bên ngoài: đây là các dữ liệu từ các nguồn ngoài hệ thống của công ty, có thể do các tổ chức khác thu thập và tạo ra, nó được sử dụng cho các yêu cầu phântích dữ liệu

Dữ liệu từ các hệ thống nguồn thường hỗn tạp và chứa nhiều cấu trúc khác nhau ví dụ: các cơ sở dữ liệu, từ các file excel, các file thô, hay dạng XML Vì thế trước khi đưavào kho dữ liệu cần phải chuyển đổi và tích hợp dữ liệu

2.3.2 Khu vực xử lý

Ở khu vực này dữ liệu được sử dụng các kỹ thuật làm sạch và chuyển đổi để đảm bảo tính nhất quán dữ liệu trước khi đưa vào kho dữ liệu đích Thông thường người ta sử dụng các công cụ trích xuất, chuyển đổi và nạp dữ liệu (ETL) Công cụ này thực hiện các thao tác trích xuất dữ liệu, chuyển đổi dữ liệu , tải dữ liệu vào kho dữ liệu

2.3.2.1 Nhiệm vụ :

- Làm sạch dữ liệu vào : Đây là quá trình kiểm tra dữ liệu đầu vào và loại bỏ các dữliệu sai định dạng hoặc lỗi Nhiệm vụ của bước này bao gồm

 Sử dụng các luật về dữ liệu (Data Quality rules) để kiểm tra dữ liệu đầu vào

 Chỉnh sửa lỗi dữ liệu

 Cảnh báo về lỗi dữ liệu đầu vào

- Chuyển đổi dữ liệu : Đây là quá trình chuyển đổi dữ liệu nhằm đảm bảo tính nhất quán trước khi chuyển vào kho dữ liệu Quá trình này bao gồm các bước

 Sử dụng các luật về chuyển đổi dữ liệu để chuyển đồi

 Chuyển đổi kiểu dữ liệu cho phù hợp với cơ sở dữ liệu đích

 Chuyển đổi dữ liệu vào một lược đồ nhất quán

2.3.2.2 Các bước :Tiến trình ETL gồm có 3 bước.

- Trích xuất: Dữ liệu nguồn từ rất nhiều nguồn khác nhau và có thể có rất nhiều cấu trúc dữ liệu khác nhau như nhiều loại cơ sở dữ liệu, từ file excel hay từ file

Trang 19

thô Vì thế nhiệm vụ chính của bước này là trích xuất dữ liệu từ hệ thống nguồn

để xử lý

- Chuyển đổi : Đây là quá trình rất phức tạp dùng để chuyển đổi dữ liệu nguồn một mô hình khác phù hợp và chuyển vào cơ sở dữ liệu đích Ở bước này sẽ phảisử dụng các phép chuyển đổi như:

 Chọn các cột dữ liệu phù hợp (chỉ chọn các cột cần thiết )

 Chuyển đổi dữ liệu Ví dụ : chuyển 1 thành Nam hay ngược lại

 Tạo ra các cột tính toán mới Ví dụ: Điểm trung bình = Tổng điểm /số trình

 Lọc dữ liệu

 Sắp xếp dữ liệu

 Thực hiện các phép tổng hợp (tính tổng các cột, đếm số dòng, tính trung bình)

 Tạo ra các giá trị mới (tạo khóa tự tăng )

 Tìm kiếm hay so sánh dữ liệu

Có thể nói đây là bước quan trọng nhất trong tiến trình ETL , nó thực hiện hầu hết các nhiệm vụ của tiến trình ETL

- Nạp dữ liệu vào kho dữ liệu: Đây là quá trình đẩy dữ liệu sau khi đã được chuyển đổi vào kho dữ liệu Dữ liệu sau khi đã được chuyển đổi sẽ được nạp vào kho dữ liệu

2.3.2.3 Các kiểu kiến trúc ETL

Có 3 kiểu kiến trúc ETL chính đó là kiểu push, kiểu pull, kiể server trung gian

- Kiểu push: Trong kiến trúc này tiến trình ETL sẽ được chạy tại server chứa

nguồn dữ liệu Mỗi khi cập nhật dữ liệu mới tiến trình ETL sẽ xử lý tại nguồn dữ liệu sau đó đẩy dữ liệu mới đã được xử lý cho kho dữ liệu Mô hình này thường được sử dụng nếu nguồn dữ liệu là từ một server và máy nguồn đủ mạnh

để xử lý tiến trình ETL Thông thường mô hình này sử dụng khi dữ liệu nguồn không quá phức tạp và khối lượng dữ liệu không quá lớn

Trang 20

Hình 2.2 tiến trình ETL nằm ở nguồn dữ liệu

- Kiểu pull : Với kiến trúc này tiến trình ETL sẽ được chạy ở server chứa kho dữ

liệu Mỗi khi cập nhật dữ liệu tiến trình này sẽ kết nối tới các nguồn dữ liệu và lấy dữ liệu về xử lý sau đó nạp vào kho dữ liệu Ở kiến trúc này dữ liệu nguồn cóthể từ nhiều nơi khác nhau, tuy nhiên máy chứa kho dữ liệu cần phải có đủ năng lực xử lý tiến trình ETL Cũng như kiển push kiểu kiến trúc này cũng được sử dụng khi khối lượng dữ liệu và khối lượng thao tác không quá lớn

Hình 2.3 Tiến trình ETL nằm ở server chứa kho dữ liệu

- Kiểu server trung gian: Đây là kiến trúc mày tiến trình ETL sẽ được chạy trên

một máy độc lập với cả kho dữ liệu và nguồn dữ liệu Tiến trình sẽ đến lấy dữ liệu từ nguồn dữ liệu sau đó xử lý và nạp vào kho dữ liệu Kiểu kiến trúc này thường được áp dụng cho các kho dữ liệu lớn, ở đây tiến trình ETL sẽ được chạytrên một máy độc lập đủ năng lực xử lý

Trang 21

Hình 2.4 Tiến trình ETL nằm ở server trung gian

2.3.3 Kho dữ liệu

Kho dữ liệu là cơ sở dữ liệu được tổ chức lại theo mô hình hình sao hay mô hình bông tuyết Mô hình được phi chuẩn hóa, chấp nhận sự dư thừa dữ liệu trong lưu trữ dữ liệu chính vì thế mô hình dữ liệu đơn giản hơn nên việc truy vấn dễ dàng hơn và tốc độ xử lý cũng nhanh hơn mô hình dữ liệu được chuẩn hóa Ngoài ra kho dữ liệu còn chứa các dữ liệu khác như

- Siêu dữ liệu: Đây là dữ liệu chứa định nghĩa của dữ liệu được lưu trữ trong kho dữ liệu Siêu dữ liệu định nghĩa nên các thành phần của kho dữ liệu, cách thức dữ liệu được tải vào kho dữ liệu, lưu lại quá trình hoạt động của kho dữ liệu Siêu dữ liệu gồm có các dạng sau:

o Dữ liệu định nghĩa và cách thức ánh xạ dữ liệu vào các bảng trong kho dữ liệu

o Dữ liệu định nghĩa và giải thích cấu trúc của các bảng bên trong kho dữ liệu

o Dữ liệu định nghĩa cấu trúc dữ liệu ở hệ thống nguồn

o Dữ liệu định nghĩa và chú thích về tiến trình ETL

o Dữ liệu định nghĩa các luật về chất lượng dữ liệu , các mức độ sai lệch của dữ liệu và cách thức xử lý

o Dữ liệu theo dõi tiến trình xử lý các bản ghi trong kho dữ liệu

o Dữ liệu chứa các sự kiện hoạt động của các ứng dụng

Trang 22

- Bảng sự kiện tổng hợp : Các bảng tổng hợp này lưu dữ các dữ liệu tính toán được nhằm trả lời một cách nhanh nhất các câu hỏi của người dùng đưa ra Đây là dữ liệu có thể tính toán được từ các bảng khác tuy nhiên để tăng tốc độ xử lý dữ liệu này được lưu trữ để không phải tính toán lại mỗi khi có truy vấn

2.4 Mô hình logic của kho dữ liệu

2.4.1 Lược đồ hình sao

Trong mô hình dữ liệu này,phạm vi dữ liệu được tổ chức trong các bảng chiều, mỗi chiều ứng với một đặc trưng của dữ liệu ( khách hàng, sản phẩm , bán hàng, thời gian…),các bảng sự kiện biểu diễn các sự kiện xảy ra và các thông tin chi tiết về các sự kiện đó

Ưu điểm của mô hình này bao gồm

- Trực quan , đơn giản phù hợp với cách nhìn nhận về dữ liệu của người sử dụng

- Dễ dàng truy vấn, hỗ trợ đa dạng các loại truy vấn

- Sự phi chuẩn hóa đã tránh được việc phải nối nhiều bảng lại trong quá trình xử lýđiều này làm tăng tốc độ truy vấn và việc lưu trữ các cột tổng hợp có tác dụng làm tăng tốc độ xử lý truy vấn

Hình 2.4 Lược đồ hình sao.

2.4.2 Lược đồ hình bông tuyết.

Chiều Sản phẩm

Bảng

sự kiện bán hàng

Chiều cửa hàng

Chiều khách hàng

Chiều thời gian

Trang 23

Đây là mô hình tương tự mô hình sao tuy nhiên nó mở rộng hơn mô hình sao , trong mô hình này một chiều của dữ liệu có thể gồm nhiều bảng, và trong đó có 1 bảng

sự kiện , bảng sự kiện này chính là một chiều trong mô hình lớn hơn

Hình 2.5 lược đồ hình bông tuyết.

2.4.3 Mô hình dữ liệu nhiều chiều

Đây là mô hình chức dữ liệu xoay quanh các chủ đề nhằm trả lời một cách nhanh nhất các câu hỏi trong nghiệp vụ của người quản lý Có thể nhìn dữ liệu được tổ chức nhưlà một khối , trong đó mỗi chiều là một chủ đề trong nghiệp vụ

Hình 2.6 Mô hình dữ liệu nhiều chiều

Ở hình trên, khối dữ liệu gồm có 3 chiều : khách hàng, sản phẩm , thời gian Mỗi ô trong đó là một bản ghi được lưu giữ trong bảng sự kiện Với mô hình này người dùng

Chiều thời gian

Cửa hàng phân phối

Chiều sản phẩm

Chiều khách hàng

Bảng sự kiện bán hàng

Loại sản phẩm

Trang 24

có thể dễ dàng đặt ra các câu hỏi theo các tiêu chí khác nhau, việc trả lời truy vấn cũng dễdàng hơn và tốc độ xử lý nhanh hơn tổ chức theo mô hình bảng quan hệ

2.5 Ứng Dụng của kho dữ liệu.

Ngày nay, kho dữ liệu được triển khai trong các doanh nghiệp với nhiều mục đích khác nhau như tạo các báo cáo tổng hợp, tích hợp dữ liệu,quản trị doanh nghiệp thông minh(Business Intelligence) , quản lý quan hệ khách hàng, khai phá dữ liệu [2]

2.5.1 Quản trị doanh nghiệp thông minh (Busines Intelligence).

Kho dữ liệu ngày nay được sử dụng cho việc quản trị doanh nghiệp thông minh , nó giúp người quản lý có thể hiểu tổng quan và đầy đủ về công việc kinh doanh của doanh nghiệp hơn Thông qua các loại báo cáo tổng hợp, các kỹ thuật phân tích dữ liệu từ kho dữ liệu người quản lý có thể đưa ra các quyết định một cách nhanh chóng và hợp lý Ngày càng nhiều các doanh nghiệp xây dựng hệ thống quản trị doanh nghiệp thông minh

để giúp cho họ xử lý các thông tin nhằm hiểu rõ hơn về công việc kinh doanh, hỗ trợ việc ra các quyết định chính xác hơn, nâng cao chất lượng kinh doanh và dịch vụ Kho dữ có thể trích xuất thông tin từ một nguồn dữ liệu rất lớn vì thế nên thông tin nó đưa ra có cái nhìn tổng quan và đầy đủ hơn các hệ thống thông thường

2.5.2 Quản lý mối quan hệ khách hàng.

Hệ thống quản lý quan hệ khách hàng bao gồm các ứng dụng hỗ trợ quản lý mối quan hệ khách hàng Ứng dụng của kho dữ liệu vào hệ thống này bao gồm

- Đồng nhất khách hàng: cung cấp một cái nhìn tổng thể về khách hàng

- Quản lý việc cho phép

- Phân đoạn khách hàng theo các nhóm tiêu chí

- Hỗ trợ khách hàng

- Phân tích khách hàng: kho dữ liệu cung cấp đầy đủ thông tin cho các ứng dụng phân tích khách hàng

2.5.3 Khai phá dữ liệu

Khai phá dữ liệu là quá trình đi tìm kiếm các thông tin tiềm ẩn có giá trị trong các khối dữ liệu lớn Công cụ khai phá dữ liệu có thể phát hiện các thông tin mang tính dự

Trang 25

đoán, hay các thông tin hỗ trợ cho việc ra quyết định của người quản lý doanh nghiệp Kho dữ liệu được sử dụng cho các ứng dụng khai phá bởi vì những lý do sau

- Dữ liệu trong nó đã được làm sạch có cấu trúc,

- Kho dữ liệu có siêu dữ liệu định nghĩa về dữ liệu

- Dữ liệu trong kho dữ liệu đã được tích hợp sẵn

- Dữ liệu có tính bền vững

- Việc phân cấp dữ liệu trong các chiều thích hợp với các thuật toán khai phá dữ liệu.Ngày nay hầu hết các ứng dụng khai phá dữ liệu đều sử dụng kho dữ liệu làm nguồn dữ liệu để khai phá

2.5.4 Quản lý dữ liệu chủ

Dữ liệu chủ hay master data là dữ liệu bao gồm các thực thể mô tả các sự kiện xảy

ra Dữ liệu chủ có thể trả lời đầy đủ các câu hỏi xung quanh sự kiện xảy ra

Ví dụ: trong việc kinh doanh có sự kiện khách hàng mua một sản phẩm, thì dữ liệu chủ ởđây là khách hàng, sản phẩm, nhãn hiệu

Việc quản lý dữ liệu chủ ở đây là quá trình trích xuất, làm sạch, lưu trữ , cập nhật và phân phối dữ liệu chủ Hệ thống quản lý dữ liệu chủ khôi phục dữ liệu chủ từ một hệ thống xử lý giao dịch trực tuyến Việc quản lý dữ liệu chủ vì hai mục đích sau

- Nếu dữ liệu chủ được làm sạch và rõ ràng thì việc quản lý và bảo trì kho dữ liệu dễ dàng hơn

- Việc tích hợp dữ liệu vào kho dữ liệu sẽ dễ dàng hơn và nhanh chóng hơn

2.5.5 Tích hợp dữ liệu khách hàng.

Đây là quá trình trích xuất, làm sạch, lưu trữ và phân phối dữ liệu về khách hàng Hệthống tích hợp dữ liệu khách hàng trích xuất dữ liệu từ hệ thống xử lý giao dịch trực tuyến làm sạch nó và chuyển nó vào trong kho dữ liệu khách hàng

Hệ thống tích hợp dữ liệu khách hàng có thể cho dữ liệu về khách hàng sạch hơn, duy nhất và đáng tin hơn các ứng dụng khác trong doanh nghiệp điều này tăng tính tin cậy cho các ứng dụng về quản lý khách hàng

2.6 Xu hướng tương lai của kho dữ liệu

Trang 26

Trong tương lai xu hướng phát triển của kho dữ liệu bao gồm : quản lý dữ liệu phi cấu trúc, tìm kiếm dữ liêu, kiến trúc hướng dịch vụ và kho dữ liệu thời gian thực [3]

2.6.1 Dữ liệu phi cấu trúc.

Ngày nay dữ liệu thường dùng được lưu trữ trong các hệ quản trị cơ sở dữ liệu , các dữ liệu được lưu trong các hàng và các cột , điều này có nghĩa là cấu trúc dữ liệu đã được định nghĩa sẵn Tuy nhiên với một số loại dữ liệu như text, hình ảnh, âm thanh, email… thì không có cấu trúc định sẵn Chính vì thế việc lưu trữ dữ liệu phi cấu trúc cho phép người dùng lưu trữ, quản lý và phân loại các dữ liệu phi cấu trúc theo các các thuộc tính vật lý riêng

2.6.2 Tìm kiếm.

Việc lưu trữ các dữ liệu phi cấu trúc đòi hỏi một yêu cầu quan trọng đó là tìm kiếm dữ liệu Việc tìm kiếm ở đây là tìm kiếm thông tin bên trong các dữ liệu phi cấu trúc được lưu trữ Ví dụ: tìm kiếm các từ bên trong email, web… Các công cụ tìm kiếm phi cấu trúc phân loại dữ liệu theo các thuộc tính của nó và đánh chỉ mục cho dữ liệu , khi cần tìm kiếm thông tin công cụ tìm kiếm sẽ duyệt các chỉ mục, tìm kiếm các thông tin và hiển thị ra kết quả Ngày nay tìm kiếm đang là xu hướng của kho dữ liệu vì ngày càng nhiều dữ liệu phi cấu trúc được lưu trữ và nhu cầu tìm kiếm thông tin trên dữ liệu phi cấu trúc là rất cần thiết

2.6.3 Kiến trúc hướng dịch vụ.

Kiến trúc hướng dịch vụ (Service- Oriented Architecture - SOA) là hướng tiếp cận mới trong thiết kế và tích hợp các phần mềm , chức năng, hệ thống theo dạng module trong đó mỗi module đóng vai trò là một dịch vụ, mỗi module đều có thể truy nhập qua môi trường mạng Xây dựng kho dữ liệu theo kiến trúc hướng dịch vụ có nghĩa là phân tích các thành phần của kho dữ liệu (ETL, hệ thống báo cáo, dữ liệu hướng chủ đề…) thành các thành phần nhỏ hơn và độc lập với nhau giao tiếp với nhau bằng các dịch vụ riêng Điều này cho phép người phát triển có thể thay thế các thành phần trong kho dữ liệu mà không làm thay đổi đến các thành phần khác

2.6.4 Kho dữ liệu thời gian thực.

Ngày nay, các kho dữ liệu được cập nhật theo chu kỳ , thời gian giữa các chu kỳ làrất dài, sở dĩ có việc này là do việc cập nhất vào kho dữ liệu theo các lô, mỗi lần cập nhật có khối lượng xử lý rất lớn Do nhu cầu của việc kinh doanh người dùng cần có được sự

Trang 27

cập nhật thông tin một cách nhanh chóng Vì thế trong tương lai kho dữ liệu sẽ được cập nhật theo thời gian thực.

Trang 28

CHƯƠNG 3 TỔNG QUAN VỀ SQL SERVER 2005

Tóm lược nội dung : Mục tiêu chính của chương này nhằm giới thiệu về các công cụ sẽ được sử dụng để xây dựng kho dữ liệu Hệ quản trị cơ sở dữ liệu Microsoft SQL Server 2005 , dịch vụ Sql Server Analysis Service , Ngôn ngữ truy vấn MDX trên

cơ sở dữ liệu đa chiều, dịch vụ Sql Server Reporting Service

3.1 Tổng quan về hệ quản trị cơ sở dữ liệu Microsoft SQL Server

2005.

Hệ quản trị cơ sở dữ liệu Microsoft SQL Server (MSSQL) là một trong những hệ quản trị cơ sở dữ liệu thông dụng hiện nay Đây là hệ quản trị cơ sở dữ liệu thườngđược sử dụng với các hệ thống trung bình, với ưu điểm có các công cụ quản lý mạnhmẽ giúp cho việc quản lý và bảo trì hệ thống dễ dàng , hỗ trợ nhiều phương pháp lưu trữ, phân vùng và đánh chỉ mục phục vụ cho việc tối ưu hóa hiệu năng Với phiên bản MSSQL 2005 Microsoft đã có những cải tiến đáng kể nâng cao hiệu năng, tính sẵn sàng của hệ thống , khả năng mở rộng và bảo mật Phiên bản mới này còn cung cấp nhiều công cụ cho người phát triển ứng dụng được tích hợp với bộ Visual Studio

do Microsoft cung cấp Dưới đây là mô hình về các dịch vụ của SQL server 2005

Hình 3.1 Các dịch vụ của SQL Server 2005

Trang 29

MSSQL 2005 có 4 dịch vụ lớn : Database Engine,Intergration Service, Reporting service, Analysis Services Trong phiên bản MSSQL 2005 này đã có những cải tiến đáng kể như sau.

 DataBase Engine : được phát triển để thực thi tốt hơn với việc hỗ trợ cả dữ liệucó cấu trúc và dữ liệu phi cấu trúc( XML)

 Khả năng sẵn sàng của hệ thống được nâng cao hơn vì MSSQL 2005 hỗ trợ cácchức năng : cơ sở dữ liệu gương (Database mirroring), failover clustering , snapshots và khôi phục dữ liệu nhanh

 Việc quản lý chỉ mục được thực hiện song song với việc hoạt động của hệ thống Người dùng có thể thêm chỉ mục, xây dựng lại chỉ mục hay xóa một chỉmục đi trong khi hệ thống vẫn được sử dụng

 Chức năng phân vùng dữ liệu được hỗ trợ: Trong phiên bản này người dùng cóthể phân vùng các bảng và chỉ mục cũng như quản lý phân vùng dữ liệu một cách dễ dàng Việc hỗ trợ phân vùng dữ liệu giúp nâng cao hiệu năng hoạt động của hệ thống

 Dịch vụ đồng bộ hóa dữ liệu được mở rộng với việc hỗ trợ mô hình đồng bộ hóa ngang hàng Đây là dịch giúp đồng bộ hóa dữ liệu giữa các máy chủ dữ liệu, dịch vụ này làm khả năng mở rộng của hệ thống được nâng cao

 Dịch vụ tích hợp (Integration Service ) thiết kế lại cho phép người dùng tích hợp dữ liệu và phân tích dữ liệu từ nhiều nguồn khác nhau Hỗ trợ việc quản lýchất lượng dữ liệu và làm sạch dữ liệu, một công việc quan trọng trong tiến trình ETL

 Dịch vụ phân tích dữ liệu (Analysis Service ): cung cấp khung nhìn tích hợp vàthống nhất về dữ liệu cho người dùng, hỗ trợ việc phân tích dữ liệu

 Công cụ khai phá dữ liệu (Data mining ) được tích hợp hỗ trợ nhiều thuật toán khai phá dữ liệu, điều này hỗ trợ cho việc phân tích và khai phá dữ liệu và xâydựng các hệ thống hỗ trợ ra quyết định cho người quản lý

 Dịch vụ xây dựng quản lý báo cáo (Reporting Service) được dựa trên nền tảng quản trị doanh nghiệp thông minh và được quản lý qua dịch vụ web Báo cáo có thể được xây dựng với ngôn ngữ truy vấn MDX Việc xây dựng báo cáo dễ dàng thông qua các công cụ trên Business Intelligent, người dùng truy cập báo

Trang 30

cáo dễ dàng và trích xuất ra nhiều định dạng khác nhau thông qua trình duyệt web.

3.2 Tổng quan về SQL Server Integration Service(SSIS).

SSIS là một thành phần của SQL Server, nó được phát triển từ công cụ Data Transformation Services của phiên bản SQL Server 7.0, một công cụ để thực thi việc chuyển đổi dữ liệu SSIS là nền tảng cho việc tích hợp dữ liệu , các chức năng của nó nhanh và mềm dẻo cho việc phát triển tiến trình ETL cho xây dựng kho dữ liệu , ngoài ra SSIS còn cung cấp các công cụ tự động bảo trì và tự động cập nhật dữ liệu cho cơ sở dữ liệu nhiều chiều và cubes

SSIS cung cấp một giao diện phát triển với các tool bằng đồ họa cho việc xây dựng tiến trình Người phát triển sử dụng công cụ phát triển SQL Server Business

Intelligence Development Studio (BIDS), đây là công cụ dựa trên bộ MicrosoftVisualStudio Người dùng có thể kéo và thả các đối tượng của SSIS trong giao diện đồ họa hay có thể lập trình bằng mã lệnh trong giao diện soạn thảo

Hình 3.2 Công cụ phát triển SSIS

Các đối tượng của SSIS bao gồm

Trang 31

- Các kết nối : chứa đựng những thông tin để kết nối tới nguồn dữ liệu

- Các nhiệm vụ : Đây là một đơn vị thực thi trong SSIS , dùng để thực thi một nhiệm vụ như: truy vấn, chạy một chương trình ứng dụng , hay thực thicông việc bảo trì hệ thống

- Các ràng buộc: Các nhiệm vụ liên kết với nhau bằng các ràng buộc, các ràng buộc chỉ định nhiệm vụ nào được thực hiện sau khi một nhiệm vụ kết thúc tùy theo kết quả của nhiệm vụ vừa hoàn thành

- Các xử lý sự kiện: SSIS cho phép thực thi một số thao tác để xử lý khi có một sự kiện xảy ra Ví dụ như việc làm sạch dữ liệu khi có lỗi xảy ra

- Các biến: các nhiệm vụ có thể liên kết với các biến để lưu trữ kết quả, thực hiện việc quyết định (như trong ràng buộc, hay ở một nhiệm vụ khác), hay thực thi một số cấu hình

SSIS cung cấp công cụ để thiết lập luồng dữ liệu(DataFlow), các thành phần của luồng dữ liệu dùng để tạo ra tiến trình ETL DataFlow là thành phần quan trọng nhất trong một package của SSIS, bao gồm rất nhiều thành phần để thiết lập việc trích xuất, biến đổi dữ liệu, và nạp dữ liệu vào kho dữ liệu Đây là công cụ rất mạnh cho việc xây dựng tiến trình ETL

3.3 Tổng quan về SQL Server Analysis Service

SSAS trong là một trong những dịch vụ chính của SQL Server 2005 dùng để xâydựng các chiều và cubes cho DWH, trong phiên bản mới này còn hỗ trợ một số thuật toán khai phá dữ liệu điều này cung cấp cho người quản lý có cái nhìn sâu sắc về dữ liệu của họ hơn SSAS là một phần của nền tảng quản lý doanh nghiệp thông minh (BI), nó không chỉ là một thành phần của SQL Server, nó còn được sử dụng

trên NET Framework và môi trường phát triển Visual Studio

SSAS trong SQL Server 2005 đã được tái kiến trúc nhằm nâng cao khả năng

mở rộng và tính tin cậy, trong môi trường doanh nghiệp, và khả năng bảo mật dữ liệu SSAS cung cấp khả năng tích hợp nhiều đối tượng (instance) của SSAS điều này tăng khả năng mở rộng ngoài ra dịch vụ này còn cung cấp các thuật toán để quản

lý hiệu quả các cubes lớn trong một đối tượng SSAS 2005 cung cấp đa dạng các công

cụ để tạo OLAP (OnLine Analytical Processing) một cách hiệu quả và quản lý dễ dàng

Trang 32

Hình 3.3 Kiến trúc của SSAS

Trong phiên bản mới này SSAS hỗ trợ XML theo chuẩn XML/A Điều này có nghĩa việc tra đổi dữ liệu giữa SSAS với các client là XML, sự thay đổi này nâng cao khả năng tương tác giữa các máy client và máy chủ Như ở hình 3.3 SSAS cungcấp ba kiểu kết nối với client Việc lưu trữ siêu dữ liệu trong cũng được thực hiện dưới dạng XML Ngoài ra trong phiên bản này còn cho phép người dùng tùy chọn việc lưu trữ dữ liệu và dữ liệu tổng hợp dưới dạng đối tượng của SSAS hay dạng

cơ sở dữ liệu quan hệ Việc lưu trữ dữ liệu theo định dạng đối tượng của SSAS có

Trang 33

thể xử lý tốt hơn và truy vấn nhanh hơn dạng cơ sở dữ liệu quan hệ Có 3 cách lưu trữ dữ liệu chính trong SSAS.

- MOLAP(MultiDemension OnLine Analytical Processing) Đây là mô hình lưu trữ mà dữ liệu theo định dạng của SSAS Cách lưu giữ này cho hiệu quả truy vấntốt nhất và có thể xử lý các tính toán phức tạp Điểm yếu của cách truy vấn này là tốn dung lượng và không thể xem được dữ liệu mới cho đến khi xây dựng lại cubes

- ROLAP(Relational OLAP) đây là cách lưu trữ mà dữ liệu chính được lưu trữ trong cơ sở dữ liệu quan hệ Cách truy vấn trên SSAS được thay đổi sang kiểu truy vấn trên cơ sở dữ liệu quan hệ mỗi khi thực thi điều này làm giảm hiệu năng của truy vấn, các truy vấn thường rất chậm so với mô hình trên Điểm mạnh của cách lưu trữ này là dung lượng cube chỉ giới hạn bởi dung lượng của

cơ sở dữ liệu quan hệ

- HOLAP (Hybrid OLAP) : Đây là mô hình tích hợp của cả hai mô hình trên dữ liệu thông thường được lưu trữ dưới dạng cơ sở dữ liệu quan hệ trong khi các dữ liệu tổng hợp được lưu trữ dưới dạng đối tượng SSAS Nếu dữ liệu yêu cầu là dạng tổng hợp thì sẽ thực hiện truy vấn tại SSAS còn nếu dữ liệu yêu cầu là dạngchi tiết truy vấn sẽ được dịch và truy vấn tại cơ sở dữ liệu quan hệ Điều này làmtăng tốc độ xử lý của mô hình ROLAP và tận dụng được khả năng lưu trữ của

mô hình ROLAP

Dịch vụ SSAS của SQL Server 2005 cung cấp cho người dùng các tính năng mạnh mẽ trong phân tích dữ liệu Đây là công cụ mạnh để xây dựng các hệ thống xử lý giao dịch trực tuyến

3.4 Tổng quan về ngôn ngữ truy vấn MDX.

Ngôn ngữ MDX(MultiDemensional eXpression ) là ngôn ngữ truy vấn cho cơ

sở dữ liệu nhiều chiều, nó tương tự ngôn ngữ SQL cho cơ sở dữ liệu dạng quan hệ , tuy nhiên đây là ngôn ngữ tính toán vì thế nó tương có cú pháp giống công thức của bảng tính MDX do Microsoft giới thiệu vào năm 1997 cùng với SQL Server 7.0 nhanh chóng được các nhà phát triển chấp nhận đã trở thành chuẩn cho hệ thống OLAP Từ năm 2001 khi XMLA ra đời MDX được mở rộng và hỗ trợ truy vấn với MDX (MDXML)

Trang 34

Ngôn ngữ MDX hỗ trợ mạnh cho tính toán trên khối dữ liệu nhiều chiều, nó hỗtrợ việc truy cập dữ liệu một cách trực quan và dễ dàng Người dùng có thể trích xuất dữ liệu từ cube với số chiều bất kỳ MDX có thể trả lời được các câu hỏi phức tạp

trong kinh doanh ở thế giới thực như: trong các khu vực bán được nhiều sản phẩm

nhất đâu là dòng sản phẩm bán chạy nhất?

MDX được xây dựng cho các hệ thống phân tích dữ liệu chính vì thế nó có thể xử lý được những truy vấn một cách dễ dàng MDX có thể xử lý dữ liệu một cách mềm dẻo, kết quả trả về của MDX cũng rất linh hoạt Các phép truy vấn phức tạp trong SQL như pivot được sử dụng một cách dễ dàng trong MDX

MDX không hỗ trợ các ngôn ngữ định nghĩa dữ liệu (DDL) tuy nhiên ngôn ngữ thao tác dữ liệu (DML) của MDX có hỗ trợ thực thi một số thao tác định nghĩa dữliệu

Cấu trúc của MDX giống như SQL nhưng mở rộng hơn để thao tác với cơ sở dữ liệu nhiều chiều Câu truy vấn MDX có cấu trúc như sau :

SELECT [Mô tả về chiều thứ nhất],

[Mô tả về chiều thứ hai]…

FROM [Mô tả về khối dữ liệu]

WHERE [điều kiện cắt các lớp]

Mệnh đề SELECT dùng để xác định các chiều cảu tập hợp kết quả

Mệnh đề FROM xác định nguồn dữ liệu(cube) dùng để lấy dữ liệu

Mệnh đề WHERE dùng để xác định chiều cắt dữ liệu , nhằm lọc dữ liệu đầu ra

WHERE [Dim Dau So].[Dau So].[8768]

Kết quả trả về như hình 3.4

Trang 35

Hình 3.4 Kết quả truy vấn MDX

Truy vấn MDX có thể chứa các thông tin như sau :

- Số lượng chiều (tối đa 128 chiều)

- Các thành viên của mỗi chiềucho từng chiều

- Tên khối dữ liệu

- Các thành viên từ một chiều dùng để cắt (lọc)

Phát biểu SELECT của câu truy vấn MDX còn hỗ trợ các cú pháp tuỳ chọn khác,như là từ khóa WITH và việc sử dụng các hàm MDX để xây dựng các thành viên bằng việc tính toán để thêm vào 1 trục hoặc 1 chiều cắt

Cú pháp của câu truy vấn MDX tương tự như cú pháp SQL, tuy nhiên, có 1 số khác biệt như sau :

- Cú pháp MDX phân biệt các tập hợp bằng việc dùng dấu ngoặc nhọn { } bao quanh các bộ hay thành viên

- Câu truy vấn MDX có thể chứa tới 128 chiều, nhưng chỉ có 5 chiều đầu tiên là có aliase (tên phụ) Một trục có thể được tham chiếu bởi thứ tự của nó trong câu MDX hay bởi tên phụ của nó nếu có

- Trong câu truy vấn SQL, mệnh đề FROM có thể chỉ đến nhiều bảng dữ liệu.Tuy nhiên, mệnh đề FROM trong câu truy vấn MDX bị giới hạn ở 1 khối duy nhất Thông tin từ các khối khác có thể được tham khảo theo từng giá trị bằng cách dùng hàm LookupCube

Trang 36

- Mệnh đề WHERE được dùng để mô tả chiều cắt dữ liệu Nếu 1 chiều không được đề cập trong mệnh đề WHERE, SQL Analysis Services vẫn xem nó là 1 chiều cẳt, nhưng được lọc theo số thành viên mặc định của nó Mệnh đề WHERE có thể thay đổi tiến trình lọc cho 1 chiều nào đó, giúp tinh chỉnh dữ liệu kết quả.

3.5 Tổng quan về SQL Server Reporting Services.

SSRS là một dịch vụ của SQL Server , nó là hệ thống quản lý các báo cáo Hỗ trợ việc tạo báo cáo, quản lý các báo cáo, và quản lý truy cập thông qua nền tảng web

SSRS sử dụng ngôn ngữ định nghĩa báo cáo (RDL) và ngôn ngữ đánh dấu mở rộng XML Công cụ soạn thảo báo cáo được tích hợp trên công cụ BIDS dựa trên bộ Visual studio cùng với thành phần Crystal Reports Người dùng có thể soạn thảo các báo cáo một cách dễ dàng trên nền tảng đồ họa, sau khi báo cáo được tạo có thể trích xuất ra nhiều định dạng khác nhau như : Excel, PDF, CSV, XML,TIFF hay dưới dạng văn bản web

Người dùng có thể tương tác với máy chủ báo cáo một cách trực tiếp thông quadịch vụ web thay vì sử dụng công cụ Report Manager Với công cụ Report Manager người dùng có thể xem các báo cáo, quản lý các báo cáo cũng như quản lý và bảo trì các định nghĩa nguồn dữ liệu được sử dụng cho báo cáo và quản lý bảo mật cho báo cáo Các báo cáo có thể được phân phối thông qua mail hoặc các hệ thống file Việc quản lý bảo mật được thực thi với nhiều cấp độ việc này giúp quản lý mạnh mẽ và linh hoạt hơn Như ở trên hình 3.5 Các thành phần chính của hệ SSRS bao gồm:

- Nguồn dữ liệu: nguồn dữ liệu cho dịch vụ báo cáo bao gồm nhiều loại dữ liệu như SQL Server , Analysis Service, DB2, Oracle, ADO.Net SSRS truy cập nguồn dữ liệu thông qua các trình điều khiển OLE DB hay ODBC

- Công cụ xuất báo cáo: cho phép người dùng xuất báo cáo ra dạng ngôn ngữ định dạng báo cáo hoặc ra các định dạng văn bản như : HTML,

XML,PDF, EXCEL,CSL hoặc các định dạng khác

- Công cụ bảo mật: chuẩn báo mật cho SSRS dựa trên các kiểu bảo mật của IIS và chứng thực người dùng của windows

Ngày đăng: 23/11/2012, 15:03

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
1. The Microsoft Data Warehouse Toolkit With SQL Server 2005 and the Microsoft Business Intelligence Toolset. Joy Mundy,Warren Thornthwaite, Ralph Kimbal © 2006 Khác
2. Building a Data Warehouse with Example in SQL Server. Copyright 2008 by Vincent Rainardi Khác
3. Building the Data Warehouse 1st edition . Copyright 1992 by W.H.Inmon 4. Professional SQL Server Analysis Services 2005 with MDX. By SivakumarHarinath and Stephen R. Quinn , Wrox Press 2006 Khác
5. Professional SQL Server™ 2005 Reporting Services. Copyright © 2006 by Wiley Publishing, Inc., Indianapolis, Indiana Khác
6. Pro SQL Server 2005 Integration Services . By Jim Wightman Published Dec 2007 Khác

HÌNH ẢNH LIÊN QUAN

Hình 2.1 Kiến trúc kho dữ liệu - Áp dụng Data Warehouse trong phân tích thông tin về các dịch vụ giá trị gia tăng trên điện thoại
Hình 2.1 Kiến trúc kho dữ liệu (Trang 15)
Hình 2.2 tiến trình ETL nằm ở nguồn dữ liệu - Áp dụng Data Warehouse trong phân tích thông tin về các dịch vụ giá trị gia tăng trên điện thoại
Hình 2.2 tiến trình ETL nằm ở nguồn dữ liệu (Trang 18)
Hình 2.4 Tiến trình ETL nằm ở server trung gian - Áp dụng Data Warehouse trong phân tích thông tin về các dịch vụ giá trị gia tăng trên điện thoại
Hình 2.4 Tiến trình ETL nằm ở server trung gian (Trang 19)
Hình 2.4 Lược đồ hình sao. - Áp dụng Data Warehouse trong phân tích thông tin về các dịch vụ giá trị gia tăng trên điện thoại
Hình 2.4 Lược đồ hình sao (Trang 20)
Hình 2.5 lược đồ hình bông tuyết. - Áp dụng Data Warehouse trong phân tích thông tin về các dịch vụ giá trị gia tăng trên điện thoại
Hình 2.5 lược đồ hình bông tuyết (Trang 21)
Hình 3.1 Các dịch vụ của SQL Server 2005 - Áp dụng Data Warehouse trong phân tích thông tin về các dịch vụ giá trị gia tăng trên điện thoại
Hình 3.1 Các dịch vụ của SQL Server 2005 (Trang 26)
Hình 3.2 Công cụ phát triển SSIS - Áp dụng Data Warehouse trong phân tích thông tin về các dịch vụ giá trị gia tăng trên điện thoại
Hình 3.2 Công cụ phát triển SSIS (Trang 28)
Hình 3.3 Kiến trúc của SSAS - Áp dụng Data Warehouse trong phân tích thông tin về các dịch vụ giá trị gia tăng trên điện thoại
Hình 3.3 Kiến trúc của SSAS (Trang 30)
Hình 3.4 Kết quả truy vấn MDX - Áp dụng Data Warehouse trong phân tích thông tin về các dịch vụ giá trị gia tăng trên điện thoại
Hình 3.4 Kết quả truy vấn MDX (Trang 33)
Hình 3.5 Kiến trúc của Reporting Service - Áp dụng Data Warehouse trong phân tích thông tin về các dịch vụ giá trị gia tăng trên điện thoại
Hình 3.5 Kiến trúc của Reporting Service (Trang 35)
Hình 3.5 Mô hình xây dựng kho dữ liệu - Áp dụng Data Warehouse trong phân tích thông tin về các dịch vụ giá trị gia tăng trên điện thoại
Hình 3.5 Mô hình xây dựng kho dữ liệu (Trang 36)
Hình 4.1 sơ đồ kho dữ liệu tổng hợp sản lượng dịch vụ - Áp dụng Data Warehouse trong phân tích thông tin về các dịch vụ giá trị gia tăng trên điện thoại
Hình 4.1 sơ đồ kho dữ liệu tổng hợp sản lượng dịch vụ (Trang 39)
Hình 4.2 Sơ đồ kho dữ liệu chủ đề quảng cáo và doanh thu - Áp dụng Data Warehouse trong phân tích thông tin về các dịch vụ giá trị gia tăng trên điện thoại
Hình 4.2 Sơ đồ kho dữ liệu chủ đề quảng cáo và doanh thu (Trang 44)
Hình 4.3Mô hình dữ liệu nguồn của chiều quảng cáo. - Áp dụng Data Warehouse trong phân tích thông tin về các dịch vụ giá trị gia tăng trên điện thoại
Hình 4.3 Mô hình dữ liệu nguồn của chiều quảng cáo (Trang 46)
Bảng sự kiên quảng cáo ngoài các khóa ngoại được tham chiếu từ các bảng chiều còn - Áp dụng Data Warehouse trong phân tích thông tin về các dịch vụ giá trị gia tăng trên điện thoại
Bảng s ự kiên quảng cáo ngoài các khóa ngoại được tham chiếu từ các bảng chiều còn (Trang 46)
Hình 4.4 Mô hình kho dữ liệu chủ đề chi tiết sử dụng dịch vụ - Áp dụng Data Warehouse trong phân tích thông tin về các dịch vụ giá trị gia tăng trên điện thoại
Hình 4.4 Mô hình kho dữ liệu chủ đề chi tiết sử dụng dịch vụ (Trang 47)
Hình 4.5 Mô hình ETL - Áp dụng Data Warehouse trong phân tích thông tin về các dịch vụ giá trị gia tăng trên điện thoại
Hình 4.5 Mô hình ETL (Trang 49)
Hình 4.6  Ánh xạ chiều mã dịch vụ - Áp dụng Data Warehouse trong phân tích thông tin về các dịch vụ giá trị gia tăng trên điện thoại
Hình 4.6 Ánh xạ chiều mã dịch vụ (Trang 50)
Hình 4.8 Ánh xạ chiều đầu số - Áp dụng Data Warehouse trong phân tích thông tin về các dịch vụ giá trị gia tăng trên điện thoại
Hình 4.8 Ánh xạ chiều đầu số (Trang 51)
Hình 4.9 Ánh xạ nhóm dịch vụ - Áp dụng Data Warehouse trong phân tích thông tin về các dịch vụ giá trị gia tăng trên điện thoại
Hình 4.9 Ánh xạ nhóm dịch vụ (Trang 51)
Hình 4.10 Ánh xạ chiều quảng cáo. - Áp dụng Data Warehouse trong phân tích thông tin về các dịch vụ giá trị gia tăng trên điện thoại
Hình 4.10 Ánh xạ chiều quảng cáo (Trang 52)
Hình 4.11 Ánh xạ cho chiều khách hàng. - Áp dụng Data Warehouse trong phân tích thông tin về các dịch vụ giá trị gia tăng trên điện thoại
Hình 4.11 Ánh xạ cho chiều khách hàng (Trang 52)
Hình 4.13 Chọn các bảng cho data soures views - Áp dụng Data Warehouse trong phân tích thông tin về các dịch vụ giá trị gia tăng trên điện thoại
Hình 4.13 Chọn các bảng cho data soures views (Trang 55)
Hình 4.14 Đặt các quan hệ cho các bảng - Áp dụng Data Warehouse trong phân tích thông tin về các dịch vụ giá trị gia tăng trên điện thoại
Hình 4.14 Đặt các quan hệ cho các bảng (Trang 56)
Hình 4.15 Quyết định các bảng chiều và sự kiện - Áp dụng Data Warehouse trong phân tích thông tin về các dịch vụ giá trị gia tăng trên điện thoại
Hình 4.15 Quyết định các bảng chiều và sự kiện (Trang 57)
Hình 4.18 Định nghĩa các hàm tính toán - Áp dụng Data Warehouse trong phân tích thông tin về các dịch vụ giá trị gia tăng trên điện thoại
Hình 4.18 Định nghĩa các hàm tính toán (Trang 58)
Hình 4.19 Kết quả hiển thị truy vấn - Áp dụng Data Warehouse trong phân tích thông tin về các dịch vụ giá trị gia tăng trên điện thoại
Hình 4.19 Kết quả hiển thị truy vấn (Trang 60)
Hình 4.21 Thiết kế báo cáo - Áp dụng Data Warehouse trong phân tích thông tin về các dịch vụ giá trị gia tăng trên điện thoại
Hình 4.21 Thiết kế báo cáo (Trang 63)
Hình 4.22 màn hình xây dựng báo cáo - Áp dụng Data Warehouse trong phân tích thông tin về các dịch vụ giá trị gia tăng trên điện thoại
Hình 4.22 màn hình xây dựng báo cáo (Trang 63)
Hình 4.24 Báo cáo theo nhóm dịch vụ - Áp dụng Data Warehouse trong phân tích thông tin về các dịch vụ giá trị gia tăng trên điện thoại
Hình 4.24 Báo cáo theo nhóm dịch vụ (Trang 67)

TỪ KHÓA LIÊN QUAN

TRÍCH ĐOẠN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w