Giới thiệu MS SQL Server 2005 []

Một phần của tài liệu Data warehouse lý thuyết và thực tiễn (Trang 94)

SQL Server 2008 giới thiệu 4 lĩnh vực chính trong toàn cảnh nền tảng dữ liệu của Microsoft:

Nền tảng cho các nhiệm vụ cốt lõi - SQL Server 2008 cho phép các tổ chức có thể chạy hầu hết các ứng dụng phức tạp của họ trên một nền tảng an toàn, tin cậy và có khả năng mở rộng, bên cạnh đó còn giảm được sự phức tạp trong việc quản lý cơ sở hạ tầng dữ liệu. SQL Server 2008 cung cấp một nền tảng tin cậy và an toàn bằng cách bảo đảm những thông tin có giá trị trong các ứng dụng đang tồn tại và nâng cao khả năng sẵn có của dữ liệu. SQL Server 2008 giới thiệu một cơ chế quản lý cách tân dựa trên chính sách, cơ chế này cho phép các chính sách có thể được định nghĩa quản trị tự động cho các thực thể máy chủ trên một hoặc nhiều máy chủ. Thêm vào đó, SQL Server 2008 cho phép thi hành truy vấn dự báo với một nền tảng tối ưu.

Phát triển động - SQL Server 2008 cùng với .NET Framework đã giảm được sự phức tạp trong việc phát triển các ứng dụng mới. ADO.NET Entity Framework cho phép các chuyên gia phát triển phần mềm có thể nâng cao năng suất bằng làm việc với các thực thể

dữ liệu logic đáp ứng được các yêu cầu của doanh nghiệp thay vì lập trình trực tiếp với các bảng và cột. Các mở rộng của ngôn ngữ truy vấn tích hợp (LINQ) mới trong .NET Framework đã cách mạng hóa cách các chuyên gia phát triển truy vấn dữ liệu bằng việc mở rộng Visual C# và Visual Basic .NET để hỗ trợ cú pháp truy vấn giống SQL vốn đã có. Hỗ trợ cho các hệ thống kết nối cho phép chuyên gia phát triển xây dựng các ứng dụng cho phép người dùng mang dữ liệu cùng với ứng dụng này vào các thiết bị và sau đó đồng bộ dữ liệu của chúng với máy chủ trung tâm.

Dữ liệu quan hệ mở rộng - SQL Server 2008 cho phép các chuyên gia phát triển khai thác triệt để và quản lý bất kỳ kiểu dữ liệu nào từ các kiểu dữ liệu truyền thống đến dữ liệu không gian địa lý mới.

Thông tin trong toàn bộ doanh nghiệp - SQL Server 2008 cung cấp một cơ sở hạ tầng có thể mở rộng, cho phép quản lý các báo cáo, phân tích với bất kỳ kích thước và sự phức tạp nào, bên cạnh đó nó cho phép người dùng dễ dàng hơn trong việc truy cập thông tin thông qua sự tích hợp sâu hơn với Microsoft Office. Điều này cho phép CNTT đưa được thông tin của doanh nghiệp rộng khắp trong tổ chức. SQL Server 2008 tạo những bước đi tuyệt vời trong việc lưu trữ dữ liệu, cho phép người dùng hợp nhất các trung tâm dữ liệu vào một nơi lưu trữ dữ liệu tập trung của toàn doanh nghiệp.

1.1 Các công nghệ Nghiệp vụ thông minh Business Intelligence của Microsoft Microsoft

Microsoft Business Intelligence (BI) được thiết kế xây dựng dựa trên nền tảng dữ liệu có khả năng mở rộng cho việc sắp xếp , phân tích, báo cáo dữ liệu và cung cấp các công cụ trực giác và mạnh mẽ để người dùng có thể sử dụng truy cập và phân tích các thông tin doanh nghiệp. Hạt nhân cuối cùng trong Microsoft BI là Microsoft SQL Server 2008, một nền tảng dịch vụ dữ liệu hoàn tất cho phép bạn có thể:

 Hợp nhất việc lưu trữ và truy cập tất cả dữ liệu trong doanh nghiệp

 Xây dựng và quản lý các giải pháp BI phức tạp

Tăng phạm vi của giải pháp thâu tóm doanh nghiệp của bạn đến tất cả các nhân viên .

Các công nghệ cụ thể của SQL Server 2008 tạo nên cơ sở của BI mạnh mẽ này được mô tả trong bảng dưới đây

Thành phần Mô tả

SQL Server Database Engine

Mang đến một phương tiện lưu trữ dữ liệu hiệu suất cao và có khả năng mở rộng cho các ấn bản dữ liệu rất lớn. Điều đó làm cho nó trở thành một lựa chọn lý tưởng cho việc hợp nhất dữ liệu doanh nghiệp từ toàn bộ doanh nghiệp vào một trung tâm dữ liệu để thuận tiện cho việc phân tích và báo cáo.

SQL Server

Integration Services

Một nền tảng toàn diện cho việc trích rút, biến đổi và tải (ETL), các hành động này cho phép cư trú và đồng bộ kho lưu trữ dữ liệu của bạn với dữ liệu từ các nguồn khác nhau được sử dụng bởi các ứng dụng doanh nghiệp trong toàn bộ tổ chức.

SQL Server Analysis Services

Cung cấp phương tiện phân tích cho các giải pháp phân tích xử lý trực tuyến (OLAP), cụ thể gồm có việc thu nạp các tham số doanh nghiệp qua nhiều kích thước và các chỉ thị hiệu suất chính (KPI), và cho các giải pháp khai thác dữ liệu có sử dụng các thuật toán đặc biệt để nhận dạng mẫu, xu hướng và quan hệ trong dữ liệu doanh nghiệp.

SQL Server

Reporting Services

Một giải pháp báo cáo mở cho phép tạo, xuất bản và phân phối các báo cáo doanh nghiệp chi tiết một cách dễ dàng cả bên trong và bên ngoài tổ chức.

Dưới đây là bảng so sánh các thành phần của một hệ thống nghiệp vụ thông minh trong MS SQL 2000 và MS SQL 2005:

Thành phần SQL Server 2000 SQL Server 2005

Trích tách, chuyển đổi và tải dữ liệu

Data Transformation Services (DTS)

SQL Server 2005 Integration Services

DWH quan hệ SQL Server 2000 relational

database

SQL Server 2005 relational database

CSDL đa chiểu SQL Server 2000 Analysis

Services

SQL Server 2005 Analysis

Services

Khai phá dữ liệu SQL Server 2000 Analysis

Services

SQL Server 2005 Analysis

Services

Thành phần SQL Server 2000 SQL Server 2005

Services Services

Tạo báo cáo tương tác SQL Server 2005 Reporting

Services Truy vấn và phân tích tương

tác

Microsoft Office products

(Excel, Office Web

Components, Data Analyzer, SharePoint Portal)

Microsoft Office products

(Excel, Office Web

Components, Data Analyzer, SharePoint Portal)

Công cụ phát triển CSDL SQL Server 2000 Enterprise

Manager, Analysis Manager, Query Analyzer, various other

SQL Server 2005 Business

Intelligence Development

Studio (New!)

Công cụ quản lý CSDL Enterprise Manager, Analysis

Manager

SQL Server 2005 SQL Server Management Studio (New!)

1.1.1 Hợp nhất dữ liệu công ty cho việc phân tích và báo cáo

SQL Server 2005 hỗ trợ hai phương pháp chung để hợp nhất dữ liệu doanh nghiệp cho việc phân tích và báo cáo:

- Kho dữ liệu: Một kho dữ liệu chuyên dung cho dữ liệu của doanh nghiệp sẽ được đặt và đồng bộ với dữ liệu doanh nghiệp từ các nguồn khác nhau trong toàn doanh nghiệp. Ưu điểm chính của phương pháp này là bạn có thể thiết kế kho dữ liệu cho việc thực thi báo cáo và phân tích tối ưu mà không ảnh hưởng đến hiệu suất của các ứng dụng dòng doanh nghiệp. Một ưu điểm khác của phương pháp này là bạn có thể xóa và hợp nhất dữ liệu đến từ nhiều nguồn khác nhau vào một phiên bản hợp nhất.

- Sự trừu tượng hóa nguồn dữ liệu. SQL Server 2008 Analysis Services cho phép tạo các quan sát (view) nguồn dữ liệu để cung cấp một lớp trừu tượng trên một hay nhiều nguồn dữ liệu khác nhau. Sau đó bạn có thể sử dụng view nguồn dữ liệu này như một nguồn khác cho việc phân tích, báo cáo và các dịch vụ tích hợp. Với một view nguồn dữ liệu, dữ liệu được triệu gọi từ các hệ thống nguồn bên dưới khi phân tích xuất hiện hoặc báo cáo được tạo ra. Ưu điểm chính của phương pháp này là nó cho phép phân tích dữ liệu theo thời gian thực trong các ứng dụng doanh nghiệp của bạn. Thêm vào đó, các quan sát nguồn dữ liệu thông qua lớp trừu tượng được đưa vào này có thể được sử dụng để tạo các tên thân thiện để thay thế cho các tên bảng dài hay khó hiểu.

1.1.2 Thực thi kho dữ liệu

SQL Server 2008 cung cấp một nền tảng lưu trữ dữ liệu có khả năng mở rộng và toàn diện, cho phép tổ chức của bạn có thể tích hợp dữ liệu vào các kho lưu trữ nhanh hơn phù hợp với sự tăng về các ấn bản và yêu cầu cao trong việc quản lý dữ liệu và người dùng.

Tối ưu các quá trình ETL

Các kho chứa dữ liệu thường được cư trú và được nâng cấp từ các hệ thống nguồn qua quá trình ETL. Sau khi tải dữ liệu ban đầu vào kho dữ liệu, làm tươi định kỳ cho dữ liệu mới và đã thay đổi từ các hệ thống nguồn được thực hiện để bảo đảm rằng kho dữ liệu được cập nhật một cách kịp thời.

Các dịch vụ tích hợp của SQL Server mang đến một nền tảng toàn diện, cho phép sử dụng để trích dữ liệu từ các hệ thống nguồn khác nhau, tạo các phép biến đổi cần thiết đối với dữ liệu hoặc cấu trúc và định dạng của nó, sau đó load dữ liệu đã biến đổi này vào kho dữ liệu. Việc thực hiện các tra cứu để tương xứng bản ghi từ các hệ thống nguồn đối với bản ghi đang tồn tại trong kho dữ liệu là một hoạt động chung trong các quá trình ETL, và trong SQL Server 2005 việc thực thi các tra cứu được cải thiện đáng kể để nâng cao hoạt động đáp ứng cho các bảng dữ liệu lớn cực độ.

Quản lý tài nguyên phần cứng một cách hiệu quả

Thông qua việc hỗ trợ nén dữ liệu, SQL Server 2005 có thể lưu dữ liệu một cách hiệu quả hơn và giảm được nhiều chi phí. Thêm vào đó, vấn đề nén cũng được cải thiện đáng kể về mặt hiệu suất cho các luồng công việc vào/ra lớn.

Tối ưu thực thi cơ sở dữ liệu

SQL Server 2005 gồm có cỗ máy cơ sở dữ liệu quan hệ hiệu suất cao cho phép bạn có thể xây dựng các giải pháp lưu trữ dữ liệu hiệu quả. Các cách tân như tối ưu hóa truy vấn cho lược đồ sao và các công cụ sẽ giúp bạn hiệu chỉnh được các chỉ mục và cấu trúc dữ liệu, tạo cho SQL Server một sự chọn lọc tự nhiên cho kho lưu trữ dữ liệu được truy vấn. Với việc giới thiệu của câu lệnh MERGE Transact-SQL trong SQL Server , các chuyên gia phát triển phần mềm có thể quản lý các kịch bản lưu trữ dữ liệu một cách hiệu quả hơn, như kiểm tra xem có hàng nào tồn tại hay không, sau đó thực hiện chèn hay nâng cấp. Thêm vào đó, một mở rộng cho mệnh đề GROUP BY cho phép người dùng có thể định nghĩa đa nhóm trong cùng một truy vấn. Grouping Sets cho ra một tập các kết quả tương đương như UNION ALL của các hàng khác nhau được nhóm, điều này làm cho việc thu nạp truy vấn và báo cáo dễ dàng và nhanh hơn.

SQL Server 2005 hỗ trợ các bảng được phân vùng để giúp bạn tối ưu hiệu suất và quản lý được các bảng lớn, với sự hỗ trợ mới về các bảng phân vùng song song, bạn có thể tối ưu một cách đáng kể kho dữ liệu của mình bằng cách sử dụng các bảng phân vùng.

Xây dựng và quản lý các giải pháp BI phức tạp

Khi các tổ chức yêu cầu ngày càng tăng sự phân tích, điều cần thiết ở đây là có thể xây và phân phối các giải pháp BI hiệu quả một cách nhanh chóng và giảm được chi phí về quản lý đối với cơ sở hạ tầng BI trở thành một sự quan tâm lớn. SQL Server 2005 chứa trong nó các công cụ cách tân cho phép tăng năng suất và khả năng quản lý các chuyên gia phát triển phần mềm.

2 Thực hiện DWH trên MS SQL Server 2005 2.1 Bài toán ví dụ AdventureWorks

AdventureWorks là CSDL của một công ty chuyên sản xuất và kinh doanh đồ thể thao được đính kèm vào bộ MS SQL Server. Trong CSDL này lưu các dữ liệu về sản xuất, hàng hóa, kinh doanh.

Mục tiêu: cung cấp cho nhà quản trị công ty các báo cáo:

- Số lượng sản phẩm được yêu cầu mua và đã được bán trong tháng với từng khách hàng

- Số lượng sản phẩm được yêu cầu mua và đã được bán trong tháng cho từng địa phương

- Doanh thu đối với từng khách hàng theo tháng

Theo yêu cầu trên, chúng ta có các bảng sự kiện và bảng chiều trong CSDL DWH: - Bảng FactInternetSales có 23 trường và 60398 bản ghi.

- Bảng DimProduct có 33 trường và 606 bản ghi - Bảng DimTime có 19 trường và 1158 bản ghi - Bảng DimEmployee có 30 trường và 296 bản ghi - Bảng DimAccount có 10 trường và 99 bản ghi

2.2 Thực hiện DWH cho AdventureWorks

Ở đây chúng tôi mô sẽ mô tả 2 quá trình

- Đưa dữ liệu từ CSDL nguồn vào CSDL DWH sử dụng dịch vụ SSIS của MS SQL Server 2005

- Thực hiện dịch vụ phân tích trực tuyến trên CSDL DWH

2.2.1 Chuyển tải dữ liệu tác nghiệp vào CSDL DWH

Quá trình này sử dụng dịch vụ SSIS trên MS SQL Server. Kết quả bao gồm một gói định nghĩa những thao tác cần thiết để chuyển tải

2.2.1.1 Giới thiệu SSIS

Nhiệm vụ của dịch vụ: chuyển đổi dữ liệu từ nơi này sang nơi khác, hoặc là lấy dữ liệu từ nơi A nhập với data nơi B rồi chuyển vào C. Trong lúc chuyển dữ liệu bạn có thể xử lý chúng trước khi chuyển đến chỗ khác.

Ví dụ: bạn có thể dùng SSIS tạo ra một gói SSIS chạy mỗi đêm để lấy dữ liệu mua bán quần áo tại SaiGon, lấy dữ liệu mua bán xe hơi tại Huế, lấy dữ liệu đối tác tại UK, mang tất cả dữ liệu ở những nơi trên về Kho dữ liệu cơ sở chính tại Hà Nội.

Trong MS SQL Server 2000 đã có dịch vụ DTS (Data Tranformation Services) làm nhiệm vụ này nhưng tính năng còn nghèo nàn, giao diện người dùng sơ sài. Nhiều đơn vị không sử dụng dịch vụ này mà chuyển sang các dịch vụ của nhà cung cấp thứ 3. Vì thế Microsoft đã nâng cấp dịch vụ này và chuyển tên thành SSIS.

Như đã trình bày ở trên dịch vụ này đóng vai trò là công cụ ETL trong bài toán DWH (Extract, Transform, & Load).

Luồng dữ liệu (Data Flow):

Luồng dữ liệu trong SQL Server Integration Services có 3 thành phần chính sau: dữ liệu nguồn, các thành phần thực thi chuyển đổi dữ liệu, và dữ liệu đích. Dữ liệu nguồn lấy dữ liệu từ CSDL hay các file dữ liệu đã được kết nối với gói SSIS đưa vào Data Flow. Các thành phần chuyển đổi dữ liệu để sửa đổi, tổng hợp và làm sạch dữ liệu.

Thông thường dữ liệu nguồn có 1 đầu ra (output), dữ liệu đích có 1 đầu vào (input), còn các thành phần chuyển đổi dữ liệu có 1 đầu ra và 1 đầu vào.

Dữ liệu nguồn:

- Là một thành phần của Data Flow để truy vấn, lấy dữ liệu từ CSDL hay các file dữ liệu đã được tạo kết nối trong SSIS, chuẩn bị sẵn sàng cho các thành phần khác trong Data Flow thông qua câu lệnh SQL.

- Trong Data Flow có các loại dữ liệu nguồn như sau:

o DataReder Source: dữ liệu được lấy từ nguồn DataReader

o Excel Source: dữ liệu được lấy từ CSDL excel

o FlatFile Source: dữ liệu được lấy từ tệp dữ liệu phẳng.

o OLEDB Source: dữ liệu được lấy từ nguồn OLEDB

o XML Source: dữ liệu được lấy từ các file XML

- Dữ liệu nguồn của Data Flow có một đầu ra (output). Các dữ liệu đầu ra thường là các trường dữ liệu, và các trường này chính là dữ liệu được dùng trong Data Flow.

- Mỗi một trường dữ liệu trong dữ liệu nguồn đều có một trường kèm theo để lưu thông tin kiểu dữ liệu của trường đó, gọi là external column. External column cũng được lưu

vào trong dữ liệu nguồn, và dữ liệu cho external column được gọi là Metadata. Metadata bao gồm các thông tin về tên, kiểu dữ liệu và độ dài của dữ liệu đó.

- Bên cạnh đó, những thông tin thông báo lỗi ở đầu ra (error output), ngoài việc chứa đựng các trường như bên output, nó còn thêm các trường chứa thông tin lỗi khi thực hiện kết nối dữ liệu nguồn với CSDL ngoài hay các file dữ liệu.

- Thường trong dữ liệu nguồn chỉ có 1 output và 1 error output.

- Các output của dữ liệu nguồn sẽ là trường dữ liệu đầu vào (input) của các thành phần

Một phần của tài liệu Data warehouse lý thuyết và thực tiễn (Trang 94)

Tải bản đầy đủ (PDF)

(126 trang)