Trên đường đi, DW 2.0 thừa nhận rằng kho dữ liệu thu hút một lượng lớn dữ liệu, lưu trữ dữ liệu qua một thời gian dài của thời gian, hỗ trợ một loạt các xử lý, và cuối cùng kho dữ liệu
Trang 11
TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN
KHOA CÔNG NGHỆ THÔNG TIN
NHÓM 3 THỰC HIỆN
Thông tin nhóm:
Trần Huy Hùng (1041343)
Hồ Văn Cảnh (1042010)
Vũ Quốc Đại (1041321) Vương Nhật Duy (1041318)
Hà Ngọc Thành (1041416) Giáo Viên Hướng Dẫn:
Nguyễn Trần Minh Thư
Trang 3nhất của kho dữ liệu xuất hiện - DW 2.0: Kiến trúc thế hệ kế tiếp của Kho dữ
liệu (Morgan Kaufman) Trong cuốn sách đó, kiến trúc chung cho việc nhập dữ liệu trong hình thức phát triển cao nhất xuất hiện.
Trang 4 Giới thiệu
Kiến trúc và data warehouse không phải là tĩnh Từ khái niệm đầu tiên của một nhà kho dữ liệu một kiến trúc xử lý phân tích toàn diện bao gồm các siêu thị dữ liệu, ETL, lưu trữ dòng gần, kho thăm dò, và các cấu trúc khác, kho dữ liệu và kiến trúc liên quan của nó tiếp tục phát triển Trong năm 2008,
cuốn sách về sự tiến hóa mới nhất của kho dữ liệu xuất hiện
- DW 2.0: Kiến trúc thế hệ kế tiếp của Kho dữ liệu (Morgan
Kaufman) Trong cuốn sách đó, kiến trúc chung cho việc nhập
dữ liệu trong hình thức phát triển cao nhất xuất hiện.
Trang 5Kiến trúc SQL Pallter
Hình 1: Sơ đồ của các dữ liệu dạng hạt được tìm
thấy trong DW 2.0
Trang 6 Trong số những thứ khác, DW 2.0 nhận ra chu kỳ sống của dữ liệu trong kho dữ liệu, công nhận sự cần thiết phải bao gồm cả dữ liệu văn bản trong kho dữ liệu, và nhận ra rằng siêu dữ liệu là một thành phần thiết yếu của môi trường kho dữ liệu Trên đường đi, DW 2.0 thừa nhận rằng kho dữ liệu thu hút một lượng lớn dữ liệu, lưu trữ dữ liệu qua một thời gian dài của thời
gian, hỗ trợ một loạt các xử lý, và cuối cùng kho dữ
liệu có thể trở nên rất tốn kém nếu bạn chọn để làm cho thiết kế và cơ sở hạ tầng quyết định là tốn kém
Trang 7SQL Server trong Evolution
Trong khi kiến trúc đã được phát triển, do đó, Microsoft ® SQL Server ® cũng đã được phát triển Từ nguồn gốc khiêm tốn như là một cơ sở dữ liệu phục vụ một lượng nhỏ dữ liệu trên một máy tính cá nhân với các chức năng rất cơ bản, SQL Server bây giờ được chuẩn bị để phục vụ như một nền tảng cơ sở dữ liệu giữa kích thước và số lượng rất lớn dữ liệu cho kho dữ liệu
Nó được cho rằng, để tăng năng lực hoặc thực hiện một hệ thống điều chỉnh hệ thống có thể nhận được lên đến một cải thiện 10% Nhưng để có được 1 độ lớn đơn đặt hàng hoặc hai trong hiệu suất và nâng cao năng lực, một sự thay đổi trong kiến trúc của hệ thống là cần thiết Và quả thực đó là những gì SQL Server đã trải qua một sự thay đổi cơ bản trong kiến trúc từ những ngày đầu của SQL Server.
Cũng như kho dữ liệu và kiến trúc đã phát triển, do đó, SQL Server cũng đã được phát triển Và cho dù tình cờ hay
do thiết kế, SQL Server đã trở thành nền tảng công nghệ ưu tiên cho các hình thức tiên tiến nhất của kho dữ liệu kiến trúc - DW 2.0.
Điều này có nghĩa rằng SQL Server đã tiến mãnh liệt lên đường tiến hóa để phục vụ cộng đồng kho dữ liệu như là nền tảng cơ sở dữ liệu cho kho dữ liệu lớn và phức tạp Không còn là SQL Server hạn chế số lượng nhỏ dữ liệu và máy tính cá nhân Với những cải tiến kiến trúc của SQL Server, nó đã sẵn sàng để trở thành cơ sở hạ tầng của sự lựa chọn khi thực hiện các kho dữ liệu tiên tiến và các kiến trúc phân tích, chẳng hạn như DW 2.0.
Trang 8Vài nét của DW 2.0
tất cả trong số họ có thể được giải quyết trong không gian này giấy trắng Tuy nhiên, một số trong những khía cạnh sâu sắc hơn và quan trọng hơn của DW 2.0
sẽ được thảo luận trong bối cảnh của SQL Server.
Trang 9Truy cập cơ bản của dữ liệu
Trong nhiều năm các phương tiện lưu trữ dữ liệu ưu tiên cho đĩa lưu trữ Đĩa lưu trữ xuất hiện tại thời gian xử lý giao dịch trực tuyến lần đầu tiên được thực hiện Trong thực tế, trong nhiều cách, nó là sự ra đời của đĩa lưu trữ cho phép xử lý giao dịch trực tuyến trở thành hiện thực Cách xử lý giao dịch trực tuyến cho phép truy cập dữ liệu cho xử lý giao dịch là để truy cập lưu trữ trực tuyến ngẫu nhiên Để kết thúc này dữ liệu được nạp vào ổ đĩa lưu trữ hoặc bằng cách băm dữ liệu khi nó được đặt vào lưu trữ hoặc bằng cách tạo ra một chỉ số (hoặc cả hai) Khi truy cập vào dữ liệu cho các giao dịch trực tuyến, truy cập ngẫu nhiên và nhanh chóng của số lượng nhỏ dữ liệu được yêu cầu.
Đối với các ứng dụng trực tuyến nhiều người và cho các tập quán của dữ liệu, một mô hình truy cập ngẫu nhiên nhanh chóng, một lượng nhỏ dữ liệu trên đĩa lưu trữ làm việc tốt.Nhưng khi nói đến DSS, phân tích xử lý, mô hình cơ bản của truy cập dữ liệu là khá khác nhau Hầu hết các DSS, xử lý phân tích được thực hiện bằng phương tiện của SQL SQL hoạt động trên bộ dữ liệu, không phải hồ sơ dữ liệu Vì vậy, để xử lý phân tích, một chế độ truy cập kỷ lục đầu tiên được tìm kiếm được truy cập ngẫu nhiên và sau đó các hồ sơ còn lại trong bộ đó được truy cập tuần tự phù hợp với tối ưu xử lý dữ liệu phân tích kho Hơn nữa các bộ dữ liệu được truy cập bởi DSS chế biến có thể không nhỏ ở tất cả.Nhiều lần bộ rất lớn dữ liệu được truy cập Nói cách khác, một chế độ truy cập tuần tự cho hầu hết các dữ liệu được truy cập trong một nhà kho dữ liệu tối ưu, không phải là một chế độ truy cập ngẫu nhiên cho mỗi bản ghi dữ liệu được tìm kiếm Hình 2 cho thấy sự khác biệt này ở chế độ cơ bản của truy cập trong môi trường OLTP và môi trường kho dữ liệu phân tích.
Trang 10Truy cập cơ bản của dữ liệu
Hình 2: Minh họa cho sự khác biệt giữa
ngẫu nhiên và tuần tự I / O
Trang 11Truy cập cơ bản của dữ liệu
ngẫu nhiên đầu tiên sau đó một chế độ tuần tự truy cập là một trong đó được hỗ trợ Điều này có nghĩa rằng ở cấp độ cơ bản nhất của chế biến, SQL Server nắm giữ một lợi thế hiệu suất lớn hơn đối thủ cạnh tranh của họ.
Trang 12A Data Mart Migration Path
Một vấn đề định kỳ với kho dữ liệu và xử lý phân tích là một thực tế rằng nhiều tổ chức muốn xây dựng siêu thị dữ liệu đầu tiên, trước khi họ xây dựng một kho dữ liệu thực tế.Sau đó tổ chức một ngày tỉnh dậy và phát hiện ra rằng ngoài các siêu thị dữ liệu của họ, họ cần có một kho dữ liệu Đó là vào thời điểm này mà không có kế hoạch di chuyển dễ dàng, duyên dáng để đi từ siêu thị nhiều dữ liệu đến một môi trường kho dữ liệu trung tâm Nhiều tổ chức bắt đầu với hy vọng rằng một mart dữ liệu hoặc hai sẽ đáp ứng nhu cầu phân tích của họ Nhưng qua thời gian, vấn đề với một kiến trúc trung tâm dữ liệu mart bắt đầu xuất hiện - đó là dứt khoát không có nguồn dữ liệu doanh nghiệp, có sự cần thiết phải xây dựng tất cả các siêu thị dữ liệu từ đầu khi xuất hiện một nhu cầu mới cho dữ liệu, dữ liệu siêu thị là khủng khiếp giòn và cần bị phá hủy và viết lại khi yêu cầu kinh doanh cơ bản thay đổi, và vv
Trong DW 2.0, các dữ liệu dạng hạt được tìm thấy trong DW 2.0 tạo thành những gì được gọi là "hệ thống của kỷ lục" và trở thành "phiên bản duy nhất của chân lý" cho tổ chức.Và từ hệ thống hồ sơ, siêu thị dữ liệu được tạo ra giống như khi chúng được tạo ra trong thế hệ đầu tiên cổ điển kho dữ liệu
SQL Server hỗ trợ di chuyển dễ dàng từ siêu thị dữ liệu để lưu trữ dữ liệu SQL Server cung cấp khả năng để xây dựng kho dữ liệu nhỏ hoặc dữ liệu siêu thị trong tùy chọn FastTrack của nó Sau đó, khi khối lượng dữ liệu phát triển và phát sinh cần thiết để tạo ra một kho dữ liệu quy mô đầy đủ, SQL Server cung cấp SQL Server 2008 R2 Parallel Data
Warehouse (trước đây có tên mã là dự án "Madison") tùy chọn
Trang 13A Data Mart Migration Path
Hình 3: Parallel Data Warehouse cung cấp
một đường dẫn chuyển đổi dễ dàng từ các siêu thị dữ liệu(data mart) và kho dữ liệu nhỏ hơn quy mô kho dữ liệu doanh nghiệp
Trang 14A Data Mart Migration Path
Trong SQL Server 2008 R2 Parallel Data Warehouse ấn bản của SQL Server có cơ hội để quản lý dữ liệu càng nhiều càng tốt có thể lên đến petabyte dữ liệu Có cơ hội để hỗ trợ khối lượng dữ liệu một cách song song Có cơ hội để dự phòng của các thành phần để hệ thống có thể xử lý trong một hiệu quả và trong một cách failsafe.
Nhưng có lẽ quan trọng nhất là cơ hội để đồng bộ hóa tự động dữ liệu cư trú trong các dữ liệu FastTrack mart hoặc kho dữ liệu nhỏ với các dữ liệu trực thuộc Trung ương quản lý bởi SQL Server 2008 R2 kho dữ liệu song song Trong khi có những khía cạnh khác để chuyển đổi của một mart dữ liệu vào một kho dữ liệu, SQL Server đã giải quyết một số trong những khía cạnh khó nhất của vấn đề rất độc đáo Nếu một tổ chức cam kết SQL Server làm cơ sở cho kho dữ liệu chế biến, nhiều người trong số các vấn đề của di cư từ một môi trường dữ liệu-siêu thị-trung tâm một kho dữ liệu thực tế được giảm nhẹ.
Trang 15Data Warehouse Cost
Độ nhạy của DW 2.0 là công nhận rằng chi phí của các kho dữ liệu là một vấn đề Và nếu nó không phải là một vấn
đề ngày hôm nay, nó sẽ là một vấn đề vào ngày mai Khi khối lượng dữ liệu kho dữ liệu phát triển, phát triển các chi phí liên quan với kho dữ liệu Và chi phí của các kho dữ liệu lớn cùng với sự gia tăng trong khối lượng dữ liệu
Khi thảo luận về các chi phí phát sinh, nó phải được lưu ý rằng tập trung hơn các thành phần của công nghệ trở thành, họ trở nên đắt hơn Ví dụ, giả sử rằng một tổ chức cần có một tổng số của các đơn vị n của sức mạnh xử
lý Điều đắt nhất một tổ chức có thể làm là mua một bộ xử lý trung tâm cung cấp cho các đơn vị quyền lực n Điều hiệu quả nhất về chi phí tổ chức có thể làm là để phá vỡ các đơn vị n quyền lực vào nhiều đơn vị khác nhau n đơn vị của quyền lực là cần thiết Giả sử rằng chi phí của các đơn vị n trong một bộ xử lý duy nhất là X Bây giờ giả sử rằng các đơn vị n được chia thành 10 đơn vị - n/10 Giả sử rằng mỗi n/10 chi phí đơn vị Y Sau đó:
10 x Y <X
Trong thực tế, 10 x Y là FAR ít hơn X chu kỳ xử lý đắt tiền nhất là những người được tìm thấy trong các máy lớn nhất Khối lượng công việc có thể được chia, ít tốn kém hơn các chu trình chế biến trở thành Sử dụng phương trình trên, nó không phải là bất hợp lý mà Y sẽ là 1/100th của X Sử dụng phương trình này, 10 x Y = 1/10X Vì vậy, từ một quan điểm kinh tế, nó làm cho tinh thần để có công việc mà cần phải được thực hiện và phân phối mà làm việc nhiều hơn bộ vi xử lý khác nhau Điều này có tác dụng giúp giảm thiểu chi phí của môi trường kho dữ liệu
DW 2.0 là nhận thức của phương trình này chi phí chung Trong thực tế, DW 2.0 bắt đầu với giả thuyết này cơ bản làm cơ sở cho tất cả các quyết định kiến trúc sau đây SQL Server cũng nhận thức được thực tế này, cơ bản của cuộc sống liên quan đến chi phí công nghệ
SQL Server thích ứng với các nhu cầu cho việc phân phối các xử lý trên môi trường lưu trữ dữ liệu Hình 4 cho thấy
sự hiểu biết cơ bản về chi phí của công nghệ này
Trang 16Data Warehouse Cost
Hình 4: Các trung tâm và nói kiến trúc độc
đáo cho kho dữ liệu song song của SQL Server
Trang 17Data Warehouse Cost
SQL Server phân phối khối lượng công việc chế biến theo nhiều cách Cách đầu tiên mà SQL Server hỗ trợ việc phân phối các công việc trên nhiều địa điểm là hỗ trợ kiến trúc hub- and-spoke Cơ bản quản lý dữ liệu được thực hiện trong các kho dữ liệu trung tâm, nơi số lượng lớn dữ liệu có thể được xử lý Và cuối cùng người sử dụng xử lý phân tích được xử
lý trong các nan hoa của kiến trúc khác nhau Trong thực tế, trong bộ xử lý trung tâm phân phối của khối lượng công việc Trung tâm xử lý dữ liệu khác nhau ở những nơi khác nhau, như vậy tránh được một danh sách lớn có thể và tiêu cực sẽ ảnh hưởng đến hiệu suất.
Khi làm như vậy, chi phí của cơ sở hạ tầng cho SQL Server được tổ chức ở mức tối thiểu,
do đó cho phép các tổ chức dễ dàng và chi phí hiệu quả phát triển kho dữ liệu của họ và để đạt được hiệu suất tốt và phù hợp cùng một lúc.
Trang 18 Một khía cạnh khác của kho dữ liệu được công nhận bởi cả hai 2.0 DW và SQL Server là cần thiết để lưu trữ và quản lý một khối lượng lớn dữ liệu Có rất nhiều cách mà khối lượng lớn dữ liệu có thể được quản lý Một cách đơn giản để quản lý khối lượng dữ liệu là thông qua
nén Nén, dữ liệu không liên quan được gỡ bỏ hoặc được lưu trữ trong một thời trang giảm thiểu Các kỹ thuật nén đặc biệt là áp dụng cho một kho dữ liệu bởi vì kho dữ liệu được xây dựng đúng cách - không cho phép dữ liệu được cập nhật Nén thực sự gây hại cho hiệu suất khi cập nhật dữ liệu được cho phép bởi vì nó là tốn kém cho hệ thống và tìm kiếm dữ liệu, giải nén
nó, cập nhật nó, nén lại các dữ liệu và sau đó cố gắng và thay thế các dữ liệu trong cơ sở dữ liệu một cách hiệu quả Nhưng vì cập nhật dữ liệu không xảy ra trong môi trường kho dữ liệu, nén
dữ liệu làm cho rất nhiều ý nghĩa.Và thực tế, SQL Server cho phép dữ liệu được nén.
Trang 19Parallel Processing
Tuy nhiên, mức tăng lớn nhất trong việc quản lý khối lượng dữ liệu mà bây giờ là một phần của SQL Server (SQL Server 2008 R2 Parallel Data Warehouse) là quản lý song song khối lượng dữ liệu Trong xử lý song song của dữ liệu, dữ liệu được lưu trữ trên nhiều hơn một thiết bị để nhiều hơn một bộ xử lý có thể truy cập và quản lý dữ liệu cùng một lúc.Để hiểu được giá trị của quản lý dữ liệu song song, hãy xem xét những gì một trình điều khiển lỗi phải làm gì khi trọng lượng của lỗi trở nên quá nặng cho ngựa Một giải pháp thay thế là để đi từ một con ngựa có kích thước thông thường một con ngựa quá khổ như Percheron hoặc Clydesdale Percherons được tạo ra năm trước đây để cho phép các hiệp sĩ trong bộ giáp đi xe vào trận chiến hoặc các cuộc thi jousting Và một hiệp sĩ trong bộ giáp nặng rất nhiều Chiến lược này hoạt động tốt miễn là có một Percheron đó là có sẵn và ít hơn mười tuổi Nhưng điều gì sẽ xảy ra nếu không có Percheron có sẵn? Hoặc những gì sẽ xảy ra nếu tải quá nặng nề cho một Clydesdale kéo? Sau đó, một đàn ngựa - không phải là một con ngựa duy nhất - là cần thiết Và đến một điểm con ngựa có thể được thêm vào như là tải được kéo phát triển.
Tương tự cũng được áp dụng để quản lý rất nhiều dữ liệu Nếu một máy chủ duy nhất được tràn ngập bởi tải dữ liệu, sau đó nhiều máy chủ có thể được sử dụng cùng một lúc và tải dữ liệu có thể được chia trên nhiều hơn một máy chủ Phương pháp như vậy được gọi là một cách tiếp cận song song bởi vì các bộ khác nhau của dữ liệu được vận hành song song độc lập Khi làm như vậy thêm các máy chủ nhiều hơn song song làm tăng tổng thông qua một hệ thống có thể xử lý.
Và SQL Server 2008 R2 song song Kho dữ liệu tùy chọn xử lý dữ liệu một cách song song.
Trang 20Parallel Processing
Hình 5: Song song quản lý dữ liệu tại trung
tâm SQL Server
Trang 21Xác suất truy cập dữ liệu
Nhưng nén và phương pháp tiếp cận song song với việc quản lý dữ liệu không phải là cách duy nhất mà khối lượng lớn dữ liệu có thể được quản lý DW 2.0 kêu gọi cho việc tách vật lý của dữ liệu dựa trên xác suất truy cập dữ liệu Dữ liệu rất cao truy cập cần phải được đặt trong lưu trữ hiệu suất cao Về vấn đề này, một kho dữ liệu được xây dựng theo SQL Server cũng giống như bất kỳ hệ thống quản lý cơ sở dữ liệu khác Tuy nhiên, khối lượng dữ liệu phát triển và xác suất truy cập của các thuốc nhỏ dữ liệu, nó không còn có ý nghĩa để lưu trữ tất cả dữ liệu về hiệu suất lưu trữ cao Không chỉ là các dữ liệu không được truy cập rất đắt để đặt trên cao hiệu suất lưu trữ, dữ liệu không sử dụng được trong các cách truy cập vào các dữ liệu có khả năng truy cập thực sự là cao Bằng cách đặt tất cả các dữ liệu về hiệu suất lưu trữ cao, tổ chức có tồi tệ nhất của tất cả các thế giới - chi phí lớn và hiệu suất kém.
Để hiểu lý do tại sao dữ liệu với một xác suất thấp của truy cập cần được loại bỏ từ cao hiệu suất lưu trữ, xem xét rằng một hệ thống thông tin bằng nhiều cách như bơm máu thông qua cơ thể con người Trong một vận động viên trẻ chạy marathon, có rất ít cholesterol Trái tim bơm máu hiệu quả thông qua các mạch máu của các vận động viên.Nhưng bây giờ xem xét một củ khoai tây chiếc ghế hôn mê Khoai tây văng có rất nhiều cholesterol trong cơ thể của
ta / cô ta Trái tim phải làm việc chăm chỉ để bơm máu qua các động mạch bị tắc nghẽn cholesterol của khoai tây văng.
Không hoạt động, dữ liệu không sử dụng trong một kho dữ liệu giống như cholesterol trong cơ thể của một vận động viên Cholesterol ít có hiệu quả hơn các máy bơm tim Các dữ liệu không sử dụng ít có hiệu suất lưu trữ cao, hiệu quả hơn là để tìm dữ liệu đang được xem xét cho hiệu suất lưu trữ cao.
DW 2,0 công nhận thực tế này cơ bản của cuộc sống và SQL Server cũng thừa nhận thực tế này.