Các bước thiết kế vật lý

Một phần của tài liệu (LUẬN VĂN THẠC SĨ) Thiết kế Data Warehouse và ứng dụng trong hệ thống thông tin ngành điện (Trang 58 - 61)

CHƯƠNG 4 : THIẾT KẾ VẬT LÝ DATAWAREHOUSE

4.2. Các bước thiết kế vật lý

Hình vẽ bên dưới chỉ ra bức tranh tồn cảnh về các bước cần thực hiện trong quy tình thiết kế vật lý cho data warehouse. Tại mỗi bước liệt kê ra sẽ có một tập các bước con cần thực hiện để hoàn thành cho pha thiết kế đó. Chúng ta sẽ xem xét chi tiết cho các pha thiết kế ngay trong phần trình bày bên dưới.

Hình 27: Các bước thiết kế vật lý

4.2.1. Xây dựng tiêu chuẩn

Đã có rất nhiều cơng ty đầu tư nhiều tiền bạc, thời gian và công sức để xây dựng ra các chuẩn cho hệ thống thống thông tin của họ. Các chuẩn này quy định từ những điều đơn giản nhất từ đặt tên trường trong cơ sở dữ liệu trong quá trình thiết kế vật lý cho đến các thức phỏng vấn trong pha tìm hiểu yêu cầu nghiệp vụ. Trong môi trường data warehouse các chuẩn này được mở rộng hơn do nó thao tác trên nhiều vùng dữ liệu

khác nhau. Với các chuẩn được quy định ra như vậy, người dùng có thể đọc tên của đối tượng và có thể hình dung được chủ đề nghiệp vụ liên quan đến đối tượng đó.

4.2.2. Lập kế hoạch tổng thể

Như chúng ta đã biết, có trên 80% câu truy vấn trong mơi trường data warehouse liên quan đến các thông tin tổng hợp. Nếu data warehouse lưu trữ dữ liệu ở mức độ chi tiết nhất thì các câu truy vấn phải đọc tồn bộ dữ liệu chi tiết và sau đó thực hiện tổng hợp dữ liệu sau mỗi chu kỳ nghiệp vụ. Nếu hệ thống có thêm các bảng tổng hợp theo u cầu nào đó thì rõ ràng câu truy vấn sẽ thực hiện nhanh hơn nhưng như vậy hệ thống phải có thêm tài nguyên để tạo thêm các bảng tổng hợp này.

Trong bước này, cần rà soát hệ thống nhằm mục đích tạo ra những bảng tổng hợp. Cần xem xét các định nghĩa yêu cầu nghiệp vụ, tập trung vào các bảng chiều và xem xét độ phân cấp của mỗi bảng chiều đó và từ đó tạo ra những bảng tổng hợp một cách hợp lý, phù hợp với yêu cầu đặt ra.

4.2.3. Xác định lược đồ phân chia dữ liệu

Cần xem xét về kích thước dữ liệu trong hệ thống data warehouse. Số dòng trong bảng sự kiện là bao nhiêu?, Khi phân tích thực hiện các phép tốn như thế nào?. Trong data warehouse, các bảng sự kiện thường có kích thước rất lớn thường là vài triệu dòng và như vậy sẽ rất khó để quản lý. Trong q trình xử lý, toàn bộ bảng gần như được đọc gây tốn kém tài nguyền, đặc biệt là thời gian xử lý. Mặt khác nữa là với những bảng kích thước lớn như vậy thì việc sao lưu và phục hồi là vơ cùng khó khăn. Cần xem xét các bảng lớn này thành các phần nhỏ dễ quản lý hơn.

Trong bước này chúng ta cần phải định nghĩa ra một lược đồ phân chia mà bao gồm một số đặc điểm sau

 Xác định các bảng sự kiện và bảng chiều cần được phân chia

 Xác định kiểu phân chia cho mỗi bảng như vậy, phân chia theo chiều dọc hay chiều ngang

 Số phần chia nhỏ cho mỗi bảng

 Tiêu chuẩn phân chia là gì (ví dụ như theo thời gian)

 Chú ý đến các truy vấn thực hiện trên các phần phân chia đó.

4.2.4. Thiết lập khả năng nhóm dữ liệu

Trong mơi trường data warehouse, nhiều mẫu truy vấn truy cập dữ liệu được thực hiện theo cách truy cập tuần tự một lượng lớn dữ liệu. Khi điều này xảy ra, chúng ta cần phải cải tiến hiệu năng của hệ thống từ việc tạo nhóm (clustering). Đây là kỹ thuật liên quan đến việc lưu các đơn vị dữ liệu có quan hệ với nhau trong cùng một đơn vị khối

(block) dữ liệu và các đơn vị dữ liệu này thường được lấy ra cùng với nhau khi có truy vấn yêu cầu.

Yêu cầu này cần được thực hiện trước khi hồn thành mơ hình vật lý. Cần kiểm tra từng bảng trong hệ thống và tìm ra những cặp bảng nào có quan hệ với nhau và thường được xử lý cùng nhau trong các câu truy vấn.

4.2.5. Thiết lập cách đánh chỉ số

Đây là một pha bắt buộc trong khi thiết kế vật lý. Không giống như hệ thống OLTP, data warehouse là môi trường hướng truy vấn. Do vậy, việc đánh chỉ số là một kỹ thuât quan trọng nhằm cải tiến hiệu năng và đem lai những lợi ích to lớn. Việc lựa chọn thứ tự các thuộc tính khi tạo chỉ mục cũng đóng một vai trị quan trọng liên quan đến hiệu năng.

Để xây dựng được chiến lược tạo chỉ mục cho hệ thống, cần xác định các bảng trong hệ thống xuất hiện trong khi truy vấn dữ liệu và thiết lập ra các chỉ mục cho mỗi bảng đó. Một điểm chú ý là sẽ có thêm một số chỉ mục được sinh ra sau khi vận hành hệ thống trong một khoảng thời gian ngắn.

4.2.6. Xác định cấu trúc lưu trữ

Bước này sẽ xác định việc lưu dữ liệu ra thiết bị lưu trữ nào, lớn hay trung bình. Các file vật lý là gì, Cách thức lưu các bảng vào trong các file vật lý này là như thế nào?...Tất cả các câu hỏi như vậy đều được đặt ra trong kế hoạch lưu trữ dữ liệu.

Trong môi trường data warehouse, cấu trúc lưu trữ không chỉ xác định cho việc lưu dữ liệu các bảng mà còn liên quan đến một số kiểu lưu trữ khác như các file tạm thời phục vụ cho việc làm sạch, tải dữ liệu vào hệ thống, cấu trúc lưu trữ trong các vùng khác nhau xuyên suốt trong môi trường data warehouse.

4.2.7. Hồn thiện mơ hình vật lý

Bước cuối cùng này thực hiện kiểm tra và xác nhận những hoạt động đã hoàn thành ở bước trước. Khi đi đến bước này, Hệ thống đã có đủ các tiêu chuẩn để đặt tên các đối tượng trong cơ sở dữ liệu cũng như hệ thống đã xác định bảng nào cần thiết cho việc nhóm dữ liệu, bảng dữ liệu lớn nào cần phải phân chia. Hệ thống cũng đã hoàn thành chiến lược đánh chỉ số, các kế hoạch khác cho sự cho việc tối ưu hiệu năng. Hệ thống cũng đã xác định được nơi lưu giữ các file vật lý. Kết quả của bước này là tạo ra một lược đồ vật lý và hệ thống có thể được mã hố với các ngơn ngữ định nghĩa dữ liệu (DDL) trong một hệ cơ sở dữ liệu và tạo ra một từ điển dữ liệu cho cấu trúc dữ liệu đó.

Một phần của tài liệu (LUẬN VĂN THẠC SĨ) Thiết kế Data Warehouse và ứng dụng trong hệ thống thông tin ngành điện (Trang 58 - 61)

Tải bản đầy đủ (PDF)

(96 trang)