Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 55 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
55
Dung lượng
6,15 MB
Nội dung
Tìm hiểu Data Warehouse LỜI CẢM ƠN Trước hết, em xin chân thành gửi lời cảm ơn sâu sắc đến cô giáo Ths.Nguyễn Thị Xuân Hương, người tận tình hướng dẫn tạo điều kiện cho em trình làm tốt nghiệp Em xin chân thành cảm ơn thầy cô giáo khoa Công Nghệ Thông Tin Trường Đại Học Dân Lập Hải Phòng truyền đạt kiến thức quý báu giúp đỡ em suốt bốn năm học trình làm tốt nghiệp vừa qua Em xin trân trọng cảm ơn thầy Trần Hữu Nghị - Hiệu trưởng trường Đại Học Dân Lập Hải Phòng ủng hộ, động viên, tạo điều kiện tốt cho chúng em thời gian học tập trường Cuối xin gửi lời cảm ơn chân thành tới tất người thân bạn bè động viên, giúp đỡ đóng góp nhiều ý kiến quý báu cho trình học tập làm tốt nghiệp Hải Phòng, tháng năm 2010 Sinh viên Nguyễn Thị Mai Hương Trang -1- Tìm hiểu Data Warehouse MỤC LỤC Khi doanh nghiệp vào hoạt động, nhà quản lý doanh nghiệp phải đặt câu hỏi có nhu cầu muốn biết tình hình kinh doanh, tốc độ tăng trưởng, lượng giao dịch hàng ngày, hàng tháng, hàng quý, hàng năm, so sánh năm này, năm khác, phân khúc khách hàng doanh nghiệp, phân tích doanh thu *Dữ liệu không biến động 13 *Dữ liệu tổng hợp 13 Dữ liệu tổng hợp nhanh (lightly summarized data) dấu hiệu xác nhận chất lượng kho liệu Tất yếu tố công việc kinh doanh (phòng ban, lĩnh vực hoạt động, chức hoạt động, …) có yêu cầu thông tin khác nhau, việc thiết kế kho liệu phải có kết cung cấp liệu tuỳ biến, tổng hợp nhanh cho yếu tố doanh nghiệp (xem thêm phần kho liệu thông minh bên dưới) Mỗi yếu tố công việc kinh doanh có truy cập đến liệu chi tiết tổng hợp, nhiều tổng số liệu lưu trữ chi tiết hành 13 LỜI NÓI ĐẦU Trang -2- Tìm hiểu Data Warehouse Khi doanh nghiệp vào hoạt động, nhà quản lý doanh nghiệp phải đặt câu hỏi có nhu cầu muốn biết tình hình kinh doanh, tốc độ tăng trưởng, lượng giao dịch hàng ngày, hàng tháng, hàng quý, hàng năm, so sánh năm này, năm khác, phân khúc khách hàng doanh nghiệp, phân tích doanh thu Đối với doanh nghiệp, họ tự xây dựng cho hệ thống quản lý giao dịch (OLTP – Online Transaction Procesing) ứng dụng (applications), chương trình (software), hệ thống vận hành (system) hàng ngày doanh nghiệp Ví dụ ngân hàng, công ty viễn thông (họ thường phải thuê xây dựng hệ thống chuyên biệt) Tuy nhiên hệ thống thiết kế cho việc nhập liệu hàng ngày để vận hành hệ thống Chúng có khả cho phép lấy liệu cho số báo cáo đơn giản Tuy nhiên yêu cầu báo cáo theo nhiều chiều như: loại khách hàng, theo thời gian, đòi hỏi phải tính toán phức tạp hệ thống khó thực Mặt khác doanh nghiệp lớn ngân hàng, viễn thông, họ phải có nhiều hệ thống vận hành song song với Ví dụ: ngân hàng có phân hệ tiền gửi (cá nhân, sổ tiết kiệm), tiền vay, kho quỹ Viễn thông có trả trước, trả sau, bán hàng Như thế, để thực việc báo cáo, họ phải tổng hợp liệu từ nhiều hệ thống khác thể thiện báo cáo cách tổng thể Xuất phát từ vấn đề trên, họ phải bắt buộc xây dựng hệ thống nữa, sở liệu dành cho việc truy vấn báo cáo phạm vi toàn doanh nghiệp Hay gọi kho liệu, nơi tổng hợp liệu từ tất hệ thống lại, thực việc tính toán liệu kết xuất bảng mà liệu bảng tính toán theo mục đích Trang -3- Tìm hiểu Data Warehouse Kho liệu hướng công nghệ sử dụng phổ biến cho toán lớn như: quản trị doanh nghiệp, Y tế, bảo hiểm, ngân hàng, dân số, viễn thông Bởi việc xây dựng kho liệu giúp cho doanh nghiệp lưu trữ lượng thông tin lớn ngày mà giúp cho nhà quản lý doanh nghiệp trích rút nguồn tài nguyên cách nhanh chóng, xác Đồng thời giúp họ phân tích đưa báo cáo cách kịp thời, góp phần thúc đẩy cho việc kinh doanh đạt kết tốt Đây kiến thức hữu ích cần thiết để khai thác ngày hiệu thành tựu tin học Đó lý em chọn đề tài làm đồ án tốt nghiệp Đề tài gồm có chương: Chương 1: Giới thiệu Kho liệu (Data warehouse), Chương 2: Các yếu tố Kho liệu, Chương 3: Giới thiệu kiến trúc logic Kho liệu, Chương 4: Giới thiệu Ngôn ngữ cho kho liệu: chương giới thiệu OLAP trình bày ví dụ xây dựng kho liệu Và cuối phần kết luận Trang -4- Tìm hiểu Data Warehouse Chương GIỚI THIỆU VỀ KHO DỮ LIỆU 1.1 Lịch sử phát triển kho liệu Khái niệm kho liệu xuất phát từ việc tổng hợp hai tập nhu cầu: - Yêu cầu thương mại cho công ty mở rộng bối cảnh thông tin - Sự cần thiết hệ thống thông tin lĩnh vực quản lý liệu công ty cách tốt Vào năm 1990, kho liệu trở thành từ thông dụng công nghiệp máy tính Hình 1:Data warehouse evolution Các cách mạng liệu đầu năm 1990: Phần lớn kho triển khai thời kỳ khai sáng tổ chức hệ thống thông tin Có thể thấy phương pháp tiếp cận trước không đủ mạnh để cung cấp liệu hỗ trợ cho phát triển tương lai khả người sử dụng liệu bị suy yếu thiếu điều kiện doanh Trang -5- Tìm hiểu Data Warehouse nghiệp Sự thành công thực thuyết phục nhà quản lý hệ thống thông tin, người bán khái niệm cho doanh nghiệp Tiếp cận phụ thuộc vào cộng đồng doanh nghiệp việc nhận cần thiết giá trị tầm nhìn khái quát liệu kinh doanh khả có trước Đặc biệt, có chủ đề phổ biến sử dụng liệu cho việc tiếp thị tăng cường lợi cạnh tranh Vào đầu thời kỳ này, nhiều ngành công nghiệp bị thay đổi đáng kể môi trường kinh doanh Quốc tế suy thoái cắt giảm lợi nhuận, phủ bãi bỏ kiểm soát chặt chẽ ngành công nghiệp, gia tăng cạnh tranh thị trường hàng hóa, phủ thay thị trường tập trung kinh tế thị trường nhiều thành phần Điều cho thấy yêu cầu kinh doanh dẫn đến cách mạng liệu Công việc kinh doanh cần đến tầm nhìn việc công ty vận hành nào, bao trùm định hướng phân chia trước công việc kinh doanh Sự thay đổi tập trung vào kho điều khiển liệu kinh doanh thực tạo điều kiện cho việc đánh giá lại lợi ích mà kho cung cấp Đặc tính kho liệu thời kỳ này, hệ thống thông tin điều khiển thực hiện, giả định kho đắn tiết kiệm giá hiệu cải thiện Sự xuất từ tiếp cận hệ thống thông tin truyền thống để điều chỉnh chi phí, dựa tính vững mô hình điều khiển ứng dụng Thời đại thông tin dựa quản lý kỷ 21: Phân tích mặt lý thuyết việc thực kho liệu phát triển mạnh từ năm 2000 trở Tuy nhiên, bí kinh doanh, hỗ trợ dẫn kỹ thuật, định nghĩa trước xem dẫn quan trọng ngày Hiện nay, sử dụng liệu nguồn để dự đoán tương lai Chìa khóa cho việc dự đoán công nhận sự cần thiết lợi cạnh tranh điều khiển hỗ trợ cho việc định từ liệu hướng đến thông tin, mở rộng đối tượng hỗ trợ vượt ranh giới thị trường quản lý truyền thống Trang -6- Tìm hiểu Data Warehouse Hình 2:From data to information Hướng đặc trưng thuật ngữ: Quản lý thông tin sở (Information-based management viết tắt IMB) Là chuyển đổi cách hỗ trợ định giao cho cộng đồng người dùng cuối Nó tổng hợp thành năm chủ đề sau đây: Một nguồn thông tin nhất: Các liệu thô mong muốn từ nhiều nguồn khác nhau, gồm liệu liệu công ty, tồn nhiều dạng, từ liệu có cấu trúc truyền thống, liệu phi cấu trúc, loại tài liệu đa phương tiện, Dù nguồn liệu có kiểu hay liệu thô, trước đưa vào môi trường người dùng cuối, phải làm tương thích để đảm bảo chất lượng tính toàn vẹn Thông tin tương thích nhất, nguồn thông tin cuối cho quản lý thông tin Phân phối thông tin sẵn có: Quản lý thông tin không chức chính, đánh giá cao tổ chức phân bố vị trí địa lý Các hoạt động Trang -7- Tìm hiểu Data Warehouse cần thiết, thường yêu cầu độc lập, kho thông tin kết nối logic để dễ dàng thay đổi, thực hiện, tăng cường độ tin cậy Thông tin bối cảnh kinh doanh: Người dùng hiểu tốt xử lý thông tin đặt bối cảnh hoạt động kinh doanh mà họ tham gia Các định nghĩa liệu cung cấp chuyên gia kinh doanh trở thành chuẩn, danh mục thông tin bao gồm định nghĩa hướng vào người dùng cuối để trở thành nguồn cho định nghĩa liệu hệ thống thông tin doanh nghiệp Truyền thông tin tự động: Dữ liệu chuyển thành thông tin chuyển thông qua đường ngày phức tạp tổ chức, chế truyền tự động cần thiết Tự động hóa cần thiết không trình truyền thực tế mà việc định nghĩa chuyển đổi liệu cần thiết di chuyển Đặc biệt lĩnh vực phân phối thông tin, tiện ích chế tự động phân phối phải bảo đảm Chất lượng thông tin quyền sở hữu (Information quality and ownership) Thông tin sở hữu quan trọng công ty bất kỳ, giống sở hữu khác, phải quản lý bảo vệ Chất lượng phải đảm bảo Quyền sở hữu tài liệu thông tin theo dõi điều kiện tiên để nhận thức rõ giá trị sở hữu Môi trường phát triển ngày nay(Today’s development environment) Phát triển ứng dụng phân tán (Fragmented application develop) Tất công cụ công nghệ ứng dụng doanh nghiệp Tuy nhiên, công cụ tốn phải áp dụng khu vực để mang lại lợi tức đầu tư lớn Các công nghệ chưa thử nghiệm có nguy thất bại, phải bao gồm phương pháp tiếp cận thực loạt dự án thí điểm Điều áp dụng lý liệu Các yếu tố này, với quản lý có giới hạn người dẫn đến thực phân mảnh trình xử lý liệu tất hoạt động kinh doanh Doanh nghiệp đơn vị, địa phương, tổ chức, có ứng dụng vận Trang -8- Tìm hiểu Data Warehouse hành riêng để thực phần doanh nghiệp họ đảm nhận Phân mảnh thấy ví dụ sau: - Các ứng dụng đặt hàng khác sử dụng cho dòng sản phẩm khác công ty - Một trình hợp lý liên tục từ đặt hàng thông qua đơn để toán tách số ứng dụng độc lập dựa trách nhiệm tổ chức Sự phân đoạn đem lại số lợi ích Với ứng dụng độc lập tập trung vào việc phân chia vùng chức năn kinh doanh, dự án nhận chức ứng dụng để xác định nhóm người dùng cuối với yêu cầu định nghĩa chuẩn Phát triển ứng dụng vận hành (Operational application development) Môi trường vận hành điều khiển nhu cầu doanh nghiệp để cung cấp hàng hoá dịch vụ Do xác định chủ yếu hoạt động cần thiết liệu sử dụng Sự cần thiết người dùng mô tả sở hoạt động ngắn hạn Phân tích tập trung vào cần thiết để nhận đơn đặt hàng, lịch trình giao hàng, tương tự Hệ thống thông tin tập trung vào yếu tố đầu vào đầu cần thiết hoạt động xung quanh Các hoạt động cá nhân dẫn đến ứng dụng độc lập, tối ưu hóa cho nhu cầu hoạt động liên quan Yêu cầu người sử dụng tổng hợp "tự động hoá thủ tục này" Sự thành công tự động hóa đánh giá phép đo đơn giản việc thông qua mức tăng giảm chi phí kinh doanh tính dễ sử dụng thời gian phản hồi cấp độ người sử dụng Mô hình sử dụng thành công để xử lý liệu Hầu hết tính toán kinh doanh hướng vào hệ thống hoạt động Hệ thống thông tin có tầm nhìn hướng ứng dụng Một ứng dụng đơn giản tập chức cho người sử dụng có liên quan phát triển số cách tích hợp Tuy nhiên, Hệ thống thông in tích hợp chức xác định làm phát triển phạm vi liệu ứng dụng Hỗ trợ định điều khiển ứng dụng (Application – driven decision support): Từ ứng dụng thông tin sử dụng rộng rãi hệ thống máy tính, có khối lượng lớn liệu lưu trữ xử lý máy tính VẤn đề ứng dụng thông tin không lưu trữ vận hành liệu, mà việc tổ chức nguồn liệu để rút trích thông tin hỗ trợ định Đây tiến hóa cần thiết cho hệ thống thông tin 1.2.Kho liệu (What is the data warehouse)? Kho liệu (data warehouse), gọi cách xác kho thông tin (information warehouse), sở liệu hướng đối tượng thiết kế với việc tiếp cận ý kiến lĩnh vực đặc biệt lĩnh vực kinh doanh Nó cung cấp công cụ để đáp ứng thông tin cần thiết cho nhà quản Trang -9- Tìm hiểu Data Warehouse trị kinh doanh cấp độ tổ chức - yêu cầu liệu phức hợp, mà điều kiện thuận tiện để đạt việc lấy thông tin nhanh, xác Một kho liệu thiết kế để người sử dụng nhận thông tin mà họ muốn có truy cập đến công cụ đơn giản Một kho liệu pha trộn nhiều công nghệ, bao gồm sở liệu đa chiều mối quan hệ chúng, kiến trúc chủ khách, giao diện người dùng đồ họa nhiều Nguyên nhân cho phát triển kho liệu hoạt động tích hợp liệu từ nhiền nguồn khác vào kho liệu đơn lẻ dày đặc mà kho cung cấp cho việc phân tích định công việc kinh doanh, quản lý Đối với số công việc kinh doanh tin thông tin nguồn tài nguyên có giá trị lớn kho liệu tương đối giống nhà kho chứa hàng Hệ điều hành tạo phần liệu nạp chúng vào kho Một số phần tóm tắt thành phần thông tin cất vào kho Người sử dụng kho liệu đưa yêu cầu cung cấp sản phẩm tạo từ thành phần phân đoạn lưu kho Kho liệu hướng công nghệ nóng Một kho liệu xác định hướng, hoạt động hiệu trở thành công cụ cạnh tranh có giá trị cao kinh doanh 1.3 Đặc điểm Trước tiên Data Warehouse sở liệu lớn (very large database-VLDB) Data Warehouse thường đọc, phục vụ cho nhu cầu báo cáo, Data Warehouse hướng tính ổn định Data Warehouse lấy thông tin từ nhiều nguồn khác nhau: DB2, Oracle, SQLserver chí File thông thưởng làm chúng đưa vào cấu trúc nó-đó VLDB(very large database) Data Warehouse lớn nên muốn cho phận chuyên biệt người sử dụng cuối khai thác thông dễ dàng thân Data Warehouse phải chuyên hoá, phân thành chủ đề, chủ đề chuyên môn hóa tạo thành sở liệu chuyên biệt-đó Data Trang -10- Tìm hiểu Data Warehouse Hình 13: The data warehouse and external data 3.4.Siêu liệu kho liệu (Metadata in the Data warehouse) Siêu liệu yêu cầu có kiến trúc lớp Tuy nhiên tất kho liệu yêu cầu tất lớp Trang -41- Tìm hiểu Data Warehouse Hình 14: The placement of metadata of the three layer architecture Hình 14 yêu kiến trúc thông thường việc xây dựng siêu liệu thời gian, bao gồm định nghĩa lớp để giải thích mối quan hệ chúng Đây khả sử dụng công cụ mô hình khác cho môi trường khác nhau, siêu liệu định nghĩa phải thống 3.5 Danh mục kho liệu (The data warehouse catalog -DWC): Trong tập siêu liệu định nghĩa, để xác định tập cụ thể để sử dụng quản lý kho liệu Tập gọi nhiều tên, ví dụ “thư mục liệu công việc”, “Thư mục thông tin công việc”, “thư mục thông tin” Một số thuật ngữ phần việc sử dụng tập siêu liệu đưa vào kho liệu Chúng ta tập trung vào nội dung siêu liệu, sử dụng “Danh mục kho liệu - DWC” để mô tả tập DWC chứa tất siêu liệu cần thiết để sử dụng quản lý kho liệu Như vậy, bao gồm tất siêu liệu sử dụng phần siêu liệu điều khiển liên kết với kho liệu công việc kho thông tin công việc, Trang -42- Tìm hiểu Data Warehouse phần siêu liệu sử dụng liên kết với hệ thống vận hành hình 15 Hình 15: The data warehouse catalog Siêu liệu thời gian xây dựng không bao gồm DWC trình xây dựng kho phân chia logic từ trình sử dụng quản lý Tuy nhiên, phần lớn thời gian xây dựng siêu liệu nhân đôi kiểm soát thành phần sử dụng Một số siêu liệu điều khiển môi trường thông tin loại trừ khỏi DWC siêu liệu tồn để hỗ trợ thành phần Các phần siêu liệu điều khiển bao gồm liên quan đến việc lập kế hoạch tiền tệ liệu DWC bao gồm phần siêu liệu sử dụng hệ thống vận hành phần mô tả việc sử dụng cụ thể liệu môi trường hoạt động khác biệt với môi trường thông tin, có giá trị cho người sử dụng hiểu nguồn gốc cuối liệu họ DWC phương tiện mà người dùng cuối truy cập sử dụng thành phần quan trọng thực kho liệu Nó cung cấp cho người sử dụng khả sử dụng hiệu liệu công việc lưu trữ kho 3.6 Các hệ thống vận hành (Operational systems) Mặc dù nằm bên kho liệu, hệ thống vận hành nguồn chủ yếu kho liệu Cấu trúc kiến trúc hệ thống vận hành nhân tố việc xác định độ phức tạp việc thực kho liệu Một bước kho liệu hệ thống vận hành không yêu cầu thiết kế lại quy mô theo việc xây dựng kho liệu Hướng Trang -43- Tìm hiểu Data Warehouse kiến trúc hệ thống vận hành thường bắt nguồn từ thiết kế kho liệu 3.7.Chức kho liệu (Data warehouse functionality): Trong nghiên cứu kiến trúc logic, tập trung vào khía cạnh liên quan đến liệu, tầm quan trọng gắn kết, quán, tích hợp liệu kho Mức độ quan trọng chức cần thiết để hỗ trợ kiến trúc liệu mô tả Phần giới thiệu xác định vị trí chức Hình 7.8 thể kiến trúc lớp cho kho liệu công việc, mở rộng bao gồm siêu liệu Nó đơn giản hóa để làm nối bật rõ ràng kiến trúc Có điểm giống quy trình phổ biến mục tiêu khác nhau, sử dụng tập công cụ tái tạo liệu Tuy nhiên, có khác biệt đáng kể loại khác vị trí Ví dụ, vị trí kho liệu công việc đòi hỏi phải tăng cường đáng kể độ phức tạp liệu giai đoạn tái tạo so với vị trí kho thông tin công việc Tương tự vị trí danh mục kho liệu (DWC) đòi hỏi thời gian so với vị trí kho liệu công việc, kho thông tin kinh công việc Điều đưa đến khác biệt chức vị trí BDW, BIW, DWC hình 16 Hình 16: The population functionality of the warehouse Sự mở rộng thứ hai chức cung cấp cho việc truy cập sử dụng liệu công việc siêu liệu kho Những người sử dụng cuối sử dụng kho liệu công việc siêu liệu theo cách khác Trong liệu công việc tìm kiếm phân tích, siêu liệu khám phá (nhưng không phân tích), từ để nắm liệu công việc Những sử dụng khác dẫn đến hai thành phần chức Giao diện thông tin công việc (BII) cung cấp chức cần thiết cho liệu công việc hướng dẫn thông tin công việc (BIG) cung cấp chức cần thiết cho siêu liệu Trang -44- Tìm hiểu Data Warehouse BII (Business information interface) giao diện để truy cập đến liệu công việc BIG (Business information guide) cung cấp chức cần thiết để sử dụng danh mục kho liệu số cách để tìm liệu công việc liên quan, để nắm độ quan trọng lợi ích từ việc sử dụng Chức yêu cầu truy cập phức tạp đến Danh mục kho liệu (DWC) Hình 17: The complete logical architecture of the warehouse Quản lý kho liệu ( Data warehouse management) bao gồm số chức để vận hành quản lý toàn môi trường kho liệu thành phần định nghĩa Bao gồm: - Truy cập liệu (Data access): Một số định dạng vật lý vị trí liệu yêu cầu thành phần truy cập liệu - Quản lý tiến trình (process management): cần thiết hoạt động phối hợp, thường vận hành khác - Vận chuyển liệu (Data transfer) Chức vận chuyển liệu yêu cầu di chuyển liệu vật lý vào bên phạm vi kho liệu Nó cung cấp lớp vận chuyển cần thiết cho chức xác định vị trí, hỗ trợ số lượng lớn cà vận chuyển mức Trang -45- Tìm hiểu Data Warehouse - An toàn (Security) Kho liệu bao gồm sở hữu liệu toàn vẹn tổ chức, an toàn yêu cầu để điều khiển truy cập sử dụng liệu - Quản lý sở liệu (Data management) Vì kho liệu mô tả vật lý tập liệu bản, tập trung phân loại nên chức quản lý sở liệu bắt buộc phải có Chương NGÔN NGỮ CHO KHO DỮ LIỆU 4.1 Khái niệm OLAP "On Line Analytical Processing" Hệ chuyên xử lý phân tích liệu trực tuyến Và Data warehouse đầu vào cho trình xử lý phân tích trực tuyến Do nhu cầu phân tích liệu trước liệu nhằm hỗ trợ cho việc định thật xác, lúc, giảm rủi ro Đây nhu cầu lớn doanh nghiêp nhằm phục vụ định chiến lược cho công ty Nhất công ty sản xuất lớn với khối lượng liệu lớn 4.2 Bản chất OLAP Bản chất cốt lõi OLAP liệu lấy từ Kho liệu từ liệu chủ đề (Datamart) sau chuyển thành mô hình đa chiều lưu trữ kho liệu đa chiều 4.3 OLAP tập trung vào câu lệnh sau: Thu nhỏ (roll-up): ví dụ: nhóm liệu theo năm thay theo quý Mở rộng (drill-down): ví dụ: mở rộng liệu, nhìn theo tháng thay theo quý Cắt lát (slice): nhìn theo lớp Ví dụ: từ danh mục bán hàng Q1, Q2, Q3, Q4 xem Q1 Thu nhỏ (dice): bỏ bớt phần liệu ( tương ứng thêm điều kiện vào câu lệnh WHERE SQL) 4.4 Đối tượng OLAP Đối tượng OLAP khối, biểu diễn đa chiều liệu chi tiết tổng thể Trang -46- Tìm hiểu Data Warehouse Một khối bao gồm bảng kiện (Fact), nhiều bảng chiều (Dimensions), đơn vị đo (Measures) phân hoạch (Partitions) 4.4.1 Khối (Cube) Khối phần tử xử lý phân tích trực tuyến, tập liệu từ kho liệu, tổ chức tổng hợp cấu trúc đa chiều Để xác định khối, ta chọn bảng Fact đơn vị đo lường đồng (các cột số theo quan tâm người dùng khối) bảng Fact Sau chọn chiều, chiều gồm hay nhiều cột từ bảng liên quan khác Các chiều cung cấp mô tả rõ ràng đơn vị đo lường chia người dùng khối Mỗi chiều chứa hệ thống cấp độ để phân chia rõ ràng người dùng Mỗi cấp độ chiều lại chi tiết mức cha Ví dụ: lục địa chứa quốc gia, bảng hay tỉnh chứa thành phố Tương tự, hệ thống chiều thời gian gồm có cấp độ năm, quý, tháng ngày 4.4.2 Chiều (Dimension) Các chiều cách mô tả chủng loại mà theo liệu số khối phân chia để phân tích Khi xác định chiều, chọn nhiều cột bảng liên kết (bảng chiều) Nếu ta chọn cột phức tạp tất cần có quan hệ với nhau, chẳng hạn giá trị chúng tổ chức theo hệ thống phân cấp đơn Để xác định hệ thống phân cấp, xếp cột từ chung tới cụ thể Ví dụ: chiều thời gian (Time) tạo từ cột Năm, Qúy, Tháng, Ngày (Year, Quarter, Month Day) Mỗi cột chiều góp phần vào cấp độ cho chiều Các cấp độ đặt theo nét riêng biệt tổ chức hệ thống cấp bậc mà thừa nhận đường hợp logic cho việc đào sâu (drill_down) Ví dụ: chiều thời gian miêu tả cho phép người dùng khối đào sâu (drill_down) từ Năm tới Qúy, từ Qúy tới Tháng từ Tháng tới Ngày Mỗi drill_down cung cấp nét đặc trưng Trang -47- Tìm hiểu Data Warehouse Chiều có phân cấp: Phân cấp cột sống việc gộp liệu hay nói cách khác dựa vào phân cấp mà việc gộp liệu thực Phần lớn chiều có cấu trúc đa mức hay phân cấp Nếu làm định giá sản phẩm để tối đa doanh thu cần quan sát liệu doanh thu sản phẩm gộp theo giá sản phẩm, tức thực cách gộp Khi cần làm định khác cần thực phép gộp tương ứng khác Như có nhiều tiến trình gộp Thế nên tiến trình gộp cần phải thực cách dễ dàng, linh hoạt để hỗ trợ phân tích không hoạch định trước Điều giải sở có trợ giúp phân cấp rộng sâu Roll_up Drill_down dựa phân cấp chiều: Dựa phân cấp theo chiều, từ mức dưới, cuộn lên (Roll_up) mức trên, thực phép gộp, để có kết qủa tổng hợp Và từ mức trên, khoan sâu xuống (Drill_down) mức dưới, để có kết chi tiết 4.4.3 Các đơn vị đo lường (Measures) Các đơn vị đo khối cột bảng Fact Các đơn vị đo lường xác định giá trị số từ bảng Fact mà tổng hợp phân tích định giá, trị giá, số lượng bán 4.4.4 Các phân hoạch (Partitions) Tất khối có tối thiểu phân hoạch để chứa liệu nó; phân hoạch đơn tự động tạo khối định nghĩa Khi ta tạo phân hoạch cho khối, phân hoạch thêm vào tập hợp phân hoạch tồn khối Khối phản ánh liệu kết nối có tất phân hoạch Một bảng phân hoạch khối vô hình người dùng Các phân hoạch tiêu biểu cho công cụ mạnh, mềm dẻo cho việc quản trị khối OLAP, đặc biệt khối lớn 4.4.5 Một ví dụ vè tổ chức kho liệu hệ thống giáo dục Trong phần trình bày Theo truyền thống, tổ chức, quan giáo dục không tập trung vào tổng thu nhập lợi ích, lại quan tâm nhiều đến giá trị gia tăng mối quan hệ cạnh tranh chất lượng giáo dục Trang -48- Tìm hiểu Data Warehouse thu hút trì chất lượng sinh viên Trên thực tế, mối quan tâm mạnh mẽ đến hiểu biết mối quan hệ không thuộc phạm vi giáo dục Nhưng có bao quát cần thiết để hiểu khách hàng sinh viên ai, mua khóa học Cuối cùng, có tầm nhìn cao cho việc sử dụng điều kiện thuận lợi trường đại học Sau đặc tính riêng biệt bảng fact: - Mỗi hàng thể lịch sử hoàn thành thông tin - Một bảng fact thích hợp cho trình tồn thời gian ngắn, yêu cầu hóa đơn - Các tập không giới hạn bảng fact tích lũy đơn vị đo quan tâm - Mỗi hàng duyệt lại thay đổi có kiện xảy - Cả khóa bảng fact tích lũy thay đổi trình duyệt Trong trìn theo dõi đơn xin việc, sinh viên tương lai xúc tiến thông qua tập chuẩn hàng trăm, hàng nghìn hồ sơ Có thể quan tâm đến phạm vi hoạt động xung quanh khóa thời gian như: receipt of preliminary admissions test scores, nformation requested (via Web or otherwise), information sent, interview conducted, on-site campus visit, application received, transcript received, test scores received, recommendations received, first pass review by admissions, review for financial aid, final decision from admissions, accepted, admitted, and enrolled Tại thời điểm nào, người thừa nhận kết nạp vùng quản lý có quan tâm đến việc có đơn xin việc giai đoạn trình Những người phép phân tích thiếu đơn xin việc nhiều đặc tính Khuynh hướng tích lũy nhanh để lưu vết vòng đời đơn xin việc hàng cho sinh viên tương lai Thể mức thấp chi tiết nắm giữ triển vọng vào xảy Rất nhiều thông tin thu thập tiến tới ứng dụng, chấp nhận cho phép, tiếp tục duyệt lại cập nhật trạng thái triển vọng hàng bảng fact Hình sau: Trang -49- Tìm hiểu Data Warehouse Hình 18: Studen applicant pipeline as an accumulating snapshot Có nhiều chiều thời gian bảng fact tương ứng với giai đoạn quan trọng xử lý chuẩn Chúng ta muốn phân tích tiến tới triển vọng thời gian để xác định bước di chuyển thông qua kênh cung cấp, muốn phát đường hẹp Điều đặc biệt quan trọng thấy độ trễ quan trọng liên quan đến ứng cử mà quan tâm thu hút Mỗi thời gian xem xét roleplaying dimention, sử dụng khóa đại diện để nắm thời gian không xảy dòng xem đến Chiều đơn xin việc bao gồm số thuộc tính quan tâm bao gồm sinh viên khả Các phân tích cho phép quan tâm lát cắt, khối nhỏ đặc tính đơn xin việc vị trí địa lý, khả xuất phát, giới tính, ngày sinh, dân tộc, sơ khảo Phân tích đặc tính số giai đoạn kênh cung cấp giúp điều chỉnh cá nhân Trang -50- Tìm hiểu Data Warehouse phép điều chỉnh chiến lược họ để động viên nhiều sinh viên đạt điểm thi đua Các bảng fact thực tế (Factless Fact Tables) Chúng ta thiết kế bảng fact với số cấu trúc đặc tính Mỗi bảng thường có ba đến khoảng 15-20 cột khóa, nhiều chữ số, giá trị tiếp theo, tốt thêm kiện Các kiện coi phép đo giao của giá trị khóa chiều Từ quan điểm này, kiện chứng minh cho bảng fact, giá trị khóa cấu trúc điều khiển quản lý để xác định kiện Các kiện cho sinh viên đăng ký Có nhiều tình kiện cần phải ghi lại, đồng thời gắn liền với số chiều xác định Ví dụ, theo dõi học sinh đăng ký theo thời hạn Khuynh hướng bảng fact hàng cho khóa học đăng ký sinh viên thời hạn Như minh họa hình-12.2, bảng thực tế đa chiều gồm: thời hạn, sinh viên, chuyên ngành sinh viên, khóa học, giảng viên Chúng ta làm việc với liệu thực tế mức độ giới hạn theo lịch, ngày, tuần, tháng Thời hạn mức thấp có sẵn cho kiện đăng ký Chiều thời hạn phải phù hợp đến chiều ngày lịch Nói cách khác, ngày lịch hàng ngày chúng ta, giới hạn mùa năm học Hình 19:Student registration events as a factless fact table Trang -51- Tìm hiểu Data Warehouse Bao trùm tận dụng sở vật chất Kiểu thứ hai bảng fact thực tế đưa bảng kiện Chúng ta đưa chuỗi kiện phân chia với quản lý sở vật chất để phục vụ cho minh họa Các trường đại học dành lượng vốn lớn dự án cố định sở vật chất Nó dễ hiểu sở vật chất sử dụng cho mục đích suốt thời gian Ví dụ, sở vật chất sử dụng nhiều gì? Tỷ lệ sở hữu trung bình sở vật chất chức thời gian bao nhiêu? Sự giảm giá đáng kể vào thứ đến dạy lớp học bao nhiêu? Bảng fact thực tế bị giải phóng Trường hợp bao gồm hàng bảng fact mà sở vật chất cho khối thời gian chuẩn ngày tuần không dùng tới sở vật chất dùng không Minh họa hình 20 Chiều sở vật chất bao gồm tất kiểu thuộc tính mô tả sở vật chất, toàn nhà, kiểu sở vật chất ( VD phòng học, phòng lab văn phòng), số m2, khả chứa, tiện nghi (máy chiếu, bảng trắng ) Chiều trạng thái tận dụng trước bao gồm dòng môt tả với giá trị “ Có khả năng” (available) “được tận dụng” (Utilized) Rất nhiều tổ chức liên quan đến tận dụng sở vật chất Có thể như: tổ chức sở hữu sở vật chất khối thời gian, mà tổ chức khác đăng ký người dùng sở vật chất Hình 20: Facilities utilization as a coverage factless fact table Trang -52- Tìm hiểu Data Warehouse Các kiện có mặt sinh viên: Chúng ta tưởng tượng giản đồ ghi vết có mặt sinh viên khóa học Trong trường hợp thành phần hàng cho sinh viên học qua phòng học theo khóa ngày Bảng fact kiện yếu chia sẻ chiều giống thảo luận với khía cạnh kiện đăng ký Sự khác thành phần theo ngày lịch theo mùa Mô hình chiều này, minh họa hình sau, cho phép trả lời câu hỏi khóa học có sinh viên học đông nhất? Những sinh viên đăng ký vào khóa học nào? Những giáo viên dạy phần lớn sinh viên? Hình 21: Bảng kiện có mặt sinh viên (Student attendance fact table) Một số lĩnh vực phân tích đáng quan tâm Một số xử lý phân tích khác thực ví dụ như: tài nguyên người thu nhận, khả áp dụng trước cho môi trường giáo dục đại học đưa mong muốn để chi phí điều hành quản lý tốt Khi tập trung vào cách tính thu nhập, hỗ trợ cho nghiên cứu, vấn đề nghiên cứu, nghiên cứu giảng viên, thu nhập từ học phí, Trang -53- Tìm hiểu Data Warehouse KẾT LUẬN Trong thời gian thực đề tài, em tìm hiểu trình bày vấn đề: Tổng quan kho liệu: khái niệm, đặc điểm, lợi ích, mục tiêu, tính chất , thành phần…của kho liệu Các khái niệm kho liệu Kiến trúc logic kho liệu Ngôn ngữ cho kho liệu minh họa cho việc tổ chức kho liệu Đồ án bước đầu giới thiệu kiến thức kho liệu, giúp người đọc có nhìn tổng quan kho liệu khái niệm liên quan Tuy nhiên hạn chế điều kiện thời gian kiến thức, đồ án tránh khỏi thiếu xót.Vì em mong nhận ý kiến đóng góp thầy cô giáo toàn thể bạn Em xin chân thành cảm ơn! Trang -54- Tìm hiểu Data Warehouse TÀI LIỆU THAM KHẢO Barry Devin, “Data Warehouse”, Addison Wesley, 1997 Ralph Kimball, Margy Ross,” The Data Warehouse Toolkit”, pp 1-65, 243-254, John Wiley & Sons, Inc, 2002 http://vi.wikipedia.org/wiki/Kho_d%E1%BB%AF_li%E1%BB%87u W H Inmon, OLAP and Data Warehouse, 2000 Trang -55- [...]... đến các đơn đặt hàng của khách hàng ban đầu để tìm thấy những gì tỷ lệ phần trăm đơn đặt hàng trong một chuyến Trang -34- Tìm hiểu về Data Warehouse Hình 12: reconciliation and derivation in the ther layers Trang -35- Tìm hiểu về Data Warehouse Chương 3 GIỚI THIỆU KIẾN TRÚC LOGIC KHO DỮ LIỆU 3.1 Dữ liệu công việc trong kho dữ liệu (Business data in the data warehouse) 3.1.1 Các hệ thống vận hành (Operational... ngoài kho dữ liệu nói trên Metadata của người sử dụng kho dữ liệu là một phần của chính kho dữ liệu đó và có thể được dùng để điều khiển sự phân tích và truy cập kho dữ liệu đó Đối với người sử dụng kho dữ liệu, Metadata giống như là một tờ mục lục (card catalog) về các chủ đề có trong kho dữ liệu 2.1.3.3 Metadata phải chứa các thông tin: Trang -22- Tìm hiểu về Data Warehouse - Cấu trúc của dữ liệu... gian xây dựng (Build- time metadata): thiết kế để thuận lợi cho việc sử dụng, cũng như tái sử dụng cả dữ liệu và chức năng bởi những người thiết kế ứng dụng và cơ sở dữ liệu - Siêu dữ liệu thời gian sản xuất (Production - time metadata): Được thiết kế để thuận lợi cho việc tìm kiếm, sự hiểu biết, và sử dụng các dữ liệu cần thiết trong công việc Trang -23- Tìm hiểu về Data Warehouse b) Sử dụng chủ động... thực yêu cầu sự hiểu biết về cách các tập hợp dữ liệu liên quan đến nhau, và vai trò của chúng trong công việc Trong thực tế, sự hiểu biết này được xác định thông qua quá trình mô hình hóa dữ liệu Mối quan hệ giữa các lớp dữ liệu điều chỉnh và mô hình dữ liệu doanh nghiệp là quan trọng để nắm được các công việc của kiến trúc ba lớp Trang -33- Tìm hiểu về Data Warehouse Chúng ta có thể hiểu khái niệm... – of – Retail sale data Call record Telecommu n- ications database, Production Manufac- Control mainframe New application, record turing production relational database, Medium AS/400 Hình.6: Ví dụ của thời gian thực Dữ liệu nguồn (Derived data) : Dữ liệu nguồn là dữ liệu đơn giản được tạo ra, thông qua một số xử lý, từ dữ liệu thời gian thực Nó được sử Trang -20- Tìm hiểu về Data Warehouse dụng để... không có những thao tác như sửa đổi hay tạo mới nên nó được tối ưu cho việc phân tích và báo cáo Trang -13- Tìm hiểu về Data Warehouse Các thao tác với dữ liệu của kho dữ liệu dựa trên cơ sở là Mô hình dữ liệu đa chiều ( multidimensional data model), được mô hình vào đối tượng gọi là data cube Data cube là nơi trung tâm của vấn đề cần phân tích, nó bao gồm một hay nhiều tập dữ kiện (fact) và các dữ... được hiểu và hợp nhất theo yêu cầu Trang -28- Tìm hiểu về Data Warehouse Hình 7: Relationships between internal and external data 2.1.6 Kết luận: Rất khó xác định phạm vi của kho dữ liệu Đặc biệt đúng cho sự phổ biến của các đối tượng và nỗ lực của các nhà cung cấp để mang lại lợi ích bằng cách liên tục mở rộng phạm vi để bao gồm càng nhiều các dòng sản phẩm của họ càng tốt Phần này đã trình bày về xác... Phạm vi(Scope) Hình 5: Types of data and the scope of the warehouse Trang -17- Tìm hiểu về Data Warehouse Dữ liệu có thể là dữ liệu cá nhân, khi đó chủ nhân của nó có thể thay đổi nó theo ý muốn của mình, hoặc công cộng - nơi sử dụng của nó là chia sẻ giữa một số người sử dụng và bất kỳ thay đổi theo yêu cầu phải được quản lý cẩn thận 2.1.2 Dữ liệu công việc (Business data) 2.1.2.1.Định nghĩa Dữ liệu... nhau mà cấu trúc và nội dung dữ liệu Metadata có thể có những sự khác biệt Trong đó bao gồm một số loại thông tin: - Thông tin mô tả về bản thân dữ liệu Metadata - Thông tin về dữ liệu mà Metadata mô tả - Thông tin về cá nhân, tổ chức có liên quan đến dữ liệu Metadata và dữ liệu 2.1.3.5 Tiêu chuẩn cho các kiểu siêu dữ liệu Tương tự như dữ liệu công việc, metadata được phân lớp theo một số tiêu chuẩn... -16- Tìm hiểu về Data Warehouse Chương 2 CÁC YẾU TỐ CƠ BẢN CỦA KHO DỮ LIỆU 2.1.Kiểu của dữ liệu và cách sử dụng 2.1.1 Kiểu của dữ liệu (Types of data) 2.1.1.1 Ý nghĩa Dữ liệu cơ bản của máy tính đã được sử dụng từ lâu để vận hành và quản lý một doanh nghiệp Dữ liệu này được gọi là dữ liệu công việc (thương mại), đặc trưng cho trạng thái của Doanh nghiệp Một kiểu khác của dữ liệu là khái niệm về tầm