Đồ án tìm hiểu về data warehouse

59 97 1
Đồ án tìm hiểu về data warehouse

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Tìm hiểu Data Warehouse LỜI CẢM ƠN Trước hết, em xin chân thành gửi lời cảm ơn sâu sắc đến cô giáo Ths.Nguyễn Thị Xuân Hương, người tận tình hướng dẫn tạo điều kiện cho em trình làm tốt nghiệp Em xin chân thành cảm ơn thầy cô giáo khoa Công Nghệ Thơng Tin Trường Đại Học Dân Lập Hải Phịng truyền đạt kiến thức quý báu giúp đỡ em suốt bốn năm học trình làm tốt nghiệp vừa qua Em xin trân trọng cảm ơn thầy Trần Hữu Nghị - Hiệu trưởng trường Đại Học Dân Lập Hải Phòng ủng hộ, động viên, tạo điều kiện tốt cho chúng em thời gian học tập trường Cuối xin gửi lời cảm ơn chân thành tới tất người thân bạn bè động viên, giúp đỡ đóng góp nhiều ý kiến quý báu cho tơi q trình học tập làm tốt nghiệp Hải Phòng, tháng năm 2019 Sinh viên Trang -1- Tìm hiểu Data Warehouse MỤC LỤC LỜI CẢM ƠN LỜI NÓI ĐẦU Chương GIỚI THIỆU VỀ KHO DỮ LIỆU 1.1 Lịch sử phát triển kho liệu 1.2 Kho liệu (What is the data warehouse)? .12 1.3 Đặc điểm 13 1.4 Mục đích kho liệu 13 1.5 Mục tiêu kho liệu 14 1.5.1 Truy cập dễ dàng 14 1.5.2 Thông tin quán 14 1.5.3 Thích nghi với thay đổi 14 1.5.4 Hỗ trợ định 14 1.5.5 Bảo mật 14 1.6 Các chức chính: 15 1.7 Lợi ích: 15 1.8 Đặc tính kho liệu 15 1.9 Cấu trúc liệu cho kho liệu .16 1.10 Kiến trúc hệ thống kho liệu 17 1.11 Mối quan hệ kho liệu khai phá liệu 18 1.12 Các lĩnh vực ứng dụng 18 Chương CÁC YẾU TỐ CƠ BẢN CỦA KHO DỮ LIỆU 19 2.1 Kiểu liệu cách sử dụng .19 2.1.1 Kiểu liệu (Types of data) 19 2.1.1.1 Ý nghĩa 19 2.1.1.2 Cấu trúc 19 2.1.1.3 Phạm vi(Scope) 19 2.1.2 Dữ liệu công việc (Business data) 20 2.1.2.1 Định nghĩa 20 2.1.2.2 Tiêu chuẩn cho kiểu liệu công việc: 20 Trang -2- Tìm hiểu Data Warehouse 2.1.2.3 Ba kiểu liệu công việc: .21 2.1.3 Siêu liệu(Meta data) 24 2.1.3.1 Khái niệm .24 2.1.3.2 Mục đích 24 2.1.3.3 Metadata phải chứa thông tin: 25 2.1.3.4 Tác dụng metadata 25 2.1.3.5 Tiêu chuẩn cho kiểu siêu liệu 25 2.1.3.6 Ba loại siêu liệu 26 2.1.4 Dữ liệu vượt phạm vi kho liệu (Data beyond the scope of the Data Warehouse) 29 2.1.4.1 Dữ liệu giống sản phẩm(Data as a product) .29 2.1.4.2 Dữ liệu công việc cá nhân siêu liệu 29 2.1.5 Dữ liệu bên bên (Internal and external data) 30 2.1.6 Kết luận: 31 2.2 Khái niệm kiến trúc liệu(Conceptual data architecture): .32 2.2.1 Các kiến trúc liệu công việc (Business data architectures) 32 2.2.2 Kiến trúc đơn lớp liệu (The single-layer data architecture) 33 2.2.3 Kiến trúc hai lớp liệu (The two-layer data architecture) 34 2.2.4 Kiến trúc ba lớp liệu (The three-layer data architecture) 35 Chương 38 GIỚI THIỆU KIẾN TRÚC LOGIC KHO DỮ LIỆU 38 3.1 Dữ liệu công việc kho liệu (Business data in the data warehouse) 38 3.1.1 Các hệ thống vận hành (Operational systems) 38 3.1.2 Kho liệu công việc (The business data warehouse) 38 3.1.3 Các kho thông tin công việc ( Business information warehouses BIW) 39 3.2 Các vấn đề khác liệu công việc (Business data - other considerations) 40 3.2.1 Các nhu cầu liệu đặc biệt (Special data needs) 40 3.2.2 Nhân tố cho luồng liệu ( The rationate for uniditrecional data flow) 41 3.2.3 Hỗ trợ "đối chiếu" luồng liệu (Supporting " reverse " data flows): 41 Trang -3- Tìm hiểu Data Warehouse Dữ liệu cá nhân (Personal data ) 41 3.3 Dữ liệu bên 42 3.3.1 Thông tin quản lý bên ngoài( Exteral management information): 42 3.3.2 Trao đổi liệu điện tử (Electronic data interchange - EDI): 43 3.4 Siêu liệu kho liệu (Metadata in the Data warehouse) 44 3.5 Danh mục kho liệu (The data warehouse catalog -DWC): 44 3.6 Các hệ thống vận hành (Operational systems) 46 3.7 Chức kho liệu (Data warehouse functionality): 46 Chương NGÔN NGỮ CHO KHO DỮ LIỆU 49 4.1 Khái niệm 49 4.2 Bản chất OLAP 49 4.3 OLAP tập trung vào câu lệnh sau: 49 4.4 Đối tượng OLAP 49 4.4.1 Khối (Cube) 4.4.2 Chiều (Dimension) 4.4.3 Các đơn vị đo lường (Measures) 4.4.4 Các phân hoạch (Partitions) 4.4.5 Một ví dụ vè tổ chức kho liệu hệ thống giáo dục KẾT LUẬN 49 50 51 51 51 57 TÀI LIỆU THAM KHẢO 58 Trang -4- Tìm hiểu Data Warehouse LỜI NÓI ĐẦU Khi doanh nghiệp vào hoạt động, nhà quản lý doanh nghiệp phải đặt câu hỏi có nhu cầu muốn biết tình hình kinh doanh, tốc độ tăng trưởng, lượng giao dịch hàng ngày, hàng tháng, hàng quý, hàng năm, so sánh năm này, năm khác, phân khúc khách hàng doanh nghiệp, phân tích doanh thu Đối với doanh nghiệp, họ tự xây dựng cho hệ thống quản lý giao dịch (OLTP – Online Transaction Procesing) ứng dụng (applications), chương trình (software), hệ thống vận hành (system) hàng ngày doanh nghiệp Ví dụ ngân hàng, công ty viễn thông (họ thường phải thuê xây dựng hệ thống chuyên biệt) Tuy nhiên hệ thống thiết kế cho việc nhập liệu hàng ngày để vận hành hệ thống Chúng có khả cho phép lấy liệu cho số báo cáo đơn giản Tuy nhiên yêu cầu báo cáo theo nhiều chiều như: loại khách hàng, theo thời gian, địi hỏi phải tính tốn phức tạp hệ thống khó thực Mặt khác doanh nghiệp lớn ngân hàng, viễn thơng, họ phải có nhiều hệ thống vận hành song song với Ví dụ: ngân hàng có phân hệ tiền gửi (cá nhân, sổ tiết kiệm), tiền vay, kho quỹ Viễn thơng có trả trước, trả sau, bán hàng Như thế, để thực việc báo cáo, họ phải tổng hợp liệu từ nhiều hệ thống khác thể thiện báo cáo cách tổng thể Xuất phát từ vấn đề trên, họ phải bắt buộc xây dựng hệ thống nữa, sở liệu dành cho việc truy vấn báo cáo phạm Trang -5- vi Tìm hiểu Data Warehouse tồn doanh nghiệp Hay cịn gọi kho liệu, nơi tổng hợp liệu từ tất hệ thống lại, thực việc tính toán liệu kết xuất bảng mà liệu bảng tính tốn theo mục đích Kho liệu hướng công nghệ sử dụng phổ biến cho toán lớn như: quản trị doanh nghiệp, Y tế, bảo hiểm, ngân hàng, dân số, viễn thơng Bởi việc xây dựng kho liệu giúp cho doanh nghiệp lưu trữ lượng thơng tin lớn ngày mà cịn giúp cho nhà quản lý doanh nghiệp trích rút nguồn tài ngun cách nhanh chóng, xác Đồng thời giúp họ phân tích đưa báo cáo cách kịp thời, góp phần thúc đẩy cho việc kinh doanh đạt kết tốt Đây kiến thức hữu ích cần thiết để khai thác ngày hiệu thành tựu tin học Đó lý em chọn đề tài làm đồ án tốt nghiệp Đề tài gồm có chương: Chương 1: Giới thiệu Kho liệu (Data warehouse), Chương 2: Các yếu tố Kho liệu, Chương 3: Giới thiệu kiến trúc logic Kho liệu, Chương 4: Giới thiệu Ngôn ngữ cho kho liệu: chương giới thiệu OLAP trình bày ví dụ xây dựng kho liệu Và cuối phần kết luận Trang -6- Tìm hiểu Data Warehouse Chương GIỚI THIỆU VỀ KHO DỮ LIỆU 1.1 Lịch sử phát triển kho liệu Khái niệm kho liệu xuất phát từ việc tổng hợp hai tập nhu cầu: - Yêu cầu thương mại cho công ty mở rộng bối cảnh thông tin Sự cần thiết hệ thống thông tin lĩnh vực quản lý liệu công ty cách tốt Vào năm 1990, kho liệu trở thành từ thơng dụng cơng nghiệp máy tính Hình 1:Data warehouse evolution Các cách mạng liệu đầu năm 1990: Phần lớn kho triển khai thời kỳ khai sáng tổ chức hệ thống thơng tin Có thể thấy phương pháp tiếp cận trước khơng đủ mạnh để cung cấp liệu hỗ trợ cho phát triển tương lai khả người sử dụng liệu bị suy yếu thiếu điều kiện doanh Trang -7- Tìm hiểu Data Warehouse nghiệp Sự thành công thực thuyết phục nhà quản lý hệ thống thông tin, người bán khái niệm cho doanh nghiệp Tiếp cận phụ thuộc vào cộng đồng doanh nghiệp việc nhận cần thiết giá trị tầm nhìn khái quát liệu kinh doanh khả có trước Đặc biệt, có chủ đề phổ biến sử dụng liệu cho việc tiếp thị tăng cường lợi cạnh tranh Vào đầu thời kỳ này, nhiều ngành công nghiệp bị thay đổi đáng kể môi trường kinh doanh Quốc tế suy thối cắt giảm lợi nhuận, phủ bãi bỏ kiểm sốt chặt chẽ ngành cơng nghiệp, gia tăng cạnh tranh thị trường hàng hóa, phủ thay thị trường tập trung kinh tế thị trường nhiều thành phần Điều cho thấy yêu cầu kinh doanh dẫn đến cách mạng liệu Công việc kinh doanh cần đến tầm nhìn việc cơng ty vận hành nào, bao trùm định hướng phân chia trước cơng việc kinh doanh Sự thay đổi tập trung vào kho điều khiển liệu kinh doanh thực tạo điều kiện cho việc đánh giá lại lợi ích mà kho cung cấp Đặc tính kho liệu thời kỳ này, hệ thống thông tin điều khiển thực hiện, giả định kho đắn tiết kiệm giá hiệu cải thiện Sự xuất từ tiếp cận hệ thống thông tin truyền thống để điều chỉnh chi phí, dựa tính vững mơ hình điều khiển ứng dụng Thời đại thông tin dựa quản lý kỷ 21: Phân tích mặt lý thuyết việc thực kho liệu phát triển mạnh từ năm 2000 trở Tuy nhiên, bí kinh doanh, hỗ trợ dẫn kỹ thuật, định nghĩa trước xem dẫn quan trọng ngày Hiện nay, sử dụng liệu nguồn để dự đoán tương lai Chìa khóa cho việc dự đốn cơng nhận sự cần thiết lợi Trang -8- Tìm hiểu Data Warehouse cạnh tranh điều khiển hỗ trợ cho việc định từ liệu hướng đến thông tin, mở rộng đối tượng hỗ trợ vượt ranh giới thị trường quản lý truyền thống Hình 2:From data to information Hướng đặc trưng thuật ngữ: Quản lý thông tin sở (Information-based management viết tắt IMB) Là chuyển đổi cách hỗ trợ định giao cho cộng đồng người dùng cuối Nó tổng hợp thành năm chủ đề sau đây: Một nguồn thông tin nhất: Các liệu thô mong muốn từ nhiều nguồn khác nhau, gồm liệu liệu ngồi cơng ty, tồn nhiều dạng, từ liệu có cấu trúc truyền thống, liệu phi cấu trúc, loại tài liệu đa phương tiện, Dù nguồn liệu có kiểu hay liệu thô, trước đưa vào môi trường người dùng cuối, phải làm tương thích để đảm bảo chất lượng tính tồn vẹn Thơng tin tương thích nhất, nguồn thông tin cuối cho quản lý thông tin Trang -9- Tìm hiểu Data Warehouse Phân phối thơng tin sẵn có: Quản lý thơng tin không chức chính, đánh giá cao tổ chức phân bố vị trí địa lý Các hoạt động cần thiết, thường yêu cầu độc lập, kho thông tin kết nối logic để dễ dàng thay đổi, thực hiện, tăng cường độ tin cậy Thông tin bối cảnh kinh doanh: Người dùng hiểu tốt xử lý thơng tin đặt bối cảnh hoạt động kinh doanh mà họ tham gia Các định nghĩa liệu cung cấp chuyên gia kinh doanh trở thành chuẩn, danh mục thông tin bao gồm định nghĩa hướng vào người dùng cuối để trở thành nguồn cho định nghĩa liệu hệ thống thông tin doanh nghiệp Truyền thông tin tự động: Dữ liệu chuyển thành thông tin chuyển thông qua đường ngày phức tạp tổ chức, chế truyền tự động cần thiết Tự động hóa cần thiết khơng q trình truyền thực tế mà cịn việc định nghĩa chuyển đổi liệu cần thiết di chuyển Đặc biệt lĩnh vực phân phối thơng tin, tiện ích chế tự động phân phối phải bảo đảm Chất lượng thông tin quyền sở hữu (Information quality and ownership) Thông tin sở hữu quan trọng công ty bất kỳ, giống sở hữu khác, phải quản lý bảo vệ Chất lượng phải đảm bảo Quyền sở hữu tài liệu thông tin theo dõi điều kiện tiên để nhận thức rõ giá trị sở hữu Môi trường phát triển ngày nay(Today’s development environment) Phát triển ứng dụng phân tán (Fragmented application develop) Tất công cụ công nghệ ứng dụng doanh nghiệp Tuy nhiên, công cụ tốn phải áp dụng khu , phải bao gồm phương pháp Trang -10- Tìm hiểu Data Warehouse gồm tất siêu liệu sử dụng phần siêu liệu điều khiển liên kết với kho liệu công việc kho thông tin công việc, phần siêu liệu sử dụng liên kết với hệ thống vận hành hình 15 Hình 15: The data warehouse catalog Siêu liệu thời gian xây dựng khơng bao gồm DWC q trình xây dựng kho phân chia logic từ q trình sử dụng quản lý Tuy nhiên, phần lớn thời gian xây dựng siêu liệu nhân đơi kiểm sốt thành phần sử dụng Một số siêu liệu điều khiển môi trường thông tin loại trừ khỏi DWC siêu liệu tồn để hỗ trợ thành phần Các phần siêu liệu điều khiển bao gồm liên quan đến việc lập kế hoạch tiền tệ liệu DWC bao gồm phần siêu liệu sử dụng hệ thống vận hành phần mô tả việc sử dụng cụ thể liệu mơi trường hoạt động khác biệt với mơi trường thơng tin, có giá trị cho người sử dụng hiểu nguồn gốc cuối liệu họ Trang -45- Tìm hiểu Data Warehouse DWC phương tiện mà người dùng cuối truy cập sử dụng thành phần quan trọng thực kho liệu Nó cung cấp cho người sử dụng khả sử dụng hiệu liệu công việc lưu trữ kho 3.6 Các hệ thống vận hành (Operational systems) Mặc dù nằm bên kho liệu, hệ thống vận hành nguồn chủ yếu kho liệu Cấu trúc kiến trúc hệ thống vận hành nhân tố việc xác định độ phức tạp việc thực kho liệu Một bước kho liệu hệ thống vận hành không yêu cầu thiết kế lại quy mô theo việc xây dựng kho liệu Hướng kiến trúc hệ thống vận hành thường bắt nguồn từ thiết kế kho liệu 3.7.Chức kho liệu (Data warehouse functionality): Trong nghiên cứu kiến trúc logic, tập trung vào khía cạnh liên quan đến liệu, tầm quan trọng gắn kết, quán, tích hợp liệu kho Mức độ quan trọng chức cần thiết để hỗ trợ kiến trúc liệu mô tả Phần giới thiệu xác định vị trí chức Hình 7.8 thể kiến trúc lớp cho kho liệu công việc, mở rộng bao gồm siêu liệu Nó đơn giản hóa để làm nối bật rõ ràng kiến trúc Có điểm giống quy trình phổ biến mục tiêu khác nhau, sử dụng tập công cụ tái tạo liệu Tuy nhiên, có khác biệt đáng kể loại khác vị trí Ví dụ, vị trí kho liệu cơng việc địi hỏi phải tăng cường đáng kể độ phức tạp liệu giai đoạn tái tạo so với vị trí kho thơng tin cơng việc Tương tự vị trí danh mục kho liệu (DWC) đòi hỏi thời gian so với vị trí kho liệu cơng việc, kho thơng tin kinh công việc Điều đưa đến khác biệt chức vị trí BDW, BIW, DWC hình 16 Trang -46- Tìm hiểu Data Warehouse Hình 16: The population functionality of the warehouse Sự mở rộng thứ hai chức cung cấp cho việc truy cập sử dụng liệu công việc siêu liệu kho Những người sử dụng cuối sử dụng kho liệu công việc siêu liệu theo cách khác Trong liệu cơng việc tìm kiếm phân tích, siêu liệu khám phá (nhưng khơng phân tích), từ để nắm liệu công việc Những sử dụng khác dẫn đến hai thành phần chức Giao diện thông tin công việc (BII) cung cấp chức cần thiết cho liệu công việc hướng dẫn thông tin công việc (BIG) cung cấp chức cần thiết cho siêu liệu BII (Business information interface) giao diện để truy cập đến liệu công việc BIG (Business information guide) cung cấp chức cần thiết để sử dụng danh mục kho liệu số cách để tìm liệu cơng việc liên quan, để nắm độ quan trọng lợi ích từ việc sử dụng Chức yêu cầu truy cập phức tạp đến Danh mục kho liệu (DWC) Trang -47- Tìm hiểu Data Warehouse Hình 17: The complete logical architecture of the warehouse Quản lý kho liệu ( Data warehouse management) bao gồm số chức để vận hành quản lý toàn môi trường kho liệu thành phần định nghĩa Bao gồm: - Truy cập liệu (Data access): Một số định dạng vật lý vị trí liệu u cầu thành phần truy cập liệu - Quản lý tiến trình (process management): cần thiết hoạt động phối hợp, thường vận hành khác Vận chuyển liệu (Data transfer) Chức vận chuyển liệu yêu cầu - di chuyển liệu vật lý vào bên phạm vi kho liệu Nó cung cấp lớp vận chuyển cần thiết cho chức xác định vị trí, hỗ trợ số lượng lớn cà vận chuyển mức - An toàn (Security) Kho liệu bao gồm sở hữu liệu toàn vẹn tổ chức, an toàn yêu cầu để điều khiển truy cập sử dụng liệu - Quản lý sở liệu (Data management) Vì kho liệu mô tả vật lý tập liệu bản, tập trung phân loại nên chức quản lý sở liệu bắt buộc phải có Trang -48- Tìm hiểu Data Warehouse Chương NGÔN NGỮ CHO KHO DỮ LIỆU 4.1 Khái niệm OLAP "On Line Analytical Processing" Hệ chuyên xử lý phân tích liệu trực tuyến Và Data warehouse đầu vào cho q trình xử lý phân tích trực tuyến Do nhu cầu phân tích liệu trước liệu nhằm hỗ trợ cho việc định thật xác, lúc, giảm rủi ro Đây nhu cầu lớn doanh nghiêp nhằm phục vụ định chiến lược cho công ty Nhất công ty sản xuất lớn với khối lượng liệu lớn 4.2 Bản chất OLAP Bản chất cốt lõi OLAP liệu lấy từ Kho liệu từ liệu chủ đề (Datamart) sau chuyển thành mơ hình đa chiều lưu trữ kho liệu đa chiều 4.3 OLAP tập trung vào câu lệnh sau: Thu nhỏ (roll-up): ví dụ: nhóm liệu theo năm thay theo quý Mở rộng (drill-down): ví dụ: mở rộng liệu, nhìn theo tháng thay theo quý Cắt lát (slice): nhìn theo lớp Ví dụ: từ danh mục bán hàng Q1, Q2, Q3, Q4 xem Q1 Thu nhỏ (dice): bỏ bớt phần liệu ( tương ứng thêm điều kiện vào câu lệnh WHERE SQL) 4.4 Đối tượng OLAP Đối tượng OLAP khối, biểu diễn đa chiều liệu chi tiết tổng thể Một khối bao gồm bảng kiện (Fact), nhiều bảng chiều (Dimensions), đơn vị đo (Measures) phân hoạch (Partitions) 4.4.1 Khối (Cube) Khối phần tử xử lý phân tích trực tuyến, tập liệu từ kho liệu, tổ chức tổng hợp cấu trúc đa chiều Trang -49- Tìm hiểu Data Warehouse Để xác định khối, ta chọn bảng Fact đơn vị đo lường đồng (các cột số theo quan tâm người dùng khối) bảng Fact Sau chọn chiều, chiều gồm hay nhiều cột từ bảng liên quan khác Các chiều cung cấp mô tả rõ ràng đơn vị đo lường chia người dùng khối Mỗi chiều chứa hệ thống cấp độ để phân chia rõ ràng người dùng Mỗi cấp độ chiều lại chi tiết mức cha Ví dụ: lục địa chứa quốc gia, bảng hay tỉnh chứa thành phố Tương tự, hệ thống chiều thời gian gồm có cấp độ năm, quý, tháng ngày 4.4.2 Chiều (Dimension) Các chiều cách mô tả chủng loại mà theo liệu số khối phân chia để phân tích Khi xác định chiều, chọn nhiều cột bảng liên kết (bảng chiều) Nếu ta chọn cột phức tạp tất cần có quan hệ với nhau, chẳng hạn giá trị chúng tổ chức theo hệ thống phân cấp đơn Để xác định hệ thống phân cấp, xếp cột từ chung tới cụ thể Ví dụ: chiều thời gian (Time) tạo từ cột Năm, Qúy, Tháng, Ngày (Year, Quarter, Month Day) Mỗi cột chiều góp phần vào cấp độ cho chiều Các cấp độ đặt theo nét riêng biệt tổ chức hệ thống cấp bậc mà thừa nhận đường hợp logic cho việc đào sâu (drill_down) Ví dụ: chiều thời gian miêu tả cho phép người dùng khối đào sâu (drill_down) từ Năm tới Qúy, từ Qúy tới Tháng từ Tháng tới Ngày Mỗi drill_down cung cấp nét đặc trưng  Chiều có phân cấp: Phân cấp cột sống việc gộp liệu hay nói cách khác dựa vào phân cấp mà việc gộp liệu thực Phần lớn chiều có cấu trúc đa mức hay phân cấp Nếu làm định giá sản phẩm để tối đa doanh thu cần quan sát liệu doanh thu sản phẩm gộp theo giá sản phẩm, tức thực cách gộp Khi cần làm Trang -50- Tìm hiểu Data Warehouse định khác cần thực phép gộp tương ứng khác Như có nhiều tiến trình gộp Thế nên tiến trình gộp cần phải thực cách dễ dàng, linh hoạt để hỗ trợ phân tích khơng hoạch định trước Điều giải sở có trợ giúp phân cấp rộng sâu  Roll_up Drill_down dựa phân cấp chiều: Dựa phân cấp theo chiều, từ mức dưới, cuộn lên (Roll_up) mức trên, thực phép gộp, để có kết qủa tổng hợp Và từ mức trên, khoan sâu xuống (Drill_down) mức dưới, để có kết chi tiết 4.4.3 Các đơn vị đo lường (Measures) Các đơn vị đo khối cột bảng Fact Các đơn vị đo lường xác định giá trị số từ bảng Fact mà tổng hợp phân tích định giá, trị giá, số lượng bán 4.4.4 Các phân hoạch (Partitions) Tất khối có tối thiểu phân hoạch để chứa liệu nó; phân hoạch đơn tự động tạo khối định nghĩa Khi ta tạo phân hoạch cho khối, phân hoạch thêm vào tập hợp phân hoạch tồn khối Khối phản ánh liệu kết nối có tất phân hoạch Một bảng phân hoạch khối vơ hình người dùng Các phân hoạch tiêu biểu cho công cụ mạnh, mềm dẻo cho việc quản trị khối OLAP, đặc biệt khối lớn 4.4.5 Một ví dụ vè tổ chức kho liệu hệ thống giáo dục Trong phần trình bày Theo truyền thống, tổ chức, quan giáo dục không tập trung vào tổng thu nhập lợi ích, lại quan tâm nhiều đến giá trị gia tăng mối quan hệ cạnh tranh chất lượng giáo dục thu hút trì chất lượng sinh viên Trên thực tế, mối quan tâm mạnh mẽ đến hiểu biết mối quan hệ không thuộc phạm vi giáo dục Nhưng có bao quát cần thiết để hiểu khách hàng sinh viên Trang -51- Tìm hiểu Data Warehouse ai, mua khóa học Cuối cùng, có tầm nhìn cao cho việc sử dụng điều kiện thuận lợi trường đại học Sau đặc tính riêng biệt bảng fact: - Mỗi hàng thể lịch sử hồn thành thơng tin Một bảng fact thích hợp cho q trình tồn thời gian ngắn, - yêu cầu hóa đơn - - Các tập không giới hạn bảng fact tích lũy đơn vị đo quan tâm - Mỗi hàng duyệt lại thay đổi có kiện xảy Cả khóa ngồi bảng fact tích lũy thay đổi trình duyệt Trong trìn theo dõi đơn xin việc, sinh viên tương lai xúc tiến thông qua tập chuẩn hàng trăm, hàng nghìn hồ sơ Có thể quan tâm đến phạm vi hoạt động xung quanh khóa thời gian như: receipt of preliminary admissions test scores, nformation requested (via Web or otherwise), information sent, interview conducted, on-site campus visit, application received, transcript received, test scores received, recommendations received, first pass review by admissions, review for financial aid, final decision from admissions, accepted, admitted, and enrolled Tại thời điểm nào, người thừa nhận kết nạp vùng quản lý có quan tâm đến việc có đơn xin việc giai đoạn trình Những người phép phân tích thiếu đơn xin việc nhiều đặc tính Khuynh hướng tích lũy nhanh để lưu vết vịng đời đơn xin việc hàng cho sinh viên tương lai Thể mức thấp chi tiết nắm giữ triển vọng vào xảy Rất nhiều thông tin thu thập tiến tới ứng dụng, chấp nhận cho phép, tiếp tục duyệt lại cập nhật trạng thái triển vọng hàng bảng fact Hình sau: Trang -52- Tìm hiểu Data Warehouse Hình 18: Studen applicant pipeline as an accumulating snapshot Có nhiều chiều thời gian bảng fact tương ứng với giai đoạn quan trọng xử lý chuẩn Chúng ta muốn phân tích tiến tới triển vọng thời gian để xác định bước di chuyển thông qua kênh cung cấp, muốn phát đường hẹp Điều đặc biệt quan trọng thấy độ trễ quan trọng liên quan đến ứng cử mà quan tâm thu hút Mỗi thời gian xem xét role-playing dimention, sử dụng khóa đại diện để nắm thời gian khơng xảy dịng xem đến Chiều đơn xin việc bao gồm số thuộc tính quan tâm bao gồm sinh viên khả Các phân tích cho phép quan tâm lát cắt, khối nhỏ đặc tính đơn xin việc vị trí địa lý, khả xuất phát, giới tính, ngày sinh, dân tộc, sơ khảo Phân tích đặc tính số giai đoạn kênh cung cấp giúp điều chỉnh cá nhân Trang -53- Tìm hiểu Data Warehouse phép điều chỉnh chiến lược họ để động viên nhiều sinh viên đạt điểm thi đua Các bảng fact thực tế (Factless Fact Tables) Chúng ta thiết kế bảng fact với số cấu trúc đặc tính Mỗi bảng thường có ba đến khoảng 15-20 cột khóa, nhiều chữ số, giá trị tiếp theo, tốt thêm kiện Các kiện coi phép đo giao của giá trị khóa chiều Từ quan điểm này, kiện chứng minh cho bảng fact, giá trị khóa cấu trúc điều khiển quản lý để xác định kiện Các kiện cho sinh viên đăng ký Có nhiều tình kiện cần phải ghi lại, đồng thời gắn liền với số chiều xác định Ví dụ, theo dõi học sinh đăng ký theo thời hạn Khuynh hướng bảng fact hàng cho khóa học đăng ký sinh viên thời hạn Như minh họa hình-12.2, bảng thực tế đa chiều gồm: thời hạn, sinh viên, chuyên ngành sinh viên, khóa học, giảng viên Chúng ta làm việc với liệu thực tế mức độ giới hạn theo lịch, ngày, tuần, tháng Thời hạn mức thấp có sẵn cho kiện đăng ký Chiều thời hạn phải phù hợp đến chiều ngày lịch Nói cách khác, ngày lịch hàng ngày chúng ta, giới hạn mùa năm học Hình 19:Student registration events as a factless fact table Trang -54- Tìm hiểu Data Warehouse Bao trùm tận dụng sở vật chất Kiểu thứ hai bảng fact thực tế đưa bảng kiện Chúng ta đưa chuỗi kiện phân chia với quản lý sở vật chất để phục vụ cho minh họa Các trường đại học dành lượng vốn lớn dự án cố định sở vật chất Nó dễ hiểu sở vật chất sử dụng cho mục đích suốt thời gian Ví dụ, sở vật chất sử dụng nhiều gì? Tỷ lệ sở hữu trung bình sở vật chất chức thời gian bao nhiêu? Sự giảm giá đáng kể vào thứ đến dạy lớp học bao nhiêu? Bảng fact thực tế bị giải phóng Trường hợp bao gồm hàng bảng fact mà sở vật chất cho khối thời gian chuẩn ngày tuần không dùng tới sở vật chất dùng khơng Minh họa hình 20 Chiều sở vật chất bao gồm tất kiểu thuộc tính mơ tả sở vật chất, tồn nhà, kiểu sở vật chất ( VD phòng học, phòng lab văn phòng), số m2, khả chứa, tiện nghi (máy chiếu, bảng trắng ) Chiều trạng thái tận dụng trước bao gồm dịng mơt tả với giá trị “ Có khả năng” (available) “được tận dụng” (Utilized) Rất nhiều tổ chức liên quan đến tận dụng sở vật chất Có thể như: tổ chức sở hữu sở vật chất khối thời gian, mà tổ chức khác đăng ký người dùng sở vật chất Hình 20: Facilities utilization as a coverage factless fact table Trang -55- Tìm hiểu Data Warehouse Các kiện có mặt sinh viên: Chúng ta tưởng tượng giản đồ ghi vết có mặt sinh viên khóa học Trong trường hợp thành phần hàng cho sinh viên học qua phịng học theo khóa ngày Bảng fact kiện yếu chia sẻ chiều giống thảo luận với khía cạnh kiện đăng ký Sự khác thành phần theo ngày lịch theo mùa Mơ hình chiều này, minh họa hình sau, cho phép trả lời câu hỏi khóa học có sinh viên học đông nhất? Những sinh viên đăng ký vào khóa học nào? Những giáo viên dạy phần lớn sinh viên? Hình 21: Bảng kiện có mặt sinh viên (Student attendance fact table) Một số lĩnh vực phân tích đáng quan tâm Một số xử lý phân tích khác thực ví dụ như: tài nguyên người thu nhận, khả áp dụng trước cho mơi trường giáo dục đại học đưa mong muốn để chi phí điều hành quản lý tốt Khi tập trung vào cách tính thu nhập, hỗ trợ cho nghiên cứu, vấn đề nghiên cứu, nghiên cứu giảng viên, thu nhập từ học phí, Trang -56- Tìm hiểu Data Warehouse KẾT LUẬN Trong thời gian thực đề tài, em tìm hiểu trình bày vấn đề: Tổng quan kho liệu: khái niệm, đặc điểm, lợi ích, mục tiêu, tính chất , thành phần…của kho liệu Các khái niệm kho liệu Kiến trúc logic kho liệu Ngôn ngữ cho kho liệu minh họa cho việc tổ chức kho liệu Đồ án bước đầu giới thiệu kiến thức kho liệu, giúp người đọc có nhìn tổng quan kho liệu khái niệm liên quan Tuy nhiên hạn chế điều kiện thời gian kiến thức, đồ án tránh khỏi thiếu xót.Vì em mong nhận ý kiến đóng góp thầy giáo tồn thể bạn Em xin chân thành cảm ơn! Trang -57- Tìm hiểu Data Warehouse TÀI LIỆU THAM KHẢO Barry Devin, “Data Warehouse”, Addison Wesley, 1997 Ralph Kimball, Margy Ross,” The Data Warehouse Toolkit”, pp 1-65, 243-254, John Wiley & Sons, Inc, 2002 http://vi.wikipedia.org/wiki/Kho_d%E1%BB%AF_li%E1%BB%87u W H Inmon, OLAP and Data Warehouse, 2000 Trang -58- ... 1.3 Đặc điểm Trước tiên Data Warehouse sở liệu lớn (very large databaseVLDB) Data Warehouse thường đọc, phục vụ cho nhu cầu báo cáo, Data Warehouse hướng tính ổn định Data Warehouse lấy thơng tin... Metadata giống tờ mục lục (card catalog) chủ đề có kho liệu Trang -24- Tìm hiểu Data Warehouse 2.1.3.3 Metadata phải chứa thông tin: - - Cấu trúc liệu - Thuật toán sử dụng để tổng hợp liệu Ánh... liệu này, đồng hóa vào liệu thời gian thực nội Như hình 13, đó, trao đổi liệu liệu điện tử có tương tác với kho liệu Hình 13: The data warehouse and external data Trang -43- Tìm hiểu Data Warehouse

Ngày đăng: 31/08/2020, 14:45

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan