Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 49 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
49
Dung lượng
1,38 MB
Nội dung
TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI VIỆN TOÁN ỨNG DỤNG VÀ TIN HỌC BÁO CÁO ĐỒ ÁN I ĐỀ TÀI: KIẾN TRÚC VÀ THIẾT KẾ HỆ THỐNG KHO DỮ LIỆU Chuyên ngành: Hệ thống thông tin quản lý Giảng viên hướng dẫn: ThS Lê Quang Hòa Sinh viên thực hiện: Ngô Quốc Cường - 20185436 HÀ NỘI – 2022 i NHẬN XÉT CỦA GIẢNG VIÊN Mục tiêu (a) (b) (c) Nội dung (a) (b) (c) Đánh giá kết đạt (a) (b) (c) Hà Nội, tháng 08 năm 2022 Giảng viên ThS Lê Quang Hòa ii Lời cảm ơn Em xin gửi lời cảm ơn chân thành kính trọng tới Thạc sĩ Lê Quang Hịa, người tận tình hướng dẫn học phần Đồ án 1, giúp em hướng, sửa lỗi, cho ý kiến, góp phần hồn thành báo cáo Do kiến thức hạn hẹp, kỹ chắt lọc tài liệu cịn yếu trình độ ngoại ngữ cịn hạn chế nên khơng tránh khỏi thiếu sót sai sót kiến thức, trình bày dịch thuật Em mong nhận thêm đóng góp ý kiến từ thầy để báo cáo đạt kết tốt để em rút thêm kinh nghiệm quý báu cho tập, đồ án, dự án tới Em xin chân thành cảm ơn! Hà Nội, tháng 08 năm 2022 Sinh viên Ngô Quốc Cường iii Mục lục Danh sách hình vẽ Chương Mở đầu Chương Cơ sở liệu 2.1 Thiết kế có sở liệu 2.2 Cơ sở liệu Northwind 2.3 Thiết kế sở liệu khái niệm 2.4 Thiết kế sở liệu logic 13 2.4.1 Mơ hình quan hệ 13 Chương Khái niệm kho liệu 3.1 20 Mơ hình đa chiều liệu 20 3.1.1 Cấu trúc phân mức 23 3.1.2 Số đo 24 3.2 Mơ hình OLAP 24 3.3 Kho liệu 27 3.4 Kiến trúc kho liệu 28 3.5 Thiết kế kho liệu 29 Chương Thiết kế kho liệu khái niệm 30 4.1 Thiết kế kho liệu khái niệm 30 4.2 Hệ thống phân mức 33 4.2.1 Phân mức đối xứng 33 4.2.2 Phân mức phi đối xứng 34 4.2.3 Phân mức tổng quát 34 iv 4.2.4 Phân mức thay 35 Chương Thiết kế kho liệu logic 37 5.1 Mơ hình kho liệu logic 37 5.2 Thiết kế kho liệu quan hệ 38 Chương Tổng kết 42 Chương Tài liệu tham khảo 44 Danh sách hình vẽ 2.1 Lược đồ khái niệm sở liệu Northwind 10 2.2 Kiểu quan hệ OrderDetails mơ hình hóa kiểu thực thể yếu 12 2.3 Một lược đồ quan hệ tương ứng với lược đồ khái niệm Northwind Hình 2.1 14 2.4 Phép dịch mối quan hệ lược đồ Hình 2.2 17 3.1 Khối lập phương liệu bán hàng với ba chiều liệu Product, Time, Customer số đ Quantity 22 3.2 Sơ đồ phân mức chiều liệu Hierarchies of the Product, Time, and Customer dimensions 23 3.3 a) Khối lập phương ban đầu (b) Tổng hợp đến mức Country (c) Khoan sâu vào mức Month (d) Phân loại sản phẩm theo tên (e) Xoay Cắt City = ’Paris’ (g) Bóc City = ’Paris’ ’Lyon’ Quarter = ’Q1’ ’Q2’ (h) Khối lập phương năm 2011 (i) Giao hai khối (j) Phần trăm thay đổi 25 3.4 Kiến trúc kho liệu điển hình 29 3.5 Các giai đoạn thiết kế kho liệu 29 4.1 (a) Mức (b) Hệ thống phân mức (c) Số đo (d) Dữ kiện chiều liệu (e) Các loại số đo (f) Tên mức (g) Thuộc tính phân phối (h) Các mối quan hệ độc quyền 31 4.2 Lược đồ khái niệm cho kho liệu Northwind 32 4.3 Một ví dụ phân mức đối xứng Product → Category 33 4.4 (a) Lược đồ (b) Ví dụ 34 4.5 Một hệ thống phân mức tổng quát (a) Lược đồ (b) Ví dụ 35 4.6 Một hệ thống phân mức thay (a) Lược đồ (b) Ví dụ 36 5.1 Ví dụ lược đồ hình 39 5.2 Ví dụ lược đô tuyết 40 5.3 Ví dụ lược đồ hình 40 5.4 Ví dụ lược hồ chịm 41 Chương Mở đầu Từ cuối năm 1970, công nghệ sở liệu quan hệ hầu hết tổ chức áp dụng để lưu trữ liệu thiết yếu Tuy nhiên, nay, nhu cầu tổ chức khơng cịn giống trước Một mặt, động thị trường khả cạnh tranh ngày gia tăng dẫn đến nhu cầu nắm thơng tin thích hợp vào thời điểm Các nhà quản lý cần cung cấp thơng tin thích hợp hịng đưa định thật kịp thời theo kịp hoạt động kinh doanh đầy biến động Mặt khác, liệu tổ chức sở hữu thường nằm rải rác hệ thống khác nhau, hệ thống thiết kế cho loại hoạt động kinh doanh cụ thể Các hệ thống lại bị phân phối rải rác theo địa lý, chi nhánh tổ chức khác Các hệ thống sở liệu truyền thống không phù hợp với yêu cầu này, chúng tạo để phục vụ hoạt động hàng ngày để phân tích liệu định Do đó, nhiều cơng nghệ sở liệu cho nhiệm vụ cụ thể bắt đầu xuất năm 1990, cụ thể kho liệu xử lý phân tích trực tuyến (OLAP), liên quan đến kiến trúc, thuật tốn, cơng cụ kỹ thuật để tập hợp liệu từ nhiều nguồn thông tin không đồng thành kho lưu trữ phù hợp cho hoạt động phân tích Trong kho kho liệu, liệu tích lũy khoảng thời gian định nhằm mục đích phân tích phát triển khám phá thông tin chiến lược xu hướng hay mối tương quan Kho liệu ngày cơng nghệ hồn thiện tổ chức nhiều lĩnh vực sử dụng nhằm cải thiện hoạt động đạt mục tiêu kinh doanh Chương Cơ sở liệu Cơ sở liệu cấu thành thành phần cốt lõi hệ thống thông tin ngày Cơ sở liệu tập hợp (chia sẻ được) liệu liên quan logic mô tả liệu đó, thiết kế để đáp ứng nhu cầu thông tin hỗ trợ hoạt động tổ chức Cơ sở liệu triển khai hệ quản trị sở liệu (DBMS), hệ thống phần mềm dùng để định nghĩa, tạo, thao tác quản trị sở liệu 2.1 Thiết kế có sở liệu Thiết kế hệ thống sở liệu công việc tương đối phức tạp, chia thành bốn giai đoạn: • Đặc tả yêu cầu: Thu thập thông tin nhu cầu người dùng hệ thống sở liệu Các học viện cá nhân phát triển nhiều phương pháp tiếp cận việc đặc tả yêu cầu Các kỹ thuật giúp gợi thuộc tính hệ thống cần thiết mong muốn từ người dùng tiềm năng, để đồng yêu cầu định mức độ ưu tiên cho chúng Trong giai đoạn này, tham gia tích cực người dùng làm tăng mức độ hài long họ hệ thống cung cấp tránh lỗi mà tốn nhiều chi phí sửa chữa giai đoạn triển khai 30 Chương Thiết kế kho liệu khái niệm 4.1 Thiết kế kho liệu khái niệm Như nghiên cứu Chương 2, trình thiết kế sở liệu thông thường bao gồm việc tạo ba lược đồ sở liệu ba cấp độ khác nhau: khái niệm, logic vật lý Lược đồ khái niệm mô tả ngắn gọn yêu cầu liệu người dùng mà chưa cần tính đến chuyện triển khai chi tiết Cơ sở liệu thông thường thường thiết kế cấp độ khái niệm cách sử dụng số biến thể mô hình quan hệ thực thể (ER) Lược đồ khái niệm dễ dàng chuyển sang lược đồ quan hệ cách áp dụng tập hợp quy tắc ánh xạ Trong chương này, sử dụng mơ hình MultiDim Mơ hình đủ mạnh để biểu diễn cấp độ khái niệm tất yếu tố cần thiết kho liệu ứng dụng OLAP Để có nhìn tổng qt mơ hình, ta sử dụng ví dụ Hình 4.2, minh họa lược đồ khái niệm kho liệu Northwind Ta giới thiệu thành phần mơ hình Lược đồ bao hàm tất chiều liệu kiện Chiều liệu có mức nhiều mức Một mức tương tự kiểu thực thể mơ hình ER Nó mơ tả tập hợp khái niệm giới thực, từ góc độ ứng dụng, có đặc điểm 31 tương tự Ví dụ, Product Category hai mức Hình 4.2 Các cá thể mức gọi thành viên Một mức có tập hợp thuộc tính mơ tả đặc điểm thành viên Ngồi ra, cấp có ID xác định thành viên cấp Mỗi ID bao gồm thuộc tính Ví dụ, Hình 4.2, CategoryID ID cấp Category Mỗi thuộc tính cấp mang kiểu liệu riêng, điển hình kiểu số nguyên, số thực chuỗi Hình 4.1: (a) Mức (b) Hệ thống phân mức (c) Số đo (d) Dữ kiện chiều liệu (e) Các loại số đo (f) Tên mức (g) Thuộc tính phân phối (h) Các mối quan hệ độc quyền Một kiện (Hình 4.1d) liên quan đến số mức Ví dụ, kiện Sales Hình 4.2 liên quan đến mức Employee, Customer, Supplier, Shipper, Order, Product Time Như Hình 4.1d, mức tham gia nhiều lần vào kiện, đóng vài vai trò khác Mỗi vai trò xác định tên thể liên kết riêng mức tương ứng với kiện Ví dụ, Hình 4.2, mức Time tham gia vào kiện Sales với vai trò OrderDate, DueDate ShippedDate Các cá thể kiện gọi thành viên kiện 32 Một kiện chứa thuộc tính thường gọi số đo Những số đo chứa liệu (thường số) phân tích quan điểm khác Ví dụ, kiện Sales Hình 4.2 bao gồm số đo Quantity, UnitPrice, Discount, SalesAmount, Freight, NetAmount Các thuộc tính ID mức liên quan đến kiện cho biết mức độ chi tiết số đo, tức mức độ chi tiết mà số đo hiển thị Hình 4.2: Lược đồ khái niệm cho kho liệu Northwind 33 4.2 Hệ thống phân mức Phân mức yếu tố quan trọng ứng dụng phân tích, cung cấp phương tiện để biểu diễn liệu phân tích mức trừu tượng khác Trong thực tế, người dùng phải đối phó với nhiều loại cấu trúc phân mức phức tạp Các mơ hình logic kho liệu OLAP lại cung cấp tập giới hạn loại cấu trúc phân mức Do đó, người dùng thường nắm bắt hết ngữ nghĩa thiết yếu ứng dụng đa chiều phải giới hạn phân tích việc xem xét loại phân mức xác định trước mà công cụ sử dụng cung cấp Tuy nhiên, nhà thiết kế kho liệu nên nhận thức vấn đề mà loại cấu trúc phân mức khác đem đến để giải chúng Trong phần này, ta thảo luận số loại cấu trúc phân mức biểu diễn mơ hình MultiDim 4.2.1 Phân mức đối xứng Hệ thống phân mức đối xứng có hướng vẽ lược đồ, tất mức bắt buộc Ví dụ, mức Product → Category Hình 4.2 Ở cấp độ cá thể, thành viên tạo thành mà tất nhánh có chiều dài, Hình 4.3 Tất thành viên có thành viên thành viên thuộc xác thành viên mẹ Ví dụ, Hình 4.3, danh mục định sản phẩm sản phẩm thuộc danh mục Hình 4.3: Một ví dụ phân mức đối xứng Product → Category 34 4.2.2 Phân mức phi đối xứng Hệ thống phân mức phi đối xứng có đường dẫn vẽ lược đồ, mức khơng bắt buộc Do đó, cấp độ cá thể, có thành viên mẹ mà khơng có thành viên liên kết Hình 4.4a cho thấy lược đồ phân cấp ngân hàng bao gồm số chi nhánh, chi nhánh có đại lý; xa hơn, quan có máy ATM Kết là, cấp độ cá thể, thành viên đại diện cho phi đối xứng, nhánh có độ dài khác nhau, số thành viên mẹ khơng có thành viên Ví dụ, Hình 4.4b, chi nhánh khơng có đại lý số đại lý khơng có ATM Hình 4.4: (a) Lược đồ (b) Ví dụ 4.2.3 Phân mức tổng quát Đôi khi, thành viên mức lại thuộc nhiều loại khác Chẳng hạn khách hàng cơng ty cá nhân Tình thường trình bày qua mơ hình ER nhờ sử dụng mối quan hệ tổng quát hóa 35 nghiên cứu Chương Giả sử số đo liên quan đến khách hàng có hướng tổng hợp khác tùy theo kiểu khách hàng Đối với công ty, hướng tổng hợp Customer → Sector → Branch, cá nhân, hướng tổng hợp lại Customer → Profession → Branch Trong Hình 4.5a, mức chung mức cụ thể mối quan hệ cha-con chúng thể minh bạch Phân mức kiểu gọi phân mức tổng quát Hình 4.5: Một hệ thống phân mức tổng quát (a) Lược đồ (b) Ví dụ 4.2.4 Phân mức thay Một ví dụ đưa Hình 4.6a Chiều Time bao gồm hai phân mức tương ứng với hai kiểu tính năm khác nhau: năm dương lịch năm tài Như thấy, cấu trúc phân mức tạo thành biểu đồ, thành viên liên kết với nhiều thành viên mẹ thành viên mẹ thuộc nhiều mức khác Phân mức thay cần thiết ta muốn phân tích số đo từ góc độ (ví dụ: thời gian) qua việc sử dụng luân phiên nhiều kiểu tổng hợp 36 Hình 4.6: Một hệ thống phân mức thay (a) Lược đồ (b) Ví dụ 37 Chương Thiết kế kho liệu logic 5.1 Mơ hình kho liệu logic Mơ hình khái niệm hữu ích việc thiết kế ứng dụng sở liệu chúng hỗ trợ giao tiếp bên liên quan dự án Tuy nhiên, mơ hình khái niệm phải dịch thành mơ hình logic để ứng dụng hệ quản trị sở liệu Trong chương này, nghiên cứu cách mơ hình khái niệm đa chiều biểu diễn thành mơ hình quan hệ Có số cách tiếp cận để triển khai mơ hình đa chiều, tùy thuộc vào cách khối liệu lưu trữ Ba cách tiếp cận là: • OLAP quan hệ (ROLAP), lưu trữ liệu sở liệu quan hệ hỗ trợ phần mở rộng cho SQL phương pháp truy vấn đặc biệt để triển khai hiệu mơ hình liệu đa chiều hoạt động liên quan • OLAP đa chiều (MOLAP), lưu trữ liệu cấu trúc liệu đa chiều chuyên biệt (ví dụ: mảng) triển khai hoạt động OLAP cấu trúc liệu • OLAP lai (HOLAP), kết hợp hai cách tiếp cận Trong hệ thống ROLAP, liệu đa chiều lưu trữ bảng quan hệ Để tăng hiệu suất, tổng hợp tính tốn trước bảng quan hệ Tất hoạt động quản lý liệu dựa DBMS quan hệ Điều 38 có số lợi sở liệu quan hệ chuẩn hóa tốt cung cấp dung lượng lưu trữ lớn Trong hệ thống MOLAP, khối liệu lưu trữ mảng đa chiều, kết hợp với kỹ thuật băm lập mục Hoạt động OLAP thực hiệu quả, tự nhiên đơn giản Quản lý liệu MOLAP thực công cụ đa chiều, thường cung cấp dung lượng lưu trữ hệ thống ROLAP MOLAP cung cấp dung lượng lưu trữ so với hệ thống ROLAP, lại có hiệu suất tốt truy vấn tổng hợp liệu Do đó, hệ thống lai HOLAP đời, hưởng lợi từ khả lưu trữ ROLAP khả xử lý MOLAP 5.2 Thiết kế kho liệu quan hệ Biểu diễn quan hệ mơ hình đa chiều có dạng lược đồ hình gồm bảng kiện trung tâm tập hợp bảng chiều liệu Mỗi bảng ứng với chiều liệu Trong Hình 5.1, bảng kiện màu xám bảng chiều liệu màu trắng Bảng kiện chứa khóa ngoại bảng chiều liệu: ProductKey, StoreKey, PromotionKey TimeKey; số đo cụ thể Amout Quantity Như thể hình, ràng buộc toàn vẹn tham chiếu định bảng kiện với bảng chiều liệu Trong lược đồ hình sao, bảng chiều liệu khơng chuẩn hóa Chúng chứa nhiều liệu dư thừa, đặc biệt có cấu trúc phân mức Chẳng hạn chiều Product Hình 5.1, tất sản phẩm thuộc danh mục có thơng tin dư thừa liên quan đến thuộc tính mơ tả danh mục phận Tương tự với trường hợp chiều Store với thuộc tính mơ tả thành phố tiểu bang Bảng kiện lại thường chuẩn hóa Trong Hình 5.1, bảng kiện Sales chuẩn hóa khóa ProductKey, StoreKey, PromotionKey TimeKey 39 Hình 5.1: Ví dụ lược đồ hình Lược đồ bơng tuyết tránh dư thừa lược đồ hình nhờ chuẩn hóa bảng chiều liệu Một chiều biểu diễn qua số bảng ràng buộc toàn vẹn tham chiếu Ngoài ra, trường hợp lược đồ hình sao, ràng buộc toàn vẹn tham chiếu liên quan đến bảng kiện bảng chiều liệu mức chi tiết Hình 5.2 ví dụ lược đồ tuyết Ở đây, bảng kiện giống hệt Hình 5.1 Tuy nhiên, hai chiều Product Store biểu thị qua vài bảng chuẩn hóa Ví dụ: chiều Product, thông tin danh mục chuyển riêng đến bảng Category thuộc tính CategoryKey bảng ban đầu Chỉ giá trị khóa lặp lại cho sản phẩm loại cịn thơng tin danh mục cần lưu trữ lần bảng Category Bảng chuẩn hóa dễ bảo trì tối ưu hóa khơng gian lưu trữ Lược đồ bơng tuyết – hình kết hợp lược đồ hình với lược fbơng tuyết, số bảng chiều chuẩn hóa chiều khác khơng Ta có lược đồ bơng tuyết – hình thay bảng chiều Product, Category Department Hình 5.2 bảng chiều Product 40 Hình 5.2: Ví dụ lược bơng tuyết Hình 5.1 giữ nguyên tất bảng chiều lại Hình 5.2 (chẳng hạn bảng chiều Store) Hình 5.3: Ví dụ lược đồ hình Cuối cùng, lược đồ chịm Hình 5.3 có nhiều bảng kiện dùng chung bảng chiều liệu 41 Hình 5.4: Ví dụ lược hồ chịm 42 Chương Tổng kết Khái niệm kho liệu có từ cuối năm 1980 hai nhà nghiên cứu IBM Barry Devlin Paul Murphy phát triển "kho liệu kinh doanh" Về chất, khái niệm kho liệu cung cấp mơ hình kiến trúc cho luồng liệu từ hệ thống vận hành đến với môi trường hỗ trợ định Kho liệu xây dựng cách kết hợp liệu từ nhiều nguồn khác nhau, hỗ trợ báo cáo phân tích, truy vấn có cấu trúc phi cấu trúc giúp tổ chức định Kho liệu tập hợp công cụ phần mềm tạo điều kiện phân tích tập lớn liệu kinh doanh Phần đa liệu kho liệu đến từ nhiều nguồn ứng dụng nội bộ: tiếp thị, bán hàng tài chính; ứng dụng hướng khách hàng; hệ thống đối tác bên Nó kho lưu trữ liệu tập trung cho phép nhà phân tích truy vấn u cầu lợi ích kinh doanh Bài báo cáo tập trung tìm hiểu khái niệm kiến trúc thiết kế hệ thống kho liệu Ta qua nội dung chương: • Chương 1: Giới thiệu sơ lược lịch sử vai trò ngày quan trọng kho liệu doanh nghiệp • Chương 2: Nhắc lại kiến thức sở liệu, tảng 43 kho liệu • Chương 3: Nêu ưu điểm kho liệu so với sở liệu truyền thống Trình bày kiến thức kho liệu, đặc biệt mơ hình OLTP, OLAP, kiên trúc giai đoạn thiết kế kho liệu • Chương 5: Thiết kế kho liệu mức khái niệm logic 44 Chương Tài liệu tham khảo Tiếng Việt • Nguyễn Danh Tú (2022), Bài giảng môn Kho liệu Kinh doanh thơng minh Tiếng Anh • Alejandro Vaisman; Esteban Zimányi (2014), Data Warehouse Systems: Design and Implementation • W H Inmon (2005), Building the Data Warehouse, Fourth Edition • Ralph Kimball; Margy Ross (2013), The Data Warehouse Toolkit • Paulraji Ponniah (2001), Data Warehousing Fundamentals • A Brief Introduction to the Concept of Data Warehouse • The Northwind database ... kho liệu • Chương 3: Nêu ưu điểm kho liệu so với sở liệu truyền thống Trình bày kiến thức kho liệu, đặc biệt mơ hình OLTP, OLAP, kiên trúc giai đoạn thiết kế kho liệu • Chương 5: Thiết kế kho liệu. .. tải liệu vào kho liệu • Tầng kho liệu bao gồm kho liệu doanh nghiệp và/ hoặc số siêu liệu kho siêu liệu lưu trữ thông tin kho liệu • Tầng OLAP bao gồm máy chủ OLAP, cung cấp nhìn đa chiều liệu •... 3.3 Kho liệu 27 3.4 Kiến trúc kho liệu 28 3.5 Thiết kế kho liệu 29 Chương Thiết kế kho liệu khái niệm 30 4.1 Thiết