TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI KHOA TOÁN ỨNG DỤNG VÀ TIN HỌC BÁO CÁO CUỐI KÌ HỆ HỖ TRỢ QUYẾT ĐỊNH ĐỀ TÀI KHO DỮ LIỆU Chuyên ngành TOÁN TIN Chuyên sâu Tin học Giảng viên hướng dẫn TS LÊ CHÍ NGỌC Mục L[.]
TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI KHOA TOÁN ỨNG DỤNG VÀ TIN HỌC BÁO CÁO CUỐI KÌ HỆ HỖ TRỢ QUYẾT ĐỊNH ĐỀ TÀI: KHO DỮ LIỆU Chuyên ngành: TOÁN TIN Chuyên sâu: Tin học Giảng viên hướng dẫn: TS.LÊ CHÍ NGỌC Mục Lục Lời mở đầu Chương Đặt vấn đề: Isle of Capri Casinos chiến thắng với kho liệu doanh ngh Chương Định nghĩa khái niệm kho liệu Chương 3: Tổng quan quy định nhập kho liệu 12 Chương 4: Kiến trúc kho liệu 14 Chương 5: Tích hợp liệu quy trình khai thác, chuyển đổi tải(ETL) 17 Chương 6: Phát triển kho liệu 20 Chương 7: Vấn đề triển khai kho liệu 27 Chương 8: Kho liệu thời gian thực 28 Chương 9: Quản trị kho liệu, vấn đề báo mật xu hướng tương lai 31 KẾT LUẬN 35 Tài liệu tham khảo 36 Lời mở đầu Trong kỷ nguyên 4.0 liệu phân quan trọng tất hệ thống yếu tố nhà quản lý quan tâm bậc Trong trình kinh doanh, liệu doanh nghiệp phát sinh nhiều Người ta muốn tận dụng nguồn liệu để sử dụng cho mục đích hỗ trợ cho việc kinh doanh Kho liệu cơng cụ hữu ích cho việc lưu trữ liệu, thiết kế liệu để hỗ trợ việc phân tích lập báo cáo Mục đích báo cáo: ● Hiểu định nghĩa khái niệm kho liệu ● Hiểu kiến trúc kho liệu ● Mô tả quy trình sử dụng việc phát triển quản lý kho liệu ● Giải thích hoạt động kho liệu ● Giải thích vai trị kho liệu hỗ trợ định ● Giải tích tích hợp liệu q trình trích xuất, chuyển đổi tải (ETL) ● Mô tả kho liệu thời gian thực(hoạt động) ● Hiểu vấn để quản trị kho liệu bảo mật Khái niệm kho liệu có từ năm 1980 Bài báo cáo cung cấp tảng cho loại sở liệu quan trọng gọi kho liệu, chủ yếu sử dụng để hỗ trợ định cung cấp khả phân tích cải thiện Trong báo cáo em thảo luận chủ đề sau: ● Chương 1: Đặt vấn đề: Isle of Capri Casinos chiến thắng với với kho liệu doanh nghiệp ● Chương 2: Định nghĩa khái niệm kho liệu ● Chương 3: Tổng quan quy định nhập kho liệu ● Chương 4: Kiến trúc kho liệu ● Chương 5: Tích hợp liệu quy trình khai thác, chuyển đổi tải(ETL) ● Chương 6: Phát triển kho liệu ● Chương 7: Vấn đề triển kahi kho liệu ● Chương 8: Kho liệu thời gian thực ● Chương 9: Quản trị kho liệu, vấn đề báo mật xu hướng tương lai Em xin gửi lời cảm ơn sâu sắc tới thầy Lê Chí Ngọc tận tình hướng dẫn em hoàn thành tập Chương Đặt vấn đề: Isle of Capri Casinos chiến thắng với kho liệu doanh nghiệp Isle of Capri người chơi độc đáo sáng tạo ngành cơng nghiệp trị chơi Sau gia nhập thị trường Biloxi, Mississippi, vào năm 1992, Isle phát triển thành công ty game thương mại công khai lớn nhất, chủ yếu cách thành lập tài sản miền đông nam Hoa Kỳ quốc gia Heart heartland Isle of Capri Casinos, Inc., điều hành 18 sòng bạc tiểu bang, phục vụ gần triệu du khách năm Thách thức: Mặc dù chúng dường có lợi khác biệt, so với người khác ngành công nghiệp game cạnh tranh cao, Isle khơng hồn tồn độc đáo Giống công ty chơi game nào, thành công Isle, phụ thuộc phần lớn vào mối quan hệ với khách hàng Khả tạo bầu khơng khí chơi game, giải trí lịng hiếu khách, dự đoán nhu cầu khách hàng vượt mong đợi họ Đáp ứng mục tiêu khơng thể khơng có hai thành phần quan trọng: văn hóa cơng ty tập trung vào tia laser để làm cho khách hàng trải nghiệm thú vị, kiến trúc liệu công nghệ cho phép Isle liên tục hiểu sâu khách hàng mình, nhiều cách khác nhu cầu khách hàng đáp ứng cách hiệu Giải pháp Sau triển khai kho liệu ban đầu bị trật bánh vào năm 2005, phần bão Katrina, Isle định khởi động lại dự án với thành phần hoàn toàn Teradata làm giải pháp cốt lõi đối tác chính, với IBM Cognos for Business Intelligence Ngay sau lựa chọn đưa ra, Isle mang đến nhóm quản lý hiểu rõ cách thức giải pháp Teradata Cognos cho phép người định quan trọng suốt hoạt động dễ dàng đóng khung truy vấn ban đầu họ, câu hỏi kịp thời, mở nhiều khả để tăng cường kinh doanh Kết Nhờ thực thành công giải pháp lưu trữ liệu toàn diện giải pháp kinh doanh thông minh, Isle đạt số kết hài lịng sâu sắc Cơng ty tăng tốc mở rộng đáng kể trình thu thập phân tán thông tin, tạo khoảng 150 báo cáo hàng ngày, 100 hàng tuần 50 hàng tháng, truy vấn ad hoc, hoàn thành vài phút, Trước kho liệu doanh nghiệp (EDW) từ Teradata, Isle tạo khoảng báo cáo hàng tháng cho tài sản, phải tuần để sản xuất, thuộc tính khơng thể bắt đầu phân tích hoạt động hàng tháng tuần thứ hai tháng Hơn nữa, khơng có báo cáo phân tích điều tháng thời điểm; ngày nay, báo cáo sử dụng liệu cập nhật phút phân khúc khách hàng cụ thể thuộc tính cụ thể có sẵn, thường ngày, cho phép công ty phản ứng nhanh nhiều nhiều nhu cầu khách hàng Isle cắt giảm nửa thời gian cần thiết để xây dựng chiến dịch gửi thư trực tiếp hàng tháng cốt lõi tạo chiến dịch tham gia thực tế chỗ Ngoài việc di chuyển nhanh hơn, Isle mài giũa trình phân khúc tham chiếu chéo loạt thuộc tính, chẳng hạn giá trị tổng thể khách hàng, hành vi chơi trị chơi sở thích khách sạn Điều cho phép họ tạo nhiều chiến dịch nhắm mục tiêu vào phân khúc khách hàng cụ thể hành vi cụ thể Isle cho phép quản lý nhân viên hiểu sâu hành vi khách hàng cách kết nối liệu từ hệ thống khách sạn liệu từ hệ thống theo dõi khách hàng hành động theo hiểu biết thơng qua chiến dịch tiếp thị cải thiện nâng cao dịch vụ khách hàng Ví dụ, việc bổ sung liệu khách sạn cung cấp hiểu biết khách hàng quen chơi game địa phương tăng họ khách sạn Điều này, đến lượt nó, kích hoạt chương trình ưu đãi (như đêm khách sạn miễn phí) làm hài lịng người dân địa phương tăng lòng trung thành khách hàng Isle đảo Dữ liệu khách sạn tăng cường chương trình lưu trữ khách hàng Isle Bằng cách tự động thông báo cho chủ nhà khách có giá trị cao đến khách sạn, chủ nhà tạo mối quan hệ sâu sắc với khách hàng quan trọng họ Đây công cụ tốt mà chúng tơi có kể từ Iveve cơng ty, viết máy chủ lưu trữ Giờ đây, Isle of Capri thực so sánh phân tích tài sản với tài sản xác hơn, phần lớn Teradata hợp liệu khác đặt thuộc tính riêng lẻ tập trung vào vị trí Một kết quả: Một trang web mạng nội tập trung đăng số liệu hàng ngày cho tài sản riêng lẻ, họ so sánh thứ hiệu suất doanh thu từ máy đánh bạc trò chơi bàn, giá trị quy đổi miễn phí Ngồi ra, cơng cụ IBM Cognos Business Intelligence (BI) cho phép so sánh bổ sung, chẳng hạn giá trị toán qua thư trực tiếp, tỷ lệ phản hồi chương trình thư trực tiếp cụ thể, doanh thu trò chơi trực tiếp qua thư, doanh thu trị chơi khách sạn, khơng phải tiền mặt (tiền mặt) doanh thu từ đặt phòng khách sạn, phịng khách sạn Một lợi ích rõ ràng giữ thuộc tính riêng lẻ chịu trách nhiệm cho việc liên tục nâng Bắt đầu với thay đổi quan trọng chiến lược tiếp thị chuyển trọng tâm sang ngày khách hàng, hết lần đến lần khác, việc triển khai Teradata / IBM Cognos BI chứng minh giá trị việc mở rộng sức mạnh liệu toàn doanh nghiệp Isle Muff Điều bao gồm phân tích tỷ lệ phản hồi cho chiến dịch tiếp thị bổ sung liệu lãi lỗ kết nối thành công giá trị khách hàng tổng giá trị tài sản Một ví dụ sức mạnh tích hợp này: Bằng cách tham gia giá trị khách hàng tổng giá trị tài sản, Isle hiểu rõ khách hàng bán lẻ Có lẽ đáng kể nhất, Isle bắt đầu thêm liệu máy đánh bạc vào hỗn hợp Tác động quan trọng cách thức mà giá trị khách hàng thông báo cho việc mua máy móc vị trí sản phẩm sàn khách hàng Cuối cùng, việc bổ sung liệu giúp Isle tận dụng lợi trò chơi dựa máy chủ, máy đánh bạc sàn sịng bạc thiết bị đầu cuối máy tính cho phép sòng bạc chuyển trò chơi sang trò chơi vấn đề giây Nói tóm lại, Isle xây dựng giải pháp để thường xuyên chuyển liệu máy đánh bạc vào kho, khả sử dụng liệu để tưởng tượng lại sàn giả mạo mối quan hệ lâu dài lâu dài vượt thứ mà mong đợi bắt tay vào dự án Câu hỏi: Tại điều quan trọng Isle có EDW? Những thách thức hay hội kinh doanh mà Isle phải đối mặt gì? Quá trình Isle theo sau để nhận EDW? Nhận xét thách thức tiềm mà Isle trải qua q trình phát triển EDW Những lợi ích việc triển khai EDW Isle gì? Bạn nghĩ lợi ích tiềm khác mà khơng liệt kê trường hợp không? Tại bạn nghĩ doanh nghiệp lớn Isle ngành cơng nghiệp game thành cơng mà khơng cần sở hạ tầng kho liệu / kinh doanh thơng minh có khả năng? Những học từ họa tiết Các họa tiết mở đầu minh họa giá trị chiến lược việc triển khai kho liệu doanh nghiệp, với phương thức BI hỗ trợ Sịng bạc Isle of Capri tận dụng tài sản liệu trải khắp doanh nghiệp để sử dụng người lao động tri thức (bất nơi họ cần) để đưa định xác kịp thời Kho liệu tích hợp sở liệu khác toàn tổ chức thành đơn vị doanh nghiệp nội để tạo phiên thật cho công ty, đưa tất người định, từ lập kế hoạch đến tiếp thị, trang Hơn nữa, cách thường xuyên đưa liệu máy đánh bạc vào kho, kết hợp với liệu phong phú dành riêng cho khách hàng đến từ nhiều nguồn khác nhau, Isle cải thiện đáng kể khả khám phá mẫu để tưởng tượng lại / phát minh lại hoạt động sàn trò chơi giả mạo sâu mối quan hệ lâu dài với khách hàng Bài học quan trọng kho liệu cấp doanh nghiệp kết hợp với chiến lược sử dụng hỗ trợ định mang lại lợi ích đáng kể (tài mặt khác) cho tổ chức Sources: Teradata, Customer Success Stories, teradata.com/t/case-studies/Isle-ofCapri-Casinos-Executive-Summary-EB6277 (accessed February 2013) Chương Định nghĩa khái niệm kho liệu Sử dụng kho liệu thời gian thực kết hợp với hệ thống hỗ trợ định (DSS) công cụ BI cách quan trọng để tiến hành quy trình kinh doanh Họa tiết mở cho thấy kịch kho liệu hoạt động thời gian thực hỗ trợ việc định cách phân tích lượng lớn liệu từ nhiều nguồn khác để cung cấp kết nhanh chóng để hỗ trợ quy trình quan trọng Phiên thật lưu trữ kho liệu cung cấp dạng dễ tiêu hóa mở rộng ranh giới quy trình kinh doanh sáng tạo Isle of Capri Với luồng liệu thời gian thực, Isle of Capri xem tình trạng doanh nghiệp nhanh chóng xác định vấn đề, bước quan trọng để giải chúng cách phân tích Kho liệu gì? Nói cách đơn giản, kho liệu (DW) nhóm liệu tạo để hỗ trợ cho việc định; kho lưu trữ liệu lịch sử quan tâm đến nhà quản lý toàn tổ chức Dữ liệu thường cấu trúc để có sẵn dạng sẵn sàng cho hoạt động xử lý phân tích (nghĩa xử lý phân tích trực tuyến [OLAP], khai thác liệu, truy vấn, báo cáo ứng dụng hỗ trợ định khác) Kho liệu sưu tập liệu hướng theo chủ đề, tích hợp, biến đổi theo thời gian, không biến đổi để hỗ trợ cho trình định quản lý Một viễn cảnh lịch sử kho liệu Vào đầu năm 1900, người ta sử dụng liệu để hình thành xu hướng kinh doanh giúp doanh nghiệp đưa định Những động lực giúp phát triển việc lưu trữ liệu có từ năm 1970 máy tính lớn phát triển 1980 bủng nổ máy tính mini máy tính cá nhân ứng dụng kinh doanh máy tính điều dẫn tới tượng gọi liệu, Giải pháp cho vấn đề dẫn đến loại phần mềm mới, gọi hệ thống quản lý sở liệu phân tán, kéo liệu yêu cầu từ sở liệu toàn tổ chức cách kỳ diệu, đưa tất liệu trở lại vị trí, sau hợp nó, xếp làm điều khác cần thiết để trả lời câu hỏi người dùng, 1980 số kiện xảy ra, gọi chung thập kỉ đổi kho liệu Trong năm 1990, cách tiếp cận để giải vấn đề đảo liệu xuất Nếu cách tiếp cận tiếp cận liệu năm 1980 từ tệp sở liệu khơng hoạt động, triết lý thập niên 1990 quay trở lại năm 1970, liệu từ nơi chép sang vị trí khác mà thực lúc này; đó, kho liệu đời Vào năm 2000 sau mức độ phổ biến liệu tăng lên đáng kể từ đố dẫn đến việc bùng nổ số hãng liệu năm 1980 bị nuốt chửng hãng lớn giới Oracle, SAP Trong năm 2010, khái niệm Dữ liệu lớn có nhiều ảnh hưởng, người ta tin liệu lớn tạo ảnh hưởng đến việc lưu trữ liệu Đặc điểm kho liệu Một cách phổ biến để giới thiệu kho liệu tham khảo đặc điểm (xem Inmon, 2005): ● Chủ đề định hướng Dữ liệu xếp theo chủ đề chi tiết, chẳng hạn bán hàng, sản phẩm khách hàng, chứa thông tin liên quan để hỗ trợ định Định hướng chủ đề cho phép người dùng xác định không cách thức kinh doanh họ, mà Kho liệu khác với sở liệu hoạt động chỗ hầu hết sở liệu hoạt động có định hướng sản phẩm điều chỉnh để xử lý giao dịch cập nhật sở liệu Định hướng chủ đề cung cấp nhìn tồn diện tổ chức ● Tích hợp Tích hợp có liên quan chặt chẽ với định hướng chủ đề Kho liệu phải đặt liệu từ nguồn khác thành định dạng quán Để làm vậy, họ phải đối phó với việc đặt tên xung đột khác biệt đơn vị đo lường Một kho liệu coi hồn tồn tích hợp ● Biến thể thời gian (chuỗi thời gian) Một kho trì liệu lịch sử Dữ liệu khơng thiết phải cung cấp trạng thái (ngoại trừ hệ thống thời gian thực) Họ phát xu hướng, sai lệch mối quan hệ lâu dài để dự báo so sánh, dẫn đến việc định Mỗi kho liệu có chất lượng tạm thời Thời gian khía cạnh quan trọng mà tất kho liệu phải hỗ trợ Dữ liệu để phân tích từ nhiều nguồn chứa nhiều điểm thời gian (ví dụ: lượt xem hàng ngày, hàng tuần, hàng tháng) ● Không bay Sau liệu nhập vào kho liệu, người dùng thay đổi cập nhật liệu Dữ liệu cũ bị loại bỏ thay đổi ghi lại dạng liệu Những đặc điểm cho phép kho liệu điều chỉnh gần dành riêng cho truy cập liệu Một số đặc điểm bổ sung bao gồm: ● Dựa web Kho liệu thường thiết kế để cung cấp mơi trường tính tốn hiệu cho ứng dụng dựa Web 10 ... vấn để quản trị kho liệu bảo mật Khái niệm kho liệu có từ năm 1980 Bài báo cáo cung cấp tảng cho loại sở liệu quan trọng gọi kho liệu, chủ yếu sử dụng để hỗ trợ định cung cấp khả phân tích cải thiện. .. (EDW)) Kho liệu doanh nghiệp (EDW) kho liệu quy mơ lớn sử dụng tồn doanh nghiệp để hỗ trợ định Bản chất quy mơ lớn cung cấp tích hợp liệu từ nhiều nguồn thành định dạng chuẩn cho ứng dụng hỗ trợ định. .. động thời gian thực hỗ trợ việc định cách phân tích lượng lớn liệu từ nhiều nguồn khác để cung cấp kết nhanh chóng để hỗ trợ quy trình quan trọng Phiên thật lưu trữ kho liệu cung cấp dạng dễ tiêu