Data warehouse lý thuyết và thực tiễn

3 244 2
Data warehouse   lý thuyết và thực tiễn

Đang tải... (xem toàn văn)

Thông tin tài liệu

Data warehouse - lý thuyết và thực tiễn Phạm Minh Tuân Trường Đại học Công nghệ Luận văn ThS. ngành: Công nghệ thông tin; Mã số: 1 01 10 Người hướng dẫn: TS. Nguyễn Văn Hùng Năm bảo vệ: 2008 Abstract. Tổng quan một số vấn đề lý thuyết liên quan đến nhà kho dữ liệu (Data warehouse), một công nghệ mới ra đời vào khoảng những năm 90, đã được ứng dụng rộng rãi trong thực tiễn. Tập trung nghiên cứu các kiểu kiến trúc tham chiếu, dòng dữ liệu và hệ thống của nhà kho dữ liệu, giới thiệu kiến trúc nhà kho dữ liệu cho tập đoàn Amadeus Entertainment. Phân tích mô hình dữ liệu theo chiều và lược đồ dữ liệu theo chiều, quy trình mô hình hóa dữ liệu chiều thực hiện thông qua ví dụ tiêu biểu về bài toán bán lẻ. Trình bày quá trình tách dữ liệu từ các hệ thống nguồn vào DWH. Tiến hành xử lý phân tích trực tuyến OLAP. Nghiên cứu DWH với các ứng dụng quan hệ khách hàng. Thực hiện DWH trên chương trình MS SQL Server 2005. Trình bày các kết quả đạt được, hạn chế và hướng phát triển trong tương lai. Keywords. Công nghệ thông tin; Data warehouse; Dịch vụ; Nhà kho dữ liệu; Quan hệ khách hàng Content Đến nay những hệ thống cơ sở dữ liệu đã có mặt tại hầu hết các hoạt động kinh tế xã hội. Cùng với sự phát triển của công nghệ phần cứng như vi xử lý tốc độ cao, ổ đĩa với dung lượng lưu trữ lớn, khả năng sao lưu thì dữ liệu của các tổ chức, doanh nghiệp trong quá trình hoạt động đã được cập nhật và lưu giữ một cách đầy đủ. Cùng với sự đa dạng hoạt động hàng ngày của phòng ban, nhân sự cũng như với các đối tác bên ngoài, dữ liệu nghiệp vụ của tổ chức ngày càng trở nên khổng lồ. Dữ liệu có thể là tệp phẳng (không có cấu trúc) như hình ảnh, văn bản đến dữ liệu có cấu trúc được lưu giữ tại các hệ quản trị CSDL. Một hãng bán lẻ nổi tiếng như WalMart xử lý hàng chục triệu giao dịch mỗi ngày, hay ở Việt Nam, một công ty bán lẻ thời trang cũng có hàng trăm đơn hàng. Dữ liệu ngày qua ngày được tích lũy thay thế dần các hoạt động giấy tờ. Người ta có thể truy cập dữ liệu mình cần một cách nhanh chóng bằng các phép tìm kiếm hay thông qua sơ đồ thư mục lưu trữ trên hệ điều hành. Như vậy với các công nghệ hiện tại đã và đang đáp ứng tốt một giai đoạn yêu cầu của người dùng. Đến một ngày, khi những thành viên trong ban quản trị nhìn xuống và sửng sốt với độ lớn dữ liệu của tổ chức, doanh nghiệp mình. Toàn bộ hoạt động, lịch sử được lưu dưới dạng số một cách đầy đủ. Dữ liệu ấy chính là tài sản của công ty. Và họ muốn rằng những khối dữ liệu khổng lồ ấy phải nói lên những điều thật ý nghĩa. Điều này khác với việc họ muốn tìm lại một đơn hàng, một thông tin mang tính cá nhân của một khách hàng. Ở đây họ muốn biết cái sơ đồ doanh thu theo chiều lên hay xuống, muốn tách ra quy luật của bán hàng, quy luật của năng suất hoạt động, Quy luật ấy dựa trên các yếu tố thời gian, yếu tố con người, yếu tố địa lý,…. Có quy luật ấy không, nếu có thì quy luật ấy được phát biểu và thể hiện như thế nào. Nếu doanh nghiệp lấy ra được các thống kê, quy luật ấy họ sẽ có được những quyết sách trong tương lai một cách phù hợp hơn, dựa trên những yếu tố có cơ sở đúng đắn. Mùa nào, tháng nào trong năm, loại hàng hóa nào sẽ được đẩy mạnh ra thị trường. Vì thế có thể nói nếu dữ liệu tích luỹ được phân tích chính xác, nó có thể trở thành những phương tiện cạnh tranh hiệu quả. Hiện nay dữ liệu tràn ngập trên những phương tiện lưu trữ. Với việc không có được những công cụ khai thác thông tin hiệu quả , các tổ chức doanh nghiệp đang sống trong một môi trường “giàu dữ liệu nhưng nghèo thông tin”. Trong môi trường cạnh tranh ngày nay cùng với sự phát triển nhanh chóng của thế giới, những nhà ra quyết định xác định rõ cần phải có một thế hệ các kỹ thuật và công cụ tính toán mới nhằm hỗ trợ họ trong việc trích xuất các thông tin hữu ích (tri thức) được nhúng bên trong các dữ liệu thu thập và tích luỹ. Họ mong muốn có những công cụ hỗ trợ quyết định trong một môi trường tích hợp để họ có thể tự tạo những tiêu chuẩn của riêng mình hoặc những báo biểu đặc biệt cho phân tích các dữ liệu phức tạp. Nắm được lợi ích của lượng dữ liệu lớn, họ có thể xác định được những thông tin tiềm ẩn, chẳng hạn nhờ đó có thể tiết kiệm chi phí, vươn tới những thị trường mới và theo vết tổng thu nhập một cách hiệu quả. Data warehouse, một công nghệ mới ra đời vào khoảng đầu những năm 90 đã được đón nhận và đưa vào thực tiễn. Tại Việt Nam, khái niệm và công nghệ này đã được làm quen cách đây cũng được khoảng 5 năm nhưng trên thực tế chúng hầu như chưa được quan tâm và ứng dụng một cách hiệu quả. Điều này cũng bắt nguồn từ nhu cầu quản lý trong một thế giới cạnh tranh chưa gay gắt, trình độ quản lý không cao. Với sự phát triển kinh tế xã hội, gia nhập WTO, môi trường ngày càng trở nên sôi động, mức độ cạnh tranh cao. Trong những đòi hỏi phát triển trình độ quản lý có yêu cầu nhanh chóng tổng hợp các khía cạnh trên dữ liệu hoạt động khổng lồ của doanh nghiệp mình, nhìn ra được những xu hướng đã và đang tồn tại ở các mặt hoạt động từ đó có những quyết định, xử lý đúng đắn. Chính vì điều này nên học viên chọn Data warehouse làm đề tài nghiên cứu. Cấu trúc luận văn gồm: Chương I: Tổng quan Chương II: Kiến trúc nhà kho dữ liệu Chương III: Mô hình dữ liệu theo chiều Chương IV: Quá trình trích tách dữ liệu từ các hệ thống nguồn vào DWH Chương V: Xử lý phân tích trực tuyến Olap Chương VI: DWH với ứng dụng quan hệ khách hàng Chương VII: Thực hiện DWH trên MS SQL SERVER 2005 Chương VIII: Kết luận References Tài liệu tiếng Việt 1. http://www.itgatevn.com.vn, Business Intelligence trong SQL Server 2008 2. Nguyễn Trần Minh Khuê, On-Line Analytical Processing 3. Trần Thị Thúy Nga (2007), Xử lý phân tích trực tuyến Olap và ứng dụng trong khai thác kho dữ liệu, Đại học Công nghệ Tài liệu tiếng Anh 4. Venky Harinarayan (1996),Implementing Data Cubes Efficiently 5. Paul Lane (2007), Oracle® Database Data Warehousing Guide 6. Ralph Kimball , Margy Ross- The Data Warehouse Toolkit Second Edition The Complete Guide to Dimensional Modeling, John Wiley & Sons, Inc. 7. Microsoft, Application Developer Training Company, Microsoft SQL Server 2005 8. Oana Muntean (2004), Data Warehouse Solutions for CRM, CompSysTech’2004 9. Vincent Rainardi (2008), Building a Data Warehouse With Examples in SQL Server, Apress. 10. S. Sudarshan Krithi Ramamritham, Data warehouse and Data Mining,. IIT Bombay 11. Hugh J. Watson (2005), Data Warehouse Architectures: Factors in the Selection Decision and the Success of the Architectures, Business University of Georgia 12. Anita Wasilewska, Data warehouse and Olap technology . trường mới và theo vết tổng thu nhập một cách hiệu quả. Data warehouse, một công nghệ mới ra đời vào khoảng đầu những năm 90 đã được đón nhận và đưa vào thực tiễn. Tại Việt Nam, khái niệm và công. Data warehouse - lý thuyết và thực tiễn Phạm Minh Tuân Trường Đại học Công nghệ Luận văn ThS. ngành: Công. Tổng quan một số vấn đề lý thuyết liên quan đến nhà kho dữ liệu (Data warehouse) , một công nghệ mới ra đời vào khoảng những năm 90, đã được ứng dụng rộng rãi trong thực tiễn. Tập trung nghiên

Ngày đăng: 25/08/2015, 11:40

Tài liệu cùng người dùng

Tài liệu liên quan