Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 126 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
126
Dung lượng
4,34 MB
Nội dung
ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ PHẠM MINH TUÂN DATA WAREHOUSE – LÝ THUYẾT VÀ THỰC TIỄN LUẬN VĂN THẠC SĨ Hà nội - 2008 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ PHẠM MINH TUÂN DATA WAREHOUSE – LÝ THUYẾT VÀ THỰC TIỄN Ngành: Công nghệ thông tin Mã số: 1.01.10 LUẬN VĂN THẠC SĨ NGƯỜI HƯỚNG DẪN KHOA HỌC TS. NGUYỄN VĂN HÙNG Hà nội 2008 - 1 – MỤC LỤC MỤC LỤC 1 CHƯƠNG I: TỔNG QUAN 5 1 Đặt vấn đề và việc lựa chọn đề tài 5 1.1 Đặt vấn đề 5 1.2 Phạm vi của đề tài 6 2 Định nghĩa lại vấn đề 6 2.1 Các hệ thống thông tin tác nghiệp 6 2.1.1 Các chức năng và thuộc tính cơ bản của OLTP 7 2.2 Nhu cầu quản trị trên các hệ thống thông tin 10 2.2.1 Những nhu cầu thuộc về ban quản trị trong doanh nghiệp 10 2.2.2 Các hệ thống thông tin quản lý đang đáp ứng các yêu cầu trên ra sao 11 3 Data warehouse (Nhà kho dữ liệu) 13 3.1 Nhà kho dữ liệu là gì 13 3.2 Mục tiêu của DWH 15 3.2.1 Ứng dụng công nghệ Data warehouse trong các ngành dịch vụ 16 3.3 Phân biệt DWH với các CSDL tác nghiệp 17 3.3.1 So sánh nhà kho dữ liệu với các CSDL tác nghiệp 17 3.3.2 Mối quan hệ giữa các hệ thống thông tin tác nghiệp và Kho dữ liệu 18 3.4 Trung tâm dữ liệu theo chủ đề (Data Mart) 19 3.5 Các bước để xây dựng Nhà kho dữ liệu 20 CHƯƠNG II: KIẾN TRÚC NHÀ KHO DỮ LIỆU 21 1 Kiến trúc tham chiếu 21 2 Kiến trúc dòng dữ liệu 23 2.1.1 ETL 24 3 Kiến trúc hệ thống 27 3.1.1 Mô hình kiến trúc chung 27 3.1.2 Các loại kiểu dáng kiến trúc hệ thống trên thực tế 27 3.1.3 Những nhân tố dùng để lựa chọn kiến trúc 30 3.2 Một kiến trúc nhà kho dữ liệu cho tập đoàn Amadeus Entertainment [9] 30 CHƯƠNG III: MÔ HÌNH DỮ LIỆU THEO CHIỀU 32 1 Mở đầu 32 2 Các khái niệm 33 2.1 Sự kiện và bảng sự kiện 33 2.2 Chiều và bảng chiều 34 2.2.1 Chiều 34 - 2 – 2.2.2 Bảng chiều 34 2.2.3 Phân loại chiều 35 2.2.4 Thời gian và bảng chiều thời gian 36 2.2.5 Khối dữ liệu (cube) 37 2.2.6 Đo lường trong các bảng sự kiện 39 2.2.7 Mức độ đơn nguyên của phép đo 39 3 LƯỢC ĐỒ DỮ LIỆU THEO CHIỀU 39 3.1.1 Lược đồ dữ liệu hình sao (star schema) 39 3.1.2 Lược đồ dữ liệu hình bông tuyết (Snowflake schema) 40 4 Quy trình mô hình hóa dữ liệu chiều 41 4.1 Quy trình mô hình hóa theo chiều 41 4.1.1 Bước 1: Khảo sát quy trình nghiệp vụ của tổ chức 41 4.1.2 Bước 2: Xác định mức độ chi tiết hay các độ thô (grain) 41 4.1.3 Bước 3: Thiết kế các chiều 42 4.1.4 Bước 4: Xác định các dữ kiện là số 42 4.2 Thực hiện thông qua ví dụ tiêu biểu về bài toán bán lẻ 42 4.2.1 Khung cảnh thực tế 42 4.2.2 Cơ sở 42 4.2.3 Các bảng dữ liệu của hệ thống điều hành tác nghiệp 42 4.2.4 Xác định độ thô của dữ liệu: 42 4.2.5 Tóm lược 43 4.2.6 Kết quả thiết kế mô hình chiều 43 4.2.7 Ước lượng dung lượng lưu trữ 44 CHƯƠNG IV: QUÁ TRÌNH TRÍCH TÁCH DỮ LIỆU TỪ CÁC HỆ THỐNG NGUỒN VÀO DWH 45 1 Tiến trình ETL (Extraction – Transformation – Loading) 45 1.1 Nhiệm vụ của tiến trình ETL 45 1.2 Tính chất đầu vào và những thách thức cho ETL 45 2 Trích tách dữ liệu (Extraction) 46 3 Chuyển đổi dữ liệu (Transformation) 48 4 Tải dữ liệu (Loading) 49 5 Các phương hướng và kiến trúc thành phần ETL 49 5.1 Mô hình với trạm tạm 49 5.2 Mô hình theo cách thức lấy dữ liệu nguồn 49 5.3 Các cấu hình xét theo vị trí thành phần ETL 50 6 Hiệu năng tiến trình ETL 51 6.1 Hiệu năng 51 - 3 – 6.2 Xử lý song song 51 7 Một số công cụ ETL 52 7.1 Các môi trường ETL mã nguồn mở 52 CHƯƠNG V: XỬ LÝ PHÂN TÍCH TRỰC TUYẾN OLAP 53 1 Giới thiệu chung 53 1.1 Các tính chất cần có của dịch vụ OLAP 54 1.1.1 So sánh OLAP với OLTP 54 2 Kiến trúc khối của OLAP 55 2.1 Khối 55 2.1.1 Đại lượng đo lường thống kê 55 2.1.2 Lưới các khối 56 2.1.3 Các phân hoạch (partition) 57 2.1.4 Các phép xử lý trên khối 58 3 Các tiêu chuẩn đánh giá một công cụ OLAP 59 4 Các mô hình lưu trữ hỗ trợ OLAP 60 4.1 Mô hình Multidimensional OLAP (MOLAP) 60 4.1.1 Mô hình Relational OLAP (ROLAP) 62 4.1.2 Mô hình Hybird OLAP (HOLAP) 63 4.1.3 So sách các mô hình 64 5 Mô hình kiến trúc dịch vụ OLAP 64 5.1.1 Kiến trúc thành phần Server: 65 5.1.2 Kiến trúc thành phần Client 66 6 Kỹ thuật để xử lý truy vấn hiệu quả trên OLAP 67 6.1 Bitmap Index 67 6.2 Sử dụng kỹ thuật tính toán trước khối dữ liệu [4] 69 6.2.1 Điểm khởi đầu 69 6.2.2 Định nghĩa hình thức 71 6.2.3 Thuật toán ăn tham 73 7 Mối quan hệ giữa dữ liệu tại các hệ thống OLTP với dữ liệu trên OLAP 74 CHƯƠNG VI: DWH VỚI ỨNG DỤNG QUAN HỆ KHÁCH HÀNG 76 1 Hệ thống CRM 76 1.1 Các chức năng của một hệ thống CRM 77 1.2 Làm thế nào có chương trình CRM thực sự hiệu quả? 78 1.2.1 Cải thiện các quy trình và cách thức kinh doanh 78 1.2.2 Xây dựng một chu trình quản lý khách hàng 78 1.2.3 Tư vấn và triển khai CRM theo yêu cầu (on-demand CRM) 79 1.2.4 Quan hệ khách hàng và tiếp thị 79 - 4 – 2 DWH & QUAN HỆ KHÁCH HÀNG 80 2.1 SCV – góc nhìn thống nhất về khách hàng 80 2.1.1 Ý nghĩa của SCV 81 2.1.2 Một bài toán thực tế 81 2.1.3 Thực hiện chất lượng dữ liệu khách hàng 83 2.1.4 Bộ thuộc tính của khách hàng 83 2.1.5 CSDL trung tâm về khách hàng 83 2.2 Sự phù hợp của DWH đối với CRM trong vấn đề SCV 84 2.3 Đợt chiến dịch quảng cáo, quảng bá (Campaign Segmentation) 84 2.3.1 Quản trị sự chấp thuận 85 2.3.2 Dữ liệu phát đi và phản hồi từ khách hàng 86 2.4 Phân tích khách hàng 89 2.4.1 Những phân tích diễn giải trong một số ngành 90 2.4.2 Những phân tích mang tính dự báo 90 CHƯƠNG VII: THỰC HIỆN DWH TRÊN MS SQL SERVER 2005 91 1 Giới thiệu MS SQL Server 2005 [1] 91 1.1 Các công nghệ Nghiệp vụ thông minh Business Intelligence của Microsoft 92 1.1.1 Hợp nhất dữ liệu công ty cho việc phân tích và báo cáo 94 1.1.2 Thực thi kho dữ liệu 95 Xây dựng và quản lý các giải pháp BI phức tạp 96 2 Thực hiện DWH trên MS SQL Server 2005 96 2.1 Bài toán ví dụ AdventureWorks 96 2.2 Thực hiện DWH cho AdventureWorks 96 2.2.1 Chuyển tải dữ liệu tác nghiệp vào CSDL DWH 96 2.2.2 Thực hiện dịch vụ phân tích trực tuyến trên CSDL DWH 103 CHƯƠNG VIII: KẾT LUẬN 121 1 Kết quả đạt được 121 2 Hạn chế và hướng phát triển 121 3 Kết luận 122 Tài liệu tham khảo 123 CÁC THUẬT NGỮ VIẾT TẮT Thuật ngữ Đầy đủ Chú thích CRM Customer Relationship Management quản trị quan hệ khách hàng CSDL Cơ sở dữ liệu DQ chất lượng dữ liệu DWH Data warehouse Nhà kho dữ liệu ETL Extraction – Transformation - Loading Quá trình trích tách biến đổi và tải dữ liệu vào một CSDL HOLAP Hybric Online Analytical Processing Xử lý phân tích trực tuyến kết hợp MOLAP Multi dimensional Online Analytical Processing Xử lý phân tích trực tuyến đa chiều NLLV Người làm luận văn OLTP OnLine Transaction Processing Hệ thống xử lý giao tác trực tuyến OLAP Online Analytical Processing Xử lý phân tích trực tuyến ROLAP Relational Online Analytical Processing Xử lý phân tích trực tuyến quan hệ - 5 – CHƢƠNG I: TỔNG QUAN 1 Đặt vấn đề và việc lựa chọn đề tài 1.1 Đặt vấn đề Đến nay những hệ thống cơ sở dữ liệu đã có mặt tại hầu hết các hoạt động kinh tế xã hội. Cùng với sự phát triển của công nghệ phần cứng như vi xử lý tốc độ cao, ổ đĩa với dung lượng lưu trữ lớn, khả năng sao lưu thì dữ liệu của các tổ chức, doanh nghiệp trong quá trình hoạt động đã được cập nhật và lưu giữ một cách đầy đủ. Cùng với sự đa dạng hoạt động hàng ngày của phòng ban, nhân sự cũng như với các đối tác bên ngoài, dữ liệu nghiệp vụ của tổ chức ngày càng trở nên khổng lồ. Dữ liệu có thể là tệp phẳng (không có cấu trúc) như hình ảnh, văn bản đến dữ liệu có cấu trúc được lưu giữ tại các hệ quản trị CSDL. Một hãng bán lẻ nổi tiếng như WalMart xử lý hàng chục triệu giao dịch mỗi ngày, hay ở Việt Nam, một công ty bán lẻ thời trang cũng có hàng trăm đơn hàng. Dữ liệu ngày qua ngày được tích lũy thay thế dần các hoạt động giấy tờ. Người ta có thể truy cập dữ liệu mình cần một cách nhanh chóng bằng các phép tìm kiếm hay thông qua sơ đồ thư mục lưu trữ trên hệ điều hành. Như vậy với các công nghệ hiện tại đã và đang đáp ứng tốt một giai đoạn yêu cầu của người dùng. Đến một ngày, khi những thành viên trong ban quản trị nhìn xuống và sửng sốt với độ lớn dữ liệu của tổ chức, doanh nghiệp mình. Toàn bộ hoạt động, lịch sử được lưu dưới dạng số một cách đầy đủ. Dữ liệu ấy chính là tài sản của công ty. Và họ muốn rằng những khối dữ liệu khổng lồ ấy phải nói lên những điều thật ý nghĩa. Điều này khác với việc họ muốn tìm lại một đơn hàng, một thông tin mang tính cá nhân của một khách hàng. Ở đây họ muốn biết cái sơ đồ doanh thu theo chiều lên hay xuống, muốn tách ra quy luật của bán hàng, quy luật của năng suất hoạt động, Quy luật ấy dựa trên các yếu tố thời gian, yếu tố con người, yếu tố địa lý,…. Có quy luật ấy không, nếu có thì quy luật ấy được phát biểu và thể hiện như thế nào. Nếu doanh nghiệp lấy ra được các thống kê, quy luật ấy họ sẽ có được những quyết sách trong tương lai một cách phù hợp hơn, dựa trên những yếu tố có cơ sở đúng đắn. Mùa nào, tháng nào trong năm, loại hàng hóa nào sẽ được đẩy mạnh ra thị trường. Vì thế có thể nói nếu dữ liệu tích luỹ được phân tích chính xác, nó có thể trở thành những phương tiện cạnh tranh hiệu quả. Hiện nay dữ liệu tràn ngập trên những phương tiện lưu trữ. Với việc không có được những công cụ khai thác thông tin hiệu quả , các tổ chức doanh nghiệp đang sống trong một môi trường “giàu dữ liệu nhưng nghèo thông tin”. Trong môi trường cạnh tranh ngày nay cùng với sự phát triển nhanh chóng của thế giới, những nhà ra quyết định xác định rõ cần phải có một thế hệ các kỹ thuật và công cụ tính toán - 6 – mới nhằm hỗ trợ họ trong việc trích xuất các thông tin hữu ích (tri thức) được nhúng bên trong các dữ liệu thu thập và tích luỹ. Họ mong muốn có những công cụ hỗ trợ quyết định trong một môi trường tích hợp để họ có thể tự tạo những tiêu chuẩn của riêng mình hoặc những báo biểu đặc biệt cho phân tích các dữ liệu phức tạp. Nắm được lợi ích của lượng dữ liệu lớn, họ có thể xác định được những thông tin tiềm ẩn, chẳng hạn nhờ đó có thể tiết kiệm chi phí, vươn tới những thị trường mới và theo vết tổng thu nhập một cách hiệu quả. Data warehouse, một công nghệ mới ra đời vào khoảng đầu những năm 90 đã được đón nhận và đưa vào thực tiễn. Tại Việt Nam, khái niệm và công nghệ này đã được làm quen cách đây cũng được khoảng 5 năm nhưng trên thực tế chúng hầu như chưa được quan tâm và ứng dụng một cách hiệu quả. Điều này cũng bắt nguồn từ nhu cầu quản lý trong một thế giới cạnh tranh chưa gay gắt, trình độ quản lý không cao. Với sự phát triển kinh tế xã hội, gia nhập WTO, môi trường ngày càng trở nên sôi động, mức độ cạnh tranh cao. Trong những đòi hỏi phát triển trình độ quản lý có yêu cầu nhanh chóng tổng hợp các khía cạnh trên dữ liệu hoạt động khổng lồ của doanh nghiệp mình, nhìn ra được những xu hướng đã và đang tồn tại ở các mặt hoạt động từ đó có những quyết định, xử lý đúng đắn. Chính vì điều này nên học viên chọn Data warehouse làm đề tài nghiên cứu. 1.2 Phạm vi của đề tài Đề tài trình bày các vấn đề chính trong lĩnh vực Data warehouse bao gồm cơ sở lý thuyết và một số khía cạnh thực tế của công nghệ này. Đề tài cũng trình bày hệ thống Microsoft SQL Server phiên bản 2005 và áp dụng hệ thống này để xây dựng một nhà kho dữ liệu. 2 Định nghĩa lại vấn đề 2.1 Các hệ thống thông tin tác nghiệp Công nghệ thông tin ngày càng đóng vai trò to lớn trong mọi hoạt động sản xuất quản lý của con người. Hầu hết việc thông tin tự động hóa đã được đưa vào các quy trình của doanh nghiệp tổ chức. Đó là tổ chức sản xuất, bán hàng, quản trị khách hàng, quản trị nguồn nhân lực… Trên thực tế các công ty muốn thành công trên thị trường, ngoài việc tổ chức bán hàng tốt (giao dịch đơn giản, thuận tiện cho người mua và người quản lý bán hàng ), người lãnh đạo công ty phải nắm được thực chất các quá trình diễn ra trong đơn vị mình và trong môi trường kinh doanh mà đơn vị đó hoạt động. Để thực hiện các công việc của một công ty, người ta có nhiều hệ chương trình tự động hoá các lĩnh vực quan trọng như kế toán, lập kế hoạch, giao dịch khách hàng, lập hoá đơn Chính vì lý do đó những hệ thống này có một cái tên cổ điển - 7 – là hệ thống xử lý giao dịch (OLTP- online transaction processing). Thông thường OLTP bao gồm một dãy lệnh: thu nhận (gathering) dữ liệu đầu vào, xử lý (processing) dữ liệu, và cập nhật (updating) dữ liệu cũ với dữ liệu mới được nhập và xử lý. Mỗi giao dịch tương ứng với một phép xử lý nghiệp vụ : tạo lập đơn hàng với khách hàng, đăng ký khóa học, chuyển khoản, Các giao dịch này này trong quá trình thực hiện liên quan đến nhiều vai trò tạo ra một hay nhiều thực thể. Bằng việc sử dụng hệ thống OLTP thì các thông tin về thực thể, thông tin về quá trình thực hiện được lưu lại trên các hệ thống máy tính. Các tổ chức, doanh nghiệp chưa đưa CNTT vào áp dụng thì chúng được lưu dưới dạng sổ sách giấy tờ. Theo thời gian, mỗi doanh nghiệp sở hữu các kho dữ liệu. Thông tin trước hết là một phát biểu có nghĩa được trích rút từ kho dữ liệu. Giá trị của thông tin tỷ lệ thuận với “ độ không biết ” của con người. Thông tin có thể lấy từ bản thân một mảnh dữ liệu hoặc có thể xâu chuỗi từ nhiều mảnh dữ liệu với một mối quan hệ nào đó. Quá trình xác định mối quan hệ giữa các dữ liệu đòi hỏi các kiến thức cần thiết về khả năng nhận thức và nắm bắt chuỗi thông tin cũng như phương thức làm cho thông tin đó có khả năng đáp ứng một nhiệm vụ cụ thể. Trong quản lý, giá trị của thông tin có liên quan trực tiếp tới việc thông tin đó giúp đạt được các mục tiêu của tổ chức. Trong khi dữ liệu đang được một giao tác cập nhật, có thể có hoặc không một khoá ngăn không cho giao tác khác truy cập dữ liệu. OLTP là phương thức hiệu quả khi các người dùng muốn: - Xử lý các dữ liệu đơn nói chung không giới hạn về mặt số lượng với tần suất không biết trước một cách chính xác. - Truy cập tức thì vào dữ liệu đã được cập nhật, phản ánh các giao tác trước đó - Thay đổi dữ liệu tức thì để phản ánh giao tác vừa xử lý. 2.1.1 Các chức năng và thuộc tính cơ bản của OLTP Khả năng truy cập và cập nhật các dữ liệu chia sẻ trên các hệ thống OLTP có các đặc tính - Truy cập trực tuyến (online) - Truy cập tức thời (availability) - Phản hồi nhanh chóng (response) - Chi phí thấp (low cost). Truy cập trực tuyến: để truy cập, user cần một máy trạm (workstation) nối với hệ thống. Kết nối vật lý có thể thông qua mạng nội bộ LAN, mạng mở rộng WAN (bao gồm cả mạng nội thị MAN), hay internet (với mạng riêng ảo hay hệ thống web – based). Kết nối lô gíc [...]... DB2 Đây là nơi mà sản phẩm, đầu tư và tìa chính được quản lý CSDL Jupiter vào khoảng 800 GB với 250 bảng và view Các hoạt động kinh doanh trong các cửa hàng offline được quản lý bởi Jade, là hệ thống viết trên Java chạy trên Infomix Bao gồm bán hàng, dịch vụ khách hàng và đăng ký WebTower9 và Jade lấy dữ liệu sản phẩm và tài chính từ Jupiter nhưng dữ liệu bán hàng và khách hàng được giữ lại trên chúng... đề xướng bởi B.Inmon vào những năm 90 của thế kỷ trước là một sự kết hợp của một số giải pháp kỹ thuật và được đặt tên là Data Warehoushing - kỹ thuật xây dựng các kho dữ liệu Data Warehouse hay DWH (kho dữ liệu) được định nghĩa như một tập hợp các phương tiện cho phép hình dung dữ liệu một cách tổng thể, hướng đối tượng để giúp cho việc phân tích và ra quyết định - 13 – 3 Data warehouse (Nhà kho dữ... hình quan hệ việc truy cập và tìm kiếm Hướng về xử lý thời gian thực Tức là phải cập nhật và truy vấn thông tin một cách nhanh chóng và tức thời, và chi tiết Hướng về tính ổn định Thông tin được đưa ra ở mức tổng hợp cấp cao hơn, bao quát hơn Dữ liệu được cập nhật thường xuyên, có độ linh hoạt cao với những phần tử dữ liệu có thể chưa hoàn chỉnh hoặc không xác định ở thời điểm vào Dữ liệu lưu trữ, ổn... 3.3.2 Mối quan hệ giữa các hệ thống thông tin tác nghiệp và Kho dữ liệu Những người đầu tiên đưa ra ý tưởng về DWH xác định rằng tiến hành phân tích trực tiếp trên dữ liệu của các hệ xử lý giao dịch và không hiệu quả Các dữ liệu từ một vài OLTP được biến đổi và sau đó đưa vào một nguồn dữ liệu duy nhất là DWH Quá trình này được gọi là đưa dữ liệu vào DWH, gồm các công đoạn chính sau: - Làm sạch (Bỏ các... trung tâm dữ liệu - Khối truy nhập và sử dụng Các lớp được chia thành - Lớp quản lý dữ liệu - Lớp quản lý siêu dữ liệu - Lớp chuyển tải dữ liệu - Lớp kết cấu hạ tầng Việc nắm vững cấu trúc khối và lớp cho phép ta linh hoạt trong việc triển khai các hệ thống DWH trên thực tế Tuỳ nhu cầu và khả năng tài chính, chúng ta có thể xuất phát từ việc xây dựng các trung tâm dữ liệu (Data mart) trước để có thể khai... hiện nay đã được xây dựng và sử dụng một cách rộng rãi nhưng ít ai để ý đến “chi phí xử lý mỗi giao tác” Chi phí cho từng giao tác chiếm một tỷ lệ trong tổng chi phí cần thiết của hệ thống để thực hiện giao tác Như vậy, mỗi giao tác phải được sắp xếp, xử lý, và kết thúc một cách có hiệu qủa Ưu điểm tuyệt đối của các hệ thống OLTP là xử lý các giao dịch tương tác, dễ bảo trì và khống chế dữ liệu thừa,... cấp dữ liệu, và khả năng đi sâu vào chi tiết - Trả lời nhanh các câu hỏi mang tính quản trị sâu sắc 2.2.2 Các hệ thống thông tin quản lý đang đáp ứng các yêu cầu trên ra sao Các kỹ sư phần mềm hiện nay chỗ này chỗ khác vẫn viết thêm và gắn vào các hệ thống tác nghiệp những báo cáo phục vụ yêu cầu quản trị Những phần mềm viết theo đơn đặt hàng vẫn tiếp tục được bổ sung những báo cáo dạng này Thực sự có... (product), bán hàng (sales) - Tập trung vào việc mô hình hóa và phân tích dữ liệu cho các nhà đưa ra quyết định, mà không tập trung vào các hoạt động hay các xử lý tác nghiệp hàng ngày - 14 – - Cung cấp một khung nhìn đơn giản và súc tích xung quanh các sự kiện của các chủ thể - Số liệu có tính lịch sử: Các hệ OLTP thường bao quát một khoảng thời gian không lớn và chúng được lưu trữ theo chu kỳ Ngược... tiết và không có được sự liên kết với nhau của các số liệu phản ánh các quá trình tương đối độc lập của một thực thể là lý do trực tiếp dẫn đến sự khủng hoảng này Bên cạnh chức năng chủ yếu là phục vụ các giao dịch, RDBMS cần cung cấp cho các nhà quản lý báo cáo về các thông tin tổng quát có độ trừu tượng cao, được khai thác từ dữ liệu thô Tóm lại sau giai đoạn triển khai những hệ thống quản lý tác... Trung tâm dữ liệu theo chủ đề (Data Mart) Data Mart là một dạng thu nhỏ của DWH, nếu kho dữ liệu mô tả thông tin của một tổ chức thương mại thì Data Mart mô tả thông tin cho từng phòng ban của tổ chức đó (như phòng kinh doanh, phòng nhân sự,…) hoặc chứa thông tin cho mỗi chi nhánh của tổ chức Data mart là nơi các dữ liệu được khoanh vùng theo chủ đề tới một giới hạn nào đó và có thể được thay đổi cho . DATA WAREHOUSE – LÝ THUYẾT VÀ THỰC TIỄN LUẬN VĂN THẠC SĨ Hà nội - 2008 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ PHẠM MINH TUÂN DATA WAREHOUSE – LÝ THUYẾT VÀ THỰC TIỄN. trường mới và theo vết tổng thu nhập một cách hiệu quả. Data warehouse, một công nghệ mới ra đời vào khoảng đầu những năm 90 đã được đón nhận và đưa vào thực tiễn. Tại Việt Nam, khái niệm và công. tích và ra quyết định. - 13 – 3 Data warehouse (Nhà kho dữ liệu) 3.1 Nhà kho dữ liệu là gì Một nhà kho dữ liệu (data warehouse) , gọi một cách chính xác hơn là kho thông tin (information warehouse) ,