Tổng quan về kho dữ liệu và xử lý phân tích trực tuyến

22 393 2
Tổng quan về kho dữ liệu và xử lý phân tích trực tuyến

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Tổng quan về kho dữ liệu và xử lý phân tích trực tuyến MỤC LỤC Trang Nhóm 4 – Cao học 2011 - 2013 Trang 3 Tổng quan về kho dữ liệu và xử lý phân tích trực tuyến PHẦN I: LÝ DO CHỌN ĐỀ TÀI Sự gia tăng về khả năng xử lý và sự tinh vi của các kỹ thuật và các công cụ phân tích và đã dẫn đến sự phát triển của một khái niệm là “kho dữ liệu”. Những kho dữ liệu này cung cấp các kho chứa, chức năng và đáp ứng các truy vấn mà cơ sở dữ liệu tác nghiệp không giải quyết được. Đi kèm với sự phát triển như vậy là một đòi hỏi lớn về cải thiện hiệu suất truy cập dữ liệu. Các cơ sở dữ liệu truyền thống cân bằng giữa đòi hỏi về khả năng truy cập dữ liệu với sự cần thiết về bảo đảm tính toàn vẹn dữ liệu. Trong các hệ thống hiện đại, người sử dụng dữ liệu thường được tách rời hoàn toàn khỏi nguồn dữ liệu. Người sử dụng chỉ cần truy cập để đọc dữ liệu, nhưng vẫn cần truy cập một cách nhanh chóng đến khối lượng lớn dữ liệu tiện lợi hơn là tải nó về máy tính. Thông thường những dữ liệu như vậy đến từ nhiều nguồn. Bởi vì rất nhiều hoạt động phân tích là thường xuyên và có thể dự báo được, các nhà cung cấp phần mềm đã thiết kế các hệ thống để hỗ trợ các chức năng như vậy. Ngày nay, các hệ thống đó là rất cần thiết cho những người quản lý để hỗ trợ cho các quyết định đưa ra. Kho dữ liệu, xử lý phân tích trực tuyến (OLAP), khai phá dữ liệu cung cấp những tính năng này. Qua quá trình học môn Cơ sở dữ liệu nâng cao cũng như nghiên cứu phần Datawarehouse, nhóm chúng em xin chọn đề tài “TỔNG QUAN VỀ KHO DỮ LIỆU VÀ XỬ LÝ PHÂN TÍCH TRỰC TUYẾN”. Tiểu luận trình bày một cách nhìn tổng quát về kho dữ liệu và các công nghệ xử lý phân tích trực tuyến. Xin chân thành cám ơn Ts Hoàng Quang đã truyền đạt kiến thức quý báu cho chúng em để chúng em làm tiểu luận này. Xong do kiến thức còn hạn chế nên không thể tránh khỏi sai sót, kính mong thầy và các bạn cùng lớp góp ý để tiểu luận được hoàn thiện hơn. Nhóm 4 – Cao học 2011 - 2013 Trang 4 Tổng quan về kho dữ liệu và xử lý phân tích trực tuyến PHẦN II: NỘI DUNG 1. Giới thiệu, định nghĩa và thuật ngữ. Một cơ sở dữ liệu là một tập hợp các dữ liệu liên quan và một hệ thống cơ sở dữ liệu là một cơ sở dữ liệu và phần mềm cơ sở dữ liệu kết hợp với nhau. Một kho dữ liệu cũng là một tập hợp các thông tin như là một hệ hỗ trợ. Tuy nhiên, tồn tại một sự khác biệt rõ ràng. Các cơ sở dữ liệu truyền thống là sự giao dịch (mối quan hệ, hướng đối tượng, mạng, hay thứ bậc). Kho dữ liệu có đặc điểm là chủ yếu dùng cho các ứng dụng hỗ trợ quyết định. Nó tối ưu cho việc gọi dữ liệu, nhưng không xử lý giao dịch thông thường. Bởi vì kho dữ liệu đã được phát triển trong rất nhiều tổ chức cho những ứng dụng đặc thù nên không có một định nghĩa kinh điển (duy nhất) về kho dữ liệu. Các sách và bài viết trên tạp chí chuyên ngành trong ấn bản phổ thông thảo luận về ý nghĩa của kho dữ liệu theo nhiều cách khác nhau. Tuy nhiên kho dữ liệu rất khác với cơ sở dữ liệu truyền thống ở cấu trúc, chức năng, hoạt động và mục đích của chúng. W.H.Inmon mô tả một kho dữ liệu như là tập hợp dữ liệu có tính hướng chủ thể, tích hợp, bền vững, biến thời gian và dùng để hỗ trợ cho các quyết định của người quản lý. Kho dữ liệu cung cấp sự truy cập dữ liệu cho những phân tích phức tạp, khám phá tri thức, ra quyết định. Chúng hỗ trợ cho yêu cầu thực thi với hiệu suất cao đối với dữ liệu và thông tin của các tổ chức. Một số loại ứng dụng như OLAP, DSS và khai phá dữ liệu được hỗ trợ. Chúng ta định nghĩa chúng như sau: OLAP (xử lý phân tích trực tuyến) là thuật ngữ được sử dụng để mô tả sự phân tích dữ liệu phức tạp từ kho dữ liệu. Công cụ OLAP sử dụng khả năng tính toán phân tán để phân tích những yêu cầu đòi hỏi nhiều khả năng lưu trữ và xử lý hơn là về kinh tế và hiệu quả trên một máy tính riêng lẻ. DSS (hệ thống hỗ trợ quyết định) cũng được biết như EIS (hệ thống thông tin lãnh đạo) (không nhầm lẫn với hệ thống thông tin mức xí nghiệp (enterprise integration system) hỗ trợ cho quyết định của lãnh đạo của một tổ chức với dữ liệu mức độ cao hơn cho những quyết định quan trọng và phức tạp. Khai phá dữ liệu (điều mà chúng ta đã thảo luận chi tiết ở chương 28) được dùng để khám phá tri thức, tìm kiếm dữ liệu cho tri thức mới chưa được biết. Các cơ sở dữ liệu truyền thống hỗ trợ quá trình giao dịch trực tuyến (OLTP), bao gồm sự chèn vào, cập nhật và xóa trong khi vẫn hỗ trợ các yêu cầu truy vấn. Các cơ sở dữ liệu quan hệ truyền thống được tối ưu hóa để xử lý các truy vấn có thể liên quan đến một phần dữ liệu mà đang được cập nhật bởi một tiến trình nào đó. Vì vậy, chúng không thể được tối ưu hóa cho OLAP, DSS, hoặc khai phá dữ liệu. Ngược lại, kho dữ liệu được thiết kế một cách chính xác để hỗ trợ hiệu quả Nhóm 4 – Cao học 2011 - 2013 Trang 5 Tổng quan về kho dữ liệu và xử lý phân tích trực tuyến cho các mục đích khai thác, xử lý, phân tích và ra quyết định. So sánh với cơ sở dữ liệu truyền thống, kho dữ liệu thường chứa một lượng rất lớn dữ liệu từ nhiều nguồn mà có thể bao gồm cơ sở dữ liệu từ các mô hình dữ liệu khác nhau, đôi khi các tập tin có được từ các hệ thống khác. 2. Đặc điểm của kho dữ liệu Để thảo luận về kho dữ liệu và phân biệt chúng với cơ sở dữ liệu tác nghiệp, chúng ta cần một mô hình dữ liệu phù hợp. Mô hình dữ liệu đa chiều (được giải thích khá chi tiết ở mục 3) là rất thích hợp cho OLAP và các công nghệ hỗ trợ quyết định. Ngược lại với đa cơ sở dữ liệu, cung cấp truy cập đến các cơ sở dữ liệu rời rạc và thường là không đồng nhất, kho dữ liệu thường là một kho tích hợp dữ liệu từ nhiều nguồn, xử lý lưu trữ trong một mô hình đa chiều. Không giống như hầu hết các cơ sở dữ liệu tác nghiệp, kho dữ liệu điển hình hỗ trợ phân tích xu hướng và chuỗi thời gian, cả hai đều đòi hỏi dữ liệu quá khứ hơn là dữ liệu hiện tại. So sánh với cơ sở dữ liệu tác nghiệp, kho dữ liệu là ít thay đổi thường xuyên và có thể được coi là non-real-time updating. Trong các hệ thống tác nghiệp, giao tác là các đơn vị và là những tác nhân của sự thay đổi cơ sở dữ liệu. Ngược lại thông tin trong kho dữ liệu là khá thô được “làm mới” theo chính sách lựa chọn cẩn thận các thông tin, thông thường là gia tăng. Việc cập nhật kho được xử lý bởi một bộ phận của kho. Tổng quát hơn, kho dữ liệu là tập hợp các công nghệ hỗ trợ quyết định, nhằm tạo điều kiện cho người lao động tri thức (hành pháp, quản lý và nhà phân tích), để đi đến các quyết định tốt hơn và nhanh hơn. Hình 1 đưa ra tổng quan về cấu trúc kho dữ liệu. Nó trình bày toàn bộ quá trình xử lý của kho dữ liệu, bao gồm làm sạch và định dạng lại dữ liệu trước khi nạp vào kho. Quá trình này hiện nay được điều khiển công cụ ETL (kết xuất, chuyển đổi, nạp). Tại cuối quá trình, OLAP, data mining, và DSS có thể sinh ra các dữ liệu liên quan; và những thông tin này lại được đưa về kho. Nguồn dữ liệu có thể được chứa trong file. Hình 1 Nhóm 4 – Cao học 2011 - 2013 Trang 6 Tổng quan về kho dữ liệu và xử lý phân tích trực tuyến Kho dữ liệu có những đặc điểm phân biệt sau: + Khung nhìn khái niệm đa chiều + Các chiều bình đẳng + Mức độ kết hợp và số chiều không hạn chế + Hoạt động không hạn chế chiều ngang + Xử lý động ma trận thưa + Kiến trúc khách/chủ + Hỗ trợ đa người dùng + Dễ truy cập + Trong suốt + Thao tác dữ liệu trực quan + Thực thi báo cáo nhất quán + Báo cáo linh hoạt Bởi vì chúng bao gồm khối lượng lớn dữ liệu, kho dữ liệu thông thường khuyếch đại lớn hơn một cấp (đôi khi hai cấp khuyếch đại) so với nguồn cơ sở dữ liệu. Dung lượng tuyệt đối của dữ liệu (có khả năng đạt đến terabytes) là một vấn đề đã được giải quyết thông qua kho dữ liệu doanh nghiệp, kho dữ liệu ảo và siêu thị dữ liệu. Kho dữ liệu doanh nghiệp: là những dự án đòi hỏi đầu tư lớn về thời gian và tài nguyên. Kho dữ liệu ảo: cung cấp các khung nhìn giúp cho việc truy cập dữ liệu được hiệu quả. Siêu thị dữ liệu: thông thường được ngắm đến một tập con của tổ chức, như một phòng ban, và có mục tiêu khá chặt chẽ. 3 Mô hình dữ liệu cho kho dữ liệu Mô hình đa chiều mang lại lợi ích cho các mối quan hệ kế thừa trong dữ liệu để đưa dữ liệu vào ma trận đa chiều được gọi là khối dữ liệu. Có thể gọi siêu khối nếu nó có hơn ba chiều. Đối với dữ liệu mà định dạng theo chiều, việc thực hiện các truy vấn trong ma trận đa chiều có thể tốt hơn nhiều so với mô hình dữ liệu quan hệ. Ví dụ về dữ liệu đa chiều trong kho dữ liệu: chu kỳ, sản phẩm, vùng của một công ty. Nhóm 4 – Cao học 2011 - 2013 Trang 7 Tổng quan về kho dữ liệu và xử lý phân tích trực tuyến Một bảng tính chuẩn là một ma trận hai chiều. Một ví dụ cho bảng tính của việc kinh doanh theo vùng được thể hiện bởi chiều sản phẩm và chiều thời gian. Sản phẩm thể hiện ở hàng và tổng thu nhập cho mỗi vùng thể hiện ở cột. Hình 2 cho thấy cách tổ chức hai chiều này. Thêm vào chiều thời gian như là một quí tài chính tổ chức được ma trận ba chiều Hình 2 Mô hình ma trận 2 chiều Hình 3 cho thấy khối dữ liệu 3 chiều được tổ chức bởi sản phẩm, quí (thời gian) và vùng (vị trí địa lí). Mỗi ô có thể chứa dữ liệu về một sản phẩm, quí và vùng. Bằng cách thêm vào các chiều, một siêu khối dữ liệu có thể được tạo ra, mặc dù nhiều hơn ba chiều có thể gây ra sự khó khăn trong trực quan hoá hay biểu diễn dưới dạng biểu đồ. Dữ liệu có thể được truy vấn trực tiếp theo một tổ hợp các chiều nào đó qua các truy vấn phức tạp. Có các công cụ cho phép người dùng xem dữ liệu theo chiều. Hình 3 Mô hình khối dữ liệu 3 chiều Nhóm 4 – Cao học 2011 - 2013 Trang 8 Reg 1 Reg 2 Reg 3 Region … P123 P124 P125 P126 … Product P123 P124 P125 P126 P127 … Product Fiscal-quarter Qtr1 Qtr2 Qtr3 Qtr4 Reg1 Reg2 … Reg3 Region Tổng quan về kho dữ liệu và xử lý phân tích trực tuyến Việc thay đổi từ chiều này sang chiều khác được thực hiện một cách dễ dàng bằng một kỹ thuật gọi là pivoting (phép quay). Trong kỹ thuật này khối dữ liệu có thể quay để hiển thị theo các hướng khác nhau của hệ trục. Ví dụ, bạn phải xoay khối dữ liệu để hiển thị thu nhập bán hàng tại địa phương như là hàng (trục ngang), tổng thu nhập theo quý tài chính như là cột (trục đứng), và các sản phẩm của công ty trong chiều thứ ba (hình 4). Do vậy, kỹ thuật này là tương đương với có một bảng bán hàng địa phương cho mỗi sản phẩm tách biệt nhau, nơi mỗi bảng hiển thị bán hàng theo quý cho sản phẩm đó theo từng vùng. Mô hình đa chiều tự nó có khuynh hướng dẫn đến các cách xem dữ liệu phân cấp được gọi là kiểu trình bày roll-up (cuộn lên) hoặc Drill-down (cuộn xuống). Kiểu trình bày Roll-up di chuyển lên (trong mô hình phân cấp) nhóm thành các khối dữ liệu lớn hơn theo một chiều. VD: tính tổng dữ liệu hàng tuần theo quý hoặc theo năm. Hình 5 biểu diễn cách trình bày roll-up, di chuyển từ các sản phẩm riêng biệt thành các nhóm loại sản phẩm. Biểu diễn H.29.6 biểu diễn Drill-down thì ngược lại, phân tách các sản phẩm bán cho quốc gia theo vùng miền và sản phẩm bán theo vùng miền thành các vùng miền địa phương và có thể tách sản phẩm thành ra các kiểu loại. Hình 4 Phép quay khối dữ liệu từ hình 3 Nhóm 4 – Cao học 2011 - 2013 Trang 9 Tổng quan về kho dữ liệu và xử lý phân tích trực tuyến Hình 5 Thao tác roll-up Sub_reg 1 Sub_reg 2 Sub_reg 3 Sub_reg 4 Sub_reg 1 P123 Styles A B C D P124 Styles A B C P125 Styles A B C D Hình 6 Thao tác drill-down Nhóm 4 – Cao học 2011 - 2013 Trang 10 Tổng quan về kho dữ liệu và xử lý phân tích trực tuyến Mô hình kho đa chiều bao gồm hai kiểu bảng: Bảng chiều và bảng sự kiện (fact). Bảng chiều (dimension table) gồm các bộ thuộc tính của chiều. Bảng fact (Fact table) có thể xem như là các bộ, một bộ là một bản ghi sự kiện được ghi nhận. Fact này chứa các biến đo được hay quan sát được và định danh chúng bằng các con trỏ trỏ đến các bảng chiều. Bảng fact chứa dữ liệu và các chiều trong mỗi bộ dữ liệu. H.29.7 chứa một VD về bảng fact mà có thể xem từ phối cảnh các bảng đa chiều. Hai lược đồ đa chiều phổ biến là lược đồ hình sao và lược đồ hình bông tuyết. Lược đồ hình sao bao gồm một bảng fact và các bảng chiều, mỗi bảng là một chiều (hình 7). Lược đồ hình bông tuyết là một biến thể của lược đồ hình sao trong đó các bảng chiều từ lược đồ hình sao đã được chuẩn hóa. Một số cài đặt đang chuẩn hoá kho dữ liệu về dạng 3NF để có thể truy cập kho dữ liệu với mức độ chi tiết tốt nhất. Một tập sự kiện là một tập hợp các bảng fact, nó chia sẻ một số chiều của bảng. Hình 9 hiển thị một bảng tập hợp sự kiện với 2 bảng sự kiện, những kết quả kinh doanh và dự báo kinh doanh. Chúng chia sẻ chiều sản phẩm. Bảng tập hợp sự kiện giới hạn các truy vấn có thể thực hiện được của kho dữ liệu. Hình 7 Một lược đồ hình sao cùng với bảng sự kiện và bảng chiều Lưu trữ kho dữ liệu cũng sử dụng kỹ thuật lập chỉ mục để tăng tốc độ truy cập. Một kỹ thuật được gọi là chỉ mục bitmap xây dựng một bit véc tơ cho mỗi giá trị trong một miền (cột) đang được đánh chỉ mục. Nó hoạt động rất tốt đối với các miền có bản số thấp. Có một bit 1 được đặt trong vị trí thứ j trong vector nếu hàng thứ j có chứa các giá trị được lập chỉ mục. Ví dụ, hãy tưởng tượng một hàng tồn kho có 100000 xe hơi với một chỉ mục bitmap kích thước xe. Nếu có bốn kích cỡ xe thì sẽ có bốn bit véc tơ, mỗi véc tơ chứa 100000 bit (12.5K), tổng kích cỡ chỉ Nhóm 4 – Cao học 2011 - 2013 Trang 11 Tổng quan về kho dữ liệu và xử lý phân tích trực tuyến mục là 50K. Với các bit vectors một chỉ mục bitmap có thể cung cấp cải tiến đáng kể trong so sánh, tổng hợp, và hiệu quả nối. Hình 8 Lược đồ hình sao Hình 9 Một bảng tập hợp sự kiện Trong một lược đồ hình sao, chiều dữ liệu có thể được lập chỉ mục để tạo từng bộ trong bảng sự kiện bằng cách nối chỉ mục. Nối chỉ mục là lập chỉ mục để duy trì mối quan hệ giữa giá trị khoá chính và giá trị khóa ngoài. Chúng liên quan các giá trị một chiều của một lược đồ hình sao tới các hàng trong bảng sự kiện. Ví dụ, xem xét bảng sự kiện bán hàng có thành phố và quý tài chính như các chiều. Nếu có một đường nối chỉ mục trên thành phố, mỗi thành phố có đường nối chỉ mục duy trì các bộ ID của các bộ chứa thành phố đó. Các đường nối lập chỉ mục có thể liên quan tới đa chiều. Lưu trữ kho dữ liệu có thể tạo điều kiện thuận lợi để truy cập vào dữ liệu tóm tắt bằng việc thêm ưu điểm tính chất cố định của kho dữ liệu và mức độ tin cậy được của các phân tích sẽ được thực hiện bằng cách sử dụng chúng. Hai phương Nhóm 4 – Cao học 2011 - 2013 Trang 12 [...]... các chuyên gia và người quản lý IT Nhóm 4 – Cao học 2011 - 2013 Trang 19 Tổng quan về kho dữ liệu và xử lý phân tích trực tuyến PHẦN III: BÀI TẬP 1 a >Kho dữ liệu là gì? Theo W.H.Inmon kho dữ liệu là tập hợp dữ liệu có tính hướng chủ thể, tích hợp, bền vững, biến thời gian và dùng để hỗ trợ cho các quyết định của người quản lý b>Sự khác nhau giữa kho dữ liệu và cơ sở dữ liệu : • Kho dữ liệu chủ yếu tối... trữ dữ liệu trong một kho dữ liệu phản ánh sự chuyên môn hoá này và liên quan đến các quy trình sau đây:  Lưu dữ liệu theo mô hình dữ liệu của các kho dữ liệu  Tạo và duy trì cấu trúc dữ liệu yêu cầu  Tạo và duy trì đường dẫn truy cập thích hợp  Cung cấp dữ liệu biến đổi theo thời gian như một dữ liệu mới được thêm Nhóm 4 – Cao học 2011 - 2013 Trang 14 Tổng quan về kho dữ liệu và xử lý phân tích trực. .. được kết hợp để tải vào trong kho dữ liệu Như các nhà quản lý dữ liệu trong các tổ chức phát hiện rằng dữ liệu của họ đang được làm sạch cho vào kho dữ liệu, họ sẽ có khả năng muốn nâng cấp dữ liệu của họ với dữ liệu được làm sạch Quá trình dữ liệu được làm sạch trở lại về nguồn được gọi là backflushing (xem Hình 1)  Các dữ liệu phải được đưa vào mô hình dữ liệu của kho dữ liệu Dữ liệu từ nhiều nguồn... dựng kho dữ liệu Dữ liệu phải được làm sạch trước khi được load vào kho dữ liệu Làm sạch dữ liệu là đặc biệt dành cho kho dữ liệu và có thể không được áp dụng cho một cơ sở dữ liệu máy chủ Tuy nhiên, vì đầu vào dữ liệu phải được kiểm tra và định dạng nhất quán, người xây dựng kho dữ liệu có cơ hội để kiểm tra hiệu lực và chất lượng Việc đoán nhận dữ liệu sai lầm và không đầy đủ khó để tự động hóa, và. .. ngành Data Mart là kho dữ liệu hướng chủ đề Các DM có thể được hình thành từ một tập con dữ liệu của kho dữ liệu hoặc cũng có thể được xây dựng độc lập và sau khi xây dựng xong, các DM có thể được kết nối tích hợp lại với nhau tạo thành kho dữ liệu Nhóm 4 – Cao học 2011 - 2013 Trang 21 Tổng quan về kho dữ liệu và xử lý phân tích trực tuyến 6 Loại chỉ mục nào được xây dựng cho kho dữ liệu? Trả lời: Chỉ... nghiên cứu trong các công nghệ kho dữ liệu sẽ tập trung vào lĩnh vực tự động của kho dữ liệu mà hiện đang thủ công như thu thập dữ liệu, quản lý chất lượng dữ liệu, chọn và xây dựng các đường dẫn và cấu trúc truy cập tương ứng , tự bảo trì, tối ưu Nhóm 4 – Cao học 2011 - 2013 Trang 23 Tổng quan về kho dữ liệu và xử lý phân tích trực tuyến PHẦN IV: TÀI LIỆU THAM KHẢO [1] Elmasri và Navathe, Fundamentals of... với dữ liệu mức độ cao hơn cho những quyết định quan trọng và phức tạp ROLAP : xử lý phân tích trực tuyến quan hệ MOLAP : xử lý phân tích trực tuyến đa chiều 3 Đặc điểm của kho dữ liệu : + Khung nhìn khái niệm đa chiều + Các chiều bình đẳng + Mức độ kết hợp và số chiều không hạn chế + Hoạt động không hạn chế chiều ngang + Xử lý động ma trận thưa Nhóm 4 – Cao học 2011 - 2013 Trang 20 Tổng quan về kho dữ. .. kho dữ liệu và xử lý phân tích trực tuyến + Kiến trúc khách/chủ + Hỗ trợ đa người dùng + Dễ truy cập + Trong suốt + Thao tác dữ liệu trực quan + Thực thi báo cáo nhất quán + Báo cáo linh hoạt Phân loại kho dữ liệu : Kho dữ liệu doanh nghiệp: là những dự án đòi hỏi đầu tư lớn về thời gian và tài nguyên Kho dữ liệu ảo: cung cấp các khung nhìn giúp cho việc truy cập dữ liệu được hiệu quả Siêu thị dữ liệu: ... quản lý Việc quản lý kho dữ liệu là công việc của một nhóm, đòi hỏi kỹ năng rộng, sắp xếp cẩn thận Nhóm 4 – Cao học 2011 - 2013 Trang 18 Tổng quan về kho dữ liệu và xử lý phân tích trực tuyến và quản lý hiệu quả Chúng ta cần chuẩn bị cho sự phát triển của kho dữ liệu, chúng ta cần tổ chức các nhóm quản lý sẽ phát triển cùng nó 7.2 Hướng mở của kho dữ liệu - Có nhiều quảng cáo cường điệu xung quanh... hoạt động của một kho dữ liệu, chẳng hạn như cải thiện cân bằng tải, nâng cao hiệu quả hoạt Nhóm 4 – Cao học 2011 - 2013 Trang 15 Tổng quan về kho dữ liệu và xử lý phân tích trực tuyến động, và tính khả dụng cao hơn Một siêu dữ liệu được nhân bản sẽ lưu trữ ở một site phân tán Ý tưởng của kho dữ liệu liên kết (federated warehouse) giống cơ sở dữ liệu liên kết: một liên minh các kho dữ liệu, mỗi một thành . liệu 3 chiều Nhóm 4 – Cao học 2011 - 2013 Trang 8 Reg 1 Reg 2 Reg 3 Region … P123 P1 24 P125 P126 … Product P123 P1 24 P125 P126 P127 … Product Fiscal-quarter Qtr1 Qtr2 Qtr3 Qtr4 Reg1 Reg2 … Reg3 Region Tổng. roll-up Sub_reg 1 Sub_reg 2 Sub_reg 3 Sub_reg 4 Sub_reg 1 P123 Styles A B C D P1 24 Styles A B C P125 Styles A B C D Hình 6 Thao tác drill-down Nhóm 4 – Cao học 2011 - 2013 Trang 10 Tổng quan về. vùng miền địa phương và có thể tách sản phẩm thành ra các kiểu loại. Hình 4 Phép quay khối dữ liệu từ hình 3 Nhóm 4 – Cao học 2011 - 2013 Trang 9 Tổng quan về kho dữ liệu và xử lý phân tích

Ngày đăng: 02/06/2015, 10:30

Từ khóa liên quan

Mục lục

  • 3 Mô hình dữ liệu cho kho dữ liệu

  • 4. Xây dựng kho dữ liệu

  • 7. Các vấn đề khó khăn và hướng mở về kho dữ liệu

    • 7.1 Khó khăn trong cài đặt kho dữ liệu

    • 7.2 Hướng mở của kho dữ liệu

Tài liệu cùng người dùng

Tài liệu liên quan