1. Trang chủ
  2. » Luận Văn - Báo Cáo

Tiểu luận môn Hệ hỗ trợ quyết định ỨNG DỤNG OLAP TRONG DATA WAREHOUSE

48 739 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 48
Dung lượng 854,5 KB

Nội dung

Hệ hỗ trợ ra quyết định GVHD: PGS.TS Đỗ Phúc ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN o0o HỆ HỖ TRỢ RA QUYẾT ĐỊNH HỆ HỖ TRỢ RA QUYẾT ĐỊNH ỨNG DỤNG OLAP TRONG ỨNG DỤNG OLAP TRONG DATA WAREHOUSE DATA WAREHOUSE GVHD : PGS. TS. ĐỖ PHÚC HVTH : NGUYỄN THỊ MAI MÃ HV : CH1301038 LỚP : CAO HỌC KHÓA 8 TP.HCM T6 – 2014 TP.HCM T6 – 2014 SVTH: Nguyễn Thị Mai 1 Hệ hỗ trợ ra quyết định GVHD: PGS.TS Đỗ Phúc MỤC LỤC MỞ ĐẦU 4 I. NHU CẦU THÔNG TIN CỦA CÁC DOANH NGHIỆP 5 2.1 Truy cập dễ dàng 9 2.2.1 Thao tác cuộn lên (roll-up) 31 2.2.2 Thao tác khoan xuống (drill-down) 32 2.2.3 Thao tác cắt lát (slice) 32 2.2.4 Thao tác phân tích theo ô (dice) 32 2.2.5 Thao tác xoay (pivot/ rorate) 33 PHỤ LỤC THUẬT NGỮ VÀ VIẾT TẮT 47 SVTH: Nguyễn Thị Mai 2 Hệ hỗ trợ ra quyết định GVHD: PGS.TS Đỗ Phúc LỜI CẢM ƠN Em xin chân thành cảm ơn thầy PGS.TS Đỗ Phúc đã cung cấp cho em những kiến thức quan trọng, nền tảng, giúp em định hướng tìm tòi, học tập và nắm vững những nội dung cơ bản của môn học Hệ hỗ trợ ra quyết định, đồng thời giúp em mở ra những hướng nghiên cứu mới, sâu hơn về các kỹ thuật cũng như các ứng dụng đối với Hệ hỗ trợ ra quyết định. Trong bài này em xin trình bày những khái niệm, hiểu biết cơ bản về OLAP và ứng dụng trong data warehouse. Do thời gian có hạn nên bài viết chưa thực sự hoàn chỉnh, còn nhiều hạn chế và thiếu sót, mong thầy thông cảm. Tp. Hồ Chí Minh, ngày 21 tháng 06 năm 2014 Học viên thực hiện Nguyễn Thị Mai SVTH: Nguyễn Thị Mai 3 Hệ hỗ trợ ra quyết định GVHD: PGS.TS Đỗ Phúc MỞ ĐẦU Phân tích thông tin là một khả năng cần thiết cho các cơ sở dữ liệu (database) liên kết. Việc phân tích nhanh chóng dữ liệu lưu trữ trong các cơ sở dữ liệu và kho (warehouse) là không thể thiếu trong kinh doanh và là yếu tố hàng đầu trong bối cảnh thị trường cạnh tranh hiện nay.Tiến trình phân tích trực tuyến (gọi là OLAP) cung cấp việc phân tích thông tin thời gian thực cho việc ra quyết định trong kinh doanh. Bên cạnh đó, OLAP cung cấp cái nhìn linh hoạt về dữ liệu từ nhiều điểm nhìn, một thuộc tính được đề cập tới là tính chất đa chiều của dữ liện hiện tại trong cơ sở dữ liệu có sẵn. OLAP có thể được định nghĩa rõ ràng thông qua năm thuật ngữ thông dụng – Phân tích nhanh thông tin chia sẻ đa chiều (Fast Analys of Shared Multidimensional – FASMI). OLAP tìm các ứng dụng đặc biệt cho nhu cầu phân tích của doanh nghiệp sở hữu kho dữ liệu lớn. Một kho dữ liệu lưu trữ dữ liệu đã được phân tích hoặc không hữu dụng, OLAP xử lý dữ liệu để cung cấp nguồn thông tin toàn diện. Nó có thể được sử dụng để tạo ra business intelligence, ví dụ như tri thức của xu thế thị trường. Đó là một thành phần thiết yếu để thành công cho bất cứ doanh nghiệp nào. Nó là công nghệ hứa hẹn sự phát triển, lãnh đạo và triển vọng cho một tổ chức doanh nghiệp. SVTH: Nguyễn Thị Mai 4 Hệ hỗ trợ ra quyết định GVHD: PGS.TS Đỗ Phúc I. NHU CẦU THÔNG TIN CỦA CÁC DOANH NGHIỆP 1. Nhu cầu thông tin nghiệp vụ Công ty A là một đối thủ quốc tế trong lĩnh vực sản xuất xe hơi và đang lập kế hoạch mở rộng phạm vi thị trường toàn cầu với sự khởi đầu bằng hàng loạt chuỗi mô tô mới. Từ khi công ty A chiếm lĩnh thị trường ở nhiều lĩnh vực khác nhau trên toàn cầu, sự phát triển và lịch trình cho các bước tiếp theo là điều vô cùng quan trọng để dẫn đến thành công. Điều cần thiết là thông tin chính xác về thời kỳ khởi động, cho dù các công ty khác sẽ tham gia vào phong trào, việc mua mô hình khách hàng mục tiêu hỗ trợ kế hoạch đề ra và nếu không có gì thay đổi, nên đưa vào chính sách khuyến mãi cục bộ để có thể thu được lợi nhuận cao nhất. Tất cả những câu hỏi này vẫn còn để ngỏ không với sự hiện diện của hệ hỗ trợ ra quyết định tiên tiến nào. Với sự hỗ trợ của Hệ hỗ trợ ra quyết định có khả năng tạo ra tri thức nghiệp vụ, công ty A có thể dễ dàng dẫn đầu trong cuộc cạnh tranh của họ. Việc kinh doanh ngày nay phải đối mặt với nhiều thử thách, đặc biệt là sự thu hẹp nhanh chóng của thế giới. Hầu hết các doanh nghiệp lớn ngày nay bắc cầu qua nhiều quốc gia, và công nghệ như Internet đóng play truant đến nguyên nhân của toàn cầu hóa. Trong môi trường kinh doanh cạnh tranh, những người giỏi nhất và nắm hầu hết thông tin, dường như chắc chắn là các nhà lãnh đạo. Nhưng chỉ đơn thuần là sở hữu thông tin với số lượng lớn không đủ để đạt được lợi thế hơn các đối thủ kinh doanh. Điều này giống như có tất cả nhưng lại không có gì. Phân tích thông tin thành tri thức nghiệp vụ toàn diện là nhu cầu mỗi ngày, mỗi giờ của doanh nghiệp. Một số nhu cầu thông tin cho các doanh nghiệp hiện đại: • Quyết định thông tin quan trọng. • Các mô hình, các mối quan hệ và phân cấp trong xu hướng thị trường • Các kiến thức nghiệp vụ liên quan đến đối thủ cạnh tranh. SVTH: Nguyễn Thị Mai 5 Hệ hỗ trợ ra quyết định GVHD: PGS.TS Đỗ Phúc 2. Nhu cầu thông tin đa chiều Thông tin, được lưu trữ trong cơ sở dữ liệu ngày nay, dưới dạng quan hệ. Các bảng lưu trữ dữ liệu, có thể được truy vấn theo yêu cầu thông tin được khôi phục. Điều này tương đối đúng miễn là phải đính kèm ngữ nghĩa vào dữ liệu. Khi một người cần yêu cầu nội dung và ý nghĩa của thông tin này và mối quan hệ tới các phần khác của thông tin, người ta sử dụng các truy vấn đơn giản. Thông tin - phải được xem xét nhiều mặt, nhiều chiều. Việc xem thông tin từ những điểm nhìn khác nhau chỉ ra rằng một người có thể mô hình hóa những kịch bản khác nhau dựa trên cùng một tập thông tin, chỉ bằng cách sắp xếp chúng thành nhiều định dạng phân tích khác nhau. Tính đa chiều cho phép ấn định quan hệ giữa các lĩnh vực thông tin dường như không liên quan. Nó cho phép kết hợp thông tin tư nhiều nguồn khác nhau và kết hợp chúng để có thông tin hữu ích. Xem xét ví dụ về nhu cầu khách hàng so với dữ liệu về giá cả của một sản phẩm cụ thể. Dữ liệu này thể hiện tổng chi phí của tất cả các nhu cầu trong những vùng khác nhau của doanh nghiệp. Nó cũng tập hợp nhu cầu trong những thời điểm khác nhau. Tuy nhiên, đối với sự hiểu biết nhu cầu thị trường thực sự, cần áp dụng chiều thời gian cũng như các địa điểm cụ thể với dữ liệu có sẵn. Thực tế này đưa ra nhu cầu đa chiều của thông tin trực quan và có thể được truy cập. SVTH: Nguyễn Thị Mai 6 Hệ hỗ trợ ra quyết định GVHD: PGS.TS Đỗ Phúc II. KHO DỮ LIỆU - DATA WAREHOUSE 1. Khái niệm Kho dữ liệu Kho dữ liệu là một cơ sở dữ liệu (database) được tập hợp từ nhiều nguồn của một tổ chức và chủ yếu được dùng cho việc báo cáo (report) và phân tích (analys). Cách tốt nhất để hiểu khái niệm này là nên trực tiếp xây dựng một data warehouse database. Một ứng dụng (application) thường có một cơ sở dữ liệu để chứa các thông tin hoạt động của ứng dụng đó. Một tổ chức (organization, company ) có thể có nhiều ứng dụng, do vậy có nhiều database khác nhau. Mỗi ứng dụng thường tập trung vào một lĩnh vực hoạt động hay kinh doanh (domain) cụ thể nào đó. Ví dụ: một ngân hàng thường sẽ có một ứng dụng banking để quản lý các tài khoản và giao dịch cá nhân như checking account (debit card), saving account, credit card Đồng thời, ngân hàng cũng có một ứng dụng khác chuyên quản lý về các khoản vay, chẳng hạn vay tiền để mua nhà hoặc để đi học. Như vậy SVTH: Nguyễn Thị Mai 7 Hình.1. Dữ liệu hai chiều đơn giản Hình.2. Dữ liệu đa chiều với trục thời gian Hệ hỗ trợ ra quyết định GVHD: PGS.TS Đỗ Phúc trong trường hợp này, ít nhất có 2 cơ sở dữ liệu hoạt động (operational database) cùng tồn tại trong một ngân hàng. Operational database thứ nhất chuyên về các giao dịch cá nhân (banking transaction) hàng ngày. Cuối tháng công ty trả lương cho bạn bằng cách nạp (deposit) một khoản tiền vào tài khoản của bạn. Sau đó, bạn chỉ việc đi đến ATM để rút tiền. Như vậy, có ít nhất 2 bản ghi giao dịch (transaction record) đã được chèn vào database. Tương tự, khi bạn cần vay ngân hàng để mua một căn hộ mới, thông tin về bạn sẽ được nạp vào một operational database chuyên về các khoản vay. Mỗi tháng, ngân hàng yêu cầu bạn đóng một khoản tiền để trả nợ bao gồm cả lãi suất. Một transaction record sẽ được đưa vào database chuyên về cho vay hàng tháng. Như vậy, có thể thấy 2 cơ sở dữ liệu ở trên được dùng với mục đích duy trì hoạt động hàng ngày của ngân hàng. Do vậy, được gọi là Operational Database. Khi ngân hàng của bạn quyết định đưa ra một chiến lược kinh doanh mới để thúc đẩy các hoạt động trong mảng cho vay bởi đây là thị trường rất tiềm năng. Để làm được điều này, ngân hàng cần biết đối tượng nào có nhu cầu mua nhà nhất, thường mua nhà loại nào, giá nhà nằm trong khoảng nào, khả năng chi trả ra sao. Một cách để biết được điều này là ngân hàng có thể so sánh số liệu của 2 năm 2008 và 2009 nhằm vào đối tượng là tầng lớp trung lưu văn phòng tuổi 25- 30, thu nhập hàng tháng $500-$700, nhà mua là loại căn hộ 2 phòng ngủ, địa điểm là quanh khu đô thị mới Z. Nếu số liệu của năm 2009 cao hơn 2008, có thể dự đoán là nhu cầu của nhóm này tăng lên, do vậy ngân hàng có thể phát động các gói khuyến mãi dành riêng cho lớp này. Chẳng hạn, khoản vay có thể lớn hơn, lãi suất ưu đãi hơn, ngân hàng sẽ chịu trách nhiệm trong việc làm sổ đỏ SVTH: Nguyễn Thị Mai 8 Hệ hỗ trợ ra quyết định GVHD: PGS.TS Đỗ Phúc Để thực hiện điều này, rõ ràng ngân hàng của bạn sẽ phải thu gom dữ liệu từ 2 cơ sở dữ liệu trên hoặc mua dữ liệu từ một cơ quan chuyên về địa ốc nào đó. Do tên của bạn có thể sẽ xuất hiện trong các operational database khác nhau, người ta sẽ phải tìm cách để đồng nhất các thông tin này rồi dựa trên đó áp dụng các công thức tính toán thích hợp để dẫn đến cái báo cáo như ở trên. Do đây là một quá trình không hề đơn giản, nhiều khả năng ngân hàng sẽ phải dùng một câu lệnh SQL cực kỳ phức tạp và dài dòng. Gặp trường hợp dữ liệu đến từ nhiều nguồn khác nhau (csv, xml ), thậm chí có thể sẽ phải xây dựng các bảng tạm (temp tables) ngay trong operational database để thực hiện các bước trung gian. Một cách khác có thể là lập trình riêng một module cho báo cáo này. Tất cả những cách tiếp cận nói trên đều không mang tính hệ thống và thậm chí ảnh hưởng đến operational database. Từ những lý do này, một cơ sở dữ liệu riêng cần phải được thành lập để có thể tập hợp thông tin từ nhiều nguồn khác nhau, chuẩn hóa nó, tối ưu tốc độ để phục vụ cho việc phân tích và lập báo cáo. Nói cách khác, đó là một kho dữ liệu (data warehouse). 2. Mục tiêu của kho dữ liệu Một kho dữ liệu phải đảm bảo được các mục tiêu sau: 2.1 Truy cập dễ dàng Thông tin lưu trữ trong data warrehouse phải trực quan và dễ hiểu đối với người dùng. Nói cách khác, dữ liệu nên được trình bày thông qua các tên gọi quen thuộc và gần gũi với nghiệp vụ của người dùng. Có thể phân chia người dùng (business user) ra 2 loại. Người dùng cấp thấp chủ yếu thao tác trên các thông tin chi tiết. Chẳng hạn như nhập số liệu về một khách hàng, theo dõi các giao dịch của khách hàng cụ thể đó Báo cáo cho dạng công việc kiểu này thường là thông tin chi tiết về một khách hàng, hoặc một danh sách các SVTH: Nguyễn Thị Mai 9 Hệ hỗ trợ ra quyết định GVHD: PGS.TS Đỗ Phúc khách hàng. Những báo cáo kiểu này có thể lấy ra trực tiếp từ cơ sở dữ liệu hoạt động (operational database). Người dùng cấp cao lại chủ yếu xử lý dữ liệu ở mức độ tổng hợp, để từ đó phân tích rồi đưa ra các quyết định mang tính định hướng cho nghiệp vụ. Họ không quan tâm đến một khách hàng cụ thể nào cũng như không cần phải để ý cả một danh sách 1000 khách hàng. Thay vào đó, cái làm họ bận tâm là số lượng khách hàng sử dụng dịch vụ tăng/giảm 25% trong quý IV so với quý III cùng năm và tăng/giảm 45% so với cùng quý IV năm ngoái. Từ các thông số này, họ mới đưa ra quyết định sẽ làm gì để cải thiện tình hình hoặc đặt ra mục tiêu tăng trưởng 30% cho quý IV năm tới. Đây là đối tượng chủ yếu của Data Warehouse. Do vậy, thông tin cho loại đối tượng này càng dễ hiểu và gần với thực tế càng tốt. Một ví dụ dễ thấy là thay vì sử dụng các code, data warehouse nên thể hiện thông tin bằng các mô tả hoặc tên. Một điều nữa cần bàn đến là tốc độ truy cập data warehouse phải nhanh. Do phải xử lý một số lượng lớn bản ghi cùng một lúc, hiệu suất là một trong những yêu cầu phải có của một kho dữ liệu. Đây là nơi mà các kỹ thuật tuning database (cơ sở dữ liệu điều chỉnh) được dịp phát huy hết công suất: query tuning (điều chỉnh truy vấn), query hints (gợi ý truy vấn), indexes (chỉ mục), parallel processing (xử lý song song), partition (phân đoạn), materialized views Đối với những người xây dựng kho dữ liệu, đây là mảnh đất tốt để nâng cao khả năng làm việc với cơ sở dữ liệu lên mức chuyên gia. Mặc dù không chính thức bắt buộc, nhưng phần lớn những người làm kho dữ liệu tốt đều có kiến thức rất sâu về cơ sở dữ liệu. Nhiều người thậm chí còn ở mức quản trị cơ sở dữ liệu. Với nhu cầu về dữ liệu càng lúc càng lớn như hiện nay, sở hữu nhiều kỹ năng tốt cùng một lúc có thể đem lại cho bạn nhiều lựa chọn và lợi thế hơn trong thị trường việc làm. SVTH: Nguyễn Thị Mai 10 [...]... cắt mới Hình.9: Thao tác Cắt lát và Xoay IV CÁC ỨNG DỤNG CỦA OLAP OLAP được sử dụng rộng rãi trong nhiều lĩnh vực quản lý dữ liệu Một vài ứng dụng bao gồm: 1 Các ứng dụng tài chính • Hoạt động dựa trên chi phíe (phân bổ tài nguyên) • Ngân sách 2 Các ứng dụng Marketing/Sales • Phân tích nghiên cứu thị trường SVTH: Nguyễn Thị Mai 33 Hệ hỗ trợ ra quyết định • Dự đoán doanh thu • Phân tích lợi nhuận •... lưu dưới dạng các bảng quan hệ (OLAP) SVTH: Nguyễn Thị Mai 21 Hệ hỗ trợ ra quyết định GVHD: PGS.TS Đỗ Phúc Các ROLAP server Ưu: Kết hợp khả năng co dãn của ROLAP và năng suất của MOLAP Linh họat với người dùng Ví dụ: Microsoft SQL Server 2000 ứng dụng server lai ghép này Specialized SQL server: Với sự phát triển của yêu cầu trên tiến trình OLAP trong CSDL quan hệ, một số hệ thống CSDL dùng các Specialized... Nguyễn Thị Mai 11 Hệ hỗ trợ ra quyết định GVHD: PGS.TS Đỗ Phúc 2.4 Thích nghi với thay đổi Thay đổi là điều không thể tránh khỏi cho bất cứ ứng dụng nào, không riêng gì data warehouse Do vậy, data warehouse cần phải được thiết kế để xử lý những thay đổi có thể xảy ra Có nghĩa là khi có thay đổi mới, dữ liệu cũ trong data vẫn phải được bảo tồn tính đúng đắn 2.5 Bảo mật Dữ liệu trong data warehouse đến từ... triển phải có kiến thức rộng và tổng hợp cũng như những kỹ năng lập trình ứng dụng khác Xác định được dữ liệu đến từ những nguồn nào là một phần quan trọng trong việc xây dựng kiến trúc cho hệ thống data warehouse (data warehouse architecture) SVTH: Nguyễn Thị Mai 14 Hệ hỗ trợ ra quyết định GVHD: PGS.TS Đỗ Phúc 3.2 Khu vực xử lý (Data Staging Area): Có thể hiểu đây là nơi các hoạt động xử lý dữ liệu diễn... doanh • Hệ hỗ trợ ra quyết định mở rộng, thời gian thực cho các nhà quản lý Tất cả các ứng dụng trên có khả năng cung cấp cho các nhà quản lý những thông tin họ cần để ra quyết định hiểu quả trong phương hướng chiến lược của công ty hay tổ chức Chỉ số chính của một ứng dụng OLAP thành công là khả năng cung cấp thông tin theo nhu cầu, đó là khả năng cung cấp thông tin “just-in-time” cho việc ra quyết định. .. 15 Hệ hỗ trợ ra quyết định GVHD: PGS.TS Đỗ Phúc cảm thấy có thể nạp dữ liệu trực tiếp từ nguồn vào data warehouse database, bỏ qua staging area Nhưng như đã trình bày ở trên, cách làm này tuy có thể tiết kiệm được thời gian và không gian nhưng không hề ổn định Những người làm data warehouse lâu năm có một nguyên tắc vàng: "Luôn phải có staging area" 3.3 Khu vực trình bày Đây chính là data warehouse database... liệu hơn trong data warehouse đơn giản bởi vì nó cung cấp rất nhiều lựa chọn và hỗ trợ ra quyết định khá tốt Đó gọi là thành công 3 Các thành phần của kho dữ liệu Một hệ thống kho dữ liệu về mặt lô gích được cho là có 4 thành phần 1 Nguồn dữ liệu (Operational Source Systems) 2 Khu vực xử lý (Staging Area) 3 Khu vực trình bày (Data Presentation Area) SVTH: Nguyễn Thị Mai 13 Hệ hỗ trợ ra quyết định GVHD:... OLAP 1 Định nghĩa Trái với hệ thống lưu trữ dữ liệu thông thường, nơi dữ liệu tồn tại dưới hình thức các quan hệ, OLAP (On Line Analytical Processing) cung cấp cái nhìn tốt hơn về dữ liệu tiềm năng chưa được khai thác Nó hỗ trợ khung nhìn đa chiều về dữ liệu, tạo ra sự tăng đa tạp về nội dung toong tin của cùng một SVTH: Nguyễn Thị Mai 18 Hệ hỗ trợ ra quyết định GVHD: PGS.TS Đỗ Phúc lượng dữ liệu OLAp. .. data warehouse database Hiện tại, phần lớn các data warehouse database đều là cơ sở dữ liệu quan hệ (relational database) bởi đây là loại cơ sở dữ liệu thông dụng nhất hiện nay trên thị trường Dữ liệu trong relational database được tổ chức theo dạng hình sao (star schema), về cơ bản tức là mô phỏng tính đa chiều trong cơ sở dữ liệu quan hệ Data warehouse database có thể được tổ chức dưới dạng cube, tức... có thể sử dụng hai cách tiếp cận – có dữ liệu được tính toán trước, hoặc áp dụng tất cả sự tính toán trên dữ liệu Cách tiếp cận đầu tiên yêu cầu lượng lớn của vùng SVTH: Nguyễn Thị Mai 34 Hệ hỗ trợ ra quyết định GVHD: PGS.TS Đỗ Phúc dữ liệu lưu trữ và vì thế hỗ trợ phần cứng bên ngoài, chứng minh được chi phí hiệu quả Cách tiếp cận thứ hai là áp dụng các phép toán trên tiến trình, kết quả trong việc . Hệ hỗ trợ ra quyết định GVHD: PGS.TS Đỗ Phúc ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN o0o HỆ HỖ TRỢ RA QUYẾT ĐỊNH HỆ HỖ TRỢ RA QUYẾT ĐỊNH ỨNG DỤNG OLAP TRONG. dung cơ bản của môn học Hệ hỗ trợ ra quyết định, đồng thời giúp em mở ra những hướng nghiên cứu mới, sâu hơn về các kỹ thuật cũng như các ứng dụng đối với Hệ hỗ trợ ra quyết định. Trong bài này. với sự hiện diện của hệ hỗ trợ ra quyết định tiên tiến nào. Với sự hỗ trợ của Hệ hỗ trợ ra quyết định có khả năng tạo ra tri thức nghiệp vụ, công ty A có thể dễ dàng dẫn đầu trong cuộc cạnh tranh

Ngày đăng: 20/05/2015, 22:56

TỪ KHÓA LIÊN QUAN

TRÍCH ĐOẠN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w