Bài giảng Kho dữ liệu - Chương 1: Tổng quan về kho dữ liệu và kinh doanh thông minh
2/11/2014 Chương 1: Tổng quan kho liệu kinh doanh thông minh Data Warehouse and Business Intelligence Nội dung Giới thiệu kho liệu Các đặc tính kho liệu Các kiến trúc kho liệu Các mô hình kho liệu Giới thiệu kinh doanh thơng minh Kiến trúc kinh doanh thơng minh Vai trị kinh doanh thông minh việc định Data Warehouse and Business Intelligence Giới thiệu kho liệu Có nhiều định nghĩa khác KDL, khơng có cách nghiêm ngặt: Một sở liệu hỗ trợ định bảo trì tách biệt từ sở liệu hoạt động tổ chức Hỗ trợ xử lí thông tin cách cung cấp tảng vững cho việc hợp liệu lịch sử để phân tích Theo W H Inmon: “Kho liệu tập liệu hướng chủ đề, tích hợp, gắn với thời gian thay đổi để hỗ trợ q trình định nhà quản lí” Data Warehouse and Business Intelligence 2/11/2014 Kiến trúc kho liệu Oracle9 i Data Warehousing Guide, Release (9.2) Data Warehouse and Business Intelligence Các đặc tính KDL Hướng chủ đề (Subject-Oriented) Có tính tích hợp (Integrated) Gắn với thời gian (Time Variant) Ít thay đổi (Non-Volatile) Data Warehouse and Business Intelligence Các đặc tính KDL (tt) Hướng chủ đề Data Warehouse and Business Intelligence 2/11/2014 Các đặc tính kho liệu Tích hợp Data Warehouse and Business Intelligence Tích hợp Data Warehouse and Business Intelligence Các đặc tính kho liệu Gắn với thời gian • Thời gian 60–90 ngày • Cập nhật ghi • Cấu trúc khóa có khơng chứa khóa thời gian Data Warehouse and Business Intelligence • Thời gian 5-10 năm • Những hình ảnh phức tạp liệu • Cấu trúc khóa chứa phần tử thời gian 10 2/11/2014 Các đặc tính kho liệu (tt) Ít thay đổi Data Warehouse and Business Intelligence 11 OLTP vs OLAP OLTP (on-line transaction processing): Xử lí giao dịch trực tuyến Nhiệm vụ Hệ quản lí sở liệu quan hệ (relational DBMS) truyền thống Dùng cho tác nghiệp ngày (Day-to-day operations): mua sắm, quản lí tồn kho, ngân hàng, quản lí lương, đăng ký, kế tốn,… OLAP (on-line analytical processing): Q trình phân tích trực tuyến Nhiệm vụ hệ thống kho liệu Phân tích liệu làm định (decision making) Data Warehouse and Business Intelligence 12 OLTP vs OLAP OLTP Thư lý, chuyên viên CNTT Tác nghiệp hàng ngày Chức Hướng ứng dụng Thiết kế CSDL Hiện thời, cập nhật Dữ liệu chi tiết, quan hệ phẳng biệt lập Lặp Sử dụng Đọc/ghi Truy cập Chỉ mục/băm theo khóa Giao dịch ngắn,đơn giản Đơn vị thao tác # ghi truy cập Chục Nghìn #người dùng Kích thước CSDL 100MB-GB Thơng lượng giao dịch Đơn vị đo Người dùng OLAP Chuyên viên tri thức Hỗ trợ định Hướng chủ đề Lịch sử, tóm tắt, tích hợp đa chiều, hợp Dị tìm (ad-hoc) Nhiều duyệt Câu hỏi phức tạp Triệu Trăm 100GB-TB Thông lượng truy vấn, đáp ứng Data Warehouse and Business Intelligence 2/11/2014 Data mart Hệ thống tập tất liệu yêu cầu phòng ban chuyên biệt công ty (như tiếp thị, hậu cần,…) Được sử dụng để phân tích BI Một kho liệu mức phòng ban (departmental data warehouse) Data warehouses data marts có khung cơng nghệ giống 14 Data Warehouse and Business Intelligence 14 Công cụ ETL ETL: Rút trích (Extraction), Chuyển đổi (Transformation), tải (Loading) Rút trích: Rút trích từ nguồn sẵn có bên Những phiên phụ thuộc thời gian liệu Chọn lựa liệu: Dựa thiết kế DW Chuyển đổi: Chuyển đổi liệu từ hệ thống cũ, định dạng khác thành định dạng KDL Tải: Sắp xếp, tóm tắt, hợp nhất, tính tốn, kiểm tra toàn vẹn, xây dựng mục phân hoạch Data Warehouse and Business Intelligence 15 Các kiến trúc kho liệu 3.1.Kiến trúc lớp khái quát (Generic Two-Level Architecture) 3.2.Data Mart độc lập (Independent Data Mart) 3.3.Data Mart phụ thuộc kho lưu trữ liệu hoạt động (Dependent Data Mart and Operational Data Store) 3.4.Data Mart luận lý KDL tích cực (Logical Data Mart and @ctive Warehouse) 3.5.Kiến trúc liệu lớp (Three-Layer data architecture) Data Warehouse and Business Intelligence 16 2/11/2014 3.1.Kiến trúc lớp khái quát L One, companywide warehouse T E Periodic extraction data is not completely current in warehouse Data Warehouse and Business Intelligence 17 3.2.Data Mart độc lập L T E Separate ETL for each independent data mart Data access complexity due to multiple data marts 18 Data Warehouse and Business Intelligence 18 3.2.Data Mart độc lập (tt) Data mart độc lập: data mart chứa liệu rút trích từ mơi trường hoạt động mà khơng có ảnh hưởng KDL Hạn chế Data mart độc lập: Mỗi data mart cần ETL riêng Các data mart khơng tương thích Khơng thể drill-down Tốn nhiều chi phí có ứng dụng Tốn chi phí để làm data mart tương thích Data Warehouse and Business Intelligence 19 2/11/2014 3.3.Data Mart phụ thuộc kho lưu trữ liệu hoạt động corporate information factory (CIF) L T E Simpler data access Single ETL for enterprise data warehouse (EDW) Dependent data marts loaded from EDW Data Warehouse and Business Intelligence 20 3.3.Data Mart phụ thuộc kho lưu trữ liệu hoạt động (tt) Data mart phụ thuộc: Data mart nạp liệu dành riêng từ KDL doanh nghiệp điều hòa liệu Kho lưu trữ liệu hoạt động (Operational data store - ODS): Một sở liệu có tính tích hợp, hướng chủ đề, cập nhật, giá trị tại, rộng khắp tổ chức, chi tiết thiết kế để dành cho người dùng tác nghiệp họ làm trình hỗ trợ định Kho liệu doanh nghiệp (Enterprise data warehouse (EDW) Data Warehouse and Business Intelligence 21 3.4 Data Mart luận lý KDL tích cực L T E Near real-time ETL for @active Data Warehouse Data Warehouse and Business Intelligence Data marts are NOT separate databases, but logical views of the data warehouse Easier to create new data marts 22 2/11/2014 3.4 Data Mart luận lý KDL tích cực (tt) Logical data mart = relational view Base tables: customer, product, order, orderline Create views: CREATE VIEW invoice AS SELECT customer.customer_ID, customer_addr, order.order_ID, product.product_ID, product.price, order.quantity, product.price*order.quantity FROM customer, order, orderline, product WHERE customer.customer_ID= order.customer_ID, AND order.order_ID= orderline.order_ID, product.product_ID = orderline.product_ID Data Warehouse and Business Intelligence 23 3.4 Data Mart luận lý KDL tích cực (tt) KDL tích cực: Một kho liệu mức tổ chức chứa liệu gần thời gian thực (near-real-time) liệu giao dịch từ hệ thống ghi, phân tích KDL, tiếp nối gần thời gian thực từ qui trình nghiệp vụ đến KDL hệ thống ghi để có hành động trung gian hồi đáp lại kiện kinh doanh Ứng dụng: Dị tìm lỗi Data Warehouse and Business Intelligence 24 3.5 Kiến trúc liệu lớp 25 Data Warehouse and Business Intelligence 25 2/11/2014 3.5 Kiến trúc liệu lớp (tt) Dữ liệu điều hịa (Reconciled data): liệu có tính chi tiết, liệu dự định nguồn đơn nhất, thức cho tất ứng dụng hỗ trợ định Dữ liệu chuyển giao (Derived data): Dữ liệu chọn lựa, định dạng tổng hợp cho ứng dụng hỗ trợ định cho người dùng cuối Siêu liệu (Metadata): liệu kỹ thuật kinh doanh để mơ tả thuộc tính tính chất liệu khác Data Warehouse and Business Intelligence 26 Mơ hình kho liệu 4.1 Từ bảng liệu đến khối liệu 4.2 Mơ hình luận lý KDL 4.3 Ngôn ngữ truy vấn khai phá liệu (DMQL) Data Warehouse and Business Intelligence 27 4.1 Từ bảng liệu đến khối liệu KDL dựa mơ hình liệu đa chiều nhìn liệu hình thức khối liệu Một khối liệu bán hàng, cho phép liệu mơ hình nhìn nhiều chiều Các bảng chiều (Dimension Tables) item (item_name, brand, type), time(day, week, month, quarter, year) Bảng kiện (Fact Table) chứa độ đo (Measure) (như dollars_sold) khóa có liên kết đến bảng chiều Một khối liệu dựa n-D gọi cuboid sở Data Warehouse and Business Intelligence 28 2/11/2014 Cube: Một lưới Cuboids all time time,item item time,location 0-D(apex) cuboid location supplier item,location time,supplier 1-D cuboids location,supplier 2-D cuboids item,supplier time,location,supplier time,item,location 3-D cuboids item,location,supplier time,item,supplier 4-D(base) cuboid time, item, location, supplier Data Warehouse and Business Intelligence 29 4.2 Mơ hình ý niệm KDL Mơ hình kho liệu: Lược đồ hình (Star schema): Một bảng kiện kết nối đến tập bảng chiều Lược đồ hình bơng tuyết (Snowflake schema): Tinh chế lược đồ hình sao, vài chiều có phân cấp chuẩn hóa thành tập bảng chiều nhỏ hơn, có hình ảnh giống bơng tuyết Chòm kiện (Fact constellations): Nhiều bảng kiện chia sẻ bảng chiều Còn gọi lược đồ thiên hà (galaxy schema) Data Warehouse and Business Intelligence 30 Ví dụ lược đồ hình time time_key day day_of_the_week month quarter year item Sales Fact Table time_key item_key branch_key branch branch_key branch_name branch_type location_key units_sold dollars_sold avg_sales item_key item_name brand type supplier_type location location_key street city province_or_street country Measures Data Warehouse and Business Intelligence 31 10 2/11/2014 Ví dụ lược đồ hình bơng tuyết time time_key day day_of_the_week month quarter year item time_key item_key branch_key branch supplier_key supplier_type location location_key branch_key branch_name branch_type supplier item_key item_name brand type supplier_key Sales Fact Table location_key street city_key units_sold dollars_sold city avg_sales city_key city province_or_street country Measures Data Warehouse and Business Intelligence 32 Ví dụ chịm kiện time time_key day day_of_the_week month quarter year item Sales Fact Table time_key Shipping Fact Table item_key item_name brand type supplier_type item_key location_key branch_key branch_name branch_type units_sold dollars_sold avg_sales item_key shipper_key from_location branch_key branch time_key location location_key street city province_or_street country Measures Data Warehouse and Business Intelligence to_location dollars_cost units_shipped shipper shipper_key shipper_name location_key shipper_type 33 4.3 Ngôn ngữ truy vấn khai phá liệu: DMQL Data Mining Query Language: DMQL Định nghĩa khối (Bảng kiện) define cube []: Định nghĩa chiều (Bảng chiều) define dimension as () Special Case (Bảng chiều chia sẻ) First time as “cube definition” define dimension as in cube Data Warehouse and Business Intelligence 34 11 2/11/2014 Định nghĩa lược đồ hình DMQL define cube sales_star [time, item, branch, location]: dollars_sold = sum(sales_in_dollars), avg_sales = avg(sales_in_dollars), units_sold = count(*) define dimension time as (time_key, day, day_of_week, month, quarter, year) define dimension item as (item_key, item_name, brand, type, supplier_type) define dimension branch as (branch_key, branch_name, branch_type) define dimension location as (location_key, street, city, province_or_state, country) Data Warehouse and Business Intelligence 35 Định nghĩa lược đồ tuyết DMQL define cube sales_snowflake [time, item, branch, location]: dollars_sold = sum(sales_in_dollars), avg_sales = avg(sales_in_dollars), units_sold = count(*) define dimension time as (time_key, day, day_of_week, month, quarter, year) define dimension item as (item_key, item_name, brand, type, supplier(supplier_key, supplier_type)) define dimension branch as (branch_key, branch_name, branch_type) define dimension location as (location_key, street, city(city_key, province_or_state, country)) Data Warehouse and Business Intelligence 36 Định nghĩa lược đồ chòm kiện DMQL define cube sales [time, item, branch, location]: dollars_sold = sum(sales_in_dollars), avg_sales = avg(sales_in_dollars), units_sold = count(*) define dimension time as (time_key, day, day_of_week, month, quarter, year) define dimension item as (item_key, item_name, brand, type, supplier_type) define dimension branch as (branch_key, branch_name, branch_type) define dimension location as (location_key, street, city, province_or_state, country) define cube shipping [time, item, shipper, from_location, to_location]: dollar_cost = sum(cost_in_dollars), unit_shipped = count(*) define dimension time as time in cube sales define dimension item as item in cube sales define dimension shipper as (shipper_key, shipper_name, location as location in cube sales, shipper_type) define dimension from_location as location in cube sales define dimension to_location as location in cube sales Data Warehouse and Business Intelligence 37 12 2/11/2014 Các loại giá trị đo Phân phối (distributive): Ví dụ: count(), sum(), min(), max() Đại số (algebraic): Ví dụ: avg(), min_N(), standard_deviation() Tổng thể (holistic): Ví dụ: median(), mode(), rank() Data Warehouse and Business Intelligence 38 Sự phân cấp mức ý niệm: Chiều (location) all all Europe region country city Germany Frankfurt Spain Canada Vancouver L Chan office North_America Mexico Toronto M Wind Data Warehouse and Business Intelligence 39 Dữ liệu đa chiều Sales volume as a function of product, month, and region Dimensions: Product, Location, Time Hierarchical summarization paths Defined by concept hierarchies Industry Region Year Product Category Country Quarter Product City Office Month Week Day Month Data Warehouse and Business Intelligence 40 13 2/11/2014 Một khối liệu mẫu Date 2Qtr 3Qtr 4Qtr sum Total annual sales of TV in U.S.A U.S.A Canada Mexico Country TV PC VCR sum 1Qtr sum Data Warehouse and Business Intelligence 41 Các Cuboids tương ứng đến Cube all 0-D(apex) cuboid product product,date date country product,country 1-D cuboids date, country 2-D cuboids 3-D(base) cuboid product, date, country Data Warehouse and Business Intelligence 42 Các tác vụ OLAP điển hình Roll up (drill-up) Drill down (roll down) Slice dice Pivot (rotate) Các tác vụ khác: drill across drill through Data Warehouse and Business Intelligence 43 14 2/11/2014 Slicing Data Warehouse and Business Intelligence 44 Drill-down Data Warehouse and Business Intelligence 45 visualization Data Warehouse and Business Intelligence 46 15 2/11/2014 Mơ hình truy vấn mạng hình (Star-Net) Customer Orders Shipping Method Customer CONTRACTS AIR-EXPRESS ORDER TRUCK Time ANNUALY QTRLY DAILY PRODUCT LINE Product PRODUCT ITEM PRODUCT GROUP CITY SALES PERSON COUNTRY DISTRICT REGION Location Each circle is called a footprint DIVISION Promotion Organization Data Warehouse and Business Intelligence 47 Giới thiệu Kinh doanh thông minh 5.1 Kinh doanh thông minh (BI) ? 5.2 Sự tiến hóa công nghệ BI 5.3 Việc định 5.4 Hiệu hệ thống BI Data Warehouse and Business Intelligence 48 5.1 Kinh doanh thơng minh (BI) ? “Một tập mơ hình tốn phương pháp luận phân tích để khai thác liệu có sẵn nhằm tạo thơng tin tri thức có ích cho trình định phức tạp” Data Warehouse and Business Intelligence 49 16 2/11/2014 5.2 Sự tiến hóa công nghệ BI Data Warehouse and Business Intelligence 50 5.3 Việc định Yêu cầu: Hiệu (Effective) Thõa mãn thời gian (Timely) Quyết định dựa trên: Miền tri thức Kinh nghiệm Thơng tin sẵn có Trong thời đại ngày nay: Môi trường thay đổi nhanh thường xun Có tính động phức tạp Những quan điểm nghiêm ngặt dựa phương pháp luận phân tích mơ hình tốn học Data Warehouse and Business Intelligence 51 Một số ví dụ Ví dụ 1.1 – Mức độ trung thành khách hàng lĩnh vực di động Mức độ trung thành thấp khách hàng đâu ? • … • … • … Mục đích chiến dịch tiếp thị: Chọn khách hàng để giảm ngân sách Ví dụ 1.2: Hoạch định Logistic Phát triển kế hoạch hậu cần trung hạn Data Warehouse and Business Intelligence 52 17 2/11/2014 5.3 Hiệu hệ thống kinh doanh thông minh Data Warehouse and Business Intelligence 53 Dữ liệu, thông tin tri thức Dữ liệu Thông tin Tri thức Data Warehouse and Business Intelligence 54 Quản lí tri thức Cơ cấu có tính hình thức hệ thống để thu thập, lữu trữ chia sẻ hiểu biết họ tri thức Tri thức tài sản vơ hình vơ giá Cung cấp hỗ trợ cho công nhân tri thức (knowledge workers) thơng qua việc tích hợp q trình định công nghệ thông tin Data Warehouse and Business Intelligence 55 18 2/11/2014 Quản lí tri thức vs BI Quản lí tri thức: tập trung vào nghiên cứu thơng tin thường khơng có cấu trúc, ẩn, chứa đựng hầu hết tài liệu, đối thoại kinh nghiệm khứ BI: dựa thông tin có cấu trúc, thường có tính định lượng tổ chức sở liệu Data Warehouse and Business Intelligence 56 Vai trị mơ hình tốn BI: cung cấp thơng tin tri thức thông qua việc ứng dụng giải thuật mô hình tốn BI: đẩy mạnh cách tiếp cận mang tính khoa học có lý trí việc quản lí Data Warehouse and Business Intelligence 57 Phân tích BI điển hình Xác định mục tiêu tiêu hiệu suất Phát triển mô hình tốn để khai thác quan hệ biến, tham số kiểm soát hệ thống tham số ước lượng Đưa phân tích what-if để đánh giá hiệu thực thi Data Warehouse and Business Intelligence 58 19 2/11/2014 Kiến trúc BI Kiến trúc BI điển hình Data Warehouse and Business Intelligence 59 Kiến trúc BI (tt) Data Warehouse and Business Intelligence 60 Kiến trúc BI (tt) Các nguồn liệu (Data sources) Kho liệu data marts Các phương pháp luận BI Khám phá liệu (Data exploration) Khai phá liệu Data mining Tối ưu hóa Các định Data Warehouse and Business Intelligence 61 20 2/11/2014 Vai trò BI việc định BI tổ chức Data Warehouse and Business Intelligence 62 Phát triển hệ thống BI Data Warehouse and Business Intelligence 63 Phát triển hệ thống BI (tt) Data Warehouse and Business Intelligence 64 21 2/11/2014 Các phương pháp luận dùng hệ thống BI Data Warehouse and Business Intelligence 65 22 ... thiệu Kinh doanh thông minh 5.1 Kinh doanh thơng minh (BI) ? 5.2 Sự tiến hóa cơng nghệ BI 5.3 Việc định 5.4 Hiệu hệ thống BI Data Warehouse and Business Intelligence 48 5.1 Kinh doanh thông minh. .. Intelligence 52 17 2/11/2014 5.3 Hiệu hệ thống kinh doanh thông minh Data Warehouse and Business Intelligence 53 Dữ liệu, thông tin tri thức Dữ liệu Thông tin Tri thức Data Warehouse and Business... thuộc kho lưu trữ liệu hoạt động (tt) Data mart phụ thuộc: Data mart nạp liệu dành riêng từ KDL doanh nghiệp điều hòa liệu Kho lưu trữ liệu hoạt động (Operational data store - ODS): Một sở liệu