Slide kho dữ liệu và khai phá dữ liệu chương 3 công nghệ kho dữ liệu và phân tích trực tuyến

30 34 0
Slide kho dữ liệu và khai phá dữ liệu chương 3 công nghệ kho dữ liệu và phân tích trực tuyến

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

.c om an co ng Chương 3: u du o ng th CÔNG NGHỆ KHO DỮ LIỆU VÀ cu PHÂN TÍCH TRỰC TUYẾN CuuDuongThanCong.com https://fb.com/tailieudientucntt .c om Nội dung co Mơ hình liệu đa chiều ng Khái niệm kho liệu an Kiến trúc kho liệu ng th Cài đặt kho liệu Xử lý phân tích trực tuyến du o Liên hệ công nghệ kho liệu với khai phá liệu cu định u Xây dựng kho liệu với mục đích hỗ trợ CuuDuongThanCong.com https://fb.com/tailieudientucntt .c om Cài đặt kho liệu Xử lý phân tích trực tuyến cu u du o ng th an co ng  Xử lý phân tích trực tuyến (On-line Transaction Processing – OLAP):  Làm việc với liệu biến đổi  Sử dụng bảng chiều (dimension table) bảng kiện (fact table) tạo khối (cube) cho liệu nhằm thể đa chiều cho liệu  Hỗ trợ người dùng phân tích liệu qua việc cắt lát (slice) liệu theo khía cạnh khác nhau:  Khoan xuống (drill down): khai thác chi tiết liệu  Cuộn lên (drill up): khai thác liệu qua việc tổng hợp từ mức thấp lên mức cao CuuDuongThanCong.com https://fb.com/tailieudientucntt .c om Cài đặt kho liệu Xử lý phân tích trực tuyến cu u du o ng th an co ng  Xử lý phân tích trực tuyến (On-line Transaction Processing – OLAP): CuuDuongThanCong.com https://fb.com/tailieudientucntt .c om Cài đặt kho liệu Xử lý phân tích trực tuyến ng  Xử lý phân tích trực tuyến (On-line Transaction Processing – OLAP): th an co  Ngôn ngữ truy vấn kkhai phá liệu (Data Mining Query Language – DMQL – Các hàm nguyên thủy): cu u du o ng  define cube []:  Define dimension as in cube CuuDuongThanCong.com https://fb.com/tailieudientucntt .c om Cài đặt kho liệu Xử lý phân tích trực tuyến ng  Xử lý phân tích trực tuyến (On-line Transaction Processing – OLAP): th an co  Ngôn ngữ truy vấn kkhai phá liệu (Data Mining Query Language – DMQL – Các hàm nguyên thủy): du o ng  Thuộc tính độ đo: Là hàm tính tốn liệu tích hợp lại dựa cặp giá trị theo chiều cho trước Có loại sau: cu u  Phân phối: count(); sum(); min(), max()  Đại số: avg() = sum()/count(), min_N(), standard_deviation()  Khác: median(), mode(), rank() CuuDuongThanCong.com https://fb.com/tailieudientucntt .c om Cài đặt kho liệu Xử lý phân tích trực tuyến ng  Xử lý phân tích trực tuyến (On-line Transaction Processing – OLAP): cu u du o ng th an co  Ngôn ngữ truy vấn kkhai phá liệu (Data Mining Query Language – DMQL – Các hàm nguyên thủy):  Ví dụ: define cube sales [time, item, branch, location]: dollars sold = sum(sales in dollars), units sold = count(*) define dimension time as (time key, day, day of week, month, quarter, year) define dimension item as (item key, item name, brand, type, supplier type) define dimension branch as (branch key, branch name, branch type) define dimension location as (location key, street, city, province or state, country) CuuDuongThanCong.com https://fb.com/tailieudientucntt .c om Cài đặt kho liệu Xử lý phân tích trực tuyến cu u du o ng th an co ng  Xử lý phân tích trực tuyến (On-line Transaction Processing – OLAP): CuuDuongThanCong.com https://fb.com/tailieudientucntt .c om Cài đặt kho liệu Xử lý phân tích trực tuyến du o ng th an co ng  Xử lý phân tích trực tuyến (On-line Transaction Processing – OLAP):  OLTP (Online Transaction Processing) – xử lý giao tác trực tuyến:  Hệ thống có nhiều người dùng đồng thời, thao tác (thêm, xóa, sửa) liệu  Thường dùng cho mục đích thu thập liệu  Các vấn đề phát sinh: cu u − Dữ liệu lớn, chi phí thời gian cao, − Vấn đề phân quyền, − Sự phức tạp CSDL quan hệ người phân tích  Khắc phục phức tạp: tạo để phân tích CuuDuongThanCong.com https://fb.com/tailieudientucntt .c om Cài đặt kho liệu Xử lý phân tích trực tuyến cu u du o ng th an co ng  Các kiến trúc máy chủ cho việc xử lý phân tích trực tuyến:  OLAP quan hệ (Relation OLAP – ROLAP):  Dùng hệ quản trị CSDL quan hệ quan hệ mở rộng để lưu trữ quản lý kho liệu  Bao gồm tối ưu hóa công việc tảng CSDL công cụ phụ trợ bổ sung dịch vụ  Có khả mở rộng thêm  Dung lượng Cube giới hạn dung lượng 10 sở liệu quan hệ CuuDuongThanCong.com https://fb.com/tailieudientucntt .c om Liên hệ công nghệ kho liệu với khai phá liệu co ng  Từ xử lý phân tích trực tuyến (OLAP) tới khai phá phân tích trực tuyến (OLAM – Online Analytical Mining) – Do yếu tố: cu u du o ng th an  Dữ liệu kho liệu loại liệu có chất lượng cao, làm sạch, đồng tích hợp  Các cấu trúc xử lý thơng tin sẵn có xung quanh kho liệu ODBC (kết nối liệu), OLEDB (nhúng sở liệu), truy nhập Web, dịch vụ tiện tích, cơng cụ OLAP báo cáo  Phân tích liệu thăm dị dựa OLAP: khai phá với phép toán khoan sâu, cắt lát, xoay, v.v…  Lựa chọn trực tuyến chức khai phá liệu: tích hợp hoán đổi nhiều chức khai thác khác 16 nhau, thuật toán nhiệm vụ khác CuuDuongThanCong.com https://fb.com/tailieudientucntt .c om Xây dựng kho liệu với mục đích hỗ trợ định cu u du o ng th an co ng  Các giai đoạn xây dựng: Lập kế hoạch Thu thập yêu cầu liệu mơ hình hóa Thiết kế Phát triển sở liệu vật lý Dữ liệu đồ biến đổi Khai thác liệu tải Tự động hoá việc Quy trình quản lý liệu Phát triển ứng dụng - Tạo tập khởi đầu báo cáo Xác Nhận kiểm tra liệu Đào tạo 10.Triển khai CuuDuongThanCong.com https://fb.com/tailieudientucntt 17 .c om Xây dựng kho liệu với mục đích hỗ trợ định cu u du o ng th an co ng Lập kế hoạch − Xác định phạm vi dự án − Tạo kế hoạch dự án − Xác định nguồn lực cần thiết, − Xác định nhiệm vụ sản phẩm phân phối − Xác định thời hạn dự án − Xác định sản phẩm phân phối cuối dự án CuuDuongThanCong.com https://fb.com/tailieudientucntt 18 .c om Xây dựng kho liệu với mục đích hỗ trợ định ng Lập kế hoạch (tt)  Lập kế hoạch hiệu dự án: cu u du o ng th an co  Tính tốn kích cỡ ghi cho bảng  Ước tính số lượng ghi ban đầu cho bảng  Xem lại yêu cầu truy cập kho liệu để dự đoán yêu cầu tập mục  Xác định yếu tố tăng trưởng cho bảng  Xác định bảng mục tiêu lớn dự kiến giai đoạn thời gian lựa chọn thêm khoảng 25-30% dự trù tới kích thước bảng để xác định kích thước lưu trữ tạm thời CuuDuongThanCong.com https://fb.com/tailieudientucntt 19 .c om Xây dựng kho liệu với mục đích hỗ trợ định ng Thu thập u cầu liệu mơ hình hóa:  Các câu hỏi cần trả lời: cu u du o ng th an co  Người sử dụng thực công việc nghiệp vụ nào?  Hiệu suất người dùng đo nào?  Những thuộc tính người sử dụng cần?  Các phân cấp nghiệp vụ kinh doanh hệ thống gì?  Những liệu người dùng sử dụng họ muốn có liệu tương lai?  Người dùng cần liệu tổng hợp hay chi tiết mức độ nào? CuuDuongThanCong.com https://fb.com/tailieudientucntt 20 .c om Xây dựng kho liệu với mục đích hỗ trợ định ng Thu thập u cầu liệu mơ hình hóa:  Các dạng mơ hình hóa: cu u du o ng th an co  Mơ hình liệu logic bao phủ phạm vi dự án phát triển bao gồm: − Các mối quan hệ, − Loại liên kết quan hệ, − Các thuộc tính, − Các khóa ứng viên (candidate keys)  Mơ hình nghiệp vụ nhiều chiều thể qua bảng Fact, chiều, phân cấp, mối quan hệ khóa ứng cử viên cho phạm vi phát triển dự án CuuDuongThanCong.com https://fb.com/tailieudientucntt 21 .c om Xây dựng kho liệu với mục đích hỗ trợ định cu u du o ng th an co ng Thiết kế Phát triển sở liệu vật lý:  Thiết kế sở liệu, bao gồm bảng Fact, bảng quan hệ, bảng mô tả (dùng cho việc tra cứu)  Phi chuẩn liệu,  Xác định khóa,  Tạo chiến lược lập mục,  Tạo đối tượng sở liệu thích hợp CuuDuongThanCong.com https://fb.com/tailieudientucntt 22 .c om Xây dựng kho liệu với mục đích hỗ trợ định cu u du o ng th an co ng Ánh xạ chuyển đổi liệu:  Xác định hệ thống nguồn  Xác định cách bố trí tập tin  Phát triển yêu cầu chi tiết kỹ thuật chuyển đổi văn cho biến đổi phức tạp  Ánh xạ nguồn tới liệu đích  Xem xét lại kế hoạch hiệu CuuDuongThanCong.com https://fb.com/tailieudientucntt 23 .c om Xây dựng kho liệu với mục đích hỗ trợ định cu u du o ng th an co ng Hình thành kho liệu:  Phát triển thủ tục để trích xuất di chuyển liệu vào kho  Phát triển thủ tục để nạp liệu vào kho  Phát triển chương trình phần mềm dùng công cụ chuyển đổi liệu để chuyển đổi tích hợp liệu  Kiểm thử việc trích xuất, chuyển đổi thủ tục tải liệu CuuDuongThanCong.com https://fb.com/tailieudientucntt 24 .c om Xây dựng kho liệu với mục đích hỗ trợ định cu u du o ng th an co ng Thủ tục quản lý liệu tự động:  Tự động hố lập lịch cho q trình tải liệu  Tạo lưu liệu thủ tục phục hồi  Tiến hành thử nghiệm đầy đủ tất thủ tục tự động CuuDuongThanCong.com https://fb.com/tailieudientucntt 25 .c om Xây dựng kho liệu với mục đích hỗ trợ định cu u du o ng th an co ng Phát triển ứng dụng – Tạo tập khởi đầu cho báo cáo:  Tạo tập khởi đầu cho báo cáo định trước  Phát triển báo cáo quan trọng  Kiểm thử tính đắn báo cáo  Viết tài liệu cho ứng dụng  Phát triển đường dẫn để điều hướng CuuDuongThanCong.com https://fb.com/tailieudientucntt 26 .c om Xây dựng kho liệu với mục đích hỗ trợ định cu u du o ng th an co ng Xác nhận kiểm thử liệu:  Xác nhận liệu cách sử dụng tập khởi đầu cho báo cáo  Xác nhận liệu cách sử dụng quy trình chuẩn  Lặp lặp lại thay đổi liệu CuuDuongThanCong.com https://fb.com/tailieudientucntt 27 .c om Xây dựng kho liệu với mục đích hỗ trợ định cu u du o ng th an co ng Đào tạo: Để khai thác hiệu quả, người dùng cần đào tạo về:  Phạm vi liệu kho  Công cụ truy nhập đầu cuối cách thức hoạt động  Việc ứng dụng DDS tập khởi tạo báo cáo bao gồm khả ứng dụng đuờng dẫn chuyển hướng  Liên tục đào tạo hỗ trợ người sử dụng hệ 28 thống thay đổi CuuDuongThanCong.com https://fb.com/tailieudientucntt .c om Xây dựng kho liệu với mục đích hỗ trợ định cu u du o ng th an co ng 10.Triển khai:  Cài đặt sở hạ tầng vật lý cho tất người dùng  Phát triển ứng dụng DDS  Tạo thủ tục cho việc thêm báo cáo mở rộng việc áp dụng Hệ hỗ trợ định (DSS)  Thiết lập thủ tục để lưu ứng dụng DSS, kho liệu  Tạo thủ tục điều tra giải vấn đề liên quan tới toàn vẹn liệu CuuDuongThanCong.com https://fb.com/tailieudientucntt 29 .c om Xây dựng kho liệu với mục đích hỗ trợ định cu u du o ng th an co ng  Thiết kế sở liệu  Lược đồ hình sao:  Dễ hiểu người phân tích người dùng cuối  Truy vấn nhanh  Bảng Fact: Chứa liệu thực tế định lượng doanh nghiệp Bảng liệu lớn  Bảng theo chiều: Chứa liệu mô tả yếu tố ảnh hưởng tới doanh nghiệp  Lược đồ tuyết CuuDuongThanCong.com https://fb.com/tailieudientucntt 30 ... hình liệu đa chiều ng Khái niệm kho liệu an Kiến trúc kho liệu ng th Cài đặt kho liệu Xử lý phân tích trực tuyến du o Liên hệ cơng nghệ kho liệu với khai phá liệu cu định u Xây dựng kho liệu. .. liệu co ng  Từ xử lý phân tích trực tuyến (OLAP) tới khai phá phân tích trực tuyến (OLAM – Online Analytical Mining) – Do yếu tố: cu u du o ng th an  Dữ liệu kho liệu loại liệu có chất lượng cao,... https://fb.com/tailieudientucntt .c om Cài đặt kho liệu Xử lý phân tích trực tuyến ng  Xử lý phân tích trực tuyến (On-line Transaction Processing – OLAP): cu u du o ng th an co  Ngôn ngữ truy vấn kkhai phá liệu (Data Mining

Ngày đăng: 18/09/2021, 17:27

Từ khóa liên quan

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan