chương 3 môn kho dữ liệu về khai phá dữ liệu

129 634 7
chương 3 môn kho dữ liệu về khai phá dữ liệu

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

chương 3 môn kho dữ liệu về khai phá dữ liệu: giới thiệu chung về kho dữ liệu

March 14, 2013 Kho dữ liệukhai phá dữ liệu: Chương 3 1 Bài giảng môn học KHO DỮ LIỆUKHAI PHÁ DỮ LIỆU Chương 3: Giới thiệu chung về Kho dữ liệu Tài liệu này sử dụng một phần Bài giảng ”Data Mining: Concepts and Techniques” — Slides for Textbook — ©Jiawei Han and Micheline Kamber Department of Computer Science University of Illinois at Urbana-Champaign www.cs.uiuc.edu/~hanj March 14, 2013 Kho dữ liệukhai phá dữ liệu: Chương 3 2 Nội dung  Khái niệm kho dữ liệu  Mô hình dữ liệu đa chiều  Kiến trúc kho dữ liệu  Thi hành kho dữ liệu  Từ xây dựng kho dữ liệu tới KPDL  Sự phát triển mới của công nghệ khối dữ liệu March 14, 2013 Kho dữ liệukhai phá dữ liệu: Chương 2 3 Khái niệm kho dữ liệuKho dữ liệu (KDL) được định nghĩa theo nhiều cách song không nghiêm ngặt (chính xác).  CSDL hỗ trợ quyết định được duy trì tách biệt với CSDL tác nghiệp của tổ chức.  Hỗ trợ xử lý thông tin nhờ cung cấp một nền tảng vững chắc dữ liệu hợp nhất, lịch sử để phân tích.  “KDL là một tập hợp dữ liệu hướng chủ đề , tích hợp , có tính thời gian và không thay đổi để hỗ trợ quá trình tạo quyết định quản lý.”—W. H. Inmon [Inm02]  Bốn “đặc trưng”: hướng chủ đề , tích hợp , có tính thời gian và không thay đổi [Inm02] W. H. Inmon (2002). Building the Data Warehouse (Third Edition) . John Wiley & Sons, Inc. March 14, 2013 Kho dữ liệukhai phá dữ liệu: Chương 2 4 Kho dữ liệu: khái niệm  Kho dữ liệu là một môi trường thông tin [Pon01]:  Cung cấp một khung nhìn tích hợp và tổng thể về doanh nghiệp  Tạo sự sẵn có thông tin hiện tại và lịch sử của doanh nghiệp để thuận lợi ra quyết định  Tạo khả năng giao dịch hỗ trợ quyết định mà không cản trở hệ thống tác nghiệp  Cung cấp tính nhất quán thông tin doanh nghiệp  Trình diễn nguồn thông tin chiến lược linh hoạt và tương tác được Bổ sung đặc trưng thứ năm là “kết hạt dữ liệu - Data Granularity” [Pon01] Paulraj Ponniah, Data warehousing fundamentals , John Wiley & Sons Inc., 2001 March 14, 2013 Kho dữ liệukhai phá dữ liệu: Chương 2 5 Kiến trúc kho dữ liệu: sơ bộ [Ora02] Oracle9 i. Data Warehousing Guide, Release 2 (9.2), March 2002, Part No. A96520-01 March 14, 2013 Kho dữ liệukhai phá dữ liệu: Chương 2 6 Tạo kho dữ liệu – Data warehousing Xây dựng KDL (“KDL hóa”): Quá trình xây dựng và sử dụng KDL March 14, 2013 Kho dữ liệukhai phá dữ liệu: Chương 2 7 KDL — đặc trưng hướng chủ đề  Được tổ chức xung quanh các chủ đề chính, chẳng hạn như khách hàng , sản phẩm , bán hàng .  Tập trung vào xây dựng mô hình và phân tích dữ liệu để tạo quyết định ; không phái quá trình tác nghiệp hoặc giao dịch hàng này.  Cung cấp một khung nhìn đơn giản và ngắn gọn về các đề tài thuộc chủ đề cụ thể nhờ loại bỏ các dữ liệu vô dụng trong quá trình ra quyết định. March 14, 2013 Kho dữ liệukhai phá dữ liệu: Chương 2 8 Ứng dụng tác nghiệp chủ đề KDL KDL — đặc trưng hướng chủ đề March 14, 2013 Kho dữ liệukhai phá dữ liệu: Chương 2 9 KDL - đặc trưng tích hợp  KDL đươc xây dựng từ việc tích hợp các nguồn dữ liệu phức, không đồng nhất  CSDL quan hệ, CSDL file phẳng (flat files: mã hóa CSDL sang dạng đặc biệt như .txt hoặc .ini), các bản ghi giao dịch trực tuyến  Sử dụng các kỹ thuật làm sạch dữ liệu và tích hợp dữ liệu.  Đảm bảo tính nhất quán quy ước đặt tên, cấu trúc mã hóa, đo lường thuộc tính, … giữa các nguồn dữ liệu khác nhau  VD, giá khách sạn: tiền tệ, thuế, bao gói ăn sáng…  Dữ liệu chuyển tới KDL thì nó được chuyển đổi. March 14, 2013 Kho dữ liệukhai phá dữ liệu: Chương 2 10 KDL - đặc trưng tích hợp [...]... time, item, location, supplier March 14, 20 13 Kho dữ liệu và khai phá dữ liệu: Chương 2 23 Chương 3: Cơ sở về kho dữ liệuKhái niệm kho dữ liệu  Mô hình dữ liệu đa chiều  Kiến trúc kho dữ liệu  Thi hành kho dữ liệu  Từ xây dựng kho dữ liệu tới KPDL  Sự phát triển mới của công nghệ khối dữ liệu March 14, 20 13 Kho dữ liệukhai phá dữ liệu: Chương 3 24 Mô hình khái niệm của KDL  Mô hình KDL:... nhất dữ liệu: Hỗ trợ quyết định đòi hỏi hợp nhất (tổng hợp, tóm tắt) của dữ liệu từ các nguồn không đồng nhất Chất lượng dữ liệu: nguồn khác nhau sử dụng trình diễn, mã hóa và khuôn dạng dữ liệu không nhất quán (cần phải hòa hợp) Kho dữ liệukhai phá dữ liệu: Chương 2 20 Kho dữ liệu riêng biệt March 14, 20 13 Kho dữ liệukhai phá dữ liệu: Chương 2 21 Từ các bảng và bảng tính tới khối dữ liệu ... của dữ liệu tác nghiệp có thể chứa hoặc không chứa “yếu tố thời gian” March 14, 20 13 Kho dữ liệu và khai phá dữ liệu: Chương 2 13 KDL - đặc trưng thời gian •Chiều thời gian hiện thời tới 6090 ngày •Cập nhật hồ sơ •Cấu trúc chính chứa / không chứa yếu tố thời gian March 14, 20 13 •Chiều thời gian 5=10 năm •Anbum ảnh chụp dữ liệu •Cấu trúc chính chứa yếu tố thời gian Kho dữ liệukhai phá dữ liệu: Chương. ..KDL: các vấn đề tích hợp March 14, 20 13 Kho dữ liệu và khai phá dữ liệu: Chương 2 11 KDL: chủ đề - tích hợp March 14, 20 13 Kho dữ liệu và khai phá dữ liệu: Chương 2 12 KDL - đặc trưng thời gian  Chiều thời gian đối với KDL là đáng kể dài hơn so với hệ thống CSDL tác nghiệp    CSDL tác nghiệp: dữ liệu giá trị hiện thời Dữ liệu KDL: cung cấp thông tin theo “quan điểm” lịch sử (chẳng... < inexpensive March 14, 20 13 Kho dữ liệukhai phá dữ liệu: Chương 2 35 Dữ liệu đa chiều Khối lượng bán hàng là một hàm của sản phẩm, tháng, và quận Các chiều: SP, Địa danh, Thời gian Các đường tóm tắt phân cấp Re gi on  Industry Region Year Product Category Country Quarter Product City Office Month Week Day Month March 14, 20 13 Kho dữ liệukhai phá dữ liệu: Chương 2 36 ... trữ để mô tả một tập hợp con  March 14, 20 13 Chẳng hạn, median(), mode(), rank() Kho dữ liệukhai phá dữ liệu: Chương 2 33 Một kiến trúc khái niệm: chiều (địa danh) all all Europe region country city office March 14, 20 13 Germany Frankfurt Spain North_America Canada Vancouver L Chan Kho dữ liệu và khai phá dữ liệu: Chương 2 Mexico Toronto M Wind 34 Khung nhìn của các KDL và các kiến trúc... trữ vật lý riêng biệt các dữ liệu được chuyển từ môi trường tác nghiệp sang  Cập nhật tác nghiệp dữ liệu không xuất hiện trong môi trường KDL  Không có xử lý giao dịch, phục hồi và cơ chế điều khiển đồng thời  Chí có hai thao tác truy nhập dữ liệu:  Tải ban đầu dữ liệu và truy cập dữ liệu Dữ liệu nguồn không biến đổi trong KDL March 14, 20 13 Kho dữ liệukhai phá dữ liệu: Chương 2 15 KDL - đặc trưng... March 14, 20 13 Kho dữ liệukhai phá dữ liệu: Chương 2 19 Kho dữ liệu riêng biệt  Hiệu năng cao cho cả hai hệ thống    DBMS— phân bổ cho OLTP: phương pháp truy cập, lập chỉ mục, điều khiển đồng thời, khôi phục Warehouse—phân bổ cho OLAP: truy vấn OLAP phức, khung nhìn đa chiều, hợp nhất Chức năng khác nhau và dữ liệu khác nhau:    March 14, 20 13 Thiếu dữ liệu: Hỗ trợ quyết định cần dữ liệu lịch... country Measures March 14, 20 13 Kho dữ liệukhai phá dữ liệu: Chương 2 26 Ví dụ về sơ đồ bông tuyết time time_key day day_of_the_week month quarter year item Sales Fact Table time_key item_key branch_key branch location_key branch_key branch_name branch_type units_sold dollars_sold avg_sales Measures March 14, 20 13 Kho dữ liệukhai phá dữ liệu: Chương 2 item_key item_name brand type supplier_key... 20 13 Kho dữ liệukhai phá dữ liệu: Chương 2 25 Ví dụ về sơ đồ hình sao time item time_key day day_of_the_week month quarter year Sales Fact Table time_key item_key branch_key branch location_key branch_key branch_name branch_type units_sold dollars_sold avg_sales item_key item_name brand type supplier_type location location_key street city state_or_province country Measures March 14, 20 13 Kho dữ liệu . 14, 20 13 Kho dữ liệu và khai phá dữ liệu: Chương 3 1 Bài giảng môn học KHO DỮ LIỆU VÀ KHAI PHÁ DỮ LIỆU Chương 3: Giới thiệu chung về Kho dữ liệu Tài liệu. 20 13 Kho dữ liệu và khai phá dữ liệu: Chương 3 2 Nội dung  Khái niệm kho dữ liệu  Mô hình dữ liệu đa chiều  Kiến trúc kho dữ liệu  Thi hành kho dữ liệu

Ngày đăng: 14/03/2013, 11:35

Hình ảnh liên quan

Mô hình khái niệm của KDL - chương 3 môn kho dữ liệu về khai phá dữ liệu

h.

ình khái niệm của KDL Xem tại trang 25 của tài liệu.
Ví dụ về sơ đồ hình sao     time_key day day_of_the_week month quarter yeartime location_key street city state_or_province countrylocationSales Fact Table - chương 3 môn kho dữ liệu về khai phá dữ liệu

d.

ụ về sơ đồ hình sao time_key day day_of_the_week month quarter yeartime location_key street city state_or_province countrylocationSales Fact Table Xem tại trang 26 của tài liệu.
Xác định sơ đồ hình sao trong DMQL - chương 3 môn kho dữ liệu về khai phá dữ liệu

c.

định sơ đồ hình sao trong DMQL Xem tại trang 30 của tài liệu.
Mô hình truy vấn mạng ngôi sao Shipping Method AIR-EXPRESS TRUCKORDERCustomer OrdersCONTRACTS Customer Product PRODUCT GROUPPRODUCT LINEPRODUCT ITEM SALES PERSON DISTRICT DIVISIONCITYCOUNTRYREGIONDAILYQTRLYANNUALYTime - chương 3 môn kho dữ liệu về khai phá dữ liệu

h.

ình truy vấn mạng ngôi sao Shipping Method AIR-EXPRESS TRUCKORDERCustomer OrdersCONTRACTS Customer Product PRODUCT GROUPPRODUCT LINEPRODUCT ITEM SALES PERSON DISTRICT DIVISIONCITYCOUNTRYREGIONDAILYQTRLYANNUALYTime Xem tại trang 41 của tài liệu.
Ba mô hình KDL - chương 3 môn kho dữ liệu về khai phá dữ liệu

a.

mô hình KDL Xem tại trang 48 của tài liệu.
Làm mịn mô hìnhLàm mịn mô hình - chương 3 môn kho dữ liệu về khai phá dữ liệu

m.

mịn mô hìnhLàm mịn mô hình Xem tại trang 49 của tài liệu.
Mô hình dữ liệu đa chiều (2) - chương 3 môn kho dữ liệu về khai phá dữ liệu

h.

ình dữ liệu đa chiều (2) Xem tại trang 52 của tài liệu.
 dữ liệu được chuyển thành mô hình đa chiều - chương 3 môn kho dữ liệu về khai phá dữ liệu

d.

ữ liệu được chuyển thành mô hình đa chiều Xem tại trang 53 của tài liệu.
XỬ LÝ PHÂN TÍCH TRỰC TUYẾN - chương 3 môn kho dữ liệu về khai phá dữ liệu
XỬ LÝ PHÂN TÍCH TRỰC TUYẾN Xem tại trang 54 của tài liệu.
Hình vẽ: đồ thị thành viên là một cấu trúc cây. Trường hợp đặc biệt:  các  tầng  có  thứ  tự  thẳng  hàng  nhau  do  quan  hệ  với  bên  trên. - chương 3 môn kho dữ liệu về khai phá dữ liệu

Hình v.

ẽ: đồ thị thành viên là một cấu trúc cây. Trường hợp đặc biệt: các tầng có thứ tự thẳng hàng nhau do quan hệ với bên trên Xem tại trang 59 của tài liệu.
TRUY VẤN ĐIỂN HÌNH - chương 3 môn kho dữ liệu về khai phá dữ liệu
TRUY VẤN ĐIỂN HÌNH Xem tại trang 62 của tài liệu.
TRUY VẤN ĐIỂN HÌNH (3) - chương 3 môn kho dữ liệu về khai phá dữ liệu

3.

Xem tại trang 64 của tài liệu.
 Bảng fn chiều: - chương 3 môn kho dữ liệu về khai phá dữ liệu

Bảng fn.

chiều: Xem tại trang 69 của tài liệu.

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan