Bài giảng Kho dữ liệu và khai phá dữ liệu: Chương 1 - Nguyễn Ngọc Duy

30 19 0
Bài giảng Kho dữ liệu và khai phá dữ liệu: Chương 1 - Nguyễn Ngọc Duy

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Bài giảng Kho dữ liệu và khai phá dữ liệu: Chương 1 trình bày một số khái niệm cơ bản về khai phá dữ liệu, các loại dữ liệu và kiểu mẫu dùng để khai phá, các bài toán và phương pháp cơ bản trong khai phá dữ liệu, sự tích hợp của khai phá dữ liệu, ứng dựng của kho dữ liệu và khai phá dữ liệu.

Chương KHÁI NIỆM CHUNG VỀ KHO DỮ LIỆU VÀ KHAI PHÁ DỮ LIỆU 1 Nội dung Khái niệm kho liệu Khái niệm khai phá liệu Các loại liệu kiểu mẫu dùng để khai phá Các toán phương pháp khai phá liệu Sự tích hợp khai phá liệu với sở liệu với kho liệu Ứng dụng kho liệu khai phá liệu Khái niệm kho liệu  Kho liệu (Data warehouse) kho lưu trữ liệu lưu trữ thiết bị điện tử tổ chức,  Các kho liệu thiết kế để hỗ trợ việc phân tích liệu lập báo cáo  Kho liệu có đặc điểm:  Tích hợp (Atomicity): Từ nhiều nguồn khác nhau,  Theo chủ đề (Consistency): Có ích để khai thác,  Biến thời gian (Isolation): Dữ liệu không bị ảnh hưởng tác động lẫn truy suất,  Cố định (Durable): hồn chỉnh khơng đổi Khái niệm kho liệu  Kho liệu dung cho mục đích riêng biệt, lĩnh vực hẹp gọi Data Mart  Một Data warehouse hình thành nhiều Data Mart  Thuật ngữ Data Warehousing: Quá trình xây dựng sử dụng kho liệu Khái niệm kho liệu  Công cụ ETL (Extract – Transform – Load):   Rút trích (Extract):  Rút trích thơng tin từ nguồn có,  Những phiên phụ thuộc thời gian liệu,  Chọn lựa liệu Chuyển đổi (Transform):  Chuyển đổi định dạng khác định dạng cho trước  Tải (Load)  Sắp xếp, hợp nhất, lập mục, … phân hoạch Khái niệm khai phá liệu  Các nhân, tổ chức ngập liệu đói thơng tin  Giải pháp: Kho liệu Khai phá liệu Khái niệm khai phá liệu  Khai phá liệu (Data mining) trình phát trích xuất tri thức từ lượng liệu lớn,   Lượng liệu lớn dùng cho khai phá gồm:  Có cấu trúc,  Bán cấu trúc,  Phi cấu trúc,  Được lưu trữ tạm thời hay ổn định Các thuật ngữ: knowledge discovery/mining in data/knowledge extraction/data archeology, … Khái niệm khai phá liệu  Tri thức đạt từ trình khai phá:  Mơ hình phân loại dự đốn,  Mơ hình gom cụm,  Mẫu thường xun, mối qua hệ, tương quan,  Mô tả lớp/khái niệm,  Có cấu trúc, bán cấu trúc phi cấu trúc,  Có thể dùng điều khiển quy trình, định, …  … Khái niệm khai phá liệu  Ý nghĩa vai trò:  Ứng dụng lĩnh vực có liệu,  Hỗ trợ nhiều đối tượng khác nhau: - Doanh nghiệp, - Khách hàng, - Nhà khoa học, - Giáo dục học, … Các loại liệu kiểu mẫu dùng để khai phá  Dữ liệu hướng chủ thể:  Dữ liệu hướng theo nhóm đối tượng: khách hang, bệnh nhân, sản phẩm, …  Tập trung vào việc mơ hình hóa phân tích liệu cho nhà sản xuất định  Chuyển từ hướng ứng dụng sang hướng hỗ trợ định  Không dùng cho hoạt động hang ngày xử lý giao dịch 10 Các toán phương pháp khai phá liệu Bài tốn tìm quan hệ kết hợp (Association Rule):  Phát mối quan hệ kết hợp tập thuộc tính kho liệu  Bài tốn khai phá luật kết hợp toán tiêu biểu  Ví dụ: - {Tóc đen, Da vàng}  {người Châu á}, - {Mật ong, Đường}  {Ngọt} 16 Các toán phương pháp khai phá liệu Bài toán gom cụm liệu (clustering):  Gom liệu có độ tương đồng cao thành “cụm” để phát đặc trưng thuộc tính miền ứng dụng  Mục tiêu: cực đại hóa tính tương đồng phần tử cụm, cực tiểu hóa tính tương đồng phần tử khác cụm  Phân cụm cịn gọi tốn “học máy khơng có giám sát” (unsupervised learning) 17 Các toán phương pháp khai phá liệu Bài toán gom cụm liệu (clustering): 18 Các toán phương pháp khai phá liệu Bài tốn phân lớp (classification):  Xây dựng (mơ tả) mơ hình (hàm) nhằm đặc tả, phát đặc trưng lớp khái niệm để dự báo cho liệu  Số lớp (nhóm) xác định trước  Một số phương pháp: định, mạng Bayes, mạng neuron,…  Phân lớp thuộc nhóm tốn “học máy có giám sát” (supervised learning) 19 Các toán phương pháp khai phá liệu Bài toán phân lớp (classification): A ? a1 ? an a2 ? b1 ? ? bn 20 Các toán phương pháp khai phá liệu Bài toán hồi quy:  Điển hình phân tích thống kê dự báo  Dự đoán giá trị biến phụ thuộc vào giá trị tập hợp biến độc lập  Có thể quy việc học hàm ánh xạ liệu nhằm xác định giá trị thực biến theo số biến khác 21 Các toán phương pháp khai phá liệu Bài toán tìm mơ hình phụ thuộc:  Tìm mơ hình mơ tả phụ thuộc có ý nghĩa biến  Bao gồm mức:  Mức cấu trúc mơ hình: thường biểu diễn dạng đồ thị để phát phụ thuộc biến  Mức định lượng mơ hình: Phát độ mạnh tính phụ thuộc dựa trọng số thuộc tính 22 Các tốn phương pháp khai phá liệu Bài toán phát thay đổi độ lệch:  Tập trung phát thay đổi có ý nghĩa dạng độ đo biết trước giá trị chuẩn,  Cung cấp tri thức biến đổi độ lệch cho người dùng  Thường ứng dụng bước tiền xử lý 23 Sự tích hợp khai phá liệu với sở liệu với kho liệu Tích hợp liệu:  Cần có lượng liệu đủ lớn để phân tích khai phá  Dữ liệu thu thập từ nhiều nguồn: không thống nhất,  Dữ liệu từ nguồn khác là:  Có cấu trúc: sở liệu quan hệ, …  Phi cấu trúc: Tập tin phẳng (flat file),  Được lưu trữ tạm thời ổn định, … 24 Sự tích hợp khai phá liệu với sở liệu với kho liệu Tích hợp liệu:  Hợp nguồn dẫn đến:  Cùng thuộc tính không tương đương ý nghĩa,  Không tương đồng mặt giá trị,  Dư thừa liệu,  … 25 ... niệm kho liệu Khái niệm khai phá liệu Các loại liệu kiểu mẫu dùng để khai phá Các toán phương pháp khai phá liệu Sự tích hợp khai phá liệu với sở liệu với kho liệu Ứng dụng kho liệu khai phá liệu. .. khai phá liệu  Các nhân, tổ chức ngập liệu đói thơng tin  Giải pháp: Kho liệu Khai phá liệu Khái niệm khai phá liệu  Khai phá liệu (Data mining) q trình phát trích xuất tri thức từ lượng liệu. .. 23 Sự tích hợp khai phá liệu với sở liệu với kho liệu Tích hợp liệu:  Cần có lượng liệu đủ lớn để phân tích khai phá  Dữ liệu thu thập từ nhiều nguồn: không thống nhất,  Dữ liệu từ nguồn khác

Ngày đăng: 24/04/2022, 10:26

Hình ảnh liên quan

 Mô hình phân loại và dự đoán, - Bài giảng Kho dữ liệu và khai phá dữ liệu: Chương 1 - Nguyễn Ngọc Duy

h.

ình phân loại và dự đoán, Xem tại trang 8 của tài liệu.
6. Mô hình phụ thuộc, - Bài giảng Kho dữ liệu và khai phá dữ liệu: Chương 1 - Nguyễn Ngọc Duy

6..

Mô hình phụ thuộc, Xem tại trang 14 của tài liệu.
 Xây dựng (mô tả) các mô hình (hàm) nhằm đặc tả, phát hiện đặc trưng các lớp hoặc khái niệm để dự báo cho các dữ liệu tiếp theo. - Bài giảng Kho dữ liệu và khai phá dữ liệu: Chương 1 - Nguyễn Ngọc Duy

y.

dựng (mô tả) các mô hình (hàm) nhằm đặc tả, phát hiện đặc trưng các lớp hoặc khái niệm để dự báo cho các dữ liệu tiếp theo Xem tại trang 19 của tài liệu.
 Điển hình trong phân tích thống kê và dự báo.  Dự đoán các giá trị của một hoặc một số biến - Bài giảng Kho dữ liệu và khai phá dữ liệu: Chương 1 - Nguyễn Ngọc Duy

i.

ển hình trong phân tích thống kê và dự báo.  Dự đoán các giá trị của một hoặc một số biến Xem tại trang 21 của tài liệu.
6. Bài toán tìm mô hình phụ thuộc: - Bài giảng Kho dữ liệu và khai phá dữ liệu: Chương 1 - Nguyễn Ngọc Duy

6..

Bài toán tìm mô hình phụ thuộc: Xem tại trang 22 của tài liệu.

Từ khóa liên quan

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan