1. Trang chủ
  2. » Công Nghệ Thông Tin

Bài giảng Khai phá dữ liệu: Bài 2 - TS. Trần Mạnh Tuấn

32 28 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 32
Dung lượng 918,29 KB

Nội dung

Bài giảng Khai phá dữ liệu: Bài 2 Các mô hình khai phá dữ liệu trên weka cung cấp cho người học những kiến thức như: Giới thiệu về phân lớp dữ liệu; Giới thiệu về phân cụm dữ liệu; Giới thiệu về luật kết hợp; Giới thiệu về hồi quy dữ liệu. Mời các bạn cùng tham khảo!

THỰC HÀNH KHAI PHÁ DỮ LIỆU Bài Các mô hình khai phá liệu weka Giáo viên: TS Trần Mạnh Tuấn Bộ môn: Hệ thống thông tin Khoa: Công nghệ thông tin Email: tmtuan@tlu.edu.vn Điện thoai: 0983.668.841 Nội dung Giới thiệu phân lớp liệu Giới thiệu phân cụm liệu Giới thiệu luật kết hợp Giới thiệu hồi quy liệu Giới thiệu phân lớp liệu ❖ Mục đích: để dự đốn nhãn phân lớp cho liệu/mẫu ❖ Đầu vào: tập mẫu liệu huấn luyện, với nhãn phân lớp cho mẫu liệu ❖ Đầu ra: mơ hình (bộ phân lớp) dựa trêntập huấn luyện nhãn phân lớp Giới thiệu phân lớp liệu Các bước phân lớp liệu ➢ Bước 1: Xây dựng mơ hình từ tập huấn luyện: ✓ Mỗi bộ/mẫu liệu phân vàomột lớp xác định trước ✓ Lớp bộ/mẫu liệu xácđịnh thuộc tính gán nhãn lớp ✓ Tập bộ/mẫu liệu huấn luyện - tập huấn luyện tập huấn luyện dùng để xây dựng mơ hình ✓ Mơ hình biểu diễn phương pháp phân lớp ➢ Bước 2: Sử dụng mơ hình - kiểm tra tính đắn mơ hình dùng để phân lớp liệu mới: ✓ Phân lớp cho đối tượng chưa phân lớp ✓ Đánh giá độ xác mơ hình ▪ lớp biết trước mẫu/bộ liệu đem kiểm tra so sánh với kết thu từ mô hình ▪ tỉ lệ xác = phần trăm mẫu/bộ liệu phân lớp mơ hình số lần kiểm tra Giới thiệu phân lớp liệu Các mơ hình phân lớp liệu ➢ Cây định ➢ Nạve Bayes ➢ Mơ hình thống kê ➢ Mạng nơ ron ➢ Mơ hình SVM ➢ Mơ hình KNN ➢ Các mơ hình khác Giới thiệu phân lớp liệu Phân lớp liệu weka ❖ Là chức Explorer ❖ Hỗ trợ người dùng huấn luyện kiểm chứng mơ hình phân lớp Giới thiệu phân lớp liệu Các bước thực phân lớp liệu ❖ Bước 1: tab Preprocess, chọn tập liệu tiền xử lý liệu ❖ Bước 2: Chọn thuật toán phân lớp xác định tham số ❖ Bước 3: Chọn kiểu test tập liệu test (nếu cần) ❖ Bước 4: Tiến hành phân lớp liệu ❖ Bước 5: Ghi nhận phân tích kết Giới thiệu phân lớp liệu Giới thiệu phân lớp liệu Chọn kiểu test phân lớp liệu ❖ Sử dụng tập huấn luyện làm tập test: use traning set ❖ Chỉ định tập test mới: supplied test set ❖ Chia tỉ lệ test theo k-folds: Cross validation ❖ Chia tỷ lệ phần trăm data: Precentage slip ❖ Các lựa chọn chỉnh sửa khác: more options Giới thiệu phân lớp liệu Kết phân lớp liệu Giới thiệu phân cụm liệu Các bước thực phân lớp liệu ❖ Bước 1: tab Preprocess, chọn tập liệu tiền xử lý liệu ❖ Bước 2: Chọn thuật toán phân cụm xác định tham số ❖ Bước 3: Chọn tập phân cụm ❖ Bước 4: Tiến hành phân cụm liệu ❖ Bước 5: Ghi nhận phân tích kết Giới thiệu phân cụm liệu Giới thiệu phân cụm liệu Tổng hợp so sánh phân cụm liệu ❖ Chạy liệu với phương pháp phân cụm khác ❖ Chạy thuật toán K-mean với liệu khác ➢ Giới thiệu luật kết hợp Khai phá luật kết hợp: – Tìm tần số mẫu, mối kết hợp, tương quan, hay cấu trúc nhân tập đối tượng sở liệu giao tác, sở liệu quan hệ, kho thơng tin khác Tính hiểu được: dễ hiểu Tính sử dụng được: Cung cấp thơng tin thiết thực Tính hiệu quả: Đã có thuật toán khai thác hiệu Các ứng dụng: – Phân tích bán hàng siêu thị, cross-marketing, thiết kế catalog, loss-leader analysis, gom cụm, phân lớp, ➢ Giới thiệu luật kết hợp C¸c kh¸i niƯm Cho I = {I1 , I2 , , Im } tập đơn vị d liệu Cho D tập giao tác, giao tác T tập đơn vị d d liệu cho TI ẹịnh nghÜa 1: Ta gäi giao t¸c T chøa X, víi X tập đơn vị d liệu I, nÕu X  T ĐÞnh nghÜa 2: Mét lt kÕt hợp phép suy diễn có dạng X Y, X I, Y I XY =  ĐÞnh nghÜa 3: Ta gäi lt X Y có mức xác nhận(support) s tập giao t¸c D, nÕu cã s% giao t¸c D chøa XY Ký hiÖu: Supp(X → Y) = s ➢ Giới thiệu luật kết hợp ĐÞnh nghÜa 4:Ta gäi luật X Y có độ tin cậy c (Confidence) tập giao tác D, Ký hiệu: c= Conf(X → Y) = Supp(X →Y)/Supp(X) NhËn xÐt: C¸c x¸c nhËn độ tin cậy xác suất sau: Supp(X → Y)= P(XY) : X¸c st cđa XY D Conf(X Y) = P(Y/X): Xác suất có điều kiện ẹịnh nghĩa 5: Cho trớc Min_Supp=s0 Min_Conf=c0 Ta gäi lt X → Y lµ xả nÕu tháa: Supp(X → Y) > s0 vµ Conf(X → Y)>c0 ➢ Giới thiệu luật kết hợp ▪ Thuật toán Apriori ▪ Thuật toán FP-growth ➢ Giới thiệu luật kết hợp Luật kết hợp weka ❖ Là chức Explorer ❖ Hỗ trợ người dùng huấn luyện kiểm chứng thuật toán luật kết hợp ➢ Giới thiệu luật kết hợp Các bước thực luật kết hợp ❖ Bước 1: tab Preprocess, chọn tập liệu tiền xử lý liệu: trường liệu dạng Nominal Nếu dạng khác dùng lọc để chuyển về: NumericToNominal ❖ Bước 2: Chọn thuật toán luật kết hợp tham số ❖ Bước 3: Tiến hành thực thuật toán ❖ Bước 4: Ghi nhận phân tích kết ➢ Giới thiệu luật kết hợp ➢ Giới thiệu luật kết hợp Tổng hợp so sánh luật kết hợp ❖ Chạy liệu với phương pháp thuật toán khác ❖ Chạy thuật toán Apriori với liệu khác Giới thiệu Hồi quy liệu ➢ Chủ yếu dùng để dự đoán đầu (định lượng) ➢ Đầu vào đầu có mối quan hệ dạng hàm bậc (tuyến tính): Trong đó:  hệ số chặn;  độ dốc (hệ số hồi quy) i biến số theo luật phân phối chuẩn Giới thiệu Hồi quy liệu ➢ Mơ hình có biến dùng để dự đốn biến đích ➢ Dễ dàng xác định đường thẳng “phù hợp nhất” Giới thiệu Hồi quy liệu ➢ Trong mơ hình: Các hệ số   xác định theo phương pháp bình phương cực tiểu Trao đổi, câu hỏi? 32 ... lớp ✓ Tập bộ/mẫu liệu huấn luyện - tập huấn luyện tập huấn luyện dùng để xây dựng mơ hình ✓ Mơ hình biểu diễn phương pháp phân lớp ➢ Bước 2: Sử dụng mơ hình - kiểm tra tính đắn mơ hình dùng để... Tổng hợp so sánh phân cụm liệu ❖ Chạy liệu với phương pháp phân cụm khác ❖ Chạy thuật toán K-mean với liệu khác ➢ Giới thiệu luật kết hợp Khai phá luật kết hợp: – Tìm tần số mẫu, mối kết hợp, tương... tin thiết thực Tính hiệu quả: Đã có thuật toán khai thác hiệu Các ứng dụng: – Phân tích bán hàng siêu thị, cross-marketing, thiết kế catalog, loss-leader analysis, gom cụm, phân lớp, ➢ Giới thiệu

Ngày đăng: 09/08/2021, 17:56

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w