1. Trang chủ
  2. » Tất cả

Bài giảng nhập môn khai phá dữ liệu chương 3 pgs ts hà quang thụy

20 1 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 20
Dung lượng 405,73 KB

Nội dung

BÀI GIẢNG NHẬP MÔN KHAI PHÁ DỮ LIỆU CHƯƠNG 3 HIỂU BÀI TOÁN, HIỂU DỮ LIỆU VÀ TIỀN XỬ LÝ DỮ LIỆU 1 PGS TS Hà Quang Thụy HÀ NỘI, 09 2018 TRƯỜNG ĐẠI HỌC CÔNG NGHỆ ĐẠI HỌC QUỐC GIA HÀ NỘI http //uet vnu ed[.]

BÀI GIẢNG NHẬP MÔN KHAI PHÁ DỮ LIỆU CHƯƠNG HIỂU BÀI TOÁN, HIỂU DỮ LIỆU VÀ TIỀN XỬ LÝ DỮ LIỆU PGS TS Hà Quang Thụy HÀ NỘI, 09-2018 TRƯỜNG ĐẠI HỌC CÔNG NGHỆ ĐẠI HỌC QUỐC GIA HÀ NỘI http://uet.vnu.edu.vn/~thuyhq/ Nội dung ◼ Hiểu toán ➢ ◼ Hiểu liệu ➢ ◼ Vai trò hiểu liệu, Đối tượng DL kiểu thuộc tính, Độ đo tương tự không tương tự DL, Thu thập liệu, Mô tả thống kê DL, Trực quan hóa DL, Đánh giá lập hồ sơ DL Tiền xử lý liệu ➢ ◼ Năm yếu tố để hiểu tốn Vai trị tiền xử lý liệu, Làm liệu, Tích hợp chuyển dạng liệu, Rút gọn liệu, Rời rạc sinh kiến trúc khái niệm Một số thách thức liệu mơ hình ➢ July 12, 2021 Thiếu liệu, liệu không đại diện, đặc trưng khơng đại diện, mơ hình q khớp-khơng khớp Cơng nghệ tri thức HIỂU BÀI TOÁN VÀ HIỂU DỮ LIỆU HIỂU BÀI TỐN: BIẾT ĐƯỢC GÌ? ➢ Đặt vấn đề ❖ ❖ ➢ yếu tố cốt yếu dạng câu hỏi Giải đáp yếu tố → Đặt toán Yếu tố 1: Ta biết (có) ? Cho INPUT ❖ ❖ Đây bước cho trường hợp nghiên cứu Ví dụ 1: Dự báo mục hàng phục vụ bán chéo ❖ ❖ ❖ ❖ Bán chéo (cross-selling): bán sản phẩm bổ sung cho khách hàng Bán sâu (deep-selling): tăng tần số số lượng mua sản phẩm khách hàng Bán gia tăng (up-selling): bán sản phẩm với số lượng nhiều giá cao cho khách hàng Ví dụ 2: Dự báo khách hàng dịch vụ mạng rời bỏ Yếu tố 2: Cần định điều ? ➢ Nội dung ❖ ❖ ❖ ➢ Trường hợp dễ xác định ❖ ➢ Điều thực cần phải định Biến định, Đầu (Output) Quan trọng: Phân biệt biến đầu biến đầu vào Ví dụ Bán chéo” Các tập mục hàng đồng xuất cao Trường hợp khó xác định ❖ Ví dụ Dự báo khách hàng dịch vụ mạng rời bỏ: “biến dự báo”, “biến phân lớp” v.v Yếu tố 3: Cái cố gắng để đạt ➢ Nội dung ❖ ❖ ❖ ❖ ➢ ❖ ❖ Cố tìm khơng gian lời giải ? Cái cần đạt ? Hàm mục tiêu, Mơ hình mục tiêu Có thể đa mục tiêu Ví dụ Ví dụ Tập mục hàng đồng xuất vượt qua ngưỡng Ví dụ Mơ hình dự báo nhận diện lại tốt với liệu kiểm thử Yếu tố 4: Cái cản trở giải tốn ➢ Nội dung ❖ ❖ ➢ Hạn chế tài nguyên ràng buộc Ví dụ ❖ ❖ Ví dụ Số mục hàng giao dịch lớn Ví dụ Dữ liệu mẫu giống song cho kết khác Yếu tố 5: Cái tìm hiểu thêm ➢ Nội dung ❖ ❖ ➢ câu hỏi cho xây dựng mơ hình Phân tích bối cảnh mơ hình rộng hơn: nâng cao ý nghĩa mơ hình Các khía cạnh phi mơ hình Ví dụ ❖ ❖ Ví dụ Thay đổi ngưỡng Ví dụ Các phân khúc khách hàng Hiểu liệu: hai phiên sách ◼ Thay đổi đáng kể phiên 2006 tới 2011 ◼ July 12, 2021 Phiên 2011 nhấn mạnh Hiểu liệu ! Cơng nghệ tri thức Một mơ hình KPDL hướng ứng dụng ◼ Khai phá DL hướng miền ứng dụng [CYZ10] ◼ ◼ July 12, 2021 Bước P1 “Hiểu định nghĩa vấn đề”, Bước P2 “Phân tích ràng buộc” Bước P3 “Hiểu liệu”, Bước P4 “Tiền xử lý liệu” Công nghệ tri thức 10 Vấn đề ràng buộc ◼ Vấn đề ◼ Câu hỏi mục tiêu kinh doanh (Xem chương 1) ◼ Thường từ 1-3 mục tiêu cụ thể ◼ Phạm vi liệu liên quan tới câu hỏi ◼ ◼ Đăt toán sơ bộ: biến mục tiêu, liệu điều kiện, mô tả sơ ràng buộc liệu điều kiện tới biến mục tiêu Phân tích ràng buộc ◼ ◼ July 12, 2021 Ràng buộc kinh doanh: Làm rõ mối liên quan liệu với mục tiêu kinh doanh Ràng buộc nội tại: Ràng buộc liệu kiểu, ràng buộc liên quan liệu Công nghệ tri thức 11 Kiểu liệu ◼ Bản ghi season July 12, 2021 timeout ◼ lost ◼ World Wide Web Mạng xã hội mạng thông tin Cấu trúc phân tử wi n ◼ game Đồ thị mạng score ◼ ball ◼ pla y ◼ coach ◼ Bản ghi quan hệ Ma trận DL, chẳng hạn, ma trận số, bảng chéo… Dữ liệu tài liệu: Tài liệu văn dùng vector tần số từ … Dữ liệu giao dịch team ◼ Document 2 Document 0 0 Document 0 2 TID Items Bread, Coke, Milk Beer, Bread Beer, Coke, Diaper, Milk Beer, Bread, Diaper, Milk Coke, Diaper, Milk Công nghệ tri thức 12 Kiểu liệu ◼ Thứ tự ◼ ◼ ◼ ◼ Dữ liệu thời gian: chuỗi thời gian Dữ liệu dãy: dãy giao dịch Dữ liệu dãy gene Không gian, ảnh đa phương tiện: ◼ ◼ ◼ ◼ July 12, 2021 DL không gian: đồ Dữ liệu ảnh, Dữ liệu Video: dãy ảnh Dữ liệu audio Công nghệ tri thức 13 Đặc trưng quan trọng DL có cấu trúc ◼ Kích thước ◼ ◼ Thưa ◼ ◼ Chỉ mang tính diện Phân tích ◼ ◼ Tai họa kích thước lớn Mẫu phụ thuộc quy mô Phân bố ◼ July 12, 2021 Tập trung phân tán Công nghệ tri thức 14 Đối tượng liệu ◼ ◼ ◼ ◼ Tập DL tạo nên từ đối tượng DL Mỗi đối tượng liệu (data object, data point) trình bày thực thể Ví dụ: ◼ CSDL bán hàng: Khách hàng, mục lưu, doanh số ◼ CSDL y tế: bệnh nhân, điều trị ◼ CSDL đại học: sinh viên, giáo sư, mơn học Tên khác: mẫu (samples ), ví dụ (examples), thể (instances), điểm DL (data points), đối tượng (objects), (tuples) ◼ ◼ Đối tượng DL mô tả đặc trưng/thuộc tính (feature/attribute) Dịng CSDL → đối tượng DL; cột → thuộc tính July 12, 2021 Cơng nghệ tri thức 15 Đặc trưng (Thuộc tính) ◼ Đặc trưng_feature (hoặc Thuộc tính_Attribute chiều_dimension, biến_variables): trường DL biểu diễn đặc trưng/thuộc tính đối tượng DL ◼ ◼ Ví dụ, ChisoKH, tên, địa Kiểu: ◼ ◼ ◼ Đinh danh Nhị phân Số: định lượng ◼ Cỡ khoảng ◼ Cỡ tỷ lệ July 12, 2021 Công nghệ tri thức 16 Kiểu thuộc tính ◼ ◼ ◼ 17 Định danh: lớp, trạng thái, “tên đồ vật” ◼ Hair_color = {auburn, black, blond, brown, grey, red, white} ◼ Tình trạng nhân (marital status), nghề nghiệp (occupation), số ID (ID numbers), mã zip bưu điện (zip codes) Nhị phân ◼ Thuộc tính định danh hai trạng thái (0 1) ◼ Nhị phân đối xứng: Cả hai kết quan trọng ◼ Chẳng hạn, giới tính ◼ Nhị phân phi ĐX: kết khơng quan trọng ◼ Chẳng hạn, kiểm tra y tế (tích cực/tiêu cực) ◼ Quy ước: gán cho kết quan trọng (chẳng hạn, dương tính HIV) Có thứ tự ◼ Các giá trị có thứ tự mang nghĩa (xếp hạng) độ lớn giá trị liên kết: ◼ Size = {small, medium, large}, grades, army rankings Kiểu thuộc tính số ◼ ◼ ◼ Số lượng (nguyên hay giá trị thực) Khoảng ◼ Được đo theo kích thước đơn vị kích thước ◼ Các giá trị có thứ tự ◼ Chẳng hạn, nhiệt độ theo C˚hoặc F˚, ngày lịch ◼ Không làm điểm “true zero-point” Tỷ lệ ◼ zero-point vốn có ◼ Các giá trị thứ bậc độ đo so với đơn vị đo lường (10 K˚ hai lần cao K˚) ◼ Ví dụ, nhiệt độ theo Kelvin, độ dài đếm được, tổng số đếm được, số lượng tiền 18 Thuộc tính rời rạc liên tục ◼ Thuộc tính rời rạc ◼ ◼ ◼ ◼ Thuộc tính liên tục ◼ ◼ ◼ 19 Chỉ có tập hữu hạn hữu hạn đếm giá trị ◼ Chẳng hạn, mã zip, nghề nghiệp tập từ tập tài liệu Đôi lúc trình bày biến ngun Lưu ý: Thuộc tính nhị phân trường hợp riêng thuộc tính rời rạc Có nhiều giá trị thuộc tính ◼ Như nhiệt độ, chiều cao, lượng Thực tế, giá trị thực tính trình bảng sử dụng hữu hạn chữ số Thuộc tính liên tục trình bày phổ biến biến dấu phảy động Tương tự phân biệt ◼ ◼ ◼ 20 Tương tự ◼ Độ đo số cho biết hai đối tượng giống ◼ Giá trị cao hai đối tượng giống ◼ Thường thuộc đoạn [0,1] Phân biệt-Dissimilarity (như khoảng cách) ◼ Độ đo số cho biết hai đối tượng khác ◼ Càng thấp đối tượng giống ◼ Phân biệt tối thiểu ◼ Giới hạn tùy Gần-Proximity dẫn tới tương tự phân biệt ... Kiểu liệu ◼ Thứ tự ◼ ◼ ◼ ◼ Dữ liệu thời gian: chuỗi thời gian Dữ liệu dãy: dãy giao dịch Dữ liệu dãy gene Không gian, ảnh đa phương tiện: ◼ ◼ ◼ ◼ July 12, 2021 DL không gian: đồ Dữ liệu ảnh, Dữ liệu. .. tốn Vai trị tiền xử lý liệu, Làm liệu, Tích hợp chuyển dạng liệu, Rút gọn liệu, Rời rạc sinh kiến trúc khái niệm Một số thách thức liệu mơ hình ➢ July 12, 2021 Thiếu liệu, liệu không đại diện,... coach ◼ Bản ghi quan hệ Ma trận DL, chẳng hạn, ma trận số, bảng chéo… Dữ liệu tài liệu: Tài liệu văn dùng vector tần số từ … Dữ liệu giao dịch team ◼ Document 2 Document 0 0 Document 0 2 TID Items

Ngày đăng: 27/02/2023, 07:58