1. Trang chủ
  2. » Giáo Dục - Đào Tạo

Báo cáo bài tập lớn môn khai phá dữ liệu đề tài phân loại giá kim cương

20 7 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 20
Dung lượng 753,1 KB

Nội dung

Phân Hiệu Đại Học Thủy Lợi Ngành Công Nghệ Thông Tin BÁO CÁO BÀI TẬP LỚN Môn: Khai Phá Dữ Liệu Đề tài: Phân loại Giá Kim Cương Giảng viên hướng dẫn : Cô Vũ Thị Kim Hạnh Lớp : Nhóm :     S23_62TH Lê Thị Xuân Rin Lê Quốc Anh Mục Lục: Mục lục Giới thiệu Chương 1: Tổng quang Khai Phá Dữ liệu…………………………… I.Khai phá liệu 1.Khái niệm ……………………………… 2.Các bước trình khai phá ……………………………….2 Ứng dụng khai phá liệu ………………… II: Tiền xử lý liệu 1.Dữ liệu…………………………………… 2.Làm liệu (data cleaning)……………… 3.Tích hợp liệu (data integration)………… 4.Thu giảm liệu (data reduction) ………………… III: Phương pháp phân loại Giới thiệu phân loại ……………………………………… 2 Phân loại liệu với Cây Quyết Định……………………… Phân loại liệu với Gaussian Naive Bayes…………………4 Phân loại liệu với mạng Random Forest III Ứng dụng Khai Phá Dữ Liệu Phân loại Giá Kim Cương ……………………………………   Giới thiệu Giúp SV làm quen với việc dùng class Thread namespace System.Threadings để quản lý thread Giúp SV thấy vấn ₫ề tương tranh thread chúng truy xuất tài nguyên dùng chung   Chương 1: Tổng quang Khai Phá Dữ liệu Khái niệm Khai phá liệu (data mining) hay Khám phá tri th 泳 c từ liệu (knowledge discovery from data) việc trích rút đ 逢 ợc mẫu tri th 泳 c quan trọng (không tầm th 逢運 ng, ẩn, ch 逢 a đ 逢 ợc biết đến hữu ích) thừ l 逢 ợng liệu (rất) lớn  Các tên gọi khác: - Khám phá tri th 泳 c s 荏 dữ liệu (Knowledge discovery in databases KDD) - Trích rút tri th 泳 c (knowledge extraction) - Phân tích mẫu/dữ liệu (data/pattern analysis) Các bước trình khai phá Quá trình đ 逢  ợc thực qua b 逢  ớc: 1- Tìm hiểu lĩnh vực c 栄 a toán (泳 ng dụng): Các mục đích c 栄 a tốn, tri th 泳 c cụ thể c 栄 a lĩnh vực  2- Tạo nên (thu thập) tập liệu phù hợp  3- Làm tiền xử lý liệu  4- Giảm kích th 泳 c c 栄 a liệu, chuyển đổi liệu: Xác định thuộc tính quan trọng, giảm số chiều (số thuộc tính), biểu diễn bất biến  5- Lựa chọn ch 泳 c khai phá liệu: Phân loại, gom cụm, dự báo, sinh luật kết hợp  6- Lựa chọn/ Phát triển (các) giải thuật khai phá liệu phù hợp    7- Tiến hành khai phá liệu  8- Đánh giá mẫu thu đ 逢 ợc biểu diễn tri th 泳 c: Hiển thị hóa, chuyển đổi, bỏ mẫu d 逢 thừa,…  9- Sữ dụng tri th 泳 c đ 逢 ợc khai phá Quá trình khám phá tri th 泳 c theo cách nhìn c 栄 a giới nghiên c 泳 u hệ thống liệu kho liệu trình khám phá tri th 泳 c Quá trình khai phá tri th ứ c Chuẩn bị liệu (data preparation), bao gồm trình làm liệu (data cleaning), tích hợp liệu (data integration), chọn liệu (data selection),  biến đổi liệu (data transformation) Khai thác liệu (data mining): xác định nhiệm vụ khai thác liệu lựa   chọn kỹ thuật khai thác liệu Kết cho ta nguồn tri th 泳 c thô Đánh giá (evaluation): dựa số tiêu chí tiến hành kiểm tra lọc nguồn tri th 泳 c thu đ 逢 ợc Triển khai (deployment).6 Quá trình khai thác tri th 泳 c không trình từ b 逢 ớc đến b 逢 ớc cuối mà trình lặp có quay tr 荏 lại b 逢 ớc đư qua 永 ng dụng c 栄 a khai phá liệu Kinh tế - 泳 ng dụng kinh doanh, tài chính, tiếp thị bán hàng, bảo hiểm, th 逢 ơng mại, ngân hàng, … Đ 逢 a báo cáo giàu thơng tin; phân tích r  栄 i ro tr 逢 ớc đ 逢 a chiến l 逢 ợc kinh doanh, sản xuất; phân loại khách hàng từ  phân định thị tr 逢運 ng, thị phần; … Khoa học: Thiên văn học – dự đoán đ 逢運 ng thiên thể, hành tinh, …; Cơng nghệ sinh học – tìm gen mới, giống mới, …; … Web: cơng cụ tìm kiếm II Tiền xử lý liệu  Quá trình tiền xử lý liệu, phải nắm đ 逢 ợc dạng liệu, thuộc tính, mơ tả c 栄 a liệu thao tác Sau tiếp hành giai đoạn chính: làm sạch, tích hợp,    biến đổi, thu giảm liệu Dữ liệu a) Tập liệu - Một tập liệu (dataset) tập hợp đối t 逢 ợng (object) thuộc tính c 栄 a chúng - Mỗi thuộc tính (attribute) mơ tả đặc điểm c 栄 a đối t 逢 ợng Ví dụ: Các thuộc tính : Day, Outlook, Temp, … b) Các kiểu tập liệu - Bản ghi (record): Các ghi c 荏 s 荏 dữ liệu quan hệ Ma trận liệu Biểu diễn văn Hay liệu giao dịch.„ - Đồ thị (graph): World wide web Mạng thông tin, mạng xã hội - Dữ liệu có trật tự: Dữ liệu khơng gian (ví dụ: đồ) Dữ liệu th 運 i gian (ví dụ: time-series data) Dữ liệu chuỗi (ví dụ: chuỗi giao dịch)   c) Các kiểu giá trị thuộc tính: - Kiểu định danh/chuỗi (norminal): khơng có th 泳 tự Ví dụ: Các thuộc tính nh 逢 : Name, Profession, …  - Kiểu nhị phân (binary): tr 逢運 ng hợp đăc biệt c 栄 a kiểu định danh Tập giá trị gồm có giá trị (Y/N, 0/1, T/F) - Kiểu có th 泳 tự (ordinal): Integer, Real, … -lấy giá trị từ tập có th 泳 tự giá trị Ví dụ: Các thuộc tính lấy giá trị số nh 逢 : Age, Height ,… Hay lấy tập xác định, thuộc tính Income lấy giá trị từ tập {low, medium, high} Kiểu thuộc tính r 運 i rạc (discrete-valued attributes): tập giá trị c 栄 a tập hữu hạn Bao gồm thuộc tính có kiểu giá trị số ngun, nhị  phân Kiểu thuộc tính liên tục (continuous-valued attributes):Các giá trị làsố thực d) Các đặc tính mơ tả c 栄 a liệu:  - Giúp hiểu rõ liệu có đ 逢 ợc: chiều h 逢 ớng chính/trung tâm, biến thiên, phân bố - Sự phân bố c 栄 a liệu (data dispersion): + Giá trị cực tiểu/cực đại (min/max) + Giá trị xuất nhiều (mode) + Giá trị trung bình (mean) + Giá trị trung vị (median) + Sự biến thiên (variance) độ lệch chuẩn (standard deviation) + Các ngoại lai (outliers)   Làm liệu (data cleaning) Đối với liệu thu thập đ 逢 ợc, cần xác định vấn đề ảnh h 逢荏 ng cho khơng B 荏 i vì, liệu khơng (có ch 泳 a lỗi, nhiễu, khơng đầy đ 栄, có mâu thuẫn) tri th 泳 c khám phá đ 逢 ợc bị ảnh h 逢荏 ng không đáng tin cậy, dẫn đến định khơng xác Do đó, cần gán giá trị thuộc tính cịn thiếu; sửa chữa liệu nhiễu/lỗi; xác định loại bỏ ngoại lai (outliers); giải mâu thuẫn liệu  a) Các vấn đề c 栄 a liệu Trên thực liệu thu ch 泳 a nhiễu, lỗi, khơng hồn chỉnh, có mâu thuẫn  - Khơng hồn chỉnh (incomplete): Thiếu giá trị thuộc tính thiếu số thuộc tính Ví dụ: salary = - Nhiễu/lỗi (noise/error): Ch 泳 a đựng lỗi mang giá trị bất th 逢運 ng Ví dụ: salary = “-525” , giá trị c 栄 a thuộc tính khơng thể số âm  - Mâu thuẫn (inconsistent): Ch 泳 a đựng mâu thuẫn (không thống nhất) Ví dụ: salary = “abc” , khơng phù hợp với kiểu liệu số c 栄 a thuộc tính salary b) Nguồn gốc/lý c 栄 a liệu khơng  - Khơng hồn chỉnh (incomplete): Do giá trị thuộc tính khơng có (not available) th 運 i điểm đ 逢 ợc thu thập Hoặc vấn gây b 荏 i phần c 泳 ng,  phần mềm, ng 逢運 i thu thập liệu - Nhiễu/lỗi (noise/error): Do việc thu thập liệu, hoăc việc nhập liệu, việc truyền liệu    - Mâu thuẫn (inconsistent): Do liệu đ 逢 ợc thu thập có nguồn gốc khác Hoặc vi phạm ràng buộc (điều kiện) thuộc tính c) Giải pháp thiếu giá trị c 栄 a thuộc tính - Bỏ qua ghi có thuộc tính thiếu giá trị Th 逢運 ng áp dụng toán phân lớp Hoặc tỷ lệ % giá trị thiếu thuộc tính lớn - Một số ng 逢運 i đảm nhiệm việc kiểm tra gán giá trị thuộc tính cịn thiếu, nh 逢 ng địi hỏi chi phí cao tẻ nhạt  - Gán giá trị tự động b 荏 i máy tính: + Gán giá trị mặc định  + Gán giá trị trung bình c 栄 a thuộc tính  + Gán giá trị xảy – dựa theo ph 逢 ơng pháp xác suất  d) Giải pháp liệu ch 泳 a nhiễu/lỗi - Phân khoảng (binning): Sắp xếp liệu phân chia thành khoảng (bins) có tần số xuất giá trị nh 逢 nhau Sau đó, khoảng liệu đ 逢 ợc  biểu diễn trung bình, trung vị, giới hạn … c 栄 a giá trị khoảng  - Hồi quy (regression): Gắn liệu với hàm hồi quy - Phân cụm (clustering): Phát loại bỏ ngoại lai (sau đư xác định cụm) - Kết hợp máy tính kiểm tra c 栄 a ng 逢運 i: Máy tính tự động phát   giá trị nghi ng 運 Các giá trị đ 逢 ợc ng 逢運 i kiểm tra lại   10 Tích hợp liệu (data integration) Tích hợp liệu trình trộn liệu từ nguồn khác vào kho liệu có sẵn cho trình khai phá liệu  Khi tích hợp cần xác định thực thể từ nhiều nguồn liệu để tránh d 逢 thừa liệu Ví dụ: Bill Clinton ≡ B.Clinton Việc d 逢 thừa liệu th 逢運 ng xuyên xảy ra, tích hợp nhiều nguồn B 荏 i thuộc tính (hay đối t 逢 ợng) mang tên khác nguồn (cơ s 荏 dữ liệu) khác Hay liệu suy đ 逢 ợc nh 逢 một thuộc tính bảng đ 逢 ợc suy từ thuộc tính bảng khác Hay trùng lắp liệu Các thuộc tính d 逢 thừa bị phát phân tích t 逢 ơng quan chúng 10  Phát xử lý mâu thuẫn giá trị liệu: Đối với thực thể thực tế, nh 逢 ng giá trị thuộc tính từ nhiều nguồn khác lại khác Có thể cách biểu diễn khác nhau, hay m 泳 c đánh giá, độ khác  u cầu chung q trình tích hợp giảm thiểu (tránh đ 逢 ợc tốt nhất) d 逢 thừa mâu thuẫn Giúp cải thiện tốc độ c 栄 a trình khai  phá liệu nâng cao chất l 逢 ợng c 栄 a kết tri th 泳 c thu đ 逢 ợc   11 Biến đổi liệu (data transformation) Biến đổi liệu việc chuyển toàn tập giá trị c 栄 a thuộc tính sang tập giá trị thay thế, cho giá trị cũ t 逢 ơng 泳 ng với giá trị Các ph 逢 ơng pháp biến đổi liệu:  - Làm trơn (smoothing): Loại bỏ nhiễu/lỗi khỏi liệu  - Kết hợp (aggregation): Sự tóm tắt liệu, xây dựng khối liệu  - Khái quát hóa (generalization): Xây dựng phân cấp khái niệm  - Chuẩn hóa (normalization): Đ 逢 a giá trị khoảng đ 逢 ợc định  + Chuẩn hóa min-max, giá trị nằm khoảng [new_mini  , new_maxi] + Chuẩn hóa z-score, với μi , σi : giá trị trung bình độ lệch chuẩn c 栄 a thuộc tính i + Chuẩn hóa b 荏 i thang chia 10, với j giá trị số nguyên nhỏ cho: max({vnew})

Ngày đăng: 30/10/2023, 16:00

w