đề tài tiền xử lí dữ liệu

TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI Viện Toán ứng dụng Tin học HỆ HỖ TRỢ QUYẾT ĐỊNH BÁO CÁO CUỐI KỲ ĐỀ TÀI: TIỀN XỬ LÍ DỮ LIỆU Giảng viên hướng dẫn: Nhóm sinh viên thực hiện: Lê Chí Ngọc MSSV Lớp MỤC LỤC 2.1 Tiền xử lý liệu: 2.1.1 Dữ liệu: 2.1.2 Đặc trưng liệu: 2.1.3 Ý nghĩa tiền xử lý liệu: 2.2 Làm liệu: 2.2.1 Dữ liệu mát (Missing data) .8 2.2.2: Lỗi phần tử ngoại lai: 10 2.3 Biến đổi liệu: 15 2.3.1: Trích chọn đặc trưng: .15 2.3.2 Chuẩn hóa liệu: 24 2.3.3 Rời rạc hóa liệu: 25 2.3.4 Chiếu liệu: 28 2.3.5 Lấy mẫu liệu: 30 2.1 Tiền xử lý liệu: 2.1.1 Dữ liệu: Cái gọi hay gọi liệu, quan sát tượng thực tế Ví dụ, Sàn chứng khoán phải dựa vào quan sát giá chứng khoán, thông báo lợi nhuận công ty, ý kiến chuyên gia Dữ liệu sinh trắc học cá nhân tổng hợp phép đo nhịp tim, lượng đường máu, …Và cịn vơ số ví dụ liệu thực tế Mỗi phần liệu phản ánh phần nhỏ khía cạnh thực Tổng hợp lại có tranh tổng quát Nhưng tranh lộn xộn chứa hàng ngàn phần nhỏ, ln có phần gọi “nhiễu” liệu liệu quan trọng lại bị thiếu hụt 2.1.2 Đặc trưng liệu: Một đặc trưng liệu hiểu biểu diễn dạng số học liệu thơ Có nhiều cách để đưa từ liệu thô thành dạng số học để máy tính hiểu Để hiệu quả, đặc trưng phải miêu tả kiểu, loại liệu Hay đặc trưng phải phù hợp với mơ hình tốn Đặc trưng phải liên quan đến toán đặt phải dễ dàng áp dụng cho mơ hình tốn Trích chọn đặc trưng trình xây dựng đặc trưng phù hợp với liệu cung cấp, mơ hình áp dụng tốn đặt Một đặc trưng (feature) thường đại diện cụ thể dịng liệu thơ, thuộc tính riêng lẻ, đo lường mơ tả cột tập liệu Lấy ví dụ với tập liệu hai chiều, observation (quan sát) mô tả hàng đặc trưng mơ tả cột, có giá trị cụ thể cho đặc trưng quan sát Như ví dụ hình trên, hàng thường biểu thị vectơ đặc trưng tập hợp tất đặc trưng tất quan sát tạo thành ma trận hai chiều gọi feature-set Thơng thường, thuật tốn học máy hoạt động với ma trận số hóa tenxo hầu hết kỹ thuật feature engineering xử lý việc chuyển đổi liệu thô thành dạng biểu diễn số học giúp thuật toán dễ dàng hiểu Các đặc trưng chia thành hai loại chính: Đặc trưng thơ (Raw features): đặc trưng vốn có lấy trực tiếp từ tập liệu mà không cần sử dụng thêm thao tác kỹ thuật Đặc trưng phát sinh (Derived features): đặc trưng thu sau trình feature engineering, kết trình trích xuất xử lý đặc trưng có sẵn Ví dụ, có đặc trưng thơ "sinh nhật" nhân viên dễ dàng có đặc trưng "tuổi" nhân viên cách trừ năm cho năm sinh họ Số lượng đặc trưng vô quan trọng Nếu không đủ số lượng đặc trưng liệu mơ hình khơng thể đưa dự đoán dự đoán sai lệch Nhưng có nhiều đặc trưng hầu hết khơng liên quan đến tốn đặt ra, nhiều tài nguyên thời gian để huấn luyện mơ hình Tiếp theo phải xem xét đến quy mô đặc trưng liệu Giá trị lớn nhất, nhỏ đặc trưng bao nhiêu? Chúng có xếp theo độ lớn hay khơng? Mơ hình có hoạt động trơn tru hay không nhạy cảm với quy mô đặc trưng liệu đầu vào 2.1.3 Ý nghĩa tiền xử lý liệu: Tiền xử lý liệu bước quan trọng việc giải vấn đề lĩnh vực Học Máy Hầu hết liệu sử dụng vấn đề liên quan đến Học Máy cần xử lý, làm biến đổi trước thuật tốn Học Máy huấn luyện liệu Các kỹ thuật tiền xử lý liệu phổ biến bao gồm: xử lý liệu bị khuyết (missing data), mã hóa biến nhóm (encoding categorical variables), chuẩn hóa liệu (standardizing data), co giãn liệu (scaling data),… Những kỹ thuật tương đối dễ hiểu có nhiều vấn đề phát sinh áp dụng vào liệu thực tế Bởi lẽ liệu ứng với toán thực tế khác tồn đối mặt với thách thức khác mặt liệu Trong viết này, tìm hiểu kỹ thuật tiền xử lý liệu cách áp dụng chúng tốn thực tế Hình 2.1 Khám phá kiến thức trình sở liệu (KDD) Thông thường, liệu cung cấp cho sở liệu chưa sẵn sàng để sử dụng Tiền xử lý liệu (và chuyển đổi Hình 2.1) chuẩn bị liệu để khai thác Quá trình tiền xử lý chuẩn bị liệu cho việc khai thác liệu cách hiệu Các tác vụ tiền xử lý liệu điển sau: — Kết hợp (Aggregation): Nhiệm vụ thực nhiều liệu cần kết hợp thành liệu quy mô liệu thay đổi Chẳng hạn, lưu trữ kích thước hình ảnh cho trang web truyền thơng xã hội, người ta lưu trữ theo chiều rộng chiều cao hình ảnh lưu trữ tương đương theo khu vực hình ảnh (chiều rộng × chiều cao) Lưu trữ vùng hình ảnh giúp tiết kiệm khơng gian lưu trữ có xu hướng giảm phương sai liệu; đó, liệu có khả chống biến dạng nhiễu cao — Rời rạc hóa liệu (Discretization): Xem xét liệu liên tục chuyển đổi thành giá trị riêng biệt- Cao, Bình thường Thấp cách ánh xạ phạm vi khác sang giá trị riêng biệt khác Quá trình chuyển đổi liệu liên tục thành liệu rời rạc định phạm vi liên tục gán cho giá trị riêng biệt gọi rời rạc — Trích chọn đặc trưng (Feature Selection): Thơng thường, tất liệu thu thập hữu ích Một số khơng liên quan, thiếu khả tính tốn để sử dụng tất liệu, số lí khác Trong trường hợp này, tập hợp liệu chọn lý tưởng nâng cao hiệu suất thuật toán khai thác liệu chọn Ví dụ như, tên khách hàng liệu không liên quan đến giá trị thuộc tính lớp nhiệm vụ dự đốn liệu cá nhân có mua sách đc định trước hay khơng — Chuẩn hóa liệu (Feature Extraction): Ngược lại với lựa chọn liệu, chuẩn hóa chuyển đổi liệu thành liệu thực nhiệm vụ khai thác liệu tốt Dữ liệu chuyển đổi trích xuất liệu Ví dụ trích xuất liệu: liệu (khu vực) xây dựng từ hai liệu khác (chiều rộng chiều cao) — Lấy mẫu liệu (Sampling): Thơng thường, việc xử lý tồn liệu tốn Với phát triển mạnh mẽ mạng xã hội, việc xử lý luồng liệu lớn gần Điểu cho thấy tầm quan trọng việc lấy mẫu Trong lấy mẫu, người ta chọn tập hợp ngẫu nhiên xử lý thay xử lí tồn liệu Q trình lựa chọn phải đảm bảo mẫu đại diện cho phân phối, chi phối toàn liệu, đảm bảo kết thu mẫu gần với kết thu toàn liệu Ta có kỹ thuật lấy mẫu sau: + Lấy mẫu ngẫu nhiên (Random sampling): chọn tập hợp tập ngẫu nhiên + Lấy mẫu có khơng có thay (Sampling with or without replacement): Trong lấy mẫu với thay thế, thể chọn nhiều lần mẫu Trong lấy mẫu mà không thay thế, thể xóa khỏi nhóm lựa chọn sau chọn + Lấy mẫu phân tầng (Stratiﬁed sampling): áp dụng lớp giá trị không phân phối đồng tập mẫu Thể tầng thiểu số chọn với tần số lớn để phân phối Sau tiền xử lý thực hiện, liệu sẵn sàng để khai thác *Ý nghĩa tiền xử lí liệu: — Làm liệu (Data cleaning): + Gán giá trị thuộc tính thiếu, Sửa chữa liệu nhiễu/lỗi, Xác định loại bỏ ngoại lai (outliers), Giải mâu thuẫn liệu — Tích hợp liệu (Data integration) + Tích hợp nhiều sở liệu, nhiều khối liệu (data cubes), nhiều tập tin liệu — Biến đổi liệu (Data transformation): + Chuẩn hóa (normalize) kết hợp (aggregate) liệu - Giảm bớt liệu (Data reduction) + Giảm bớt biểu diễn (các thuộc tính) liệu, giảm bớt kích thước liệu – đảm bảo thu kết khai phá liệu tương đương (hoặc xấp xỉ) - Rời rạc hóa liệu (Data discretization) + Là thao tác giảm bớt liệu + Được sử dụng liệu có thuộc tính kiểu số 2.2 Làm liệu: Dữ liệu tập liệu thường cho “dirty” “raw”, trước chúng đưa vào hình thức phù hợp để điều tra, phân tích mơ hình hóa Việc chuẩn bị liệu sử dụng nhiều số liệu thống kê mô tả phương pháp trực quan hóa liệu để hiểu liệu Các tác vụ phổ biến chuẩn bị liệu bao gồm xử lý liệu bị thiếu, xác định liệu sai lệch, ngoại lai xác định cách thức phù hợp để biểu diễn biến 2.2.1 Dữ liệu mát (Missing data) — Các kiểu liệu mát + Missing at random (Dữ liệu khuyết ngẫu nhiên): Sự mát liệu ngẫu nhiên, nhiên có mối quan hệ hệ thống liệu bị mát va liệu quan sát Ví dụ hình người trẻ tuổi bị khuyết liệu IQ, có nghĩa có mối quan hệ hệ thống biến IQ biến tuổi + Missing Completely at Random – Dữ liệu thiếu hoàn toàn ngẫu nhiên Như tên gọi nói lên tất Sự mát liệu đât hoàn tồn ngẫu nhiên, khơng có mối quan hệ hay liên quan liệu liệu nào, missing liệu quan sát Ở ví dụ khơng tìm thấy mối quan hệ giá trị bị thiếu giá trị giữ nguyên + Missing Not at Random – Dữ liệu khuyết không ngẫu nhiên MNAR: Sự mát liệu ngẫu nhiên mà có mối quan hệ xu hướng giá trị bị missing giá trị khơng bị missing biến Ví dụ: hình – người có IQ thấp bị thiếu cịn IQ cao khơng bị thiếu, có nghĩa có liên quan giá trị missing khơng missing biến IQ 2.2.2: Lỗi phần tử ngoại lai: Kiểm tra biến liệu cách sử dụng tóm tắt thống kê , phân phối tần suất, biểu đồ biểu đồ, điểm z, biểu đồ phân tán, hệ số tương quan khác cơng cụ phát vấn đề chất lượng liệu Ví dụ: tìm tối thiểu giá trị tối đa cho Độ sâu Tread liệu TreadWear tiết lộ giá trị khơng thực tế chí có giá trị âm Tread Depth, điều cho thấy vấn đề giá trị Tread Depth cho quan sát Điều quan trọng cần lưu ý nhiều phần mềm, bao gồm Excel, JMP Pro Phân tích Bộ giải, bỏ qua giá trị bị thiếu tính tốn số liệu thống kê tóm tắt khác nhau, chẳng hạn trung bình, độ lệch chuẩn, tối thiểu tối đa Tuy nhiên, thiếu giá trị liệu định giá trị (chẳng hạn 9999999), giá trị sử dụng phần mềm tính tốn 10 Các đặc trưng thể mức độ phổ biến mặt hàng theo tỉ lệ 1-10 tỉ lệ 1-100 Và sử dụng giá trị đặc trưng số học đặc trưng phân loại (categorical) tùy thuộc vào vấn đề cần giải Xử lí tương tác: Các mơ hình học máy có giám sát (supervised learning) thường cố gắng mơ hình hóa đầu (các lớp riêng biệt giá trị liên tục) hàm số biến số đặc trưng đầu vào Ví dụ, phương trình hồi quy tuyến tính đơn giản mơ tả sau: với đặc trưng đầu vào mô tả biến trọng số hệ số thể giá trị dự đoán Trong trường hợp này, mơ hình tuyến tính đơn giản mơ tả mối quan hệ đầu đầu vào hoàn toàn dựa đặc trưng riêng biệt Tuy nhiên thực tế, ta hồn tồn thử nắm bắt tương tác đặc trưng Một mô tả đơn giản phần mở rộng công thức hồi quy tuyến tính với tương tác đặc trưng là: đặc trưng thể Ví dụ với liệu trò chơi Pokemon: 18 Ở từ đặc trưng Attack Defense xây dựng thêm đặc trưng khác cho mơ hình Xử lí Binning: Có vấn đề thường gặp phải với đặc trưng thô, liên tục phân phối giá trị đặc trưng bị sai lệch Điều thể việc số giá trị xuất thường xuyên số giá trị khác lại Bên cạnh có vấn đề khác phạm vi giá trị khác tính Ví dụ, số lượt xem video cụ thể lớn bất thường (như Despacito chẳng hạn) vài video khác nhỏ Sự trực tiếp tính tốn đặc trưng ảnh hưởng xấu đến mơ hình bạn Do đó, cách tiếp cận để đối phó với vấn đề bao gồm xử lý binning biến đổi (transformations) Binning, cịn gọi lượng tử hóa (quantization) sử dụng để biến đổi đặc trưng số liên tục thành dạng đặc trưng phân loại (categorical) riêng biệt Các giá trị số rời rạc coi danh mục bin Trong đó, giác trị số thô, liên tục đánh dấu nhóm lại Mỗi bin đại diện cho mức độ cường độ cụ thể vậy, giá trị số liên tục thuộc số bin Các cách tạo bin cụ thể bao gồm tạo bin theo độ rộng cụ thể (fixed-width) adaptive binning 19 Bảng thơng tin mã lập trình viên,tuổi,thu nhập,… Fixed-Width Binning: Như tên gọi phương pháp này, tạo chiều rộng cụ thể cho bin việc thiết kế chiều rộng xác định trước người phân tích liệu Mỗi bin có phạm vi giá trị cố định gán dựa sở số kiến thức, quy tắc buộc phù hợp với yêu cầu chun mơn tốn Binning dựa việc làm tròn giá trị cách tiếp cận, bạn sử dụng thao tác làm tròn thảo luận Bây giờ, quan sát đặc trưng Age (tuổi) từ liệu khảo sát xem xét phân phối Biểu đồ thể phân phối tuổi developer thấy độ tuổi họ có xu hướng trẻ (lệch phần tuổi hơn) Chúng ta gán giá trị thô vào bin cụ thể dựa theo sơ đồ sau Age Range: Bin - 9: 10 - 19: 20 - 29: 30 - 39: 40 - 49: 50 - 59: 20 60 - 69: and so on Đây kết nhận sau ta chia độ tuổi vào bin Adaptive Binning: Hạn chế việc tạo "bin" có độ rộng cố định cần phải xác đinh, tạo độ rộng cho "bin" cách thủ công Tuy nhiên, kết tạo "bin" khơng đồng dựa số lượng giá trị khoảng Một số "bin" có mật độ cao số khác có mật độ thấp chí rỗng! Adaptive binning phương pháp an toàn kịch Chúng ta để liệu tự nói lên đặc trưng chúng cách sử dụng phân phối liệu để định phạm vi "bin" Binning dựa lượng tử hóa (quantile based) lại phương pháp tốt thường sử dụng adaptive binning Quantiles giá trị cụ thể điểm cắt chia phân phối có giá trị liên tục trường thành phân vùng khoảng liền kề rời rạc Do đó, qQuantiles chia đặc trưng thành q phân vùng Các ví dụ phổ biến phương pháp bao gồm 2-quantiles gọi trung vị (median) chia phân phối thành "bin" nhau, 4-quantiles hay gọi tứ phân chia liệu thành phần 10-quantiles (decile) tạo 10 "bin" có độ rộng Bây giờ, hay xem phân phối liệu cho trường Income đại diện cho thu nhập developer 21 Biểu đồ thể phân thối thu nhập developer với phân chia 4-quantiles Đường màu đỏ biểu đồ đường phân chia bin Chúng ta sử dụng phân chia để tạo bin dựa 4-quantiles Phương pháp cho nhìn rõ ràng cách hoạt động adaptive binning Một điểm quan trọng cần lưu ý kết việc tạo bin dẫn đến đặc trưng phân loại có giá trị riêng biệt cần thêm bước feature engineering dựa đặc trưng phân loại (categorical) để sử dụng mơ hình học máy Statistical Transformations Bây giờ, xem xét phương pháp khác feature engineering sử dụng phép biến đổi thống kê toán học để giải vấn đề Trong phần này, xem xét dạng biến đổi Log transform Box-Cox transform Cả phương pháp biến đổi thuộc họ Power Transform, thường sử dụng để tạo phép biến đổi liệu đơn điệu Ý nghĩa chúng giúp ổn định phương sai, tuân thủ chặt 22 chẽ phân phối chuẩn làm cho liệu độc lập với giá trị trung bình dựa phân phối Biến đổi Log (Log Transform) Biến đổi Log thuộc họ power transform Hàm biểu diễn dạng toán học sau: Logarit tự nhiên sử dụng b = e e = 2.71828 thường gọi số Euler Ngoài số b = 10 sử dụng phổ biến hệ thống thập phân Log transform hữu ích áp dụng cho phân phối không chuẩn bì chúng có xu hướng mở rộng giá trị nằm phạm vi mật độ thấp né giảm giá trị phạm vi mật độ cao Phương pháp giúp biến đổi phân phối bị sai lệch trở thành bình thường Chúng ta tiếp tục sử dụng Log transform với đặc trưng Income 23 Từ biểu đồ thấy rõ ràng sau biến đối giá trị Income tuân theo phân phối chuẩn (Gaussian) so với liệu gốc Biến đối Box-Cox (Box-Cox Transform): Biến đổi Box-Cox hàm biến đổi phổ biến khác thuộc họ power transform Có điều kiện tiên áp dụng phép biến đổi giá trị số biến đổi phải dương Trong trường hợp giá trị âm, shifting cách sử dụng giá trị không đổi Về mặt tốn học, hàm biến đổi Box-Cox ký hiệu sau Output y hàm input x tham số biến đổi λ cho λ=0 kết hàm log nói Giá trị tối ưu λ thường xác định cách sử dụng maximum likelihood log-likelihood estimation Bây giờ, thử sử dụng biến đổi Box-Cox với đặc trưng Income developer Kết thu phân phối liệu sau biến đổi Box-Cox gần với phân phối chuẩn tương tự biến đổi log 2.3.2 Chuẩn hóa liệu: Các điểm liệu đơi đo đạc với đơn vị khác nhau, mét feet chẳng hạn Hoặc có hai thành phần (của vector liệu) chênh lệch lớn, thành phần có khoảng giá trị từ đến 1000, thành phần có khoảng giá trị từ đến chẳng hạn Lúc này, cần chuẩn hóa liệu trước thực bước 24 Chú ý: việc chuẩn hóa thực vector liệu có chiều Một vài phương pháp chuẩn hóa thường dùng: Rescaling: Phương pháp đơn giản đưa tất đặc trưng khoảng, chẳng hạn [0,1] [−1,1] tùy thuộc vào ứng dụng Nếu muốn đưa đặc trưng thứ i vector đặc trưng x khoảng [0,1], cơng thức là: xi x’i giá trị đặc trưng ban đầu giá trị đặc trưng sau chuẩn hóa min(xi), max(xi) giá trị nhỏ lớn đặc trưng thứ i xét toàn điểm liệu tập huấn luyện Standardization: Một phương pháp khác thường sử dụng giả sử đặc trưng có phân phối chuẩn với kỳ vọng phương sai Khi đó, cơng thức chuẩn hóa với ¯ xi,σi kỳ vọng độ lệch chuẩn (standard deviation) đặc trưng xét tồn liệu huấn luyện Scaling to unit length: Một lựa chọn khác sử dụng rộng rãi chuẩn hóa thành phần vector liệu cho tồn vector có độ dài Euclid Việc thực cách chia vector đặc trưng cho `2 norm nó: 2.3.3 Rời rạc hóa liệu: 25 Sự rời rạc (Discretization) q trình biến đổi biến, mơ hình hàm liên tục thành dạng rời rạc Chúng ta thực điều cách tạo tập hợp khoảng (hoặc bin) liền kề qua phạm vi biến / mơ hình / hàm mong muốn Tầm quan trọng rời rạc hóa liệu: Các toán với liệu liên tục có số lượng DoF vơ hạn Một vấn đề địi hỏi phải có mức độ tự hạn chế (DoF) tính tốn khơng thể liên tục Các nhà khoa học liệu yêu cầu sử dụng Discretization số lý Nhiều đóng góp hàng đầu Kaggle sử dụng rời rạc số lý sau: — Phù hợp với xử lí câu lệnh: Thơng thường, dễ hiểu liệu liên tục (như trọng lượng) chia lưu trữ thành danh mục nhóm có ý nghĩa Ví dụ: chia biến liên tục, trọng lượng lưu trữ nhóm sau: Dưới 100 lbs (nhẹ), 140 trừ160 lbs (trung bình) 200 lbs (nặng) Chúng ta xem xét cấu trúc hữu ích thấy khơng có khác biệt khách quan biến thuộc trọng lượng Trong ví dụ chúng tơi, trọng lượng 85 lbs 56 lbs truyền tải thông tin (đối tượng ánh sáng) Do đó, rời rạc giúp liệu dễ hiểu phù hợp với câu lệnh — Diễn giải tính năng: Các tính liên tục có độ tương quan nhỏ so với biến mục tiêu mức độ tự vơ hạn có mối quan hệ phi tuyến tính phức tạp Vì vậy, gặp khó khan việc diễn giải tính Sau rời rạc biến, nhóm tương ứng với mục tiêu diễn giải cách dễ dàng — Khơng tương thích với mơ hình / phương pháp: Một số mơ hình định khơng tương thích với liệu liên tục, ví dụ: mơ hình định thay mơ hình RandomForest khơng phù hợp với liệu liên tục bắt buộc phải rời rạc hóa liệu — Tỷ lệ tín hiệu tạp âm: 26 Khi rời rạc mơ hình, lắp vào bins giảm tác động biến động nhỏ liệu Thông thường, coi dao động nhỏ tiếng ồn Chúng ta giảm tiếng ồn thông qua rời rạc Đây q trình làm mịn hình, bins làm mịn dao động, làm giảm nhiễu liệu Phương pháp tiếp cận:  Unsupervised: — Equal-Width — Equal-Frequency — K-Means  Supervised: — Cây định Equal-Width Discretization: Tách tất giá trị thành N bins, bins có chiều rộng Cơng thức tính chiều rộng chiều rộng: Width = (maximum value - minimum value) / N * N số lượng bins khoảng Kết luận: — Độ rộng không cải thiện giá trị chênh lệch — Nó xử lý ngoại lệ — Có thể kết hợp với mã hóa phân loại Equal-Frequency Discretization: Tách tất giá trị thành “N” bins, bins có số lượng quan sát Khoảng tương ứng với giá trị lượng tử Kết luận: — Tần số không cải thiện lây lan giá trị — Nó xử lý ngoại lệ — Có thể kết hợp với mã hóa phân loại K-Means Discretization: Chúng ta áp dụng phân cụm K-Means cho biến liên tục, chia thành nhóm cụm rời rạc Kết luận: — K-Means không cải thiện lan truyền giá trị — Nó xử lý ngoại lệ, nhiên tồn sai lệch trung tâm — Có thể kết hợp với mã hóa phân loại Rời rạc hóa với định: 27 Chúng sử dụng định để xác định số lượng bins tối ưu Khi mơ hình đưa định, định quan sát cho nút Những quan sát sau phân loại thành đầu riêng biệt cho biến Kết luận: — Cây định không cải thiện giá trị lan truyền — Nó xử lý ngoại lệ tốt mạnh ngoại lệ — Tạo mối quan hệ đơn điệu 2.3.4 Chiếu liệu:  Chiếu liệu (Data Visualization) hay mơ hình hóa liệu việc mô tả liệu cách đơn giản dạng hình ảnh trực quan bảng, biểu đồ, đồ thị… Tầm quan trọng việc chiếu liệu: Việc so sánh hiệu biến đổi nhật ký hai liệu khác minh họa tầm quan trọng việc chiếu liệu Ở đây, chúng tơi cố tình giữ biến đầu vào biến mục tiêu đơn giản để chúng tơi dễ dàng hình dung mối quan hệ chúng Các sơ đồ hình Hình 2-10 tiết lộ mơ hình chọn (tuyến tính) khơng thể biểu thị mối quan hệ đầu vào mục tiêu chọn Mặt khác, người ta mơ hình hóa cách thuyết phục phân phối số lượng đánh giá xếp hạng trung bình Khi xây dựng mơ hình, nên kiểm tra trực quan mối quan hệ đầu vào đầu tính đầu vào khác 28  Data Visualization Khai phá liệu : — Data Visualization bước quan trọng giai đoạn tiền xử lý liệu để xây dựng mơ hình học máy hiệu — Data Visualization giúp hiểu rõ liệu đầu vào bao gồm: phân bố liệu, đặc tính tương quan feature, trực quan liệu bị nhiễu, khuyết thiếu… Những hiểu biết giúp ích lớn q trình lựa chọn traning mơ hình 29 — Data Visualization thể trực quan kết mơ hình, đặc biệt trường hợp cần so sánh kết quả, đánh giá thuật toán xây dựng tài liệu business  Data visualization thường sử dụng giai đoạn : — Giai đoạn tiền xử lý liệu: Trong giai đoạn này, việc mô hình hóa liệu cung cấp hiểu biết liệu đầu vào mà có phân bố, khuyết thiếu, độ nhiễu, giá trị ngoại lai — Giai đoạn trích chọn đặc trưng: Mơ hình hóa liệu giai đoạn thường kết hợp với thuật toán ranking/selection feature để đưa biểu đồ đánh giá, so sánh, bảng score cho feature từ tính tốn phù hợp feature thuật toán, số lượng feature tối ưu — Giai đoạn đánh giá mơ hình: Đây giai đoạn mà việc mơ hình hóa liệu sử dụng nhiều giúp thể kết mơ hình học máy, so sánh kết mơ hình học máy với nhau, kết trình parameter tunning Đặc biệt việc mơ hình hóa liệu giai đoạn cịn phục vụ cho q trình xây dựng tài liệu business, maketing cho sản phẩm 2.3.5 Lấy mẫu liệu: Tầm quan trọng kỹ thuật lấy mẫu liệu: Trong khai phá liệu, lấy mẫu sử dụng kỹ thuật để giảm lượng liệu trình bày cho thuật toán khai phá liệu Các chiến lược khác để giảm liệu bao gồm giảm kích thước, nén liệu phân loại liệu Để lấy mẫu, mục đích rút từ sở liệu mẫu ngẫu nhiên, có đặc điểm giống sở liệu gốc Chương xem xét phương pháp lấy mẫu có sẵn theo truyền thống từ khu vực thống kê, cách phương pháp điều chỉnh phù hợp với lấy mẫu sở liệu nói chung lấy mẫu sở liệu để khai thác liệu nói riêng Có số vấn đề cần xem xét trước có mẫu ngẫu nhiên phù hợp cho nhiệm vụ khai thác liệu Điều cần 30 thiết phải hiểu điểm mạnh điểm yếu phương pháp lấy mẫu Cũng cần phải hiểu phương pháp lấy mẫu phù hợp với loại liệu xử lý thuật toán khai thác liệu sử dụng Đối với mục đích nghiên cứu, cần xem xét nhiều phương pháp lấy mẫu sử dụng nhà thống kê cố gắng điều chỉnh chúng để lấy mẫu để khai thác liệu Một số quy trình lấy mẫu: a Lấy mẫu ngẫu nhiên (Random sampling): Trong lấy mẫu ngẫu nhiên, trường hợp chọn thống từ liệu Nói cách khác, tập liệu có kích thước n, tất trường hợp có xác suất 1/ n chọn Lưu ý phân phối xác suất khác sử dụng để lấy mẫu liệu phân phối khác với thống Đơn giản, dễ thực có khung chọn mẫu hoàn chỉnh Tuy nhiên, mức phân bố mẫu thị trường bị vi phạm tổng thể có kích thước lớn kích thước mẫu nhỏ Vì nhược điểm nêu trên, phương pháp không khả thi tổng thể có kích thước lớn Người ta thường sử dụng để chọn phần tử cho phương pháp lấy mẫu khác chọn điểm xuất phát cho phương pháp lấy mẫu hệ thống b Lấy mẫu phân tầng (Stratiﬁed sampling): Là biến thể chọn mẫu ngẫu nhiên, ta chia liệu thành hay nhiều tầng (nhóm) quan trọng có ý nghĩa, dựa vào hay số thuộc tính Sau đó, số lượng phiên chọn từ lần lấy mẫu ngẫu nhiên Kỹ thuật đặc biệt hữu ích tập liệu khơng có phân phối thống cho giá trị thuộc tính lớp (nghĩa cân lớp) Ví dụ, xem xét gồm 10 nữ nam Một mẫu gồm nữ nam chọn cách sử dụng lấy mẫu phân tầng từ Trên mạng xã hội, lượng lớn thông tin thể dạng mạng Các mạng lấy mẫu cách chọn tập hợp nút cạnh chúng Các 31 nút cạnh chọn phương pháp lấy mẫu nói Chúng ta lấy mẫu mạng cách bắt đầu với tập hợp nhỏ nút (nút giống) mẫu (a) thành phần kết nối mà chúng thuộc về; (b) tập hợp nút (và cạnh) kết nối trực tiếp với chúng; (c) tập hợp nút cạnh nằm khoảng cách n quãng đường từ chúng Việc lấy mẫu cộng đồng thống kê đánh giá cao, họ quan sát rằng, quy trình tính tốn mạnh mẽ hoạt động mẫu liệu thực tế cung cấp độ xác cao so với việc sử dụng toàn sở liệu Trong thực tế, lượng liệu tăng lên, tốc độ tăng độ xác chậm lại, hình thành đường cong quen thuộc Việc lấy mẫu có hiệu hay không phụ thuộc vào tốc độ tăng chậm 32 ...MỤC LỤC 2.1 Tiền xử lý liệu: 2.1.1 Dữ liệu: 2.1.2 Đặc trưng liệu: 2.1.3 Ý nghĩa tiền xử lý liệu: 2.2 Làm liệu: 2.2.1 Dữ liệu mát (Missing data)... trình sở liệu (KDD) Thơng thường, liệu cung cấp cho sở liệu chưa sẵn sàng để sử dụng Tiền xử lý liệu (và chuyển đổi Hình 2.1) chuẩn bị liệu để khai thác Quá trình tiền xử lý chuẩn bị liệu cho... xử lý liệu: Tiền xử lý liệu bước quan trọng việc giải vấn đề lĩnh vực Học Máy Hầu hết liệu sử dụng vấn đề liên quan đến Học Máy cần xử lý, làm biến đổi trước thuật tốn Học Máy huấn luyện liệu

Định dạng
Số trang	32
Dung lượng	1,47 MB

đề tài tiền xử lí dữ liệu

Rời rạc hóa dữ liệu: