Rời rạc hóa dữ liệu: - đề tài tiền xử lí dữ liệu

Sự rời rạc (Discretization) là quá trình chúng ta có thể biến đổi các biến, mô hình hoặc hàm liên tục thành một dạng rời rạc. Chúng ta thực hiện điều này bằng cách tạo một tập hợp các khoảng (hoặc bin) liền kề đi qua phạm vi của biến / mô hình / hàm mong muốn.

1. Tầm quan trọng của rời rạc hóa dữ liệu:

Các bài toán với dữ liệu liên tục có số lượng DoF vô hạn. Một vấn đề như vậy sẽ đòi hỏi phải có mức độ tự do hạn chế (DoF) vì tính toán của chúng ta không thể luôn liên tục. Các nhà khoa học dữ liệu yêu cầu sử dụng Discretization vì một số lý do. Nhiều đóng góp hàng đầu trên Kaggle sử dụng sự rời rạc vì một số lý do sau:

— Phù hợp với xử lí câu lệnh:

Thông thường, chúng ta sẽ dễ hiểu dữ liệu liên tục (như trọng lượng) khi được chia và lưu trữ thành các danh mục hoặc nhóm có ý nghĩa. Ví dụ: chúng ta có thể chia một biến liên tục, trọng lượng và lưu trữ nó trong các nhóm sau: Dưới 100 lbs (nhẹ), giữa 140 trừ160 lbs (trung bình) và hơn 200 lbs (nặng)

Chúng ta sẽ xem xét cấu trúc hữu ích nếu chúng ta thấy không có sự khác biệt khách quan giữa các biến thuộc cùng một trọng lượng.

Trong ví dụ của chúng tôi, trọng lượng 85 lbs và 56 lbs truyền tải cùng một thông tin (đối tượng là ánh sáng). Do đó, sự rời rạc giúp dữ liệu của chúng ta dễ hiểu hơn nếu nó phù hợp với câu lệnh.

— Diễn giải tính năng:

Các tính năng liên tục có độ tương quan nhỏ hơn so với biến mục tiêu do mức độ tự do vô hạn và có thể có mối quan hệ phi tuyến tính phức tạp. Vì vậy, chúng ta có thể gặp khó khan hơn trong việc diễn giải tính năng này. Sau khi rời rạc một biến, các nhóm tương ứng với mục tiêu có thể được diễn giải một cách dễ dàng hơn.

— Không tương thích với các mô hình / phương pháp:

Một số mô hình nhất định có thể không tương thích với dữ liệu liên tục, ví dụ: các mô hình cây quyết định thay thế như mô hình Random- Forest không phù hợp với dữ liệu liên tục thì bắt buộc phải rời rạc hóa dữ liệu.

Khi chúng tôi rời rạc một mô hình, chúng ta sẽ lắp nó vào bins và giảm tác động của biến động nhỏ trong dữ liệu. Thông thường, chúng ta sẽ coi những dao động nhỏ là tiếng ồn. Chúng ta có thể giảm tiếng ồn này thông qua sự rời rạc. Đây là quá trình làm mịn màn hình, trong đó mỗi bins làm mịn các dao động, do đó làm giảm nhiễu trong dữ liệu. 2. Phương pháp tiếp cận:  Unsupervised: — Equal-Width — Equal-Frequency — K-Means  Supervised: — Cây quyết định 3. Equal-Width Discretization:

Tách tất cả các giá trị có thể thành N bins, mỗi bins có cùng chiều rộng. Công thức tính chiều rộng chiều rộng:

Width = (maximum value - minimum value) / N

* trong đó N là số lượng bins hoặc khoảng. Kết luận:

— Độ rộng bằng nhau không cải thiện giá trị chênh lệch. — Nó có thể xử lý các ngoại lệ.

— Có thể được kết hợp với mã hóa phân loại. 4. Equal-Frequency Discretization:

Tách tất cả các giá trị có thể thành “N” bins, mỗi bins có cùng số lượng quan sát. Khoảng tương ứng với các giá trị lượng tử.

Kết luận:

— Tần số bằng nhau không cải thiện sự lây lan giá trị. — Nó có thể xử lý các ngoại lệ.

— Có thể được kết hợp với mã hóa phân loại. 5. K-Means Discretization:

Chúng ta áp dụng phân cụm K-Means cho biến liên tục, do đó chia nó thành các nhóm hoặc cụm rời rạc.

Kết luận:

— K-Means không cải thiện sự lan truyền giá trị

— Nó có thể xử lý các ngoại lệ, tuy nhiên có thể tồn tại sai lệch trung tâm.

— Có thể được kết hợp với mã hóa phân loại 6. Rời rạc hóa với cây quyết định:

Chúng tôi sử dụng cây quyết định để xác định số lượng bins tối ưu. Khi mô hình đưa ra quyết định, nó chỉ định một quan sát cho mỗi nút. Những quan sát này sau đó được phân loại thành đầu ra riêng biệt cho các biến.

Kết luận:

— Cây quyết định không cải thiện giá trị lan truyền.

— Nó có thể xử lý các ngoại lệ tốt vì cây rất mạnh đối với các ngoại lệ.

— Tạo mối quan hệ đơn điệu.