Tiền xử lý dữ liệu

Một phần của tài liệu (LUẬN văn THẠC sĩ) nghiên cứu phương pháp phân tích hồi quy ứng dụng trong phân tích dữ liệu kê khai nộp thuế phục vụ thanh tra​ (Trang 70 - 72)

Chương 2 Mơ hình hồi quy tuyến tính

3.3. Các bước xây dựng mô hình giải quyết bài tốn

3.3.4 Tiền xử lý dữ liệu

Với dữ liệu của ngành thuế được cung cấp dưới khuôn dạng Excel như trong bảng 3.1.a tiến hành tiền xử lý dữ liệu theo phương thức như sau:

Bảng 3.1.a. Dữ liệu thô do ngành thuế cung cấp

Thực hiện xử lý dữ liệu thô.

- Xử lý dữ liệu bị thiếu (missing data) + Định nghĩa của dữ liệu bị thiếu

‡ Dữ liệu khơng có sẵn khi cần được sử dụng + Nguyên nhân gây ra dữ liệu bị thiếu

‡ Khách quan (không tồn tại lúc được nhập liệu, sự cố, …) ‡ Chủ quan (tác nhân con người)

‡ Bỏ qua

‡ Xử lý tay (không tự động, bán tự động)

‡ Dùng giá trị thay thế (tự động): hằng số tồn cục, trị phổ biến nhất, trung bình tồn cục, trung bình cục bộ, trị dự đốn, …

‡ Ngăn chặn dữ liệu bị thiếu: thiết kế tốt CSDL và các thủ tục nhập liệu (các ràng buộc dữ liệu)

- Nhận diện phần tử biên (outliers) và giảm thiểu nhiễu (noisy data) + Định nghĩa

‡ Outliers: những dữ liệu (đối tượng) khơng tn theo đặc tính/hành vi chung của tập dữ liệu (đối tượng).

‡ Noisy data: outliers bị loại bỏ (rejected/discarded outliers) như là những trường hợp ngoại lệ (exceptions).

+ Nguyên nhân

‡ Khách quan (công cụ thu thập dữ liệu, lỗi trên đường truyền, giới hạn công nghệ, …)

‡ Chủ quan (tác nhân con người) + Giải pháp nhận diện phần tử biên

‡ Dựa trên phân bố thống kê (statistical distribution-based) ‡ Dựa trên khoảng cách (distance-based)

‡ Dựa trên mật độ (density-based) ‡ Dựa trên độ lệch (deviation-based) + Giải pháp giảm thiểu nhiễu

‡ Binning

‡ Hồi quy (regression)

‡ Phân tích cụm (cluster analysis)

- Xử lý dữ liệu không nhất quán (inconsistent data) + Định nghĩa của dữ liệu không nhất quán

‡ Dữ liệu được ghi nhận khác nhau cho cùng một đối tượng/thực thể ‡ Dữ liệu được ghi nhận không phản ánh đúng ngữ nghĩa cho các đối tượng/thực thể

+ Nguyên nhân

‡ Sự không nhất quán trong các qui ước đặt tên hay mã dữ liệu ‡ Định dạng không nhất quán của các vùng nhập liệu

‡ Thiết bị ghi nhận dữ liệu, … + Giải pháp

+ Tận dụng siêu dữ liệu, ràng buộc dữ liệu, sự kiểm tra của nhà phân tích dữ liệu cho việc nhận diện

+ Điều chỉnh dữ liệu không nhất quán bằng tay + Các giải pháp biến đổi/chuẩn hóa dữ liệu tự động

Kết thúc quá trình tiền xử lý dữ liệu Áp dụng cơng thức tính điểm rủi ro cho các cột dữ liệu đầu vào (xem phụ lục) và tính tốn điểm rủi ro cho thuộc tính nhãn, ta thu được bộ dữ liệu huấn luyện và bộ dữ liệu kiểm tra sử dụng để xây dựng và kiểm tra mơ hình.

Một phần của tài liệu (LUẬN văn THẠC sĩ) nghiên cứu phương pháp phân tích hồi quy ứng dụng trong phân tích dữ liệu kê khai nộp thuế phục vụ thanh tra​ (Trang 70 - 72)

Tải bản đầy đủ (PDF)

(97 trang)