5.2.1.1 Tích hợp và chuyển đổi dữ liệu
Mặc dù trong tập dữ liệu về NNN vi phạm quy chế XNC đã có rất nhiều thông tin, nhưng một số thông tin ta cần cho quá trình phân tích lại không sẵn có, do đó cần phải tích hợp từ những nguồn dữ liệu khác để có được những thông tin này. Ví
80
dụ: Thuộc tính nghề_nghiệp cần phải được phân tích trong ứng dụng của chúng ta, nhưng trong dữ liệu gốc không có sẵn thông tin này, ta phải thu thập dữ liệu này dựa vào các nguồn dữ liệu khác như dữ liệu về khách xin nhập cảnh, khách nhập cảnh quả cửa khẩu…. Ta có thể lấy được dữ liệu này bằng cách kết hợp sử dụng những thông tin đã có sẵn như số_hộ_chiếu và quốc_tịch. Sau khi lấy được dữ liệu này về, trong nhiều trường hợp vẫn chưa sử dụng được ngay vì chưa phù hợp nên phải chuyển đổi và chuẩn hóa dữ liệu.
5.2.1.2 Rời rạc hóa dữ liệu
Rời rạc hóa là một kỹ thuật được sử dụng để làm giảm số lượng các giá trị của những thuộc tính có kiểu dữ liệu liên tục. Số lượng phân biệt các giá trị thuộc tính nhỏ hơn sẽ làm cho phương pháp dự báo dựa vào cây quyết định được thực hiện nhanh hơn và dễ hiểu hơn. Lấy ví dụ, trường ngày_sinh (kiểu Date) của người vi phạm là một thuộc tính kiểu liên tục và cần phải rời rạc hóa. Thông thường, nó sẽ được chia ra làm một số khoảng tuổi tương ứng với năm sinh như Trẻ em, Thiếu niên, Thanh niên, Trung niên, Già, Rất già …
5.2.1.3 Thứ bậc khái niệm
Sử dụng kỹ thuật thứ bậc khái niệm với mục đích để giảm số lượng các giá trị phân biệt của các thuộc tính có kiểu dữ liệu xác định. Trong ứng dụng của chúng có thể dùng thứ bậc khái niệm cho thuộc tính Quốc_tịch. Hàng năm, có công dân hàng trăm nước vi phạm quy chế XNC, nếu để nguyên giá trị của thuộc tính quốc_tịch để phân tích thì sẽ thu được một cây quyết định rất sâu và khó hiểu. Do đó ta phải khái quát hóa chúng lên một mức khái niệm cao hơn, để thu được tập dữ liệu thử gọn hơn. Ví dụ: Các nước thuộc Châu Phi thì có thể chia ra thành Bắc Phi, Trung Phi và Nam Phi….