Mã hoá các thông tin trong cơ sở dữ liệu là vấn đề rất quan trọng và có ảnh hưởng đến việc xử lý tính toán cũng như kết quả của việc tính toán đó. Có nhiều vấn đề đòi hỏi chúng ta phải mã hoá các thông tin, ở đây chúng ta có thể tạm thời phân ra làm 2 loại:
- Mã hoá cho các dữ liệu mang tính định tính, ví dụ như: sự đánh giá, tên của các mẫu v.v...
- Mã hoá cho các thông tin định lượng bị thiếu hoặc vượt trội.
Việc mã hoá này phải được thống nhất từ đầu đến cuối của một cơ sở dữ liệu và phải được ghi chú hay chú thích cẩn thận tránh nhầm lẫn đáng tiếc ảnh hưởng đến kết quả phân tích sau này.
Đầu tiên, khi mở một tệp cơ sở dữ liệu chúng ta nhận thấy có các số thứ tự khác nhau theo dòng hoặc cột đó chính là các thông tin cho phép chúng ta đưa ra các nhận dạng về các mẫu điều tra để phân biệt giữa chúng được gọi là mã số của hộ điều tra. Những thông tin nhận dạng thường được thể hiện dưới dạng số và có thể có nhiều hơn một dòng hoặc cột.
Ví dụ: Thông tin về vùng, khu vực nghiên cứu thường được thể hiện thành nhiều dòng hoặc cột.
Nếu với mỗi phiếu điều tra có nhiều thông tin không thể thể hiện đủ trong 1 bảng tính thì ở bảng tính tiếp theo cũng phải bao gồm các thông tin nhận dạng để có thể theo dõi dễ dàng và không bị nhầm lẫn.
2.3.1. Mã hoá các thông tin định tính
Máy tính chỉ có thể phân tích số liệu dưới dạng số vì thế những thông tin định tính cần phải được mã hoá trong khi nhập số liệu vào máy để dễ dàng cho việc xử lý sau này.
Những thông tin lựa chọn có/không sẽ được nhập là 1 và 0. Các thông tin có nhiều sự lựa chọn câu trả lời sẽ được phân thành các nhóm khác nhau:
Ví dụ: Khi hỏi về trình độ văn hoá, chúng ta phân ra các hình thức sau: mù chữ, Tiểu học. THCS, THPT, Đại học; khi đó chúng ta sẽ mã hoá theo các số thứ tụ từ 0 đến 4 (Mù chữ = 0; .... Đại học = 4).