Kiểu của các biến

Một phần của tài liệu Neuron Network - Ứng dụng mạng neuron truyền thẳng trong dự báo dữ liệu (Trang 43 - 44)

Các biến dữ liệu có thểđược chia thành hai loại dựa trên các đặc điểm, tính chất của chúng (Có thể tham khảo ở [2][5][6][10][13][14]):

3.2.1.1. Biến phân loại (Categorical Variables)

Các biến này thường không có thứ tự xác định, nghĩa là giữa chúng không xác định được các phép toán như: “lớn hơn” hay “nhỏ hơn”. Các biến này nằm trong các giá trị đưa vào không có giá trị số nhưng được gán các giá trị số trong đầu vàọ Ví dụ, biến “kiểu màu”, có thể nhận các giá trị “đỏ”, ”xanh”, và “vàng” là một biến phân loạị Giới tính cũng là biến kiểu nàỵ Các dữ liệu số cũng có thể thuộc loại này, ví dụ như: “mã vùng”, “mã nước”. Các biến thuộc loại này có thể được đưa vào mạng bằng sơ đồ mã hóa 1-of-c (1-of-c

encoding scheme), sơđồ này mã hóa các giá trị của biến thành các xâu nhị phân có chiều dài bằng số các giá trị mà biến có thể nhận trong phạm vi bài toán. Một bit sẽđược bật lên tuỳ theo giá trị của biến, các bit còn lại sẽ được đặt bằng 0. Trong ví dụ trên, biến “kiểu màu” cần ba biến vào, tương ứng với ba màu được thể hiện bằng các xâu nhị phân: (1,0,0), (0,1,0) and (0,0,1).

Một cách khác để mã hóa các biến phân loại là thể hiện tất cả các giá trị có thể vào một biến đầu vào liên tục. Ví dụ, các giá trị “đỏ”, ”xanh”, và “vàng” có thể được thể hiện bởi

Thu thập, phân tích dữ liệu

Tiền xử lý

Mạng nơron

các giá trị số 0.0, 0.5, và 1.0. Điểm không tốt của phương pháp này là nó tạo ra một trật tự

nhân tạo trên dữ liệu mà trên thực tế, thứ tự này không hề có. Nhưng đối với các biến với một số lượng lớn các phân loại, phương pháp này có thể giảm rất nhiều sốđơn vịđầu vàọ

3.2.1.2. Biến có thứ tự (Ordinal Variables)

Các biến này có xác định thứ tự tự nhiên. Chúng có thể được chuyển trực tiếp thành các giá trị tương ứng của một biến liên tục với một tỷ lệ nào đó.

Một phần của tài liệu Neuron Network - Ứng dụng mạng neuron truyền thẳng trong dự báo dữ liệu (Trang 43 - 44)

Tải bản đầy đủ (PDF)

(80 trang)