WHO (Linnemayr và Alderman, 2008) định nghĩa dữ liệu nhân trắc học dùng trong phân tích nên loại bỏ các trường hợp bất thường theo hai cách như sau:
Cách 1: Loại bỏ tất cả các chỉ số z nằm ngoài khoảng +/- 4 so với chỉ số z trung bình của mẫu quan sát, riêng HAZ thì giá trị lớn nhất là +3.
Cách 2: Trong trường hợp giá trị trung bình của chỉ số z trong mẫu quan sát lớn hơn -1,5 thì chọn HAZ thuộc [-5, +3], WAZ thuộc [-5, +5] và WHZ thuộc [-4, +5].
Do giá trị trung bình của HAZ, WAZ và WHZ trong mẫu quan sát của đề tài lần lượt là - 1,175; -1,039; và -0,514 (phụ lục 2) đều lớn hơn -1,5. Do vậy, đề tài áp dụng lọc dữ liệu theo cách 2.
Phụ lục 4: Cách tính chỉ số điểm tài sản (wealth index score)
Chỉ số điểm tài sản (wealth index score: WIS) được tính dựa vào phân tích thành phần chính (principal component analysis: PCA) các tài sản của hộ gia đình. Tài sản sử dụng trong tính tốn là các vật dụng lâu bền (durable assets). Theo số liệu có được từ VHLSS (2006) và theo cách tính của Shea Oscar Rutstein (2004), Seema Vyas (2006), đề tài chọn các tài sản sau để tính chỉ số điểm tài sản: xe đạp; xe máy; điện thoại bàn; điện thoại di động; đầu video; dàn nghe nhạc các loại, máy thu thanh, máy quay đĩa; máy vi tính; máy giặt, sấy quần áo; bình tắm nước nóng; bếp gas; bếp điện, nồi cơm điện, nồi áp suất; giường, phản, sập; bàn ghế, xa lông, tràng kỷ.
PCA là kỹ thuật phân tích đa biến được dùng để thu gọn nhiều biến trong tập dữ liệu thành một biến duy nhất nhưng thể hiện đầy đủ các đặc trưng của các biến được thu gọn. Phân tích PCA sẽ cho ra các thành phần chính (principal components: PCs). Ví dụ ta có tập hợp n tài sản: X1, …, Xn. Thì các thành phần chính sẽ có dạng như sau:
PC1=a11X1+a12X2+ … +a1nXn …
PCm=am1X1+am2X2+ … +amnXn
Trong đó, amn là trọng số của thành phần chính thứ m tương ứng với biến thứ n.
Tuy nhiên, chỉ có thành phần chính thứ nhất PC1 là thể hiện đầy đủ nhất thơng tin cần có. Do vậy ta chỉ cần tìm các trọng số a11, …, a1n. Các trọng số này là véc tơ riêng của ma trận tương quan.
Sau khi phân tích PCA, ta có được các trọng số a11, …, a1n. Sử dụng các trọng số này kết hợp với các giá trị hiện tại của các tài sản tương ứng, ta có được các biến phụ thuộc (Y) biểu thị thu nhập cho từng hộ gia đình. Sau đó ta chuẩn hóa các biến phụ thuộc này về chỉ số điểm tài sản sao cho chúng có giá trị trung bình bằng 0 và độ lệch chuẩn bằng 1.