Các phương pháp làm sạch dữ liệu

Một phần của tài liệu Bài giảng tin học đại cương chương 6 học viện ngân hàng (Trang 52 - 59)

• Dùng bảng tần số

Bảng tần số cho biết với tập dữ liệu đang có thì số đối tượng có các giá trị nào đó ở một thuộc tính cụ thể sẽ là bao nhiêu, nhiều hay ít… Bảng tần số dùng được cho tất cả các biến định tính cũng như định lượng. Để phát hiện và chỉnh sửa các lỗi khi nhập liệu, ta thực hiện theo 2 bước sau:

- Lập bảng tần số cho tất cả các biến, đọc soát để tìm các giá trị lạ.

- Tại các biến có lỗi, dùng lệnh Find để tìm ra lỗi ở từng biến rồi chỉnh sửa.

Ví dụ: ta đã quy ước mã hóa 1 đại diện cho nam và 2 đại diện cho nữ trong tệp dữ liệu

DataSPSS_Docbao.sav, giả sử ở dòng dữ liệu đầu tiên ta nhập giới tính là 11.

5212/4/15 12/4/15

6.2- Dữ liệu trong SPSS

Bước 1: Lập bảng tần số Giới tính

- Kích chọn mục menu Analyze/Descriptive Statistics/ Frequencies… xuất hiện hộp hội thoại Frequencies:

./ Chọn biến Gioitinh là biến muốn lập bảng tần số rồi kích chọn biểu tượng mũi tên sang phải để đưa biến Gioitinh vào khung Variable(s) rồi bấm OK. Kết quả ta có 2 bảng sau: Bảng 1

6.2- Dữ liệu trong SPSS

Bảng 2:

- Cột đầu tiên thể hiện các giá trị của biến giới tính, ở đây ta thấy biến giới tính có 3 giá trị là: Nam,

Nữ và 11⟹ nhập sai giá trị 11.

- Cột Frequency: là tần số của từng giá trị, được tính bằng cách đếm số lần xuất hiện.

- Cột Percent: tần suất tính theo tỉ lệ %, được tính bằng cách lấy tần số của mỗi giá trị chia cho tổng số quan sát. - Cột Valid Percent: là % hợp lệ, tính trên số quan sát có thông tin trả lời.

- Cột Cumulative Percent: là % tích lũy do cộng dồn các % từ trên xuống.

Ví dụ trên ta có: giới tính Nam có 31 trường hợp (chiếm 62%), giới tính Nữ có 18 trường hợp (chiếm 36%), giới tính 11 có 1 trường hợp (chiếm 2%).

5412/4/15 12/4/15

6.2- Dữ liệu trong SPSS

Bước 2: Chỉnh sửa lỗi

Theo kết quả của bảng tần số, ta thấy có giá trị giới tính nhập sai là 11. Để sửa giá trị này ta thực hiện như sau:

- Tại cửa sổ Data View, kích chọn cột gtinh, trong menu Edit, chọn mục Find, xuất hiện hộp hội thoại Find and Repalce, nhập giá trị 11 vào ô Find, nhấn Find Next để tìm vị trí ô có giá trị 11, sửa trực tiếp lên ô có giá trị sai.

Ưu điểm của phương pháp: đơn giản, dễ thực hiện.

Nhược điểm của phương pháp: thủ công, phát hiện ít lỗi, chỉ phù hợp với các bảng câu hỏi đơn giản.

Dùng bảng phối hợp 2 hay 3 biến

Dùng lệnh Select Cases để kết hợp một nhóm các biến với nhau, và dựa vào mối quan hệ logic giữa các biến để phát hiện ra lỗi. Ví dụ: lập bảng kết hợp biến tuổi và biến nghề nghiệp, với mối quan hệ logic nghề nghiệp là Giáo viên (mã nghề giáo viên =2) thì phải có tuổi >=21. Các bước thực hiện như sau:

- Kích chọn menu Data – Select Cases…xuất hiện hộp hội thoại Select Cases, kích chọn mục If condition is satisfied.

- Kích chọn nút If… nằm kế dưới, xuất hiện hộp thoại Select Case: If cho phép xây dựng biểu thức logic giữa các biến.

5612/4/15 12/4/15 (adsbygoogle = window.adsbygoogle || []).push({});

6.2- Dữ liệu trong SPSS

- Xây dựng biểu thức logic giữa 2 biến tuổi và nghề nghiệp: kích chọn biến tuoi, nghe để đưa chúng sang khung nhập hàm bên phải và gõ công thức như hình sau.

Bấm Continue để trở lại hộp thoại Select Case, và bấm OK, kết quả ta có như sau: Chú ý: khi lệnh này

được thực hiện SPSS sẽ tự động tạo một biến mới đặt tên là filter_$, biến này nhận giá trị 0 tại các trường hợp không thỏa mãn điều kiện và nhận giá trị 1

tại các trường hợp thỏa mãn điều kiện (trường hợp lỗi). Bên cạnh đó các ô ghi tên hàng sẽ được gạch chéo tại các hàng không thỏa mãn điều kiện.

12/4/15 58

Trong trường hợp số hàng của dữ liệu quá nhiều thì việc tìm các hàng có giá trị 1 ở biến filter_$ để chỉnh sửa dữ liệu cũng mất nhiều thời gian. Ta có thể dùng lệnh Sort Case trong menu Data để sắp xếp dữ liệu theo hướng tăng dần hoặc giảm dần của biến filter_$, khi đó các hàng có filter_$=1 sẽ nằm cùng một chỗ, tạo điều kiện thuận lợi cho việc chỉnh sửa dữ liệu.

Sau khi thực hiện thành công lệnh Select Case, ta cần trở về lại hộp thoại Select Case, kích chọn mục All cases để hủy bỏ việc lọc dữ liệu, nếu không các lệnh thống kê sau đó chỉ thực hiện với những trường hợp được lọc.

Ưu điểm của phương pháp: phát hiện được các lỗi logic và phù hợp với các bảng câu hỏi phức tạp.

Nhược điểm của phương pháp: phức tạp, việc xác định điều kiện logic giữa các biến phụ thuộc vào kinh nghiệm của người thực hiện.

Một phần của tài liệu Bài giảng tin học đại cương chương 6 học viện ngân hàng (Trang 52 - 59)