Mục tiêu của bài 4 nhằm giúp người học hiểu được Hiểu và áp dụng được các phương pháp biến đổi dữ liệu phù hợp với yêu cầu nghiên cứu; hiểu và áp dụng được các phương pháp xử lý lỗi phát sinh trong quá trình nhập liệu; tổ chức và làm việc nhóm xây dựng bảng câu hỏi khảo sát, tiến hành khảo sát, nhập và xử lý dữ liệu.
Trang 1PHÂN TÍCH D Ữ LI Ệ U NGHIÊN
C Ứ U V Ớ I SPSS
TIN H Ọ C Ứ NG D Ụ NG
M Ụ C TIÊU
• Hi ể u và áp d ụ ng đượ c các ph ươ ng pháp bi ế n đổ i
d ữ li ệ u phù h ợ p v ớ i yêu c ầ u nghiên c ứ u.
• Hi ể u và áp d ụ ng đượ c các ph ươ ng pháp x ử lý l ỗ i
phát sinh trong quá trình nh ậ p li ệ u.
• T ổ ch ứ c và làm vi ệ c nhóm xây d ự ng b ả ng câu h ỏ i
kh ả o sát, ti ế n hành kh ả o sát, nh ậ p và x ử lý d ữ li ệ u.
Trang 2namth@buh.edu.vn
… những bước chập chững vào thế giới số …
N Ộ I DUNG
• X ử lý d ữ li ệ u trên bi ế n
– Mã hóa biến với công cụRecode
– Chuyểnđịnh dạng của biến
– Tính toán giá trịcủa biến với công cụCompute
– Xửlý câu hỏi có nhiều lựa chọn trảlời
• Làm s ạ ch d ữ li ệ u
– Dữliệu lỗi và các biện pháp khắc phục
– Các phương pháp làm sạch dữliệu
CÁC PHÉP BI Ế N ĐỔ I D Ữ LI Ệ U
• M ụ c đ ích
– Xửlý sai sót trong quá trình mã hóa, nhập liệu
– Biếnđổi dữliệu đểphát hiện mối quan hệgiữa các biến
• Phân lo ạ i
– Xửlý dữliệu trên biến
– Làm sạch dữliệu
Trang 3namth@buh.edu.vn
… những bước chập chững vào thế giới số …
X Ử LÝ D Ữ LI Ệ U TRÊN BI Ế N
• Mã hóa bi ế n v ớ i công c ụ Recode
• Chuy ể n đị nh d ạ ng c ủ a bi ế n
• Tính toán giá tr ị c ủ a bi ế n v ớ i công c ụ Compute
• X ử lý câu h ỏ i có nhi ề u l ự a ch ọ n tr ả l ờ i
MÃ HÓA BI Ế N V Ớ I RECODE
• M ụ c đ ích
– Biếnđổi trịsốdữliệu bằng cách mã hóa lại chúng
• Đ i ề u ki ệ n áp d ụ ng
– Giảm số biểu hiện của một biếnđịnh tính xuống chỉ còn
hai hoặc ba loại biểu hiện cơbản
– Chuyển biếnđịnh lượng thành biếnđịnh tính
Trang 4namth@buh.edu.vn
… những bước chập chững vào thế giới số …
MÃ HÓA BI Ế N V Ớ I RECODE
• Quy trình th ự c hi ệ n
– Gọi thực hiện chức năng Transform -> Recode -> Into
Different Variables (giữ nguyên biến gốc, tạo biến mới)
– Chọn biến muốn mã hóa lại
– Đặt tên và nhãn cho biến mới, nhấn nút Change để xác
nhận
– Nhấn nút Old and New Values để xác định sự chuyển
đổi giá trịgiữa biến cũvà biến mới
– Gán các nhãn giá trịcho biến vừa tạo
MÃ HÓA BI Ế N V Ớ I RECODE
Trang 5namth@buh.edu.vn
… những bước chập chững vào thế giới số …
CHUY Ể N ĐỊ NH D Ạ NG C Ủ A BI Ế N
• M ụ c đ ích
– Chuyển biến dạng phân loại Category nhiều trịsố thành
biến phân loại Dichotomy có hai trịsố
• Ví d ụ
– BankAccount là biến phân loại, cho biết tên ngân hàng
quản lý tài khoản lương của ngườiđược hỏi
– SalaryThrBank là biến phân loại, cho biết người được
hỏi có nhận lương qua ngân hàng VCB hay không
CHUY Ể N ĐỊ NH D Ạ NG C Ủ A BI Ế N
• Quy trình th ự c hi ệ n
– Gọi thực hiện chức năng Transform -> Count
– Khai báo tên và nhãn của biến Dichotomy
– Cung cấp (các) biến Category có liên quan tới biến
Dichotomy
– Cung cấp trị sốmã hóa của (các) biến Category có liên
quan tới biến Dichotomy
– Gán nhãn các giá trịcủa biến Dichotomy
Trang 6namth@buh.edu.vn
… những bước chập chững vào thế giới số …
CHUY Ể N ĐỊ NH D Ạ NG C Ủ A BI Ế N
LÀM S Ạ CH D Ữ LI Ệ U
• D ữ li ệ u l ỗ i và các bi ệ n pháp kh ắ c ph ụ c
• Các ph ươ ng pháp làm s ạ ch d ữ li ệ u
Trang 7namth@buh.edu.vn
… những bước chập chững vào thế giới số …
D Ữ LI Ệ U L Ỗ I
• L ỗ i mã hóa d ữ li ệ u
• L ỗ i nh ậ p d ữ li ệ u
• L ỗ i v ề tính nh ấ t quán c ủ a d ữ li ệ u
L Ỗ I MÃ HÓA D Ữ LI Ệ U
• Mô t ả
– Dữ liệu nhập không phản ánh đúng ý nghĩa của thông
tin do ngườiđược hỏi cung cấp
• Nguyên nhân
– Mã hóa sai thông tin do ngườiđược hỏi cung cấp
Trang 8namth@buh.edu.vn
… những bước chập chững vào thế giới số …
L Ỗ I NH Ậ P D Ữ LI Ệ U
• Mô t ả
– Dữ liệu nhập khôngđúng với bảng mã theo thông tin do
ngườiđược hỏi cung cấp
• Nguyên nhân
– Mãđọc sai
– Mãđọcđúng nhưng lỗi dođánh máy
L Ỗ I NH Ấ T QUÁN D Ữ LI Ệ U
• Mô t ả
– Không nhất quán giữa các câu trả lời của cùng một đối
tượngđược hỏi
• Nguyên nhân
– Lỗi mã hóa dữliệu
– Lỗi nhập dữliệu
– Lỗi dođối tượngđược hỏi cung cấp sai thông tin
Trang 9namth@buh.edu.vn
… những bước chập chững vào thế giới số …
KH Ắ C PH Ụ C L Ỗ I MÃ HÓA VÀ NH Ậ P LI Ệ U
• Nh ậ p toàn b ộ s ố li ệ u hai l ầ n b ở i hai ng ườ i độ c l ậ p
• Nh ậ p toàn b ộ s ố li ệ u m ộ t l ầ n, nh ậ p l ầ n hai 20% b ộ
s ố li ệ u (ch ọ n ng ẫ u nhiên) b ở i hai ng ườ i độ c l ậ p
LÀM S Ạ CH D Ữ LI Ệ U
• S ự c ầ n thi ế t
– Xử lý các lỗi phát sinh trong quá trình mã hóa dữ liệu,
nhập dữliệu
– Đảm bảo tính nhất quán của dữliệu
• Các bi ệ n pháp ng ă n ng ừ a
– Thiết kếbảng câu hỏi rõ ràng, dễtrảlời
– Chọn lọc và huấn luyện điều tra viên
– Các bảng câu hỏi cần kiểm tra, xử lý lỗi trước khi nhập
Trang 10namth@buh.edu.vn
… những bước chập chững vào thế giới số …
LÀM S Ạ CH D Ữ LI Ệ U
• K ế t h ợ p s ử d ụ ng MS Excel và SPSS để phát hi ệ n,
x ử lý l ỗ i và làm s ạ ch d ữ li ệ u
– Sửdụng Excel (Max, Min, Auto Filter, Scatter)
– Sửdụng SPSS (Scatter, Frequency, Charts, Box Plots)
• Quy trình th ự c hi ệ n
– Dùng công cụ đểphát hiện giá trị“lạ” của mỗi biến
– Tìm bản ghi chứa giá trị“lạ”
– Chỉnh sửa/loại bỏbản ghi chứa giá trịlạ
LÀM S Ạ CH D Ữ LI Ệ U V Ớ I MS EXCEL
• Ví d ụ
– Sửdụng hàm MIN, MAXđối với biến Age
– Sửdụng công cụAutoFilter đối với biến Gender
– SửdụngđồthịScatterđối với biến Childrens
Trang 11namth@buh.edu.vn
… những bước chập chững vào thế giới số …
LÀM S Ạ CH D Ữ LI Ệ U V Ớ I MS EXCEL
• S ử d ụ ng hàm MIN, MAX đố i v ớ i bi ế n Age
– Đối với dữ liệu người tiêu dùng, độ tuổi khảo sát từ 18
đến 60
– Giá trịnằm ngoài vùng 18 – 60 là dữliệu lỗi
LÀM S Ạ CH D Ữ LI Ệ U V Ớ I MS EXCEL
• S ử d ụ ng công c ụ AutoFilter đố i v ớ i bi ế n Gender
– Biến Gender chỉ có hai giá trị Male và Female, những
giá trịkhác (hoặcđểtrống) là lỗi nhập liệu
Trang 12namth@buh.edu.vn
… những bước chập chững vào thế giới số …
LÀM S Ạ CH D Ữ LI Ệ U V Ớ I MS EXCEL
• S ử d ụ ng đồ th ị Scatter đố i v ớ i bi ế n Age
LÀM S Ạ CH D Ữ LI Ệ U V Ớ I MS EXCEL
• S ử d ụ ng đồ th ị Scatter đố i v ớ i bi ế n Age
Trang 13namth@buh.edu.vn
… những bước chập chững vào thế giới số …
LÀM S Ạ CH D Ữ LI Ệ U V Ớ I SPSS
• Ví d ụ
– Sửdụng công cụFrequencies đối với biến Gender
– Sửdụng công cụCharts đối với biến Literacy
– Sửdụng công cụHistogram đối với biến Age
LÀM S Ạ CH D Ữ LI Ệ U V Ớ I SPSS
• S ử d ụ ng công c ụ Frequencies đố i v ớ i bi ế n Gender
Trang 14namth@buh.edu.vn
… những bước chập chững vào thế giới số …
LÀM S Ạ CH D Ữ LI Ệ U V Ớ I SPSS
• S ử d ụ ng công c ụ Frequencies đố i v ớ i bi ế n Gender
LÀM S Ạ CH D Ữ LI Ệ U V Ớ I SPSS
• S ử d ụ ng công c ụ Charts đố i v ớ i bi ế n Literacy
Trang 15namth@buh.edu.vn
… những bước chập chững vào thế giới số …
LÀM S Ạ CH D Ữ LI Ệ U V Ớ I SPSS
• S ử d ụ ng công c ụ Charts đố i v ớ i bi ế n Literacy
LÀM S Ạ CH D Ữ LI Ệ U V Ớ I SPSS
• S ử d ụ ng công c ụ Histogram đố i v ớ i bi ế n Age