Mã hóa lại Recode Recode là công cụ dùng để mã hóa lại các giá trị trong một biến thành các giá trị mã hóa mới phù hợp với đòi hỏi của quá trình phân tích dữ liệu.. Mã hóa lại vào một bi
Trang 1CHƯƠNG 5: CÁC PHÉP BIẾN ĐỔI VÀ THAO TÁC TRÊN TẬP DỮ LIỆU
1 Mã hóa lại (Recode)
Recode là công cụ dùng để mã hóa lại các giá trị trong một biến thành các giá trị mã hóa mới phù hợp với đòi hỏi của quá trình phân tích dữ liệu Ví dụ đối với câu hỏi nguồn gốc nhận biết quảng cáo của sản phẩm X, người trả lời có thể trả lời cụ thể trên báo Sài Gòn, Tuổi Trẻ, Tạp chí Sức Khỏe và Đời sống, Trên đài HTV7, Trên đài VTV3, … Có thể ban đầu các nguồn quảng cáo được mã hóa một cách riêng biệt Tuy nhiên do nhu cầu xữ lý sau này, người nghiên cứu muốn nhóm các giá trị được
mã hóa riêng biệt này thành ba loại nguồn quảng cáo chính là Báo, Tạp Chí và Tivi Công cụ Recode cho phép ta định lại các giá trị riêng biệt về nguồn quảng cáo ban đầu thành ba nguồn quảng cáo chung là Báo, Tivi và tạp chí
SPSS cung cấp cho ta hai loại Recode là Recode trên cùng một biến (Recode into same variables) và recode vào biến khác (Recode into different variable)
1.1 Mã hóa lại trên cùng một biến (Recode into same variables)
Recode trên cùng một biến là mã hóa lại những giá trị trong một biến hiện hữu thành những giá trị mới và các giá trị mới này sẽ nằm ngay trong biến hiện hữu và thay thế các giá trị củ trên biến đó Khi sử dụng công cụ này ta sẽ mất đi các giá trị đã khai báo ban đầu trong biến mà ta thực hiện lệnh Recode Chú ý các giá trị vừa được tạo
ra chưa có nhãn, do đó sau khi thực hiện lệnh ta phải tiến hành khai báo nhãn cho giá trị (đã đề cập trong phần khai báo biến) Phương pháp này được thực hiện qua các bước sau:
- Chọn transform/recode từ thanh menu chính Ở đây ta lựa chọn Recode into
same variable để tiến hành định lại giá trị của biến trên cùng một biến Ta có
hộp thoại như hình 5-1:
Hình 5-1
Trang 2- Chuyển các biến cần mã hóa lại sang hộp thoại variables, nhấn thanh Old and New Values để chuyển các giá trị củ cần thay đổi thành các giá trị mới Ta có hộp thoại Old and New values như hình 5-2:
Hình 5-2
- Old value dùng để khai báo giá trị củ cần chuyển đổi Giá trị củ này có thể là một giá trị đơn lẻ(Value), một giá trị khuyết mặc định hay giá trị khuyết khai báo (System-missing or User-missing), một dãy các giá trị (Range), hoặc toàn bộ các giá trị nào đó trong biến (All other values) New value dùng để khai báo giá trị mới sẽ thay thế cho giá trị củ tương ứng Nhấn thanh Add để
lưu sự chuyển đổi này Các giá trị chuyển đổi có thể sửa chửa hoặc loại bỏ bằng cách di chuyển vệt tối đến biểu thức thể hiện sự chuyển đổi trong hộp
thoại Old->New và nhấn thanh Change cho sự thay đổi hoặc Remove để loại
bỏ
- Nếu việc định lại giá trị của các giá trị của biến có một số điều kiện kèm theo,
ta có thể dùng công cụ if để định ra các điều kiện cho lệnh recode Hộp thoại
If Cases như hình 5-3:
Hình 5-3
- Trong hộp thoại If Cases, mặc định là không có điều kiện nào cả, phép định
Trang 3các giá trị vào hộp thoại bên phải Lúc này phép định lại giá trị của biến nói trên chỉ được thực hiện đối với các quan sát nào thỏa mãn được biểu thức điều kiện được thể hiện trong hộp thoại điều kiện này Ví dụ chỉ thực hiện lệnh recode đối với những trường hợp quan sát ở khu vực (biến kvuc) TP.HCM (có
giá trị mã hóa là 2) ta khai báo biểu thức điều kiện như sau kvuc = 2.
1.2 Mã hóa lại vào một biến khác (Recode into different variables)
Trong trường hợp định lại các giá trị hiện tại của một biến thành các giá trị mới trong
một biến mới ta sẽ lựa chọn transform/recode/into different variable và ta có hộp
thoại như hình 5-4:
Hình 5-4
Sử dụng phương pháp recode vào một biến mới máy tính sẽ tự động tạo ra một biến mới trên cơ sở dữ liệu để chứa các giá trị mới vừa được tạo ra, đồng thời ta cũng vẫn lưu giữ được biến củ với các giá trị mã hóa củ trên cơ sở dữ liệu Chú ý các giá trị vừa được tạo ra chưa có nhãn, do đó sau khi thực hiện lệnh ta phải tiến hành khai báo nhãn cho giá trị (đã đề cập trong phần khai báo biến) Việc mã hóa lại các giá trị vào trong một biến mới được thực hiện qua các bước sau:
- Chuyển tên biến cần định lại giá trị vào trong hộp thoại variables Khai báo
tên biến mới và nhãn biến mới sẽ chứa các giá trị vừa được mã hóa lại trong
hộp thoại Output variable Nhấn thanh change để xác nhận sự khái báo này.
- Các công cụ If và Old and New Values cũng có ý nghĩa và thao tác tương tự
như trường hợp định lại giá trị cho cùng một biến, đã được đề cập ở phần trên Công cụ này có ưa điểm là ta vừa tạo ra được một biến mới với các giá trị được mã hóa theo cách mới nhưng đồng thời vẫn giữa được biến gốc với các giá trị mã hóa ban đầu Trong khi với phương pháp mã hóa lại dữ liệu trên cùng một biến, các giá trị mã hóa mới sẽ chồng lên các giá trị củ và ta đã mất đi các giá trị mã hóa ban đầu trên biến đó
2 Công cụ tự động mã hóa lại (Automatic Recode)
Trang 4Là phương pháp mã hóa tự động các giá trị dạng chuổi sang dạng số vào trong một biến mới Biến mới này sẽ chứa các con số nguyên liên tục, mỗi con số nguyên trong biến mới sẽ đại diện cho các giá trị dạng chuổi giống nhau
Ví dụ khi ban đầu ta nhập dữ liệu địa bàn nghiên cứu (quận) như Bình Thạnh, Quận
1, Quận 2, Tân Bình, … ở dạng chuổi Ta có thể recode các giá trị này thành các giá trị số như 1, 2, 3 một các tự động bằng công cụ Automatic Recode Và mỗi con số nguyên này sẽ đại diện cho từng địa bàn nghiên cứu, như Quận 1 được chuyển thành
1, quận 2 là 2, …, Quận Tân Bình là 19 Đối với cách Recode này các giá trị nguyên thủy (quận 1, quận 2, …) sẽ được sữ dụng như là nhãn của giá trị đã được recode trong biến mới được tạo ra từ lệnh Automatic Recode Các giá trị dạng chuổi được
mã hóa theo thứ tự alphabe
3 Lựa chọn các quan sát (Select Cases)
Công cụ Select Cases đưa ra một vài phương pháp cho phép ta lựa chọn ra những nhóm nhỏ các trường hợp quan sát dựa trên tiêu chuẩn hay điều kiện cụ thể Ta cũng
có thể dùng phương pháp này để lựa chọn một mẫu ngẫu nhiên các trường hợp quan sát từ tổng thể dữ liệu Để thực hiện lệnh lựa chọn các quan sát này ta chọn
Data/select cases từ menu ta sẽ có hộp thoại như hình 5-5:
Trong hộp thoại Select Cases các biến được liệt kê ở bên trái hộp thoại, Bên phải hộp thoại liệt kê các dạng lựa chọn Lựa chọn All Cases là trạng thái lựa chọn mặc
định và ở trạng thái này có ý nghĩa là toàn bộ các trường hợp quan sát đang được lựa chọn
Chú ý sau khi thực hiện việc chọn lựa các trường hợp Các thao tác thống kê trong SPSS lúc này chỉ thực hiện trên các trường hợp được lựa chọn Do đó sau khi thực hiện việc phân tích trên các trường hợp được lựa chọn, ta cần trả dữ liệu lại trạng thái
ban đầu (kh6ng có lựa chọn các trường hợp) bằng cách chọn All Cases trong phần
Select của hộp thoại Select Cases.
Trong phần Unselected Cases cho biết trạng thái của các trường hợp không được lựa chọn Filtered chỉ ra các trường hợp không được chọn vẫn được giữ lại trong tập tin
nhưng sẽ bị loại trừ ra mọi phân tích thống kê Select Cases tạo ra một biến lọc
(FILTER_$), với các trường hợp được chọn có giá trị 1 và các trường hợp không
được chọn có giá trị 0 Deleted cho phép loại bỏ toàn bộ các trường hợp không được
chọn ra khỏi dữ liệu
Trang 5Để nhận biết được các trường hợp nào được chọn hoặc không được chọn ta có thể
nhìn vào các giá trị trong biến FILTER_$, các trường hợp được chọn có giá trị 1 và
những trường hợp không được chọn có giá trị 0 Hoặc ta có thể nhìn vào màn hình Data để phân biệt các trường hợp Với các trường hợp không được lựa chọn sẽ có một gạch chéo trong thanh số thứ tự hàng bên trái màn hình (Xem hình 20) Có thể
dùng công cụ Sort Cases để xắp xếp theo thứ tự các trường hợp được chọn hay không được chọn (Sort cases theo biến FILTER_$).
Hình 5-5
Để tiến hành chọn lựa các trường hợp ta có thể dùng các cách sau:
- Lựa chọn công cụ If conditions are satisfied (xem hình 5-6) cho phép ta lựa
chọn các trường hợp dựa trên các biểu thức điều kiện Một biểu thức điều kiện cho ta các giá trị đúng hoặc sai của các trường hợp Nếu kết quả của biều thức điều kiện là đúng, trường hợp đó được lựa chọn Nếu kết quả này là sai hoặc thiếu thì các trường hợp đó không được chọn Ví dụ đối với biến giới tính (GTinh)có hai giá trị là Nam: 1 và Nữ: 2 Ta tiến hành chọn các trường hợp là Nam bằng cách chọn biến giới tính trong hộp bên trái và chuyển sang hộp bên phải Hiễn thị biểu thức điều kiện như sau Gtinh=1 Lúc đó các trường hợp nào thỏa mãn điều kiện Gtinh=1 sẽ được lựa chọn Các biểu thức điều kiện có thể bao gồm tên biến, các hằng số, các toán tử, các con số, các hàm số, …
- Công cụ random sample of cases (hình 5-7) cho phép chúng ta lựa chọn một
mẫu ngẫu nhiên dựa trên một tỷ lệ phần trăm hoặc một số chính xác các trường hợp sẽ lựa chọn
Trang 6- Công cụ Base range (hình 5-8) cho phép lựa chọn các trưòng hợp theo số thứ
tự hàng hiễn thị bên trái màn hình dữ liệu của SPSS
Hình 5-6 Hình 5-7
Hình 5-8
4 Tách tập dữ liệu (Split File)
Công cụ Split File cho phép tách dữ liệu trong tập dữ liệu đang quan sát thành
những nhóm nhỏ riêng biệt và sau khi thực hiện lệnh Split file này các phân tích xữ
lý thống kê sẽ cho ta các kết quả thống kê đã được thực hiện riêng biệt theo từng nhóm nhỏ dữ liệu này
Trang 7Để thực hiện lệnh này ta chọn Data/Split File từ menu ta có hộp thoại như hình 5-9:
Hình 5-9
Việc phân tách này dựa trên việc phân dữ liệu thành những nhóm tương đương với các giá trị trong biến được lựa chọn để tiến hành phân nhóm Được sử dụng cho việc phân tích dựa trên những giá trị của một hay nhiều biến đã được phân nhóm Nếu ta lựa chọn việc phân tách dựa trên nhiều biến, dữ liệu sẽ được nhóm theo thứ tự biến
được khai báo trong hộp thoại Groups Based On list.
- Chọn Compare groups: Các dữ liệu phân tích sẽ được tách theo các giá trị của biến được lựa chọn để tách dữ liệu (hiễn thị trong hộp Groups Based On
list), và việc tách này mang tính chất so sánh do đó khi tiến hành phân tích dữ
liệu các phân tích dựa trên sự phân tách này những vẫn được thể hiện trên cùng một bảng
- Chọn Organize output by groups: Các dữ liệu phân tích sẽ được tách theo
các giá trị của biến được lựa chọn để tách dữ liệu (hiễn thị trong hộp Groups Based On list), và việc tách này mang tính chất tổ chức lại dữ liệu thành những nhóm nhỏ do đó khi tiến hành phân tích dữ liệu các phân tích dựa trên
sự phân tách và được thể hiện một các riêng biệt giữa các nhóm phân tách Chú ý sau ki tiến hành phân tích trên sự phân tách, để trở lại trạng thái bình thường của dữ liệu đòi hỏi phải bỏ đi lệnh tách dữ liệu vừa đưa ra bằng cách chọn phần
Analyze all cases, do not create groups trong hộp thoại Slipt Files
5 Công cụ tính toán giữa các biến (Compute)
Công cụ compute được dùng để tính toán giữa các giá trị trong các biến và kết quả sẽ được lưu giữ trong một biến mới hoặc là một biến khác sẳn có hoặc biến chứa đựng giá trị đang tính toán
Trang 8Để thực hiện công cụ này ta truy xuất công cụ compute variable từ transform trên
thanh menu ta có hộp thoại như hình 5-10:
Hình 5-10
- Target variable chứa đựng tên biến sẽ nhận giá trị được tính Ta có thể khái
báo kiểu và gán nhãn cho các giá trị của biến bằng cách nhấn vào thanh
Type&lable Ô Numeric Expression chứa đựng các biểu thức số được dùng
để tính giá trị cho biến đích (biến chứa đựng giá trị mới), biểu thức này có thể dùng tên các biến sẵn có, các hằng, các toán tử và các hàm số Chúng ta co thể
soạn các biểu thức tính toán vào thẵng ô Numeric Expression, và có thể sữ dụng các công cụ được hiển thị trong hộp thoại như các phiếm (+), (-),
Function,…
- Công cụ if dùng để định ra những điều kiện cần thiết kèm theo trong tính toán nếu có, được sử dụng giống nhứ giống như công cụ if trong hộp thoại recode,
đã được đề cập ở phần trên
6 Công cụ đếm (Count)
Công cụ này được dùng để tạo ra một biến mới chứa kết quả số lần xuất hiện (số đếm) của một giá trị hay nhiều giá trị được chỉ định ra trong danh sách các biến được
chọn trong ơ variables trong mỗi trường hợp Từ menus ta chọn Transform/count
để có được hộp thoại như hình 5-11
Trang 9Hình 5-11
Một biến mới sẽ được tạo ra khi ta thực hiện thủ tục Count gọi là biến đích (Taget
variable) sẽ chứa đựng giá trị cộng dồn mỗi khi gặp được giá trị cần đếm trong một
hoặc nhiều biến đã được khai báo trước trong hộp thoại Numeric variables.
Giá trị cần đếm sẽ được định rõ trong phần Define values (hình 5-12) Giá trị khai báo để đếm có thể là những giá trị cụ thể nàu đó (Value), hoặc những giá trị rỗng
(System missing) hoặc là một dãy các giá trị (range) Sau khi khai báo giá trị cần
đếm ta dùng thanh Add để xác nhận giá trị cần đếm vào trong hộp thoại Values to
count Sử dụng Change hoặc Remove để thay thế hoặc loại bỏ giá trị cần đếm (giá
trị đã được đánh dấu bằng vết đen)
Hình 5-12
Công cụ If dùng để xác định các điều kiện nếu có khi thực hiện lệnh Count, (giống như công cụ if trong phần recode đã đưọc đề cập ở trên)
7 Hợp nhất các tập dữ liệu (Merge files)
SPSS cho phép ta hợp các dữ liệu quan sát từ trong một tập dữ liệu bên ngoài vào tập
dữ liệu đang sử dụng Hoặc hợp các biến mới trong tập dữ liệu bên ngoài vào tập dữ liệu đang hoạt động Cả hai đều tạo ra một tập dữ liệu mới có thể chứa tất cả các
quan sát được hợp lại hoặc tất cả các biến đưọc hợp tùy theo ta chọn Add Cases hay
Add Variables
7.1 Thêm vào các quan sát (Add Cases)
Công cụ Add Cases cho phép ta hợp dữ liệu trong tập dữ liệu đang hoạt động với dữ liệu trong một tập dữ liệu bên ngoài, với điều kiện tập dữ liệu đó phải chứa các biến giống như biến trong tập dữ liệu đang hoạt động Sau khi thao tác, một tập dữ liệu mới (chưa được khai báo tên, và ta phải tiến hành lưu và khai báo tên mới) sẽ được tạo ra chứa các dữ liệu trong cả hai tập dữ liệu vừa được hợp lại với nhau Trong trường hợp hai tập dữ liệu hợp với nhau nhưng có các biến khác nhau (khác nhau về tên biến hoặc loại biến) thì sau khi hợp tập dữ liệu mới sẽ tự động loại bỏ các biến khác nhau này, ta có thể sẽ bị mất dữ liệu chứa trong các biến bị loại bỏ này
Công cụ này rất thích hợp cho việc hợp nhất dữ liệu nghiên cứu ở các khu vực khác
Trang 10nhiên sau đó ta có thể tiến hành hợp dữ liệu ở ba khu vực này vào một tập dữ liệu thống nhất để tiến hành phân tích và xữ lý Chú ý phải thống nhất về các tên biến, loại biến và số lượng biến trong cả ba khu vực trước khi nhập 3 file này lại với nhau
Chọn Data/Merge Files/Adds Cases (Xem hình 5-13)
Hình 5-13
Hộp thoại Read File cho phép ta lựa chọn tập dữ liệu sẽ được hợp với tập dữ liệu đang hoạt động (working file) Nhấn Open để xác nhận việc lựa chọn này
Sau khi lựa chọn xong tập dữ sẽ được kết hợp, ta sẽ có một hộp thoại mới như hình 5-14:
Hình 5-14
Unpaired Variables: liệt kê các biến không giống nhau giữa hai tập dữ liệu
đang được tiến hành hợp nhất lại, các biến không giống nhau này sẽ bị loại ra
và không có trong tập dữ liệu mới được tạo ra từ việc hợp nhất hai tập dữ liệu
ban đầu Các biến này được ký hiệu khác nhau với ký hiệu (*) đại diện cho các biến trong tập dữ liệu đang hoạt động và (+) đại diện cho các biến trong
tập dữ liệu được truy xuất từ bên ngoài Những biến được liệt kê trong hộp
Trang 11- Những biến có dạng dữ liệu khác nhau
- Cả hai biến biến cùng là dạng chuổi nhưng lai không bằng nhau về số
ký tự trong chuổi
Cac biến này như đã nói sẽ bị loại bỏ ra khỏi tập dữ liệu vừa hợp nhất, điều này đồng nghĩa ta bị mất dữ liệu sau khi hợp nhất, do đó cần phải khắc phục sai sót này để bảo đảm tính đầy đủ của dữ liệu sau khi hợp nhất Các biến này
sẽ được hợp lại với nhau bằng cánh đánh dấu hai biến đó (trong hộp thoại
Unpaired Variables) và nhấn thanh Pair, lúc đó dữ liệu trong hai biến này sẽ
được hợp nhất và được chứa đựng trong biến lấy tên biến giống như tên biến trong tập tin đang hoạt động Hoặc ta có thể dùng công cụ Rename để khai báo lại tên biến hoặc kiểu biến cho giống nhau
Hộp thoại Variables in New Working Data File liệt kê các biến sẽ có trong tập tin mới được tạo ra từ việc hợp nhất hai tập dữ liệu ban đầu Toàn bộ các biến trong hai tập tin ban đầu thỏa mãn các điều kiện giống nhau về tên và loại dữ liệu (số hoặc chuổi) sẽ được liệt kê vào hộp thoại này
Chúng ta cũng có thể loại bỏ những biến mà chúng ta không muốn có trong
tập dữ liệu hợp nhất Bằng cách đánh dấu các biến đó (trong ô variables in
new data working file) và chuyển sang ô Unpaired Variables
1.2 Thêm vào các biến (Add Variables)
Công cụ Add Variables cho phép hợp nhất dữ liệu trong tập tin đang hoạt động với một tập tin bên ngoài với điều kiện tập tin bên ngoài này phải chứa đựng cùng các quan sát với tập tin đang sử dụng, nhưng khác nhau về biến (khai báo tên biến khác với tập tin đang được sử dụng), quá trình này sẽ tạo ra một tập dữ liệu mới chứa cùng các quan sát nhưng tập hợp tất cả các biến khác nhau trong hai tập dữ liệu ban đầu
Công cụ này thích hợp với các cuộc nghiên cứu được chia làm nhiều giai đoạn Ví dụ như nghiên cứu về mức độ ảnh hưởng của một chương trình quảng cáo, người ta thường nghiên cứu một số đối tượng người trả lời về sản phẩm xắp được quảng cáo trước khi tung chương trình quảng cáo đó ra thị trường, gọi là Pre-test Sau đó sẽ tiến hành một cuộc nghiên cứu nữa trên đúng các đối tượng đó sau khi chương trình quảng cáo đã được tung ra thị trường, ta gọi là Post-test Phân tích thống kê đòi hỏi một số so sánh (như Paired-sample t test) các ý kiến của những người tiêu dùng này trước và sau khi có chương trình quảng cáo Để thực hiện công việc này cần chú ý những điểm sau:
- Các quan sát (Cases) trong cả hai tập tin cần hợp nhất biến phải được xắp xếp theo cùng một thứ tự, thông thường thứ tự này được quản lý bằng một tập tin chứa các giá trị là số bảng câu hỏi Chú ý các bảng câu hỏi của đối tượng nghiên cứu trong lần phỏng vấn trước phải giống với số bảng câu hỏi dùng để phóng vấn chính đối tượng đó trong lần sau Khi loại bỏ bảng câu hỏi nào của lần phỏng vấn trước hoặc sau ta phải loại bỏ luôn bảng câu hỏi đó trước khi tiến hành hợp nhất