1. Trang chủ
  2. » Giáo án - Bài giảng

SPSS VÀ ỨNG DỤNG

72 604 3

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 72
Dung lượng 383,38 KB

Nội dung

SPSS VÀ ỨNG DỤNG

Trang 1

CHƯƠNG I MỘT SỐ LÝ THUYẾT THỐNG KÊ CƠ BẢN

Các tham số thống kê đo lường độ tập trung hay hội tụ của dữ liệu (central tendency measurement)

biến, được tính bằng tổng các giá trị quan sát chia cho số quan sát Đây là dạng công cụ thường được dùng cho dạng đo khoảng cách và

tỷ lệ Giá trị trung bình có đặc điểm là chịu sự tác động của các giá trị ở mỗi quan sát, do đó đây là thang đo nhạy cảm nhất đối với sự thay đổi của các giá trị quan sát Giá trị trung bình được tính bằng công thức sau:

hoặc là giá trị trung bình của hai quan sát nằm giữa (nếu số lượng quan sát là số chẵn) của một dãy quan sát được xắp xếp theo thứ tự từ nhỏ đến lớn Đây là dạng công cụ thống kê thường được dùng để đo lường mức độ tập trung của dạng dữ liệu thang đo thứ tự, nó có đặc điểm là không bị ảnh hưởng của các giá trị đầu mút của dãy phân phối,

do đó rất thích hợp để phân tích đối với dữ liệu có sự chênh lệch lớn về giá trị ở hay đầu mút của dãy phân phối

số đo, dạng này thường được dùng đối với dạng dữ liệu thang biểu danh Giống như trung vị, mode không bị ảnh hưởng bởi giá trị đầu mút của dãy phân phối

Trang 2

mẫu hơn là nhóm 2 Đo lường độ phân tán cho biết được những khác biệt giữa hai nhóm dữ liệu Có một số công cụ đo lường độ phân tán của dữ liệu như:

tập các giá trị quan sát xung quanh giá trị trung bình của tập quan sát đó Phương sai bằng trung bình các bình phương sai lệch giữa các giá trị quan sát đối với giá trị trung bình của các quan sát đó Người ta dùng phương sai để đo lường tính đại diện của giá trị trung bình tương ứng, các tham số trung bình có phương sai tương ứng càng lớn thì giá trị thông tin hay tính đại diện của giá trị trung bình đó càng nhỏ Phương sai của mẫu được tính bằng công thức sau:

lường độ phân tán của dữ liệu xung quanh giá trị trung bình của nó Độ lệch chuẩn chính bằng căn bậc hai của phương sai Vì phương sai là trung bình của các bình phương sai lệch của các giá trị quan sát từ giá trị trung bình, việc khảo sát phương sai thường cho các giá trị rất lớn, do đó

sử dụng phương sai sẽ gặp khó khăn trong việc diễn giải kết quả Sử dụng độ lệch chuẩn sẽ giúp dễ dàng cho việc diễn giải do các kết quả sai biệt đưa ra sát với dữ liệu gốc hơn

nhất đến giá trị quan sát lớn nhất

lường sự khác biệt về giá trị trung bình của mẫu nghiên cứu này so với mẫu nghiên cứu khác trong điều kiện có cùng phân phối Nó có thể được dùng để so sánh giá trị trung bình quan sát với một giá trị ban đầu nào đó (giả thuyết) Và ta có thể kết luận hai giá trị này là khác nhau nếu tỷ số về

sự khác biệt đối với standard error of mean nằm ngoài khoảng (-2,+2) Công thức tính sai số trung bình mẫu:

Trang 3

Là một ước lượng xác định khoảng giá trị đặc trưng của tổng thể có thể rơi vào Dựa vào dữ liệu mẫu, với một độ tin cậy cho trước ta có thể xác định được giá trị đại diện cho đám đông có thể nằm trong một khoảng ước lượng nào đó

Ví dụ gọi x là mức thu nhập trung bình của đám đông cần ước lượng Với

độ tin cậy của khoảng sát nghiên cứu là 95% (nghĩa là các ước lượng sẽ luôn có một lượng sai số chấp nhận là 5%) Dựa vào mẫu quan sát ta có thể xác định được hai giá trị về thu nhập là a và b sao cho xác suất để thu nhập trung bình đám đông x rơi vào khoảng a và b (a, b) là 95% Lúc này

ta có thể diễn giải rằng với độ chính xác là 95% (hay chấp nhận 5% sai số)

ta biết được thu nhập trung bình của đám đông nghiên cứu nằm trong khoảng (a, b)

Công thức tính khoảng ước lượng:

Hoặc: E= p ± t,n-1 Sp

Với p là tỷ lệ % tần suất xuất hiện của một giá trị quan sát

Bên cạnh việc ước lượng các đặc trưng của tổng thể, các dữ liệu mẫu thu thập được còn được dùng để đánh giá xem một giả thuyết nào đó về tổng thể là đúng hay sai Ta gọi đó là kiểm nghiệm giả thuyết Nói cách khác kiểm nghiệm giả thuyết là dựa vào các thông tin mẫu để đưa ra kết luận bác bỏ hay chấp nhận về giả thuyết của tổng thể

Ví dụ: Sau một thời gian thực hiện các chương trình, biện pháp marketing (quảng cáo, khuyến mãi,…) công ty muốn đánh giá xem thị phần, doanh

Trang 4

Hoặc công ty muốn tìm hiểu xem sở thích của người tiêu dùng về kiểu dáng, màu sắc, mùi vị khác nhau về sản phẩm cuả công ty Họ thích đặc biệt một kiểu dáng nào đó, một màu sắc nào đó, hay các kiểu dáng, màu sắc khác nhau đều được ưa thích như nhau

Phương pháp kiểm nghiệm giả thuyết sẽ giúp giải quyết nhưng yêu cầu này

Để kiểm nghiệm giả thuyết ta phải xây dựng giả thuyết Giả thuyết đã hình thành được gọi là giả thuyết H0 được xem như đúng cho đến khi ta có đủ căn cứ để kết luận khác hơn Nếu giả thuyết H0 không đúng thì phải có một giả thuyết nào đó khác H0 gọi là H1 là đúng Một số giả thuyết thường gặp trong phân tích:

Lên trên (top)

CHƯƠNG 2: GIỚI THIỆU VỀ PHẦN MỂM SPSS

Là phần mềm chuyên dụng xử lý thông tin sơ cấp (thông tin được thu thập trực tiếp từ đối tượng nghiên cứu (người trả lời bảng câu hỏi) thông qua một bảng câu hỏi được thiết kế sẳn

Thông tin được xử lý là thông tin định lượng (có ý nghĩa về mặt thống kê)Phần mềm SPSS có tất cả 4 dạng màn hình:

1. Màn hình quản lý dữ liệu (data view):

Là nơi lưu trữ dữ liệu nghiên cứu với một cấu trúc cơ sở dữ liệu bao gồm cột, hàng và các ô giao nhau giữa cột và hàng

cả các câu trả lời trong một câu hỏi được thiết kế trong bảng câu hỏi

Ta phỏng vấn bao nhiêu người (tùy thuộc vào kích thước mẫu) thì ta sẽ

có bấy nhiêu hàng Mỗi hàng chứa đựng tất cả những câu trả lời (thông tin) của một đối tượng nghiên cứu

Trang 5

- Ô giao nhau giữa cột và hàng (cell): Chứa đựng một kết quả trả lời tương ứng với câu hỏi cần khảo sát (biến) và một đối tượng trả lời cụ thể (trường hợp quan sát)

2. Màn hình quản lý biến (variables view):

Là nơi quản lý các biến cùng với các thông số liên quan đến biến Trong màn hình này mỗi hàng trên màn hình quản lý một biến, và mỗi cột thể hiện các thông số liên quan đến biến đó

hiễn thị trên đầu mỗi cột trong màn hình dữ liệu

số, và dạng chuỗi

phép hiễn thị bao nhiêu con số

hiệu, nhãn của biến cho phép nêu rõ hơn về ý nghĩa của biến

với ý nghĩa cụ thể (nhãn giá trị)

chỉ mang tính chất quản lý, không có ý nghĩa phân tích, để loại bỏ các biến này ta cần khai báo nó như là giá trị khuyết (user missing) SPSS mặc định giá trị khuyến (system missing) là một dấu chấm và tự động loại bỏ các giá trị này ra khỏi các phân tích thống kê

biến

3. Màn hình hiễn thị kết quả (output):

Các phép phân tích thống kê sẽ cho ra các kết quả như bảng biểu, đồi thị

và các kết quả kiểm nghiệm, các kết quả này sẽ được truy xuất ra một màn hình, và được lưu giữ dưới một tập tin khác (có đuôi là SPO) Màn hình này cho phép ta xem và lưu giữ các kết quả phân tích

4. Màn hình cú pháp (syntax):

Trang 6

phân tích Các cú pháp được lưu trữ sẽ được sử dụng lại mà không cần thao tác các lệnh phân tích lại.

5. Khái quát về phân tích dữ liệu

Một thực tế luôn luôn gặp phải đối với những người làm công tác phân tích và xử lý số liệu là hầu như không lúc nào mà không gặp những vấn đề đối với dữ liệu trong tay họ, một số xuất hiện do lỗi nhập máy, lỗi mã hóa, hoặc do các lỗi về chọn mẫu và chất lượng phỏng vấn, tất cả những lỗi này thường dẫn đến những khác thường hoặc tính đại diện kém của dữ liệu thu thập

Trong những cuộc nghiên cứu qui mô lớn, công việc kiểm tra dữ liệu đôi khi còn tốn nhiều công sức và thời gian hơn cả việc phân tích và tóm tắc

dữ liệu Do đó gần như là nhiệm vụ đầu tiên của người phân tích dữ liệu là phải tiến hành kiểm tra dữ liệu nhằm xác định ra các lỗi trong dữ liệu đồng thời kiểm tra xem tính tương thích của dữ liệu như thế nào so với những giả thuyết được yêu cầu cho các phân tích thống kê sau này

Xác định những giá trị vượt trội (Outliers) và các giá trị lỗi (Roque values)

Có nhiều cách để xác định ra các giá trị vợt trội và giá trị lỗi Tuy nhiên điều quan trọng là xác định xem các giá trị vượt trội đó có phải là giá trị lỗi hay không hay do sự bất thường trong mẫu nghiên cứu:

lần xuất hiện của từng giá trị riêng biệt, nó còn giúp ta tìm ra các giá trị lỗi hoặc các giá trị mã hóa sai sót hoặc không mong đợi (ví dụ như biến giới tính chỉ có hai giá trị mã hóa 1 và 2 tương ứng với giới tính nam và nữ do đó khi khảo sát ta sẽ phát hiện ra các giá trị khác với giá trị mã hóa 1 và 2) Ngoài ra công cụ này còn cho phép ta nhận ra được các giá trị khuyết (Missing values) nhưng lại xuất hiện như là một giá trị hợp lệ (Valid value)

một cách tốt hơn khi ta khảo sát hai hay nhiều biến cùng một lúc Đối với các biến dạng biểu danh (nominal) hoặc thứ tự (ordinal) sử dụng công cụ bảng chéo ta có thế xác định được những sự kết hợp phi lý giữa hai hoặc nhiều biến, ví dụ như một người chưa bao giờ

Trang 7

tiêu dùng sản phẩm A nhưng lại tham gia đưa ra những ý kiến mức

độ thỏa mãn trong tiêu dùng sản phẩm A

Đây có thể được xem là phần cốt lõi và thường gặp nhất trong việc phân tích và xử lý số liệu Tuy nhiên trước khi bắt tay vào việc mô tả dữ liệu (đo lường độ tập trung hay phân tán, tỷ lệ %, mối quan hệ giữa các biến …), cần thiết phải nắm được loại biến đang khảo sát (loại thang đo của biến) hay nói cách khác ta phải nắm được ý nghĩa của các giá trị trong biến

Đối với biến định danh hoặc thứ tự (nominal và ordinal) các phép tính toán số học như giá trị trung bình không có ý nghĩa thống kê, đặc biệt đối với biến định danh mọi sự so sánh hơn kém giữa các giá trị trong biến đều

vô nghĩa Ngược lại các biến định lượng như thang đo khoảng cách và thang đo tỷ lệ (Interval và Ratio) thì mọi sự so sánh hay tính toán số học

đề có ý nghĩa phân tích thống kê

(Independent Samples T Test) là phương pháp nhằm mục đích kiểm nghiệm so sánh giá trị trung bình của một biến riêng biệt theo một nhóm có khác biệt hay không đối với giá trị trung bình của biến riêng biệt đó theo một nhóm khác Với giả thuyết ban đầu H0 cho rằng giá trị trung bình của hai nhóm này là bằng nhau Ví dụ ta kiểm nghiệm thu nhập trung bình (biến thu nhập) theo hai nhóm giới tinh là nam

và giới tính là nữ (biến giới tính sử dụng để chia các giá trị quan sát trong biến thu nhập thành hai nhóm)

Trang 8

được sử dụng để kiểm nghiệm có hay không giá trị trung bình của các khác biệt giữa các cặp quan sát là khác giá trị 0 Với giả thuyết ban đầu H0 cho rằng giá trị trung bình các khác biệt này là bằng 0

Ví dụ như kiểm nghiệm sự khác biệt về điểm thi môn học của hai nhóm sinh viên có tham gia và không có tham gia chương trình phụ đạo ngoài giờ

nghiệm có hay không giá trị trung bình của một biến là khác biệt với một giá trị giả định từ trước Với giả thuyết ban đầu H0 cho rằng giá trị trung bình kiểm nghiệm là bằng với giá trị giả thuyết đưa ra

Phân tích phương sai một chiều (One-Way ANOVA)

Phân tích phương sai là một dạng mở rộng của phương pháp kiểm nghiệm t hai mẫu ngẫu nhiên độc lập (Independent-Samples T Test),

và được sử dụng để kiểm nghiệm cho nhiều hơn hai nhóm Phương pháp phân tích này khảo sát sự biến thiên giữa các trung bình mẫu trong mối liên hệ với sự phân táng của các quan sát trong từng mỗi nhóm Với giả thuyết ban đầu H0 cho rằng các giá trị trung bình này là bằng nhau

Kiểm nghiệm mối quan hệ giữa hai biến và kiểm nghiệm mối tương quan với cường độ tương quan và chiều của tương quan giữa các biến trong cơ

sờ dữ liệu

nghiệm Chi-bình phương để kiểm nghiệm giả thuyết ban đầu cho rằng hai biến thể hiện trong bảng chéo (biến cột và biến hàng) là không có mối quan hệ với nhau (độc lập với nhau)

nghiệm F kiểm nghiệm giả thuyết ban đầu cho rằng giữa các biến đang khảo sát không có tương quan với nhau (hệ số tương quan R

= 0)

Lên trên (top)

CHƯƠNG 3: CHUẨN BỊ DỮ LIỆU

1. Kiểm tra và hiệu đính dữ liệu

Đây là bước kiểm tra chất lượng thông tin trong bảng câu hỏi nhằm bảo đảm không có bảng câu hỏi nào thiếu hoặc chứa đựng những thông tin sai

Trang 9

sót theo yêu cầu thiết kế ban đầu, bước này cần thiết được thực hiện trước khi tiến hành mã hóa và nhập dữ liệu vào máy tính Người kiểm tra phải bảo đảm tính toàn vẹn và tính chính xác của từng bảng câu hỏi & từng câu trả lời trong bảng câu hỏi Thông thường bước này nhàn nghiên cứu sẽ tiến hành kiểm tra những đặc tính sau của bảng câu hỏi:

cầu nghiên cứu sẽ có những đường dẫn, những điều kiện đễ người trả lời hoặc có thể trả lời tất cả các câu hỏi hoặc có thể bỏ qua một vài câu hỏi nào đó Kiểm tra tính logic của bảng câu hỏi cho phép nhà nghiên cứu loại bỏ những câu trả lời thừa, cũng như kịp thời bổ xung những phần thiếu trong bảng câu hỏi Tính logic của câu trả lời còn phụ thuộc vào sự kết dính và liên hệ lẫn nhau giữa các câu hỏi trong một bảng câu hỏi (đôi khi một câu trả lời là có ý nghĩa nếu đứng riêng một mình

nó những lại vô nghĩa nếu kết hợp so sánh với các câu trả lời trước hoặc sau nó)

bảng câu hỏi chỉ có giá trị nếu như tất cả những câu hỏi theo yêu cầu đều được trả lời đầy đủ Mỗi câu hỏi trong bảng câu hỏi đều có một ý nghĩa, một giá trị nghiên cứu nhất định, do đó thiếu một câu trả lời nào

đó cho một câu hỏi cụ thể nào đó sẽ làm mất đi giá trị của bảng câu hỏi đó

đủ chưa hẳn là câu trả lời có giá trị, do đó tính chân thực và hợp lý của câu trả lời cũng quyết định đến giá trị của câu trả lời và của bảng câu hỏi, đặc biệt là các câu hỏi chấm điểm, câu hỏi mở và các câu hỏi mang tính logic

Quá trình kiểm tra, rà soát lại bản câu hỏi là nhằm mục đích kiểm tra, phát hiện, sửa chửa và thông báo kịp thời cho người thu thập dữ liệu tránh những sai sót tiếp theo

Để xử lý các lỗi trong kiểm tra và hiệu đính, ta có thể lựa chọn cách xử

lý như sau tùy thuộc vào mức độ sai sót cụ thể:

- Trả về cho bộ phận thu thập dữ liệu để làm sáng tỏ vấn đề

- Suy luận từ các câu trả lời khác

- Loại bỏ toàn bộ bản câu hỏi

2. Mã hoá dữ liệu

Trang 10

từng mẫu đại diện với các giá trị đại diện tương ứng nhằm làm cho quá trình tóm tắc, phân tích và nhập liệu được dễ dàng và hiệu quả hơn Có hai dạng mã hóa:

của các loại câu hỏi này là nhà nghiên cứu đã có sẵn các câu trả lời từ trước, người trả lời chỉ việc lựa chọn câu trả lời nào phù hợp nhất với ý kiến của mình, do đó việc mã hóa cho các câu hỏi này thường được tiến hành từ trước, ở giai đoạn thiết kế bảng câu hỏi

còn những câu hỏi mở, là những câu hỏi mà người trả lời tự do đưa ra câu trả lời theo suy nghĩ và diễn giãi của chính họ Các bảng câu hỏi nhận về thường có những câu trả lời rất khác nhau và rất đa dạng Do

đó công việc mã hóa những câu trả lời này thì cần thiết cho quá trình kiểm tra, nhập liệu, tóm tắc và phân tích sau này

Mục đích của mã hóa là tạo nhãn cho các câu trả lời, thừơng là bằng các con số Mã hóa còn giúp giảm thiểu số lượng các câu trả lời bằng cách nhóm các câu trả lời vào những nhóm có cùng ý nghĩa Tiền trình mã hóa

có thể được tiến hành như sau:

Những câu trả lời này có thể thu thập từ một mẫu các bảng câu hỏi đã hoàn tất, thường là 25% trên tổng số bảng câu hỏi

các câu trả lời được liệt kê và tiến hành nhóm các câu trả lời theo những nhóm đặc trưng (có cùng ý nghĩa)

hiệu, một giá trị, thường là một con số cụ thể

Lên trên (top)

CHƯƠNG 4: ĐỊNH BIẾN VÀ NHẬP DỮ LIỆU

1. Khái niệm về biến và các giá trị trong biến

Biến là tập hợp những trả lời cho một câu hỏi Có hai loại biến như sau:

Phân loại biến theo số lượng câu trả lời:

Trang 11

- Biến nhiều trả lời: Các biến dành cho nhiều câu trả lời có thể

có trong một câu hỏi nhiều trả lời

Ví dụ như trong bảng câu hỏi có hai câu hỏi sau:

nhóm tuổi sau:

Nhóm tuổi code

Dưới 18 1

19 đến 30 2

31 đến 40 3

41 đến 50 4

Trên 50 5

- Câu hỏi 2: Nói đến điện thoại di động, bạn biết được những nhãn hiệu nào trong danh sách liệt kê dưới đây Nhãn hiệu code Ericson 1

Motorola 2

Nokia 3

Siemens 4

Panasonic 5

….V.V

Có thể thấy đối với câu hỏi 1, người trả lời chỉ có thể đưa ra một câu trả lời duy nhất về tuổi của mình, do đó biến chứa đựng câu trả lời của câu hỏi 1 là biến một trả lời Trong khi xem xét câu hỏi 2, người trả lời có thể nêu ra nhiều nhãn hiệu mà họ có biết qua, do đó phải có nhiều biến chứa đựng các trả lời có thể có, ta gọi biến đó là biến nhiều trả lời

Phân loại biến theo kiểu dữ liệu:

Trang 12

định tính ta không thể sử dụng các phép toán (cộng, trừ, nhân, chia) để tính toán các giá trị trên biến đó, ngược lại biến định lượng cho phép ta thao tác các phép toán trên các giá trị mà nó đại diện Việc xác định dạng biến theo cách này cho phép ta lựa chọn được tham số thống kê tương thích để phân tích.

Để xác định được biến là định lượng hay định tính đói hỏi phải xác định các giá trị trong biến thuộc dạng thang đo nào trong bốn dạng thang đó sau:

này các con số được sử dụng đơn thuần như một giá trị xác định sự khác biệt cho các câu trả lời, các giá trị quan sát có ý nghĩa khác biệt nhau Đối với loại thang biểu danh các giá trị số được sử dụng như là ký số nhận dạng và không có giá trị về một thứ tự cao thấp

và và độ lớn giữa các con số

liệu được xắp xếp các giá trị quan sát theo một thứ tự cao thấp nhất định, nhưng không diễn tả được độ lớn giữa vị trí cao thấp giữa các con số Tóm lại thang đó thứ tự bao gồm cả thông tin về biểu danh đồng thời cung cấp luôn mối quan hệ theo thứ tự giữa các giá trị nhưng không đo được khoảng cách giữa các giá trị đó

của thang đo thứ tự, tuy nhiên đối với thang đó khoảng cách cho phép ta đo được khoảng cách giữa các giá trị Tuy nhiên do thang

đo khoảng cách không xác định được điểm 0 chung (giống như thang đo nhiệt độ) do đó ta chỉ có thể nói giá trị này lớn hơn giá trị kia bao nhiêu đơn vị nhưng không thể kết luận giá trị này lớn hơn giá trị kia bao nhiêu lần

và khoảng cách Ngoài ra việc xác định ra tỷ số chênh lệch giữa các giá trị là có thể thức hiện do ở thang đo này điểm 0 được xác định một cách có ý nghĩa

Từ bốn dạng thang đo trên ta phân ra hai loại biến Biến định tính là biến chứa các giá trị quan sát ở dạng thang đo biểu danh và thứ tự Còn biến định lượng là biến chứa các giá trị có dạng thang đo khoảng cách và tỷ lệ

Trang 13

2. Phương pháp định biến trên SPSS (Define Variable)

Định biến trong màn hình quản lý biến (variables view) Công việc định biến này có thể được thực hiện trước khi tiến hành nhập dữ liệu vào trong máy

Mục đích của việc đình biến là gán nhãn và các thông số cho các biến và gán ý nghĩa cho các giá trị trong biến Sau khi được mã hóa các dữ liệu sẽ được đại diện bằng những con số và các con số này có ý nghĩa khác nhau tùy theo câu trả lời thu thập được Để các con số này có thể nhập vào máy tính và có thể quản lý cũng như có ý nghĩa trong SPSS, ta phải tiến hành định biến cho dữ liệu Qui trình định biến này bao gồm các bước sau:

đầu tiên trong màn hình Variables view (Nếu ta không gõ tên biến

vào thì SPSS sẽ mặc định tên biến này là Var000001) Tên biến

được khai báo này sẽ hiển thị trên đầu các cột trong màn hình Data view Tên biến bị hạn chế về số ký tự hiển thị, do đó cần thiết phải khai báo ngắn gọn và dễ gợi nhớ, thông thường nên đặt theo thứ tự câu hỏi trong bảng câu hỏi như q1, q3, q4a, …Có một số qui ước sau đây phải tuân theo khi khai báo tên biến:

 Bắt đầu bằng một chử cái và không bắt đầu bằng dấu chấm(.)

 Tên biến không được qua 8 ký tự

 Không được chứa khoảng trắng và các ký tự đặc biệt như (!), (?), (*)

 Các từ khóa sau đây không được dùng làm tên biến: ALL, NE,

EQ, TO, LE, LT, BY OR, GT, AND, NOT, GE, WITH

-

Hình 4-1

Định ra kiểu biến (Type): Có các dạng biến sau có thể định dạng Dạng con số (numeric); Dạng tiền tệ; dạng ngày (Date) hoặc dạng

Trang 14

số được hiễn thị khác nhau (Xem hình 4-1)

Tùy thuộc vào yêu cầu của dữ liệu, mà ta sẽ định loại biến cho biến, SPSS mặc định loại biến là kiểu số (numeric); ngoài ra còn có thể khai báo các kiểu hiễn thị số khác nhau như kiểu số có dấu phẩy (Comma) hay dấu chấm (Dot) ngăn cách giữa các khoảng cách hàng ngàn của con số; cách hiễn thị theo các ký hiệu khoa học (Scientific notation); Hiễn thị ngày, dollar và các kiểu tiền tệ khác; cuối cùng là cách hiễn thị dạng chuổi

con số sau dấu phẩy hiển thị (Decimals): Khai báo bề rộng của con số (hàng đơn vị, hàng trăm, hàng triệu, …) trong ô Width, Và khai báo số con số thập phân sau dầu phẩy trong ô Decimal

cách đầy đủ hơn, tên biến này sẽ hiễn thị ý nghĩa của biến trên các kết quả phân tích trong màn hình kết quả (output), công cụ này giúp ta hiểu được ý nghĩa của biến đang khảo sát dễ dàng hơn trong quá trình phân tích

-

Hình 4-2

Định tên cho các giá trị trong biến (Value lables): Trong quá trình

mã hóa dữ liệu ta đã gán các giá trị trong biến thành các con số đại diện, Nhưng để cho quá trình đọc và phân tích các kết quả nghiên cứu

dễ dàng hơn ta phải gán các con số này các ý nghĩa như nó mà nó đang đại diện, công cụ định lại nhãn cho giá trị cho phép ta thực hiện điều này (Xem hình 4-2):

Gán nhãn của giá trị (value lables) có ba thao tác:

o Gán một nhãn mới:

Trang 15

• Nhập nhãn của giá trị vào hộp thoại Value Label

Định nghĩa các giá trị khuyết (Missing Values): Được dùng để định

ra các giá trị cụ thể cho các giá trị mà ta muốn loại bỏ ra khỏi các phân tích và xử lý thống kê sau này hay còn gọi là các giá trị khuyết Ví dụ trong câu hỏi về thu nhập, sẽ có một số trường hợp từ chối trả lời tương ứng với giá trị mã hóa là 99 Trong quá trình phân tích để loại bỏ tất cả các trường hợp này ra khỏi các xử lý thống ke, ta phải tiến hành khai báo giá trị 99 là giá trị khuyết trong phần giá trị khuyết (Missing values) (Xem hình 4-3)

SPSS mặc định là không có khai báo giá trị khuyết Có ba cách để khai báo các giá trị khuyết

(1)hai báo bằng 3 giá trị rời rạc (Discrete missing values)

(2)Khai báo một chuổi liên tục các giá trị (Range of missing

values)

Trang 16

riêng biệt (Rang plus one discrete missing value)

Đối với dữ liệu dạng chuỗi Toàn bộ các giá trị vô dụng hoặc trống đều được xem là có nghĩa Để định nghĩa các giá trị vô nghĩa và các giá trị trống là giá trị khuyết ta phải nhập vào một khoảng trống vào trông ô định ra các giá trị khuyết riêng biệt

đang khai báo biến

trong cột (phải, trái, giữa)

thuộc vào dạng thang đo được sử dụng trong biến mà ta khai báo trong công cụ measurement, chú ý khai báo scale được dùng chung cho dạng thang đo khoảng cách và thang đo tỷ lệ Việc khái báo này chỉ mang tính chất quản lý không ảnh hưởng đến kết quả phân tích

3. Nhập dữ liệu

Dữ liệu cần nhập sẽ được nhập vo trong mn hình Data views Mn hình ny thể hiện ra một ma trận thông tin bao gồm: cột v hng, v ơ giao nhau giữa cột v hng (Xem hình 2-1)

Dữ liệu được nhập theo trình tự sau:

mỗi cột (tn mặc định của cc cột ny trong SPSS l var00001, …, var0000x) Phần ny đ được đề cập chi tiết trong phần định biến

cần nhập sẽ cĩ khung viền chung quanh bo cho người nhập biết đĩ l

ơ đang hoạt động, tn biến v số hiệu hng được hiện ở gĩc tri của cửa sổ

sữa đổi (cell editor) nằm ở trn cửa sổ Ch ý khi nhập dữ liệu phải bảo đảm đng với kiểu biến đ được định nghĩa Thơng thường cc kiểu biến được khai bo l dạng chuổi (ngắn tối đa 8 ký tự) hoặc dạng

số, nhằm bảo đảm tính tương thích cho việc phn tích sau ny

Ta cũng cĩ thể nhập liệu từ cc phần mềm khc như Excel, Fox, … v sau đĩ chuyển vo trong SPSS

Lên trên (top)

Trang 17

CHƯƠNG 5: CÁC PHÉP BIẾN ĐỔI VÀ THAO TÁC TRÊN TẬP DỮ LIỆU

1. Mã hóa lại (Recode)

Recode là công cụ dùng để mã hóa lại các giá trị trong một biến

thành các giá trị mã hóa mới phù hợp với đòi hỏi của quá trình phân tích dữ liệu Ví dụ đối với câu hỏi nguồn gốc nhận biết

quảng cáo của sản phẩm X, người trả lời có thể trả lời cụ thể trên báo Sài Gòn, Tuổi Trẻ, Tạp chí Sức Khỏe và Đời sống, Trên đài HTV7, Trên đài VTV3, … Có thể ban đầu các nguồn quảng cáo được mã hóa một cách riêng biệt Tuy nhiên do nhu cầu xử lý sau này, người nghiên cứu muốn nhóm các giá trị được mã hóa riêng biệt này thành ba loại nguồn quảng cáo chính là Báo, Tạp Chí và Tivi Công cụ Recode cho phép ta định lại các giá trị riêng biệt về nguồn quảng cáo ban đầu thành ba nguồn quảng cáo chung là Báo, Tivi và tạp chí.

SPSS cung cấp cho ta hai loại Recode là Recode trên cùng một biến (Recode into same variables) và recode vào biến khác (Recode into different variable).

1.1 Mã hóa lại trên cùng một biến (Recode into same variables)

Recode trên cùng một biến là mã hóa lại những giá trị trong một biến hiện hữu thành những giá trị mới và các giá trị mới này sẽ nằm ngay trong biến hiện hữu và thay thế các giá trị củ trên biến đó Khi sử dụng công cụ này

ta sẽ mất đi các giá trị đã khai báo ban đầu trong biến mà ta thực hiện lệnh Recode Chú ý các giá trị vừa được tạo ra chưa có nhãn, do đó sau khi thực hiện lệnh ta phải tiến hành khai báo nhãn cho giá trị (đã đề cập trong phần khai báo biến) Phương pháp này được thực hiện qua các bước sau:

Trang 18

Chọn transform/recode từ thanh menu chính Ở đây ta lựa

chọn Recode into same variable để tiến hành định lại giá trị của

biến trên cùng một biến Ta có hộp thoại như hình 5-1:

Hình 5-2

Chuyển các biến cần mã hóa lại sang hộp thoại variables, nhấn thanh Old and New Values để chuyển các giá trị củ cần thay đổi thành các giá trị mới Ta có hộp thoại Old and New values như hình 5-2:

này có thể là một giá trị đơn lẻ(Value), một giá trị khuyết mặc định hay giá trị khuyết khai báo (System-missing or User-missing), một dãy các giá trị(Range), hoặc toàn bộ các giá trị nào đó trong biến (All other values) New value dùng để khai báo giá trị mới sẽ thay thế cho giá trị củ tương ứng Nhấn thanh Add để lưu sự chuyển đổi

này Các giá trị chuyển đổi có thể sửa chữa hoặc loại bỏ bằng cách

di chuyển vệt tối đến biểu thức thể hiện sự chuyển đổi trong hộp

Trang 19

thoại Old->New và nhấn thanh Change cho sự thay đổi

hoặc Remove để loại bỏ.

Hình 5-3

Nếu việc định lại giá trị của các giá trị của biến có một số điều kiện

kèm theo, ta có thể dùng công cụ if để định ra các điều kiện cho lệnh recode Hộp thoại If Cases như hình 5-3:

phép định lại giá trị của biến được thực hiện cho tất cả các quan sát,

ở đây hiển thị là Include all cases Chọn lệnh include if case

satisfies conditionđể xác định các điều kiện trong việc định lại giá

trị của biến Chuyển tên biến cần định lại các giá trị vào hộp thoại bên phải Lúc này phép định lại giá trị của biến nói trên chỉ được thực hiện đối với các quan sát nào thỏa mãn được biểu thức điều kiện được thể hiện trong hộp thoại điều kiện này Ví dụ chỉ thực hiện lệnh recode đối với những trường hợp quan sát ở khu vực (biến kvuc) TP.HCM (có giá trị mã hóa là 2) ta khai báo biểu thức điều

kiện như sau kvuc = 2.

1.2 Mã hóa lại vào một biến khác (Recode into different variables)

Trang 20

Trong trường hợp định lại các giá trị hiện tại của một biến thành các giá trị

mới trong một biến mới ta sẽ lựa chọntransform/recode/into different variable và ta có hộp thoại như hình 5-4:

Sử dụng phương pháp recode vào một biến mới máy tính sẽ tự động tạo

ra một biến mới trên cơ sở dữ liệu để chứa các giá trị mới vừa được tạo

ra, đồng thời ta cũng vẫn lưu giữ được biến củ với các giá trị mã hóa củ trên cơ sở dữ liệu Chú ý các giá trị vừa được tạo ra chưa có nhãn, do đó sau khi thực hiện lệnh ta phải tiến hành khai báo nhãn cho giá trị (đã đề cập trong phần khai báo biến) Việc mã hóa lại các giá trị vào trong một biến mới được thực hiện qua các bước sau:

Khai báo tên biến mới và nhãn biến mới sẽ chứa các giá trị vừa

được mã hóa lại trong hộp thoại Output variable Nhấn

thanh change để xác nhận sự khái báo này.

tác tương tự như trường hợp định lại giá trị cho cùng một biến, đã được đề cập ở phần trên

Công cụ này có ưa điểm là ta vừa tạo ra được một biến mới với các giá trị được mã hóa theo cách mới nhưng đồng thời vẫn giữa được biến gốc với các giá trị mã hóa ban đầu Trong khi với phương pháp mã hóa lại dữ liệu trên cùng một biến, các giá trị mã hóa mới sẽ chồng lên các giá trị cũ và ta

đã mất đi các giá trị mã hóa ban đầu trên biến đó

2. Công cụ tự động mã hóa lại (Automatic Recode)

Trang 21

Là phương pháp mã hóa tự động các giá trị dạng chuổi sang dạng số vào trong một biến mới Biến mới này sẽ chứa các con số nguyên liên tục, mỗi con số nguyên trong biến mới sẽ đại diện cho các giá trị dạng chuổi giống nhau

Ví dụ khi ban đầu ta nhập dữ liệu địa bàn nghiên cứu (quận) như Bình Thạnh, Quận 1, Quận 2, Tân Bình, … ở dạng chuổi Ta có thể recode các giá trị này thành các giá trị số như 1, 2, 3 một các tự động bằng công cụ Automatic Recode Và mỗi con số nguyên này sẽ đại diện cho từng địa bàn nghiên cứu, như Quận 1 được chuyển thành 1, quận 2 là 2, …, Quận Tân Bình là 19 Đối với cách Recode này các giá trị nguyên thủy (quận 1, quận 2, …) sẽ được sữ dụng như là nhãn của giá trị đã được recode trong biến mới được tạo ra từ lệnh Automatic Recode Các giá trị dạng chuổi được mã hóa theo thứ tự alphabe

3. Lựa chọn các quan sát (Select Cases)

Công cụ Select Cases đưa ra một vài phương pháp cho phép ta lựa chọn

ra những nhóm nhỏ các trường hợp quan sát dựa trên tiêu chuẩn hay điều kiện cụ thể Ta cũng có thể dùng phương pháp này để lựa chọn một mẫu ngẫu nhiên các trường hợp quan sát từ tổng thể dữ liệu Để thực hiện lệnh

lựa chọn các quan sát này ta chọn Data/select casestừ menu ta sẽ có

Chú ý sau khi thực hiện việc chọn lựa các trường hợp Các thao tác thống

kê trong SPSS lúc này chỉ thực hiện trên các trường hợp được lựa chọn

Do đó sau khi thực hiện việc phân tích trên các trường hợp được lựa chọn, ta cần trả dữ liệu lại trạng thái ban đầu (kh6ng có lựa chọn các

trường hợp) bằng cách chọn All Cases trong phần Select của hộp thoại Select Cases.

Trong phần Unselected Cases cho biết trạng thái của các trường hợp không được lựa chọn Filtered chỉ ra các trường hợp không được chọn

vẫn được giữ lại trong tập tin nhưng sẽ bị loại trừ ra mọi phân tích thống

kê Select Cases tạo ra một biến lọc (FILTER_$), với các trường hợp

được chọn có giá trị 1 và các trường hợp không được chọn có giá trị

0 Deleted cho phép loại bỏ toàn bộ các trường hợp không được chọn ra

khỏi dữ liệu

Trang 22

Để nhận biết được các trường hợp nào được chọn hoặc không được chọn

ta có thể nhìn vào các giá trị trong biếnFILTER_$, các trường hợp được

chọn có giá trị 1 và những trường hợp không được chọn có giá trị 0 Hoặc

ta có thể nhìn vào màn hình Data để phân biệt các trường hợp Với các trường hợp không được lựa chọn sẽ có một gạch chéo trong thanh số thứ

tự hàng bên trái màn hình (Xem hình 20) Có thể dùng công cụ Sort Cases để xắp xếp theo thứ tự các trường hợp được chọn hay không được chọn (Sort cases theo biến FILTER_$).

Để tiến hành chọn lựa các trường hợp ta có thể dùng các cách sau:

cho phép ta lựa chọn các trường hợp dựa trên các biểu thức điều kiện Một biểu thức điều kiện cho ta các giá trị đúng hoặc sai của các trường hợp Nếu kết quả của biều thức điều kiện là đúng, trường hợp đó được lựa chọn Nếu kết quả này là sai hoặc thiếu thì các trường hợp đó không được chọn Ví dụ đối với biến giới tính (GTinh)có hai giá trị là Nam: 1 và Nữ: 2 Ta tiến hành chọn các trường hợp là Nam bằng cách chọn biến giới tính trong hộp bên trái

và chuyển sang hộp bên phải Hiễn thị biểu thức điều kiện như sau Gtinh=1 Lúc đó các trường hợp nào thỏa mãn điều kiện Gtinh=1 sẽ được lựa chọn Các biểu thức điều kiện có thể bao gồm tên biến, các hằng số, các toán tử, các con số, các hàm số, …

Trang 23

Hình 5-6

lựa chọn một mẫu ngẫu nhiên dựa trên một tỷ lệ phần trăm hoặc một số chính xác các trường hợp sẽ lựa chọn

- Công cụ Base range (hình 5-8) cho phép lựa chọn các trưòng hợp

theo số thứ tự hàng hiễn thị bên trái màn hình dữ liệu của SPSS

Hình 5- 7

Hình 5-8

Trang 24

Công cụ Split File cho phép tách dữ liệu trong tập dữ liệu đang quan sát

thành những nhóm nhỏ riêng biệt và sau khi thực hiện lệnh Split file này các phân tích xử lý thống kê sẽ cho ta các kết quả thống kê đã được thực hiện riêng biệt theo từng nhóm nhỏ dữ liệu này

hộp thoại Groups Based On list.

theo các giá trị của biến được lựa chọn để tách dữ liệu (hiễn thị

trong hộp Groups Based On list), và việc tách này mang tính chất

so sánh do đó khi tiến hành phân tích dữ liệu các phân tích dựa trên

sự phân tách này những vẫn được thể hiện trên cùng một bảng

được tách theo các giá trị của biến được lựa chọn để tách dữ liệu (hiễn thị trong hộp Groups Based On list), và việc tách này mang tính chất tổ chức lại dữ liệu thành những nhóm nhỏ do đó khi tiến

Trang 25

hành phân tích dữ liệu các phân tích dựa trên sự phân tách và được thể hiện một các riêng biệt giữa các nhóm phân tách

Chú ý sau ki tiến hành phân tích trên sự phân tách, để trở lại trạng thái bình thường của dữ liệu đòi hỏi phải bỏ đi lệnh tách dữ liệu vừa đưa ra

bằng cách chọn phần Analyze all cases, do not create groups trong hộp thoại Slipt Files

5. Công cụ tính toán giữa các biến (Compute)

Công cụ compute được dùng để tính toán giữa các giá trị trong các biến

và kết quả sẽ được lưu giữ trong một biến mới hoặc là một biến khác sẳn

có hoặc biến chứa đựng giá trị đang tính toán

Hình 5-10

Để thực hiện công cụ này ta truy xuất công cụ compute variable từ transform trên thanh menu ta có hộp thoại như hình 5-10:

Ta có thể khái báo kiểu và gán nhãn cho các giá trị của biến bằng

cách nhấn vào thanh Type&lable Ô Numeric Expression chứa

đựng các biểu thức số được dùng để tính giá trị cho biến đích (biến chứa đựng giá trị mới, biểu thức này có thể dùng tên các biến sẵn

có, các hằng, các toán tử và các hàm số Chúng ta co thể soạn các

biểu thức tính toán vào thẵng ôNumeric Expression, và có thể sử dụng các công cụ được hiển thị trong hộp thoại như các phiếm (+), (-), Function,…

Trang 26

trong tính toán nếu có, được sử dụng giống nhứ giống như công

cụ if trong hộp thoại recode, đã được đề cập ở phần trên.

6. Công cụ đếm (Count)

Hình 5-11

Công cụ này được dùng để tạo ra một biến mới chứa kết quả số lần xuất hiện (số đếm) của một giá trị hay nhiều giá trị được chỉ định ra trong danh

sách các biến được chọn trong ơ variables trong mỗi trường hợp

Từ menus ta chọnTransform/count để có được hộp thoại như hình 5-11

Một biến mới sẽ được tạo ra khi ta thực hiện thủ tục Count gọi là biến

đích (Taget variable) sẽ chứa đựng giá trị cộng dồn mỗi khi gặp được giá

trị cần đếm trong một hoặc nhiều biến đã được khai báo trước trong hộp

thoại Numeric variables.

Hình 5-12

Trang 27

Giá trị cần đếm sẽ được định rõ trong phần Define values (hình 5-12) Giá trị khai báo để đếm có thể là những giá trị cụ thể nàu đó (Value), hoặc những giá trị rỗng (System missing) hoặc là một dãy các giá trị (range) Sau khi khai báo giá trị cần đếm ta dùng thanh Add để xác nhận giá trị cần đếm vào trong hộp thoại Values to count Sử

dụngChange hoặc Remove để thay thế hoặc loại bỏ giá trị cần đếm (giá

trị đã được đánh dấu bằng vết đen)

Công cụ If dùng để xác định các điều kiện nếu có khi thực hiện lệnh Count (giống như công cụ if trong phần recode đã đưọc đề cập ở trên)

7. Hợp nhất các tập dữ liệu (Merge files)

SPSS cho phép ta hợp các dữ liệu quan sát từ trong một tập dữ liệu bên ngoài vào tập dữ liệu đang sử dụng Hoặc hợp các biến mới trong tập dữ liệu bên ngoài vào tập dữ liệu đang hoạt động Cả hai đều tạo ra một tập

dữ liệu mới có thể chứa tất cả các quan sát được hợp lại hoặc tất cả các

biến đưọc hợp tùy theo ta chọn Add Cases hay Add Variables

Công cụ Add Cases cho phép ta hợp dữ liệu trong tập dữ liệu đang hoạt động với dữ liệu trong một tập dữ liệu bên ngoài, với điều kiện tập dữ liệu

đó phải chứa các biến giống như biến trong tập dữ liệu đang hoạt động Sau khi thao tác, một tập dữ liệu mới (chưa được khai báo tên, và ta phải tiến hành lưu và khai báo tên mới) sẽ được tạo ra chứa các dữ liệu trong

cả hai tập dữ liệu vừa được hợp lại với nhau Trong trường hợp hai tập dữ liệu hợp với nhau nhưng có các biến khác nhau (khác nhau về tên biến hoặc loại biến) thì sau khi hợp tập dữ liệu mới sẽ tự động loại bỏ các biến khác nhau này, ta có thể sẽ bị mất dữ liệu chứa trong các biến bị loại bỏ này

Công cụ này rất thích hợp cho việc hợp nhất dữ liệu nghiên cứu ở các khu vực khác nhau, ví dụ như một cuộc khảo sát được tiến hành ở ba khu vực

Hà Nội, Đà Nẵng, và TP.HCM, dữ liệu thu thập về sẽ được nhập, chỉnh sửa cho ba khu vực riêng biệt Tuy nhiên sau đó ta có thể tiến hành hợp

dữ liệu ở ba khu vực này vào một tập dữ liệu thống nhất để tiến hành phân tích và xử lý Chú ý phải thống nhất về các tên biến, loại biến và số lượng biến trong cả ba khu vực trước khi nhập 3 file này lại với nhau

Trang 28

Chọn Data/Merge Files/Adds Cases (Xem hình 5-13)

Hộp thoại Read File cho phép ta lựa chọn tập dữ liệu sẽ được hợp với tập

dữ liệu đang hoạt động (working file) Nhấn Open để xác nhận việc lựa

chọn này

Hình 5-14

Sau khi lựa chọn xong tập dữ sẽ được kết hợp, ta sẽ có một hộp thoại mới như hình 5-14:

Unpaired Variables: liệt kê các biến không giống nhau giữa hai

tập dữ liệu đang được tiến hành hợp nhất lại, các biến không giống nhau này sẽ bị loại ra và không có trong tập dữ liệu mới được tạo ra

từ việc hợp nhất hai tập dữ liệu ban đầu Các biến này được ký hiệu

khác nhau với ký hiệu (*) đại diện cho các biến trong tập dữ liệu đang hoạt động và (+) đại diện cho các biến trong tập dữ liệu được

truy xuất từ bên ngoài Những biến được liệt kê trong hộp

Trang 29

thoại Unpaired Variables là những biến có những đặc điểm như

sau:

nhau về số ký tự trong chuổi

Cac biến này như đã nói sẽ bị loại bỏ ra khỏi tập dữ liệu vừa hợp nhất, điều này đồng nghĩa ta bị mất dữ liệu sau khi hợp nhất, do đó cần phải khắc phục sai sót này để bảo đảm tính đầy đủ của dữ liệu sau khi hợp nhất Các biến này sẽ được hợp lại với nhau bằng cánh

đánh dấu hai biến đó (trong hộp thoại Unpaired Variables) và nhấn thanh Pair, lúc đó dữ liệu trong hai biến này sẽ được hợp nhất và

được chứa đựng trong biến lấy tên biến giống như tên biến trong tập tin đang hoạt động Hoặc ta có thể dùng công cụ Rename để khai báo lại tên biến hoặc kiểu biến cho giống nhau

 Hộp thoại Variables in New Working Data File liệt kê các biến sẽ

có trong tập tin mới được tạo ra từ việc hợp nhất hai tập dữ liệu ban đầu Toàn bộ các biến trong hai tập tin ban đầu thỏa mãn các điều kiện giống nhau về tên và loại dữ liệu (số hoặc chuổi) sẽ được liệt

kê vào hộp thoại này

Chúng ta cũng có thể loại bỏ những biến mà chúng ta không muốn

có trong tập dữ liệu hợp nhất Bằng cách đánh dấu các biến đó

(trong ô variables in new data working file) và chuyển sang

ô Unpaired Variables

1.2 Thêm vào các biến (Add Variables)

Công cụ Add Variables cho phép hợp nhất dữ liệu trong tập tin đang hoạt động với một tập tin bên ngoài với điều kiện tập tin bên ngoài này phải chứa đựng cùng các quan sát với tập tin đang sử dụng, nhưng khác nhau

về biến (khai báo tên biến khác với tập tin đang được sử dụng), quá trình này sẽ tạo ra một tập dữ liệu mới chứa cùng các quan sát nhưng tập hợp tất cả các biến khác nhau trong hai tập dữ liệu ban đầu

Công cụ này thích hợp với các cuộc nghiên cứu được chia làm nhiều giai đoạn Ví dụ như nghiên cứu về mức độ ảnh hưởng của một chương trình quảng cáo, người ta thường nghiên cứu một số đối tượng người trả lời về

Trang 30

ra thị trường, gọi là Pre-test Sau đó sẽ tiến hành một cuộc nghiên cứu nữa trên đúng các đối tượng đó sau khi chương trình quảng cáo đã được tung ra thị trường, ta gọi là Post-test Phân tích thống kê đòi hỏi một số so sánh (như Paired-sample t test) các ý kiến của những người tiêu dùng này trước và sau khi có chương trình quảng cáo Để thực hiện công việc này cần chú ý những điểm sau:

được xắp xếp theo cùng một thứ tự, thông thường thứ tự này được quản lý bằng một tập tin chứa các giá trị là số bảng câu hỏi Chú ý các bảng câu hỏi của đối tượng nghiên cứu trong lần phỏng vấn trước phải giống với số bảng câu hỏi dùng để phóng vấn chính đối tượng đó trong lần sau Khi loại bỏ bảng câu hỏi nào của lần phỏng vấn trước hoặc sau ta phải loại bỏ luôn bảng câu hỏi đó trước khi tiến hành hợp nhất

trường hợp khớp với nhau (thường sử dụng biến ID chứa số bảng câu hỏi) Điều phải bảo đảm trước khi tiến hành hợp nhất biến giữa hai tập

dữ liệu này là ta phải xắp xếp dữ liệu trong hai biến khóa của hai tập

dữ liệu theo thứ tự từ nhỏ đến lớn

bên ngoài sẽ bị loại trừ khỏi tập tin mới được tạo

Hình 5-15

Từ tập dữ liệu đang thao tác ta mở công cụ Data/Merge Files/Adds

Variables từ menu, SPSS sẽ truy suất hộp thoạiAdd Variables: Read File để ta lựa chọn tập dữ liệu sẽ được hợp với tập dữ liệu đang hoạt

Trang 31

động Nhấn Open để xác nhận việc lựa chọn này (giống như trường hợp Adds Cases - Xem hình 5-13) Sau khi lựa chọn được tập dữ liệu sẽ hợp biến với tập dữ liệu đang hoạt động SPSS sẽ truy suất cho ta hộp thoại như hình 5-15.

hợp thành Những biến này là những biến có tên biến giống nhau Biến

trong tập tin đang hoạt động được ký hiệu là (*), và những biến trong tập tin bên ngoài là(+) Nếu muốn các biến giống tên nhau này có trong

tập dữ liệu mới ta phải tiến hành rename nó lại và chuyển nó sang hộp

thoại chứa các biến sẽ có trong tập tin mới (New Working Data File)

được xác định Chú ý biến khóa này phải có cùng tên ở các hai tập tin cần hợp nhất Các trường hợp không thỏa mãn với biến khóa thì vẫn bao hàm trong tập dữ liệu mới nhưng sẽ không được hợp với các trường hợp trong tập tin khác Những trường hợp này chỉ chứa đựng giá trị riêng biệt của tập dữ liệu mà nó bao hàm từ trước (trước khi tiến hành hợp nhất) và các trường hợp này sẽ có giá trị khuyết trong các biến chứa đựng trong tập tin thứ hai mà ta sẽ hợp nhất

Lên trên (top)

CHƯƠNG 6: XỬ LÝ VÀ PHÂN TÍCH DỮ LIỆU

1. Kiểm tra dữ liệu (Explore)

Công việc đầu tiên rất quan trọng và cần phải thực hiện một cách cẩn thận trước khi đi vào các bước mô tả hay các phân tích thông kê phức tạp sau này là tiến hành xem xét dữ liệu một cách cẩn thận SPSS cung cấp cho công cụ Explore để xem xét và kiểm tra dữ liệu:

chuẩn bị cho việc kiểm tra giả thuyết

Để nhận dạng và phát hiện sai sót trong dữ liệu, ta có ba cách hiễn thị dữ liệu như sau

Trang 32

thuyết, ta dùng các phép kiểm tra sau:

xem dữ liệu có được lấy từ một phân bố chuẩn hay không

Chúng ta thường dùng giá trị trung bình số học để ước lượng độ hội tụ của dữ liệu Tuy nhiên vì giá trị trung bình bị ảnh hưởng bởi tất cả các giá trị quan sát Để giảm thiểu những ảnh hưởng của các giá trị bất thường (quá lớn hoặc quá bé), người ta thường loại bỏ các giá trị lớn nhất và các giá trị nhỏ nhất (Outliers) theo cùng một tỷ lệ nào đó Khi đó gia trị trung bình được gọi là giá trị trung bình giãn lược (Timmed-mean)

Một cách làm khác là gán các trọng số khác nhau cho các giá trị quan sát tùy theo khoảng cách của nó đến giá trị trung bình, càng xa trọng số càng nhỏ Các trong số này gọi là M-estimators Có 4 loại trọng số là Huber, Turkey, Hampel, và Andrew Dựa vào trọng số này ta ước lượng lại giá trị trung bình cho dữ liệu

Để kiểm tra dữ liệu, chọn trên menu Statistic/Summarize/Explore… để

mở hộp thoại Explore như Hình 6-1:

Hình 6-1

Các biến trong tập

dữ liệu xuất hiện trong hộp bên trái Chọn một hay nhiều biến đưa vào

ô Depende

nt list, các

biến cần quan sát sẽ được liệt kê rong ô này Chúng ta cũng có thể tách các quan sát thành các nhóm nhỏ riêng biệt để kiểm tra dựa vào các giá trị

của các biến kiểm soát sẽ được đưa vào ôFactor List Ví dụ như kiểm tra

biến mức độ đánh giá nói chung dựa vào biến nhãn hiệu đang sử dụng

Có thể lần ra các quan sát này bằng cách gán nhãn cho nó bằng gía trị

của một biến nào đó, biến này sẽ được đưa vào trong ô label cases by

Trang 33

Ví dụ muốn biết những giá trị di thường trong biến mức độ đánh giá nói chung theo nhãn hiệu TV đang dùng Ta gán nhãn cho các quan sát này bằng các giá trị trong biến số bảng câu hỏi Lúc này nếu có các giá trị dị thường ta dễ dàng lần ra nó bằng số bảng câu hỏi kèm theo

Ô Display, cho phép chúng ta chọn cách hiễn thị kết quả, các tham sô thống kê (Statistic), hoặc đồ thị (Plot), SPSS mặc định là hiễn thị cả hai

Sử dụng công cụ Statistics cho phép ta lựa chọn các thống kê hiễn thị như hộp thoại Hình 6-2:

Hình 6-2

thị các giá trị thống kê như giá trị trung bình, khoảng tin cậy, trung vị, trung bình giãn lược, giá trị nhỏ nhất, lớn nhất, khoảng biến thiên, các bách phân vị

trung bình theo 4 loại trọng số

lớn nhất, gọi làExtreme Values

Hình 6-3

Sử dụng công cụ Plots (Hình 6-3), để lựa chọn hiễn thị dạng đồ

thị (Histogram), biểu đồ chỉnh tắc, các phép kiểm tra về phân phối chuẩn,

tính đồng đều của phương sai

Trang 34

quan sát nhiều hơn một biến phụ thuộc (hiễn thị trong ô dependent list).

o Factor levels together đưa ra một hiển thị riêng biệt

cho mỗi biến phụ thuộc Trong phạm vi một hiển thị, Boxplots được hiển thị cho mỗi một nhóm được phân ra theo giá trị của biến điều khiển (factor variable) Dependents together đưa ra một hiển thị riêng biệt theo mỗi nhóm được phân theo các giá trị trong biến điều khiển Trong phạm vi của hiễn thị, boxplots được đưa ra lần lượt cho mỗi biến phụ thuộc

hay dạng cành lá (stem-and-leaf plots)

phối chuẩn Đồng thời cung cấp một kiểm nghiệm thống kê Kolmogorov-Smirnov statistic, với mức tin cậy Lilliefors dùng để kiểm nghiện tính chuẩn của phân phối mẫu đang quan sát Một kiểm nghiệm khác là thống kê Shapiro-Wilk được sử dụng cho mẫu

có kích cỡ nhỏ hơn hoặc bằng 50 mẫu

tra tính đồng đều của phương sai giữa các mẫu trong dữ liệu gốc hay dữ liệu đã được biến đổi Để thực hiện phép thống kê Levene đòi hỏi phải có khai báo biến điều khiển trong khuôn Factor lists, Thồng thường ta thường làm việc trên dữ liệu gốc do đó lựa chọn Untransformed trong khung Spread vs Level with Levene test

Kiểm nghiệm Kolmogorov-Smirnov (Lilliefors)

Kiểm nghiệm Lilliefors là một dạng kiểm nghiệm Kolmogorov-Smirnov, dùng để kiểm nghiệm tính chuẩn tắc của một mẫu hay hai mẫu Với giá trị sig nhỏ hơn mức ý nghĩa (0.05) là kết quả bác bỏ giả thuyết phân phối mẫu là phân phối chuẩn Phép kiểm nghiệp Shapiro-Wilk chỉ dùng trong những trường hợp số mẫu nhỏ hơn 40

Kiểm nghiệm Levene

Trước khi đi vào các kiểm nghiệm trung bình ta cần phải tham khảo một kiểm nghiệm khác mà kết quả của nó là rất quan trọng cho các kiểm nghiệm trung bình sau này Kiểm nghiệm Levene là phép kiểm nghiệm tính đồng nhất của phương sai Ở đây ta kiểm nghiệm giả

thuyết cho rằng phương sai của giữa các mẫu quan sát là bằng nhau Kiểm nghiệm cho ta kết quả Sig nhỏ hơn mức tin cậy (5%) ta kết luận

Trang 35

không chấp nhận giả thuyết cho rằng phương sai mẫu thì bằng nhau Chú ý trong một số kiểm nghiệm như ANOVA, kiểm nghiệm t, … Đòi hỏi phải kiểm nghiệm thông kê Levene trước để xác định tinh cân bằng hay không cân bằng của các phương sai mẫu Kết quả này sẽ ảnh hưởng đến việc lựa chọn các kiểm nghiệm trung bình khác (Kiểm

nghiệp trung bình với phương sai mẫu bằng nhau hoặc kiểm nghiệm trung bình với phương sai mẫu không bằng nhau)

2. Lập bảng phân bố tần suất cho biến một trả lời (Frequencies)

Công cụ Frequencies sử dụng các tham số thống kê để mô tả cho nhiều loại biến, đây cũng là một công cụ hữu ích để ta khảo sát dữ liệu tìm lỗi cho dữ liệu

Chúng ta có thể khảo sát dữ liệu thông qua các công cụ như: Tần suất xuất hiện, phần trăm, phần trăm tích lũy Ngoài ra nó còn cung cấp cho ta các phép đo lường thông kê như độ tập trung (central tendency

measurement), độ phân tán (dispersion), tứ phân vị (Quartiles) và các bách phân vị (percentiles), phân phối dữ liệu (distribution)

Lập bảng này ngoài việc tóm tắt dữ liệu, nó còn giúp ta phát hiện những sai sót trong dữ liệu như, những giá trị bất thường (quá lớn hay quá nhỏ)

có thể làm sai lệch kết quả phân tích thống kê, những giá trị mã hóa bất thường do sai sót việc nhập liệu hay mã hóa

Để tiến hành lập bảng đơn ta chọn công

cụ Statistic/sumarize/frequencies ta có hộp thoại như Hình 6-4:

Hình 6-4

Trang 36

biến cần quan sát cùng một lúc.

Công cụ Charts được dùng để vẽ đồ thị cho dữ liệu, và công cụ Format được sử dụng định ra kiểu hiển thị của dữ liệu, theo thứ tự tăng dần hoặc giãm dần

o Ta có công cụ phân nhánh dữ liệu thành 4 phần bằng nhau gọi là tứ phân vị (quartiles)

o Hoặc ta có thể chia dữ liệu theo các phần bằng nhau cụ thể bằng cách gõ số phần muốn chia vào công cụ cuts points for equal groups

o Hoặc ta có thể xem giá trị ở phân nhánh cụ thể nào đó

từ công cụ percentile(s)

Sử dụng thanh Add để xác nhận số thứ tự phân vị cần quan sát, sử dụng thanh Remove và Change để loại bỏ hoặc thay đổi sự xác nhận ban đầu

Ngày đăng: 28/03/2014, 21:01

HÌNH ẢNH LIÊN QUAN

Bảng có cùng số lượng hàng và cột - SPSS VÀ ỨNG DỤNG
Bảng c ó cùng số lượng hàng và cột (Trang 47)

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w