Bài giảng môn học phân tích dl trong kd

1.3 Quy trình thực hiện nghiên cứu Thang do chính thức —_ Loại các biến không thòa tiêu chí kiểm định hé s6 Cronbach’s Alpha, loai n biến chạy lại kiểm dinh Cronbach’s Alpha n [an —

Trang 1

vi

TRƯỜNG ĐẠI HỌC CÔNG NGHIỆP TP HÒ CHÍ MINH

KHOA QUẢN TRỊ KINH DOANH

TY q6 0E

Trang 3

CHƯƠNG 1

GIOI THIEU VE CO SO DU LIEU, PHAN LOAI DU LIEU, MA

HOA VA NHAP LIEU

1.1 Phân loại dữ liệu

Dữ liệu nghiên cứu có thé phan thanh hai loại chính là dữ liệu định tính và dữ liệu định lượng

Các dữ liệu này được thu thập băng 4 thang đo cơ bản theo sơ đô sau:

Thang do

Tilé

Khác nhau cơ bản giữa dữ liệu định tính và dữ liệu định lượng:

"_ Dữ liệu định tính: phản ánh tính chất, sự hơn kém, không tính được trị trung bình

" Dữ liệu định lượng: phản ảnh mức độ, mức độ hơn kém, tính được trị trung bình

1.2 Các loại thang đo

1.2.1 Thang do danh nghĩa (thang đo phan loại) - Nominal scale:

Các con số chỉ đùng đề phân loại các đối tượng, chúng không mang ý nghĩa nào khác

Anh/chi/6ng/ba thường đọc báo ở đâu? (chỉ chọn 1 trả lời)

1 Nhà

2 Cơ quan, văn phòng, nơi làm việc

3 Noi ban hang

4 Nơi khác (ghi cụ thể) ác cò 22c n2 nọ nh nh nh nh se

Trang 4

1.2.2 Thang do thw bac - Ordinal scale:

Các con số được dùng dé ghi thir bac (sw hơn kém)

Vi du:

Hay xếp hạng các chủ đề sau đầy trên flyer tùy theo mưc độ quan tâm của Anh/chự/ông/bà đối với từng loại chủ để? (chủ đề nào quan tâm nhất thì ghi số 1, quan tâm thứ nhì thì ghi số 2, quan tâm thứ ba thì ghi sô 3)

® Phim anh

° Mua sam

e Anudéng

1.2.3 Thang do khoảng - Interval scale:

Là thang đo thứ bậc và cho biết được khoảng cách giữa các thứ bậc Thông thường thang đo khoảng cách có dạng là một dãy các chữ sô liên tục và đều đặn từ 1 đến 5, từ 1 đến 7 hay từ I đến 10 Dãy số này có 2 cực ở hai đầu thê hiện 2 trạng thái đối nghịch nhau Ví dụ: như 1 là rất ghét, 5 là rất thích, 1 là không đồng ý, 5 là rất đồng ý, 1 là rất không hải lòng, 5 1a rat hai lòng

1.2.4 Thang do ti lé - Ratio scale:

Thang đo khoảng cách cho phép tinh tỉ lệ để so anh, thang đo tỉ lệ thu thập đữ liệu là số thực,

như trọng lượng, chiều cao, cân nặng, doanh thu, chi phi

Ví dụ:

Nếu gia đình Anh/chị/ông/bà có thường đi xem phim tai cụm rạp Mega Start, thì số lượng người thông thường đi xem phim trong gia đình trung bình là bao nhiêu người (kê cả Anh/chi/6ng/ba)? Trong đó sô người thường xuyên xem phim là bao nhiêu người?

Sô người đọc: , SỐ người thường xem xuyên xem phim:

Trang 5

1.3 Quy trình thực hiện nghiên cứu

Thang do chính thức

—_ Loại các biến không thòa tiêu chí kiểm định

hé s6 Cronbach’s Alpha, loai n biến chạy lại kiểm dinh Cronbach’s Alpha n [an

— Kiểm tra hệ số Cronbach”s Alpha

Phân tích nhân tố khám phá —_ Loại các biến có trọng số EFA nhỏ

(EFA- Exploratory Factor = |-—* — Kiểm tra các yếu tố trích được

Analysis} — Kiểm tra phương sai trích được

—_ Loại các biến không thỏa tiêu chí kiểm định

hệ số Cronbach”s Alpha, loại n biến chạy lại kiểm dinh Cronbach’s Alpha n [an

— Kiểm tra hệ số Cronbach”s Alpha

Hình: Quy trình thực hiện nghiên cứu

¢ Nghiên cứu sơ bộ (Nghiên cứu định tính)

® Nghiên cửu chính thức (Nghiên cứu định lượng)

s - Đề xuất, các giải pháp và kiến nghị

1.4 Cửa số làm việc của SPSS

Từ Start Menu chọn ->Programs rồi chọn -> SPSS for Windows 21.0, màn hình đữ liệu SPSS sẽ hiện ra như sau:

Trang 6

@le2aa | Numeric “15 Menu: Chứa lệnh xử lý và các lệnh phân tích

eo }<2a4 | [Numeric 5 °_'Tool bar: Thanh công cụ, gôm các biểu tượng thê hiện

8 e2a5 | Numeric 5 0 , N ` ` Ắ

9 c2a6| Numeric 5 o ¡ các lệnh thường dùng nhất

10 c2a7 | Numeric 5 ọ ery mre Ng ye renig BEET tuy = 1g ven

11 2a8: A Ke on 2 r A * aN yA r ae

+ ca: Cột: Mỗi cột trong bảng chứa một loại dữ liệu (Ví dụ: giới tính)

13 ®czrr— Dòng: Mỗi dòng trong bang chứa các dữ liệu của một đôi tượng khảo sát

14 c2b Py NONE o = Rig #: Nơnnar

16 c2b3; Variable View: Cura so khai bao bien = None 8 =Right êNomial

16 c2c1 /D t Vi C ? A nhâ lié ; None 4 = Right & Nominal

17 ata View: ua 80 ap Hiệu bi None 4 = Right & Nominal

IBM SPSS Stabstcs Processor is ready

1.5 Tạo khuôn nhập liệu

1.5.1 Thay đỗi một số mặc định của chương trình

Mở chương trình SPSS, từ file tập tin trắng chưa nhập liệu, vào Menu chọn: Edit/ Options, hộp thoại Opfions xuât hiện:

® Tai tab General chon nhu hinh sau:

> Display names: Hién nhãn bién hay hién tén biến

> Unicode (universal character set): Bang ma Unicode gé tiéng việt

~> File: chọn thứ tự xuất hiện của các biến trong hộp thoại lệnh xử ly

~> Measurement System: Thay đối đơn vị đo lường đề điều chỉnh định dạng

display | | No scientine notation for small numbers in tables

{Display names; IS) Apply locate’s digit grouping format to numeric values

a usssuenertenten: (news +]

File ————— _

Roles

To save hme, some dialogs allow the use of predefined

‘eid roles to automatically assign variables (Nelds)to lists © Raise wewor window

® Use predefined roles =

Windows: | © Unicode (untyersal character set)

Look and feel: Í8PS8landad — ~_ ‘Character encoding cannot be changed when any

‘non-empty datasets are open

| Open syntax window at startup

User Interface:

| Open only one dataset at a time 1 ag

Cøk )(ceeea) Lao Le)

Trang 7

by x

Transformation and Merge Options Set Century Range for 2-Digit Years

@ Calculate values Immediately

Display Formal for New Numeric Variables Coun

width: lồ Fa] Decimal Places Beoinyear: 4

ple: 12345678 —_

Randbm Number Generator \

Sô lượng sô lẻ

r

Assighling Measurement cua bién

number for uniqu ue

@ Adjust for labels and data for all abies

| Display Blocks of Rows Default Exiting Mode:

Copying wide tables to the clipboard in rich text form

> Boxed: Chon kiéu bang hién thị kết quả trong ctra s6 Output

Các điều chỉnh này sẽ ảnh hưởng đến thuộc tính của tất cả các biến được tạo ra sau khi chỉnh

xong Options

Sau đó nhân nút Apply, rồi nhân nút OK

Khi nhân nút Apply, chương trình có thê đưa ra một số lưu ý nói răng các hiệu chỉnh này chỉ

có hiệu lực sau khi mở lại file hay khởi động lại chương trình SPSS

1.5.2 Tạo biến mới

Đê tạo biên mới phải làm bên cửa số Variable View, có màn hình như sau:

Trang 8

————— Beh AER SPR Ae %

1 stt Numeric 5 0 số thứ tự None None 4 = Right # Scale i

2 tp Numeric 5 0 Thành phó {1, Hà Nội) 9 4 = Right & Nominal cS) c1 Numeric 5 0 Đọc báo {1, Hầu như k None 4 = Right ai Ordinal

4 c2a1 Numeric 5 0 Báo thường đọc trong 6 {1, HN mới} None 4 = Right # Nominal

5 c2a2 Numeric 5 0 {1, HN mới} None 4 = Right & Nominal

6 c2a3 Numeric 5 0 Báo thường đọc trong 6 {1, HN mới} None 4 = Right & Nominal

8 c2a5 Numeric 5 0 Bao thường đọc trong 6 {1, HN mới} None 4 = Right & Nominal

13 c2b1 Numeric 5 0 Các tờ báo thích đọc n {1, HN mới} None 5 = Right & Nominal

14 c2b2 Numeric 5 0 Các tờ báo thích đọc n {1, HN mới} None 5 = Right &@ Nominal

15 c2b3 Numeric 5 0 Các tờ báo thích đọc n {1, HN mới} None 5 = Right & Nominal

16 c2c1 Numeric 5 0 Các tờ báo GĐÐ thường {1, HN mới} None 4 = Right & Nominal

17 c2c2 Numeric 5 0 Các tờ báo GĐÐ thường {1, HN mới} None 4 = Right # Nominal

Tr

IBM SPSS Stabstcs Processor is ready

Name: gõ tên biến cần đặt (không có ký tự khoảng trắng, không có ký tự đặc biệt, phải bat dau băng một ký tự không được bắt đâu băng một ký sô)

Sau khi đặt tên biến, ta phải khai báo các thuộc tính cơ bản, muốn khai báo thuộc tính nào của biến, hãy nhắn chuột vào nút của thuộc tính đó Sau khi khai báo xong một thuộc tính bam nút OK

Type: Khai báo kiêu dữ liệu của biến

O Restricted Numeric (integer with leading zeros)

The Numeric type honors the digit grouping setting, while the Restricted Numeric never uses digit grouping

Lox} cance |_Hetp

Khai báo loại biến kiêu số (Numeric) hay kiéu chudi (String), s6 luong ky s6/ ky ty toi da (Width) có thé nhập vao, sé long sé thap phan (Decimal Places)

Hai biến thường dùng ở hình trên là:

> Numeric: bién kiéu sé

~> String: biến kiểu chuỗi (chỉ dùng trong trường hợp cần nhập họ tên, địa chi người trả lời và các thông tin dưới dạng ký tự khác)

Label: Khai báo ý nghĩa của biến hay ý chính của câu hỏi

Value: Khai bảo giá trị của biến, các nhãn giá trị cân thiết (nêu có)

Trang 9

mm 3 = "Thường xuyên (tuần 3-7 tờ)”

(change) 4 = "Rắt thường xuyên (trên 7 td/ tuan)”

Ca ](esea)( me)

Value: Mã nhập các thang đo định tính, phải bằng số

Label: Nhãn giải thích của mã nhập

Add: Khai bảo xong một mã gia tri

Change: Thay déi mã giá trị

> Remove: X6a m gia tri

M Missing: Khai bao các giá trị khuyết (nêu cần) Trong SPSS cho phép khai báo được 3 giả trị khuyết trong hộp thoại Missing Values

Sau đây là hộp thoại khai báo giá trị khuyết, giúp phân loại thiếu số liệu cho từng loại nguyên

Ví dụ: Ta gặp tình huống với câu hỏi về trình độ học vấn có những người được điều tra vì lý

do tế nhị nảo đó đã từ chối trả lời thì trong Value Label: ta quy ước giá trị 99 có nhãn là

“Không trả lời”, sau đó sang Missing Value: ta phai khai báo 99 là giả trị khuyết dé sau do khi tính toán các lệnh thống kê vi như tính tần số thì máy sẽ loại giá trị khuyết này ra khi tính phân trăn hợp lệ

Trang 10

Hình trên cho biết, trong Øile Dafa thực hành các biến c29al đến c29c có khai báo Missing Value là § hoặc 9 là số người không trả lời (không ý kiên)

M Columns: Khai báo độ rộng của cột biến khi ta nhập liệu trong cửa số Data, thường chon la 8

wÍ Align: Vị trí đữ liệu được nhập trong cột trong cửa số Data, thường chọn là Right

™ Measure: Chọn loại thanh đo thê hiện dữ liệu: Ordinal (thang đo thứ bậc), Norminal

(thang đo danh nghĩa) và Scale (gom cả thanh đo khoảng cách và thanh đo tỉ lệ)

Lưu ÿ:

Chúng ta van có thê sử dụng lệnh Copy va Paste trong qua trinh tạo biến mới Ví dụ như Tyle (kiêu biến) hay Value (Mã hoá) Bấm tô hợp phím Ctrl + C rồi dùng trỏ chuột chọn vùng muốn Copy thuộc tính tương ứng đến và nhắn tô hợp phím Ctrl + V

1.5.3 Lưu tập tin dữ liệu

Đề lưu lại tập tin dữ liệu chúng ta phải có khai báo biến trước thì chương trình mới cho lưu,

trong màn hình Data, từ Menu chọn File/ Save, hộp thoại sau sẽ xuât hiện:

tà

Look in: | }) Du lieu baigiang \ythuyetSPSSmoi ~ gi Ê3 ‡$ ‡=

Jt spss @ Phan tich biet so (moi)3.sav

G Data thuc hanh- Copy.sav (Qj Phan tich biet so (moi)4.sav

Gì Data thuc hanh say @ Phan tich biet so (thu 1).sav (GQ Data thuc hanh1.sav

| Encrypt file with password

{ tore gue To eeposton.)

Trong hộp thoại này, chọn ỗ đĩa, thư mục, đặt tên tap tin (tên nên đặt không dau) và nhân nút Save Phân mở rộng tên tập tin dữ liệu SPSS là sav

Trang 11

1.5.4 Nhập liệu trong SPSS

1.5.4.1 Cách nhập trực tiếp vào SPSS

Sao khi khai báo tên biến trong cửa số Variable View để nhập đữ liệu nghiên cứu vào SPSS, click chuột vào biểu tượng Data View nằm phía dưới màn hình của chương trình SPSS, chương trình sẽ hiện ra cửa số đề nhập dữ liệu trực tiếp vào chương trình như trong hình sau:

= Ean View Data Transtorm Anakze CirectMarketng Grapns Ublites Add-ons Window Help :

SES 5 © 7 BASE AAR BOR OO %

Trong một biến quan sát nào đó nếu người khảo sát không trả lời thì phải nhập gia tri Missing

mà bạn đã khai báo ở cửa số khai bao bién (Variable View) Ngoài ra, đối với câu hỏi nhiều trả lời thì không cần nhập giá trị Missing, chỉ nhập những giá trị mả người sát đã chọn còn các giá trị không chọn ta đề trống

Để hiển thị nhãn của giả trị mà bạn nhập liệu vào trong cửa số Data View, click nút Value

Labels trén Menu như trong hinh sau:

Trang 12

1.5.4.2 Cach Insert dit liéu tir Excel

Trong chương trình SPSS có chức năng Insert dữ liệu từ những dữ liệu đã có trong một file Excel, cách làm như sau:

Bước I1: Mở SPSS lên rồi vào Menu File -> Open -> Data như trong hình sau:

Edit View Data Transform Analyze DirectMarketing ( New >| MH BRB

Open Database > | @ syntax

(® Read Text Data @ Output

@ Read Cognos Data @ Script

rn ~ ~

Bước 2: Hộp thoại "Open Data" hiện lên các bạn chọn đến thư mục chứa file Excel Lưu ý là

mặc định SPSS sẽ chỉ hiện các file của SPSS (*.sav), muốn hiện fle Excel thì các bạn chọn

Files of type la Excel (*.xls, *xIsx ) chọn đúng file excel cân import dé load vao SPSS (nhu hình minh họa)

tooth: [5 BalGany em

} Bai giang SPSS

2 bai giang spss cua thaytrong

.Ì' Bai giang SPSS engllsh

Ỷ Bai giang Thay Ho

_)) NUYEN VU VAN ANH

Files oftype: |Excel (*xls, “xlsx, *.xIsrm)

SPSS Statistics Compressed (*.2sav) SPSSIPC+ (*.sys) Systat (*.syd, *.sys) Portable (*.por) Lotus (*.w*)

'SyIk (*.SIk) dBase (*.dbf)

Chỉ với 1 thao tác đơn giản như trên nhưng sẽ giúp ích được cho các bạn rất nhiều vấn đề trở

ngại về nhập liệu với kích cỡ mâu nhiều

- Mã hóa và nhập liệu trên Excel sẽ đơn giản hơn trong SPSS rất nhiều

- Bạn nên mã hóa và nhập vào excel chỉ bao gồm các con số, vd: nữ: 1; nam: 2, cũng như các thang do Likert 5: 1,2,3,4,5 thi khi import vào SPSS sẽ tự khai báo biến cho bạn, tiết kiệm

thời gian và công sức cho bạn rât nhiêu

- Sau cùng bạn sẽ không phải lo gặp các vấn đề về font chữ, lỗi khai báo biến or số lượng biến nhiều

Bước 3: Một hộp thoại hiện ra yêu cầu bạn muốn lấy tiêu đề của các cột trong Excel làm tên biến trong SPSS, rồi nhân OK Hình minh họa như sau:

Trang 13

Maximum width for string columns: 32787

Bước 4: Dữ liệu đã được Insert vào SPSS, tiếp tục mã hóa và khai báo cho một vài biến định tính cân sử dụng Hình minh họa như sau:

| stt hon HMỔ giớHnh họcực thunhập mứcđộhàiòng

1, 10 nguyễn văn A 20.0 nam khá 1.0 1.0

- 10 10.0nguyễn văn J 28.0nam giỏi 40 20

Cau hoi ôn tập chương Ï

Hãy thu thập dữ liệu dựa trên mô hình nghiên cứu của từng cá nhân

Trang 14

CHƯƠNG 2 LÀM SẠCH DỮ LIỆU

2.1 Lý do

Dữ liệu sau khi nhập xong chưa thê đưa ngay vào xử lý và phân tích vì con nhiều lỗi do:

® - Nhập liệu: sai, sót, thừa

2.2 Cac biện pháp ngăn ngừa

s - Thiết kế bảng câu hỏi rõ ràng, dé hiệu, dễ trả lời

* Chọn lọc và huấn luyện phỏng vấn viên kỹ lưỡng, điều tra phỏng vấn thử trước khi phỏng vấn thật dé thong nhất tránh sai sót

2,3 Các phương pháp làm sạch dữ liệu

2.3.1 Dùng bảng tần số

Lập bảng tần số (Frequencies) cho tất cả các biến, đọc soát dé tìm các giá trị lạ tại các biến Sau đó tại các biến có lỗi dùng lệnh Find đề tìm ra lỗi ở từng trường hợp cụ thê, rồi chỉnh sửa

s® Ưu điểm: đơn giản, dễ thực hiện

® - Nhược điểm; thủ công, phát hiện ít lỗi, chỉ phù hợp với các bảng câu hỏi đơn giản

2.3.2 Dùng bảng phối hợp hai biến hay ba biến

+ Lập bảng 2 biến {Crosstabs hay Custom Tables) dựa vào các quan hệ hợp lý (logic)

dé phat hiện ra lỗi Xí du: nhu lập bảng kết hợp biến tuôi và nghề nghiệp, phát hiện thấy có trường hợp tuôi chỉ có 13 mà nghề nghiệp ghi là giáo viên

Trang 15

Compare Means } % Explore

General Linear Model > |e Generalized Linear Models ' | _—

Descriptive Statistics

Compare Means fi Multiple Response Sets

+ Dùng lệnh Data-> Select case đề lọc ra các trường hợp có lỗi Tiếp theo vi dụ trên, ta lọc ra trường hợp thoả dieu kiện tuôi =13 và nghệ = gido viên (ví dụ mã nghề giao viên là =2)

File Edit View = Transform Analyze Direct Marketing

+ Lap bang tần số vối biến STT (số thứ tự của phiếu nhập) dé tim ra các trường hop bi lỗi tuôi là 13 mà có nghê là giáo viên

s® - Ưu đim: phát hiện được nhiều lỗi hơn, phù hợp với các bảng câu hỏi phức tạp

se Nhược điểm: phức tạp, cần nhiều thời gian, người thực hiện cần nhiều kinh nghiệm

Cầu hỏi ôn tập chương 2

Hãy nhập liệu từ dữ liệu thu thập được của mỗi cá nhân đề tạo thành database cho riêng minh

Trang 16

CHƯƠNG 3

TOM TAT VA TRINH BAY DU LIEU

3.1 Phuong phap va cong cu

Bồn công cụ cơ bản được trình bày trong phan nay là:

Frequencies H6p thoai Frequencies xuat hién:

eneralizet inear Models z x

3) c1 = 4 Models ' EE Rate bc báo {1, Hâu như

4 c2a1 Correlate ' ¬ == o thường đọ {1, HN mdi}

5 c2a2 = » | Bloor es Áo thường đọ {1, HN mới)

Trang 17

vào ô Variable(s) sau đó nhân nút OK, ta được 2 bảng tần số kết quả cho hai biến đã chọn như sau:

Statistics Thanh TN hé TB

* Dong Valid cho biét số quan sát hợp lệ (số người có tra lời)

® - Dòng Missing cho biết số quan sát bị thiếu đữ liệu (số người không trả lời) Trong 2 bảng tần số bên dưới, mỗi bảng có 4 cột số liệu:

se - Cột Frequeney: tần số

* Ct Percent: tan suat phan tram

s Cét Vali Percent: phan trim hop 1é, tính trên số quan sát có thông tin trả lời

Sử dụng khi có Missing Value

s - Cột Cumulative Percent: phan trim tich luy, cộng dồn các phân trăm hợp lệ

3.3 Các đại lượng thống kê mô tả

Các đại lượng thống kê mô tả chỉ được tính đối với các biến định lượng Nếu ta tính các đại lượng này đối với các biến định tính thì các kết quả sẽ không có ý nghĩa

Vào Menu Analyze > Descriptive Statistics > Deseripfives , hộp thoại sau sẽ xuất hiện:

Trang 18

a ee Label Values

Compare = ' at Eee thứ tự None

General Linear Model » ‘eu anh phó {1 ; Ha Nội}

Generalized Linear Models > — >

Mixed Models ' mì Ratio c báo {1, Hâu như

Bắm vào nút Opfions và hợp thoại kế tiếp xuất hiện:

rDispersinn

[M1 Sta deviation [4 Minimum (9) variance [M Maximum [) Range [—] SE mean

¢ Mean: Trung bình cộng

se Sum: Téng céng (str dung khi điều tra toàn bộ)

¢ Std.Deviation: Dé léch chudn

Trang 19

¢ Maximum: Gié tri lớn nhất

¢ SE mean: Sai s6 chuan khi udc luong TB tong thé

Trong trường hợp tính toán cho nhiều biến cùng lúc, có thé chon | trong 4 cách sắp xếp thứ tự ket qua tinh toan cla các biên này Thông thường là dùng trật tự tăng dân ( Acending means) hay giảm dân (Descending means)

Sau đó bấm vao nut Continue dé trở lại hợp thoại trước, rồi nhân nút OK Bảng kết quả sau

sẽ xuât hiện:

Descriptive Statistics

3.4 Lập bảng tần số đồng thời tính toán các đại lượng thống kê mô tả

Vao Menu Analyze > Descriptive Statistics > Frequencies lần này chọn biến c3 đề lập bảng tần số và tính các đại TỐ thống kê mô tả

Variable(s):

a

¥ Display frequency tables

(Lok _} Baste | (Reset || cancel) Help |

Trang 20

Trong hộp thoại Chart này, nhấp chuột vào các ô đề chọn loại biêu đồ cần vẽ Có thé chon |

trong 3 loại biểu đô sau:

1 Bar: biểu đồ dạng thanh (dùng cho biến có giá trị rời rạc)

2 Pie: biêu đồ hình tròn (dùng cho biến rời rac có ít giá trị)

3 Histograms: biéu dé phan phdi tân số (dùng cho biến có các giá trị liên tục)

Sau khi chọn loại biểu đỗ, nhấp chuột vào nút Continue dé tro vé hộp thoai Frequencies, va nhân nút OK Ket qua hién ra nhu sau:

Trang 21

Frequenc | Percent Valid Cumulative

Trang 22

Số lượng người đọc báo trong GĐ

3.5 Mã hoá lại biến

Vao Menu Transform > Recode Into Different Variables, hộp thoại sau xuất hiện:

File Edit View Data Analyze DirectMarketing Graphs Utilities Add-ons Window Help

:E1 Ñ 3 q w& | B compute variable E đi %|

Nan Ed camtvatues co | Decimals | Label Values

1 stt —— - 0 số thứ tự None

EEl Recode into Same Variables ;

3 c{ [EJ Automatic Recode 0 Doc bao {1, Hau như

4 jc2a1 | BE VisvatBinning 0 Báo thường đọ {1, HN mới)

[k2 Optimal Binning ` a

5) c2a2 Prepare Data for Modelina , | 0 Báo thường do {1, HN mdi}

Numeric Variable -> Output Variable: - Output Variable

& 37.4 hols? Name:

tay trải đưa vào ô giữa

Trong hộp thoại Recode này, chọn biến cần mã hoá lại (tôi) trong danh sách biến bên

Trang 23

nhân nút Change

Nhấn vào nút Old and New Values, để xác định các giả trị cũ và chỉ định mã mới

tương ứng, hộp thoại sau xuât hiện:

Trang 24

(| Output variables are strings

©All other values H

Name Type Width | Decimals Label Values

151 dotuoi Numeric 5 0 Độ tuổi {1, 18-25)

152 gtinh {1, Nam)

153 tncn -Value Labels {1, Không}

154 tngd Vauea | (Seema) | {1, Dưới 2 t

155 hocvan ae ssoeons{ | {1, Cấp 1)

156 nghe (asa) poe oe {1, Công ch

157 _ nhomhv (Ghanas || T7 46 Tvật {1, Cap 1-2}

158 tngdr {1, dưới 2 tr

189 Tuoi4nh WI

160 9k} Cancel (Hep |

Két quả sau khi mã hóa xong biến này sẽ biến thành biến định tính và thực hiện bảng thống kê

theo biên định tính ta thu được kết quả như sau:

Nhóm tuổi của khách hàng

Frequency | Percent | Valid Percent Cumulative

Trang 25

3.6 Lập bảng tông hợp nhiều biến

3.6.1 Bảng tần số I biến phân loại hay thứ bậc

Có 3 cấp bậc đo lường của biến là:

¢ Nominal: dir liéu ti thang do dinh danh

¢ Ordinal: dir ligu tr thang đo thứ bậc

® - Scale: dữ liệu từ thang đo khoảng cách va thang đo tỉ lệ

Chọn Analyze\ Tables \ Custom Tables hộp thoại Custom Tables hiện ra:

File Edit View Data Transform Direct Marketing Graphs Utilities Add-ons Window Help

Bat B® cm GA) Reports › is »

Name Descriptive Statistics m |

151 dotuoi Compare Means >

152 gtinh General Linear Model '

153 tncn ¬ TN cá nhân TB

154 tngd mm MU TN hộ TB tháng

Trong ví dụ này, chúng ta muốn xem thứ có bao nhiêu người trong mẫn khảo

sát ở Hà Nội và có bao nhieu người trong mầu khảo sát ở TPHCM Biên can dùng là biên tp

Trang 26

Unweighted Count | statistics [Label |Format [Decimats || —

Row N% (%) |Ccunt ‘Count nnnn Ũ +)

Table % cournn — mone ye

Trang 27

; Subtotals and Computed Categories 1 || BB Missing Values

Edit || Delete Empty categories : - (WM Other values found when

Categories omitted trom all subtotals: 0 a

2 “ data are scanned

Sort Categories r Totals and Subtotals Appear

By Vai xj Order: lAseendng Y, © Aboye categories to which

Trang 28

Ý nghĩa của từng giá trị trung bình đối với thang đo khoảng (Interval Scale)

Giá trị khoảng cách == (Maximum - Mimmum) /n

=(5-1)/5

=0.8

Gia tri tung binh Ý nghĩa

1.00-> 1.80 Rất không đồng ý/Rất không hải lòng/Rất không quan trọng

1.81 ->2.60 _ Không đồng ý/Không hài lòng/ Không quan trọng

2.61->3.40_ Không ý kiến/“trung bình

3.41 -> 4.20 Đồng ý/ Hải lòng/ Quan trọng

4.21 -> 5.00 Rất đồng ý/ Rất hai long/ Rat quan trong

3.6.4 Xử lý câu hồi chọn nhiều trả lời

3.6.4.1 Sw dung bang Custom Tables

Đối với câu hỏi có thê chọn nhiều trả lời, do người trả lời chọn nhiều ý nên khi nhập vào sẽ có nhiều biến Nếu tóm tắt các biến này bằng những lệnh thông thường như bảng tần số (Analyze

> Descriptive Statistics > Frequencies) hay bang tuy bién (Analyze > Tables > Custom Tables) thi ứng với I câu hỏi loại này, có nhiều biến thì sẽ ra nhiều bảng tần số rời rac, ít có ý nghĩa nếu không cộng các bảng nảy lại với nhau Đề có bảng tóm tắt hoàn chỉnh, chúng ta cần kết hợp các biến này lại Đi kèm với Custom Tables, SPSS cung cấp lệnh kết hợp biến này Tir menu chon Analyze > Tables > Multiple Response Sets

3.6.4.2 Sir dung lénh chay bang Multiple Response

Đầu tiên chúng ta phải kết hợp các biến của cùng một câu hỏi, rồi sau đó chạy bảng Từ Menu chon Analyze > Multiple Response

Vi du: ta can lap bang thong kê về thu nhập hộ gia đình (tngd) phân tích cho từng thành phố (tp) được điều tra Đưa lần lượt biến tp vào ô Columns (ô cột ) và biến tngd vào ô Row (6 dòng) Hình minh họa như sau:

Trang 29

Trong hộp thoại Summary Statistics chọn các hàm thống kê trong ô Statistics bên tay trái Đối với biến định tính, các hàm thường dùng là: Count (tần số), Row% (phan tram theo dòng), Col% (phần trăm theo cột)

Trong ví dụ này, ta lần lượt chọn ham Count va Ham Column N % rồi nhap vao nut mili

tên để đưa ham đang chọn vào ô Display bên tay phải, nhấp Apply to selection Hinh

minh hoa nhw sau:

Selected Variable: TN hé TB thang

Statistics: Display:

Unweighted Count q Statistics | Label Format [Decimals |

RowN % Le) Count Count nnnn 0 (a)

Table N % ColumnN% jCoumaN% nmnnn%X 1 | y

Trang 30

Đề vẽ đồ thị trong SPSS chúng ta cần phải hiểu rõ 4 bước đề thực hiện

=> Bước l: xác định dạng đồ thị thích hợp

~> Bước 2: xác định vùng đữ liệu và cầu trúc dữ liệu (theo hàng hay theo cột)

> Bước 3: các chi tiết của đồ thị: tên đồ thị, tên trục dé thi, đường lưới toa độ, vị trí phân chú thích của đô thị, hiện nhãn giả trị

~> Bước 4: chỉnh sửa đồ thị phù hợp với mục đích nghiên cứu

Cau hỏi ôn tập chương 3

1) Sử dụng dir liệu data cá nhân tiễn hành thực hiện các bảng thống kê và đồ thị tương

ứng với môi loại thang đo sau:

+ Thang do dinh danh (Nominal Scale); Thang do thir bac (Ordinal Scale); + Thang do khoang cach (Interval Scale); Thang do ti 1¢ (Ratio Scale)

2) Sử dụng dữ liệu data cá nhân tiến hành thực hiện các bảng thống kê kết hợp và đồ thị

tương ứng với môi loại dữ liệu sau:

+ Biến định tính kết hợp với biến định tính, Biến định lượng kết hợp với biến định tính; Biên định lượng kêt hợp với biên định lượng

Trang 31

CHƯƠNG 4

PHAN TICH DU LIEU DINH TINH

4.1 Kiểm định Chi - Square

° Kiểm định Chi-Square: được sử dụng đề kiểm định xem có tồn tại mối quan hệ giữa

hai yêu tô đang nghiên cứu trong tổng thê Kiêm định này còn gọi lá kiêm định tính độc lập Kiêm định này phù hợp khi hai yêu tô này biên định

® Cơ sở lí thuyết;

Giả thuyết không: H 0: hai biến độc lập với nhau

Giả thuyết đối: H 1; hai biến có liên hệ với nhau

X_: đại lượng Chi-Square đùng đề kiểm định

i: tan số quan sát thực tế trong các ô của bảng chéo

Ï : tần số quan sát lý thuyết trong các ô của bảng chéo

được tính theo công thức sau: A

i: tong s6 quan sat cua dòng thứ 1

Ï ; tông số quan sát cột thứ j

Đại lượng kiêm định này có phân phối Chỉ - Square (Khi bình phương) Tra bảng phân phối

2 này ta sẽ có giá trị giới hạn với mức ý nghĩa œ và số bậc tự do bằng (r-1) x (c-1): Xứ-Hebz Tiêu chuân quyết định là:

2

- Bác bỏ Hy nếu : x ¬ ; sIgœ <= 0.05

5 2

- Chấp nhận M nếu: Ý < Xứ-D(e=Dia ; sigœ > 0.05

Ví dụ: nghiên cứu mối liên hệ giữa trình độ học vấn và cách đọc các tờ báo của người đọc Ta

lập bảng chéo đề tìm hiệu môi quan hệ này

Trang 32

Tir Menu, chon Analyze -> Descriptive Statistics -> Crosstabs

File Edit View Data Transform Ar DirectNarkoting Graphs Utilities Add-ons Window Help

Generalized Linear Models Mixed Models

Correlate Regression

Trang 33

Trong bảng kết quả này, có vẻ như học vấn cảng cao thì càng đọc báo theo kiêu “xem lust cac

đề mục, đọc các mục ưa thích trước” Đề kiêm định giả thuyết này, ta đặt giả thuyết

H 0 hoc van không có liên hệ tới cách doc bao

(cách đọc báo không chịu ảnh hưởng của học van)

Mở lại hộp thoại Crosstabs, từ trong hộp thoại Crosstabs, ta nhan nut Statistics, hop thoai Crosstab: Statistics sau xuat hién:

“] Contingency coefficient | | [| Gamma

[-] Phi and Cramer's V ("| Somers’ d

Uncertainty coefficient || Kendall's tau-c

Nominal by Interval Kappa

x Counts rztest

¥ Observed Compare column proportions

rNoninteger Weights

O No adjustments

Trang 34

Thay vì phải tra bảng Chỉ-Square tìm giá trị giới hạn ở bậc tự do 9 và mức ý nghĩa 0,05 (ứng với độ tin cậy 95%); rồi so sánh giá trị Chi-Square 22,098 với giá trị giới hạn này Chương trình SPSS da tính ngược lại mức ý nghĩa quan sat voi gia tri Chi - Square 22,098 Mire y nghĩa quan sát này thường được gọi là P-Value hay Sig (Observed Significance Level), hay van tắt là œ Với tốc độ tin cậy 95%, nguyên tắc quyết định la:

Trong ví dụ nảy, sig = 0.009 < œ = 0.05, ta bác bỏ giả thuyết H 0, Ta kết luận rằng đã có đủ

bằng chứng đề nói rằng trình độ học vấn có liên hệ tới cách đọc báo Chúng ta có thể dựa vào các tỉ lệ % theo cột trong bảng chéo đề mô tả sự liên hệ hay sự khác biệt về cách đọc báo giữa các nhóm học vẫn

Case Processing Summary

Cases

Valid Missing Total

N Percent N Percent N Percent

Doc theo thi tr | %

từ trang đầu đến | within

chung đề mục, đọc các within

muc ua thich H 39.5%] 41.2% 54.7% 52.5%] 46.1% trước ° °

van

Count 14 40 21 15 90

Trang 35

Xem các tin dang | %

chú ý trên trang | | within

(2-sided) Pearson Chi-Square 22.098" 9 009

a 0 cells (0.0%) have expected count less than 5 The

minimum expected count is 11.82

4.2 Kiểm định trong trường hợp dữ liệu thứ tự

Trong trường hợp hai yếu tố nghiên cứu là hai biến thu thập từ thang đo thứ bậc, thay vì dùng đại lượng Chi-Square, chúng ta có thê dùng một trong các đại lượng sau: Tau của Kendall, d của Somer, Gamma của Goodman và Kruskal Các đại lượng này giúp phát hiện ra mối liên

hé tot hon Chi - Square

Giả sử chúng ta cần nghiên cứu nối liên hệ giữa học vấn với múc độ quan tâm đối với chủ đề gia đình trên báo Sài Gòn Tiếp Thị Vì cả hai yếu tổ này đều là đữ liệu cấp bậc:

s - Học vấn : cấp 1-2, cap 3- trung học chuyên nghiệp, tốt nghiệp CĐ- học ĐH, tốt nghiệp ĐH

se - Mức độ quan tâm đến chủ đề gia đình: quan tâm nhất, quan tân thứ nhì, quan tâm thứ ba

Giả thuyết Ho : học vấn không có liên hệ tới mức độ quan tâm đến chủ đề gia đình trên báo SGTT (hay mức độ quan tâm đến chủ đè gia đình không khác nhau giữa các nhóm học vấn)

Đề kiểm định giả thiết này, mở lại hộp thoại Crosstab Trong hộp thoại này đưa biến 19.3 (mức độ quan tâm đến chủ đề gia đình) vào ô Row và biến nhomhv (nhóm học vấn) vào ô

Column Rồi chọn Statistics

Trang 36

Lok) geste Reset Cancel) _ Help |

Trong hộp thoại Statfistics, ta chọn các đại lượng kiểm định như trong hình dưới Sau đó nhấp Continue trở về hộp thoại Crosstab và nhập OK

⁄ Chi-square Correlations Nominal Ordinal

“] Contingency coefficient | | [4] Gamma

Nominal by Interval Kappa

©) Eta [1 Risk

L_: McNemar ("| Cochran's and Mantel-Haenszel statistics

Kết quả kiêm định xuất hiện Trong bảng kết quả sau, chúng ta thấy nếu sử dung Chi - Square, chúng ta chưa thê bác bỏ giả thuyết 9 đề kết luận rằng học vấn có liên hệ tới mức độ quan tâm đến chủ đề gia đình (sig 0.287 lớn hơn 0 05) Nếu ta dùng d, Tau hay Gamma thì với mức

ý nghĩa 0.039 < 0.05 nên bác bỏ giả thuyết Hp o do tin cậy 95% Do đó, có thê kết luận rang

có bằng chứng thống kê cho thấy học vấn có liên quan đến mức độ quan tâm đến chủ đề gia đình Như vậy học vấn cảng cao thì người đọc càng quan tâm nhiều về chủ đề gia đình Chúng ta có thê dựa vào các tỉ lệ ?% theo cột trong bảng chéo ở đòng quan tâm nhất theo từng nhóm học vấn dé mô tả sự liên hệ hay sự khác biệt về cách đọc báo giữa các nhóm học vấn

Case Processing Summary

Cases Valid Missing Total

Tiêu đề	Phân Tích Dữ Liệu Trong Kinh Doanh
Tác giả	Th.S Nguyễn Vũ Võn Anh
Trường học	Trường Đại Học Cảnh Nghệp TP Hồ Chí Minh
Chuyên ngành	Quản Trị Kinh Doanh
Thể loại	Bài Giảng
Thành phố	Thành Phố Hồ Chí Minh

Định dạng
Số trang	73
Dung lượng	8,27 MB