tiểu luận giới thiệu về cơ sở dữ liệu phân loại dữ liệu mã hóa vànhập liệu

1.4 Cửa sổ làm việc của SPSSTừ Start Menu chọn ->Programs rồi chọn -> SPSS for Windows 21.0, màn hình dữliệu SPSS sẽ hiện ra như sau:1.5 Tạo khuôn nhập liệu1.5.1 Thay đổi một số mặc định

GIỚI THIỆU VỀ CƠ SỞ DỮ LIỆU, PHÂN LOẠI DỮ LIỆU, MÃ HÓA VÀ

Dữ liệu nghiên cứu có thể phân thành hai loại chính là dữ liệu định tính và dữ liệu đinh lượng Các dữ liệu này được thu thập bằng 4 thang đo cơ bản theo sơ đồ sau:

Khác nhau cơ bản giữa dữ liệu định tính và dữ liệu định lượng:

Dữ liệu định tính: phản ánh tính chất, sự hơn kém, không tính được trị trung bình.

Dữ liệu định lượng: phản ánh mức độ, mức độ hơn kém, tính được trị trung bình.

1.2.1 Thang đo danh nghĩa (thang đo phân loại) - Nominal scale:

Các con số chỉ dùng để phân loại các đối tượng, chúng không mang ý nghĩa nào khác.

Anh/chị/ông/bà thường đọc báo ở đâu? (chỉ chọn 1 trả lời)

2 Cơ quan, văn phòng, nơi làm việc

4 Nơi khác (ghi cụ thể)………

1.2.2 Thang đo thứ bậc - Ordinal scale:

Các con số được dùng để ghi thứ bậc (sự hơn kém)

Hãy xếp hạng các chủ đề sau đây trên flyer tùy theo mưc độ quan tâm của Anh/chị/ông/bà đối với từng loại chủ đề? (chủ đề nào quan tâm nhất thì ghi số 1, quan tâm thứ nhì thì ghi số 2, quan tâm thứ ba thì ghi số 3) ã Phim ảnh ã Mua sắm ã Ăn uống

1.2.3 Thang đo khoảng - Interval scale:

Là thang đo thứ bậc và cho biết được khoảng cách giữa các thứ bậc Thông thường thang đo khoảng cách có dạng là một dãy các chữ số liên tục và đều đặn từ 1 đến 5, từ

1 đến 7 hay từ 1 đến 10 Dãy số này có 2 cực ở hai đầu thể hiện 2 trạng thái đối nghịch nhau Ví dụ: như 1 là rất ghét, 5 là rất thích, 1 là không đồng ý, 5 là rất đồng ý, 1 là rất không hài lòng, 5 là rất hài lòng…

1.2.4 Thang đo tỉ lệ - Ratio scale:

Thang đo khoảng cách cho phép tính tỉ lệ để so ánh, thang đo tỉ lệ thu thập dữ liệu là số thực, như trọng lượng, chiều cao, cân nặng, doanh thu, chi phí…

Nếu gia đình Anh/chị/ông/bà có thường đi xem phim tai cụm rạp Mega Start, thì số lượng người thông thường đi xem phim trong gia đình trung bình là bao nhiêu người (kể cả Anh/chị/ông/bà)? Trong đó số người thường xuyên xem phim là bao nhiêu người?

Số người đọc: _, số người thường xem xuyên xem phim: _

Too long to read on your phone? Save to read later on your computer

1.3 Quy trình thực hiện nghiên cứu

Hình: Quy trình thực hiện nghiên cứu ã Nghiờn cứu sơ bộ (Nghiờn cứu định tớnh) ã Nghiờn cứu chớnh thức (Nghiờn cứu định lượng) ã Thống kờ mụ tả ã Cronbach’s Alpha ã Cronbach’s Alpha ã Phõn tớch hồi quy ã Đề xuất, cỏc giải phỏp và kiến nghị

1.4 Cửa sổ làm việc của SPSS

Từ Start Menu chọn ->Programs rồi chọn -> SPSS for Windows 21.0, màn hình dữ liệu SPSS sẽ hiện ra như sau:

1.5.1 Thay đổi một số mặc định của chương trình

Mở chương trình SPSS, từ file tập tin trắng chưa nhập liệu, vào Menu chọn: Edit/ Options, hộp thoại Options xuất hiện: ã Tại tab General chọn như hỡnh sau:

Display names: Hiện nhãn biến hay hiện tên biến.

Unicode (universal character set): Bảng mã Unicode gõ tiếng việt File: chọn thứ tự xuất hiện của các biến trong hộp thoại lệnh xử lý.

Measurement System: Thay đổi đơn vị đo lường để điều chỉnh định dạng.

Title bar: Thanh tiêu đề, thể hiện tên màn hình và tên tập tin đang làm việc.

Menu: Chứa lệnh xử lý và các lệnh phân tích.

Tool bar: Thanh công cụ, gồm các biểu tượng thể hiện các lệnh thường dùng nhất.

Cột: Mỗi cột trong bảng chứa một loại dữ liệu (Ví dụ: giới tính)

Dòng: Mỗi dòng trong bảng chứa các dữ liệu của một đối tượng khảo sát Variable View: Cửa sổ khai báo biến.

Data View: Cửa sổ nhập liệu. ã Tab Data, chọn như hỡnh sau: ã Tab Pivot Tables chọn như hỡnh sau:

Boxed: Chọn kiểu bảng hiển thị kết quả trong cửa sổ Output.

Chỉnh số lượng ký số tối đa của biến

Số lượng số lẻ của biến

Các điều chỉnh này sẽ ảnh hưởng đến thuộc tính của tất cả các biến được tạo ra sau khi chỉnh xong Options.

Sau đó nhấn nút Apply, rồi nhấn nút OK.

Khi nhấn nút Apply, chương trình có thể đưa ra một số lưu ý nói rằng các hiệu chỉnh này chỉ có hiệu lực sau khi mở lại file hay khởi động lại chương trình SPSS.

1.5.2 Tạo biến mới Để tạo biến mới phải làm bên cửa sổ Variable View, có màn hình như sau:

Name: gõ tên biến cần đặt (không có ký tự khoảng trắng, không có ký tự đặc biệt, phải bắt đầu bằng một ký tự không được bắt đầu bằng một ký số).

Sau khi đặt tên biến, ta phải khai báo các thuộc tính cơ bản, muốn khai báo thuộc tính nào của biến, hãy nhấn chuột vào nút … của thuộc tính đó Sau khi khai báo xong một thuộc tính bấm nút OK.

Type: Khai báo kiểu dữ liệu của biến

Khai báo loại biến kiểu số (Numeric) hay kiễu chuỗi (String), số lượng ký số/ ký tự tối đa (Width) có thể nhập vào, số lượng số thập phân (Decimal Places)

Hai biến thường dùng ở hình trên là:

String: biến kiểu chuỗi (chỉ dùng trong trường hợp cần nhập họ tên, địa chỉ người trả lời và các thông tin dưới dạng ký tự khác)

Label: Khai báo ý nghĩa của biến hay ý chính của câu hỏi.

Value: Khai báo giá trị của biến các nhãn giá trị cần thiết (nếu có),

Hộp thoại khai báo nhãn biến Value label:

Value: Mã nhập các thang đo định tính, phải bằng số.

Label: Nhãn giải thích của mã nhập.

Add: Khai báo xong một mã giá trị.

Change: Thay đổi mã giá trị

Remove: Xóa mã giá trị.

Missing: Khai báo các giá trị khuyết (nếu cần) Trong SPSS cho phép khai báo được 3 giá trị khuyết trong hộp thoại Missing Values.

Sau đây là hộp thoại khai báo giá trị khuyết, giúp phân loại thiếu số liệu cho từng loại nguyên nhân.

Ví dụ: Ta gặp tình huống với câu hỏi về trình độ học vấn có những người được điều tra vì lý do tế nhị nào đó đã từ chối trả lời thì trong Value Label: ta quy ước giá trị 99 có nhãn là “Không trả lời”, sau đó sang Missing Value: ta phải khai báo 99 là giá trị khuyết để sau đó khi tính toán các lệnh thống kê ví như tính tần số thì máy sẽ loại giá trị khuyết này ra khi tính phần trăn hợp lệ.

Hình trên cho biết, trong file Data thực hành các biến c29a1 đến c29c có khai báo Missing Value là 8 hoặc 9 là số người không trả lời (không ý kiến)

Columns: Khai báo độ rộng của cột biến khi ta nhập liệu trong cửa sổ Data, thường chọn là 8.

Align: Vị trí dữ liệu được nhập trong cột trong cửa sổ Data, thường chọn là Right.

Measure: Chọn loại thanh đo thể hiện dữ liệu: Ordinal (thang đo thứ bậc),

Norminal (thang đo danh nghĩa) và Scale (gồm cả thanh đo khoảng cách và thanh đo tỉ lệ)

Chúng ta vẫn có thể sử dụng lệnh Copy và Paste trong quá trình tạo biến mới Ví dụ như Tyle (kiểu biến) hay Value (Mã hoá) Bấm tổ hợp phím Ctrl + C rồi dùng trỏ chuột chọn vùng muốn Copy thuộc tính tương ứng đến và nhấn tổ hợp phím Ctrl + V. 1.5.3 Lưu tập tin dữ liệu Để lưu lại tập tin dữ liệu chúng ta phải có khai báo biến trước thì chương trình mới cho lưu, trong màn hình Data, từ Menu chọn File/ Save, hộp thoại sau sẽ xuất hiện:

Trong hộp thoại này, chọn ổ đĩa, thư mục, đặt tên tập tin (tên nên đặt không dấu) và nhấn nút Save Phần mở rộng tên tập tin dữ liệu SPSS là sav.

1.5.4.1 Cách nhập trực tiếp vào SPSS

Sao khi khai báo tên biến trong cửa sổ Variable View để nhập dữ liệu nghiên cứu vào SPSS, click chuột vào biểu tượng Data View nằm phía dưới màn hình của chương trình SPSS, chương trình sẽ hiện ra cửa sổ để nhập dữ liệu trực tiếp vào chương trình như trong hình sau:

Dữ liệu sau khi nhập xong chưa thể đưa ngay vào xử lý và phân tích vì con nhiều lỗi do: ã Chất lượng của phỏng vấn: phỏng vấn viờn hiểu sai và thu thập sai, phỏng vấn viên ghi nhầm… ã Nhập liệu: sai, sút, thừa…

2.2 Các biện pháp ngăn ngừa ã Thiết kế bảng cõu hỏi rừ ràng, dễ hiểu, dễ trả lời ã Chọn lọc và huấn luyện phỏng vấn viờn kỹ lưỡng, điều tra phỏng vấn thử trước khi phỏng vấn thật để thống nhất tránh sai sót. ã Cỏc bảng cõu hỏi sau khi phỏng vấn phải được đọc soỏt kiểm lỗi, chỉnh sửa trước khi nhập.

2.3 Các phương pháp làm sạch dữ liệu

Lập bảng tần số (Frequencies) cho tất cả các biến, đọc soát để tìm các giá trị lạ tại các biến Sau đó tại các biến có lỗi dùng lệnh Find để tìm ra lỗi ở từng trường hợp cụ thể, rồi chỉnh sửa. ã Ưu điểm : đơn giản , dễ thực hiện ã Nhược điểm : thủ cụng, phỏt hiện ớt lỗi, chỉ phự hợp với cỏc bảng cõu hỏi đơn giản

2.3.2 Dùng bảng phối hợp hai biến hay ba biến

Lập bảng 2 biến (Crosstabs hay Custom Tables) dựa vào các quan hệ hợp lý (logic) để phát hiện ra lỗi Ví du: nhu lập bảng kết hợp biến tuổi và nghề nghiệp, phát hiện thấy có trường hợp tuổi chỉ có 13 mà nghề nghiệp ghi là giáo viên.

Khoa Quản Trị Kinh Doanh Phân tích dữ liệu trong kinh doanh

Dùng lệnh Data-> Select case để lọc ra các trường hợp có lỗi Tiếp theo ví dụ trên, ta lọc ra trường hợp thoả điều kiện tuổi và nghề = giáo viên (ví dụ mã nghề giáo viên là =2).

Lập bảng tần số vối biến STT (số thứ tự của phiếu nhập) để tìm ra các trường hợp bị lỗi tuổi là 13 mà có nghề là giáo viên. ã Ưu điểm : phỏt hiện được nhiều lỗi hơn, phự hợp với cỏc bảng cõu hỏi phức tạp. ã Nhược điểm : phức tạp, cần nhiều thời gian, người thực hiện cần nhiều kinh nghiệm.

Câu hỏi ôn tập chương 2

Hãy nhập liệu từ dữ liệu thu thập được của mỗi cá nhân để tạo thành database cho riêng mình

TÓM TẮT VÀ TRÌNH BÀY DỮ LIỆU

3.1 Phương pháp và công cụ

Bốn công cụ cơ bản được trình bày trong phần này là: ã Bảng tần số ã Cỏc đại lượng thống kờ mụ tả, biểu đồ tần số ã Bảng kết hợp nhiều biến ã Đồ thị, biểu đồ

Bảng tần số có thể được thực hiện với tất cả các biến kiểu số (định tính và định lượng). Trong trường hợp biến định lượng liên tục có quá nhiều giá trị, bảng tần số sẽ rất dài, chúng ta có thể phân tổ (bằng lệnh Recode, sẽ được trình bày trong phần sau) trước khi lập bảng tần số.

Sau khi mở file Data thuc hanh, vào Menu Analyze Descriptive Statistics > >

Frequencies… Hộp thoại Frequencies xuất hiện:

Khoa Quản Trị Kinh Doanh Phân tích dữ liệu trong kinh doanh Chọn biến muốn lập bảng tần số (nhấp chuột vào tên biến) Ví dụ ta chọn lần lượt hai biến (thành phố) và tp tngd (thu nhập gia đình) rồi bấm phím mũi tên qua phải để đưa biến đang chọn vào ô Variable(s) sau đó nhấn nút OK, ta được 2 bảng tần số kết quả cho hai biến đã chọn như sau:

Missin g 0 0 ã Dũng Valid cho biết số quan sỏt hợp lệ (số người cú trả lời) ã Dũng Missing cho biết số quan sỏt bị thiếu dữ liệu (số người khụng trả lời)

Trong 2 bảng tần số bên dưới, mỗi bảng có 4 cột số liệu: ã Cột Frequency: tần số ã Cột Percent: tần suất phần trăm ã Cột Vali Percent: phần trăm hợp lệ, tớnh trờn số quan sỏt cú thụng tin trả lời Sử dụng khi có Missing Value ã Cột Cumulative Percent: phần trăm tớch luỹ, cộng dồn cỏc phần trăm hợp lệ.

3.3 Các đại lượng thống kê mô tả

Các đại lượng thống kê mô tả chỉ được tính đối với các biến định lượng Nếu ta tính các đại lượng này đối với các biến định tính thì các kết quả sẽ không có ý nghĩa Vào Menu Analyze > Descriptive Statistics > Descriptives…, hộp thoại sau sẽ xuất hiện:

Chọn một (hay nhiều biến định lượng) trong danh sách biến ở phía bên trái hợp thoại bằng cách nhập chuột vào biến đó (ví dụ chọn biến ), sau đó nhấp vàoc3 mũi tên qua phải để đưa các biến này vào ô Variable(s)

Bấm vào nút Options… và hợp thoại kế tiếp xuất hiện:

Khoa Quản Trị Kinh Doanh Phân tích dữ liệu trong kinh doanh Hợp thoại này cho phép chọn các đại lượng thống kê cần tính để mô tả các biến đã chọn ở phần trước bằng cách nhấp chuột vào các ô vuông cần thiết Các đại lượng thống kê mô tả thường dùng là: ã Mean: Trung bỡnh cộng ã Sum: Tổng cộng (sử dụng khi điều tra toàn bộ) ã Std.Deviation: Độ lệch chuẩn ã Minimum: Giỏ trị nhỏ nhất ã Maximum: Giỏ trị lớn nhất ã SE mean: Sai số chuẩn khi ước lượng TB tổng thể

Trong trường hợp tính toán cho nhiều biến cùng lúc, có thể chọn 1 trong 4 cách sắp xếp thứ tự kết quả tính toán của các biến này Thông thường là dùng trật tự tăng dần (Acending means) hay giảm dần (Descending means)

Sau đó bấm vào nút Continue để trở lại hợp thoại trước, rồi nhấn nút OK Bảng kết quả sau sẽ xuất hiện:

Số lượng người đọc báo trong GĐ 868 1 15 3.47 1.788

3.4 Lập bảng tần số đồng thời tính toán các đại lượng thống kê mô tả

Váo Menu Analyze > Descriptive Statistics > Frequencies… lần này chọn biến c3 để lập bảng tần số và tính các đại lượng thống kê mô tả.

Trong hộp thoại Chart này, nhấp chuột vào các ô đề chọn loại biểu đồ cấn vẽ Có thể chọn 1 trong 3 loại biểu đồ sau:

1 Bar: biểu đồ dạng thanh (dùng cho biến có giá trị rời rạc)

2 Pie: biểu đồ hình tròn (dùng cho biến rời rạc có ít giá trị)

3 Histograms: biểu đồ phân phối tần số (dùng cho biến có các giá trị liên tục)

Sau khi chọn loại biểu đồ, nhấp chuột vào nút Continue để trở về hộp thoại

Frequencies, và nhấn nút OK Kết quả hiện ra như sau:

Số lượng người đọc báo trong

Số lượng người đọc báo trong GĐ

Trong ví dụ này tuổi biến thiên từ 18-60, ta có thể chia thành 4 nhóm là:

Vào Menu Transform > Recode Into Different Variables, hộp thoại sau xuất hiện:

1 Trong hộp thoại Recode này, chọn biến cần mã hoá lại (tuổi) trong danh sách biến bên tay trái đưa vào ô giữa.

2 Gõ tên của biến mới (ví dụ là tuoi4nh) muốn tạo ra trong ô Output Variable Name rồi nhấn nút Change

3 Nhấn vào nút Old and New Values,…để xác định các giá trị cũ và chỉ định mã mới tương ứng, hộp thoại sau xuất hiện:

Kết quả sau khi mã hóa xong biến này sẽ biến thành biến định tính và thực hiện bảng thống kê theo biến định tính ta thu được kết quả như sau:

Nhóm tuổi của khách hàng

Frequency Percent Valid Percent Cumulative

3.6 Lập bảng tổng hợp nhiều biến

3.6.1 Bảng tần số 1 biến phân loại hay thứ bậc

Có 3 cấp bậc đo lường của biến là: ã Nominal: dữ liệu từ thang đo định danh ã Ordinal: dữ liệu từ thang đo thứ bậc ã Scale: dữ liệu từ thang đo khoảng cỏch và thang đo tỉ lệ.

Chọn Analyze\ Tables \ Custom Tables hộp thoại Custom Tables hiện ra:

Khoa Quản Trị Kinh Doanh Phân tích dữ liệu trong kinh doanh Trong ví dụ này, chúng ta muốn xem thử có bao nhiêu người trong mẫu khảo sát ở Hà Nội và có bao nhiều người trong mẫu khảo sát ở TPHCM Biến cần dùng là biến tp

Trong dạng bảng này chỉ mới có hàm mặc định đối với biến định danh là Count (đếm tần số). Để tính thêm những cột số liệu tóm tắt khác thì hãy click vào nút N% Summary

Statistics Lệnh này mở ra hộp thoại cấp hai là Summary Statistics.

Trong hộp thoại trên, nhấp chọn mục Total trong khung Show ở cuối hộp thoại, rồi nhấp nút Apply trở về hộp thoại ban đầu như hình dưới Trong hình này dòng Total đã xuất hiện trong khung dạng bảng mẫu.

Nhấp nút OK lệnh thực hiện và bảng kết quả sau xuất hiện:

Có thể lập hàng loạt bảng tần số đơn biến khác tương tự như trên Bây giờ chúng ta chuyển qua bảng 2 biến.

3.6.2 Bảng kết hợp 2 biến phân loại hay thứ bậc

3.6.3 Bảng tóm tắt các biến định lượng Ý nghĩa của từng giá trị trung bình đối với thang đo khoảng (Interval Scale)

Giá trị khoảng cách = (Maximum - Minimum) / n

Giá trị trung bình Ý nghĩa

1.00 -> 1.80 Rất không đồng ý/Rất không hài lòng/Rất không quan trọng 1.81 -> 2.60 Không đồng ý/Không hài lòng/ Không quan trọng

3.41 -> 4.20 Đồng ý/ Hài lòng/ Quan trọng

4.21 -> 5.00 Rất đồng ý/ Rất hài lòng/ Rất quan trọng

Khoa Quản Trị Kinh Doanh Phân tích dữ liệu trong kinh doanh 3.6.4 Xử lý câu hỏi chọn nhiều trả lời

3.6.4.1 Sử dụng bảng Custom Tables Đối với câu hỏi có thể chọn nhiều trả lời, do người trả lời chọn nhiều ý nên khi nhập vào sẽ có nhiều biến Nếu tóm tắt các biến này bằng những lệnh thông thường như bảng tần số (Analyze > Descriptive Statistics > Frequencies) hay bảng tùy biến (Analyze > Tables > Custom Tables) thì ứng với 1 câu hỏi loại này, có nhiều biến thì sẽ ra nhiều bảng tần số rời rạc, ít có ý nghĩa nếu không cộng các bảng này lại với nhau. Để có bảng tóm tắt hoàn chỉnh, chúng ta cần kết hợp các biến này lại Đi kèm với Custom Tables, SPSS cung cấp lệnh kết hợp biến này

Từ menu chọn Analyze > Tables > Multiple Response Sets

3.6.4.2 Sử dụng lệnh chạy bảng Multiple Response Đầu tiên chúng ta phải kết hợp các biến của cùng một câu hỏi, rồi sau đó chạy bảng.

Từ Menu chọn Analyze > Multiple Response

PHÂN TÍCH DỮ LIỆU ĐỊNH TÍNH

4.1 Kiểm định Chi - Square ã Kiểm định Chi-Square: được sử dụng để kiểm định xem cú tồn tại mối quan hệ giữa hai yếu tố đang nghiên cứu trong tổng thể Kiểm định này còn gọi lá kiểm định tính độc lập Kiểm định này phù hợp khi hai yếu tố này biến định. ã Cơ sở lớ thuyết :

Giả thuyết không: H 0 : hai biến độc lập với nhau

Giả thuyết đối: H 1 : hai biến có liên hệ với nhau Đại lượng dùng để kiểm định là: r i c j ij ij ij

Trong đó: x 2 : đại lượng Chi-Square dùng để kiểm định.

O ij : tần số quan sát thực tế trong các ô của bảng chéo.

E ij : tần số quan sát lý thuyết trong các ô của bảng chéo.

: số cột của bảng.c r: số dòng của bảng.

Eij được tính theo công thức sau: n

Ri: tổng số quan sát của dòng thứ i.

Cj: tổng số quan sát cột thứ j. Đại lượng kiểm định này có phân phối Chi - Square (Khi bình phương) Tra bảng phân phối này ta sẽ có giá trị giới hạn với mức ý nghĩa và số bậc tự do bằng (r-1) x (c-1): x 2 ( r 1 )( c 1 ),

Tiêu chuẩn quyết định là:

Ví dụ: nghiên cứu mối liên hệ giữa trình độ học vấn và cách đọc các tờ báo của người đọc Ta lập bảng chéo để tìm hiểu mối quan hệ này.

Từ Menu, chọn Analyze -> Descriptive Statistics -> Crosstabs… như sau:

Lệnh này mở ra hộp thoại Crosstabs như hình sau:

Trong hộp thoại này, đưa biến c6.1 (cách đọc các tờ báo) ô dòng, biến nhomhv (nhóm học vấn) vào ô cột và nhấn nút OK, ta được bảng kết quả sau:

Cách đọc các tờ báo nói chung * Học vấn Crosstabulation

Tốt nghiệp ĐH Cách đọc các tờ báo nói chung Đọc theo thứ tự từ trang đầu đến trang cuối

Xem lướt qua các đề mục, đọc các mục ưa thích trước

Chỉ đọc các trang mục ưa thích, ít đọc các trang khác

Xem các tin đáng chú ý trên trang 1 và tìm đọc trước

Trong bảng kết quả này, có vẻ như học vấn càng cao thì càng đọc báo theo kiểu “xem lướt các đề mục, đọc các mục ưa thích trước” Để kiểm định giả thuyết này, ta đặt giả thuyết

H 0 học vấn không có liên hệ tới cách đọc báo

(cách đọc báo không chịu ảnh hưởng của học vấn).

Mở lại hộp thoại Crosstabs, từ trong hộp thoại Crosstabs, ta nhấn nút Statistics, hộp thoại Crosstab: Statistics sau xuất hiện:

Trong hộp thoại này ta đánh dấu chọn đại lượng Chi-Square, nhấn nút Continue để trở về hộp thoại trước Trong hộp thoại này nhấn tiếp nút Cells để xác định các đại lượng thể hiện trong từng ô rồi nhấn nút Continue, OK Kết quả sẽ hiện ra như trong trang sau:

Thay vì phải tra bảng Chi-Square tìm giá trị giới hạn ở bậc tự do 9 và mức ý nghĩa 0,05 (ứng với độ tin cậy 95%); rồi so sánh giá trị Chi-Square 22,098 với giá trị giới hạn này Chương trình SPSS đã tính ngược lại mức ý nghĩa quan sát với giá trị Chi - Square 22,098 Mức ý nghĩa quan sát này thường được gọi là P-Value hay Sig. (Observed Significance Level), hay vắn tắt là Với tốc độ tin cậy 95%, nguyên tắc quyết định là: ã Bỏc bỏ H 0 nếu : x 2 >= x 2 ( r 1 )( c 1 ), sig 0.05.

Trong ví dụ này, sig = 0.009 < = 0.05, ta bác bỏ giả thuyết H 0 Ta kết luận rằng đã có đủ bằng chứng để nói rằng trình độ học vấn có liên hệ tới cách đọc báo Chúng ta có thể dựa vào các tỉ lệ % theo cột trong bảng chéo để mô tả sự liên hệ hay sự khác biệt về cách đọc báo giữa các nhóm học vấn.

Cách đọc các tờ báo nói chung * Học vấn 868 100.0% 0 0.0% 868 100.0%

Cách đọc các tờ báo nói chung * Học vấn Crosstabulation

Cách đọc các tờ báo nói chung Đọc theo thứ tự từ trang đầu đến trang cuối

Xem lướt qua các đề mục, đọc các mục ưa thích trước

Chỉ đọc các trang mục ưa thích, ít đọc các trang khác

Xem các tin đáng chú ý trên trang 1 và tìm đọc trước

N of Valid Cases 868 a 0 cells (0.0%) have expected count less than 5 The minimum expected count is 11.82.

4.2 Kiểm định trong trường hợp dữ liệu thứ tự

Trong trường hợp hai yếu tố nghiên cứu là hai biến thu thập từ thang đo thứ bậc, thay vì dùng đại lượng Chi-Square, chúng ta có thể dùng một trong các đại lượng sau: Tau của Kendall d, của Somer Gamma, của Goodman và Kruskal Các đại lượng này giúp phát hiện ra mối liên hệ tốt hơn Chi - Square.

Giả sử chúng ta cần nghiên cứu nối liên hệ giữa học vấn với múc độ quan tâm đối với chủ đề gia đình trên báo Sài Gòn Tiếp Thị Vì cả hai yếu tố này đều là dữ liệu cấp bậc: ã Học vấn : cấp 1-2, cấp 3- trung học chuyờn nghiệp, tốt nghiệp CĐ- học ĐH, tốt nghiệp ĐH ã Mức độ quan tõm đến chủ đề gia đỡnh: quan tõm nhất, quan tõn thứ nhỡ, quan tâm thứ ba.

Giả thuyết H 0 : học vấn không có liên hệ tới mức độ quan tâm đến chủ đề gia đình trên báo SGTT (hay mức độ quan tâm đến chủ đề gia đình không khác nhau giữa các nhóm học vấn). Để kiểm định giả thiết này, mở lại hộp thoại Crosstab Trong hộp thoại này đưa biến c19.3 (mức độ quan tâm đến chủ đề gia đình) vào ô Row và biến nhomhv (nhóm học vấn) vào ô Column Rồi chọn Statistics.

Trong hộp thoại Statistics, ta chọn các đại lượng kiểm định như trong hình dưới Sau đó nhấp Continue trở về hộp thoại Crosstab và nhấp OK.

Kết quả kiểm định xuất hiện Trong bảng kết quả sau, chúng ta thấy nếu sử dụng Chi -

Square, chúng ta chưa thể bác bỏ giả thuyết H 0 để kết luận rằng học vấn có liên hệ tới mức độ quan tâm đến chủ đề gia đình (sig 0.287 lớn hơn 0.05) Nếu ta dùng d, Tau hay Gamma thì với mức ý nghĩa 0.039 < 0.05 nên bác bỏ giả thuyết H ở độ tin cậy 95%.0

Do đó, có thể kết luận rằng có bằng chứng thống kê cho thấy học vấn có liên quan đến mức độ quan tâm đến chủ đề gia đình Như vậy học vấn càng cao thì người đọc càng quan tâm nhiều về chủ đề gia đình Chúng ta có thể dựa vào các tỉ lệ % theo cột trong bảng chéo ở dòng quan tâm nhất theo từng nhóm học vấn để mô tả sự liên hệ hay sự khác biệt về cách đọc báo giữa các nhóm học vấn.

Gia đình * Học vấn Crosstabulation

N of Valid Cases 202 a 1 cells (8.3%) have expected count less than 5 The minimum expected count is 3.42.

Dependent -.129 063 -2.061 039 a Not assuming the null hypothesis. b Using the asymptotic standard error assuming the null hypothesis.

N of Valid Cases 202 a Not assuming the null hypothesis. b Using the asymptotic standard error assuming the null hypothesis.

1) Hãy dùng cơ sở dữ liệu cá nhân để kiểm định chi bình phương, dọc kết quả và giải thích

PHÂN TÍCH DỮ LIỆU ĐỊNH LƯỢNG – KIỂM ĐỊNH TRUNG BÌNH

5.1 Kiểm định trị trung bình của hai biến độc lập

Vào Menu Analyze > Compare Means > Independent- Samples Test, như hình sau:

Lệnh này sẽ mở ra hộp thoại Independent - Samples T Test (kiểm định trung bình với mẫu độc lập) Trong hộp thoại này, lần lượt chọn: ã Chọn biến định lượng muốn kiểm định trị trung bỡnh và đưa vào danh sach cỏc biến cần kiểm dịnh (biến và c3 sonnk) ã Chọn một biến định tớnh chia số quan sỏt thành hai (cú thể nhiều hơn hai) mẫu để so sánh giữa hai nhóm này với nhau (biến tp).

Số lượng người đọc báo trong GĐ

Số nhân khẩu trong hộ TPHCM 471 5.19 2.545 117

Levene's Test for Equality of Variances t-test for Equality of Means

95% Confidence Interval of the Difference Lowe r

Số lượng người đọc báo trong

Số nhân khẩu trong hộ

Dựa vào kết quả kiểm định sự bằng nhau của 2 phương sai (Levene's Test), ta sẽ xem kết quả kiểm định t.

Nếu giá trị sig trong kiểm định phương sai F 0,05 thì phương sai giữa hai thành phố không khác nhau, ta sẽ dùng kết quả kiểm định t ở dòng thứ nhất Equal variances assumed

Nếu giá trị sig trong kiểm định t 0.05 thì ta kết luận chưa có sự khác biệt có ý nghiã về trung bình giữa hai thành phố.

Khoa Quản Trị Kinh Doanh Phân tích dữ liệu trong kinh doanh Trong ví dụ này, quy mô hộ gia đình và số người trong gia đình đọc báo thường xuyên ở TP.HCM đều lớn hơn có ý nghĩa thống kê so với Hà Nội Ta có thể tính ra tỉ lệ người trong gia đình có đọc báo thường xuyên, và so sánh giữa 2 TP.

5.2 Kiểm định trị trung bình của hai mẫu phụ thuộc (mẫu từng cặp)

Ví dụ: So sánh thu nhập trung bình của sinh viên nam & nữ sau khi tốt nghiệp 2 năm đang làm tại công ty, văn phòng đại diện nước ngoài, sinh viên nam & nữ được chọn theo từng cặp tương đương từ bằng cấp, ngành đào tạo, kỹ năng máy tính, ngoại ngữ và công việc. ĐVT: USD

Dữ liệu trên được nhập vào theo kiểu từng cặp tương ứng nhau như sau:

Vào Menu Analyze >Compare Means > Paired-Samples T Test, như trong hình sau:

Confidence Interval of the Difference Low er Upper

(USD) - Mức lương nữ (USD)

Dựa vào mức ý nghĩa (Sig = 0.018) này để kết luận: ã Nếu 0.05: chưa cú sự khỏc biệt cú ý nghĩa

Trong bảng kết quả trên (Paired Samples Test), với mức ý nghĩa 0.018 có thể kết luận rằng có sự chênh lệch có ý nghĩa thống kê về mức lương giữa nam và nữ khi làm việc tại khu vực kinh tế có vốn đầu tư nước ngoài Chênh lệch trung bình là khoảng 20.733 USD

1) Hãy ứng dụng hai kiểm định One sample T-test và Pare sample T-test cào cơ sở dữ liệu của từng cá nhân sinh viên.

PHÂN TÍCH DỮ LIỆU ĐỊNH LƯỢNG – PHÂN TÍCH PHƯƠNG SAI (ANOVA)

6.1 Khái niệm và vận dụng

SPSS for Windows có hai thủ tục phân tích phương sai: ANOVA 1 yếu tố và ANOVA nhiều yếu tố Phân tích phương sai một yếu tố sử dụng khi chúng ta chỉ sử dụng 1 biến yếu tố để phân loại các quan sát thành các nhóm khác nhau Trong trường hợp căn cứ vào 2 hay nhiều biến yếu tố để phân chia các nhóm thì ta phải dùng đến thủ tục ANOVA nhiều yếu tố Trong phạm vi quyển sách này chúng ta chỉ xem xét phân tích phương sai 1 yếu tố.

Trong ví dụ về nghiên cứu bạn đọc, giả sử chúng ta cần xem xét mức độ hài lòng của bạn đọc về cuốn cẩm nang tiêu dùng Nếu xem thang đo 5 mức độ là thang đo định lượng (1: Hoàn toàn không hài lòng, 5: Rất hài lòng), chúng ta đã có biến c33.1 là biến định lượng đang nghiên cứu Giả sử ta cần so sánh mức độ hài lòng về cẩm nang tiêu dùng giữa những đối tượng có mức thu nhập hộ gia đình khác nhau (mức sống khác nhau) Ở đây sau khi Recode, ta có 4 nhóm thu nhập hộ gia đình là:

Các thông tin này chứa trong biến tngdr.

Vấn đề nghiên cứu ở đây là mức độ hài lòng có khác biệt nhau giữa 4 nhóm thu nhập hộ, hay nói cách khác là thu nhập hộ có liên quan đến mức độ hài lòng về cẩm nang tiêu dùng hay không? Ta đặt giả thuyết.

H 0 : Không có sự khác biệt về mức độ hài lòng đối với cẩm nang tiêu dùng giữa các nhóm thu nhập hộ.

H 0 : Thu nhập hộ không liên quan đến mức độ hài lòng đối với cẩm nang tiêu dùng.

6.2 Tóm tắt lý thuyết phân tích phương sai

Tổng các độ lệch bình phương (Sum Of Squares) được xác định như sau :

1 Tổng các độ lệch bình phương trong nội bộ nhóm ( Within-Groups Sum Of Squares): phản ánh biến thiên ngẫu nhiên do ảnh hưởng của các yếu tố khác không xem xét ở đây.

2 Tổng các độ lệch bình phương giữa các nhóm (Between-Groups Sum Of Squares): phản ảnh biến thiên của biến định lượng đang nghiên cứu do tác động của biến phân loại xem xét.

3 Tổng các độ lệch bình phương toàn bộ (Total Sum Of Squares): phản ảnh toàn bộ biến thiên của các biến định lượng đang nghiên cứu.

( ) 2 Bằng các biến đổi toán học chúng ta có :

Các độ lệch bình phương bình quân hay còn gọi là độ lệch quân phương / phương sai (Mean Squares) được xác định như sau:

1 Phương sai trong nội bộ các nhóm (Within-Groups Mean Squares)

2 Phương sai giữa các nhóm (Between-Groups Mean Squares)

Giả thiết không cần kiểm định là trung bình thực (trung bình tổng thể) của k nhóm bằng nhau:

Nguyên tắc quyết định với mức ý nghĩa là:

>= Fk-1,n-k, Sig Fk-1,n-k,) Khoa Quản Trị Kinh Doanh Phân tích dữ liệu trong kinh doanh

Fk-1,n-k có phân phối F với bậc tự do của tử số là (k-1) và bậc tự do của mẫu số là (n-k)

6.3 Thực hiện ANOVA với SPSS

Chúng ta có thể thực hiện phân tích ANOVA 1 yếu tố trên SPSS như sau Từ Menu chọn Analyze > Conpare Means> One-Way ANOVA như sau:

Lệnh này sẽ mờ ra hộp thư thoại như sau:

Trong hộp thư thoại này: ããã Đưa biến định lượng vào ụ Dependent List ã Biến phõn loại xỏc định cỏc đối tượng (nhúm) cần so sỏnh vào ụ Factor

Ví dụ cụ thể: So sánh mức độ hài lòng về cuốn cấm nang tiêu dùng (biến c33.1) và thu nhập hộ trung bình tháng (biến tngdr) trong file dữ liệu data thực hành Trong hộp thoại One – Way – ANOVA, đưa biến c33.1 vào ô Dependent List, đưa biến tngdr vào ô Factor.

Tiếp đến Click vào nút Option để mở hộp thoại One – Way – ANOVA: Options. Trong hộp thoại One-Way ANOVA Options:

Trong hộp thoại này, có thể chọn: ã Descriptive để tớnh cỏc đại lượng thống kờ mụ tả chi tiết cho từng nhúm, ã Homogeneity-Of-Variance test để kiểm định sự bằng nhau của cỏc phương sai nhóm ã Means plot để vẽ đồ thị trung bỡnh cho cỏc nhúm so sỏnh.

Sau đó chọn Continue trở về hộp thoại ban đầu và bấm OK kết quả xuất hiện.

Dựa vào kết quả kiểm định bảng ANOVA, nếu H được chấp nhận thì kết luận không0 có sự khác biệt có ý nghĩa giữa các nhóm với nhau Nếu H bị bác bỏ thì kết luận có sự0 khác biệt có ý nghĩa giữa các nhóm Tiếp đến, trở lại hộp thoại One – way ANOVA để thực hiện kiểm định sâu ANOVA nhằm xác định cụ thể trung bình của nhóm nào khác với nhóm nào, nghĩa là tìm xem sự khác biệt của các nhóm xảy ra ở đâu.

1) Trình bày và vận dụng phương pháp phân tích phương sai ANOVA cho các lĩnh vực nghiên cứu?

KIỂM ĐỊNH ĐÁNH GIÁ THANG ĐO

Có dữ liệu khảo sát “Đo lường sự thỏa mãn trong công việc của nhân viên làm việc trong các tổ chức tại thành phố Hồ Chí Minh” Vì đây có tính chất lý thuyết nên tác giả chỉ lấy ra một phần của kết quả nghiên cứu, có mô hình nghiên cứu như sau:

Bảng câu hỏi sau dựa trên thang đo Likert, vì đây có tính chất lý thuyết nên tác giả chỉ lấy ra nột phần của kết quả khảo sát thu thập được từ nhân viên như sau:

Bảng câu hỏi: anh/ chị vui lòng đánh giá mức độ đồng ý đối với mỗi phát biểu dưới đây Điểm của các thang đo 1: rất không đồng ý, đến 5: rất đồng ý.

Cv1 Sử dụng tốt các năng lực cá nhân

Cv2 Công việc rất thú vị

Cv3 Công việc có nhiều thách thức

Cv4 Có thể thấy rõ kết quả hoàn thành công việc

L2 Sống hoàn toàn dựa vào thu nhập của công ty

L3 Tiền lương tương xứng với kết quả làm việc

L4 Thu nhập được trả công bằng

Khoa Quản Trị Kinh Doanh Phân tích dữ liệu trong kinh doanh Đồng nghiệp 1 2 3 4 5

Dn1 Thoải mái và dễ chịu

Dn2 Phối hợp làm việc tốt

Dn3 Mọi người làm việc rất thân thiện

Dn4 Mọi người làm việc thường giúp đỡ lẫn nhau

Hl1 Hài lòng về công việc hiện tại

Hl2 Công việc hiện tại đáp ứng được nhu cầu

Hl3 Xem công ty như ngôi nhà thứ 2 của mình

Hl4 Tiếp tục làm việc ở tổ chức

Từ Menu Analyze \ Scale \ Reliability Analysis…

Chuyển các biến trong một nhân tố sang bên phải phần items của hộp thoại, phần Model chọn Alpha Hình minh họa như sau:

Click chuột vào nút Statistics…và chọn các nút như hình sau:

Nhấn Continue sau đó tiếp tục chọn OK sẽ được kết quả như sau:

Scale Variance if Item Deleted

Cronbach's Alpha if Item Deleted

Kết quả ở bảng 1 cho biết hệ số Cronbach's Alpha và các thông số khác liên quan Ở bảng thứ 2 quan tâm đến hai cột cuối cùng là hệ số tương quan biến tổng (Corrected Item-Total Correlation), và hệ số Cronbach's Alpha nếu loại biến (Cronbach's Alpha if Item Deleted)

Bao gồm luôn cả 4 biến quan sát đo lường sự hài lòng của nhân viên về công việc thì tất cả các biến quan sát đều có Hệ số tương quan tổng phù hợp (Corrected Item – Total Correlation) từ 0.3 trở lên nên được lựa chọn Hệ số Cronbach’s Alpha = 0.904 của các biến > 0.7 nên thang đo đạt tiêu chuẩn.

Khoa Quản Trị Kinh Doanh Phân tích dữ liệu trong kinh doanh Như vậy các biến quan sát trong nhân tố công việc đều thỏa mãn yêu cầu khi thực hiện kiểm định độ tin cậy của thang đo, do đó phù hợp để thực hiện bước phân tích tiếp theo.

Tiếp tục thực hiện kiểm định Cronbach Alpha tương tự cho các nhân tố còn lại trong mô hình nghiên cứu ở trên như Cronbach Alpha cho nhân tố: Lương, Đồng nghiệp,

7.2 Phân tích nhân tố khám phá (EFA- Exploratory Factor Analysis)

Phân tích nhân tố khám phá là một phương pháp phân tích thống kê dùng để rút gọn một tập gồm nhiều biến quan sát phụ thuộc lẫn nhau thành một tập biến (gọi là các nhân tố) ít hơn để chúng có ý nghĩa hơn nhưng vẫn chứa đựng hầu hết nội dung thông tin của tập biến ban đầu Quan hệ của các nhóm biến có liên hệ qua lại lẫn nhau được xem xét dưới dạng một số các nhân tố cơ bản Mỗi biến quan sát sẽ được tính một tỷ số gọi là hệ số tải nhân tố (Factor Loading), hệ số này cho biết mỗi biến đo lường sẽ thuộc về nhân tố nào. ã Hệ số KMO (Kaiser-Meyer-Olkin) phải đạt giỏ trị 0.5 trở lờn (0.5== 0.4 Xem là quan trọng

Factor Loading >= 0.5 Xem là có ý nghĩa thực tiễn ã Tổng phương sai trớch (Total Varicance Explained) đạt giỏ trị từ 50% trở lờn. ã Eigenvalue (đại diện cho phần biến thiờn được giải thớch bởi mỗi nhõn tố) > 1 thì nhân tố rút ra có ý nghĩa tóm tắt thông tin tốt nhất.

(Theo Hair & ctg (1998,111), Multivariate Data Analysis, Prentice-Hall International) Lựa chọn hệ số tải nhân tố thao quy mô mẫu: nếu chọn tiêu chuẩn factor loading > 0.3 thì cỡ mẫu của bạn ít nhất phải là 350, nếu cỡ mẫu của bạn khoảng 100 đến 350 thì nên chọn tiêu chuẩn factor loading > 0.55, nếu cỡ mẫu của bạn nhỏ hơn 100 thì Factor loading phải > 0.75 (Theo PGS.TS Đinh Phi Hổ (8.2014, 133, Công cụ phân tích định lượng trong nghiên cứu).

Ví dụ: Thọ & ctg (2005) đã đo lường “cơ sở hạ tầng đầu tư” của tỉnh Tiền Giang thông qua 12 biến quan sát (điện ổn định, nước ổn định … chi phí lao động rẻ) 12 biến quan sát này được rút gọn thành 3 nhân tố Ba nhân tố mới được đặt tên là: cơ sở hạ tầng,mặt bằng, lao động

Stt Biến quan sát Nhân tố

Cơ sở hạ tầng Mặt bằng Lao động

6 Thông tin liên lạc thuận tiện 58

8 Giá thuê đất hợp lý 65

9 Chi phí đền bù, giải toả thoả đáng 86

10 Mặt bằng sắp xếp kịp thời 83

12 Chi phí lao động rẻ 86

Sử dụng tiếp dữ liệu ở chương 7, Bạn hãy mở file phan tich nhan to.sav Đây là một phần dữ liệu khảo sát “Đo lường sự thỏa mãn trong công việc của nhân viên làm việc trong các tổ chức tại thành phố Hồ Chí Minh” Bảng câu hỏi này dựa trên thang đo Likert, vì đây có tính chất lý thuyết nên tác giả chỉ lấy ra nột phần của kết quả khảo sát thu thập được

Các biến đã được khai báo trong hình sau:

Dữ liệu đã được nhập như trong hình sau:

7.2.2.1 Phân tích nhân tố cho biến độc lập (Independent)

Từ thanh menu của SPSS Chọn \ Analyze \ Dimension Reduction \ Factor

Hộp thoại phân tích Factor hiện ra như sau:

Khi hộp thoại Factor Analysis xuất hiện Đưa các biến cần phân tích nhân tố vào khung Variables, Sau đó lần lượt chọn nút Descriptives và đánh dấu chọn KMO and Bartlett’s test of sphericity, chọn các mục khác phù hợp (khi cần), sau đó click nút Continue Hình minh họa như sau:

Trở lại hộp thoại Factor Analysis, chọn nút Extraction, Hộp thoại Extraction xuất hiện Ta chọn phương pháp rút trích mặc định của SPSS là Principal components. Chọn mục Eigenvalue > 1 đại diện cho phần biến thiên được giải thích bởi mỗi nhân tố thì nhân tố rút ra có ý nghĩa tóm tắt thông tin tốt nhất Mục Fixed number of factors cho phép người dùng tự nhập số nhân tố muốn tạo ra trong phép phân tích nhân tố (nếu cần) Chọn mục Screa plot để hiển thị đồ thị rút trích nhân tố, sau đó click nút Continue Hình minh họa như sau:

Trở lại hộp thoại Factor Analysis, chọn nút Rotation, Hộp thoại Rotation xuất hiện. Dánh dấu chọn Varimax tương ứng với phương pháp trích là Principal components, Varimax: Là cách xoay thông dụng nhất để tối đa hoá phương sai của bình phương trọng số của nhân tố đối với tất cả các biến số trong ma trận yếu tố, điều này giúp tách các biến số ban đầu bằng các nhân tố được tìm thấy Chọn Loading plot(s) cho ra đồ thị các nhóm nhân tố rút trích, sau đó click nút Continue Hình minh họa như sau:

PHÂN TÍCH DỮ LIỆU ĐỊNH LƯỢNG – HỒI QUY TUYẾN TÍNH

Khi nghiên cứu mối liên hệ giữa 2 biến định lượng, chúng ta có thể sử dụng mô hình hồi quy, trong đó có một biến nguyên nhân (biến độc lập) và một biến kết quả (biến phụ thuộc) Trong trường hợp có nhiều biến nguyên nhân ảnh hưởng đến biến kết quả, ta sẽ có mô hình hồi quy bội.

Trong chương này, chúng ta sẽ xem xét một ví dụ (File hồi quy bội) về mua hàng hóa tại siêu thị Khảo sát 100 khách hàng nữ đi siêu thị, ta thu được các dữ liệu về: ã q1: Số lần đi siờu thị trong thỏng qua ã q2: Số tiền mua hàng tại siờu thị hàng trong lần mua hàng gần nhất ã q3: Thu nhập hộ trung bỡnh /thỏng (triệu đồng) ã q4: Tuổi của người trả lời ã q5: Số mún hàng mua ngoài dự định trong thỏng qua

Trong các biến trên, q5 là biến phụ thuộc (thường ký hiệu là biến Y), các biến còn lại có thể là biến độc lập (thường ký hiệu là biến X).

Trước khi xem xét mô hình thể hiện liên hệ tương quan tuyến tính giũa q5 với các biến còn lại Chúng ta thử xem xét mối liên hệ giữa một biến phụ thuộc và một biến độc lập Đồ thị phân tán có thể gợi ý cho chúng ta loại hàm số toán học thích hợp để mô tả mối liên hệ Đồ thị phân tán (hình 1) cho thấy số món hàng mua ngoài dự định có xu hướng tăng cùng với sự gia tăng của thu nhập Như vậy ta có thể sử dụng phương trình đường thẳng để mô tả mối liên hệ này Nếu đồ thị không gợi ý được cho chúng ta một đường thẳng, thì chúng ta phài sử dụng phương trình khác hay phương pháp phân tích khác như chuyển các số liệu này về dạng tuyến tính (tuyến tính hóa).

Partial Regression Plot Dependent Variable: so mon hang mua ngoai du dinh th u n h a p h o T B th a n g (trd )

Bởi vì số món hàng mua ngoài dự tính có xu hướng tăng tuyến tính với mức thu nhập, ta có thể sử dụng phương trình đường thẳng để mô tả mối liên hệ Phương trình của đường thẳng là :

Số món hàng mua ngoài DĐ=B0+B *(thu1 nhập) Độ dốc (B )1 là lượng tăng giảm của số món hàng mua ngoài dự định điều chỉnh (còn gọi là dự đoán hay lý thuyết theo mô hình) do lượng tăng giảm của thu nhập Hằng số (B )0 (tung độ của điểm tại đó đường thẳng cắt trục tung – Intercept) là số món hàng mua ngoài dự định lý thuyết khi thu nhập bằng 0.

Tuy nhiên tất cả các điểm dữ liệu quan sát không nằm trên cùng một đường thẳng, chúng chỉ tập trung xung quanh một đường thẳng Chúng ta có thể kẻ nhiều đường thẳng xuyên qua các điểm dữ kiện này, vấn đề là ta phải chọn ra một đường thẳng mô tả sát nhất xu hướng này Phương pháp dùng để xác định đường thẳng này là phương pháp bình phương bé nhất (least squares) Phương pháp này sẽ tìm ra một đường thẳng cực tiểu hóa được tổng hợp các đô lệch bình phương giữa tung độ của các điểm dữ liệu quan sát và đường thẳng Hình 2 sau cho thấy đường thẳng tìm được bằng phương pháp bình phương nhỏ nhất được kẻ trên đồ thị phân tán.

Hình 2: Đường hồi quy của doanh số và chi phí chào hàng.

Khoa Quản Trị Kinh Doanh Phân tích dữ liệu trong kinh doanh th u n h a p h o TB th a n g (trd )

Chúng ta có thể sử dụng SPSS để tính toán ra đường thẳng này Đối với các số liệu trong ví dụ, thì đường thẳng này là :

Số món hàng dự đoán= 0,145+0,594*(thu nhập)

8.2 Mô hình hồi quy bội

Mô hình hồi quy bội mở rộng mô hình hồi quy hai biến bằng cách thêm vào một số biến độc lập Mô hình có dạng như sau:

Ký hiệu X biểu hiện giá trị của biến độc lập thứ p tại quan sát thứ i Các hệ số làpi các tham số không biết và thành phần e là một biến độc lập ngẫu nhiên có phân phốii chuẩn với trung bình là 0 và phương sai không đổi Mô hình này cho rằng biến phụ 2 thuộc có phân phối chuẩn đối với bất kỳ kết hợp nào của các biến độc lập trong mô hình Ví dụ như nếu chiều cao của đứa trẻ là biến phụ thuộc, còn tuổi của đứa trẻ và chiều cao của người mẹ là biến độc lập, thì mô hình này cho rằng đối với bất kỳ kết hợp nào của tuổi của đứa trẻ và chiều cao của người mẹ thì chiều cao của đứa trẻ có phân phối chuẩn và mặc dù trị trung bình của các phân phối này là khác nhau, tất cả đều có chung một phương sai.

Y = 0,237 + 0,571(số lần đi siêu thị) + 0,362 (thu nhập hộ) - 0,021(tuổi)

Sự lựa chọn biến nào trong ba biến để dự đoán số món hàng mua ngoài dự định trong ví dụ của chúng ta phần nào có thính chất chủ quan Một số biến được đưa vào mà không có nghi ngờ gì, trong khi đó một vài biến được sử dụng lại không phải là biến quyết định việc mua hàng ngoài dự định Điều này không có gì là bất thường, chúng ta phải xây dựng một mô hình tứ các dữ kiện có sẵn, các dữ kiện này có thể là rất nhiều

Khoa Quản Trị Kinh Doanh Phân tích dữ liệu trong kinh doanh hoặc không đủ Trước khi xem xét các thủ tục xây dựng mô hình, chúng ta sẽ xem xét vài kết quả khi đưa vào hoặc bỏ ra các biến trong phương trình hồi quy và các thông số thống kê đối với các biến không được đưa vào mô hình.

8.3 Cách thức thực hiện phân tích hồi quy tuyến tính bằng SPSS

Thủ tục hồi quy tuyến tính có tới năm phương pháp xây dựng phương trình: đưa vào dần, rút ra dần, lựa chọn từng bước, đưa vào một lượt và rút ra một lượt SPSS có thể thực hiện nhiều phân tích phần dư (Residuals) để giúp chúng ta tìm ra các điểm dữ liệu có tác động ảnh hưởng lớn, và các vi phạm các giả thiết của mô hình Chúng ta có thể lưu lại các giá trị dự đoán (giá trị lý thuyết theo mô hình), các phần dư, và các thông số có liên quan khác. Để thực hiện một phân tích hồi quy tuyến tính, hãy mở file có tên hoi quy boi từ Menu chọn:

Analyze ->Regression ->linear… như trong hình sau:

Lệnh này sẽ mở hộp thoại hồi quy tuyến tính như trong hình sau:

Chúng ta có thể nhấp chuột vào các nút bên dưới để chọn các nội dung lần lượt được trình bày sau đây:

Method (phương pháp): chọn các phương pháp khác nhau để xây dựng mô hình hội quy Chúng ta có thể chọn một trong năm phương pháp sau: ã Enter (đưa vào một lượt): đõy là phương phỏp mặc định của chương trỡnh Cỏc biến trong khối sẽ được đưa vào mô hình cùng một lúc. ã Stepwise (từng bước): đưa vào và rỳt ra cỏc biến từng bước một Cỏc biến trong khối sẽ được xem xét tại từng bước một khi đưa vào hay rút ra khỏi mô hình. ã Remove (loại bỏ một lượt): cỏc biến trong khối sẽ được rỳt ra chỉ trong một bước. ã Backward (loại bỏ dần cỏc biến trong khối sẽ được đưa vào mụ hỡnh cựng): một lúc và sau đó được rút ra dần dựa vào tiêu chuẩn rút ra. ã Forward (đưa vào dần): cỏc biến trong khối sẽ được lần lượt đưa vào mụ hỡnh dựa vào tiêu chuẩn đưa vào.

Các thông số thống kê hồi quy tuyến tính Để điều khiển thể hiện các kết quả tính ra, chúng ta hãy nhấp chuột vào nút

Statistics… trong hộp thoại Linear Regression Lệnh này sẽ mở ra hộp thoại Linear Regression Statistics như trong hình sau:

Vẽ đồ thị hồi quy tuyến tính Để vẽ đồ thị phân tán của các biến trong phương trình, chúng ta hãy nhấp chuột vào nút Plot….trong hộp thoại Linear Regression Lệnh này sẽ mở ra hộp thoại vẽ đò thị hồi quy tuyến tính (Linear Regression Plot) như trong hình sau:

Biến phụ thuộc và các biến phần dư (residual) và biến dự đoán (các mức độ lý thuyến của biến phụ thuộc tính theo mô hình đã xây dựng) sẽ xuất hiện trong danh sách biến nguồn (source list):

Sao lưu các biến mới trong phân tích hồi quy tuyến tính Để sao lưu các phần dư, giá trị dự đoán, hoặc các thông số có liên quan như những biến mới, chúng ta hãy nhấp chuột vào nút Save… trong hộp thoại Linear Regression Lệnh này sẽ mở ra hộp thoại Save Variables như trong hình sau:

SPSS sẽ tự động gán tên biến mới cho bất cứ thông số nào chúng ta muốn sao lưu. Trong kết quả chạy ra sẽ có một bảng cho biết tên và nội dung của từng biến mới.

Các tuỳ chọn trong hồi quy tuyến tính

Ví dụ, mô hình nghiên cứu có 9 thang đo, mỗi thang đo có 5 biến quan sát.

Nếu sử dụng k = 5/1 thì kích cỡ mẫu n = 5*5*9 = 225

Nếu sử dụng k = 10/1 thì kích cỡ mẫu n = 10*5*9 = 450

Tiêu đề	Giới thiệu về Cơ sở dữ liệu, Phân loại dữ liệu, Mã hóa và Nhập liệu
Người hướng dẫn	Th.S Nguyễn Vũ Võn Anh
Trường học	Trường Đại học Công nghiệp TP Hồ Chí Minh
Chuyên ngành	Phân tích Dữ liệu Trong KD
Thể loại	Bài giảng
Thành phố	Thành phố Hồ Chí Minh

Định dạng
Số trang	80
Dung lượng	8,49 MB