BỘ GIÁO DỤC VÀ ĐÀO TẠOTRƯỜNG ĐẠI HỌC VINHLÊ HỮU NHẤT ỨNG DỤNG PHÂN TÍCH PHƯƠNG SAI TRONG PHẦN MỀM SPSS Chuyên ngành: Lý thuyết Xác suất và thống kê toán Mã số: 60.46.01.06 LUẬN VĂN THẠC
Trang 1BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC VINH
Trang 2Vinh, 2014
Trang 3BỘ GIÁO DỤC VÀ ĐÀO TẠOTRƯỜNG ĐẠI HỌC VINH
LÊ HỮU NHẤT
ỨNG DỤNG PHÂN TÍCH PHƯƠNG SAI TRONG PHẦN MỀM SPSS
Chuyên ngành: Lý thuyết Xác suất và thống kê toán
Mã số: 60.46.01.06
LUẬN VĂN THẠC SĨ TOÁN HỌC
Người hướng dẫn khoa học: Tiến sĩ Nguyễn Trung Hòa
Trang 4Vinh, 2014.
MỤC LỤC
Mở đầu 3
CHƯƠNG 1 KIẾN THỨC CHUẨN BỊ 6
1.1 Mẫu ngẫu nhiên và mẫu quan sát 6
1.1.1 Định nghĩa 1: 6
1.1.2 Định nghĩa 2: 6
1.2 Véctơ ngẫu nhiên 6
1.2.1 Định nghĩa 6
1.2.2 Ví dụ: 6
1.3 Trung bình mẫu và phương sai mẫu 7
1.3.1 Trung bình mẫu 7
1.3.2 Phươg sai mẫu 8
1.4 Phân tích phương sai 8
1.4.1 Khái niệm 8
1.4.2 Nguyên lý của phân tích phương sai 9
1.4.3 So sánh các giá trị trung bình 10
CHƯƠNG 2 PHÂN TÍCH PHƯƠNG SAI MỘT CHIỀU TRONG SPSS 12
2.1 Giới thiệu về phần mềm SPSS 12
2.1.1 Cài đặt phần mềm SPSS 12
2.1.2 Các dạng màn hình của Phần mềm SPSS 22
2.1.3 Chức năng chính của SPSS 23
2.1.4 Nội dung chủ yếu của SPSS 24
2.1.5 Một số lĩnh vực ứng dụng chính của SPSS 24
2.2 Cấu trúc, tổ chức dữ liệu trong SPSS 25
2.2.1 Dữ liệu đầu vào và xử lý thô 25
2.2.2 Kiểm tra và hiệu đính dữ liệu 25
2.2.3 Mã hoá dữ liệu 28
2.2.4 Làm sạch dữ liệu 29
2.3 Phân tích ANOVA 32
2.3.1 Phân tích phương sai một chiều (One way ANOVA) 32
2.3.2 Kỹ thuật hậu kiểm (Post hoc procedures) 39
2.3.3 Ứng dụng phân tích phương sai (Anova) điều tra giáo dục 39
KẾT LUẬN 45
Trang 5TÀI LIỆU THAM KHẢO 46
Trang 6xã hội, quản lý của chính phủ và kinh doanh.
Các phương pháp thống kê có thể được sử dụng để tóm tắt hay mô tả tậphợp của số liệu, gọi là thống kê mô tả (descriptive statistics) Điều này rất hữuích trong nghiên cứu, khi nhà nghiên cứu muốn phổ biến kết quả nghiên cứuhoặc thực nghiệm của họ Hơn nữa, các mẫu trong số liệu có thể được mô hìnhhóa theo cách mà có thể kiểm soát được tính ngẫu nhiên và tính không chắcchắc trong quan sát, và sau đó được sử dụng để đưa ra các suy luận về quá trìnhhay về tổng thể (population) được nghiên cứu; cái này được gọi là thống kê suyluận (inferential statistics) Suy luận là không thể thiếu được trong khoa họckhách quan vì nó mang lại những dự đoán (dựa trên số liệu) một cách lôgic.Nhằm xác định tính chính xác của những dự đoán này, những ước đoán nàycũng được kiểm tra, là một phần của phương pháp khoa học
Các nhà nghiên cứu giáo dục học và khoa học xã hội cần biết và sử dụngxác suất thống kê, nhưng họ không cần biết quá sâu về toán học Vì hiện nay cácchương trình phần mềm xác suất thống kê ngày càng phổ biến và mạnh mẽ (nhưSPSS, SAS và STATA), và các công thức tính đã được lập trình sẵn, thì yêu cầu
về khả năng toán học không phải là chủ chốt Nhưng những phần mềm này chỉgiúp được rất ít trong việc lên kế hoạch nghiên cứu, lựa chọn kỹ thuật phù hợp
và diễn giải kết quả Vì vậy, đối với các nhà nghiên cứu, hiểu ý nghĩa của những
thuật toán và mô hình thống kê khác nhau trong những khung cảnh khác nhau mới là điều quan trọng.
Trang 7Trong số nhiều phần mềm đã và đang được sử dụng cho mục đích thống
kê, phần mềm SPSS đã cho thấy những ưu điểm của nó SPSS là một chươngtrình mà nhiều người sử dụng yêu thích do nó rất dễ sử dụng SPSS có một giaodiện giữa người và máy cho phép sử dụng các menu thả xuống để chọn các lệnhthực hiện Khi thực hiện một phân tích chỉ đơn giản chọn thủ tục cần thiết vàchọn các biến phân tích và bấm OK là có kết quả ngay trên màn hình để xemxét SPSS cũng có một ngôn ngữ cú pháp có thể học bằng cách dán cú pháp lệnhvào cửa sổ cú pháp từ một lệnh vừa chọn và thực hiện, nhưng nói chung kháphức tạp và không trực giác Với rất nhiều những bài toán thuộc phạm trù thống
kê được thiết lập thuật toán trên phần mềm này, SPSS giúp ta nhanh chóng cóđược các kết quả phân tích thống kê một cách chính xác, hiệu quả Để có thểhiểu hơn về phần mềm này và ứng dụng phân tích phương sai, trong khuôn khổcủa luận văn thạc sĩ tôi đã quyết định chọn đề tài “ỨNG DỤNG PHÂN TÍCHPHƯƠNG SAI TRONG PHẦN MỀM SPSS”
Mục tiêu nghiên cứu của đề tài đó là:
Trình bày các kiến thức trong lý thuyết xác suất liên quan đến bài toánphân tích phương sai
Trình bày thuật toán phân tích phương sai một yếu tố
Trình bày những hiểu biết cơ bản về phần mềm SPSS
Trình bày chi tiết các bước tiến hành giải quyết bài toán phân tích phươngsai một yếu tố trên phần mềm SPSS
Trình bày bài toán thực tế và đọc kết quả kết xuất từ phần mềm
Về phương pháp nghiên cứu, trong đề tài này cơ bản được sử dụng cácphương pháp sau:
Phân tích và tổng hợp tài liệu
Tìm hiểu phần mềm
Suy luận toán học
Mô hình hóa và thuật toán
Trang 8Nội dung của luận văn gồm 2 chương:
Chương I: Kiến thức chuẩn bị.
Trong chương này tôi trình bày những kiến thức cơ bản về Xác suất thống
kê cần thiết cho việc thể hiện nội dung của chương 2
Chương II: Phân tích phương sai một chiều trong SPSS.
Đây là phần thể hiện nội dung chính của luận văn Trong chương này tôitrình bày các hiểu biết cơ bản về phần mềm SPSS và ứng dụng phân tíchphương sai một yếu tố (One way Anova) của phần mềm để thực hiện việc kiểmnghiệm kết quả học tập của học sinh ở một trường phổ thông
Cuối cùng là kết luận về các nội dung nghiên cứu của đề tài
Để hoàn thành được Luận văn này, tôi xin bày tỏ lòng biết ơn sâu sắc tới
TS Nguyễn Trung Hoà đã giao đề tài và tận tình hướng dẫn, luôn quan tâm,
tạo mọi điều kiện giúp đỡ tôi trong suốt quá trình nghiên cứu và thực hiện Luậnvăn này
Đồng thời tôi xin chân thành cảm ơn Ban Giám hiệu, Phòng Sau Đại học,Ban chủ nhiệm khoa Toán, các thầy cô giáo và cán bộ trường ĐH Vinh đãtruyền thụ cho tôi những kiến thức, kinh nghiệm quý báu giúp tôi hoàn thành tốtluận văn này
Tôi xin chân thành cảm ơn các thầy cô giáo và các em học sinh trườngTHPT Nam Tiền Hải, huyện Tiền Hải, tỉnh Thái Bình đã giúp đỡ và tạo mọiđiều kiện để tôi hoàn thành Luận văn này
Tôi cũng xin gửi lời cảm ơn tới gia đình, bạn bè và đồng nghiệp đã độngviên, giúp đỡ tôi trong suốt quá trình học tập và thực hiện Luận văn
Nghệ An, tháng 10 năm 2014
Trang 9CHƯƠNG 1 KIẾN THỨC CHUẨN BỊ
1.1 Mẫu ngẫu nhiên và mẫu quan sát
1.1.1 Định nghĩa 1:
Mẫu ngẫu nhiên kích thước n đối với một biến ngẫu nhiên X là tập hợp n biến ngẫu nhiên X 1 , X 2 , , X n độc lập, có cùng phân phối xác suất với X, ký hiệu
là W=(X 1 , X 2 , , X n ).
Biến ngẫu nhiên X được gọi là biến ngẫu nhiên gốc
Các biến ngẫu nhiên Xi được gọi là bản sao của X
Nếu các thành phần Xi của véc tơ ngẫu nhiên U(X1, , Xn) là các biếnngẫu nhiên rời rạc thì U(X1, , Xn) gọi là véc tơ ngẫu nhiên rời rạc Nếu cácthành phần đó là các biến ngẫu nhiên liên tục thì U(X1, , Xn) gọi là véc tơ ngẫunhiên liên tục
Trang 101.3 Trung bình mẫu và phương sai mẫu
Trung bình mẫu là một biến ngẫu nhiên, mang tính lý thuyết
Vì mỗi X i là một bản sao của BNN gốc X nên chúng đều có cùng kỳ vọng
và cùng phương sai với X, do đó nếu X có kỳ vọng m và phương sai s2 thì kỳvọng và phương sai của trung bình mẫu là:
Nhận xét: Trung bình mẫu là phương pháp đo được sử dụng phổ biến nhất
đế xác định vị trí trung tâm trong thống kê Điểm yếu duy nhất đối với trung bình mẫu đó chính là nó có thể bị ảnh hưởng ngược lại do các gíá trị cực trị
1.3.1.2 Trung bình mẫu quan sát
Định nghĩa:
Trung bình mẫu quan sát là số cụ thể, ký hiệu là x, là một thể hiện của trung bình mẫu.
Cách tính: Với số liệu (mẫu) quan sát w=(x 1 ,x 2 ,…,x n),
Nếu chưa thu gọn thì:
Trang 111.3.2 Phươg sai mẫu
1.3.2.1 Phương sai mẫu (ngẫu nhiên)
Giả sử (X1, X2, , Xn ) là một mẫu ngẫu nhiên kích thước n với trung bình mẫu , khi đó phương sai mẫu ký hiệu là S 2 được xác định bởi:
S2 cũng là một biến ngẫu nhiên
1.3.2.2 Phương sai mẫu quan sát
Với số liệu (mẫu) quan sát đã được thu gọn thì giá trị quan sát của S2
sẽ được tính theo công thức
1.4 Phân tích phương sai
1.4.1 Khái niệm
Phân tích phương sai như tên gọi, là một số phương pháp phân tích thống
kê mà trọng điểm là phương sai (thay vì trung bình) Thay vì xem xét trực tiếpcác giá trị trung bình, ta đi phân tích phương sai và từ đó kết luận về giá trị trungbình của các mẫu quan sát
Phân tích phương sai cung cấp các công cụ chính thức để biện minh chonhững phán đoán trực giác Phân tích phương sai được sử dụng như một công cụ
để thăm dò và giải thích
Cơ sở lý thuyết của phương pháp thường được xây dựng dựa trên lý thuyếtvectơ toán Những lý thuyết này vượt quá những kiến thức toán được trang bịcho những người được đào tạo theo các chuyên ngành kinh tế Do đó, bản chấtcủa phương pháp rất khó được lĩnh hội, việc vận dụng vì vậy sẽ kém chính xác
1.4.2 Nguyên lý của phân tích phương sai
ANOVA xem xét biến thiên của tất cả các quan sát với số đại trung bình vàphân chúng ra làm 2: biến thiên nội nhóm và biến thiên giữa các nhóm Nếu số
Trang 12trung bình của các nhóm khác nhau nhiều thì sự biến thiên giữa chúng và đạitrung bình (biến thiên giữa các nhóm) sẽ đáng kể hơn so với các biến thiên giữacác quan sát trong 1 nhóm với trung bình của nhóm (biến thiên nội nhóm) Nếu
số trung bình của các nhóm không khác nhau nhiều thì biến thiên giữa các nhóm
sẽ không lớn hơn so với biến thiên nội nhóm Phép kiểm định giả thuyết về 2phương sai, F-test, có thể được sử dụng để kiểm định tỉ số phương sai giữa cácnhóm và phương sai nội nhóm Giả thuyết của F-test cho rằng 2 phương sai nàybằng nhau; nếu H0 (giả thuyết trung bình của các nhóm là bằng nhau) đúng thì
có nghĩa là biến thiên giữa các nhóm sẽ không lớn hơn so với biến thiên nộinhóm Trong tình huống này, không thể kết luận là các trung bình khác lẫn nhau(không có 1 cặp trung bình nào khác nhau) Ngược lại, nếu từ chối được H0 thìkết luận được là không phải tất cả các trung bình đều bằng nhau (có ít nhất 1 cặptrung bình khác nhau)
Thí dụ minh họa: Thời gian nằm viện của các bệnh nhân đã được tiểu phẫu
không có biến chứng được so sánh với nhau theo ba bác sĩ điều trị (A, B, C) Chọn 1 mẫu ngẫu nhiên bao gồm 8 bệnh án cho từng bác sĩ, số liệu như sau:
Bảng 1 Thời gian nằm viện của bệnh nhân theo bác sĩ điều trị
Trang 13B/n của BS B: x1B = 4, x2B = 5, ……… , x8B = 3
: đại trung bình (số trung bình tính được từ 24 b/n)
: số trung bình của các nhóm A, B, và C (tính từ 8 b/n của mỗi nhóm).Chọn x2A làm mẫu:
T-test (Student’s t test)
T-test được dùng để so sánh giá trị trung bình của hai nhóm Ví dụ, nhànghiên cứu muốn tìm hiểu xem phương pháp dạy học X và Y có hiệu quả khácnhau hay không Sau khi bố trí một cách ngẫu nhiên (randomly) 50 học sinh lớp
11 học môn Hóa học theo phương pháp X và 50 học sinh lớp 11 học môn Hóahọc theo phương pháp Y Sau một số buổi dạy hoặc khi hết học kỳ, họ tổ chứcđánh giá hiệu quả dạy học bằng cách cho hai nhóm học sinh làm cùng bài kiểmtra tự luận hoặc trắc nghiệm Sau khi có được điểm trung bình của hai nhóm,nhà nghiên cứu sẽ dùng t-test để kiểm tra xem hai điểm trung bình của hai nhóm(với các điều kiện ban đầu như học lực, hứng thú là như nhau) có khác nhau mộtcách có ý nghĩa thống kê (statistical significant) hay không Từ đó họ có thể suy
ra hai phương pháp dạy học đó hiệu quả khác nhau không và cũng tìm raphương pháp nào hiệu quả hơn
1 quan sát thuộc nhóm A
và trung bình của
Biến thiên giữa trung bình của nhóm A và đại trung bình
Trang 14Anova F test
T-test dùng để tìm xem có sự khác biệt hay không giữa hai nhóm Tuyvậy, nhiều khi nhà nghiên cứu lại muốn tìm hiểu xem có sự khác biệt hay khônggiữa ba hoặc hơn ba nhóm Ví dụ, ba nhóm học sinh được dạy theo phương pháp
X, Y và Z Trong tình huống này, họ có thể dùng ba t-test để so sánh: X,Y – Y,Z
và Z,X Nhưng cách so sánh này không giúp đối chiếu cả ba phương pháp cùngmột lúc hay cho biết phương pháp nào là hiệu quả nhất Phân tích phương sai,hay ANOVA (viết tắt của analysis of variance) có thể giúp nhà nghiên cứu trảlời câu hỏi này
ANOVA đặc biệt hữu ích trong so sánh các phương pháp học tập, dạy họckhác nhau ở những khách thể khác nhau Có nhiều mô hình ANOVA khác nhautùy thuộc vào số lượng các phương pháp dạy và học và đối tượng nghiên cứu
ANOVA một chiều (one-way ANOVA) được sử dụng để kiểm tra sự khác
nhau giữa hai (hoặc nhiều hơn) nhóm độc lập Thường thì người ta dùngANOVA một chiều để so sánh sự khác nhau giữa ít nhất là ba nhóm, vì so sánhhai nhóm có thể được thực hiện bởi T-test (Gossett, 1908) Khi chỉ so sánh hainhóm, T-test và F-test chỉ là một, khi đó mối liên hệ giữa ANOVA và t là F = t2
ANOVA giai thừa (factorial ANOVA) được sử dụng khi nhà nghiên cứu muốn
tìm hiểu về hiệu quả của hai (hoặc nhiều hơn) phương pháp dạy học khác nhau.Hình thức thông dụng nhất của ANOVA giai thừa là 2x2, trong đó có hai biếnđộc lập và mỗi biến có hai mức độ giá trị phân biệt ANOVA giai thừa cũng cóthể ở đa cấp như 3x3, hoặc cao hơn như 2x2x2 Nhưng ANOVA ở các cấp caonhư vậy khó có thể làm bằng tay bởi các phép tính rất dài và phức tạp Nhưng
do sự phổ biến của các phần mềm thống kê, việc sử dụng ANOVA trong nghiêncứu trở nên khá phổ biến và thông dụng
Trang 15CHƯƠNG 2 PHÂN TÍCH PHƯƠNG SAI MỘT CHIỀU
TRONG SPSS
2.1 Giới thiệu về phần mềm SPSS
SPSS (Statistical Product and Services Solutions - Sản phẩm thống kê và
giải pháp dịch vụ) là một phần mềm thống kê, thường được sử dụng trongnghiên cứu xã hội đặc biệt là trong tâm lý học, tiếp thị và xã hội học Nó cũngđược sử dụng thường xuyên trong nghiên cứu thị trường SPSS cung cấp một hệthống quản lý dữ liệu và khả năng phân tích thống kê với giao diện thân thiệncho người dùng trong môi trường đồ hoạ, sử dụng các trình đơn mô tả và cáchộp thoại đơn giản Năm 1968, Norman H Nie, C Hadlai (Tex) Hull và Dale H.Bent đã phát triển SPSS
SPSS là phần mềm chuyên dụng xử lý thông tin sơ cấp (thông tin được thuthập trực tiếp) từ đối tượng nghiên cứu (người trả lời bảng câu hỏi) thông quamột bảng câu hỏi được thiết kế sẵn
Hiện nay, SPSS là một trong những phần mềm phân tích số liệu phổ biến
và mạnh nhất với trên 250.000 khách hàng trên toàn thế giới
Trang 16→ Hình 3 xuất hiện.
Hình 2: Biểu tượng Keygen ở thư mục E:\KEYGEN
Hình 3: Hộp thoại SPSSv16.Keygen:
Hình 3
Trong Hình 3, ta có thể bấm vào nút Generate Keygen sẽ cung cấp cho ta:
- Serial Number và Authorization Code (Con số của ta có thể khác với sốtrong Hình 3)
- Trong ví dụ này, Serial Number là 9850150046 và Authorization Code là:32AC429E342387705258
Ta hãy Bôi đen con số 9850150046 và bấm CTRL-C (để lát nữa dán vàonơi yêu cầu)
Còn mã 32AC429E342387705258, lát nữa ta sẽ sử dụng đến nó
Trang 17Bước 2: Chọn biểu tượng trong thư mục gốc của ổ đĩa E:\ (Xem Hình 1)
Trang 18Chọn I accept the terms in the license agreement, bấm Next → Hình 7:
Hình 7
Chọn Next → Hình 8:
Hình 8
Trong hình 8, Vùng User Name, và Organization ta có thể tự nhập
Vùng Serial Number: ta hãy nhấp chuột vào đó và bấm CTRL-V để dán sốSerial Number mà Keygen đã cung cấp cho ta (ở Hình 3)
Chọn Next → Hình 9:
Hình 9
Trang 20Trong quá trình Install sẽ có Hộp thoại như Hình 12 xuất hiện, ta hãy bỏ
dấu chọn ở mục Register with spss.com, rồi bấm OK → Hinh13:
Hình 13
Khi hộp thoại Hình 13 xuất hiện, mặc định chọn License my product now
(recommended), rồi Next → Hình 14:
Hình 14
Chọn Next → Hình 15:
Trang 21Hình 15.
Khi Hình 15, xuất hiện, ta hãy Quay trở lại Keygen (Hình 1) và Copy mã
Authorization Code là 32AC429E342387705258 và dán vào mục Enter
Code, Chọn Next → Hình 16:
Hình 16
Trong Hình 16, ta hãy chọn Telephone, rồi bấm Next → Hình 17:
Hình 17
Trang 22Trong hình này SPSS đã cung cấp Lock Code là 100-2138B (Số của ta có thế
khác), ta hãy bôi đen con số 2138B bấm CTRL-C và chọn Next → Hình 18:
Hình 18
Hình 18 yêu cầu ta phải nhập License Code.
Nhưng làm sao ta có được License Code bây giờ? → Hãy Quay trở lại hộp
thoại Keygen
Hộp thoại Keygen, Vùng Lock Code + Product/Feature , Số 100 đã có sẵn,
ta hãy CTRL-V để dán số 2138B vào ô trống, rồi bấm nút Generate (ở phía
dưới), sẽ có một mã số dài thật dài xuất hiện:
Trang 23Ta hãy đánh dấu khối toàn bộ mã số này rồi Copy vào mục License Code
Trang 24Hình 21.
Chọn Finish.
Như vậy SPSS 16 đã cài đặt xong
Để khởi động SPSS 16 ta có thể thao tác như Hình 22:
Hình 22