Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 48 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
48
Dung lượng
2,9 MB
Nội dung
BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC VINH LÊ HỮU NHẤT ỨNG DỤNG PHÂN TÍCH PHƯƠNG SAI TRONG PHẦN MỀM SPSS LUẬN VĂN THẠC SỸ TOÁN HỌC Vinh, 2014 2 BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC VINH LÊ HỮU NHẤT ỨNG DỤNG PHÂN TÍCH PHƯƠNG SAI TRONG PHẦN MỀM SPSS Chuyên ngành: Lý thuyết Xác suất và thống kê toán Mã số: 60.46.01.06 LUẬN VĂN THẠC SĨ TOÁN HỌC Người hướng dẫn khoa học: Tiến sĩ Nguyễn Trung Hòa 3 Vinh, 2014. MỤC LỤC MỤC LỤC 4 Mở đầu 5 CHƯƠNG 1. KIẾN THỨC CHUẨN BỊ 8 1.1.Mẫu ngẫu nhiên và mẫu quan sát 8 1.1.1.Định nghĩa 1: 8 1.1.2.Định nghĩa 2: 8 1.2.Véctơ ngẫu nhiên 8 1.2.1.Định nghĩa 8 1.2.2.Ví dụ: 8 1.3. Trung bình mẫu và phương sai mẫu 9 1.3.1. Trung bình mẫu 9 1.3.2.Phươg sai mẫu 9 1.4. Phân tích phương sai 10 1.4.1. Khái niệm 10 1.4.2. Nguyên lý của phân tích phương sai 10 1.4.3. So sánh các giá trị trung bình 12 CHƯƠNG 2. PHÂN TÍCH PHƯƠNG SAI MỘT CHIỀU TRONG SPSS 14 2.1.Giới thiệu về phần mềm SPSS 14 2.1.1. Cài đặt phần mềm SPSS 14 2.1.2. Các dạng màn hình của Phần mềm SPSS 24 2.1.3. Chức năng chính của SPSS 25 2.1.4. Nội dung chủ yếu của SPSS 26 2.1.5. Một số lĩnh vực ứng dụng chính của SPSS 26 2.2. Cấu trúc, tổ chức dữ liệu trong SPSS 27 2.2.1. Dữ liệu đầu vào và xử lý thô 27 2.2.2. Kiểm tra và hiệu đính dữ liệu 27 2.2.3. Mã hoá dữ liệu 30 2.2.4. Làm sạch dữ liệu 31 2.3. Phân tích ANOVA 34 2.3.1. Phân tích phương sai một chiều (One way ANOVA) 34 2.3.2. Kỹ thuật hậu kiểm (Post hoc procedures) 41 2.3.3. Ứng dụng phân tích phương sai (Anova) điều tra giáo dục 42 KẾT LUẬN 47 TÀI LIỆU THAM KHẢO 48 4 Mở đầu Khoa học thống kê là một lĩnh vực của khoa học toán học liên quan tới việc thu thập, phân tích và diễn giải hay giải thích và trình bày số liệu. Các nhà thống kê giúp cải thiện chất lượng của số liệu với việc thiết kế thực nghiệm và lấy mẫu nghiên cứu. Xác suất thống kê cũng cung cấp những công cụ để dự đoán và dự báo bằng việc sử dụng số liệu và các mô hình thống kê. Xác suất thống kê được ứng dụng vào nhiều lĩnh vực học thuật khác nhau, bao gồm khoa học tự nhiên và xã hội, quản lý của chính phủ và kinh doanh. Các phương pháp thống kê có thể được sử dụng để tóm tắt hay mô tả tập hợp của số liệu, gọi là thống kê mô tả (descriptive statistics). Điều này rất hữu ích trong nghiên cứu, khi nhà nghiên cứu muốn phổ biến kết quả nghiên cứu hoặc thực nghiệm của họ. Hơn nữa, các mẫu trong số liệu có thể được mô hình hóa theo cách mà có thể kiểm soát được tính ngẫu nhiên và tính không chắc chắc trong quan sát, và sau đó được sử dụng để đưa ra các suy luận về quá trình hay về tổng thể (population) được nghiên cứu; cái này được gọi là thống kê suy luận (inferential statistics). Suy luận là không thể thiếu được trong khoa học khách quan vì nó mang lại những dự đoán (dựa trên số liệu) một cách lôgic. Nhằm xác định tính chính xác của những dự đoán này, những ước đoán này cũng được kiểm tra, là một phần của phương pháp khoa học. Các nhà nghiên cứu giáo dục học và khoa học xã hội cần biết và sử dụng xác suất thống kê, nhưng họ không cần biết quá sâu về toán học. Vì hiện nay các chương trình phần mềm xác suất thống kê ngày càng phổ biến và mạnh mẽ (như SPSS, SAS và STATA), và các công thức tính đã được lập trình sẵn, thì yêu cầu về khả năng toán học không phải là chủ chốt. Nhưng những phần mềm này chỉ giúp được rất ít trong việc lên kế hoạch nghiên cứu, lựa chọn kỹ thuật phù hợp và diễn giải kết quả. Vì vậy, đối với các nhà nghiên cứu, hiểu ý nghĩa của những thuật toán và mô hình thống kê khác nhau trong những khung cảnh khác nhau mới là điều quan trọng. 5 Trong số nhiều phần mềm đã và đang được sử dụng cho mục đích thống kê, phần mềm SPSS đã cho thấy những ưu điểm của nó. SPSS là một chương trình mà nhiều người sử dụng yêu thích do nó rất dễ sử dụng. SPSS có một giao diện giữa người và máy cho phép sử dụng các menu thả xuống để chọn các lệnh thực hiện. Khi thực hiện một phân tích chỉ đơn giản chọn thủ tục cần thiết và chọn các biến phân tích và bấm OK là có kết quả ngay trên màn hình để xem xét. SPSS cũng có một ngôn ngữ cú pháp có thể học bằng cách dán cú pháp lệnh vào cửa sổ cú pháp từ một lệnh vừa chọn và thực hiện, nhưng nói chung khá phức tạp và không trực giác. Với rất nhiều những bài toán thuộc phạm trù thống kê được thiết lập thuật toán trên phần mềm này, SPSS giúp ta nhanh chóng có được các kết quả phân tích thống kê một cách chính xác, hiệu quả. Để có thể hiểu hơn về phần mềm này và ứng dụng phân tích phương sai, trong khuôn khổ của luận văn thạc sĩ tôi đã quyết định chọn đề tài “ỨNG DỤNG PHÂN TÍCH PHƯƠNG SAI TRONG PHẦN MỀM SPSS”. Mục tiêu nghiên cứu của đề tài đó là: • Trình bày các kiến thức trong lý thuyết xác suất liên quan đến bài toán phân tích phương sai • Trình bày thuật toán phân tích phương sai một yếu tố • Trình bày những hiểu biết cơ bản về phần mềm SPSS • Trình bày chi tiết các bước tiến hành giải quyết bài toán phân tích phương sai một yếu tố trên phần mềm SPSS • Trình bày bài toán thực tế và đọc kết quả kết xuất từ phần mềm Về phương pháp nghiên cứu, trong đề tài này cơ bản được sử dụng các phương pháp sau: • Phân tích và tổng hợp tài liệu • Tìm hiểu phần mềm • Suy luận toán học 6 • Mô hình hóa và thuật toán Nội dung của luận văn gồm 2 chương: Chương I: Kiến thức chuẩn bị. Trong chương này tôi trình bày những kiến thức cơ bản về Xác suất thống kê cần thiết cho việc thể hiện nội dung của chương 2. Chương II: Phân tích phương sai một chiều trong SPSS. Đây là phần thể hiện nội dung chính của luận văn. Trong chương này tôi trình bày các hiểu biết cơ bản về phần mềm SPSS và ứng dụng phân tích phương sai một yếu tố (One way Anova) của phần mềm để thực hiện việc kiểm nghiệm kết quả học tập của học sinh ở một trường phổ thông. Cuối cùng là kết luận về các nội dung nghiên cứu của đề tài. Để hoàn thành được Luận văn này, tôi xin bày tỏ lòng biết ơn sâu sắc tới TS. Nguyễn Trung Hoà đã giao đề tài và tận tình hướng dẫn, luôn quan tâm, tạo mọi điều kiện giúp đỡ tôi trong suốt quá trình nghiên cứu và thực hiện Luận văn này. Đồng thời tôi xin chân thành cảm ơn Ban Giám hiệu, Phòng Sau Đại học, Ban chủ nhiệm khoa Toán, các thầy cô giáo và cán bộ trường ĐH Vinh đã truyền thụ cho tôi những kiến thức, kinh nghiệm quý báu giúp tôi hoàn thành tốt luận văn này. Tôi xin chân thành cảm ơn các thầy cô giáo và các em học sinh trường THPT Nam Tiền Hải, huyện Tiền Hải, tỉnh Thái Bình đã giúp đỡ và tạo mọi điều kiện để tôi hoàn thành Luận văn này. Tôi cũng xin gửi lời cảm ơn tới gia đình, bạn bè và đồng nghiệp đã động viên, giúp đỡ tôi trong suốt quá trình học tập và thực hiện Luận văn. Nghệ An, tháng 10 năm 2014 7 CHƯƠNG 1. KIẾN THỨC CHUẨN BỊ 1.1. Mẫu ngẫu nhiên và mẫu quan sát 1.1.1. Định nghĩa 1: Mẫu ngẫu nhiên kích thước n đối với một biến ngẫu nhiên X là tập hợp n biến ngẫu nhiên X 1 , X 2 , , X n độc lập, có cùng phân phối xác suất với X, ký hiệu là W=(X 1 , X 2 , , X n ). Biến ngẫu nhiên X được gọi là biến ngẫu nhiên gốc Các biến ngẫu nhiên X i được gọi là bản sao của X 1.1.2. Định nghĩa 2: Mẫu quan sát là thể hiện cụ thể của mẫu ngẫu nhiên W=(X 1 , X 2 , , X n ), đó chính là tập hợp các số liệu cụ thể, gọi tắt là các số liệu thực nghiệm. • Phương pháp nghiên cứu không toàn bộ là phương pháp nghiên cứu thông qua mẫu ngẫu nhiên và mẫu quan sát. 1.2. Véctơ ngẫu nhiên 1.2.1. Định nghĩa. Cho U = (X 1 , X 2 , ,X n ) là một véc tơ thuộc không gian thực R n . Nếu X i là các biến ngẫu nhiên thì U gọi là một véc tơ ngẫu nhiên n chiều, các biến X 1 , X 2 , ,X n là các thành phần ngẫu nhiên của véc tơ ngẫu nhiên U. 1.2.2. Ví dụ: Chọn ngẫu nhiên một người từ đám đông. Gọi X là chiều cao, Y là trọng lượng của người được chọn. Véc tơ U = (X, Y) là một véc tơ ngẫu nhiên hai chiều. • Nếu các thành phần X i của véc tơ ngẫu nhiên U(X 1 , , X n ) là các biến ngẫu nhiên rời rạc thì U(X 1 , , X n ) gọi là véc tơ ngẫu nhiên rời rạc. Nếu các thành phần đó là các biến ngẫu nhiên liên tục thì U(X 1 , , X n ) gọi là véc tơ ngẫu nhiên liên tục. 8 1.3. Trung bình mẫu và phương sai mẫu 1.3.1. Trung bình mẫu 1.3.1.1. Trung bình mẫu (ngẫu nhên) Định nghĩa. Giả sử (X 1 , X 2 , , X n ) là một mẫu ngẫu nhiên kích thước n, khi đó trung bình mẫu ký hiệu là X được xác định bởi: X = n X n i i ∑ =1 . Trung bình mẫu là một biến ngẫu nhiên, mang tính lý thuyết. Vì mỗi X i là một bản sao của BNN gốc X nên chúng đều có cùng kỳ vọng và cùng phương sai với X, do đó nếu X có kỳ vọng m và phương sai σ 2 thì kỳ vọng và phương sai của trung bình mẫu là: Nhận xét: Trung bình mẫu là phương pháp đo được sử dụng phổ biến nhất đế xác định vị trí trung tâm trong thống kê. Điểm yếu duy nhất đối với trung bình mẫu đó chính là nó có thể bị ảnh hưởng ngược lại do các gíá trị cực trị. 1.3.1.2. Trung bình mẫu quan sát Định nghĩa: Trung bình mẫu quan sát là số cụ thể, ký hiệu là x, là một thể hiện của trung bình mẫu. Cách tính: Với số liệu (mẫu) quan sát w=(x 1 ,x 2 ,…,x n ), Nếu chưa thu gọn thì: Nếu là bảng thu gọn k x 1 x 2 … x i … x k N n 1 n 2 … n i … n k thì trung bình mẫu quan sát sẽ được tính theo công thức: 1.3.2. Phươg sai mẫu 1.3.2.1. Phương sai mẫu (ngẫu nhiên) 9 2 ( ) , ( ) .E X m D X n σ = = 1 1 ; n i i x x n = = ∑ 1 1 . k i i i x n x n = = ∑ Giả sử (X 1 , X 2 , , X n ) là một mẫu ngẫu nhiên kích thước n với trung bình mẫu X , khi đó phương sai mẫu ký hiệu là S 2 được xác định bởi: 2 2 1 ( ) . 1 n i i X S X n = − = − ∑ S 2 cũng là một biến ngẫu nhiên 1.3.2.2. Phương sai mẫu quan sát Với số liệu (mẫu) quan sát đã được thu gọn thì giá trị quan sát của S 2 sẽ được tính theo công thức 1.4. Phân tích phương sai 1.4.1. Khái niệm Phân tích phương sai như tên gọi, là một số phương pháp phân tích thống kê mà trọng điểm là phương sai (thay vì trung bình). Thay vì xem xét trực tiếp các giá trị trung bình, ta đi phân tích phương sai và từ đó kết luận về giá trị trung bình của các mẫu quan sát. Phân tích phương sai cung cấp các công cụ chính thức để biện minh cho những phán đoán trực giác. Phân tích phương sai được sử dụng như một công cụ để thăm dò và giải thích. Cơ sở lý thuyết của phương pháp thường được xây dựng dựa trên lý thuyết vectơ toán. Những lý thuyết này vượt quá những kiến thức toán được trang bị cho những người được đào tạo theo các chuyên ngành kinh tế. Do đó, bản chất của phương pháp rất khó được lĩnh hội, việc vận dụng vì vậy sẽ kém chính xác. 1.4.2. Nguyên lý của phân tích phương sai ANOVA xem xét biến thiên của tất cả các quan sát với số đại trung bình và phân chúng ra làm 2: biến thiên nội nhóm và biến thiên giữa các nhóm. Nếu số trung bình của các nhóm khác nhau nhiều thì sự biến thiên giữa chúng và đại trung bình (biến thiên giữa các nhóm) sẽ đáng kể hơn so với các biến thiên giữa các quan sát trong 1 nhóm với trung bình của nhóm (biến thiên nội nhóm). Nếu 10 2 qs S 2 2 1 1 ( ) . 1 k i i i S n x x n = = − − ∑ [...]... Nhưng do sự phổ biến của các phần mềm thống kê, việc sử dụng ANOVA trong nghiên cứu trở nên khá phổ biến và thông dụng 13 CHƯƠNG 2 PHÂN TÍCH PHƯƠNG SAI MỘT CHIỀU TRONG SPSS 2.1 Giới thiệu về phần mềm SPSS SPSS (Statistical Product and Services Solutions - Sản phẩm thống kê và giải pháp dịch vụ) là một phần mềm thống kê, thường được sử dụng trong nghiên cứu xã hội đặc biệt là trong tâm lý học, tiếp thị... sinh, tâm lý sinh viên …; Ứng dụng SPSS trong nghiên cứu xã hội học: ý kiến của người dân trong việc xây dựng lại khu chung cư, thống kê y tế …; Ứng dụng SPSS trong nghiên cứu thị trường: nghiên cứu và định hướng phát triển sản phẩm, mở rộng thị trường; sự hài lòng của khách hàng ; Ứng dụng SPSS nghiên cứu đa dạng sinh học, trong phát triển nông lâm nghiệp …; Ứng dụng SPSS trong nghiên cứu giáo dục:... … X1n1 X2n2 … XKnK Với giả định các tổng thể có phân phối chuẩn, có phương sai bằng nhau, các sai số là độc lập với nhau, phân tích phương sai một yếu tố kiểm nghiệm giả thuyết ban đầu như sau: H0: µ1 = µ2 = … = µk Ta thấy ở đây là việc so sánh giữa các giá trị trung bình, vậy phân tích phương sai nghe như là một sai sót Tuy nhiên việc phân tích phương sai ở đây dựa trên thông số thống kê F, với F là... nghiệp ghi là giáo viên 2.3 Phân tích ANOVA 2.3.1 Phân tích phương sai một chiều (One way ANOVA) Trong phần này phương pháp kiểm định sẽ mở rộng cho trường hợp so sánh trung bình của nhiều tổng thể được xây dựng trên việc xem xét các biến thiên (phương sai) của các giá trị quan sát trong nội bộ từng nhóm (mẫu) và giữa các nhóm (mẫu) với nhau Ở đây ta đề cập đến phân tích phương sai một yếu tố là trường... Logistic; Phân tích theo nhóm (Cluster Analysis); Phân tích tách biệt (Discriminatory Analysis); và nhiều chuyên sâu khác (Advanced Statistics) 2.1.5 Một số lĩnh vực ứng dụng chính của SPSS Những nội dung nói trên, SPSS có thể là đủ để giúp các nhà khoa học thực hiện việc xử lý số liệu nghiên cứu nói chung và trong nghiên cứu các mảng chuyên ngành khác nhau của mình, chẳng hạn: Ứng dụng SPSS trong nghiên... thiết kế sẵn Hiện nay, SPSS là một trong những phần mềm phân tích số liệu phổ biến và mạnh nhất với trên 250.000 khách hàng trên toàn thế giới 2.1.1 Cài đặt phần mềm SPSS Hình 1 Các Thư mục trong đĩa CD SPSS1 6 Hình 1 Bước 1: Nhấp chuột vào biểu tượng Keygen (Xem Hình 2) 14 → Hình 3 xuất hiện Hình 2: Biểu tượng Keygen ở thư mục E:\KEYGEN Hình 3: Hộp thoại SPSSv16.Keygen: Hình 3 Trong Hình 3, ta có thể... và xã hội học Nó cũng được sử dụng thường xuyên trong nghiên cứu thị trường SPSS cung cấp một hệ thống quản lý dữ liệu và khả năng phân tích thống kê với giao diện thân thiện cho người dùng trong môi trường đồ hoạ, sử dụng các trình đơn mô tả và các hộp thoại đơn giản Năm 1968, Norman H Nie, C Hadlai (Tex) Hull và Dale H Bent đã phát triển SPSS SPSS là phần mềm chuyên dụng xử lý thông tin sơ cấp (thông... được dạy theo phương pháp 12 X, Y và Z Trong tình huống này, họ có thể dùng ba t-test để so sánh: X,Y – Y,Z và Z,X Nhưng cách so sánh này không giúp đối chiếu cả ba phương pháp cùng một lúc hay cho biết phương pháp nào là hiệu quả nhất Phân tích phương sai, hay ANOVA (viết tắt của analysis of variance) có thể giúp nhà nghiên cứu trả lời câu hỏi này ANOVA đặc biệt hữu ích trong so sánh các phương pháp... thiên nội nhóm Phép kiểm định giả thuyết về 2 phương sai, F-test, có thể được sử dụng để kiểm định tỉ số phương sai giữa các nhóm và phương sai nội nhóm Giả thuyết của F-test cho rằng 2 phương sai này bằng nhau; nếu H0 (giả thuyết trung bình của các nhóm là bằng nhau) đúng thì có nghĩa là biến thiên giữa các nhóm sẽ không lớn hơn so với biến thiên nội nhóm Trong tình huống này, không thể kết luận là... liệu khác mà SPSS có thể đọc: Bảng tính – Excel (*.xls, *.xlsx), Lotus (*.w*); Database – dbase (*.dbf); ASCII text (*.txt, *.dat); Complex database – Oracle, Access; Các tập tin từ các phần mềm thống kê khác (Stata, SAS) 2.2.1 Dữ liệu đầu vào và xử lý thô Môi trường làm việc của SPSS gồm hai phần: phần soạn thảo dữ liệu đầu vào (SPSS Data Editor) và phần kết quả đầu ra (Output – SPSS Viewer) SPSS Data . NHẤT ỨNG DỤNG PHÂN TÍCH PHƯƠNG SAI TRONG PHẦN MỀM SPSS LUẬN VĂN THẠC SỸ TOÁN HỌC Vinh, 2014 2 BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC VINH LÊ HỮU NHẤT ỨNG DỤNG PHÂN TÍCH PHƯƠNG SAI TRONG PHẦN MỀM SPSS Chuyên. 2. PHÂN TÍCH PHƯƠNG SAI MỘT CHIỀU TRONG SPSS 14 2.1.Giới thiệu về phần mềm SPSS 14 2.1.1. Cài đặt phần mềm SPSS 14 2.1.2. Các dạng màn hình của Phần mềm SPSS 24 2.1.3. Chức năng chính của SPSS. tài ỨNG DỤNG PHÂN TÍCH PHƯƠNG SAI TRONG PHẦN MỀM SPSS . Mục tiêu nghiên cứu của đề tài đó là: • Trình bày các kiến thức trong lý thuyết xác suất liên quan đến bài toán phân tích phương sai •