Khai thác phần mềm winstat để xử lý số liệu bằng phương pháp phân tích hồi quy

62 5 0
Khai thác phần mềm winstat để xử lý số liệu bằng phương pháp phân tích hồi quy

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

bộ giáo dục đào tạo Tr-ờng đại học vinh phùng ngọc Khai thác phần mềm Winstat để xử lý số liệu ph-ơng pháp phân tích hồi quy chuyên ngành: xác suất thống kê toán học Mà số: 60.46.15 tóm tắt luận văn thạc sĩ toán h ọc Vinh - 2009 MỞ ĐẦU Trong thời đại ngày nay, công nghệ thông tin trở thành nhân tố quan trọng cho phát triển kinh tế - xã hội Việc khai thác ứng dụng phần mềm để phân tích xử lý số liệu thống kê bổ ích thiết thực Winstat phần mềm Nó phần mềm bổ trợ cho Excel để phân tích xử lý số liệu thống kê Phương pháp phân tích hồi quy phương pháp để xác định mức độ phụ thuộc lượng theo hay nhiều đại lượng khác Việc sử dụng phương pháp phân tích hồi quy tương quan cho ta thấy mối liên hệ yếu tố, thuộc tính số liệu Trên sở đó, với bảo định hướng TS Nguyễn Trung Hoà, tác giả lựa chọn đề tài “Khai thác phần mềm Winstat để xử lý số liệu phương pháp phân tích hồi quy” để nghiên cứu Nội dung luận văn bao gồm ba chương: Chương Các kiến thức sở Chương tác giả hệ thống kiến thức xác suất thống kê Nó cơng cụ để nghiên cứu tiếp chương sau Chương Phân tích hồi quy Chương trình bày lí thuyết mơ hình phân tích Hồi quy đơn, Hồi quy đa thức, Hồi quy bội phương pháp phân tích kiểm định giả thiết thống kê Chương Phân tích hồi quy Winstat Chương giới thiệu phần mềm Winstat, hướng dẫn cài đặt sử dụng phần mềm Giới thiệu gói lệnh phân tích hồi quy phần mềm Winstat Sử dụng gói lệnh để phân tích ví dụ thực tiễn từ để đưa số kết luận thống kê Luận văn hoàn thành trường Đại học Vinh hướng dẫn TS Nguyễn Trung Hoà Tác giả xin bày tỏ lòng biết ơn chân thành sâu sắc đến thầy - người đặt vấn đề thường xuyên giúp đỡ tác giả suốt trình học tập nghiên cứu Nhân dịp này, tác giả xin chân thành cảm ơn thầy giáo khoa Tốn, khoa Sau đại học bạn học viên lớp cao học 15 - Xác suất thống kê thường xuyên giúp đỡ tác giả trình học tập hồn thành luận văn Mặc dù có nhiều cố gắng, song luận văn khơng thể tránh thiếu sót, tác giả mong đóng góp quý báu từ thầy cô giáo bạn Vinh, tháng 12 năm 2009 Tác giả Chƣơng CÁC KIẾN THỨC CƠ SỞ 1.1 Biến ngẫu nhiên hàm phân phối 1.1.1 Biến ngẫu nhiên Giả sử (, F, P) không gian xác suất B  - đại số Borel đường thẳng thực R Ánh xạ X :  gọi biến ngẫu nhiên với B  B X 1  B  :  : X    B  F Để dễ hình dung, ta hiểu đại lƣợng (hay biến) nhận giá trị với xác suất tƣơng ứng gọi đại lƣợng ngẫu nhiên hay biến ngẫu nhiên Các biến ngẫu nhiên đƣợc ký hiệu X ,Y , Z Y1,Y2 , ,Ym ; X1, X , , X n cịn giá trị có chúng đƣợc ký hiệu x, y x1, x2 , , xn ; y1, y2 , , ym Nếu tập giá trị mà biến ngẫu nhiên nhận tập gồm số hữu hạn điểm vô hạn đếm đƣợc Khi biến ngẫu nhiên gọi biến ngẫu nhiên rời rạc Nếu tập giá trị mà biến ngẫu nhiên lấp đầy khoảng biến ngẫu nhiên gọi biến ngẫu nhiên liên tục 1.1.2 Hàm phân phối Hàm phân phối xác suất biến ngẫu nhiên X , ký hiệu F  x  , xác định sau F  x   P  X  x  , x  R Tại điểm x bất kỳ, giá trị hàm F  x  xác suất để biến ngẫu nhiên nhận giá trị nhỏ x (hoặc bên trái x) 1.2 Các loại biến thƣờng gặp xử lý thống kê Trong xử lý thống kê, xem xét tổng thể theo tính chất (thuộc tính nó), người ta thường xem thuộc tính có mối liên hệ đến nhiều thuộc tính khác Mỗi thuộc tính xem biến Thơng thường biến phân loại sau 1.2.1 Biến định lượng Thông thƣờng số đo biến định lƣợng Biến định lƣợng chia thành loại - Biến nhận giá trị thực liên tục: Các biến có giá trị số thực nằm đoạn thẳng trục số Ví dụ: Cân nặng, chiều cao, nồng độ … - Biến nhận giá trị thực rời rạc: Các biến có tập giá trị tập hữu hạn số thực Ví dụ: Mức lƣơng, loại giá vé xe… Biến nhận giá trị nguyên, nhƣ: Tuổi, số ngƣời… 1.2.2 Biến định tính Thƣờng biến định tính xác định tính chất đối tƣợng nghiên cứu, giá trị biến thƣờng khơng phải số Ví dụ: Giới tính, lí vay mƣợn, quan điểm vấn đề…là biến định tính Biến định tính đƣợc chia làm hai loại - Biến định tính có thứ tự biến mà giá trị có khả đƣợc xếp theo thứ tự đó, biểu thị mức độ quan trọng khác giá trị Ví dụ: Nhà cửa, nguồn nƣớc sử dụng… - Biến định tính khơng có thứ tự biến mà giá trị khơng đƣợc xếp theo thứ tự Ví dụ: Dân tộc, tôn giáo… 1.2.3 Biến độc lập Biến độc lập cịn gọi biến mơ tả, xuất cơng thức biểu diễn mơ hình, dùng để thể đặc trƣng mang tính nguyên nhân tƣợng, có tác động vào trình đƣợc nghiên cứu 1.2.3 Biến phụ thuộc Biến phụ thuộc cịn gọi biến mơ tả thể kết tƣợng, thƣờng nằm vế phải cơng thức, đối tƣợng chính, mục tiêu công việc nghiên cứu Chú ý: * Sự phân biệt loại biến có tính tƣơng đối, tuỳ thuộc vào mục đích vấn đề ý đồ ngƣời nghiên cứu mà biến chỗ đƣợc xem biến định lƣợng mà nơi khác đƣợc cho biến định tính Ví dụ: “Đồ đạc tiện nghi gia đình” biến định tính xét dƣới góc độ xem xét chất lƣợng đời sống sinh hoạt, song lại biến định lƣợng muốn xác định tài sản gia đình Một biến định tính lúc khơng đƣợc xem có thứ tự, lúc khác lại đƣợc xem có thứ tự * Trong mơ hình nhiều mức, biến vừa biến phụ thuộc, vừa biến độc lập.Ví dụ: “chi tiêu cho ăn uống hàng ngày” biến “đƣợc mô tả” (biến phụ thuộc) xét mối quan hệ với yếu tố thu nhập điều kiện sống, song lại biến “dùng để mô tả” (biến độc lâp) muốn biểu diễn ảnh hƣởng đến sức khoẻ thành viên gia đình * Các loại biến vừa nêu tất định, mang yếu tố ngấu nhiên luận văn ta giới hạn việc xem xét loại biến biến ngẫu nhiên qua phép biến đổi đơn giản chúng đƣợc quy biến ngẫu nhiên 1.3 Mẫu ngẫu nhiên mẫu quan sát 1.3.1 Khái niệm mẫumẫu ngẫu nhiên Định nghĩa: Mẫu ngẫu nhiên kích thước n biến ngẫu nhiên X tập hợp n biến ngẫu nhiên X1, X , , X n độc lập, có phân phối xác suất với X , kí hiệu là: W   X1, X , , X n  • Biến ngẫu nhiên X đƣợc gọi biến ngẫu nhiên gốc • Các biến ngẫu nhiên X i đƣợc gọi X • Phƣơng pháp nghiên cứu khơng tồn phƣơng pháp nghiên cứu thông qua mẫu ngẫu nhiên mẫu quan sát 1.3.2 Mẫu quan sát Mẫu quan sát W   x1, x2 , , xn  thể cụ thể mẫu ngẫu nhiên hay tập hợp số liệu quan sát cụ thể biến ngẫu nhiên gọi tắt số liệu thực nghiệm Bảng phân phối tần số thực nghiệm: k x1 x2 … xi xk n n n2 … ni … nk • xi giá trị phân biệt thứ i quan sát • ni số lượng quan sát nhận giá trị tương ứng • Bảng gọi bảng mẫu thu gọn Bảng phân phối tần số ghép lớp: k y1 y2 yi yk n n1 n2 … ni … nk Trong đó: • yi   yi  h (khơng đổi) • ni số giá trị quan sát thuộc nửa khoảng  yi  h ; yi  h    1.4 Thống kê số thống kê đặc trƣng mẫu ngẫu nhiên 1.4.1 Thống kê Thống kê hàm G  f  X1, X , , X n  biến ngẫu nhiên Một thống kê biến ngẫu nhiên Giá trị cụ thể hàm G tƣơng ứng với tập giá trị quan sát  x , x , , x  số Gqs  f  x1, x2 , , xn  thể thống kê G , thu n đƣợc từ mẫu quan sát (số liệu) biến ngẫu nhiên gốc X đƣợc gọi giá trị quan sát thống kê G 1.4.2 Thống kê trung bình mẫu Giả sử W   X1, X , , X n  mẫu ngẫu nhiên, trung bình mẫu mẫu ngẫu nhiên W thống kê X n  Xi n i 1 Vì X i biến ngẫu nhiên gốc X nên chúng có kỳ vọng phương sai với X , thống kê trung bình mẫu X biến ngẫu nhiên có kỳ vọng phương sai mẫu tương ứng là: 1 n  n E X  E   X i    EX i  n   n  n i 1  n i 1 2 1 n  n D X  D   X i    DX i  n  n n  n i 1  n i 1 Với mẫu quan sát W   X1, X , , X n  nếu: xi x x x … x k ni n n n … n k bảng thu gọn trung bình mẫu quan sát đƣợc tính theo cơng thức: X qs  x  k  ni xi n i 1 Trung bình mẫu quan sát số cụ thể, thể trung bình mẫu 1.4.3 Phương sai mẫu S S *2 - Phương sai mẫu S Là thống kê trường hợp kỳ vọng X chưa biết xác định bởi: S2   n  Xi  X n  i 1  S biến ngẫu nhiên Nếu biến ngẫu nhiên gốc X có phương sai  phương sai mẫu S có kỳ vọng E  S    với mẫu quan sát tương ứng W   X1, X , , X n  chúng thu gọn dạng: xi x x x … x k ni n n n … n k giá trị quan sát phương sai mẫu tính bởi: S2   k  ni xi  x n  i 1  - Phương sai S *2 Là thống kê trường hợp kỳ vọng X  biết xác định bởi: n S   X i    n i 1 2 S 2 biến ngẫu nhiên Phương sai mẫu S 2 có kỳ vọng E  S 2    Với mẫu quan sát tương ứng W   x1, x2 , , xn  chúng thu gọn dạng: xi x1 x2 x3 … xk ni n1 n2 n3 … nk 47 Stepwise Bắt đầu với biến khơng có phương trình hồi quy, chương trình Formatted: Font: Bold, Italic tự động kiểm tra biến độc lập chưa có phương trình Biến số có giá trị lớn (giá trị P nhỏ nhất) thêm vào phương trình, cho giá trị P-value nhỏ giá trị p-in hộp thoại Sau lần thêm vào tất biến phương trình kiểm tra lại Biến số với giá trị nhỏ (giá Formatted: Font: Bold, Italic Formatted: Font: Bold, Italic trị P-value lớn nhất) bị loại khỏi phương trình, đưa giá trị P-value Formatted: Font: Bold, Italic lớn giá trị P- out hộp thoại Q trình tiếp diễn khơng cịn Formatted: Font: Italic biến thêm vào bớt đạt đến giá trị cao biến (được thể hộp thoại Maximum number of variables) Formatted: Font: Bold, Italic Formatted: Font: Bold, Italic Forward Bắt đầu với biến khơng có phương trình hồi quy, chương trình Formatted: Font: Bold, Italic tự động kiểm tra biến độc lập chưa có phương trình Biến số có giá trị lớn (giá trị P-value nhỏ nhất) thêm vào phương trình, cho Formatted: Font: Bold, Italic giá trị P-value nhỏ giá trị p-in hộp thoại, trình tiếp diễn khơng cịn biến thêm tìm thấy giá trị cao Formatted: Font: Bold, Italic biến (được thể hộp thoại Maximum number of variables) Formatted: Font: Italic Formatted: Font: Bold, Italic Backward Formatted: Font: Bold Bắt đầu với tất biến độc lập phương trình hồi quy, chương trình Formatted: Font: Bold, Italic kiểm tra biến Biến số có giá trị nhỏ (p cao nhất) bị loại bỏ khỏi phương trình, cho giá trị P- value cao giá trị P-out hộp thoại Formatted: Font: Bold Formatted: Font: Bold, Italic Formatted: Font: Bold, Italic Quá trình tiếp diễn không biến bị loại bỏ Maximum R-Square Dữ liệu đầu raPhương pháp địi hỏi tính tốn xác nhiều thời gian cách phương pháp khác cho kết tốt việc tìm giá trị biến thích hợp (trong trường hợp R-Square) bước tiến hành bỏ thêm vào biến để tìm kết xác Formatted: Font: Bold, Italic 48 Output Ví dụ: Chọn Horsepowr nhƣ biến phụ thuộc Income Price biến độc lập Phƣơng Pháp Stepwise đƣợc chọn với giá trị lờn hai biến Khi ta có kết sau Formatted Formatted: Indent: First line: 0" 49 Formatted: Indent: First line: 0" Ở bƣớc, biến độc lập đƣợc thêm vào dấu (+) bớt dấu (-) phƣơng trình P giá trị p-value biến đƣợc đƣa vào, ln nhỏ giá trị P-in biến biến đƣa vào lớn 50 P-out biến biến bỏ R-Square mức độ mà biến phụ thuộc đƣợc xác định biến độc lập bƣớc, trình tăng thêm trình biến đƣợc thêm vào Giá trị Corrected giá trị hiệu chỉnh phù hợp Rõ ràng, xấp xỉ tốt (R cao hơn) tìm đƣợc cách tạo giá trị cho biến giải thích (biến độc lập) Trong ví dụ, phƣơng pháp hồi quy stepwise dừng lai sau kiểm tra xong biến Nghĩa biến khác có giá trị nhỏ giá trị so sánh p-in Và trình dừng lại, tất thơng tin phƣơng trình hồi quy sẻ đƣợc hiển thị Std Error sai số tiêu chuẩn đƣờng cong hồi quy (so sánh với biến mô tả), đo đơn vị biến phụ thuộc Đối với biến phƣơng trình, hệ số đƣợc xuất nhƣ khoảng tin cậy hệ số Một biến biểu thị giá trị thực giá trị nằm khoảng giới hạn Chú ý giá trị phần trăm (đây 95%) thay đổi cách kích vào Cuối phân tích phƣơng sai toàn hồi quy đƣợc hiển thị Giá trị P biến đƣa vào đƣợc chuyển từ bƣớc sang bƣớc khác cho biết biến độc lập, không tƣơng quan với biến phụ thuộc mà tƣơng qua với Việc bổ sung biến nhƣ vậy, làm giảm tầm quan trọng biến có phƣơng trình Điều giải thích sao, phƣơng pháp hồi quy stepwise, biến nằm điểm không xác định phƣơng trình sau đƣợc chấp nhận chí nằm khoảng Pin, P-out Formatted: Indent: Left: 0", First line: 0" 3.4 Ví dụ ứng dụng Đưa bBảng số liệu minh hoạ bên bảng trắc nghiệm kết thi tốt Formatted: Indent: First line: 0.51", Tab stops: -3.77", Left nghiệp hai trường THPT Ngô Quyền Bạch Đằng năm học 2008 - 2009 Trong Ngơ Quyền có 168 học sinh, trường Bạch Đằng có 231 học sinh Formatted: Indent: First line: 0.51", Tab stops: -3.77", Left + Not at 3.79" 51 Formatted: Justified, Indent: First line: 0.51 Tab stops: -3.77", Left + Not at 3.79" Bảng số liệu điểm môn thi tốt nghiệp 299 học sinh (Lê Lợi có 168 học sinh, Lam kinh có 231 học sinh), năm học 2008-2009 hai trường Lê Lợi Lam Kinh Sử dụng Winstat để phân tích bảng số liệu 3.4.1 Sử dụng lệnh Regression/Simple Sử dụng lệnh Regression/Simple để phân tích mức độ quan hệ biến như: Mã trường có ảnh hưởng điểm mơn học, điểm Tốn có ảnh hưởng đến điểm mơn học khác, 52 Ví dụ: Xét xem điểm Tốn có quan hệ đến điểm môn thi khác Thực hiên lệnh Regression/Simple chọn mục giống hộp thoại sau 53 Winstat cho ta nhận xét sau:bảng kết sau -Qua bảng kết ta thấy phương trình hồi quy đơn biểu diễn mối quan hệ điểm Toán điểm Vvăn Y  1(0.181021459  0.004790948* X ) Làm tương tự cặp biến khác ta có kết sau: Cặp biến Phương trình R R  Square Toán - Anh văn Y  5.63937676  0.373963545 X 0.50022574 0.250225791 Toán - Sử Y  6.127266884  0.17448306 X 0.269894951 0.072843284 Toán - Hoá Y  2.654335444  0.644196386 X 0.615454592 0.378784355 Toán - Lí Y  3.560983935  0.480772099 X 0.609647121 0.371669613 Tốn - Văn Y  1(0.181021459  0.004790948* X ) 0.315089494 0.099281389 Nhận xét: Formatted: Bullets and Numbering 54 Qua bảng số liệu ta thấy: - Giá trị R cho ta biết mức độ ảnh hưởng điểm Toán đến điểm môn học khác - Ta thấy Điểm Tốn có mức độ ảnh hưởng đến điểm mơn học khác theo thứ tự Hố Lý - Anh văn Văn - Ssử - Những học sinh học giỏi Toán thường trọng nhiều đến học Lýí, Hố - Những học sinh học giỏi Tốn thường khơng trọng nhiều đến học Vvăn Ssử - Tuy nhiên ta thấy, điểm Toán cao kéo theo điểm mơn học khác cao 3.4.2 Sử dụng lệnh Regssion / Polynomical Sử dụng lệnh Regssion / Polynomical để xem mức độ quan hệ chi tiết biến Ví dụ: Xét mối quan hệ điểm Toán đến điểm Vvăn, Lýí, Hố, Sử, Anh văn, hồi quy đa thức Thực lệnh Regssion / Polynomical ta có hộp thoại sau Chọn mục hộp thoại ta có kết sau 55 Winstat cho ta nhận xét sau Nhận xét: - Phương trình hồi quy bậc biểu diễn mối quan hệ biến điểm Toán biến điểm Văn Y  8.990033254 1.852053361* X  0.37081497* X  0.020630439* X - Điểm Ttốn nằm khoảng từ đến điểm điểm văn giảm Điểm Ttoán nằm khoảng từ đến điểm điểm vVăn tăng điểm Ttốn cao điểm điểm Vvăn lại giảm - Trong tình hình nay, học sinh học giỏi Tốn thường khơng coi trọng nhiều đến học Văn Làm tương tự biến khác ta có nhận xét sau - Điểm Toán nằm khoảng từ đến điểm điểm Lịch Ssử khơng có thay đổi nhiều Điểm Tốn nằm khoảng từ đến điểm điểm lịch sSử có tăng Điểm Toán nằm khoảng từ đến 10 điểm điểm Lịch Ssử lại giảm - Điểm Tốn Điểm Toán nằm khoảng từ đến điểm điểm Hố khơng có thay đổi nhiều Điểm Tốn nằm khoảng từ đến điểm điểm 56 Slịch sử có tăng Điểm Tốn nằm khoảng từ đến 10 điểm điểm Hóa tăng lên rõ rệt - Điểm Toán điểm Lý tương tự điểm Toán điểm Hoá Tuy nhiên mức độ ảnh hưởng điểm Tốn đến điểm Lý có phần nhích điểm Hố - Điểm Tốn cao điểm Anh Văn cao, mức độ ảnh hưởng thấp Hoá Lý 3.4.3 Sử dụng lệnh Regression/Multiple Ví dụ: Xét xem Mức độ quan hệ điểm toán với điểm Anh Văn, Lịch Sử, Hoá Học, Vật Lý, điểm Văn Thực lệnh Regression/Multiple Winstat ta có hộp thoại sau Chọn mục hộp thoại ta có kết 57 Thực tương tựcác phương với phương pháp Stepwise, Backward, Forward, Diect, Maximum R-square ta có: - Phương trình hồi quy biểu diễn mối quan hệ điểm Toán với điểm Lịch Sử, Hoá Học, LVật lý, Văn phương pháp Backward, Forward, Stepwise là: 58 Y  0.68304276  0.317322638 X1  0.321682314 X  0.413059523X Trong đó: X biến Anh Văn X biến Hoá X biến Lý - Phương trình hồi quy biểu diễn mối quan hệ điểm Toán với điểm Lịch Sử, Hoá Học,Vật , Lý, Văn phương pháp Diect, Maximum R-square là: Y  1.168338176  0.308280278 X1  0.026318989 X  0.315762681X  0.394935678 X  0.076448707 X Trong đó: X biến Anh Văn X biến S Lịch sử X biến Hoá học X biến LýVật lý X biến Văn - Trong kết phương pháp phân tích ta thấy điểm Tốn xem khơng phụ thuộc vào điểm Văn điểm SửLịch sử - Điểm tốn phụ thuộc vào mơn tự nhiên (Lý, Hố) mơn học có tính tư logic cao (Anh Văn) - Điểm toán quan hệ với điểm Lý chặt chẽ điểm khác 59 KẾT LUẬN - Luận văn trình bày kiến thức xác suất thống kê phân tích hồi quy - Hướng dẫn cài đặt, tìm hiểu cách sử dụng, nhưgiới thiệu tính phần mềm Winstat Nghiên cứu ứng dụng phần mềm Winstat việc sử lí số liệu phương pháp phân tích hồi quy - Sử dụng phần mềm Winstat để xử lí bảng số liệu thống kê thực tiễn Có đưa số kết thực nghiệm - Dự kiến thời gian tới: Tìm mơ hình thực tế để ứng dụng tốn phân tích hồi quy Khai thác tính quan trọng khác phần mềm này, chẳng hạn kiểm định giả thiết thống kê… Formatted: Bullets and Numbering Formatted: Font: Not Bold 60 61 Luận văn đ-ợc hoàn thành Tr-ờng §¹i häc Vinh Ng-êi h-íng dÉn khoa häc: TS Ngun Trung Hòa Phản biện 1: PGS TS Nguyễn Văn Quảng Phản biện 2: PGS TS Trần Xuân Sinh Luận văn đ-ợc bảo vệ tr-ớc Hội đồng chấm Luận văn Thạc sĩ Tr-ờng Đại học Vinh vào hồi ngày tháng 01 năm 2010 Có thể tìm hiểu luận văn Th- viện Tr-ờng Đại học Vinh ... khai thác ứng dụng phần mềm để phân tích xử lý số liệu thống kê bổ ích thiết thực Winstat phần mềm Nó phần mềm bổ trợ cho Excel để phân tích xử lý số liệu thống kê Phương pháp phân tích hồi quy. .. Chương Phân tích hồi quy Winstat Chương giới thiệu phần mềm Winstat, hướng dẫn cài đặt sử dụng phần mềm Giới thiệu gói lệnh phân tích hồi quy phần mềm Winstat Sử dụng gói lệnh để phân tích ví... thống kê Nó cơng cụ để nghiên cứu tiếp chương sau Chương Phân tích hồi quy Chương trình bày lí thuyết mơ hình phân tích Hồi quy đơn, Hồi quy đa thức, Hồi quy bội phương pháp phân tích kiểm định giả

Ngày đăng: 16/10/2021, 22:51

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan