Phân tích hồi quy

Một phần của tài liệu Khóa luận Sử dụng phần mềm xử lý số liệu SPSS và R trong nghiên cứu về khoa học giảng dạy Vật lý (Trang 46 - 65)

2. Các chức năng cơ bản của SPSS

2.7. Phân tích hồi quy

Phân tích hồi quy, cụ thể là phân tích hồi quy tuyến tính là một chức năng quan trọng trong việc dự đoán mối tương quan giữa các biến với nhau, qua đó làm cơ sở cho việc tiên lượng giá trị của biến phụ thuộc dựa vào các biến độc lập. Phần mềm

SPSS cũng cung cấp các công cụ phân tích hồi quy tuyến tính cho người dùng trong

Menu Analyze Regression. Các lệnh thường dùng cho các phân tích thông dụng là:

* Linear: Phân tích hồi quy tuyến tính bội.

Để thực hiện phân tích hồi quy tuyến tính bội, chúng ta sử dụng lệnh Linear

trong Menu Analyze Regression.

VD: Phân tích hồi quy tuyến tính bội của cơ sở dữ liệu mức tiêu thụ xăng. Độ tin cậy 95%.

Hình 24. Bảng số liệu phân tích hồi quy tuyến tính

Phân tích bảng số liệu chúng ta thấy có một biến phụ thuộc là mức tiêu thụ xăng

ttxang sẽ phụ thuộc vào các biến độc lập là công xuất động cơ maluc, khối lượng xe

nang, số cylinder may và dung tích động cơ lit. Tiến hành phân tích:

Chọn Regression Linear → đưa biến phụ thuộc vào ô Dependent, các biến độc lập vào ô Indenpendents.

Tiếp tục chọn Statistics → tích chọn 4 mục Estimates, Model fit, Collinearity diagnostics Durbin-Watson Continue.

Hình 26. Cài đặt thông số phân tích

Tiếp tục vào mục Plots để xuất ra các biểu đồ phục vụ cho việc kiểm tra vi phạm các giả định hồi quy. Trong bảng chọn hiện ra, chọn trục Y là *ZPRED và X là

*ZRESID sau đó tích chọn 2 mục Histogram Normal probability plot Continue

OK để chạy phân tích hồi quy tuyến tính bội.

Kết quả:

Kết quả bao gồm nhiều bảng phân tích trong đó ta quan tâm đến các bảng Model Summary, ANOVACoecients và đồ thị. Ta sẽ lần lượt đọc và phân tích kết quả của các bảng này: + Bảng Model Summary: Model Summaryb Model R R Square Adjusted R Square Std. Error of the Estimate Durbin-Watson 1 ,881a ,776 ,757 1,77383 1,668

a. Predictors: (Constant), dung tich dong co (lit), cong suat dong co (HP), khoi luong xe (kg), so may (cylinder)

b. Dependent Variable: muc tieu thu xang (km/lit)

Bảng 11. Bảng Model Summary

- Trong bảng này ta cần để ý 2 giá trị Adjusted R SquareDurbin-Watson. - Giá trị Adjusted R Square = 0.757 hay còn gọi là R bình phương hiệu chỉnh, nó phản ánh mức độ ảnh hưởng của các biến độc lập lên biến phụ thuộc. Cụ thể trong trường hợp này, 4 biến độc lập đưa vào ảnh hưởng 75,7% sự thay đổi của biến phụ thuộc, còn lại 24,3% là do các biến ngoài mô hình và sai số ngẫu nhiên. Thường thì giá trị này từ 50% trở lên là nghiên cứu được đánh giá tốt. Như vậy với mẫu số liệu như trên thì các biến độc lập ảnh hưởng tương đối lớn đến biến phụ thuộc.

- Giá trị Durbin-Watson = 1.668 dùng để kiểm định sự tương quan của các sai số kề nhau (hay còn gọi là tương quan chuỗi bậc nhất) có giá trị biến thiên trong khoảng từ 0 đến 4; nếu các phần sai số không có tương quan chuỗi bậc nhất với nhau thì giá trị sẽ gần bằng 2 (từ 1 đến 3); nếu giá trị càng nhỏ, gần về 0 thì các phần sai số có tương quan thuận; nếu càng lớn, gần về 4 có nghĩa là các phần sai số có tương quan nghịch. Lưu ý, đây là giá trị ước lượng thường dùng trong SPSS chứ không chính xác. Nếu bài phân tích yêu cầu tính chính xác, chúng ta cần tra trong bảng hệ số Durbin-Watson (Phụ lục)

Và đối chiếu với bảng ý nghĩa bên dưới. Với mức ý nghĩa 1% ở bảng A-1 và 5% ở bảng A-2. Không có tự tương quan chuỗi bậc nhất thì dữ liệu thu thập là tốt.

> 0 Tương quan dương Không kết luận  = 0 Không có tương quan chuỗi bậc nhất Không kết luận  < 0 Tương quan âm

Hình 28. Bảng ý nghĩa giá trị Durbin-Watson

+ Bảng ANOVA:

ANOVAa

Model Sum of Squares df Mean Square F Sig.

1 Regression 491,837 4 122,959 39,078 ,000b

Residual 141,592 45 3,146

Total

633,429 49

a. Dependent Variable: muc tieu thu xang (km/lit)

b. Predictors: (Constant), dung tich dong co (lit), cong suat dong co (HP), khoi luong xe (kg), so may (cylinder)

Bảng 12. Bảng ANOVA

- Khi nghiên cứu, các số liệu thường không thể điều tra trên quy mô tổng thể mà thường chọn một số mẫu nhất định để điều tra rồi suy rộng cho tổng thể. Mục đích của kiểm định F trong ANOVA chính là để kiểm tra xem mô hình hồi quy tuyến tính này có thể suy rộng và áp dụng được cho tổng thể hay không.

- Trong VD này giá trị Sig = 0.000 < 0.05 nên có thể kết luận được mô hình hồi quy tuyến tính này được xây dựng phù hợp và có thể suy rộng được cho tổng thể. Ngược lại nếu giá trị Sig > 0.05 thì cần xem xét lại mô hình.

+ Bảng Coecients: Coefficientsa Model Unstandardized Coefficients Standardized Coefficients t Sig. Collinearity Statistics

B Std. Error Beta Tolerance VIF

1 (Constant) 26,234 2,319 11,312 ,000

cong suat dong co

(HP) -,046 ,016 -,348 -2,783 ,008 ,318 3,141

khoi luong xe (kg) -,009 ,002 -,722 -4,161 ,000 ,165 6,067

so may (cylinder) ,244 ,536 ,100 ,455 ,651 ,102 9,763

dung tich dong co (lit) ,178 ,882 ,063 ,202 ,841 ,051 19,748

a. Dependent Variable: muc tieu thu xang (km/lit)

Bảng 13. Bảng Coecients

- Với mô hình hồi quy chuẩn hóa chúng ta cần chú ý ba giá trị là B, Beta, sig. - Đầu tiên là giá trị sig < 0.05 nghĩa là biến đó có ý nghĩa trong mô hình, ngược lại thì biến đó không có ý nghĩa với mô hình và cần được loại bỏ.

- Tiếp theo là hệ số hồi quy B và hệ số hồi quy chuẩn hóa Beta, trong tất cả các hệ số hồi quy, biến độc lập nào có Beta lớn nhất thì biến đó ảnh hưởng nhiều nhất đến sự thay đổi của biến phụ thuộc. Do đó khi đề xuất giải pháp, các nhà nghiên cứu nên chú trọng nhiều vào các nhân tố có Beta lớn. Nếu hệ số Beta âm nghĩa là biến đó tác động nghịch, hệ số Beta dương, biến đó tác động thuận. Khi so sánh thứ tự độ lớn, chúng ta xét giá trị tuyệt đối của hệ số Beta.Với mô hình này ta thấy biến khối lượng xe có ảnh hưởng nhiều nhất đến mức tiêu thu xăng.

- Như vậy với hệ số hồi quy B chúng ta có phương trình hồi quy tuyến tính là:

mức tiêu thụ xăng = -0,046*công suất động cơ -0,009*khối lượng xe +0.244*số máy +0.178*dung tích động cơ.

+ Đồ thị:

Hình 29. Đồ thị Histogram

Hình 31. Đồ thị Scatter Plot

- Trong đó đồ thị Histogram và đồ thị Normal P-P Plot dùng để đánh giá giả thiết phân phối chuẩn của phần dư có bị vi phạm hay không. Ở đồ thị Histogram, đường cong phân phối chuẩn đặt chồng lên biểu đồ tần số và có dạng hình chuông như vậy phân phối phần dư xấp xỉ chuẩn. Ở đồ thị Normal P-P Plot các điểm phân vị trong phân phối phần dư tập chung thành một đường chéo do đó không vi phạm giả định hồi quy về phân phối chuẩn của phần dư.

- Ở đồ thị Scatter Plot với giá trị trục Y và X như đã chọn ban đầu thì trục hoành sẽ biểu thị giá trị phần dư chuẩn hóa (Standardized Residual) và trục tung sẽ biểu thị giá trị dự đoán chuẩn hóa (Predicted Value). Dựa vào đồ thị các điểm phân bố của phần dư nếu không tạo thành dạng đường thẳng thì đã vi phạm giả định liên hệ tuyến tính và ngược lại.

2.8. Biểu đồ

Trong các phân tích số liệu thì đồ thị là một phần quan trọng để thể hiện kết quả phân tích. Phần mềm SPSS cũng cung cấp công cụ vẽ đồ thị rất đa dạng gồm nhiều

loại đồ thì như: dạng cột, đường, tròn, miền,… Các chức năng cơ bản được trình bày trong khóa luận ở trên cũng đã lưu ý vẽ thêm đồ thị cho một số phép phân tích. Ngoài ra chức năng vẽ đồ thị được SPSS cung cấp trong Menu Graphs Chart Builder.

CHƯƠNG 2. SỬ DỤNG PHẦN MỀM R

1. Giới thiệu phần mềm R

1.1. Lịch sử hình thành và phát triển

Phần mềm R là một ngôn ngữ lập trình, ngôn ngữ trên R có nét giống với ngôn ngữ lập trình C. Phần mềm R có nguồn gốc từ phần mềm S dùng cho phân tích và quản lý dữ liệu. Phần mềm S được các nhà khoa học RA Becker, JM chambers và A Wilks phát triển phiên bản S2 vào năm 1988. Phiên bản này chỉ được sử dụng trong viện nghiên cứu Bell Labs là một trung tâm nghiên cứu về công nghệ và khoa học rất quan trọng của Hoa Kỳ. JM chambers và TJ Hastie tiếp tục phát triển phiên bản S3 vào năm 1992. Đến năm 1998 JM chambers đã biến phần mềm S thành một phần mềm có thể thương mại hóa với bản phần mềm S4. S là một phần mềm khá phức tạp và được thiết kế cho những chuyên gia về thống kê. Vì vậy S không quá phổ biến trên thị trường.[14]

Vào thập niên 1990s, hai nhà thống kê học là Ross Ihaka và Robert Gentleman thuộc Đại học Auckland, New Zealand đã viết lại phần mềm S thành một phần mềm miễn phí để cộng đồng thống kê sử dụng là R. Đến năm 1997, lúc này R đã rất nổi tiếng, một nhóm gồm 15 thành viên được thành lập để đứng ra quản lý và duy trì phần mềm này gọi là “R-core”. Từ đó R ngày càng nổi tiếng và phát triển cho đến tận ngày nay.[14]

Phần mềm R được xem là một trong những phát triển lớn nhất của khoa học thống kê trong vài năm gần đây. Gần đây có nhiều phương pháp phân tích dữ liệu mới được các chuyên gia thống kê phát triển nhưng để phổ biến phương pháp đó cho mọi người là rất khó. Do đó R là một công cụ tuyệt vời để lập trình và chia sẻ các phương pháp thống kê mới một cách nhanh chóng. Phần mềm R có thể xem như một cuộc cách mạng trong khoa học thống kê. Không những thế, R còn là một phần mềm hoàn toàn miễn phí và đã được sử dụng rộng rãi trên thế giới. Việc sử dụng R sẽ tiết kiệm một khoản tiền rất lớn cho các công ty, tổ chức, các trường đại học, các nhà nghiên cứu,…[14]

1.2. Khả năng của R

R là một ngôn ngữ phân tích thống kê, không phải là một hệ thống các phân tích được tích hợp sẵn như SPSS. Khả năng của R:

+ Phần mềm R có thể thực hiện tất cả các mô hình thống kê phân tích với rất nhiều gói packages được phát triển bởi các chuyên gia thống kê đã được kiểm định kỹ lưỡng.

+ Mô phỏng (simulation): cho phép tính toán các mô hình thống kê không xử lý được bằng các phương pháp toán học thông thường.

+ Phần mềm R có khả năng mô phỏng đồ thị, biểu đồ rất tốt. R không chỉ vẽ được những biểu đồ mô phỏng số liệu đơn giản mà còn có thể vẽ các bản đồ phức tạp như bản đồ địa hình hay quốc gia.

+ R cho phép người dùng tự lập trình một phương pháp phân tích mới phù hợp với nhu cầu.

+ R có thể sử dụng như một máy tính cầm tay với các phép tính thông thường rất dễ dàng. Khả năng tính toán của R cũng rất tốt, có thể xử lý nhiều phép tính phức tạp mà máy tính bỏ túi không giải quyết được. Các phép tính và các hàm tính toán trong R rất giống với Excel nên có thể sử dụng dễ dàng.

1.3. Giao diện

Phần mềm R có giao diện sử dụng tương đối xa lạ với người dùng bình thường và các nhà nghiên cứu không am hiểu về lập trình.

Trong đó:

1 - Khu vực các lệnh cơ bản. 2 - Khu vực làm việc chính.

R là một công cụ miễn phí và dần dần được sử dụng rộng rãi. Nhưng cũng như các ngôn ngữ khác, chúng ta có các chương trình phụ trợ cho R, gọi là IDE, Integrated Development Environment: Môi trường Phát triển Tích hợp tạo nên một giao diện thân thiện hơn, dễ dùng hơn trong khi làm việc với R. RStudio là một trong số đó và là một phần mềm “bán thương mại”. RStudio cung cấp bản miễn phí cho người dùng sử dụng song song với R để làm việc dễ dàng hơn. Cùng với đó là bản trả phí dùng trong các công ty, doanh nghiệp,… với khả năng chia sẻ và bảo mật thông tin. Để sử dụng được RStudio thì cần tải và cài đặt cả RStudio và phần mềm R. Cốt lõi sức mạnh của RStudio là phần mềm R nên có thể nói ngoài thêm vào các chức năng hỗ trợ thì

RStudio còn có thể sử dụng toàn bộ các chức năng của R.

Sau khi tải và cài đặt thì giao diện sử dụng của RStudio như sau:

Hình 34. Giao diện sử dụng của RStudio

Trong đó:

+ Vùng 1 – thanh công cụ.

+ Vùng 2 – cửa sổ hiển thị dữ liệu của các dataset đã nhập vào R.

+ Vùng 3 – cửa sổ Console hiển thị các lệnh, đây chính là cửa sổ làm việc của phần mềm R có khả năng nhập và thực hiện các lệnh hoàn toàn tương đồng với R.

+ Vùng 4 – cửa số hiển thị tất cả các biến, các dataset đã nhập vào R và lịch sử các lệnh đã nhập. Trong đó cửa sổ Environment hiển thị các biến và các dataset, có thể nhấp vào để hiển thị dữ liệu đó trên Vùng 2. Ở cửa sổ History, RStudio sẽ hiển thị tất cả các lệnh đã nhập vào Vùng 3 Console, nhấp đúp vào lệnh sẽ chuyển lệnh đó vào Vùng 3 Console rất tiện lợi khi nhập các lệnh tương tự nhau.

+ Vùng 5 – cửa số hiển thị các file trên máy tính (cửa sổ File), các đồ thị được vẽ từ R (cửa sổ Plots) và trình quản lý packages (cửa sổ Packages).

Cửa sổ của các vùng có thể phóng to, thu nhỏ, điều chỉnh kích thước linh hoạt nhằm tiện cho việc quan sát kết quả khi làm việc.

RStudio cung cấp nhiều chức năng hỗ trợ cho R như tự động đọc file, không gian hiển thị rõ ràng thân thiện hơn, cài và quản lý các gói packages dễ dàng hơn. Ngoài ra RStudio còn cung cấp nhiều công cụ hỗ trợ khác và toàn bộ các chức năng mà R có. Do đó, trong khóa luận này chúng tôi sẽ sử dụng RStudio để hướng dẫn các chức năng của R. Các lệnh nhập vào cửa sổ Console của RStudio có thể nhập trực tiếp vào R với kết quả tương đương.

1.4. Dẫn nhập

Làm việc với R có chút khác biệt so với các phần mềm office thường sử dụng. Trước tiên muốn đọc dữ liệu, lưu dữ liệu hay bất cứ thao tác nào liên hệ giữa R với máy tính thì R cần được biết thư mục đang làm việc ở đâu. Từ đó sinh ra khái niệm về Workspace là môi trường mà chúng ta đang làm việc và xử lý trên R. Các lệnh cơ bản để thao tác với Workspace như sau:

+ getwd(): xem folder đang làm việc trên R.

+ getwd(“d:/R/dulieu”): đổi folder làm việc, lưu ý folder phải được đặt trong dấu nháy kép. Và R sử dụng dấu “/” trong các đường dẫn thay vì dấu “\”.

+ savehistory(file=“dulieuchaythu”): lưu trữ tất cả các lệnh đã sử dụng trong Workspace tại file “dulieuchaythu” trong folder đang làm việc.

+ loadhistory(file=“dulieuchaythu”): mở lại các lệnh đã lưu trong file “dulieuchaythu” để tiếp tục làm việc.

Tất cả dữ liệu trong quá trình tính toán trên R được lưu trữ trong các object. Mỗi object phải có tên được đặt bằng các ký tự viết thường, viết hoa, chữ số hay các ký hiệu như “.” và “_”. Lưu ý tên object phải được viết liền không dấu và R sẽ phân biệt

chữ viết hoa với chữ viết thường. VD: Thanh, thanh, THANH là 3 object khác nhau trong R.

Để đưa bất kỳ một đối tượng nào vào R, ta đều phải đặt nó vào trong một object để lưu trữ và R sẽ truy cập khi tính toán. Để dẫn nhập đối tượng vào R ta dùng ký hiệu “=” hoặc “<-”.

Một phần của tài liệu Khóa luận Sử dụng phần mềm xử lý số liệu SPSS và R trong nghiên cứu về khoa học giảng dạy Vật lý (Trang 46 - 65)

Tải bản đầy đủ (PDF)

(109 trang)