Hồi quy phi tuyến đa biến Hồi quy phi tuyến đa biến với dữ liệu thực tế với dữ liệu thực tế tùy chọn về/của Việt Nam tùy chọn về/của Việt Nam a.

Một phần của tài liệu PHÂN TÍCH dữ LIỆU KINH DOANH đề tài báo cáo LAB 3 (Trang 65 - 74)

 Báo cáo Lab 3 – Nhóm 14  

5.

5.   Hồi quy phi tuyến đa biến Hồi quy phi tuyến đa biến với dữ liệu thực tế với dữ liệu thực tế tùy chọn về/của Việt Nam.tùy chọn về/của Việt Nam.a. a.

a.   Phát biểu chungPhát biểu chung

Cho đến giờ ta mặc định hàm hồi quy là tuyến tính, nghĩa là tham số nghiêng Cho đến giờ ta mặc định hàm hồi quy là tuyến tính, nghĩa là tham số nghiêng của hàm hồi quy là hằng số. Điều này hàm ý, ảnh hưởng lên YY của một đơn vị thay của hàm hồi quy là hằng số. Điều này hàm ý, ảnh hưởng lên YY của một đơn vị thay đổi của XX kh

đổi của XX không phụ thuộc vào giá trị của XX. Nếu ảnh hưởng này thật sự phụ thuộcông phụ thuộc vào giá trị của XX. Nếu ảnh hưởng này thật sự phụ thuộc vào giá trị của XX, ta c

vào giá trị của XX, ta cần phải sử dụng hàm hồi quy phi tuyến.ần phải sử dụng hàm hồi quy phi tuyến.

●  Mô tả bài tốn:Mơ tả bài tốn:

Ai sinh ra trên đời cũng đều c

Ai sinh ra trên đời cũng đều có riêng cho mình những mục đích ó riêng cho mình những mục đích sống khác nhau,sống khác nhau, nhưng dù là mục đích, lý tưởng gì thì chúng ta đều cần có sức khỏe mới thực hiện nhưng dù là mục đích, lý tưởng gì thì chúng ta đều cần có sức khỏe mới thực hiện được. Đó là lý do vì sao chúng ta có thể nói sức khỏe là quan trọng nhất đối với cuộc được. Đó là lý do vì sao chúng ta có thể nói sức khỏe là quan trọng nhất đối với cuộc sống mỗi người.

sống mỗi người.

Đặc biệt không chỉ thế giới mà chính đất nước chúng ta cũng đã trải qua một Đặc biệt khơng chỉ thế giới mà chính đất nước chúng ta cũng đã trải qua một cuộc đại dịch kéo dài n

cuộc đại dịch kéo dài nhiều năm từ trước đến nay. Có thiều năm từ trước đến nay. Có thể thấy được là tầm quan hể thấy được là tầm quan trọngtrọng của đội ngũ y tế cũng như cơ sở vật chất khi điều trị cho một số lượng bệnh nhân lớn của đội ngũ y tế cũng như cơ sở vật chất khi điều trị cho một số lượng bệnh nhân lớn vào những ngày thường. Và trong lúc đại dịch vừa qua số lượng giường bệnh và đội vào những ngày thường. Và trong lúc đại dịch vừa qua số lượng giường bệnh và đội ngũ y tế không đủ để chữa trị cho bệnh nhân. Cũng vì nếu khơng có đủ số lượng đội ngũ y tế không đủ để chữa trị cho bệnh nhân. Cũng vì nếu khơng có đủ số lượng đội ngũ thì sẽ khơng thể nhiều số lượng giường bệnh để chăm sóc cho bệnh nhân. Cho ngũ thì sẽ khơng thể nhiều số lượng giường bệnh để chăm sóc cho bệnh nhân. Cho nên, nhóm đã chọn dữ liệu số bác sĩ, y sĩ và giường bệnh của tổng cộng và từng tỉnh nên, nhóm đã chọn dữ liệu số bác sĩ, y sĩ và giường bệnh của tổng cộng và từng tỉnh thành của Việt Nam vào năm 2014.

thành của Việt Nam vào năm 2014.

Phát biểu bài toán: Với độ tin cậy là 95% có thể tìm ra mối quan hệ giữa số Phát biểu bài toán: Với độ tin cậy là 95% có thể tìm ra mối quan hệ giữa số giường bệnh với số bác sĩ cũng n

giường bệnh với số bác sĩ cũng như y sĩ của bệnh viện được hư y sĩ của bệnh viện được hay không? Dữ liệu đượchay khơng? Dữ liệu được trình bày ở dưới:

 Hình 54: Dữ liệu  Hình 54: Dữ liệu

●   Trong đó:Trong đó:

--  

Số giường bệnh của bệnh viện phụ thuộc Số giường bệnh của bệnh viện phụ thuộc vào:vào:

●   Bác sĩBác sĩ

●   Y sĩY sĩ

⇨⇨  Biến độc lập: Bác sĩ, Y sĩ.Biến độc lập: Bác sĩ, Y sĩ.

⇨⇨  Biến phụ thuộc: Số giường bệnh.Biến phụ thuộc: Số giường bệnh.

--   Yêu cầu bài toán: Mức Yêu cầu bài toán: Mức độ ảnh hưởng của số lượng bác sĩ và độ ảnh hưởng của số lượng bác sĩ và y sĩ của bệnh viện đếny sĩ của bệnh viện đến số lượng giường bệnh.

số lượng giường bệnh.

--   Mơ hình hồi quy mẫu:Mơ hình hồi quy mẫu:

ℎ

ℎ = =  + +   +  +   

--   Với độ tin cậy 95% nên có mức ý nghĩaVới độ tin cậy 95% nên có mức ý nghĩa ∝ ∝ == 0.0.0505  

--   Giả thuyếtGiả thuyết :: Mơ hình hồi quy phi tuyến khơng phù hợp.Mơ hình hồi quy phi tuyến khơng phù hợp.

 Báo cáo Lab 3 – Nhóm 14  Báo cáo Lab 3 – Nhóm 14  

b. Thực hiện phép tính Hồi quy phi tuyến đa biến trên MS Excel

b. Thực hiện phép tính Hồi quy phi tuyến đa biến trên MS Excel  

-Bước 1 :

-Bước 1 :  Từ dữ liệu về y Từ dữ liệu về y tế của Việt Nam năm 2014, tế của Việt Nam năm 2014, ta tiến hành tính gta tiến hành tính giá trị ln()iá trị ln() cho các biến độc lập

cho các biến độc lập BacSi, Ysi bằng hàm log() để BacSi, Ysi bằng hàm log() để thể hiện logarithm.- Bước 2:thể hiện logarithm.- Bước 2: Chọn Data -> Data analyst. Tiếp đó chọn Regression. Nhập các giá trị X, Y đầu Chọn Data -> Data analyst. Tiếp đó chọn Regression. Nhập các giá trị X, Y đầu vào và vị trí hiện đáp án như sau.

vào và vị trí hiện đáp án như sau.

 Hình 55: Cách nhập dữ liệu vào Excel  Hình 55: Cách nhập dữ liệu vào Excel

 Báo cáo Lab 3 – Nhóm 14  Báo cáo Lab 3 – Nhóm 14  

●  R square R square = 0.5813 = 0.5813 => => Có 58,13% Có 58,13% dữ liệu dữ liệu phù hợp phù hợp với mơ với mơ hìnhhình

●  R square Adjusted = 0,5689 R square Adjusted = 0,5689 => => R square > 50% nghiên cứu R square > 50% nghiên cứu được đánh giá tốt.được đánh giá tốt.

●  Vì giá trị p-Value = 0.038 < 0.05 và Vì giá trị p-Value = 0.038 < 0.05 và giá trị p-Value = 0.0456 < 0.05 . giá trị p-Value = 0.0456 < 0.05 . Nên mơNên mơ hình hồi quy phù hợp với tổng thể.

hình hồi quy phù hợp với tổng thể.

●  Ta có mơ hình:Ta có mơ hình:

GiuongBenh = -162565 + 12576*ln(BacSi) + 12528*ln(YSi) GiuongBenh = -162565 + 12576*ln(BacSi) + 12528*ln(YSi)

●   Kết luận:Kết luận:

Có đủ bằng chứng để kết luận hàm

Có đủ bằng chứng để kết luận hàm hồi quy phi tuyến phù hợp hay có hai biếnhồi quy phi tuyến phù hợp hay có hai biến độc lập tác động đến biến phụ thuộc Y (Số giường bệnh).

độc lập tác động đến biến phụ thuộc Y (Số giường bệnh).

●   Mối quan hệ giữa Bác sĩ và Mối quan hệ giữa Bác sĩ và giường bệnhgiường bệnh

 Hình 57: Mối quan hệ giữa bác sĩ và giường bệnh  Hình 57: Mối quan hệ giữa bác sĩ và giường bệnh

●    Nhận xét: Khi số lượng bác sĩ tăng lên số giường bệnh cũng tăng theo nên mối Nhận xét: Khi số lượng bác sĩ tăng lên số giường bệnh cũng tăng theo nên mối quan hệ giữa hai thuộc tính là đồng biến, tức là hệ số được dự đoán của số giường quan hệ giữa hai thuộc tính là đồng biến, tức là hệ số được dự đoán của số giường  bệnh mang giá trị dương.

 Báo cáo Lab 3 – Nhóm 14  Báo cáo Lab 3 – Nhóm 14  

●   Mối quan hệ giữa Bác sĩ và Mối quan hệ giữa Bác sĩ và giường bệnhgiường bệnh

 Hình 58: Mối quan hệ giữa y sĩ và giường bệnh  Hình 58: Mối quan hệ giữa y sĩ và giường bệnh

●    Nhận xét: Khi số lượng y sĩ tăng lên số giường bệnh cũng tăng t Nhận xét: Khi số lượng y sĩ tăng lên số giường bệnh cũng tăng theo nên mối quanheo nên mối quan hệ giữa hai thuộc tính là đồng biến, tức là

hệ giữa hai thuộc tính là đồng biến, tức là hệ số được dự đoán của số hệ số được dự đoán của số giường bệnhgiường bệnh mang giá trị dương.

mang giá trị dương.   Kiểm định fisher  Kiểm định fisher   

--   Với mức ý nghĩa 5%, kiểm đinh ý Với mức ý nghĩa 5%, kiểm đinh ý nghĩa thống kê của các tham nghĩa thống kê của các tham số hồi quy trongsố hồi quy trong mơ hình.

mơ hình.

   Giả thuyết:Giả thuyết:

   HH: β: β  == 00     HH: β: β  ≠≠ 00      HH: β: β  ≠≠ 00      Trị giới hạn Trị giới hạnαα   df df    =n−(k+1)=n−(k+1)   0.05 68 0.05 68    tt..

 , ,  = 1.9955 trong bảng phân phối Student = 1.9955 trong bảng phân phối Student

  Ta kiểm tra bằng excel thông qua hàm T.INV(Ta kiểm tra bằng excel thông qua hàm T.INV(

 , , n−(n−(k+k+ 11))))

Hình 16: Tìm T.INV Hình 16: Tìm T.INV

   Trị thống kê:Trị thống kê: Coefficients Standard Coefficients Standard Error Error t-stat p-value t-stat p-value BacSi BacSi 12576.02998 12576.02998 5940.571333 5940.571333 2.116973146 2.116973146 0.03792340.0379234 YSi YSi 12527.92038 12527.92038 6151.036997 6151.036997 2.036716798 2.036716798 0.0455743570.045574357    Quy tắc bác bỏQuy tắc bác bỏ HH ::

   Cách 1:Cách 1: tt và t và t nằm ngoài khoảng (−1.9 nằm ngoài khoảng (−1.9955,955,1.99551.9955)) nên bác nên bác bỏ  bỏ

 bỏ HH  

   Cách 2: p-value < 0.05 nên chấp Cách 2: p-value < 0.05 nên chấp nhậnnhận HH  

   Kết luận:Kết luận:

   Có đủ bằng chứng để kết luận BacCó đủ bằng chứng để kết luận BacSi và Ysi có ảnh Si và Ysi có ảnh hưởng đến sốhưởng đến số GiuongBenh với mức ý nghĩa

GiuongBenh với mức ý nghĩa α=0.05α=0.05  

--   Khoảng ước lượng của các tham Khoảng ước lượng của các tham số hồi quy trong mơ hìnhsố hồi quy trong mơ hình

   BacSi:BacSi:ββ ∈( 12576.02998 ±1.9955∗∈( 12576.02998 ±1.9955∗ 5940.571333)5940.571333)  

  Khoảng tin cậy 721.62 <Khoảng tin cậy 721.62 < β β < 24430.4< 24430.4

   Score:Score: ββ ∈( 12527.92038 ± 1.9955∗∈( 12527.92038 ± 1.9955∗ 6151.036997)6151.036997)  

  Khoảng Khoảng tin tin cậy cậy 253.53<253.53< β β <24802.31<24802.31

   Kết luận:Kết luận:

   Khi biến BacSi hoặc YSi tăng thì GiuongBenh cũng tăng.Khi biến BacSi hoặc YSi tăng thì GiuongBenh cũng tăng.

--   Với mức ý nghĩa 0.05, mơ hình có Với mức ý nghĩa 0.05, mơ hình có phù hợp hay khơng?phù hợp hay khơng?

   Đặt giả thuyết:Đặt giả thuyết:

   HH: β: β = = ββ == 00((RR == 00)): hệ số của số năm : hệ số của số năm kinh nghiệm, điểm thikinh nghiệm, điểm thi đánh giá khơng giải thích cho biến lương.

đánh giá khơng giải thích cho biến lương.

   HH: β: β + + ββ ≠≠ 0 0 ((RR ≠≠ 0)0): hệ số của số năm : hệ số của số năm kinh nghiệm, điểm thikinh nghiệm, điểm thi đánh giá giải thích cho biến lương.

đánh giá giải thích cho biến lương.

   Trị giới hạn:Trị giới hạn: αα    df df  == kk    df df  =n−(k+1)=n−(k+1)    0.05 0.05 2 2 6868 

  FF., , ., ,  = 3.13 trong bảng phân phối F. = 3.13 trong bảng phân phối F.

  Ta kiểm tra bằng excel thông qua hàm F.INV(1 -Ta kiểm tra bằng excel thông qua hàm F.INV(1 - α α ,k,k,n,n −−((kk ++ 11)) = = 3.13

3.13

Hình 17: Tra F thơng qua excel Hình 17: Tra F thơng qua excel

 Báo cáo Lab 3 – Nhóm 14  Báo cáo Lab 3 – Nhóm 14  

   Trị thống kê:Trị thống kê:    FF ==  == .... =47.206=47.206    Quy tắc bác bỏQuy tắc bác bỏ HH::    Cách 1:Cách 1: FF > > FF., , ., ,  nên bác bỏ nên bác bỏ HH      Cách 2: p-value < 0.05 nên chấp Cách 2: p-value < 0.05 nên chấp nhậnnhận HH      Kết luận:Kết luận:

   Có đủ bằng chứng để kết luận hàm Có đủ bằng chứng để kết luận hàm hồi quy mẫu phù hợp hay có íthồi quy mẫu phù hợp hay có ít nhất một biến độc lập tác động đến biến phụ thuộc GiuongBenh. nhất một biến độc lập tác động đến biến phụ thuộc GiuongBenh.

c.

c.   Thực hiện phép tính Hồi quy phi tuyến đa biến trên R.Thực hiện phép tính Hồi quy phi tuyến đa biến trên R.

Một cách khác để quy

Một cách khác để quy cách hàm số phi tuyến cách hàm số phi tuyến là dùng hàm logarithm lên biếnlà dùng hàm logarithm lên biến Y/(và)X.

Y/(và)X.

●   Trường hợp 1Trường hợp 1: Logarithm X, mơ hình trở thành:: Logarithm X, mơ hình trở thành:

o

 Hình 59: Kết quả mơ hình hồi quy dạng Logarithm  Hình 59: Kết quả mơ hình hồi quy dạng Logarithm

o

o   R square = 0.5813 => Có 58,13% dữ liệu phR square = 0.5813 => Có 58,13% dữ liệu phù hợp với mơ hìnhù hợp với mơ hình

o

o   R square Adjusted = 0,569 => R sR square Adjusted = 0,569 => R square > 50% nghiên cứu được đánquare > 50% nghiên cứu được đánhh giá tốt.

giá tốt.

o o

   Vì giá trị p-Value = 0.0379 < 0.05 và giá trị p-Value = 0.0356 <Vì giá trị p-Value = 0.0379 < 0.05 và giá trị p-Value = 0.0356 < 0.05 =>

0.05 => Từ chối HTừ chối H00.. Nên mơ hình  Nên mơ hình hồi quy phi tuyến hồi quy phi tuyến phù hợp vớiphù hợp với tổng thể.

tổng thể.

o

o   Dựa vào bảng kết quảDựa vào bảng kết quả CoefficientsCoefficients

o

o   Ta có mỗi Model đều có sig < 0.05. Nên ta chấp nhận tất cả các model.Ta có mỗi Model đều có sig < 0.05. Nên ta chấp nhận tất cả các model.

▪▪   Ta có mơ hình:Ta có mơ hình:

GiuongBenh = -162565 + 12576*ln(BacSi) + 12528*ln(YSi) GiuongBenh = -162565 + 12576*ln(BacSi) + 12528*ln(YSi)

⇨⇨  Kết luận: Chỉ cần tăng thêm 1 Kết luận: Chỉ cần tăng thêm 1 bác sĩ và y sĩ sẽ bác sĩ và y sĩ sẽ tăng được trung bìnhtăng được trung bình 12551 giường bệnh.

12551 giường bệnh.

 Báo cáo Lab 3 – Nhóm 14  Báo cáo Lab 3 – Nhóm 14  

 Hình 60: Kết quả mơ hình hồi quy dạng Logarithm dạng 2  Hình 60: Kết quả mơ hình hồi quy dạng Logarithm dạng 2

o

o   R square = 0.5752 => Có 57,52% dữ liệu phù R square = 0.5752 => Có 57,52% dữ liệu phù hợp với mơ hìnhhợp với mơ hình

o

o   R square Adjusted = 0,5627 => R square R square Adjusted = 0,5627 => R square > 50% nghiên cứu được đánh> 50% nghiên cứu được đánh giá tốt.

giá tốt.

o

o   Vì giá trị p-Value = 0.00775 < 0.05 và giá Vì giá trị p-Value = 0.00775 < 0.05 và giá trị p-Value = 0.22033trị p-Value = 0.22033 < 0.05 =>

< 0.05 => Từ chối HTừ chối H00..   Nên Nên mô mơ hình hình hồi hồi quy quy phi phi tuyến tuyến phù phù hợphợp với tổng thể.

với tổng thể.

o

o   Dựa vào bảng kết quảDựa vào bảng kết quả CoefficientsCoefficients

▪   Ta có mỗi Model đều có sig < 0.05. Nên ta chấp nhận tất cả cácTa có mỗi Model đều có sig < 0.05. Nên ta chấp nhận tất cả các

Một phần của tài liệu PHÂN TÍCH dữ LIỆU KINH DOANH đề tài báo cáo LAB 3 (Trang 65 - 74)