PHẦN CHUNG
Hồi quy tuyến tính bội
Bài tập 1 Tập tin "gia_nha.csv" chứa thông tin về giá bán ra thị trường (đơn vị đôla) của
21613 ngôi nhà ở quận King nước Mỹ trong khoảng thời gian từ tháng 5/2014 đến 5/2015 Bên cạnh giá nhà, dữ liệu còn bao gồm các thuộc tính mô tả chất lượng ngôi nhà.
Dữ liệu gốc được cung cấp tại: https://www.kaggle.com/ harlfoxem/housesalesprediction price: Giá nhà được bán ra. sqft_living15: Diện tích trung bình của 15 ngôi nhà gần nhất trong khu dân cư. floors: Số tầng của ngôi nhà được phân loại từ 1 - 3.5. condition: Điều kiện kiến trúc của ngôi nhà từ 1 - 5, 1: rất tệ và 5: rất tốt. sqft_above: Diện tích ngôi nhà. sqft_living: Diện tích khuôn viên nhà.
1.2.1 Tổng quan về mô hình hồi quy tuyến tính bội
“Hồi quy tuyến tính bội” là mô hình với một biến phụ thuộc với hai hoặc nhiều biến độc lập: = 0 + 1 1 + 2 2 + ⋯ ++
Trong đó: + : Biến phụ thuộc
+ 1 : Hệ số tự do (Hệ số chặn)
+ : Hệ số hồi quy riêng
Giảng viên hướng dẫn: Nguyễn Bá Thi
Bài tập lớn Xác suất Thống kê nhóm 19 – lớp L14
1.2.2 Một số hàm hồi quy tuyến tính
1.2.2.1 Hàm hồi quy tổng thể (PRF – Population Regression Function)
Hàm hồi quy tổng thể là hàm số thể hiện mối quan hệ giữa trung bình giữa biến phụ thuộc và biến độc lập, xác định trên toàn bộ tổng thể.
Giả thiết: + 2 , 3 , … , là biến độc lập
+ Y là biến ngẫu nhiên và có một phân phối xác suất cụ thể
⇒ Tồn tại ( | 2, 3 , … , ) = giá trị xác định
⇒ Do vậy, ( 2, 3, … , ) = ( | 2, 3, … , ) là hàm hồi quy tổng thể của Y theo 2, 3,
Với một cá thể I, tồn tại ( 2, , 3, , … , , , )
Vậy hàm hồi quy tông thể PRF có dạng: Y = E(Y|X) + U
1.2.2.2 Hàm hồi quy mẫu (SRF - Sample Regression Function)
Hàm hồi quy mẫu là hàm số thể hiện mối quan hệ giữa trung bình giữa biến phụ thuộc và biến độc lập, xác định trên toàn bộ mẫu.
Ta xét trên một mẫu có n cá thể, gọi = ( 2 , 3 , … , ) là hồi quy mẫu Với một cá thể mẫu ≠ ( 2, , 3, , … , , , ) sinh ra − − ( 2 , 3 , … , ); gọi là phần dư SRF Ta có hàm hồi quy mẫu tổng quát được viết dưới dạng như sau:
Với là ước lượng của
Giả thiết là ước lượng không chệch của , hơn nữa phải là một ước lượng hiệu quả. Ước lượng SRF: chọn một phương pháp nào đó để ước lượng các tham số của
F qua việc tìm các tham số của F và lấy giá trị quan sát của các tham số này làm giá trị xấp xỉ cho tham số của F.
1.2.3 Các giả thiết của phương pháp bình phương nhỏ nhất cho mô hình hồi quy tuyến tính bội
Thứ nhất, hàm hồi quy là tuyến tính theo các tham số.
Hồi quy trên thực tế được miêu tả dưới dạng:
= 0 + 1 1 + 2 2 +⋯+ + hoặc mối quan hệ thực tế có thể được viết lại ví dụ như dưới dạng lấy loga cả hai vế Thứ hai, kỳ vọng của các yếu tố ngẫu nhiên
Trung bình tổng thể sai số là bằng 0 Điều này có nghĩa là có một số giá trị sai số mang dấu dương và một số sai số mang dấu âm Do hàm xem như là đường trung bình nên có thể giả định rằng các sai số ngẫu nhiên trên sẽ bị loại trừ nhau, ở mức trung bình, trong tổng thể.
Thứ ba, các sai số độc lập với nhau.
Thứ tư, các sai số có phương sai bằng nhau: tất cả giá trị u được phân phối giống nhau với cùng phương sai 2 , sao cho ( ) = ( 2 ) = 2
Thứ năm, các sai số có phân phối chuẩn: điều này rất quan trọng khi phát sinh khoảng tin cậy và thực hiện kiểm định giả thuyết trong những phạm vi mẫu là nhỏ Nhưng phạm vi mẫu lớn hơn, điều này trở nên không mấy quan trọng.
1.2.4 Độ phù hợp của mô hình
Giảng viên hướng dẫn: Nguyễn Bá Thi
Bài tập lớn Xác suất Thống kê nhóm 19 – lớp L14 Để có thể biết mô hình giải thích được như thế nào hay bao nhiêu % biến động của biến phụ thuộc, người ta sử dụng 2 , 2 đo tỷ lệ hay số % của toàn bộ sai lệch Y với giá trị trung bình được giải thích bằng mô hình Khi đó người ta sử dụng 2 để đo sự phù hợp của hàm hồi quy. Đặt: ∑( − ) 2 : TSS – Tổng số bình phương (Total Sum of Squares)
∑( − ) 2 : ESS – Giải thích tổng bình phương (Explained Sum of Squares)
∑ 2 : RSS – Tổng bình phương còn lại (Residual Sum of Squares) Từ∑ =0,
Từ TSS = ESS + RSS ta chia hai vế cho TSS
∑( − ) 2 + ∑( − ) 2 Ý nghĩa của các thành phần:
+ TSS là tổng bình phương của tất cả các sai lệch giữa các giá trị quan sát Yi và giá trị trung bình.
+ ESS là tổng bình phương của tất cả các sai lệch giữa các giá trị của biến phụ thuộc Y nhận được từ hàm hồi quy mẫu và giá trị trung bình của chúng Phần này đo độ chính xác của hàm hồi quy.
+ RSS là tổng bình phương của tất cả các sai lệch giữa các giá trị quan sát Y và các giá trị nhận được từ hàm hồi quy.
+ TSS được chia thành 2 phần: một phần do ESS và một phần do RSS gây ra. + 0≤ 2 ≤1
+ 2 cao nghĩa là mô hình ước lượng được giải thích được một mức độ cao biến động của biến phụ thuộc.
Giảng viên hướng dẫn: Nguyễn Bá Thi
+ Nếu 2 = 1, nghĩa là đường hồi quy giải thích 100% thay đổi của y.
+ Nếu 2 = 0, nghĩa là mô hình không đưa ra thông tin nào về sự thay đổi của biến phụ thuộc y.
1.2.5 Ước lượng khoảng tin cậy và kiểm định các hệ số hồi quy
1.2.5.1 Ước lượng khoảng và giá trị ước lượng khoảng Ước lượng phương sai sai số dựa vào các phần dư bình phương tối thiểu Trong đó k là số hệ số có trong phương trình hồi quy đa biến:
− 2 + Ước lượng 2 phía ta tìm được ( − ) thỏa mãn:
+ Khoảng tin cậy 1 − của là:
1.2.5.2.Kiểm định giả thiết đối với
Kiểm định rằng biến giải thích có thực sự ảnh hưởng đến biến phụ thuộc hay không Nói cách khác là hệ số hồi quy có ý nghĩa thống kê hay không Có thể đưa ra giả thiết nào đó đối với , chẳng hạn = ∗ Nếu giả thiết này đúng thì:
Bài tập lớn Xác suất Thống kê nhóm 19 – lớp L14
Kiểm định : Giả thuyết 0: = 0 ⇔ không tác động
Giả thuyết 1: ≠ 0 ⇔ có tác động
Ta có thể sử dụng giá trị P-value: P-value < mức ý nghĩa thì bác bỏ giả thiết 0.
1.2.6 Kiểm định mức độ ý nghĩa chung của mô hình (trường hợp đặc biệt của kiểm định WALD)
1.2.6.1 Khái quát về kiểm định WALD Đặt các mô hình giới hạn và không giới hạn là:
Mô hình (R) có được bằng cách bỏ bớt một số biến ở mô hình (U), đó là: +1,
Giả thuyết 1: “Không phải đồng thời các tham số bằng 0”
Trị thống kê kiểm định đối với giả thiết này là: (bác bỏ H0, chấp nhận H1)
Với 2 là số đo độ thích hợp không hiệu chỉnh Với giả thuyết không, có phân phối F với (k - m) bậc tự do đối với tử số và (n - k) bậc tự do đối với mẫu số.
Bác bỏ giả thuyết 0 khi: > ( , − , − ) hoặc giá trị P-value của thống kê F nhỏ hơn mức ý nghĩa cho trước.
1.2.6.2 Kiểm định ý nghĩa của mô hình Ứng dụng kiểm định Wald (thường được gọi là kiểm định F) được tiến hành cụ thể: Bước 1: Giả thuyết 0 : 2 = 3 = ⋯ = = 0
Giả thuyết 1: “có ít nhất một trong những giá trị β khác không”
Bước 2: Hồi quy Y theo một số hạng không đổi và 2, 3, … , ⇒ Tính tổng bình phương sai số RSSU , RSSR Phân phối F là tỷ số của hai biến ngẫu nhiên phân phối khi bình phương độc lập ⇒ trị thống kê:
Vì 0: 2= 3=⋯= = 0, nhận thấy rằng trị thống kê kiểm định đối với giả thuyết:
Bước 3: Tra số liệu trong bảng F tương ứng với bậc tự do (k - 1) cho tử số và (n
- k) cho mẫu số, và với mức ý nghĩa α cho trước.
Bước 4: Bác bỏ giả thuyết 0 ở mức ý nghĩa α nếu Fc > F(α, k - 1, n - k) ⇒ Tính giá trị p
= P (F > Fc |0) và bác bỏ giả thuyết0 nếu p bé hơn mức ý nghĩa α.
Giảng viên hướng dẫn: Nguyễn Bá Thi
Bài tập lớn Xác suất Thống kê nhóm 19 – lớp L14
1.3.1 Đọc dữ liệu (Import Data) Đọc dữ liệu “gia_nha.csv”.
Hình 1: Code R và kết quả khi đọc dữ liệu và xem 3 dòng đầu tiên của dữ liệu
(a) Tạo một dữ liệu con new_DF chỉ bao gồm các biến chính mà ta quan tâm
Hình 2: Code R và kết quả khi tạo một dữ liệu mới chỉ bao gồm các biến chính
(b) Kiểm tra các dữ liệu bị khuyết trong new_DF
Giảng viên hướng dẫn: Nguyễn Bá Thi
Hình 3: Code R và kết quả khi kiểm tra dữ liệu bị khuyết trong new_DF
Nhận xét: Nhìn vào kết quả khi kiểm tra dữ liệu bị khuyết trong new_DF, ta nhận thấy có 20 dữ liệu bị khuyết tại biến price Do lượng dữ liệu khuyết chiếm dưới 10% của dữ liệu, ta đưa ra phương pháp xử lí là xoá các quan sát chứa dữ liệu bị khuyết.
Hình 4: Code R khi xoá các quan sát chứa dữ liệu bị khuyết
Hình 5: Code R và kết quả khi kiểm tra lại còn dữ liệu bị khuyết hay không
Nhận xét: Ta nhận thấy sau khi xử lý, không còn dữ liệu khuyết.
1.3.3 Làm rõ dữ liệu (Data visualization)
ANOVA
Bài tập 3: Tập tin Diet.csv (cung cấp bởi Đại học Sheffield, Anh) chứa thông tin về một thử nghiệm về hiệu quả của các chế độ ăn kiêng trong việc giảm cân nặng đối với những người trưởng thành Một người tham gia sẽ được áp dụng một trong ba chếđộ ăn kiêng khác nhau trong vòng 6 tuần lễ Cân nặng của người tham gia sẽ đượcghi nhận trước và sau khi kết thúc thử nghiệm để đánh giá hiệu quả của từng chế độ ăn kiêng Chi tiết về bộ dữ liệu như sau:
• Tổng số người tham gia: 78.
1 Person = số thứ tự của người tham gia thử nghiệm
2 gender = giới tính của người tham gia (1 = nam, 0 = nữ)
5 pre.weight = cân nặng trước khi áp dụng chế độ ăn kiêng (kg)
6 Diet = chế độ ăn kiêng (3 chế độ khác nhau)
7 weight6weeks = cân nặng sau 6 tuần ăn kiêng
2.2.1 Phân tích phương sai một yếu tố
Phân tích phương sai một yếu tố (One-way ANOVA) là phân tích ảnh hưởng của một yếu tố nguyên nhân (dạng biến định tính) ảnh hưởng đến một yếu tố kết quả (dạng biến định lượng) đang nghiên cứu Ta đi vào lý thuyết như sau: a Trường hợp k tổng thể có phân phối bình thường và phương sai bằng nhau
Giảng viên hướng dẫn: Nguyễn Bá Thi
Bài tập lớn Xác suất Thống kê nhóm 19 – lớp L14
Giả sử rằng chúng ta muốn so sánh trung bình của k tổng thể dựa trên những mẫu ngẫu nhiên độc lập gồm 1 , 2 , … , quan sát từ k tổng thể này Ba giả định sau đây về các nhóm tổng thể được tiến hành phân tích ANOVA:
- Các tổng thể này có phân phối bình thường;
- Các phương sai tổng thể bằng nhau;
- Các quan sát được lấy mẫu là độc lập nhau.
Giả thuyết cho rằng trung bình của k tổng thể đầu bằng nhau: 0: 1 = 2 = ⋯ Và giả thuyết đối là: H1: Tồn tại ít nhất một cặp trung bình tổng thể khác nhau
Hai giả định đầu tiên để tiến hành phân tích phương sai được mô tả như hình dưới đây, ba tổng thể đều có phân phối bình thường với mức độ phân tán tương đối giống nhau, nhưng ba vị trí chênh lệch của chúng cho thấy ba trị trung bình khác nhau Rõ ràng là nếu thực sự có các giá trị của 3 tổng thể và biểu diễn được phân phối của chúng như hình dưới thì không cần phải làm gì nữa mà kết luận được ngay là bạn bác bỏ H0 hay 3 tổng thể này có trị trung bình khác nhau:
Nhưng chỉ có mẫu đại diện được quan sát, nên để kiểm định giả thuyết này, ta thực hiện các bước sau:
Bước 1: Tính các trung bình mẫu của các nhóm (xem như đại diện của các tổng thể). Tính trung bình mẫu của từng nhóm 1, ,2 … , theo công thức:
Giảng viên hướng dẫn: Nguyễn Bá Thi
Bước 2: Tính các tổng các chênh lệch bình phương ( hay gọi tắt là tổng bình phương)
Tính tổng các chênh lệch bình phương trong nội bộ nhóm SSW1 : được tính bằng cách cộng các chênh lệch bình phương giữa các giá trị quan sát với trung bình mẫu của từng nhóm, rồi sau đó lại tính tổng cộng kết quả tát cả các nhóm lại.
Tổng các chênh lệch bình phương của từng nhóm
Vậy tổng chênh lệch bình phương trong nội bộ nhóm:
Tổng các chênh lệch bình phương giữa các nhóm (SSG) được tính bằng cách cộng các chênh lệch được lấy bình phương giữa các trung bình mẫu của từng nhóm với trung bình chung của k nhóm:= ∑ =1 ∑ =1( − )
Tổng các chênh lệch bình phương toàn bộ SST được tính bằng cách cộng tổng các chênh lệch đã lấy bình phương giữa từng giá trị quan sát của toàn bộ mẫu nghiên cứu = ∑ ∑ ( − ) 2 (xij) với trung bình chung toàn bộ: =1
Bước 3: Tính các phương sai (là trung bình của các chênh lệch bình phương)
Tính phương sai trong nội bộ nhóm (MSW) bằng công thức: − c lượng phần biến thiên của yếu tố kết quả do các yếu tố khác gây ra (hay giải thích).
Bài tập lớn Xác suất Thống kê nhóm 19 – lớp L14
Tính phương sai giữ ằ ứ = MSG là ướ a các nhóm (MSG) b ng công th c: − c lượng phần biến thiên của yếu tố kết quả do yếu tố nguyên nhân đang nghiên cứu gây ra (hay giải thích được).
Bước 4: Kiểm định giả thuyết
Sự bằng nhau của k trung bình tổng thể được quyết định dựa trên tỉ số: Bác bỏ giả thuyết0 cho rằng trị trung bình của k tổng thể bằng nhau:
( − 1; − ); là giá trị giới hạn tra từ bảng tra số 8 với bậc tự do tra theo cột số k-1 và hàng n-k, nhớ chọn bảng có mức ý nghĩa phù hợp. b Kiểm tra các giả định của phân tích phương sai Để khảo sát giả định bằng nhau của phương sai, biểu đồ hộp và râu cũng cho cảm nhận ban đầu nhanh chóng:
Một phương pháp kiểm định tham số chắc chắn hơn cho giả định phương sai bằng nhau là kiểm định Levene về phương sai của các tổng thể:
Giả thuyết0 1 2 1: “Không phải tất cả các phương sai đều bằng nhau”
Giảng viên hướng dẫn: Nguyễn Bá Thi Để quyết định chấp nhận hay bác bỏ 0 ta tính toán giá trị kiểm định F theo công thức:
2là phương sai lớn nhất trong các nhóm nghiên cứu; là phương sai nhỏ nhất trong các nhóm nghiên cứu).
Giá trị F tính được được đem so sánh với giá trị ( ; ); tra được từ bảng phân phối Hartley Fmax (là bảng số 5 trong phần phụ lục) Trong đó k là số nhóm so sánh, bậc tự do tính theo công thức = − 1.
Quy tắc quyết định: > ( ; ); thì ta bác bỏ 0 cho rằng phương sai bằng nhau và ngược lại. c Phân tích sâu ANOVA
Sau khi phân tích và kết luận, có hai trường hợp xảy ra là chấp nhận giả thuyết 0 hoặc bác bỏ giả thuyết 0 Nếu chấp nhận giả thuyết 0 thì phân tích kết thúc Nếu bác bỏ giả thuyết 0, ta kết luận trung bình của các tổng thể không bằng nhau Vì vậy, vấn để tiếp theo là phân tích sâu hơn để xác định nhóm (tổng thể) nào khác nhóm nào, nhóm nào có trung bình lớn hơn hay nhỏ hơn.
Phương pháp thông dụng để phân tích sâu ANOVA đó là phương pháp Tukey - kiểm định HSD (Honestly Significant Differences) Nội dung: so sánh từng cặp các trung bình nhóm ở mức ý nghĩa α nào đó cho tất cả các cặp kiểm định có thể để phát hiện ra những nhóm khác nhau Công thức:
Giá trị giới hạn Turkey được tính theo công thức:
Bài tập lớn Xác suất Thống kê nhóm 19 – lớp L14
+ , , − là giá trị tra bảng phân phối kiểm định Tukey (Bảng tra số 9) ở mức ý nghĩa α, với bậc tự do k và n-k, với n là tổng số quan sát mẫu ( = ∑ ).
+ MSW là phương sai trong nội bộ nhóm.
+ là số quan sát trong 1 nhóm (tổng thể), trong trường hợp mỗi nhóm có số quan sát khác nhau, sử dụng giá trị nhỏ nhất.
2.2.2 Phân tích phương sai hai yếu tố
Phân tích phương sai hai yếu tố (TWO-Way ANOVA) sẽ giúp chúng ta đưa thêm yếu tố này vào trong phân tích, làm cho kết quả nghiên cứu cũng có giá trị. a Trường hợp có một quan sát mẫu trong một ô: nếu chúng ra chỉ có 1 mẫu quan sát trong 1 ô thì tổng số đơn vị mẫu quan sát là = × (sắp xếp mẫu nghiên cứu là K nhóm và H nhóm) Dạng tổng quát của bảng này như sau:
H x1H x2H … xKH Để thực hiện (1) kiểm định giả thuyết cho rằng trung bình K tổng thể tương ứng với K nhóm mẫu là bằng nhau, và (2) kiểm định giả thuyết cho rằng trung bình củaH tổng thể tương ứng với H khối mẫu là bằng nhau, ta thực hiện các bước sau:
Bước 1: Tính các trung bình
: Trung bình của riêng từng nhóm – group (cột)
Trung bình riêng cho từng khối - block (dòng): ∑ =1
Trung bình chung của toàn bộ mẫu:
= = Bước 2: Tính tổng các chênh lệch bình phương
Tổng các chênh lệch bình phương toàn bộ:
SST phản ánh biến thiên của yếu tố định lượng kết quả đang nghiên cứu do ảnh hưởng của tất cả các nguyên nhân.
Tổng các chênh lệch bình phương giữa các nhóm:
PHẦN RIÊNG
Giới thiệu đề tài
Tập tin “dataset_Facebook.csv” chứa dữ liệu liên quan đến các bài đăng được xuất bản trong năm 2014 trên trang Facebook của một thương hiệu mỹ phẩm nổi tiếng Nó đến từ Kho lưu trữ máy học của UCI Liên kết được đưa ra dưới đây: https://archive.ics.uci.edu/ml/datasets/Facebook+metrics
Bộ dữ liệu này chứa 500 trong số 790 hàng (bài đăng) và một phần các tính năng được phân tích bởi Moro et al (2016) Phần còn lại đã bị bỏ qua do vấn đề bảo mật Tập gồm 7 tính năng đã biết trước khi xuất bản bài đăng và 12 tính năng để đánh giá tác động của bài đăng:
- Page_total_likes: Tổng lượt thích trang
- Type: Kiểu, loại hình (1=Link, 2=Video, 3=Photo, 4=Status)
- Post_Weekday: Ngày trong tuần đăng
- Lifetime_Post_Total_Reach: Tổng lượt tiếp cận bài đăng trọn đời
- Lifetime_Post_Total_Impressions: Tổng lần hiển thị bài đăng trọn đời
- Lifetime_Engaged_Users: Số người tương tác trọn đời
- Lifetime_Post_Consumers: Số người click, người tiêu dùng trọn đời
- Lifetime_Post_Consumptions: Số lần click, tiêu thụ bài đăng trọn đời
- Lifetime_Post_Impressions_by_people_who_have_liked_your_Page: Số lần hiển thị bài đăng trọn đời với người thích Trang
- Lifetime_Post_reach_by_people_who_like_your_Page: Số lượt bài đăng trọn đời tiếp cận với người thích Trang
- Lifetime_People_who_have_liked_your_Page_and_engaged_with_yo ur_post: Số người thích Trang tương tác bài đăng trọn đời
- Total_Interactions: Tổng lượng tương tác
Giảng viên hướng dẫn: Nguyễn Bá Thi
Cơ sở lý thuyết
Nói đến thống kê mô tả là nói đến việc mô tả dữ liệu bằng các phép tính và chỉ số thống kê như số trung bình (mean), số trung vị (median), số lớn nhất (max), số nhỏ nhất (min), phương sai (variance), độ lệch chuẩn (standard deviation) … Trong đó, ta làm quen các định nghĩa:
2.1.1 Trung bình cộng: trung bình cộng trong thống kê là đại lượng mô tả thống kê, được tính bằng cách lấy tổng giá trị của toàn bộ các quan sát trong tập chia cho tổng số lượng các quan sát trong tập.
2.1.2 Trung vị: là một số tách giữa nửa lớn hơn và nửa bé hơn của một mẫu, một quần thể, hay một phân bố xác suất Nó là giá trị giữa trong một phân bố, mà các số nằm trên hay dưới con số đó là bằng nhau.
2.1.3 Độ lệch chuẩn: là đại lượng thống kê mô tả dùng để đo mức độ phân tán của một tập dữ liệu đã được lập thành bảng tần số Có thể tính ra độ lệch chuẩn bằng cách lấy căn bậc hai của phương sai.
2.1.4 Giá trị nhỏ nhất: là giá trị nhỏ nhất trong toàn bộ các giá trị của một tập mẫu. 2.1.5 Giá trị lớn nhất: là giá trị lớn nhất trong toàn bộ các giá trị của một tập mẫu. 2.1.6 Biểu đồ hist: là biểu đồ tần số dùng cho biến định lượng liên tục nhằm biểu diễn phân phối của tập dữ liệu.
2.1.7 Biểu đồ boxplot: là biểu đồ diễn tả 5 vị trí phân bổ của dữ liệu, đó là giá trị nhỏ nhất, tứ phân vị thứ nhất, trung vị, tứ phân vị thứ 3, giá trị lớn nhất.
2.1.8 Biểu đồ paris: là biểu đồ thể hiện mối liên hệ giữa các biến.
- Khái niệm: Đường hồi quy tuyến tính mẫu Y theo X là đường có phương trình:
- Ý nghĩa: Nếu X và Y có tương quan xấp xỉ tuyến tính thì đường hồi quy cho ta khả năng dự báo một cách đơn giản:
2.2 Các lệnh dùng trong Rstudio
- read_csv(): đọc file csv vào Rstudio
- which(): tìm kiếm các thông số thỏa mãn ràng buộc từ dữ liệu cho trước
- is.na(): kiểm tra dữ liệu có thông số nào mang giá trị NA hay không
Giảng viên hướng dẫn: Nguyễn Bá Thi
Bài tập lớn Xác suất Thống kê nhóm 19 – lớp L14
- median(): tính trung vị của mẫu
- mean(): tính trung bình của mẫu
- max(): tính GTLN của mẫu
- min(): tính GTNN của mẫu
- sd(): tính độ lệch chuẩn của mẫu
- table(): tạo một bảng thống kê của từng biến phân loại
- hist(): vẽ biểu đồ tần số của một biến
- boxplot(): vẽ biểu đồ hộp
- pairs(): vẽ biểu đồ liên hệ giữa các biến
- view(): hiển thị giá trị của biến
- lm(): tính toán giá trị của các hệ số hồi quy
- summary(): liệt kê các giá trị tính toán của mô hình
- anova(): ước tính xem một biến phụ thuộc định lượng thay đổi như thế nào theo các mức của một hoặc nhiều biến độc lập phân loại
- predict(): sử dụng mô hình phù hợp để dữ báo các giá trị phản hồi cho một tập dữ liệu mới
Thực hiện
3.1.1 Đọc dữ liệu dataset_Facebook Tong_luot_thich_trang
- Post_Weekday => Ngay_trong_tuan_dang
- Lifetime_Post_Total_Reach => Tong_luot_tiep_can
- Lifetime_Post_Total_Impressions => Tong_lan_hien_thi
- Lifetime_Engaged_Users => So_nguoi_tuong_tac
- Lifetime_Post_Consumers => So_nguoi_click
- Lifetime_Post_Consumptions => So_lan_click
- Lifetime_Post_Impressions_by_people_who_have_liked_your_Page ⇒ So_luot_tiep_can_voi_nguoi_thich_trang
- Lifetime People_who_have_liked_your_Page_and_engaged_with_yo ur_post ⇒ So_nguoi_thich_trang_tuong_tac_bai_dang
- Total_Interactions => Tong_luong_tuong_tac
3.1.3 Làm rõ dữ liệu a) Trung bình, trung vị, độ lệch chuẩn, giá trị nhỏ nhất, giá trị lớn nhất, theo thứ tự 1, 2, 3, 4, 5.
- Các biến liên tục là:"Tong_luot_tiep_can", "Tong_lan_hien_thi",
"So_nguoi_tuong_tac", "So_nguoi_click", "So_lan_click",
"So_lan_hien_thi_voi_nguoi_thich_trang", "So_luot_tiep_can_voi_nguoi_thich_ trang", "So_nguoi_thich_trang_tuong_tac_bai_dang" ,"Binh_luan", "Thich",
"Chia_se", "Tong_luong_tuong_tac".
Giảng viên hướng dẫn: Nguyễn Bá Thi
Bài tập lớn Xác suất Thống kê nhóm 19 – lớp L14
- Kết quả: b) Các biến phân loại Kieu, The_loai, Co_phi.
Giảng viên hướng dẫn: Nguyễn Bá Thi c) Dùng hàm hist() vẽ đồ thị phân phối Tong_luot_tiep_can
- Nhận xét: Từ đồ thị phân phối biến Tong_luot_tiep_can ta có nhận xét lượt tiếp cận của một bài đăng chủ yếu dưới 25000 lượt.
Giảng viên hướng dẫn: Nguyễn Bá Thi
Bài tập lớn Xác suất Thống kê nhóm 19 – lớp L14 d) Dùng hàm boxplot() vẽ phân phối biến Tong_luot_tiep_can cho từng nhóm phân loại
+ Phân phối biến Tong_luot_tiep_can theo biến Kieu:
Nhận xét: dựa trên biểu đồ, tổng lượt tiếp cận ứng với từng kiểu bài đăng khác nhau là khác nhau, biểu đồ thay đổi theo từng giá trị của biến Kieu, suy ra, Kieu có ảnh hưởng tới Tong_luot_tiep_can. + Phân phối biến Tong_luot_tiep_can theo biến The_loai:
Giảng viên hướng dẫn: Nguyễn Bá Thi
Nhận xét: dựa trên biểu đồ, tổng lượt tiếp cận của bài đăng ứng với từng thể loại khác nhau là khác nhau, biểu đồ thay đổi theo từng giá trị của biến The_loai, suy ra, The_loai có ảnh hưởng tới Tong_luot_tiep_can.
+ Phân phối biến Tong_luot_tiep_can theo biến Co_phi:
Giảng viên hướng dẫn: Nguyễn Bá Thi
Bài tập lớn Xác suất Thống kê nhóm 19 – lớp L14
Nhận xét: dựa trên biểu đồ, tổng lượt tiếp cận của bài đăng có trả phí và không trả phí là khác nhau, biểu đồ thay đổi theo từng giá trị của biến Co_phi, suy ra, Co_phi có ảnh hưởng tới Tong_luot_tiep_can. e) Dùng lệnh pairs() vẽ các phân phối biến Tong_luot_tiep_can theo biến Thang_dang, Ngay_trong_tuan_dang, Gio_dang:
+ Phân phối biến Tong_luot_tiep_can theo biến Thang_dang:
Nhận xét: Phần lớn bài đăng trong các tháng đều có số lượt tiếp cận tương đương nhau, không có thay đổi nhiều trong các tháng.
+ Phân phối biến Tong_luot_tiep_can theo biến
Giảng viên hướng dẫn: Nguyễn Bá Thi
Nhận xét: Gần như không có sự thay đổi về số lượt tiếp cận của bài đăng trong các ngày khác nhau trong tuần. + Phân phối biến Tong_luot_tiep_can theo biến Gio_dang:
Nhận xét: Số lượt tiếp cận cao chủ yếu vào 2-3h và 10-14h.
Giảng viên hướng dẫn: Nguyễn Bá Thi
Bài tập lớn Xác suất Thống kê nhóm 19 – lớp L14
3.2.1 Xây dựng mô hình hồi quy tuyến tính a) Xét mô hình hồi quy tuyến tính gồm biến Tong_luot_tiep_can là biến phụ thuộc còn tất cả các biến còn lại là biến độc lập:
6607.5144+0.325*Tong_lan_hien_thi – 1515.3414*Kieu + 30.0568*So_nguoi_tuong_tac-22.8444*So_nguoi_click - 9.1263*So_nguoi_thich_trang_tuong_tac_bai_dang -
8.1681*Binh_luan -17.8887*Thich + 12.0575*Chia_se
0.3511*So_lan_hien_thi_voi_nguoi_thich_trang -
1.5707*So_luot_tiep_can_voi_nguoi_thich_trang –
564.7033*Thang_dang -19.5202*Ngay_trong_tuan_dang +31.7427*Gio_dang -257.6671*Co_phi- 572.7431*The_loai b) Loại bỏ những dữ liệu có mức tin cậy dưới:
Giảng viên hướng dẫn: Nguyễn Bá Thi
+ Ta loại bỏ các biến không có ý nghĩa với mức tin cậy 0.05 là: Binh_luan, Chia_se, So_lan_click, Ngay_trong_tuan_dang, Gio_dang, Co_phi, The_loai.
+ Ta loại thêm các biến không có ý nghĩa với mức tin cậy 0.01 là: Thang_dang, Tong_luot_thich_trang, Thich, Tong_lan_hien_thi. c) Xét mô hình tuyến tính với biến Tong_luot_tiep_can với 3 mô hình: M1: Có tất cả các biến độc lập.
M2: Mô hình không có các biến Binh_luan, Chia_se, So_lan_click,
Ngay_trong_tuan_dang, Gio_dang, Co_phi, The_loai.
M3: Tương tự M2 và không có các biến Thang_dang,
Tong_luot_thich_trang, Thich, Tong_lan_hien_thi.
Giảng viên hướng dẫn: Nguyễn Bá Thi
Bài tập lớn Xác suất Thống kê nhóm 19 – lớp L14
So sánh tính hợp lí của ba mô hình bằng phân tích ANOVA, từ kết quả ta chọn mô hình 3 là mô hình hợp lí nhất với độ tin cậy 99%.
Từ đó ta có: Tong_luot_tiep_can
A20+14.58*So_nguoi_tuong_tac - 1707*Kieu - 1.049*So_nguoi_click - 21.50*So_nguoi_thich_trang_tuong_tac_bai_dang
- 0.05424*So_lan_hien_thi_voi_nguoi_thich_trang +
2.480*So_luot_tiep_can_voi_nguoi_thich_trang
67 | P a g e d) Đồ thị biểu diễn sai số hồi quy và giá trị dự báo:
+ Fitted values là giá trị dự báo số lượt tiếp cận bài đăng (Tong_luot_tiep_can) phụ thuộc vào các biến còn lại theo phương trình ở câu b.
+ Residuals là sai số hồi quy tức là giá trị chênh lệch giữa thực tế và dự báo.
Giảng viên hướng dẫn: Nguyễn Bá Thi
Bài tập lớn Xác suất Thống kê nhóm 19 – lớp L14
- Nhận xét: Vùng phổ biến số lượt tiếp cận trên mỗi bài đăng trong khoảng từ 0-2500 Trong vùng này, số lượt tiếp cận từng bài đăng nằm xung quanh đường hồi quy tuyến tính, tuy nhiên, giá trị
Residuals tương đối đáng kể, trong khoảng -25000 đến gần
50000, cho thấy rằng dự đoán theo mô hình M3 chưa ổn định.
3.2.2 Dự đoán và so sánh khoảng tin cậy a) Dự đoán số lượt tiếp cận bài đăng với (trung bình các biến, Kieu =2) và (max các biến, Kieu=4):
- Output: b) So sánh khoảng tin cậy:
+ Khoảng tin cậy dự đoán độ không đảm bảo xung quanh giá trị trung bình.
+ Xét khoảng tin cậy 99% của số lượt tiếp cận bài đăng ở thuộc tính mean nằm trong khoảng 12917.72 đến 18262.13.
+ Xét khoảng tin cậy 99% của số lượt tiếp cận bài đăng ở thuộc tính max nằm trong khoảng 99293.17 đến 152227.81.
+ Vậy sự giao động của thuộc tính mean sẽ nhỏ hơn thuộc tính max (5344.407