Hồi qui có thể được biểu diễn bằng phương pháp hàm hợp lý ước lượng các tham số của một mô hình nào đó.. Trang 8 CHƯƠNG : MƠ HÌNH HỒI QUY LOGISTIC 1Như chúng ta đã biết, Phân tích hồi qu
MÔ HÌNH HỒI QUY LOGISTIC
Mô hình hồi quy Logistic
Xác suất xảy ra sự kiện thứ i được ký hiệu là pi, với xác suất không xảy ra sự kiện này là (1-pi) Đối với một tập hợp các biến cố x i = (1, x i1, , x ip), các xác suất này có thể được phân tích để hiểu rõ hơn về mối liên hệ giữa các sự kiện.
( β β β p β = là một vecto (p+1) chiều của các hệ số hồi quy tương ứng Khi đó mô hình hồi quy Logistic được biểu diễn như sau:
Với Ψ (.) là hàm phân phối xác suất: Ψ ( z ) = 1 [ 1 − exp( − z ) ]
Mô hình này có thể được biểu diễn dưới dạng logit như sau: β
Khả năng xảy ra của một biến cố, được ký hiệu là odds, được định nghĩa là tỷ số giữa xác suất biến cố xảy ra và xác suất biến cố không xảy ra.
Như vậy: logit(odds) = 0 khi 1 0 5
− p p p hay là số biến cố xảy ra bằng với số biến cố không xảy ra logit(odds) là âm khi 1 0 5
− p p p , hay là số biến cố xảy ra ít hơn số biến cố không xảy ra logit(odds) là dương khi 1 0 5
− p p p , hay là số biến cố xảy ra nhiều hơn số biến cố không xảy ra
Trong mô hình hồi quy Logistic, hàm logit được gọi là hàm liên kết vì nó chuyển đổi giá trị xác suất trong khoảng (0,1) thành giá trị xảy ra trong khoảng (−∞, ∞).
Dễ dàng nhận thấy trong công thức (1.2), mối liên hệ giữa giá trị x và xác suất của nó như sau:
Hình 1.1: Mối liên hệ giữa x và xác suất
Theo công thức (1.3), mối liên hệ giữa x và logit là tuyến tính
Hình 1.2: Mối liên hệ giữa x và logit
Do đó, chúng ta ký hiệu như sau:
Khi xi= 0, giá trị tương ứng là β 0
Khi các xi là không đổi, thì β p là g á trị thay đổi của log odds khi i xp thay đổi 1 đơn vị
Với mỗi xi, ta giữ nguyên các xj khác Ta quan tâm tới giá trị log odds thay đổi khi cho xi tăng thêm 1 đơn vị:
Xét xi = (xi+ 1), khi đó tỉ số của 2 log odds tại Xi+1 = (1, x1, …, (xi + 1), xi+1, …xp) và Xi+1 = (1, x1, …, xi , xi+1, …xp) là:
Tỉ số này được gọi là tỉ số khả dĩ
Theo phân phối Bernoulli, chúng ta có:
Để ước lượng các thông số trong (1.5), chúng ta áp dụng phương pháp hàm hợp lý ước lượng cực đại (Maximum likelihood) cho N biến độc lập, với Ψ i = Ψ i ( x ' i β ) trong (1.2).
1 log log (1.7) Đạo hàm hai vế của (1.7) với các β ta được:
Tiếp tục lấy đạo hàm của (1.8) ta có:
) 1 log ( β β (1.9) Để giải hệ phương trình không tuyến tính (1.8) và (1.9), chúng ta thường sử dụng phương pháp tính Newton Rephson -
Trong trường hợp này, chúng ta sẽ có được ước lượng của β sau i bước lặp là: i i i i i
Chúng ta tiếp tục lặp lại quá trình này cho đến khi các tham số ước lượng và giá trị xấp xỉ đạt được mức nhỏ hơn một ngưỡng nhất định Khi đó, các tham số sẽ hội tụ về giá trị gần đúng của chúng.
Mô hình hồi quy Probit
Hồi quy Probit là một mô hình thống kê tương tự như hồi quy Logistic, thường được ứng dụng rộng rãi trong lĩnh vực di truyền học Trong mô hình Probit, xác suất của sự kiện pi được xác định dựa trên phân phối chuẩn, cho phép phân tích mối quan hệ giữa các biến độc lập và biến phụ thuộc nhị phân.
Với Φ (.) là hàm phân phối chuẩn
Hình 1.3 mô tả hàm phân phối chuẩn và phân phối Logistic:
H ình 1.3: Hàm phân phối chuẩn và Logistic
Hai đường cong mà chúng ta thấy là đối xứng, nhưng hàm Logistic nằm ở vị trí cao hơn hàm phân phối chuẩn Phân phối chuẩn có phương sai bằng 1, trong khi phương sai của phân phối Logistic chuẩn là π²/3 Do đó, tỷ lệ của phân phối Logistic sẽ lớn hơn so với phân phối chuẩn.
Bây giờ chúng ta xem xét các mô hình có cùng hàm phân phối, tuy nhiên mô hình Logistic có hàm phân phối chuẩn với phương sai bằng 1
Hình 1.4: Phân phối Logistic chuẩn và phân phối Logistic thường
Để phân biệt giữa mô hình Logistic và mô hình Probit, cần có một tập dữ liệu lớn và chất lượng, vì sự khác biệt giữa hai mô hình này là rất nhỏ.
Khái niệm ngưỡng giới hạn (Threshold concept)
Mô hình hối quy dichotomous thường được sử dụng để minh họa khái niệm ngưỡng giới hạn Giả sử rằng một biến liên tục y cho hàm Y, ngưỡng giới hạn được ký hiệu là γ khi xác định được một hàm Y tương ứng.
Chúng ta có thể thiết lập biến y = y − γ, trong đó ngưỡng giới hạn γ cho biến mới sẽ là 0 Hình 1.5 minh họa ngưỡng giới hạn của biến liên tục y theo hàm mật độ Logistic hoặc hàm mật độ chuẩn.
Hình 1.5: Khái niệm ngưỡng giới hạn
Trong các mô hình hồi quy, việc giả định có một phân phối liên tục không phải là yêu cầu bắt buộc Giả sử rằng các thành phần của biến liên tục y tuân theo mô hình: \( y_i = \beta + \epsilon_i \), trong đó \( \epsilon_i \) là phần sai số Trong hồi quy Logistic, sai số \( \epsilon_i \) được giả định tuân theo phân phối chuẩn với kỳ vọng 0 và phương sai \( \pi^2/3 \), trong khi hồi quy Probit có sai số theo phân phối chuẩn với kỳ vọng và phương sai 1 Tỉ lệ sai số là cố định do y không được quan sát, dẫn đến việc mô hình có phương sai sai số cố định và không thể ước lượng Phương sai của biến y được xác định bởi giả thiết cho phương sai sai số \( \epsilon \) Do đó, tỉ lệ hệ số hồi quy giữa Logistic và Probit, ký hiệu lần lượt là \( \beta_L \) và \( \beta_P \), sẽ thể hiện sự khác biệt trong khả năng thu được giá trị y khi thay đổi một đơn vị đầu vào x.
Amemiya (1981) và Long (1997) đề xuất rằng tỷ lệ giữa hệ số hồi quy Logistic và Probit nên được xấp xỉ là β L ≈ 1.6 β P Do đó, tỷ lệ này thường nằm trong khoảng từ 1.6 đến 1.8 Tương tự, sai số chuẩn cũng cho kết quả gần giống nhau, giải thích tại sao thống kê sai số (z-statistics) của các hệ số hồi quy Logistic và Probit lại tương đồng, với các hệ số hồi quy khác nhau trong khoảng từ 1.6 đến 1.8.
MINH HỌA MÔ HÌNH LOGISTIC
Phân tích hồi quy Logistic bằng R
Bây giờ chúng ta dùng số liệu trong bảng 2.1 để ước tính hai thông số α và β bằng R
Trước hết, chúng ta quan tâm đến 2 biến là fx (gãy xương) và bmd (mật độ xương), chúng ta kiểm tra xem có bao nhiêu bệnh nhân gãy xương:
Không gãy xương (fx=0) Gãy xương (fx = 1) fx 101 38
Bây giờ, chúng ta tính mật độ xương trong nhóm gãy xương và nhóm không gãy xương:
Không gãy xương (fx=0) Gãy xương (fx = 1) bmd 0.9444851 0.9016667
Kết quả nghiên cứu cho thấy, mật độ khoáng xương (bmd) ở nhóm bệnh nhân bị gãy xương (fx = 1, bmd = 0.90) thấp hơn so với nhóm không bị gãy xương (fx = 0, bmd = 0.94) Tuy nhiên, kiểm định thống kê cho thấy sự khác biệt này không đạt ý nghĩa (p = 0.15).
Chúng tôi phân tích kết quả ước tính các tham số trong mô hình hồi quy Logistic, cụ thể là các giá trị α và β, sau khi sử dụng R với giả thiết rằng biến bmd tuân theo phân phối chuẩn Ý nghĩa của những kết quả này được trình bày như sau:
1) Độ lệch (Deviance): Phần thứ nhất phản ánh độ lêch chuẩn giữa mô hình và dữ liệu không có ý nghĩa nhiều
2) Hệ số hồi quy: Theo kết quả trên, chúng ta có α ˆ = 1 063 và
Trong nghiên cứu này, hệ số ước lượng β ˆ có giá trị âm, cho thấy mối quan hệ nghịch đảo giữa nguy cơ gãy xương và mật độ khoáng xương (BMD), tức là xác suất gãy xương tăng khi giá trị BMD giảm Tuy nhiên, kiểm định z cho thấy ảnh hưởng của BMD không có ý nghĩa thống kê với trị số p = 0.119.
Tỉ số khả dĩ (odds radio) được tính bằng công thức e − 2 27 = 0 1033, cho thấy khi mật độ xương (bmd) tăng 1 g/cm², tỉ số khả dĩ giảm còn 90.67% Tuy nhiên, việc tăng 1 g/cm² là không thực tế do đây là mức độ mật độ xương rất cao Do đó, một phương pháp tính khác là dựa trên độ lệch chuẩn (sd) của bmd, với sd(bmd) = 0.1406543 Từ đó, tỉ số khả dĩ sẽ được tính cho mỗi 0.14 g/cm², giúp cung cấp cái nhìn chính xác hơn về sự thay đổi trong mật độ xương.
Tức là khi bmd tăng một độ lệch chuẩn thì tỉ số khả dĩ gãy xương giảm khoảng
Cũng có thể nói cách khác, khi bmd giảm một độ lệch chuẩn thì tỉ số khả dĩ tăng
Một cách khác để biết ảnh hưởng của bmd là dùng chỉ số ước tính xác suất qua phương trình:
Khi bmd = 0.86 (tức là giảm 1 độ lệch chuẩn), p = 0.291 Hay là nếu bmd giảm một độ lệch chuẩn thì xác suất gãy xương tăng 0.291 / 0.23 1.265 Tức là tăng 26 % ((1.265 – 1) = 0.265)
3) Phần cuối của kết quả cung cấp deviance cho hai mô hình: mô hình không có biến độc lập (null deviance) và mô hình có biến độc lập (Residual deviance)
Mô hình không có biến độc lập 157.81
Mô hình có biến độc lập 155.57
4 Chỉ số AIC (Akaike Information Criterion) được tính từ deviance và bậc tự do.
Phân tích hồi quy Logistic từ số liệu giản lược bằng R
Trong quá trình phân tích số liệu, chúng ta có dữ liệu cho từng bệnh nhân với các biến độc lập là biến liên tục Tuy nhiên, trong nhiều trường hợp, biến độc lập có thể là bậc thứ, trong khi biến phụ thuộc chỉ có hai giá trị là 0 và 1 Do đó, trên lý thuyết, chúng ta có thể tóm lược dữ liệu bằng cách sử dụng các bảng tần số.
Trong một nghiên cứu về tác động của thói quen hút thuốc lá, tình trạng béo phì và hiện tượng thở gáy khi ngủ đối với nguy cơ mắc bệnh cao huyết áp, các nhà nghiên cứu đã tóm tắt số liệu thu được.
Snoring: Ngáy ntotal: Tổng số bệnh nhân cho từng nhóm nhyper: số bệnh nhân trong nhóm bị bệnh cao huyết áp
Chú ý rằng: các biến số smoking, obesity, snoring có giá trị 0 va 1 (0 là không có chứng đó, 1 là mắc chứng đó)
Smoking Obesity Snoring ntotal nhyper
Trong nghiên cứu này, 433 bệnh nhân đã được khảo sát, trong đó 79 bệnh nhân (78%) mắc bệnh cao huyết áp Tỷ lệ này có sự biến động lớn giữa các nhóm bệnh nhân Cụ thể, nhóm không hút thuốc lá, không béo phì và không ngáy có tỷ lệ cao huyết áp chỉ 8.3% Ngược lại, nhóm bệnh nhân có cả ba yếu tố nguy cơ này (hút thuốc, béo phì, ngáy) có tỷ lệ cao huyết áp vượt quá một phần ba.
Khoảng 35% người dân mắc bệnh cao huyết áp Để phân tích dữ liệu này, chúng ta cần xem xét một thông số quan trọng, được gọi là "weight", đại diện cho số lượng bệnh nhân trong nhóm nghiên cứu.
= ntotal) thay vì tính cho một bệnh nhân Chúng ta giả thiết các biến này độc lập và có hàm phân phối nhị phân
Chúng ta xem xét kết quả phân tích:
Kết quả phân tích cho thấy biến smoking không có ý nghĩa thống kê, do đó, chúng ta nên loại bỏ biến này khỏi mô hình Mô hình đơn giản hơn chỉ cần bao gồm hai biến obesity và snoring.
Dựa và kết quả chúng ta thấy được sự ảnh hưởng của hai yếu tố béo phì và ngáy liên quan đến bệnh cao huyết áp
Phân tích phương sai trên deviance sau đây cũng khẳng định obesity và snoring là hai biến có ảnh hưởng đến cao huyết áp
Phân tích hồi quy đa biến và chọn mô hình
Một trong những thách thức lớn trong phân tích hồi quy Logistic đa biến là lựa chọn mô hình phù hợp để mô tả đầy đủ dữ liệu Trong một nghiên cứu với một biến phụ thuộc y và ba biến độc lập x1, x2, x3, có thể xây dựng nhiều mô hình dự đoán khác nhau cho y, bao gồm: y = f(x1), y = f(x2), y = f(x3), y = f(x1, x2), y = f(x1, x3), y = f(x2, x3) và y = f(x1, x2, x3), trong đó f là hàm số.
Với k biến độc lập, có tới 2^k mô hình có thể được sử dụng để dự đoán giá trị y Trong bối cảnh này, việc lựa chọn mô hình tối ưu để đạt được xác suất dự đoán chính xác nhất là một thách thức quan trọng.
Để xác định mô hình tối ưu, trước tiên cần hiểu rõ khái niệm "tối ưu" Một mô hình được coi là tối ưu khi đáp ứng ba tiêu chuẩn cơ bản sau đây.
Tiêu chuẩn đơn giản yêu cầu mô hình chỉ cần ít biến độc lập, vì việc sử dụng nhiều biến sẽ làm tăng khối lượng dữ liệu thu thập và tính toán.
Tiêu chuẩn đầy đủ yêu cầu mô hình phải mô tả dữ liệu một cách chính xác, nhằm tiên đoán giá trị thực tế của biến phụ thuộc y một cách gần nhất.
Tiêu chuẩn "có ý nghĩa thực tế" yêu cầu mô hình phải được hỗ trợ bởi lý thuyết và phản ánh đúng thực tế Điều này có nghĩa là kết quả thu được cần phải gần đúng với các kết quả thực nghiệm hoặc phù hợp với dữ liệu thu thập từ mẫu lớn, thường được xác thực bởi những chuyên gia có kinh nghiệm trong lĩnh vực.
Trong phần này, tôi sẽ xem xét tiêu chuẩn đơn giản và đầy đủ, trong đó AIC (Akaike Information Criterion) là một giá trị quan trọng giúp chúng ta quyết định mô hình phù hợp.
Xin nhắc lại về ví dụ 1, chúng ta muốn tiên đoán về nguy cơ gãy xương (biến fx) từ xác biến độc lập sau: a
2) Tỉ trọng cơ thể: bmi
3) Mật độ chất khoáng trong xương: bmd
4) Chỉ số hủy xương: ictp
5) Chỉ số tạo xương: pinp a) Chúng ta thử với mô hình fx là hàm số của độ tuổi (age), chúng ta có kết quả sau:
Công thức AIC được tính như sau:
AIC = Residual Deviance + 2 * (Số thông số trong mô hình)
Trong ví dụ trên, có 2 thông số trong mô hình là intercept và age, cho nên giá trị AIC được tính như sau:
AIC = 150.74 + 2 * 2 = 154.74 b) Mô hình thứ 2 chúng ta muốn so sánh fx là hàm số của ictp:
Chúng ta có kết quả sau:
Mô hình này có giá trị Residual deviance là 139.15, thấp hơn so với mô hình trước đó, dẫn đến chỉ số AIC cũng giảm xuống còn 143.15, thấp hơn 154.74 Điều này cho thấy rằng mô hình với ictp mô tả fx một cách đầy đủ hơn so với mô hình chỉ dựa vào độ tuổi Tiếp theo, chúng ta sẽ kiểm tra mô hình kết hợp giữa ictp và độ tuổi.
Mô hình này có ba thông số (intercept, age, ictp), nhưng chỉ số AIC chỉ giảm xuống 142.61 so với mô hình chỉ có một biến ictp với AIC = 143.15, cho thấy độ giảm không đáng kể Mặc dù chúng ta phải thêm một thông số là age, nhưng việc tính toán trở nên phức tạp hơn Do đó, có thể kết luận rằng age không cần thiết trong mô hình này, điều này được thể hiện qua chỉ số p cho age là 0.115, cho thấy age không có ý nghĩa thống kê trong trường hợp này.
Qua 3 ví dụ trên, chúng ta rút ra một nhận xét chung: Một mô hình đơn giản và đầy đủ phải là mô hình có chỉ số AIC càng thấp càng tốt và số các biến độc lập phải có ý nghĩa thống kê Vậy vấn đề là chúng ta đi tìm một mô hình đơn giản và đầy đủ hay chúng ta đi tìm một (hay nhiều) mô hình với chỉ số AIC thấp nhất (hay gần thấp nhất và có ít thông số trong mô hình)
Chúng ta có thể xem xét nhiều mô hình khác nhau bằng cách thay thế hoặc tổng hợp các biến độc lập, tuy nhiên, phương pháp này phức tạp và tốn thời gian Ngày nay, nhờ vào máy tính, việc tính toán được tự động hóa Chúng ta sử dụng thuật toán để máy tính thử nghiệm các trường hợp và đưa ra kết quả tối ưu nhất.
Theo kết quả trên, chúng ta từng bước đi tìm mô hình tối ưu nhất như sau:
Bước 1: Khởi đầu mô hình với 6 biến độc lập, có chỉ số AIC là 146.09 Bước 2: Loại bỏ pinp, mô hình còn 5 biến độc lập, chỉ số AIC là 144.45
Kết quả chúng ta được mô hình tối ưu chỉ gồm 2 biến bmd và ictp, có chỉ số AIC là 140.34
Hay chúng ta có bảng sau:
Mô hình chỉ số AIC cho thấy sự ảnh hưởng của các yếu tố như id, age, bmi, bmd, ictp và pinp đến biến fx Mô hình fx ~ id + age + bmi + bmd + ictp có AIC là 146.09, trong khi mô hình fx ~ id + age + bmi + bmd + ictp lại có AIC thấp hơn là 144.45 Các mô hình tiếp theo, fx ~ age + bmi + bmd + ictp, fx ~ bmi + bmd + ictp và fx ~ bmd + ictp lần lượt có AIC là 142.81, 141.33 và 140.34, cho thấy rằng việc loại bỏ các yếu tố không cần thiết giúp cải thiện độ chính xác của mô hình.
Kết luận rằng hai yếu tố bmd (mật độ chất khoáng trong xương) và ictp (chỉ số chu trình hủy xương) có mối liên hệ mật thiết và ảnh hưởng đáng kể đến nguy cơ gãy xương.
Chọn mô hình hồi quy Logistic bằng Bayesian Model Average (BMA)
và các biến độc lập như ví dụ 1, chúng ta có kết quả:
Kết quả phân tích cho thấy xác suất liên quan giữa ictp và gãy xương đạt 100%, trong khi xác suất của bmd chỉ khoảng 40% Mô hình tối ưu đầu tiên chỉ sử dụng biến độc lập ictp với xác suất 0.307, trong khi mô hình thứ hai kết hợp ictp và bmd lại có xác suất thấp hơn, chỉ đạt 0.291 Ngoài ra, còn ba mô hình khác cũng có thể được xem xét.
Chúng ta có biểu đồ sau:
Theo biểu đồ, ictp là yếu tố ảnh hưởng lớn nhất đến nguy cơ gãy xương Yếu tố quan trọng thứ hai là bmd hoặc bmi Mặc dù age và pinp cũng có khả năng tác động đến nguy cơ gãy xương, nhưng mức độ ảnh hưởng của chúng không nhất quán như ictp, bmd và bmi.
MÔ HÌNH HỒI QUY LOGISTIC ẢNH HƯỞNG HỖN HỢP
Mô hình hồi quy ảnh hưởng hỗn hợp mở rộng
Rất dễ mở rộng mô hình cho nhiều biến ngẫu nhiên bằng cách ký hiệu zij là vector r × 1 biến ngẫu nhiên Giả sử vector ảnh hưởng ngẫu nhiên vi tuân theo phân phối chuẩn với kỳ vọng 0 và ma trận phương sai là ∑ v Khi chuẩn hóa vector ngẫu nhiên, ta có i i T v = θ, trong đó TT ' = ∑ v Do đó, mô hình có thể được viết lại như sau: i ij ij ij ij x z T p p ' β ' θ log 1 = +.
Theo công thức này, ma trận Cholesky T dùng để ước lượng thay thế cho ma trận phương sai ∑ v
Hồi quy đa biến
Với một mô hình hồi quy đa biến đơn giản với chỉ một đối tượng quan sát thứ i là xij và một biến cấp 2 là xi
Mô hình hồi quy cấp 1 được biểu diễn như sau: ij i i ij ij x p p
Hay là: ij ij i i ij x y = β 0 + β 1 + ε (3.12)
Mô hình cấp 2 là: (giả sử xij là biến ảnh hưởng ngẫu nhiên) i i i 0 2 x v 0
Chú ý rằng, chúng ta giả sử các biến ngẫu nhiên là tuân theo phân phối chuẩn v ~ N ( 0 , v )
Trong mô hình cấp 1, sự xuất hiện của biến cố định dẫn đến việc chúng ta chú ý đến các quan sát mà kết quả của chúng khác biệt so với mô hình hồi quy khác.
Trong mô hình hồi quy ảnh hưởng hỗn hợp liên tục cấp 1, việc loại bỏ yếu tố ngẫu nhiên xij sẽ dẫn đến việc chỉ còn lại yếu tố cố định trong mô hình.
Sau khi tích hợp yếu tố ngẫu nhiên vào mô hình, các biến ngẫu nhiên này hoạt động như một hệ số hồi quy bổ sung, giúp mở rộng khoảng giá trị thu được từ các quan sát.
Công thức
Mô hình hồi quy Logistic ảnh hưởng hỗn hợp có thể viết lại như sau:
Trong đó Ψ (z ) là hàm phân phối Logistic (cdf):
Chúng ta dễ thấy mối liên quan giữa hàm phân phối và hàm mật độ (pdf) như sau:
Mô hình hồi quy Probit, dựa trên phân phối chuẩn, thường được sử dụng thay thế cho mô hình hồi quy Logistic Trong mô hình này, các hàm phân phối và hàm mật độ có dạng chuẩn, với phương sai bằng 1 (ε ij ~ N (0, 1)) Kết quả là giá trị đầu ra yi có phân phối chuẩn với kỳ vọng X i β và ma trận hệ số phương sai Z i TT ' Z i ' + I Khi chuyển qua ma trận tương quan, biến đầu ra y sẽ tương quan với giá trị gốc Do đó, mô hình Probit được ưa chuộng hơn trong một số lĩnh vực như di truyền học Ngược lại, mô hình hồi quy Logistic ảnh hưởng hỗn hợp giả định sai số tuân theo phân phối Logistic và yếu tố ngẫu nhiên có phân phối chuẩn, thường được sử dụng nhiều hơn so với các mô hình Logistic thông thường và mô hình logit Nếu giả định sai số tuân theo phân phối chuẩn, mô hình sẽ trở thành mô hình hồi quy Probit ảnh hưởng hỗn hợp.
Cả phân phối thường và phân phối Logistic đều có giá trị cân xứng quanh giá trị 0, với kết quả tương tự nhau Tham số hồi quy Logistic và sai số chuẩn tương ứng có tỉ lệ xấp xỉ π 3 Một công thức khác thường được sử dụng là log-log, được biểu diễn bằng 1 − exp [ − exp( z ) ] Trong mô hình hồi quy ảnh hưởng hỗn hợp, những yếu tố này đóng vai trò quan trọng trong việc phân tích dữ liệu.
[ ij ij i ] ij x z T p = 1 − exp − exp ' β + ' θ (3.17)
[ log 1 p ij ] x ' ij β z ' ij T θ i log − − = + (3.18)
Không giống như phân phối thường và Logistic, phân phối bù log-log là không đối xứng và có phương sai là π 2 6 Hàm mật độ của nó là:
Hàm này thường được sử dụng trong phân tích quá trình chọn lọc tự nhiên, cung cấp tỷ lệ đào thải trong quá trình này.
Chúng ta xem xét N đối tượng, với mỗi đối tượng có ni quan sát Kết quả quan sát Yij có thể nhận giá trị 0 hoặc 1 Mô hình hồi quy ảnh hưởng hỗn hợp được biểu diễn bởi công thức: Yij = β + σ θij + xij p.
Trong mô hình này, chúng ta có thể ước lượng xác suất để sự kiện xảy ra khi có yếu tố ngẫu nhiên θ i là:
Trong đó hàm phân phối Ψ (z ) được cho bởi (2.16) và z ij = x ij ' β + σ v θ i Khi đó xác suất không xảy ra sự kiện là:
Chúng ta giả định rằng các kết quả quan sát được từ các đối tượng độc lập không bị ảnh hưởng bởi các yếu tố ngẫu nhiên Trong trường hợp này, xác suất quan sát của đối tượng i được xác định rõ ràng.
Áp dụng nguyên lý “Hợp lý cực đại” (Maximum likelihood), chúng ta nhân các xác suất của từng đối tượng trong N mẫu quan sát, cũng như xác suất tại mỗi thời điểm quan sát của từng đối tượng từ 1 đến ni Do các kết quả quan sát độc lập với yếu tố ngẫu nhiên, chúng ta có thể xem xét khả năng xảy ra của ni quan sát trong toàn bộ dữ liệu.
Để xác định đối tượng quan sát, chúng ta cần một công thức cho Yi mà không bị ảnh hưởng bởi yếu tố ngẫu nhiên Do đó, chúng ta phát triển một công thức tính xác suất cho Yi như sau:
Với g ( θ ) là hàm phân phối của yếu tố ngẫu nhiên, N ( 0 , σ v 2 )
Bản chất của nghiên cứu này là tập trung vào các khả năng xảy ra phụ thuộc vào yếu tố ngẫu nhiên trong mô hình, từ đó cho phép tính toán tất cả các kết quả có thể nhận được Công thức (3.23) có thể được hiểu như là giá trị trung bình của các khả năng xảy ra, trong đó giá trị của θ ảnh hưởng đến hàm zij và do đó làm thay đổi kết quả.
, Đó là kết quả quan sát sự kiện tại một thời điểm trong hàm phân phối g ( θ ) đối với mọi giá trị θ
Chúng ta có thể ước lượng xác suất xảy ra các sự kiện Yi cho mọi đối tượng bằng cách tính tổng các mẫu hoặc bằng tích các khả năng xác suất xảy ra.
Điểm cực đại của khả năng xác suất và giá trị log khả năng xác suất đều bằng một Áp dụng nguyên lý hợp lý cực đại cho (3.25), với vecto η là biểu diễn của hệ số hồi quy β hoặc tham số σ v, ta có thể tính đạo hàm tương ứng.
Bây giờ, xác suất được tính như sau:
− θ θ θ θ θ θ θ θ θ θ θ θ θ d g z Y z Y d g z z d g z z d g Y Y h i ij ij ij ij n j ij ij ij ij
Ký hiệu ( Y i | θ ) là i ta có:
∂ N i i n ij j ij ij ij ij ij i d g z z z z z Y Y h
Trong đó, ∂ Ψ ( z ij ) là hàm mật độ (pdf), nó có công thức là:
Trong mô hình hồi quy Probit, chúng ta dùng hàm phân phối thường
( z ij Φ thay cho hàm phân phối Logistic Ψ ( z ij ) , hàm mật độ thường φ ( z ij ) thay thế cho hàm mật độ Logistic Ψ ( z ij ) [ 1 − Ψ ( z ij ) ] Chúng ta có hàm phân phối Logistic:
Việc tính toán trong mô hình Logistic đơn giản hơn so với mô hình hồi quy Probit, và để ước lượng các tham số, phương pháp Newton-Raphson thường được sử dụng Tuy nhiên, trong bài luận văn này, chúng tôi sẽ không trình bày chi tiết về phép tính Newton-Raphson.
Ước lượng Bayes
Trong nhiều trường hợp, việc ước lượng yếu tố ngẫu nhiên từ các mẫu quan sát là rất hữu ích Để thực hiện điều này, chúng ta nên sử dụng ước lượng "a posteriori" (EAP) hay ước lượng Bayes Các ước lượng này thường được ký hiệu là θ ˆ i.
Phương sai theo ước lượng này là:
Trường hợp nhiều yếu tố ngẫu nhiên
Nếu gặp trường hợp có nhiều yếu tố ngẫu nhiên, chúng ta dùng công thức như sau: i ij ij ij ij x z T p p ' β ' θ log 1 = +
Ta dùng ma trân nhân tử T thay cho số hạng σ v Tương tự, đạo hàm
Trong nhiều trường hợp, chúng ta cần một biểu thức có ( r × ( r − 1 ) ) 2 tham số trong ma trận Choleski T, đó là ma trận tam giác yếu (ký hiệu
Một biểu thức khác có thể được dùng như sau: (Biểu thức này được mô tả bởi Magnus [1988]) Xét ma trận T thỏa mãn:
Toán tử vec chuyển ma trận thành các vecto nhỏ hơn, trong khi toán tử ⊗ biểu diễn phép nhân Kronecker Magnus định nghĩa vecto v(A) chứa phần tử r ∗ ở dưới và trên đường chéo của ma trận A (r × r) Mối quan hệ giữa v(A) và vec(A) được xác định trong trường hợp ma trận T, một ma trận tam giác yếu.
Trong đó: J r ' là ma trận khử r ∗ × r 2 chiều chỉ chứa 0 và 1, có đường chéo la 0 Khi đó chúng ta có:
Công thức ( 36) dùng để thay thế công thức (3 3.29)
Hệ thống hàm phân phối cho yếu tố ngẫu nhiên
Có nhiều phương pháp để xấp xỉ hàm phân phối của biến ngẫu nhiên Một số cách tiếp cận đáng chú ý được trình bày trong các nghiên cứu của Rodríguez và Goldman (1995), Davidian và Giltinan (1995), cũng như McCulloch và Searle.
Năm 2001, nhiều công thức dự đoán chủ yếu dựa vào công thức Taylor bậc nhất hoặc bậc hai Phương pháp Marginal Quasi Likelihood (MQL) chú trọng vào việc mở rộng mô hình cố định, đồng thời nhận ra rằng dự đoán có thể cần thêm yếu tố ngẫu nhiên trong phần mở rộng.
Gần đây, Raudenbush et al [2000] đã giới thiệu một phương pháp tiếp cận mới kết hợp khai thác Taylor bậc với xấp xỉ Laplace Theo kết quả nghiên cứu của họ, công thức này mang lại độ chính xác cao hơn và tốc độ tính toán nhanh hơn.
Mặc dù, trái với phương pháp x p xỉ MQL và PQL, kết quả nhậấ n đư c ợ t ừ các phương pháp này có th dùng để ể kiểm tra t l xác su t (likehood-ratio) ỉ ệ ấ
Do đó, chúng ta thấy cách ti p cậế n chính xác hơn trong chương trình phần mềm HLM [Bryk et al., 2000]
Phương pháp số được áp dụng trong phân phối biến ngẫu nhiên, đặc biệt là khi biến ngẫu nhiên có phân phối chuẩn Sử dụng phép xấp xỉ Gauss-Hermite (Gauss-Hermite quadrature) sẽ mang lại độ chính xác cao Bên cạnh đó, tương tự như xấp xỉ Laplace, phương pháp số cũng có thể được dùng để ước lượng sai số nhằm kiểm tra tỷ lệ xác suất.
Sự tích hợp là một phép gần đúng của tổng số xác định của góc tại điểm Q, tương ứng với mỗi chiều của tích phân Trong phép chuyển không gian θ, tổng qua điểm Q r, với r là số thành phần ngẫu nhiên Đối với hàm mật độ, điểm tối ưu và trọng số tối ưu (ký hiệu là B q, A(B q) tương ứng) được trình bày trong nghiên cứu của Stroud và Sechrest [1966] Đối với hàm mật độ nhiều biến, vector chiều của điểm góc được ký hiệu một cách rõ ràng.
Và trọng số ủ c a nó là tích các trọng số trong vecto:
Dùng các điểm và trọng số, chúng ta có: q ij ij ijq x z TB z = ' β + '
Và điều kiện xác suất:
Dễ thấy công thức xấp xỉ
( Đạo hàm 2 vế ta được:
∂ Q r i q n j q q i ijq ijq ijq ijq ijq
Mặc dù chúng ta thường giả định rằng các yếu tố ngẫu nhiên tuân theo phân phối chuẩn, nhưng trong một số trường hợp, việc sử dụng các hàm phân phối khác là cần thiết.
Phương pháp góc cầu phương (quadrature approach) gặp khó khăn khi tính tổng của nhiều điểm ngẫu nhiên, đặc biệt khi số lượng biến ngẫu nhiên tăng lên Cụ thể, với một yếu tố ngẫu nhiên, chỉ cần một phép tính tổng qua điểm Q và một yếu tố cố định Tuy nhiên, khi có nhiều hơn một yếu tố ngẫu nhiên (r > 1), việc tính toán trở nên phức tạp hơn, yêu cầu tính qua Q^r điểm, dẫn đến sự gia tăng cấp số mũ trong phép tính, đặc biệt khi r lớn hơn 5 Hơn nữa, cần nâng cao độ chính xác cho ước lượng tham số trong mô hình.
Năm 1990, đã chỉ ra rằng các kết quả thống kê không chính xác khi số yếu tố ngẫu nhiên lớn hơn 5 Mặc dù có một số kết quả tốt khi r > 5, nhưng độ tin cậy của những kết quả này phụ thuộc vào việc chọn điểm Q.
MINH HỌA CHO MÔ HÌNH HỒI QUY LOGISTIC ẢNH HƯỞNG HỖN HỢP
Chúng tôi sẽ tiến hành phân tích dữ liệu để kiểm tra giả thuyết về tác động của việc sử dụng thuốc thông qua mô hình hồi quy ảnh hưởng hỗn hợp Dữ liệu được thu thập từ một thí nghiệm trên chuột, được thiết kế nhằm đánh giá hiệu quả của thuốc.
Thí nghiệm: Nghiên cứu có 19 con chuột, được chia thành hai nhóm: Nhóm 1: Gồm 9 con chuột đã được cho uống thuốc
Nhóm 2: Gồm 10 con chuột không cho uống thuốc (nhóm chứng) Ở mỗi chuột, nồng đường (glocose) trong máu được đo tại 4 thời điểm:
• 2 giờ sau khi uống thuốc: T2
• 3 giờ sau khi uống thuốc: T3
• 4 giờ sau khi uống thuốc: T4
Chúng ta có kết quả thí nghiệm như sau:
Chú thích: id là cột chỉ mã số của chuột
Bảng 4.1: Nồng độ glucose của nhóm chuột được điều trị và nhóm chứng
Nồng độ đường trong máu của cả hai nhóm chuột đều có xu hướng giảm theo thời gian Câu hỏi quan trọng cần xem xét là liệu thuốc có tác động đến mức độ thuyên giảm hay không Từ "ảnh hưởng" ở đây có thể được hiểu là sự khác biệt trong mức độ giảm glucose giữa hai nhóm chuột, hoặc là việc so sánh mức độ giảm glucose của hai nhóm chuột thí nghiệm.
Để mô tả mức độ giảm cho mỗi chuột, chúng ta cần xây dựng một mô hình Lấy ví dụ với chuột số 1 (id = 1) và các số liệu liên quan đến thời điểm T.
Trước khi uống thuốc (T = 0) thì glucose: = 5.9 mmol/L
Sau khi uống thuốc 2 giờ (T = 2), glucose: = 3.9 (giảm 33%)
Sau khi uống thuốc 3 giờ (T = 3), glucose: = 3.9 (giảm 33%)
Sau khi uống thuốc 2 giờ (T = 4), glucose: = 3.5 (giảm 41%)
Tuy nhiên, đối với chuột có id = 9 thì nồng độ glucose giảm liên tục:
Trước khi uống thuốc (T = 0) thì glucose: = 7.5 mmol/L
Sau khi uống thuốc 2 giờ (T = 2), glucose: = 6.1 (giảm 19%)
Sau khi uống thuốc 3 giờ (T = 3), glucose: = 5.4 (giảm 28%)
Sau khi uống thuốc 2 giờ (T = 4), glucose: = 4.6 (giảm 39%)
Chúng ta có thể xem qua sự thay đổi nồng độ glucose cho từng chuột bẳng biểu đồ sau:
Biểu đồ 4.1: Nồng độ glucose cho từng chuột qua từng thời điểm
Khi xem xét hai trường hợp trên, chúng ta nhận thấy rằng nồng độ glucose ban đầu ở chuột có sự khác biệt và tốc độ giảm glucose cũng không giống nhau giữa các con chuột.
Chúng ta sẽ dùng nhứng ký hiệu như sau:
• i là mã số định danh của chuột, i = 1, 2, … 19
• yi là nồng độ glucose đo lường cho chuột thứ i
• a i là nồng độ glucose trước khi uống thuốc chuột thứ i
• bi là tốc độ giảm glucose chuột thứ i
• Tốc độ giảm glucose tùy thuộc thời gian và thời gian có thể tạm ký hiệu bằng T, ở đây T = 0, 2, 3, 4
Chúng ta có thể hình dung ra một mô hình để mô tả về sự thay đổi nồng độ glucose ở chuột như sau:
Chúng ta chỉ đo lường nồng độ glucose tại 4 thời điểm khác nhau, và mỗi lần đo đều có độ nhiễu do sai số thiết bị hoặc sự biến động sinh học ở chuột Để hoàn thiện mô hình, cần thêm một thông số khác, đó là độ nhiễu, được ký hiệu là ε i.
Mô hình hồi quy tuyến tính mới được biểu diễn như sau: \( T_y = a + b \cdot i + \epsilon \) (4.1) Chúng ta sử dụng R để ước tính các tham số a và b, và kết quả thu được sẽ được trình bày sau đây.
Mô hình cho thấy nồng độ glucose ban đầu dao động từ 5 đến 8 mmol/L, tuy nhiên, không xác định được giá trị cụ thể Do đó, chúng ta có thể giả định rằng nồng độ glucose ban đầu ở các chuột là trung bình cộng, với sự khác biệt giữa các chuột so với giá trị trung bình này.
Gọi A là số trung bình và u là độ khác biệt của aiso với A, chúng ta có: ai= A + u (4.2)
Tốc độ thay đổi glucose ở các chuột có sự biến động, vì vậy chúng ta có thể giả định rằng tốc độ trung bình là B và độ khác biệt giữa bi và B là v, được thể hiện qua công thức bi = B + v (4.3).
Thay thế (4.2) và (4.3) vào (4.1) chúng ta được: i i i i A u B v T y = ( + ) + ( + ) + ε Hay là:
Phân tích phương trình (4.4) chúng ta thấy, phương trình có 2 phần:
• Phần đầu: (A + BT), là phần ảnh hưởng cố định (fixed effects)
• Phần hai: ( u i + v i T + ε i ) là phần ảnh hưởng ngẫu nhiên (random effects)
Sở dĩ gọi là ảnh hưởng ngẫu nhiên bởi vì u,v,e đều là các thông số phản ánh độ nhiễu của mô hình
Các thông số trong mô hình có ý nghĩa như sau:
• A: nồng độ glucose trung bình lúc ban đầu của quần thể các chuột được nghiên cứu
• B: là tốc độ trung bình (tỉ lệ giảm nồng độ glucose) tính trên mỗi giờ của các chuột được nghiên cứu
• u phản ánh độ giao động về nồng độ glucose lúc ban đầu giữa các chuột
• v là độ giao động về tốc độ giảm glucose giữa các chuột
• e là độ giao động ở mỗi chuột
Và chúng ta có thể giả định như sau:
• u tuân theo luật phân phối chuẩn: u ≈ N ( 0 u , 2 )
• v tuân theo luật phân phối chuẩn: v ≈ N ( 0 v , 2 )
• e tuân theo luật phân phối chuẩn: ε ≈ N ( 0 , ε 2 )
Trong mô hình (4.4), không có biến số nào liên quan đến điều trị, điều này phản ánh bản chất của mô hình cơ bản Để tìm hiểu sâu hơn, chúng ta xem xét các phương trình (4.2) và (4.3), trong đó ai = A + u và bi = B + v Mục tiêu của chúng ta là tạo ra sự khác biệt đáng kể về nồng độ glucose ban đầu (ai) giữa hai nhóm chuột, do đó phương trình (4.2) sẽ được điều chỉnh thành: u treatment A.
Có thể có sự khác biệt về tốc độ giảm glucose giữa hai nhóm, và điều này cần được nghiên cứu để hiểu rõ mức độ ảnh hưởng của điều trị Một phương pháp để đánh giá ảnh hưởng của điều trị là viết lại phương trình (4.3) theo cách khác để phân tích kết quả.
Khi đó mô hình (4.1) là: i i i i a b T y = + + ε i i A A treatment u B B treatment v T y = ( 0 + 1 × + ) + ( 0 + 1 × + ) + ε
Bây giờ chúng ta ước tính thông số cho mô hình ảnh hưởng hỗn hợp:
Trong mô hình này, các thông số A, B, u2, v2 và e2 được sử dụng để phân tích dữ liệu Dữ liệu từ bảng 4.1 được tính toán lại với các cột: cột treatment để xác định nhóm chuột, cột T để ghi lại giá trị glucose tại các thời điểm khác nhau, cột id để nhận dạng từng con chuột, và cột Y để thể hiện kết quả thí nghiệm đo nồng độ glucose của chuột tương ứng.
Bảng 4.2: Kết quả thí nghiệm được sắp xếp theo dòng
Vậy chúng ta sắp xếp lại mỗi chuột có 4 dòng, mỗi dòng phải được nhận dạng rõ ràng thuộc nhóm nào và thời điểm nào Chúng ta có 19 x 4 = 76 dòng
Kết quả phân tích đối với mô hình (4.4) như sau:
Mô hình ảnh hưởng cố định được biểu diễn bởi phương trình A BT u v T y = + + + + ε, trong đó ước số time là -0.485, tương ứng với tham số B Hằng số (_cons) có giá trị 6.05, đại diện cho ước tính tham số A trong mô hình này.
Mô hình này chỉ ra rằng nồng độ glucose trung bình của quần thể đạt 6.05 mmol/L, với tốc độ giảm 0.485 mmol/L mỗi giờ theo dõi Bên cạnh đó, cần ước tính phần ngẫu nhiên để có cái nhìn tổng quát hơn về kết quả phân tích.
Các kết quả này được giải thích như sau:
Phương sai u 2 = 0.00079 cho thấy độ dao động về tốc độ giảm glucose giữa các chuột là rất nhỏ Điều này chỉ ra rằng sự biến động trong tốc độ giảm glucose giữa các chuột không có sự khác biệt đáng kể.
• Phương sai v 2 = 0.697 (giá trị var(_cons) = 0.697) phản ánh độ giao động về nồng độ glucose lúc ban đầu giữa các chuột
• Độ nhiễu e 2 = 0.253 (var(Residual) = 0.253), phản ánh độ giao động nồng độ glucose ở mỗi chuột
Mô hình được đề cập có tính chất mô tả, và để xác định xem tỷ lệ giảm glucose có khác biệt giữa hai nhóm chuột hay không, chúng ta cần áp dụng mô hình (4.5).
Chúng ta ước tính thông số của mô hình (4.5) như sau:
Chúng ta có giá trị các thông số trong mô hình (4.5) như sau:
• A0: = 5.82 ( -cons = 5.816825): Nồng độ trung bình glucose lúc ban đầu của quần thể chuột
• A1= 0.15 ( treatment = 0.1530158): Khác biệt về nồng độ glucose lúc ban đầu giữa hai nhóm
• B0 - = 0.74 ( time = 0.7403175): Ảnh hưởng của thời gian đến sự giảm - glucose
• B1 = 0.17 ( treat_time = 0.1673016): Khác biệt về tốc độ giảm glucose giữa hai nhóm
Khi đó mô hình (4.5) trở thành: time treatment time treatment y i = 5 82 + 0 15 × − 0 74 × + 0 17 × ×
MỘT SỐ MINH HỌA KHÁC
Mô hình hồi quy Logistic ảnh hưởng cố định
Mô hình hồi quy Logistic ảnh hưởng hỗn hợp được áp dụng để phân tích tác động của biến Drug (0 = placebo, 1 = drug) và Time (căn bậc 2 của tuần), cùng với sự tương tác giữa Drug và thời gian.
Bảng 5.3 cho kết quả phân tích:
ML là ước lượng hợp lý cực đại, se là sai số chuẩn
Mô hình này được trình bày nhằm mục đích so sánh Chúng ta sẽ xem xét ước lượng mà chúng ta đã tính toán, phù hợp với mô hình và các logits nhận được.
Chúng ta mô tả mô hình hồi quy như sau:
0 70 ˆ 3 1 log ˆ i i i i ij ij Drug Time Drug Time p p = − − − ×
Trong nghiên cứu này, chúng tôi phân tích ảnh hưởng của thuốc (0 = giả dược, 1 = thuốc) qua các khoảng thời gian căn bậc 2 của 0, 1, 3 và 6 Sử dụng công thức phân phối tích lũy Logistic (5.1) p ij ( z ˆ ) = 1 [ 1 + exp( − z ˆ ) ], trong đó zˆ là ước lượng logit, chúng tôi đã thu được những kết quả đáng chú ý.
Mô hình hồi quy Logistic ngẫu nhiên
Mô hình hồi quy Logistic ảnh hưởng ngẫu nhiên được áp dụng cho dữ liệu hiện tại, bắt đầu với một mô hình ngẫu nhiên Đối với đối tượng bên trong hoặc chỉ một cấp, mô hình được biểu diễn như sau: j i i ij ij b b Week p p.
Và các đối tượng liên kết (cấp 2) có mô hình là: i i i Drug v b 0 = β 0 + β 2 + 0 i i i Drug v b 1 = β 1 + β 3 + 0 (5.3)
Trong mô hình này, các đối tượng ảnh hưởng ngẫu nhiên \( v_{0i} \) tuân theo phân phối chuẩn \( N(0, \sigma_v^2) \) Tham số \( \beta_0 \) đại diện cho giá trị logit tại Tuần 0 cho bệnh nhân nhóm Placebo (Drug = 0), trong khi \( \beta_1 \) thể hiện sự thay đổi logit theo căn bậc 2 của thời gian cho nhóm này Tham số \( \beta_2 \) cho biết sự khác biệt tại Tuần 0 giữa bệnh nhân nhóm Drug (Drug = 1) và nhóm Placebo, và \( \beta_3 \) là sự khác biệt logit theo thời gian (căn bậc 2) cho bệnh nhân nhóm Drug Theo thời gian, tác động của thuốc sẽ dẫn đến sự thay đổi trong biểu hiện thần kinh của bệnh nhân, với yếu tố ngẫu nhiên \( v_{0i} \) phản ánh các sai số cụ thể trong nhóm bệnh nhân được quan sát.
Bảng sau cho chúng ta thấy kết quả của quá trình phân tích này:
Kết quả phân tích từ mô hình hồi quy ảnh hưởng cố định cho thấy tỉ lệ khả dĩ đạt 112.3, chỉ số cao này chỉ ra sự liên quan rõ rệt giữa việc sử dụng thuốc và tình trạng của bệnh nhân Mức độ liên quan được thể hiện qua công thức cụ thể, nhấn mạnh tầm quan trọng của việc nghiên cứu mối quan hệ này.
Cho thấy sự cân xứng khá lớn là phụ thuộc tới đối tượng quan sát
Kết quả phân tích cho thấy có sự khác biệt giữa hai nhóm bệnh nhân dùng thuốc và không dùng thuốc, không tính đến thời điểm ban đầu Nhóm Placebo đã có sự cải thiện theo thời gian, nhưng nhóm dùng thuốc cho thấy sự cải thiện rõ rệt hơn so với nhóm không dùng thuốc Điều này chỉ ra rằng các kết quả từ phân tích này khác biệt so với phân tích hồi quy ảnh hưởng cố định.
Việc lựa chọn mô hình phù hợp với dữ liệu quan sát là rất quan trọng, đặc biệt khi có yếu tố ngẫu nhiên, vì điều này làm cho việc tính toán trở nên phức tạp hơn Chúng ta có thể ước lượng chiều hướng của các giá trị quan sát ở hai nhóm bệnh nhân, với các giá trị có ảnh hưởng ngẫu nhiên Hình 5.5 minh họa xu hướng này, trong đó hai giá trị ảnh hưởng ngẫu nhiên được xác định là − 1 σ ˆ v và 1 σ ˆ v.
Với σ ˆ v = 2 12 từ phân tích trên.
Hình 5.3 Các giá trị quan sát được và giá trị ước lượng theo thời gian Các đường này được tính theo công thức:
( ) { [ ( i i i i i ) ] } ij Drug Week Drug Week v
Trong đó các giá trị của Drug = 0 hoặc Drug = 1, Week thuộc (0, 6), và i σ 0 thuộc ( 2.12, 2.12) -
Kết quả nghiên cứu cho thấy việc sử dụng thuốc đúng cách mang lại lợi ích rõ rệt cho cả hai nhóm bệnh nhân, bao gồm cả nhóm placebo Theo thời gian, khả năng phục hồi của bệnh nhân đã cải thiện, và sự cải thiện này ngày càng rõ rệt hơn.
Theo kết quả từ đồ thị, bệnh nhân sử dụng placebo có ảnh hưởng ngẫu nhiên với chuẩn -1 cho thấy khả năng ốm ít hơn Ở điểm cuối của đồ thị, giá trị này nằm dưới 0.5.
Rõ rằng các đối tượng đã được cải thiện theo thời gian
Hình 5.6 và 5.7 minh họa đồ thị trong mô hình ước lượng Bayes, thể hiện sự ảnh hưởng của yếu tố ngẫu nhiên v0i đối với các nhóm bệnh nhân, bao gồm nhóm chứng và nhóm sử dụng thuốc.
Theo đồ thị, có một số bệnh nhân nhóm placebo với yếu tố ngẫu nhiên có độ lệch chuẩn khoảng -1 (tức là 2.12) hoặc nhỏ hơn, trong khi nhóm bệnh nhân nghiện (drug) có độ lệch chuẩn lớn hơn 0 Cụ thể, 10% bệnh nhân placebo có ước lượng -2.12 hoặc nhỏ hơn, trong khi khoảng 25% bệnh nhân nghiện có ước lượng lớn hơn 1.93 (với ước lượng lớn nhất là 2.04) Kết quả phân tích cho thấy có sự cân xứng giữa bệnh nhân placebo và bệnh nhân drug, cho thấy sự khác biệt về sức đề kháng giữa hai nhóm này.
Hình trên trình bày sự cân xứng giữa hai nhóm bệnh nhân tại bốn thời điểm nghiên cứu Một câu hỏi quan trọng là xác định mô hình phù hợp với các tỷ lệ ở rìa Khi ước lượng tham số từ mô hình hồi quy Logistic với số lượng lớn đối tượng, cần phải thực hiện quá trình "marginalization" để đạt được điểm chính xác.
Có thể làm như sau:
Với σ = 1 nếu là mô hình hồi quy Logistic Probit σ = π nếu là mô hình hồi quy Logistic
Và Zi là ma trận các yếu tố ngẫu nhiên
Với Z i = 1 i nếu là mô hình hồi quy ngưỡng ngẫu nhiên
4 Nhận được các khả năng:
( ) i i z p ˆ = Φ ˆ nếu mô hình hồi quy Logistic Probit
( ) i i z p ˆ = Ψ ˆ nếu mô hình hồi quy Logistic Trong đó Φ (.) , Ψ (.) là các hàm mật độ thường và Logistic
Hình sau là kết quả nhận được sau khi áp dụng mô hình trên:
Mô hình hồi quy Logistic có yếu tố ngẫu nhiên
Trong một số tình huống, có thể xuất hiện cả những đối tượng ngẫu nhiên và có xu hướng rõ ràng Để minh họa cho mô hình này, chúng ta sẽ thiết lập một mô hình cụ thể.
Mô hình tại cấp 1: j i i ij ij b b Week p p
Mô hình tại cấp 2: i i i Drug v b 0 = β 0 + β 2 + 0
Trong đó đối tượng ngẫu nhiên vecto vi có phân phối thường N , ( 0 ∑ v )
Mô hình được phân tích cho kết quả như trình bày trong bảng 5.6 So với mô hình ngưỡng ngẫu nhiên giới hạn, mô hình này sử dụng tỷ số khả dĩ để thực hiện sự so sánh.
Mô hình này bao gồm hai cấp độ ngẫu nhiên, do chúng ta giả định rằng có sự sai số ngẫu nhiên đối với phương sai σ v 2 i và hệ số hồi quy σ 2 v 0 i v, cả hai đều tiến về 0.
Drug (0 = placebo, 1=drug) 0.281 0.761 0.37 0.71 Thời gian (Căn bậc 2) - 1.477 0451 -3.27 0.001 Drug theo thời gian -1.587 0.479 -3.31 0.001
Việc phân tích dữ liệu trong mô hình ảnh hưởng cố định và mô hình hồi quy ảnh hưởng hỗn hợp có sự khác biệt, nhưng kết luận của chúng vẫn nhất quán Cụ thể, các nhóm không khác nhau tại thời điểm khởi đầu (Tuần 1) hoặc vạch ranh giới, trong khi nhóm placebo cho thấy giá trị âm theo thời gian Điều này cho thấy nhóm Drug vẫn duy trì xu hướng lớn hơn giá trị âm Bảng 5.6 cung cấp thông tin về hệ số hồi quy, sai số chuẩn và ma trận phương sai của biến ngẫu nhiên.
Ngoài ra, hệ số ước lượng 0 47
Kết quả phân tích cho thấy sự khác biệt rõ rệt giữa hai nhóm placebo và drug, với giá trị trung bình ước lượng lần lượt là 6.03 và 6.31 Tuy nhiên, độ lệch chuẩn trong phân phối cần được xem xét để hiểu rõ hơn về sự biến thiên trong dữ liệu.
7 = Tương tự, giá trị trung bình là -1.48 và 3.06 cho hai nhóm - placebo và drug Độ lệch chuẩn của sai số là 3 12 = 1 77
Hình 5.4 là biểu diễn của ước lượng Bayes cho mỗi đối tượng trong mẫu:
Theo hình 5.4, cả hai nhóm bệnh nhân dùng thuốc và giả dược đều có nhiều giá trị âm hơn giá trị trung bình của mỗi nhóm, thể hiện ở vị trí bên trái giá trị 0 trên trục x Một số bệnh nhân, những người không thấy tình trạng bệnh cải thiện theo thời gian, lại nằm ở bên phải của hình 5.8.
Hai hình sau cho thấy xu hướng tình trạng của các bệnh nhân theo thời gian của các nhóm bệnh nhân:
Các đường trên được có công thức như sau:
Trong đó giá trị tương ứng cho mỗi nhóm đối tượng Drug (0, 1), Week
Theo ước lượng Bayes cho v0i và v1i, biểu đồ cho thấy bệnh nhân sử dụng placebo có khả năng cải thiện sức khỏe cao hơn theo thời gian, trong khi bệnh nhân sử dụng thuốc có xu hướng ốm yếu hơn.
Cuối cùng chúng ta có đồ thị sau:
MÔ HÌNH HỒI QUY THEO KHOẢNG CÁCH
Mô hình tuyến tính tổng quát trong hệ trực giao
Chúng ta xét mô hình tuyến tính tổng quát sau:
Với ma trận W có kích thước n × p và hạng p, cùng với vecto đơn vị 1 có kích thước n × 1, chúng ta đặt γ 0 là tham số tỷ lệ chưa biết và γ là ma trận p × 1 chưa biết Giả thuyết của chúng ta là
E = 0 , ' = σ 2 , trong đó σ 2 chưa xác định Biến phụ thuộc Y liên tục
W = 1, 2, , được xác định bởi p biến ước tính Các vectơ W_i đại diện cho trung bình của biến thành phần thứ i trong biến W Đặt w = (w_1, w_2, , w_p)' là vectơ trung bình của các biến ước tính Do đó, ước lượng bình phương bé nhất của γ_0, γ là:
Giả sử rằng w = (w1, w2, , wp)' là một biến quan sát trong một biến độc lập mới, thì giá trị ước tính của biến phụ thuộc Y được tính bằng công thức ˆy(w) = y - wγˆ + w'γˆ Để thuận tiện trong việc sử dụng, công thức này sẽ được đặt tên là (1).
Với β 0 = γ 0 + w ' γ , X ∗ = H W , trong đó H là ma trận:
Hơn nữa, nếu chúng ta phân tích X * X * ' = V ∧ V ' với ∧ = diag ( λ 1 , λ 2 , , λ p ) là ma trận trị riêng đường chéo của X * X *’ , Khi đó ( 4) trở thành: 6.
Với X = X * V , γ = V β Chúng ta xem xet (6 5) như trong công thức ( 1) trong hệ 6. trực chuẩn (COF: centered orthogonal form) The OLS ước lượng của β 0 , β trong (6 5) là: β ˆ 0 = y , β ˆ = ∧ − 1 X ' Y (6.6)
Chú ý rằng, các biến ước tính X = (X 1 , X 1 , …, X p ) của mô hình trong COF thỏa mãn:
X i ' X i = λ i , X i ' X j = 0 , i ≠ j , X i ' 1 = 0 (6.7) Khi một biến quan sát w = ( w 1 , w 2 , , w p ) ’ là biến độc lập nhận được từ biến p 2
Chúng ta có giá trị ước lượng: y ˆ ( w ) = y − x ' ∧ − 1 + X Y ' (6.8) Đặt (6 8) trong dạng:
Mô hình hồi quy khoảng cách cơ bản
Giả sử có biến phụ thuộc Y liên tục với vector W, trong đó W là ma trận hỗn hợp liên tục, nhị phân và minh bạch Các mô hình hồi quy cổ điển không phù hợp với trường hợp này Thông thường, mọi đối tượng được định nghĩa qua định tính và định lượng, nhưng với các biến hỗn hợp trong ứng dụng y học, kinh tế, chỉ một số mô hình là phù hợp Đặt một tập n biến độc lập S = (1, 2, …, n), khi xét độ đo trên Y và W, ta nhận được vector Y = (y1, y2, …, yp)' và định nghĩa hàm khoảng cách d(.) phụ thuộc vào ma trận.
W chúng ta nhận được ma trận n × n chiều D = (d ij ) với d ij là khoảng cách 2 điểm độc lập i, j Chúng ta không thảo luận về cách định nghĩa khoảng cách, nhưng chúng ta có thể giả thiết d ij dần đến 0 nếu ma trận W ứng với i, j là tương tự nhau, hay là d ij ~ 0 nếu w i ≅ w j
Giả sử D = (d ij ) là ma trận khoảng cách Euclit, và đặt A = (a ij ) với 2 ij ij a = − d Từ đó, B được xác định là B = H A H, và chúng ta biết rằng B là ma trận positive semi-definite.
Giả sử ma trân B có rank(B) = m thì:
Với X là ma trận n× m chiều có rank = m
X ' X = Λ = diag ( λ 1 , λ 2 , λ m ) , (6.10) Với λ i , i = 1 , 2 , m là trị riêng dương của B khi đó hàng x 1 ' , x 2 ' , , x ' m của ma trận
X là tọa độ chính của S tương ứng với ma trận D Khi đó ta có: d ij = ( x i − x j ) ( ' x i − x j )
Như chúng ta đã giả thiết: w i ≅ w j , → x i ≅ x j Đặt X = (X (k) , Z), với X (k) là cột thứ k của ma trận X chúng ta giả sử mô hình tuyến tính:
Ký hiệu: X (k) = (X 1 , …, X k ) với X i là cột thứ i của ma trận X khi đó (11) trở thành: k k i i i X e
Trong bài viết này, chúng ta xem xét mô hình với tham số β 0 và vecto tham số k chiều β (k) = (β 1, β 2, …, β k)' Chúng ta quan tâm đến k biến ước tính X 1, X 2, …, X k và làm rõ vai trò của chúng như những thành phần chính trong mô hình Khi k = m = n, mô hình được biểu diễn qua phương trình (6.11).
Chú ý rằng các vecto riêng X1, X2, …, Xk của ma trận B tương ứng với các trị riêng 0, λ1, …, λk, và các Xi đáp ứng điều kiện (7) Do đó, mô hình (11) trong COF và OLS ước lượng β0 và β được xác định như sau: βˆ0 = y, βˆ(k) = ∧k−1 X('k) Y với Λ = diag(λ1, λ2, …, λk) Để xác định biến ước lượng, tức là một cột của X cần thêm vào hoặc xóa đi, chúng ta sắp xếp theo thứ tự giảm dần giá trị tuyệt đối của Y: r2(Y, X1) > r2(Y, X2) > … > r2(Y, Xk).
Tiếp theo, chúng ta đặt k = p, trong đó p đại diện cho số chiều của biến ước lượng vector W Hơn nữa, một biến Xj có thể bị loại bỏ nếu βj = 0 Điều kiện kiểm tra có thể được xác định dựa trên tiêu chí này.
Các u j này tuân theo phân phối t Student với (n - -k-1) d.f
Bây giờ, chúng ta giả sử ( Y − y 1 ) ∈ E m với E m là không gian con cho bởi 1 cột của
X Khi đó mô hình đầy đủ là:
Z chứa cột có tương quan yếu với Y, nên ˆ ( ) k
Z β n − xem như là sai số eˆ , và mô hình này phù hợp với mô hình hồi quy cổ điển chú ý rằng (6.14) luôn thỏa mãn m = n -1
Chúng ta quan tâm mô hình (11) và ước lượng OLS trong (13) Đặt
(6.16) Đặt r(Y, X i ) là hệ số tương quan giữa Y và biến ước tính X i giá trị trung bình của
X i là 0 và phương sai là λ i n , do đó:
Thay vào (6.16) và (6.17) suy ra:
Lưu ý rằng R k 2 < R 2 k + 1, và đẳng thức này xảy ra khi biến Y không tương thích với biến ước lượng X k+1 Hơn nữa, giá trị R đạt cực đại đối với k quan sát, và chúng ta chỉ chọn k biến ước lượng đầu tiên là k 2.
6.2.3 Ước tính một quan sát mới
Giả sử có một vector (n + 1) chiều độc lập với các giá trị w = (w1, w2, , wp) trong khoảng (0, n + 1) Mục tiêu là xác định biến phụ thuộc Y(w) = yn+1 Chúng ta có thể sử dụng hàm d(.,.) để tính toán khoảng cách d i cho i = 1, 2, , n.
Từ (n + 1) bước trong tập S giả thiết n + 1 không thể tính khoảng cách: d i 2 = ( x i − x ) ( ' x i − x ) , i = 1 , 2 , m
Nghía là: d i là khoảng cách Euclid từ trục x đến hàng i của ma trận X( n × m )
Theo kết quả của Gower[1968], x thu được là:
Với b = ( b 11 , b 12 , , b nn ) ' là vecto là đường chéo của ma trận: B = X X’, với
Thay thế ( 6.19) vào (6 18) ta được: y n 1 y ( b d ) ' X 2 X ' Y
2 ˆ + = + 1 − Λ − Đặt B − = X Λ 2 X ' , BB − B = B , chúng ta nhận thấy B là ma trận nghịch đảo của −
Tuy nhiên, công thức sau dễ tính toán hơn: ˆ y n + 1 = y + x ' Λ − 1 X ' Y (6.21)
Khi x thỏa mãn điều kiện (6.19), ước tính (6.21) được xem là mô hình đầy đủ, tức là mô hình hồi quy với k = m Tuy nhiên, chúng ta cần tập trung vào trường hợp k = p để đạt được giá trị R k 2 lớn nhất.
Chúng ta xét như sau:
Khi xóa chiều trục z hoặc không quan tâm đến trục z, chúng ta nhận được ước tính y ˆ n + 1 = y + x ( ' k ) Λ − k 1 X ( ' k ) Y Điều đáng lưu ý là Y có mối tương quan yếu với biến ước tính m k, dẫn đến việc Z – ’ Y tiến gần đến 0.
(6 22) đưa ra ước tính Y trong (n+1) chiều tương ứng với ( 11), khi khoảng cách d 6 ij , i = 1,
…, n là hợp lệ Chú ý rằng z là quá lớn nên ( 22) không cho kết quả tốt, nhưng x nhận 6. được sẽ là một giá trị không thích hợp (outlier) Đặt: y n + 1 ( k ) = ˆ y n + 1 ( k ) + e k
Với y n+1 (k) là giá trị tương ứng của biến x ( k ) = ( x 1 , , x k ) ' , và giả sử var( e k ) = σ 2 , khi đó chúng ta có:
+ + k i i i n n x y n y Để ước lượng σ 2 , chúng ta dùng công thức:
Mô hình cổ điển
Mô hình distance-based (DB model) tương thích với mô hình hồi quy cổ điển (CR model) khi biến ước tính là liên tục và có khoảng cách Euclide Tính tương đương này cũng áp dụng cho biến định tính khi khoảng cách dựa trên hệ số được sử dụng.
Giả sử rằng W = ( W 1 , W , p ) như trong mô hình (1) là liên tục Đặt w 1 ' , , w ' n là các hàng của W Bây giờ chúng ta chọn định nghĩa khoảng cách là khoảng cách Euclide: d ij 2 = ( w i − w j ) ( ' w i − w j ) = w i ' w i + w ' j w j − 2 w i ' w j (6.24)
Và chúng ta nhận được ma trận D = (d ij ) Khi đó D ∗ D = ( ) d ij 2 là
Với mọi hàng và cột đều bằng S r và S c tương ứng Do đó:
Do đó mô hình distance based đầy đủ ( 12) là mô hình tuyến tính( - 6 6 1) trong COF. Cho w là quan sát của biến ước tính của một biến độc lập thì
Khi 1 ' X = 0 , X ' X = Λ m chúng ta nhận được: ˆ n + y 1 = + y ' x X ' Λ X − 2 X ' Y = y + x ' Λ − 1 X ' Y
Hay chúng ta có công thức (6.8)
Chúng ta không cần quá bận tâm về khoảng cách p chiều trong không gian Euclide, vì bất kỳ định nghĩa nào về khoảng cách đều có thể chấp nhận được Miến là một định nghĩa thỏa mãn các điều kiện nhất định Xét không gian con E m trong các cột X, với X là một metric áp dụng cho dữ liệu, khi đó nếu đặt k > p với phần lớn cột của X, mô hình Dashboard sẽ cải tiến mô hình CR khi (Y - y1) thuộc E m Điều này luôn đúng khi m = n - 1 Ví dụ, δ ij 2 = ∑ h p = 1 (w ih - w jh)².
Trong không gian Euclide (n – 1) chiều, khoảng cách được định nghĩa là D = (d ij), với điều kiện w i ≠ w j và i ≠ j Mô hình CR không thể cải thiện mô hình Dashboard khi k > p nếu sử dụng δ Để minh họa, giả sử p = 1 và đặt r = r(Y, X i ), với I = 1, 2, …, m, các tương quan giảm dần và γ i = r(X, X i ), i = 1, …, m, trong đó X là biến ước tính Giả thiết rằng mọi tương quan đều dương, ta có ∑ m i = 1 r i γ = 1 và tương quan của Y với X là r(Y, X) = ∑ m i = 1 r i γ i.
Và tương quan của Y với biến ước tính Yˆ k theo công thức ( 15) là: 6. r ( ) Y , Y ˆ k = ( ∑ i k = 1 r i 2 ) 1 2
1 → γ , nhưng r(Y,X) có thể lớn hơn 1 r Tuy nhiên với k >
Mô hình DB cải tiến mô hình CR, nhưng bất đẳng thức (25) không hợp lệ khi mỗi r i tiến tới γ i Trong trường hợp r(Y, X) tiến tới 1 và mô hình CR đủ tốt, việc sử dụng mô hình DB trở nên không cần thiết.
Giả sử W1, W2, , Wp là các biến định tính, trong đó mỗi W r đại diện cho một biến trạng thái q r Độ đo giữa hai biến độc lập i và j được biểu thị bằng số m ij, với điều kiện 0 ≤ m ij ≤ p Hệ số m ij p là hệ số tương ứng của bất kỳ biến nhị phân nào.
Chúng ta chọn định nghĩa khoảng cách: d ij 2 = 2 ( p − m ij )
Mỗi biến nhị phân (0,1) có thể được biểu diễn bằng mỗi W r, khiến cho d trở thành khoảng ij 2 theo cách Euclide Do đó, mô hình DB được rút gọn thành mô hình CR cho các biến định tính với hai trạng thái là 0 (không) và 1 (có).
Giả sử rằng chúng ta có biến vecto W = ( X 1 , X 2 ) , với X 1 là biến vecto liên tục và
Biến vecto định tính X2 được xác định bằng cách sử dụng khoảng cách bình phương, tương tự như mô hình cổ điển Điều này cho thấy rằng biến định tính có thể được mô tả theo cách tương tự như các mô hình trước đó.
Khoảng cách trong thống kê không có một định nghĩa rõ ràng Một định nghĩa khả thi là khoảng cách Rao, được đề xuất bởi Rao vào năm 1945 và sau đó được nghiên cứu bởi Atkinson và Mitchell vào năm 1981, cũng như Burbea và Rao vào năm 1982 Cuadras (1988a) và Oller (1989) đã mở rộng khái niệm về khoảng cách giữa các biến độc lập.
Và như các công thức trên, Gower (1966, 1968) và đến năm 1971 đối với các dữ liệu hỗn hợp, công thức do ông đề xuất:
Trong bài viết này, p1 đại diện cho số lượng biến liên tục, trong khi a và d lần lượt là số lượng các số dương và âm tương ứng p2 là biến nhị phân, và α là số tương thích cho p3, biến đa trạng thái G h thể hiện khoảng giá trị của biến liên tục thứ h Khoảng cách bình phương giữa hai biến độc lập i và j được tính bằng công thức d ij 2 = 1 − s ij, và D = ( ) d ij là ma trận khoảng cách Euclide trong n biến độc lập.
Một số kết quả đưa ra:
2.501 1.564 Health status CR mô hình
Chúng ta sẽ so sánh hai mô hình DB và CR thông qua một số ví dụ cụ thể Kết quả của mô hình DB được tính toán bằng công thức Gower với k biến đầu vào Chúng ta cũng sẽ ước lượng hệ số R² và giá trị n y.
C = ∑ i y i − ˆ i 2 với yˆ là giá trị ước tính nhận được thứ i từ dữ i liệu ban đầu
Dữ liệu từ Weisberg (1985) cho thấy tỷ lệ tai nạn trên 39 đường cao tốc ở bang Minnesota năm 1973, với 13 biến độc lập bao gồm 3 biến nhị phân, 3 biến định tính và 7 biến liên tục.
Dữ liệu từ nghiên cứu của Abrahamse và Kisch (1975) mô tả trạng thái sức khỏe thông qua 6 biến độc lập Nghiên cứu này sử dụng 99 mẫu ngẫu nhiên từ tổng số 7710 công dân trưởng thành tại Mỹ, bao gồm 2 biến nhị phân, 1 biến định tính và 3 biến liên tục.
Kết quả nghiên cứu từ nhóm hướng dẫn SAS/IML (1985) tập trung vào hai loại nhiên liệu: ethanol và indolene Nghiên cứu này xem xét ba biến độc lập, bao gồm một biến nhị phân, một biến định tính và hai biến liên tục.
Trong luận văn này, chúng tôi đã phân tích kết quả từ dữ liệu bằng mô hình hồi quy Logistic và mô hình hồi quy ảnh hưởng hỗn hợp, đồng thời nêu ra một số điểm quan trọng cần lưu ý trong quá trình thực hiện.
Mô hình hồi quy Logistic và hồi quy Profit thường cho kết quả kém hơn so với mô hình hồi quy ảnh hưởng hỗn hợp, nhưng lại yêu cầu khối lượng tính toán thấp hơn Tuy nhiên, nhờ vào sự phát triển mạnh mẽ của máy tính và các hệ thống phần mềm phân tích thống kê, mô hình ảnh hưởng hỗn hợp hiện nay trở nên phổ biến hơn Các mô hình này chủ yếu được áp dụng khi biến phụ thuộc là biến đo lường nhị phân.