Ứng dụng mô hình hồi qui Logistic để xác định mối quan hệ giữa kết

Một phần của tài liệu Đánh giá một số chỉ tiêu chất lượng của khăn dùng một lần (Trang 57 - 61)

đánh giá của người dùng thử và các thông số cấu trúc và cơ học của mẫu thực nghiệm

Để xác định mối quan hệ giữa kết quả đánh giá của người dùng thử và các thông số cấu trúc và cơ học của mẫu thực nghiệm, mô hình hồi qui Logistic đa biến được ứng dụng.

Mô hình hồi qui Logistic được phát triển bởi David R. Cox [13]. Mô hình hồi qui Logistic thường được ứng dụng để mô tả mối liên quan giữa biến phụ thuộc và biến độc lập khi biến phụ thuộc là biến nhị phân, biến độc lập là biến phân loại hoặc liên tục. Mô hình này cũng được sử dụng để kiểm soát các biến nhiễu (controlling for confounders) và phát triển các mô hình dự báo, tiên lượng rất hiệu quả. Mô hình này được ứng dụng nhiều trong các nghiên cứu thực nghiệm của các ngành kỹ thuật, kinh tế và y học. Mô hình hồi qui Logistic được áp dụng cho nghiên cứu này bởi các thông số cấu trúc và cơ học vải đều được xét tới đều là biến liên tục, đại lượng đầu ra là kết quả đánh giá của người dùng thử lại là biến nhị phân (“Thích” hay “Không thích”), phù hợp với điều kiện áp dụng mô hình này [12].

Mô hình hồi qui logistic [14]:

Cho một tần số biến cố x ghi nhận từ n đối tượng, có thể tính xác xuất của biến cố đó là:

P = x/n

Trong đó: P có thể xem là một chỉ số đo lường nguy cơ của một biến cố x.

Một cách thể hiện nguy cơ khác là Odds, tạm dịch là khả năng. Odds (danh từ) là xác suất biến cố xảy ra chia cho xác suất biến cố không xảy ra.

Odds = P/(1-P)

P có thể nhận các giá trị từ 0 đến 1, nên P/(1-P) sẽ là biến liên tục. Khi giá trị của P thấp thì giá trị của Odds rất gần với giá trị của P. Khi P= 0,5 thì Odds =1.

Hàm Logit của Odds được định nghĩa như sau:

Logit (P) = log (P/(1-P))

Mô hình hồi qui logistic dựa trên khái niệm Logit. Mối liên hệ giữa P và logit(P) là một mối liên hệ liên tục. Nếu gọi X là biến đầu vào – biến độc lập, P là xác suất của một biến cố (outcome) thì mô hình hồi qui Logistic có dạng:

Logit (P) = α + βX

Hay:

log [(P/(1-P)] = α + βX

Hai thông số α và β được ước tính từ dữ liệu nghiên cứu. Tuy nhiên, ý nghĩa của hai thông số này, đặc biệt là β rất khác với mô hình hồi qui tuyến tính thông thường. Dạng mô hình trên cũng có thể được viết lại thành:

Odds (P) = P/(P-1) = eα + βx

Mô hình hồi qui logistic vừa trình bày ở trên có nghĩa là mối liên hệ giữa xác suất xảy ra biến cố x(p) và biến độc lập X là mối liên hệ theo hình chữ S thuận hoặc nghịch. Mô hình còn cho thấy xác xuất xảy ra biến cố còn phụ thuộc vào giá trị của X. Do đó, từ mô hình có thể viết chính xác hơn rằng khả năng xảy ra biến cố với điều kiện x là:

Odds (p|x)= eα + βx

Khi x=xo, khả năng “thích” trong nghiên cứu này (của người dùng thử sản phẩm khăn ướt ) là: odds (p|x=xo)= eα + βx0

Khi x=xo +1, (tức tăng 1 đơn vị từ xo), khả năng “thích” là:

odds (p|x=xo+1)= eα + β(x0+1)

và tỷ số của hai xác suất xảy ra biến cố “thích”:

[odds (p|x=xo+1)]/ [odds (p|x=xo)] = eα + β(x0+1) / eα + βx = eβ

eβ còn được gọi là Odds Ratio, tạm dịch là tỷ số khả năng hay tỉ số khả dĩ. Nói cách khác, hệ số β trong mô hình hồi qui logistic chính là tỷ số khả dĩ.

Phương pháp được sử dụng để ước tính các thông số trong mô hình hồi qui logistic là khá phức tạp, thường dùng phương pháp Likelihood – tức phương pháp

hợp lý cực đại. Phương pháp này cung cấp một hệ phương trình như sau:

Trong đó, yi là biến phụ thuộc (tương ứng với đầu ra “Thích” hay “Không thích” trong nghiên cứu này), và xi là biến độc lập (tương ứng với thông số cấu trúc và cơ học của mẫu trong nghiên cứu này), và n là số mẫu. Để tìm ước số α^và β^

, một trong những phương pháp hay sử dụng là iterative weighted least square hay Newton-Raphson. Trong phần mềm xử lý số liệu R (mà được sử dụng trong nghiên cứu này), sử dụng phươg pháp Newton-Raphson để tìm hai ước số đó.

Sau khi đã có α^và β^, ta có thể ước tính xác suất p cho bất cứ giá trị nào của x như sau:

Chú ý rằng, ta dùng dấu mũ p^ để chỉ số ước tính (predicted value), chứ không phải p là xác xuất quan sát. Nếu mô hình mô tả dữ liệu tốt và đầy đủ, độ khác biệt giữa p và p^ nhỏ. Nếu mô hình không thích hợp hay không tốt, độ khác biệt đó có thể sẽ cao. Độ khác biệt giữa p và p^ được gọi là deviance. Khi chúng ta có nhiều mô hình để mô phỏng một hay nhiều mối liên hệ, deviance có thể được sử dụng để đánh giá sự thích hợp của mô hình hay để chọ mô hình “tối ưu”.

Phân tích hồi qui Logistic đa biến và chọn mô hình [13]:

Do có nhiều biến đầu vào là các thông số cấu trúc và cơ học mẫu nên để xác định mối qua hệ giữa các thông số này của mẫu khăn ướt thí nghiệm và xác suất

người dùng thử “Thích” hay “Không thích” sản phẩm, cần sử dụng phân tích hồi qui Logistic đa biến.

Mô hình Logistic đa biến áp dụng cho nghiên cứu có dạng:

Logit (P) = ao + a1X1 + a1X2 + ... + anXn

Trong đó: X1, X2, ..., Xn là các thông số của mẫu

P là xác xuất người dùng thử “Thích” sản phẩm mẫu.

Một trong những vấn đề khó khăn và thậm chí khá nan giải trong việc phân tích hồi qui Logistic đa biến là chọn mô hình để có thể mô tả đầy đủ dữ liệu. Một nghiên cứu với một biến phụ thuộc y và 3 biến độc lập x1, x2 và x3, chúng ta có thể có nhiều mô hình sau đây để mô tả mối liên hệ: y = f(x1), y = f(x2), y = f(x1, x2), ... trong đó gồm các mô hình 1, 2 hoặc 3 biến.

Nói chung với k biến độc lập, ta có 2k mô hình để mô tả mối quan hệ với biến phụ thuộc y. Trong điều kiện có nhiều mô hình khả dĩ như thế, vấn đề đặt ra là mô hình nào được xem là tối ưu nhất.

Câu hỏi trên cần được xem xét thế nào là “tối ưu”? Một mô hình tối ưu cần đáp ứng 3 tiêu chuẩn: đơn giản, đầy đủ, có ý nghĩa thực tế.

Tiêu chuẩn “đơn giản” đòi hỏi mô hình có ít biến số độc lập, vì nếu có quá nhiều biến số thì vấn đề diễn dịch sẽ trở nên khó khăn, và có khi thiếu tính thực tế cũng như gây tốn kém. Một mô hình với 3 biến độc lập mà có khả năng mô tả dữ liệu tương đương với 5 biến độc lập thì mô hình 3 biến sẽ được chọn. Một mô hình đơn giản là một mô hình tiết kiệm biến.

Tiêu chuẩn “đầy đủ” có nghĩa là mô hình đó phải mô tả dữ liệu một cách thỏa đáng, tức là phải mô tả, dự báo gần (hay càng gần càng tốt) với dữ liệu thực tế quan sát của biến phụ thuộc y.

Một thước đo quan trọng và có ích để đánh giá tính đơn giản và đầy đủ của mô hình là chỉ số Akaike Information Criterion (AIC). AIC được ước tính từ công thức:

AIC = Residual Deviance + số thông số trong mô hình

Trong đó, Residual Deviance là đại lượng được ước tính bằng phần mềm R và thể hiện trong kết quả của mô hình.

Hoặc cũng có thể tính theo công thức:

AIC = RSSp /RSSfull + 2p

Trong đó, RSSp (Residual Sum Square - tổng bình phương dao động dư) là giá trị xác định của mô hình có p biến đầu vào. RSSfull là giá trị xác định của mô hình có tất cả các biến đầu vào. p là số biến đầu vào của mô hình.

Một mô hình đơn giản và đầy đủ là mô hình có AIC càng thấp thì càng tốt và các biến độc lập phải có ý nghĩa thống kê. Vì vậy, tìm mô hình tối ưu nhất là tìm mô hình có AIC thấp nhất hay gần thấp nhất.

Có thể xem xét nhiều mô hình bằng cách thay thế các biến số với các tổ hợp khác nhau. Tuy nhiên làm như vậy sẽ mất rất nhiều thời gian và phức tạp. Phần mềm R cho phép tìm kiếm mô hình đơn giản và đầy đủ bằng hàm step. Sau đó dùng lệnh search để xem kết quả tìm kiếm. Kết quả thể hiện sẽ cho biết quá trình tìm kiếm mô hình tối ưu.

Một phần của tài liệu Đánh giá một số chỉ tiêu chất lượng của khăn dùng một lần (Trang 57 - 61)

Tải bản đầy đủ (PDF)

(86 trang)