Dựa trên cách tính hồi quy đơn, sinh viên xây dựng thuật tốn tìm hàm hồi quy hay hàm tương

Một phần của tài liệu BÀI GIẢNG HỌC MÁY Ngành Khoa học Máy tính (Trang 61 - 65)

III. Bài tập và thí nghiệm chương

2. Dựa trên cách tính hồi quy đơn, sinh viên xây dựng thuật tốn tìm hàm hồi quy hay hàm tương

quan (có thể dung theo bước)

5.2.2 Hồi quy bội hay hồi quy tuyến tính nhiều biến

5.2.2.1 Khái niệm, phân tích, hàm hồi quy bội

Các khái niệm hồi quy bội tương tự hồi quy đơn. Điểm khác nhau cơ bản là thay vì mơ tả một biến x=[xi]= [x1, …, xn] trong đó, n là số các trường hợp, hay ví dụ (ở ví dụ trên n=10) thì ở đây, hồi quy bội có m biến tức là X={x1,…xj ,…xm}. Mỗi xj=[xij]=[ x11,…, xij,…, xnm]. Khi đó:

y=w0+w11x1+…wijxj+…+wnmxm (5.7)

trong đó: w0,… ,wij … là tập các tham số. Ở lĩnh vực hồi quy, nên ngươi ta đặt ra tên riêng gọi là các

hệ số hồi quy hay là các trọng số (weighs).

Trong trường hợp tổng quát, để xác định w0,… ,wij … trong (5.7) với y, X là liên tục, về mặt toán học,

W=[w¿¿j]=∂ yj

∂ xj¿ l=1..m

(5.8)

5.2.2.2 Mơ hình hồi quy bội trong các phần mềm SPSS

Rõ ràng, ví dụ trên cho thấy có thể có sai số và mơ hình cũng có dạng tương tự. Tuy nhiên, mơ tả tốn học trở nên phức tạp hơn. Để khắc phục việc mơ tả và tính tốn, hiện nay có các gói phần mềm thống kê, xác suất được cung cấp đầy đủ như: SAS, SPSS, S-Plus…

5.3. Hồi quy phi tuyến

Chúng ta sẽ tự hỏi: liệu có tồn tại mơ hình khơng phải là mơ hinh tuyến tính được mơ tả như (5.1) khơng? Có, đó là mơ hình quan hệ vào ra dạng hàm logarit, hàm mũ, hàm lượng giác, các hàm dạng đa thức v.v… đều có dạng đường cong, gọi là các hàm phi tuyến.

Ví dụ điển hình là hàm mơ tả quan hệ vào ra theo đa thức:

y=w0+w1x+w2x2+w3x3+… (5.9)

Để dự báo, đơn giản nhất, người ta chuyển dạng bậc cao về dạng tuyến tính bội bằng cách đổi biến

x=x1; x2=x2;x3=x3

Khi đó (5.9) trở thành: y=w0+w1x1+w2x2+w3x3+

(5.10)

Và việc giải được tiến hành như hồi quy tuyến tính bội.

Bài tập nhỏ về phồi quy phi tuyến: cho tính lương: vẽ sơ đồ để thấy mức phi tuyến

Bậc 0 Bậc 1 Bậc 2 Hệ số lương (tốc độ: w1 ở đây không hằng số Khởi điểm 0,2? 0,3? ….. Năm công tác X 0 (w0) 3 6 9 12 ….

5.4. Hồi quy logicstic

Hồi quy bội đã nêu là phương pháp phổ dụng để xấp xỉ quan hệ vào ra nhằm dự báo cho nhiều trường hợp đầu vào khác nhau. Tuy nhiên trong đại đa số các trường hợp, biến đầu ra thường dùng cho phân loại phổ biến hơn biến liên tục, khi đó, các nhà phân tích có xu hướng chuyển tới một phương pháp khác giống như hồi quy bội, gọi là hồi quy logistic. Hồi quy logistic là phương pháp mô tả quan hệ giữa biến phân loại và một tập các biến dự đoán.

1.1.2 5.4.1. Khái niệm và ví dụ hàm hồi quy logistic

Ví dụ dưới đây xét quan hệ một biến đầu vào X; tuổi của bệnh nhân có hay khơng [có: 1,

không:0] một bệnh y cho trong tập dữ liệu huấn luyện hay đơn giản là cơ sở dữ liệu sau [15].

Bảng 5.1. Bảng dữ liệu về BỆNH NHÂN Hình 1. Quan hệ TUỔI và BỆNH

ID X: Tuổi Y: Bệnh ID X: Năm Y: Bệnh 1 0 1 25 0 11 50 0 2 29 0 12 59 1 3 30 0 13 60 0 4 31 0 14 62 0 5 32 0 15 68 1 6 41 0 16 72 0 7 41 0 16 79 1 8 42 0 18 80 0 9 44 1 19 81 1 10 49 1 20 84 1

1.1.3 Phân tích hàm hồi quy logistic

a) Phân tích:

Dữ liệu là dùng cho phân lớp theo nghĩa đầu ra Y (nhãn) có giá trị nhị phân {0,1};

Đầu vào: X mang giá trị số (Numeric). Dữ liệu ở đây mang tính chất lai giữa hồi quy và phân

loại. Ta gọi là hồi quy Logicstic. Do lai, ta xét cả hai trường hợp:

 Giả thiết thứ nhất: Trên sơ đồ, đường hồi quy tuyến tính mơ tả bằng đường thẳng (màu đỏ) dạng như (5.11)

y=w0+w1x (5.11)

Từ bảng dữ liệu “Bệnh nhân”: w1=¿ ?; w0=?

 Giả thiết thứ 2: Đường hồi quy Logistic mô tả bằng hàm Sigmoid (màu xanh) dạng (5.12): y= 1 1+e−x= ex 1+ex (5.12) x 25 29 30 31 … 80 81 84 y= 1 1+e−x

Sau đó, ta sẽ đánh giá: với đầu vào x là tập dữ liệu thử, hàm (thể hiện qua mơ tả bằng đường tuyến tính và phí tuyến) nào khớp, chính xác hơn?

5.5. Hiệu suất của mơ hình

x y

Một khi bạn xây dựng mơ hình, câu hỏi tiếp theo đến trong đầu là để biết liệu mơ hình của bạn có đủ để dự đốn trong tương lai hoặc là mối quan hệ mà bạn đã xây dựng giữa các biến phụ thuộc và độc lập là đủ hay khơng. Vì mục đích này có nhiều chỉ số mà chúng ta cần tham khảo

R – Square (R^2)

(5.13) Cơng thức tính R^2 sẽ bằng:

(5.14)

Tổng các diện tích (TSS): TSS là một phép đo tổng biến thiên trong tỷ lệ đáp ứng / biến phụ

thuộc Y và có thể được coi là số lượng biến thiên vốn có trong đáp ứng trước khi hồi quy được thực hiện.

Sum of Squares (RSS): RSS đo lường lượng biến đổi cịn lại khơng giải thích được sau khi thực

hiện hồi quy.

 (TSS - RSS) đo lường mức độ thay đổi trong đáp ứng được giải thích (hoặc loại bỏ) bằng cách

thực hiện hồi quy

trong đó, N là số quan sát được sử dụng để phù hợp với mơ hình, σx là độ lệch chuẩn của x, và σy là độ lệch chuẩn của y.

 R2 giao động từ 0 đến 1.

 R2 của 0 nghĩa là biến phụ thuộc khơng thể dự đốn được từ biến độc lập

 R2 của 1 có nghĩa là biến phụ thuộc có thể được dự đốn mà khơng có sai số từ biến độc lập

 Một R2 giữa 0 và 1 chỉ ra mức độ mà biến phụ thuộc có thể dự đốn được. Một R2 của 0.20 có

nghĩa là 20 phần trăm của phương sai trong Y có thể dự đốn được từ X; Một R2 của 0.40 có nghĩa là 40 phần trăm là có thể dự đốn v.v...

Root Mean Square Error (RMSE).

RMSE cho biết mức độ phân tán các giá trị dự đoán từ các giá trị thực tế. Cơng thức tính RMSE là

(5.15)

N: Tổng số quan sát

Mặc dù RMSE là một đánh giá tốt cho các sai số nhưng vấn đề với nó là nó rất dễ bị ảnh hưởng bởi phạm vi của biến phụ thuộc của bạn. Nếu biến phụ thuộc của bạn có dải biến thiên hẹp, RMSE của bạn sẽ thấp và nếu biến phụ thuộc có phạm vi rộng RMSE sẽ cao. Do đó, RMSE là một số liệu tốt để so sánh giữa các lần lặp lại khác nhau của mơ hình

Mean Absolute Percentage Error (MAPE)

Để khắc phục những hạn chế của RMSE, các nhà phân tích thích sử dụng MAPE so với RMSE. MAPE cho sai số trong tỷ lệ phần trăm và do đó so sánh được giữa các mơ hình. Cơng thức tính MAPE có thể được viết như sau:

(5.16)

N: tổng số quan sát

5.6. Các mơ hình hồi quy khác

Dễ nhận thấy, mỗi khi các nhà phân tích học máy hoặc thống kê đưa ra một dạng hàm (mô tả bằng một đường thẳng hay đường cong) với một phương pháp nào đó thì người ta đặt cho 1 tên. Lý do: trong tự nhiên, nhiều hiện tượng, quan hệ có biểu hiện rất phức tạp. Khoa học (tốn học) liệu có theo kịp khơng, chưa? Hoặc có thể có những hàm đã tìm nhưng độ chính xác kém thì người ta tìm các đường (hàm) dự báo chuẩn hơn. Ví dụ: Dự báo bệnh Covid phát triển thế nào vào tháng 4, 5 tới?

Một số phương pháp khác có thể kể đến như:

- Toán học: hồi quy Logarit, hồi quy theo đường hình chng (Guas) Thống kê: Đường hồi quy theo phân bổ chuẩn, theo phân bổ Poit xông, Logistic

w2-1.490

Một phần của tài liệu BÀI GIẢNG HỌC MÁY Ngành Khoa học Máy tính (Trang 61 - 65)