Kiểm định thống kê

Một phần của tài liệu Phương thứ họ máy trự tuyến dựa trên mô hình bayes (Trang 28 - 31)

2.5 Phương pháp đánh giá và so sánh

2.5.2 Kiểm định thống kê

Trong các bài toán xác suất thống kê nói chung, kiểm định thống kê là một trong các bước rất quan trọng và là cơ sở để có thể chấp thuận hay bác bỏ một giả thuyết nào đó với một mức độ chắc chắn nhất định. Tương tự như vậy trong các bài toán học máy, đặc biệt là các bài toán phân loại ta cần thực hiện bước kiểm định thống kê khi so sánh và đánh giá độ hiệu quả của các thuật toán học có giám sát khác nhau. Từ đó ta có cơ sở để khẳng định rằng thuật toán A tốt hơn thuật toán B về khả năng phân loại chứ không phải là chỉ ngẫu nhiên đạt được độ chính xác cao hơn thì là tốt hơn.

Trong phần này, tác giả luận văn xin giới thiệu về một số kiểm định phổ biến thường được dùng để so sánh giữa các thuật toán phân loại. Ngoài ra, tác giả cũng xin giới thiệu về hai thủ tục để thực hiện kiểm định thống kê cho bài toán phân loại sử dụng các thuật toán học có giám sát.

Để bắt đầu thực hiện kiểm định ta cần phải định nghĩa giả thuyết mà chúng ta đang nghi ngờ nó đúng hoặc sai. Giả thuyết này được gọi làgiả thuyết không (null hypothesis), ký hiệu làH0. Nếu chúng ta bác bỏ giả thuyết H0thì ta phải chấp thuận một giả thuyết khác, giả thuyết đó thường được gọi là giả thuyết thay thế (alternative hypothesis) - trong một số tài liệu giả thuyết thay thế còn được gọi là đối thuyết, ký hiệu làH1. Để cho ngắn gọn, tác giả sẽ sử dụng thuật ngữ đối thuyết thay cho giả thuyết thay thế. Nếu chúng ta bác bỏ giả thuyếtH0

trong khi thực tế nó đúng thì tức là chúng ta đã mắc sai lầm loại I, trong khi nếu chúng ta chấp thuận giả thuyết H0nhưng trong thực tế nó sai thì đó là sai lầm loại II. Xác suất mắc phải sai lầm loại I thường được ký hiệu là α và được gọi là mức ý nghĩa của kiểm định. Như vậy, xác suất để chấp thuậnH0khi nó đúng là (1- ). Trongα một phép kiểm định, mức ý nghĩa nhỏ nhất, tại đó giả thuyếtH0có thể bị bác bỏ được gọi là giá trị xác suất (p-value).

Quay trở lại với bài toán so sánh độ hiệu quả của hai thuật toán phân loại, giả thuyếtH0được lựa chọn là

"Hai thuật toán là tương đương nhau" hay nói cách khác là "Độ hiệu quả của hai thuật toán là tương tự nhau, không có sự khác biệt". Ngược lại, đối thuyết củaH0sẽ làH1: "Hai thuật toán là hoàn toàn khác biệt".

Trong học có giám sát, để xây dựng một mô hình phân loại ta cần phải có 2 tập dữ liệu, tập huấn luyện (training set) và tập kiểm thử (test set). Tuy nhiên trong một số trường hợp tập dữ liệu của chúng ta là khá nhỏ, việc chia thành 2 tập huấn luyện và tập kiểm thử có khả năng làm mất đi phân bố của dữ liệu. Để giải quyết vấn đề đó ta có thể sử dụng thủ tục T-Folds Cross Validation để xây dựng mô hình phân loại. Do đó, tác giả xin giới thiệu 2 thuật toán dùng để thực hiện so sánh tương ứng với 2 tình huống khi ta xây dựng các bộ phân loại ở trên. Thuật toán mô tả các bước thực hiện so sánh nếu chúng ta xây dựng các bộ phân loại dựa trên tập huấn3 luyện và tập kiểm thử, trong khi đó thuật toán tương ứng với việc so sánh cho mô hình phân loại sử dụng thủ4 tục T-Folds Cross Validation.

Algorithm 3Thuật toán so sánh bộ phân loại được xây dựng bằng cách chia tập huấn luyện và kiểm thử Input: Tập huấn luyện , Tập kiểm thửD Dt, Thuật toán phân loạiK1,Thuật toán phân loạiK2

Output: Kết quả kiểm định thống kê (Xây dựng các mô hình phân loại)

1: Xây dựng mô hình phân loạiBC1tương ứng với thuật toánK1

2: Xây dựng mô hình phân loạiBC2tương ứng với thuật toánK2 (Dự đoán với các quan sát trong tập kiểm thử)

3: Dự đoán nhãn lớp cho các quan sát trong tập kiểm thửDt theo mô hìnhBC1

4: Dự đoán nhãn lớp cho các quan sát trong tập kiểm thửDt theo mô hìnhBC2 (Tính toán các độ đo hiệu quả của mô hình (độ chính xác, F1))

5: Tính Acc1, F11của mô hìnhBC1

6: Tính Acc2, F12của mô hìnhBC2 (Tiến hành kiểm định)

7: Thực hiện kiểm định thống kê trên các giá trị Acc1, F11, Acc2và F12

8: return Kết quả kiểm định (Giá trị p-value)

Trong thuật toán , thủ tục T-Folds Cross Validation được sử dụng để tạo ra T tập kiểm thử4 D( )t không chồng (overlap) lẫn nhau từ tập dữ liệu gốcDban đầu. Hai thuật toán phân loại sẽ bắt đầu xây dựng mô hình học từ tập huấn luyệnD−D(t). Theo thuật toán ta sẽ thu được T4 ×itercác cặp thông số đánh giá mô hình học máy của hai thuật toán. Tiếp theo tác giả xin trình bày 2 phương pháp kiểm định được sử dụng phổ biến là t-test và Wilcoxon signed rank [ ]. Điểm khác biệt giữa hai phương pháp kiểm định này là t-test cần giả định39 rằng các mẫu quan sát được phải tuân theo phân phối chuẩn, trong khi Wilcoxon thì không cần phải có giả định này.

Algorithm 4Thuật toán so sánh bộ phân loại được xây dựng bằng cách sử dụng thủ tục Cross Validation Input: Tập dữ liệu , Số lần thực hiện thủ tục Cross ValidationD iter, Thuật toán phân loạiK1,Thuật toán phân

loạiK2

Output: Kết quả kiểm định thống kê

1: fori=1.. .iter do

2: Gọi thủ tục Cross Validation với tập dữ liệuD

3: fort=1.. .T do

4: Tập kiểm thửDit=D(t)

5: Tập huấn luyệnDit=D−Dit (Xây dựng các mô hình phân loại)

6: Xây dựng mô hình phân loạiBC1tương ứng với thuật toánK1

7: Xây dựng mô hình phân loạiBC2tương ứng với thuật toánK2 (Dự đoán với các quan sát trong tập kiểm thử)

8: Dự đoán nhãn lớp cho các quan sát trong tập kiểm thửDittheo mô hìnhBC1

9: Dự đoán nhãn lớp cho các quan sát trong tập kiểm thửDittheo mô hìnhBC2 (Tính toán các độ đo hiệu quả của mô hình (độ chính xác, F1))

10: Tính Acc1, F11của mô hìnhBC1

11: Tính Acc2, F12của mô hìnhBC2

12: end for

13: end for

(Tiến hành kiểm định)

14: Thực hiện kiểm định thống kê trên các giá trị Acc1, F11, Acc2và F12

15: return Kết quả kiểm định (Giá trị p-value)

Kiểm định t-test:Giả sử ta ký hiệudilà sự khác biệt giữa các thông số đánh giá của 2 thuật toánK1và K2tại lần thử nghiệm thứ trong sối iter×T lần thử nghiệm. Để tiến hành kiểm định t-test trước hết ta cần tính trung bình và phương sai của các giá trị khác biệt này sau đó tính thông số thống kê t.

d= 1

|iter× |T

iter×T

i=1

di (2.28)

s2= 1

|iter× |T

iter×T

i=1

(di−d)2 (2.29)

t= d q s2

iter×T

(2.30) Nếu|iter× |T đủ lớn, phân phối của giá trị sẽ phân phối Student với bậc tự do làt |iter× − |T 1 (t∼ Student(|iter× − |T 1))

Kiểm định Wilcoxon signed rank là phương pháp kiểm định không tham số do nó không cần phải có giả thuyết về phân phối của biến cần kiểm định. Đầu tiên, để thực hiện việc kiểm định các biếndi sẽ được xếp hạng theo giá trị tuyệt đối của chúng. Nếu trong trường hợp không có sự khác biệt giữa các giá trị thì chúng sẽ được gán bằng giá trị xếp hạng trung bình. Tiếp theo đó ta tính hai giá trịR+ vàRlà tổng các xếp hạng của các biếndi>0vàdi<0tương ứng.

R+= ∑

di>0

rank d( i) + 1 2 ∑

di=0

rank d( i) (2.31)

R= ∑

di<0

rank d( i) + 1 2 ∑

di=0

rank d( i) (2.32)

Giá trị R được xác định là giá trị nhỏ nhất trong hai giá trịR+vàR

R=min R( +,R) (2.33)

Khi số lần thử nghiệm|iter× |T lớn thì hàm phân phối có dạng như sau:

z=R−14×iter×T(iter×T+ )1 qiter×T(iter×T+ )(1 2×iterT+ )1

24

(2.34)

sẽ xấp xỉ phân phối chuẩn.

Dựa trên giá trị thống kê của và ta có thể thu được giá trịt z P−valuecủa mỗi kiểm định. Hai thuật toán được xác định là có hiệu năng hoàn toàn khác biệt nhau khi và chỉ khi giá trịP−valuethu được sau mỗi kiểm định nhỏ hơn mức độ tin cậy . Thông thường mức độ tin cậy được lựa chọn làα α=0 5. .

Một phần của tài liệu Phương thứ họ máy trự tuyến dựa trên mô hình bayes (Trang 28 - 31)

Tải bản đầy đủ (PDF)

(59 trang)