Nghĩa là, ví dụ, sau khi sử dụng một thuật toán phân loại để huấn luyện một bộ phân loại trên một tập dữ liệu được rút ra từ một ứng dụng nào đó, chúng ta có thể khẳng định với đủ sự tự
Thiế t k ế và phân tích thí nghi ệ m Máy h ọ c
Gi ớ i thi ệ u
Trong các chương trước, chúng ta đã thảo luận về một số thuật toán học và thấy rằng, đối với một ứng dụng cụ thể, có nhiều thuật toán có thể áp dụng Bây giờ, chúng ta quan tâm đến hai câu hỏi:
1 Làm thế nào chúng ta có thể đánh giá được lỗi dự kiến của một thuật toán học trên một vấn đề? Nghĩa là, ví dụ, sau khi sử dụng một thuật toán phân loại để huấn luyện một bộ phân loại trên một tập dữ liệu được rút ra từ một ứng dụng nào đó, chúng ta có thể khẳng định với đủ sự tự tin rằng khi nó được sử dụng trong thực tế, tỷ lệ lỗi dự kiến của nó sẽ nhỏ hơn, ví dụ như
2 Cho hai thuật toán học, làm thế nào chúng ta có thể khẳng định rằng một thuật toán có lỗi nhỏ hơn thuật toán khác đối với một ứng dụng cụ thể? Các thuật toán so sánh có thể khác nhau, ví dụ như đối với các thuật toán tham số hoặc không tham số, hoặc chúng có thể sử dụng các thiết lập siêu tham số khác nhau Ví dụ, cho một perceptron đa tầng (chương 11) với bốn đơn vị ẩn và một perceptron khác với tám đơn vị ẩn, chúng ta muốn có thể nói rằng cái nào có lỗi dự kiến nhỏ hơn Hoặc với bộ phân loại kế thừa gần nhất (chương 8), chúng ta muốn tìm giá trị tốt nhất của k
Chúng ta không thể nhìn vào lỗi huấn luyện và quyết định dựa trên những điều đó Tỷ lệ lỗi trên tập huấn luyện, theo định nghĩa, luôn nhỏ hơn tỷ lệ lỗi trên một tập thử nghiệm chứa các trường hợp chưa được nhìn thấy trong quá trình huấn luyện
Tương tự, lỗi huấn luyện không thể được sử dụng để so sánh hai thuật toán Điều này bởi vì trên tập huấn luyện, mô hình phức tạp hơn với nhiều tham số hầu hết luôn cho ra ít lỗi hơn so với mô hình đơn giản Như chúng ta đã thảo luận nhiều lần, chúng ta cần một tập xác thực khác với tập huấn luyện Ngay cả trên tập xác thực, một lần chạy có thể không đủ Có hai lý do cho điều này: Thứ nhất, tập huấn luyện và xác thực có thể nhỏ và có thể chứa các trường hợp đặc biệt, như nhiễu và ngoại lệ, có thể đánh lừa chúng ta Thứ hai, phương pháp học có thể phụ thuộc vào các yếu tố ngẫu nhiên khác ảnh hưởng đến tổng quát hóa Ví dụ, với một perceptron đa tầng được huấn luyện bằng phương pháp lan truyền ngược, vì gradient descent hội tụ đến điểm cực tiểu cục bộ gần nhất, các trọng số ban đầu ảnh hưởng đến trọng số cuối cùng, và với cùng một kiến trúc và tập huấn luyện cụ thể, bắt đầu từ các trọng số ban đầu khác nhau, có thể có nhiều bộ phân loại cuối cùng có tỷ lệ lỗi khác nhau trên cùng một tập xác thực Do đó, chúng ta muốn có nhiều lần chạy để lấy trung bình qua các nguồn ngẫu nhiên như vậy Nếu chúng ta chỉ huấn luyện và xác thực một lần, chúng ta không thể kiểm tra tác động của những yếu tố như vậy; điều này chỉ được chấp nhận nếu phương pháp học quá tốn kém để chỉ được huấn luyện và xác thực một lần Chúng ta sử dụng một thuật toán học trên một tập dữ liệu và tạo ra một bộ học Nếu chúng ta huấn luyện chỉ một lần, chúng ta có một bộ học và một lỗi xác thực Để lấy trung bình qua sự ngẫu nhiên (trong dữ liệu huấn luyện, trọng số ban đầu, v.v.), chúng ta sử dụng cùng một thuật toán và tạo ra nhiều bộ học Chúng ta kiểm tra chúng trên nhiều tập xác thực và ghi lại một mẫu của lỗi xác thực (Tất nhiên, tất cả các tập huấn luyện và xác thực nên được lấy từ cùng một ứng dụng.) Chúng ta dựa trên phân phối này để đánh giá lỗi kỳ vọng của thuật toán học cho vấn đề đó, hoặc so sánh nó với phân phối tỷ lệ lỗi của một thuật toán học khác Trước khi tiếp tục với cách thực hiện điều này, quan trọng để nhấn mạnh một số điểm:
1 Chúng ta nên nhớ rằng bất kỳ kết luận nào chúng ta rút ra từ phân tích của mình đều được điều kiện bởi tập dữ liệu chúng ta được cung cấp Chúng ta không so sánh các thuật toán học theo một cách độc lập với miền, mà chỉ trong một ứng dụng cụ thể Chúng ta không nói gì về lỗi kỳ vọng của một thuật toán học, hoặc so sánh một thuật toán học với thuật toán học khác, nói chung Bất kỳ kết quả nào chúng ta có chỉ đúng cho ứng dụng cụ thể đó, và chỉ trong phạm vi ứng dụng đó được đại diện trong mẫu chúng ta có
Và dù sao, như được nêu trong Định lý No Free Lunch (Wolpert 1995), không có gì như "thuật toán học tốt nhất" Đối với bất kỳ thuật toán học nào, đều có một tập dữ liệu nơi nó rất chính xác và một tập dữ liệu khác nơi nó rất kém Khi chúng ta nói rằng một thuật toán học là tốt, chúng ta chỉ định rõ mức độ phù hợp về mặt khái niệm của nó so với các thuộc tính của dữ liệu
2 Việc chia một tập dữ liệu đã cho thành một số cặp tập huấn luyện và xác thực chỉ để kiểm tra mục đích Khi tất cả các kiểm tra hoàn thành và chúng ta đã chọn thuật toán học tốt nhất cho ứng dụng cụ thể, chúng ta muốn huấn luyện nó bằng toàn bộ dữ liệu đã cho Điều này chúng ta có thể làm đơn giản bằng cách gộp các tập huấn luyện và xác thực và sử dụng cùng một thuật toán học
3 Vì chúng ta cũng sử dụng tập xác thực để kiểm tra mục đích, ví dụ như để chọn ra thuật toán học tốt hơn trong hai thuật toán, hoặc để quyết định nơi để dừng quá trình học, nó hiệu quả trở thành một phần của dữ liệu chúng ta sử dụng Khi sau tất cả các kiểm tra đó, chúng ta quyết định về một thuật toán cụ thể và muốn báo cáo lỗi kỳ vọng của nó, chúng ta nên sử dụng một tập dữ liệu kiểm tra riêng biệt cho mục đích này, không được sử dụng trong quá trình huấn luyện hệ thống cuối cùng này Dữ liệu này không nên được sử dụng trước đó để huấn luyện hoặc xác thực và nên có kích thước lớn để ước lượng lỗi có ý nghĩa Vì vậy, khi có một tập dữ liệu, chúng ta nên lấy một phần như là tập kiểm tra và sử dụng phần còn lại cho huấn luyện và xác thực Thông thường, chúng ta có thể để một phần ba của mẫu là tập kiểm tra, sau đó sử dụng hai phần ba còn lại cho kiểm tra chéo để tạo ra nhiều cặp tập huấn luyện/xác thực, như chúng ta sẽ thấy sau đây Vì vậy, tập huấn luyện được sử dụng để tối ưu hóa các tham số, với một thuật toán học và cấu trúc mô hình cụ thể; tập xác thực được sử dụng để tối ưu hóa siêu tham số của thuật toán học hoặc cấu trúc mô hình; và tập kiểm tra được sử dụng ở cuối, sau khi cả hai đã được tối ưu hóa Ví dụ, với MLP, tập huấn luyện được sử dụng để tối ưu hóa các trọng số, tập xác thực được sử dụng để quyết định số đơn vị ẩn, thời gian huấn luyện, tỷ lệ học, và v.v Sau khi đã chọn cấu hình MLP tốt nhất, lỗi cuối cùng được tính trên tập kiểm tra Với k-NN, tập huấn luyện được lưu trữ như bảng tra cứu; chúng ta tối ưu hóa phép đo khoảng cách và k trên tập xác thực và cuối cùng kiểm tra trên tập kiểm tra
4 Nói chung, chúng ta so sánh các thuật toán học dựa trên tỷ lệ lỗi của chúng, nhưng cần lưu ý rằng trong thực tế, lỗi chỉ là một trong các tiêu chí ảnh hưởng đến quyết định của chúng ta Một số tiêu chí khác bao gồm (Turney 2000):
• Rủi ro khi lỗi được tổng quát hóa bằng các hàm mất mát, thay vì sử dụng hàm mất mát 0/1 (phần 3.3)
• Thời gian huấn luyện và độ phức tạp không gian
• Thời gian kiểm tra và độ phức tạp không gian
• Khả năng giải thích, tức là phương pháp cho phép rút trích kiến thức có thể được kiểm tra và xác nhận bởi các chuyên gia
• Khả năng lập trình dễ dàng
Tầm quan trọng tương đối của những yếu tố này thay đổi tùy thuộc vào ứng dụng cụ thể Ví dụ, nếu việc huấn luyện chỉ được thực hiện một lần tại nhà máy, thì thời gian huấn luyện và độ phức tạp không gian không quan trọng; nếu yêu cầu tính linh hoạt trong quá trình sử dụng, thì chúng trở nên quan trọng Hầu hết các thuật toán học sử dụng hàm mất mát 0/1 và coi lỗi là tiêu chí duy nhất cần được giảm thiểu; gần đây, các biến thể của các thuật toán này nhạy cảm với chi phí đã được đề xuất để xem xét các tiêu chí chi phí khác
Khi chúng ta huấn luyện một mô hình trên một tập dữ liệu bằng cách sử dụng tập huấn luyện và kiểm tra độ chính xác trên một tập xác thực và cố gắng rút ra kết luận, điều chúng ta đang làm là thực hiện thí nghiệm Thống kê định nghĩa một phương pháp để thiết kế thí nghiệm một cách chính xác và phân tích dữ liệu thu thập được một cách sao cho có thể rút ra kết luận có ý nghĩa (Montgomery 2005) Trong chương này, chúng ta sẽ thấy làm thế nào phương pháp này có thể được sử dụng trong ngữ cảnh của học máy.
Các y ế u t ố , Ph ả n ứ ng và Chi ến lượ c c ủ a Thí nghi ệ m
Giống như trong các ngành khoa học và kỹ thuật khác, trong học máy cũng thực hiện các thí nghiệm để thu thập thông tin về quá trình đang được xem xét Trong trường hợp của chúng ta, đó là một bộ học, sau khi được huấn luyện trên một tập dữ liệu, tạo ra một đầu ra cho một đầu vào cụ thể Một thí nghiệm là một bài kiểm tra hoặc một loạt bài kiểm tra trong đó chúng ta thay đổi các yếu tố ảnh hưởng đến đầu ra Những yếu tố này có thể là thuật toán sử dụng, tập huấn luyện, đặc trưng đầu vào, và vân vân, và chúng ta quan sát những thay đổi trong phản ứng để có thể rút ra thông tin Mục tiêu có thể là xác định những yếu tố quan trọng nhất, loại bỏ những yếu tố không quan trọng, hoặc tìm cấu hình của các yếu tố tối ưu hóa phản ứng - ví dụ, độ chính xác phân loại trên một tập kiểm tra cụ thể
Hình 19.1 Quá trình tạo ra một đầu ra dựa trên một đầu vào và bịảnh hưởng bởi các yếu tố có thể kiểm soát và không thể kiểm soát
Mục tiêu của chúng ta là lên kế hoạch và tiến hành các thí nghiệm về học máy và phân tích dữ liệu thu được từ các thí nghiệm, để có thể loại bỏ ảnh hưởng của ngẫu nhiên và thu được kết luận có thể coi là có ý nghĩa thống kê Trong học máy, chúng ta nhắm đến một bộ học có độ chính xác tổng quát cao nhất và độ phức tạp tối thiểu (để việc triển khai nó nhanh chóng và tiết kiệm không gian)
Một bộ học đã được huấn luyện có thể được biểu diễn như trong hình 19.1; nó cho ra một đầu ra, ví dụ như một mã lớp cho một đầu vào kiểm tra, và điều này phụ thuộc vào hai loại yếu tố Các yếu tố có thể kiểm soát, như tên gọi, là những yếu tố mà chúng ta có thể kiểm soát Cái cơ bản nhất là thuật toán học Có cả các siêu tham số của thuật toán, ví dụ như số đơn vị ẩn cho một mạng nơ-ron nhân tạo đa tầng, k cho kỷ lục gần nhất, C cho máy vector hỗ trợ, và còn nhiều hơn nữa Các tập dữ liệu được sử dụng và biểu diễn đầu vào, tức cách mã hóa đầu vào thành một vector, là các yếu tố kiểm soát khác
Cũng có các yếu tố không thể kiểm soát mà chúng ta không có khả năng kiểm soát, gây thêm sự biến thiên không mong muốn cho quy trình và không muốn ảnh hưởng đến quyết định của chúng ta Trong số đó có nhiễu trong dữ liệu, các tập con đào tạo cụ thể nếu chúng ta đang lấy mẫu lại từ một tập lớn, ngẫu nhiên trong quá trình tối ưu hóa, ví dụ như trạng thái ban đầu trong gradient descent với mạng nơ-ron nhân tạo đa tầng, và nhiều hơn nữa
Hình 19.2 Các chiến lược thí nghiệm khác nhau với hai yếu tố và mỗi yếu tố có năm mức
Chúng ta sử dụng đầu ra để tạo ra biến phản hồi - ví dụ, sai số phân loại trung bình trên tập kiểm tra, hoặc rủi ro dự kiến sử dụng hàm mất mát, hoặc một số đo lường khác, như độ chính xác và độ phủ, như chúng ta sẽ thảo luận trong thời gian tới
Với nhiều yếu tố, chúng ta cần tìm cách thiết lập tốt nhất cho phản hồi tốt nhất, hoặc trong trường hợp tổng quát, xác định ảnh hưởng của chúng lên biến phản hồi Ví dụ, chúng ta có thể sử dụng bộ phân tích thành phần chính (PCA) để giảm số chiều xuống d trước khi sử dụng bộ phân loại kỷ lục gần nhất (k-NN) Hai yếu tố là d và k, và câu hỏi là quyết định kết hợp nào của d và k dẫn đến hiệu suất cao nhất Hoặc chúng ta có thể sử dụng bộ phân loại máy vector hỗ trợ với hạt nhân Gaussian, và chúng ta có tham số điều chỉnh C và sự phân tán của Gaussian s2 để điều chỉnh cùng nhau
Có một số chiến lược thí nghiệm, như được hiển thị trong hình 19.2 Trong phương pháp đoán đúng nhất, chúng ta bắt đầu từ một cài đặt của các yếu tố mà chúng ta tin rằng là một cấu hình tốt Chúng ta kiểm tra phản hồi ở đó và chúng ta thay đổi các yếu tố một (hoặc rất ít) lần một lần, kiểm tra mỗi kết hợp cho đến khi chúng ta đạt được trạng thái mà chúng ta cho là đủ tốt Nếu người thực hiện có một trực giác tốt về quy trình, điều này có thể hoạt động tốt; nhưng lưu ý rằng không có phương pháp hệ thống để sửa đổi các yếu tố và khi chúng ta dừng lại, chúng ta không có đảm bảo tìm ra cấu hình tốt nhất
Chiến lược khác là sửa đổi một yếu tố một lần, trong đó chúng ta quyết định một giá trị cơ sở (mặc định) cho tất cả các yếu tố, sau đó chúng ta thử các mức khác nhau cho một yếu tố trong khi giữ tất cả các yếu tố khác ở mức cơ sở Nhược điểm lớn của phương pháp này là nó giả định rằng không có sự tương tác giữa các yếu tố, điều này không luôn đúng Trong chuỗi chúng ta đã thảo luận trước đó, mỗi lựa chọn cho d xác định một không gian đầu vào khác nhau cho k-NN, trong đó một giá trị k khác nhau có thể phù hợp
Phương pháp chính xác là sử dụng thiết kế theo yếu tố, trong đó các yếu tố được thay đổi cùng nhau, thay vì một cách một cách một lần; điều này được gọi lóng ngữ là tìm kiếm theo lưới Với F yếu tố ở mỗi mức L, việc tìm kiếm một yếu tố một lần mất O(L ã F) thời gian, trong khi thớ nghiệm theo yếu tố lấy thời gian.
Thi ế t k ế b ề m ặ t ph ả n h ồ i
Để giảm số lần chạy cần thiết, một khả năng là chạy một thiết kế mẫu một phần, trong đó chúng ta chỉ chạy một phần con số lượng, một khả năng khác là cố gắng sử dụng kiến thức thu thập từ các lần chạy trước để ước tính các cấu hình có khả năng có phản hồi cao Trong việc tìm kiếm một yếu tố một lần, nếu chúng ta có thể giả định rằng phản hồi thường là hàm bậc hai (với một giá trị cực đại duy nhất, giả sử chúng ta đang tối đa hóa một giá trị phản hồi, như độ chính xác kiểm tra), thì thay vì thử tất cả các giá trị, chúng ta có thể có một quy trình lặp trong đó, bắt đầu từ một số lần chạy ban đầu, chúng ta phù hợp với một hàm bậc hai, tìm giá trị cực đại theo phân tích, lấy đó làm ước tính tiếp theo, chạy một thí nghiệm tại đó, thêm dữ liệu kết quả vào mẫu, và sau đó tiếp tục phù hợp và lấy mẫu, cho đến khi không còn cải thiện nữa
Với nhiều yếu tố, phương pháp thiết kế bề mặt phản hồi được tổng quát hóa như một hàm phản hồi tham số hóa cho các yếu tố như sau: r = g(f1, f2, ,fF |φ)
Trong đó r là phản hồi và fi, i = 1, ,F là các yếu tố Hàm tham số hóa phù hợp này được xác định dựa trên các tham số φ và là mô hình kinh nghiệm của chúng ta ước tính phản hồi cho một cấu hình cụ thể của các yếu tố (có thể điều khiển); hiệu ứng của các yếu tố không thể điều khiển được mô hình là nhiễu Hàm g(ã) là một mụ hỡnh hồi quy (thường là hàm bậc hai), và sau một số lần chạy xung quanh một trạng thái cơ bản (như được xác định bởi ma trận thiết kế), chúng ta có đủ dữ liệu để phự hợp với g(ã) Sau đú, chỳng ta cú thể tớnh toỏn giỏ trị của fi mà g đã phù hợp đạt giá trị cực đại, và đó là ước đoán tiếp theo của chúng ta, chạy một thí nghiệm tại đó, thu được một mẫu dữ liệu, thêm vào mẫu, phù hợp lại với g, và tiếp tục quá trình này cho đến khi đạt được sự hội tụ Việc phương pháp này hoạt động tốt hay không phụ thuộc vào việc liệu phản hồi có thực sự có thể được viết dưới dạng hàm bậc hai của các yếu tố với một giá trị cực đại duy nhất hay không.
Nguyên t ắc cơ bả n c ủ a thi ế t k ế thí nghi ệ m (Ng ẫ u nhiên, l ặ p l ạ i và
Bây giờ chúng ta sẽ nói về ba nguyên tắc cơ bản của thiết kế thí nghiệm
• Nguyên tắc ngẫu nhiên đòi hỏi thứ tự thực hiện các lần chạy phải được xác định ngẫu nhiên để kết quả độc lập Điều này thường là một vấn đề trong các thí nghiệm thực tế liên quan đến các đối tượng vật lý; ví dụ, máy móc yêu cầu một thời gian để khởi động trước khi hoạt động trong khoảng thông thường của chúng, vì vậy các thử nghiệm nên được thực hiện theo thứ tự ngẫu nhiên để không làm sai lệch kết quả theo thời gian Tuy nhiên, việc xác định thứ tự thường không là vấn đề trong các thí nghiệm phần mềm
• Nguyên tắc lặp lại ngụ ý rằng đối với cùng một cấu hình của các yếu tố có thể điều khiển được, thí nghiệm nên được chạy nhiều lần để lấy trung bình qua hiệu ứng của các yếu tố không thể kiểm soát Trong máy học, điều này thường được thực hiện bằng cách chạy cùng một thuật toán trên một số phiên bản resampled của cùng một tập dữ liệu; điều này được gọi là cross- validation, chúng ta sẽ thảo luận về điều này trong mục 19.6 Cách phản hồi biến thiên trên các lặp lại khác nhau của cùng một thí nghiệm cho phép chúng ta ước tính sai số thí nghiệm (hiệu ứng của các yếu tố không thể kiểm soát), mà chúng ta có thể sử dụng để xác định các sự khác biệt cần đạt để coi là có ý nghĩa thống kê
• Chặn được sử dụng để giảm hoặc loại bỏ sự biến thiên do các yếu tố phiền nhiễu ảnh hưởng đến phản hồi nhưng chúng ta không quan tâm đến Ví dụ, các khuyết điểm được tạo ra trong một nhà máy cũng có thể phụ thuộc vào các lô nguyên liệu khác nhau, và hiệu ứng này nên được cô lập khỏi các yếu tố có thể kiểm soát trong nhà máy, chẳng hạn như thiết bị, nhân viên, và như vậy Trong thí nghiệm máy học, khi chúng ta sử dụng phương pháp resampling và sử dụng các tập con khác nhau của dữ liệu cho các lặp lại khác nhau, chúng ta cần đảm bảo rằng nếu chẳng hạn chúng ta đang so sánh các thuật toán học, tất cả các thuật toán đều sử dụng cùng một tập các tập con đã resample, nếu không sự khác biệt trong độ chính xác sẽ không chỉ phụ thuộc vào các thuật toán mà còn vào các tập con khác nhau Để có thể đo lường sự khác biệt do thuật toán mà không bị ảnh hưởng bởi các tập huấn luyện khác nhau trong các lần chạy được lặp lại, chúng ta cần thực hiện chặn
• Trong thống kê, nếu có hai quần thể, điều này được gọi là ghép cặp và được sử dụng trong các kiểm tra ghép cặp.
Hướ ng d ẫ n cho Thí nghi ệ m H ọ c máy
Trước khi chúng ta bắt đầu thực hiện thí nghiệm, chúng ta cần có một ý tưởng tốt về những gì chúng ta đang nghiên cứu, cách thu thập dữ liệu và cách chúng ta định phân tích nó Các bước trong học máy tương tự như bất kỳ loại thí nghiệm nào (Montgomery 2005) Lưu ý rằng tại thời điểm này, không quan trọng nhiệm vụ là phân loại hay hồi quy, hoặc nó là một ứng dụng học không giám sát hay học tăng cường Cuộc thảo luận tổng quan là giống nhau; khác biệt chỉ nằm ở phân phối mẫu của dữ liệu đáp ứng được thu thập
A Mục tiêu của nghiên cứu
Chúng ta cần bắt đầu bằng việc nêu rõ vấn đề một cách rõ ràng, định nghĩa mục tiêu của nghiên cứu Trong học máy, có thể có nhiều khả năng khác nhau Như đã thảo luận trước đó, chúng ta có thể quan tâm đến việc đánh giá sai số dự kiến (hoặc một độ đo phản hồi khác) của một thuật toán học trên một vấn đề cụ thể và kiểm tra rằng, ví dụ, sai số thấp hơn một mức chấp nhận được nhất định
Cho hai thuật toán học và một vấn đề cụ thể được xác định bởi một tập dữ liệu, chúng ta có thể muốn xác định xem thuật toán nào có sai số tổng quát ít hơn Đây có thể là hai thuật toán khác nhau, hoặc một thuật toán có thể được đề xuất cải tiến so với thuật toán khác, ví dụ như sử dụng bộ trích xuất đặc trưng tốt hơn
Trong trường hợp tổng quát hơn, chúng ta có thể có nhiều hơn hai thuật toán học và có thể muốn chọn thuật toán có sai số nhỏ nhất, hoặc sắp xếp chúng theo sai số, cho một tập dữ liệu cụ thể
Trong một bối cảnh tổng quát hơn nữa, thay vì trên một tập dữ liệu duy nhất, chúng ta có thể muốn so sánh hai hoặc nhiều thuật toán trên hai hoặc nhiều tập dữ liệu
B Lựa chọn Biến phản hồi
Chúng ta cần quyết định về độ đo chất lượng mà chúng ta nên sử dụng Thông thường, sai số được sử dụng, tức là sai số phân loại sai cho bài toán phân loại và sai số bình phương trung bình cho bài toán hồi quy Chúng ta cũng có thể sử dụng một biến thể khác; ví dụ, từ việc tổng quát từ 0/1 đến một hàm mất mát tùy ý, chúng ta có thể sử dụng một độ đo rủi ro Trong truy xuất thông tin, chúng ta sử dụng các độ đo như độ chính xác và độ phục hồi; chúng ta sẽ thảo luận về các độ đo như vậy trong mục 19.7 Trong một môi trường nhạy cảm về chi phí, không chỉ đầu ra mà còn các thông số hệ thống, ví dụ như độ phức tạp, cũng được xem xét
C Lựa chọn Yếu tố và Mức độ
Những yếu tố phụ thuộc vào mục tiêu của nghiên cứu Nếu chúng ta giữ nguyên một thuật toán và muốn tìm ra các siêu tham số tốt nhất, thì đó chính là các yếu tố Nếu chúng ta đang so sánh các thuật toán, thuật toán học là một yếu tố Nếu chúng ta có các tập dữ liệu khác nhau, chúng cũng trở thành một yếu tố
Các mức độ của một yếu tố nên được lựa chọn cẩn thận để không bỏ qua một cấu hình tốt và tránh làm các thí nghiệm không cần thiết Luôn tốt khi cố gắng chuẩn hóa các mức độ yếu tố Ví dụ, trong tối ưu hóa k của k-nearest neighbor, chúng ta có thể thử các giá trị như 1, 3, 5, và cứ tiếp tục như vậy, nhưng trong việc tối ưu hóa độ lan rộng h của cửa sổ Parzen, chúng ta không nên thử các giá trị tuyệt đối như 1.0, 2.0, và cứ tiếp tục như vậy, vì điều đó phụ thuộc vào tỷ lệ của dữ liệu đầu vào; tốt hơn hết là tìm một số liệu thống kê nào đó là chỉ số của tỷ lệ - ví dụ như khoảng cách trung bình giữa một mẫu và mẫu gần nhất - và thử h với các bội số khác nhau của số liệu thống kê đó
Mặc dù kiến thức chuyên môn trước đây là một điểm cộng chung, nhưng cũng quan trọng để điều tra tất cả các yếu tố và mức độ yếu tố có thể quan trọng và không bị ảnh hưởng quá nhiều bởi kinh nghiệm trước đây
D Lựa chọn Thiết kế Thí nghiệm
Luôn tốt hơn nếu thực hiện một thiết kế mô phỏng toàn diện trừ khi chúng ta chắc chắn rằng các yếu tố không tương tác với nhau, vì hầu hết chúng tương tác Số lần nhân bản phụ thuộc vào kích thước tập dữ liệu; nó có thể được giữ nhỏ khi tập dữ liệu lớn; chúng tôi sẽ thảo luận về điều này trong phần tiếp theo khi nói về tái chọn mẫu Tuy nhiên, quá ít nhân bản sẽ tạo ra ít dữ liệu và điều này sẽ làm cho việc so sánh phân phối trở nên khó khăn; trong trường hợp cụ thể của các kiểm định tham số, giả định về tính chuẩn có thể không được chấp nhận
Thông thường, khi có một tập dữ liệu, chúng ta để lại một phần để làm tập kiểm tra và sử dụng phần còn lại để làm tập huấn luyện và xác thực, có thể lặp lại nhiều lần bằng cách lấy mẫu lại Cách phân chia này rất quan trọng Trong thực tế, sử dụng các tập dữ liệu nhỏ sẽ dẫn đến phản hồi với phương sai cao, và sự khác biệt sẽ không đáng kể và kết quả sẽ không có tính thuyết phục
Trước khi tiến hành một thí nghiệm mô phỏng lớn với nhiều yếu tố và mức độ, nếu có thể, tốt nhất là thực hiện một số lần chạy thử với một số cài đặt ngẫu nhiên để kiểm tra xem mọi thứ có như mong đợi không Trong một thí nghiệm lớn, luôn nên lưu lại các kết quả trung gian (hoặc nguồn gốc của bộ tạo số ngẫu nhiên), để một phần của toàn bộ thí nghiệm có thể được chạy lại khi cần Tất cả các kết quả nên có thể tái tạo Trong việc thực hiện một thí nghiệm lớn với nhiều yếu tố và mức độ, người thực hiện nên nhận thức về những tác động tiêu cực có thể xảy ra do lỗi phần mềm theo thời gian
Trong quá trình thực hiện thí nghiệm, việc người thực hiện không thiên vị là rất quan trọng Trong việc so sánh thuật toán ưa thích của mình với một đối thủ, cả hai nên được nghiên cứu một cách công bằng và cẩn thận Trong các nghiên cứu quy mô lớn, có thể có ý định rằng người thử nghiệm khác với những người phát triển thuật toán
Người ta nên tránh cám dỗ tự viết "thư viện" riêng và thay vào đó, trong khả năng có thể, sử dụng mã từ các nguồn đáng tin cậy; mã nguồn như vậy đã được kiểm tra và tối ưu hóa tốt hơn
Như trong bất kỳ nghiên cứu phát triển phần mềm nào, không thể đánh giá thấp được lợi ích của tài liệu tốt, đặc biệt là khi làm việc trong nhóm Tất cả các phương pháp được phát triển cho kỹ thuật phần mềm chất lượng cao cũng nên được sử dụng trong các thí nghiệm học máy
Phương pháp Cross -Validation và Resampling
Với mục đích nhân bản, điều cần thiết đầu tiên là có một số cặp tập huấn luyện và tập xác thực từ tập dữ liệu X (sau khi đã để lại một phần làm tập kiểm tra) Để làm điều này, nếu tập X đủ lớn, chúng ta có thể chia ngẫu nhiên thành K phần, sau đó chia ngẫu nhiên mỗi phần thành hai phần và sử dụng một nửa cho huấn luyện và nửa còn lại cho xác thực K thường là 10 hoặc 30 Rất tiếc, tập dữ liệu không bao giờ đủ lớn để làm được điều này Do đó, chúng ta nên làm tốt nhất với các tập dữ liệu nhỏ Điều này được thực hiện bằng cách lặp lại việc sử dụng cùng một phân chia dữ liệu khác nhau; điều này được gọi là cross-validation Vấn đề là các phần trăm lỗi sẽ phụ thuộc vào nhau do các tập dữ liệu khác nhau chia sẻ dữ liệu
Vì vậy, với một tập dữ liệu X, chúng ta muốn tạo ra K cặp tập huấn luyện/xác thực, {Ti, Vi}Ki=1, từ tập dữ liệu này Chúng ta muốn giữ các tập huấn luyện và xác thực càng lớn càng tốt để ước tính lỗi có độ tin cậy cao, và đồng thời, chúng ta muốn giữ sự trùng lặp giữa các tập khác nhau càng nhỏ càng tốt Chúng ta cũng cần đảm bảo rằng các lớp được đại diện theo tỷ lệ phù hợp khi các tập con dữ liệu được giữ lại, để không làm thay đổi xác suất lớp trước đó; điều này được gọi là sự phân tầng Nếu một lớp có 20% ví dụ trong toàn bộ tập dữ liệu, trong tất cả các mẫu được lấy từ tập dữ liệu, nó cũng nên có khoảng 20% ví dụ
19.6.1 Phương pháp K-Fold Cross-Validation
Trong K-fold cross-validation, tập dữ liệu X được chia ngẫu nhiên thành K phần bằng nhau, gọi là Xi, i = 1, ,K Để tạo ra mỗi cặp dữ liệu, chúng ta giữ một trong K phần ra làm tập validation và kết hợp K - 1 phần còn lại để tạo thành tập training Thực hiện điều này K lần, mỗi lần bỏ đi một phần trong K phần, ta thu được K cặp dữ liệu:
Có hai vấn đề xảy ra với phương pháp này Thứ nhất, để giữ cho tập training lớn, chúng ta cho phép tập validation nhỏ Thứ hai, các tập training có sự chồng chéo đáng kể, nghĩa là bất kỳ hai tập training nào cũng chia sẻ K - 2 phần dữ liệu chung
K thường là 10 hoặc 30 Khi K tăng, tỷ lệ các mẫu huấn luyện tăng lên và chúng ta có được các ước lượng mạnh mẽ hơn, nhưng tập validation trở nên nhỏ hơn Hơn nữa, có chi phí để huấn luyện bộ phân loại K lần, và chi phí này tăng khi K tăng Khi N tăng, K có thể nhỏ hơn; nếu N nhỏ, K nên lớn để đảm bảo có đủ các tập huấn luyện lớn Một trường hợp cực đoan của K-fold cross-validation là leave-one-out, trong đó, cho một tập dữ liệu gồm N mẫu, chỉ có một mẫu bị bỏ qua để làm tập validation, và huấn luyện sử dụng N - 1 mẫu còn lại Chúng ta thu được N cặp riêng biệt bằng cách bỏ qua một mẫu khác nhau ở mỗi vòng lặp Phương pháp này thường được sử dụng trong các ứng dụng như chẩn đoán y tế, nơi dữ liệu được gán nhãn khó khăn Leave-one-out không cho phép stratification
Gần đây, với việc tính toán trở nên rẻ hơn, đã trở thành khả năng để thực hiện nhiều lần chạy của K-fold cross-validation, ví dụ như 10×10-fold, và sử dụng trung bình của các trung bình để có được ước lượng lỗi đáng tin cậy hơn (Bouckaert 2003)
Dietterich (1998) đề xuất phương pháp 5 × 2 cross-validation, trong đó sử dụng các tập huấn luyện và xác thực có kích thước bằng nhau Chúng ta chia tập dữ liệu X ngẫu nhiên thành hai phần, 𝑋 1 (1) và 𝑋 1 (2) , tạo thành cặp đầu tiên của tập huấn luyện và tập xác thực, 𝑇 1 = 𝑋 1 (1) và 𝑉 1 = 𝑋 1 (2) Sau đó, chúng ta hoán đổi vai trò của hai nửa và thu được cặp thứ hai: 𝑇 2 = 𝑋 1 (2) và 𝑉 2 = 𝑋 1 (1) Đây là fold đầu tiên; 𝑋 𝑖 (𝑗) chỉ ra nửa thứ j của fold thứ i Để thu được fold thứ hai, chúng ta xáo trộn X một cách ngẫu nhiên và chia fold mới này thành hai phần, 𝑋 2 (1) và 𝑋 2 (2) Điều này có thể được thực hiện bằng cách rút ngẫu nhiên các phần này từ X mà không có sự thay thế, tức là 𝑋 1 (1) ∪
𝑋 1 (2) = 𝑋 2 (1) ∪ 𝑋 2 (2) = X Sau đó, chúng ta hoán đổi hai nửa này để thu được một cặp khác Chúng ta làm điều này cho ba fold nữa và vì từ mỗi fold, chúng ta thu được hai cặp, khi thực hiện năm fold, chúng ta thu được mười tập huấn luyện và xác thực:
Tất nhiên, chúng ta có thể thực hiện điều này cho nhiều hơn năm fold và thu được nhiều tập huấn luyện/xác thực hơn, nhưng Dietterich (1998) chỉ ra rằng sau năm fold, các tập này chia sẻ nhiều ví dụ và chồng lắp đến mức các thống kê tính toán từ các tập này, chẳng hạn như tỷ lệ lỗi xác thực, trở nên quá phụ thuộc và không cung cấp thông tin mới Ngay cả với năm fold, các tập giao nhau và các thống kê phụ thuộc vào nhau, nhưng chúng ta có thể chấp nhận điều này cho đến năm fold Tuy nhiên, nếu chúng ta có ít hơn năm fold, chúng ta chỉ có ít dữ liệu hơn (ít hơn mười tập) và sẽ không có một mẫu lớn đủ để phù hợp với một phân phối và kiểm tra giả thuyết của chúng ta
Bảng 19.1: Ma trận nhầm lẫn cho hai lớp
19.6.3 Bootstrapping Để tạo ra nhiều mẫu từ một mẫu duy nhất, một phương pháp thay thế cho cross-validation là bootstrap, nó tạo ra các mẫu mới bằng cách lấy các trường hợp từ mẫu gốc với việc thay thế Chúng ta đã thấy việc sử dụng bootstrap trong phần 17.6 để tạo ra các tập huấn luyện cho các bộ phân loại khác nhau trong bagging Các mẫu bootstrap có thể chồng chéo nhiều hơn các mẫu cross-validation và do đó các ước tính từ chúng có sự phụ thuộc cao hơn; tuy nhiên, đây được coi là cách tốt nhất để thực hiện tái lấy mẫu cho các tập dữ liệu rất nhỏ Trong bootstrap, chúng ta lấy mẫu N trường hợp từ một tập dữ liệu có kích thước N với việc thay thế Tập dữ liệu gốc được sử dụng làm tập xác thực Xác suất chúng ta chọn một trường hợp là 1/N; xác suất chúng ta không chọn nó là 1 - 1/N Xác suất chúng ta không chọn nó sau N lần rút là
≈ 𝑒 −1 = 0.368 Điều này có nghĩa rằng dữ liệu huấn luyện chứa khoảng 63,2% các trường hợp; tức là hệ thống sẽ không được huấn luyện trên 36,8% dữ liệu, và ước tính lỗi sẽ thiên về tiêu cực Giải pháp là sao chép, tức là lặp lại quá trình nhiều lần và xem xét hành vi trung bình.
Đo lườ ng hi ệ u su ấ t c ủ a b ộ phân lo ạ i
Cho bài toán phân loại, đặc biệt là đối với bài toán hai lớp, đã được đề xuất một loạt các độ đo khác nhau Có bốn trường hợp có thể xảy ra, như được thể hiện trong bảng 19.1 Đối với một ví dụ tích cực, nếu dự đoán cũng là tích cực, đó là một dương tính chính xác; nếu dự đoán của chúng ta là tiêu cực đối với một ví dụ tích cực, đó là một âm tính sai Đối với một ví dụ tiêu cực, nếu dự đoán cũng là tiêu cực,
Bảng 19.2 Độ đo hiệu suất được sử dụng trong bài toán hai lớp
Chúng ta có một true negative (đúng âm), và chúng ta có một false positive (sai dương) nếu chúng ta dự đoán một ví dụ âm là dương
Trong một số bài toán hai lớp, chúng ta phân biệt giữa hai lớp và do đó hai loại lỗi, false positive (dương giả) và false negative (âm giả) Các đo lường khác nhau phù hợp trong các tình huống khác nhau được nêu trong bảng 19.2 Hãy tưởng tượng một ứng dụng xác thực nơi người dùng đăng nhập vào tài khoản của họ bằng giọng nói Một false positive là đăng nhập sai của một kẻ giả mạo và một false negative là từ chối một người dùng hợp lệ Rõ ràng rằng hai loại lỗi không tương đương; lỗi false positive nghiêm trọng hơn nhiều Tỷ lệ true positive, tp- rate, còn được gọi là tỷ lệ đúng, đo lường tỷ lệ bao nhiêu người dùng hợp lệ chúng ta xác thực và tỷ lệ false positive, fp-rate, còn được gọi là tỷ lệ báo động sai, đo lường tỷ lệ bao nhiêu kẻ giả mạo chúng ta chấp nhận nhầm
Giả sử hệ thống trả về 𝑃̂(C1|x), xác suất của lớp positive, và đối với lớp negative, chúng ta có 𝑃̂ (C2|x) = 1 - 𝑃̂ (C1|x), và chúng ta chọn "positive" nếu 𝑃̂ (C1|x) > θ Nếu θ gần bằng 1, chúng ta rất ít khi chọn lớp positive; tức là, chúng ta sẽ không có false positive nhưng cũng không có nhiều true positive Khi chúng ta giảm giá trị của θ để tăng số lượng true positive, chúng ta đối mặt với nguy cơ giới thiệu false positive
Với các giá trị khác nhau của θ, chúng ta có thể thu được một số cặp giá trị (tp-rate, fp-rate) và kết nối chúng để tạo thành đường cong đặc trưng của bộ nhận dạng (ROC curve), như được hiển thị trong hình 19.3a Lưu ý rằng các giá trị khác nhau của θ tương ứng với các ma trận lỗi khác nhau cho hai loại sai sót và đường cong ROC cũng có thể được xem là hành vi của một bộ phân loại
Hình 19.3 (a) Đường cong ROC điển hình
Mỗi bộ phân loại có một ngưỡng cho phép chúng ta di chuyển trên đường cong này và chúng ta quyết định trên một điểm, dựa trên sự quan trọng tương đối giữa kết quả đúng và các báo động sai, tức là số lượng true positives và false positives Diện tích dưới đường cong ROC được gọi là AUC (Area Under the Curve) (b) Một bộ phân loại được ưa chuộng nếu đường cong ROC của nó gần với góc trên bên trái (AUC lớn hơn) B và C được ưa chuộng hơn A; B và C được ưa chuộng dưới các ma trận lỗi khác nhau
Lý tưởng nhất, một bộ phân loại có tp-rate bằng 1 và fp-rate bằng 0, và do đó, một bộ phân loại càng tốt khi đường cong ROC của nó càng gần góc trên bên trái Trên đường chéo, chúng ta đưa ra cùng số quyết định đúng và sai, và đây là tình huống tồi nhất mà một bộ phân loại có thể làm (bất kỳ bộ phân loại nào nằm dưới đường chéo có thể được cải thiện bằng cách đảo ngược quyết định của nó) Cho hai bộ phân loại, chúng ta có thể nói rằng một bộ phân loại tốt hơn bộ phân loại khác nếu đường cong ROC của nó nằm trên đường cong ROC của bộ phân loại kia; nếu hai đường cong giao nhau, chúng ta có thể nói rằng hai bộ phân loại đó tốt hơn trong các điều kiện mất mát khác nhau, như được thể hiện trong hình 19.3b Đường cong ROC cho phép phân tích trực quan; nếu chúng ta muốn giảm đường cong thành một con số duy nhất, chúng ta có thể làm điều này bằng cách tính diện tích dưới đường cong (AUC) Một bộ phân loại lý tưởng có AUC bằng
1 và các giá trị AUC của các bộ phân loại khác nhau có thể được so sánh để đưa ra đánh giá tổng quát về hiệu suất trung bình qua các điều kiện mất mát khác nhau
Trong truy xuất thông tin, có một cơ sở dữ liệu gồm các bản ghi; chúng ta tạo một truy vấn, ví dụ như sử dụng một số từ khóa, và hệ thống (cơ bản là một bộ phân loại hai lớp) trả về một số bản ghi Trong cơ sở dữ liệu, có các bản ghi liên quan và đối với một truy vấn, hệ thống có thể truy xuất một số trong số chúng (true positives) nhưng có thể không truy xuất hết (false negatives); nó cũng có thể truy xuất sai các bản ghi không liên quan (false positives) Tập hợp các bản ghi liên quan và được truy xuất có thể được minh họa bằng sơ đồ Venn, như được hiển thị trong hình 19.4a Độ chính xác (precision) là số bản ghi được truy xuất và có liên quan chia cho tổng số bản ghi được truy xuất; nếu độ chính xác bằng 1, tất cả các bản ghi được truy xuất có thể có liên quan, nhưng vẫn có thể có các bản ghi có liên quan nhưng không được truy xuất Độ phục hồi (recall) là số bản ghi có liên quan được truy xuất chia cho tổng số bản ghi có liên quan; ngay cả khi độ phục hồi bằng 1, tất cả các bản ghi có liên quan có thể được truy xuất nhưng cũng có thể có các bản ghi không liên quan được truy xuất, như được hiển thị trong hình 19.4c Tương tự như đường cong ROC, với các giá trị ngưỡng khác nhau, người ta có thể vẽ đường cong cho độ chính xác và độ phục hồi
Từ một góc độ khác nhưng với cùng mục đích, có hai độ đo là độ nhạy và độ đặc hiệu Độ nhạy tương đương với tp-rate và recall Độ đặc hiệu là mức độ chúng ta phát hiện được các trường hợp âm, tức là số true negatives chia cho tổng số negatives; điều này bằng 1 trừ đi tỷ lệ false alarm rate Người ta cũng có thể vẽ đường cong độ nhạy và độ đặc hiệu bằng cách sử dụng các ngưỡng khác nhau
Trong trường hợp K > 2 lớp, nếu chúng ta sử dụng lỗi 0/1, ma trận nhầm lẫn lớp là một ma trận K×K, trong đó phần tử (i, j) chứa số lượng các trường hợp thuộc lớp Ci nhưng được gán vào lớp Cj Lý tưởng, tất cả các phần tử nằm ngoài đường chéo chính của ma trận nên bằng 0, tức không có sai phân lớp Ma trận nhầm lẫn lớp cho phép chúng ta xác định được các loại sai phân lớp nào xảy ra, chẳng hạn nếu có hai lớp thường bị nhầm lẫn với nhau Hoặc, chúng ta có thể xác định K bài toán phân loại hai lớp riêng biệt, mỗi bài toán phân loại một lớp khỏi
Interval Estimation
Hãy cùng xem lại về ước lượng khoảng (interval estimation) mà chúng ta sẽ sử dụng trong kiểm định giả thuyết Một bộ ước lượng điểm (point estimator), ví dụ như bộ ước lượng hợp lý tối đa (maximum likelihood estimator), chỉ định một giá trị cho một tham số θ Trong ước lượng khoảng, chúng ta xác định một khoảng giá trị mà θ có thể nằm trong đó với một mức độ tin cậy nhất định Để có được bộ ước lượng khoảng như vậy, chúng ta sử dụng phân phối xác suất của bộ ước lượng điểm
Hình 19.4 (a) Định nghĩa của độ chính xác (precision) và độ phủ (recall) sử dụng biểu đồ Venn (b) Độ chính xác là 1; tất cả các bản ghi được truy xuất đều có ý nghĩa nhưng có thể có những bản ghi có ý nghĩa nhưng không được truy xuất (c) Độ phủ là 1; tất cả các bản ghi có ý nghĩa đều được truy xuất nhưng cũng có thể có các bản ghi không có ý nghĩa được truy xuất
Ví dụ, giả sử chúng ta đang cố gắng ước tính giá trị trung bình μ của một phân phối chuẩn từ một mẫu 𝑋 = {𝑥 𝑡 } 𝑡=1 𝑁 𝑚 = ∑ 𝑥 𝑡 𝑡 /𝑁 là giá trị trung bình mẫu và là trình ước lượng điểm cho giá trị trung bình m là tổng các biến ngẫu nhiên có phân phối chuẩn, do đó m cũng có phân phối chuẩn, m ∼ N(μ, σ2/N) Chúng ta định nghĩa thống kê với phân phối chuẩn hóa:
Chúng ta biết rằng 95% của Z nằm trong khoảng (−1.96, 1.96), tức là P{−1.96 < Z < 1.96} = 0.95, và chúng ta có thể viết (xem hình 19.5)
Hình 19.5: 95% của phân phối chuẩn đơn vị nằm giữa -1.96 và 1.96 Điều đó có nghĩa là "với mức tin cậy 95%", μ sẽ nằm trong khoảng từ m - 1.96σ /√N đến m + 1.96σ /√N đơn vị so với trung bình mẫu Đây là một khoảng tin cậy hai mặt Với mức tin cậy 99%, μ sẽ nằm trong khoảng từ m - 2.58σ /√N đến m + 2.58σ /√N; nghĩa là, nếu chúng ta muốn có mức tin cậy cao hơn, khoảng tin cậy sẽ trở nên lớn hơn Khoảng tin cậy sẽ trở nên nhỏ hơn khi kích thước mẫu
N tăng lên Điều này có thể được tổng quát hóa cho bất kỳ độ tin cậy yêu cầu nào như sau Chúng ta ký hiệu zα để:
Vì Z là đối xứng xung quanh giá trị trung bình, nên 𝑍 1−𝛼/2 = −𝑍 𝛼/2 , và P{X < −𝑍 𝛼/2 } = P{X > 𝑍 𝛼/2 } = α/2 Do đó, với bất kỳ mức độ tin cậy đã chỉ định là 1 - α, chúng ta có:
Do đó, ta có thể tính được khoảng tin cậy hai mặt với độ tin cậy 100(1 - α) phần trăm cho μ với mọi giá trị α
Tương tự, biết rằng P{Z < 1.64} = 0.95, ta có (xem hình 19.6)
√𝑁 < 𝜇} = 0.95 và (m - 1.64σ /√N, ∞) là một khoảng tin cậy một chiều phía trên với độ tin cậy 95% cho μ, định nghĩa một giới hạn dưới Tổng quát hóa, một khoảng tin cậy một chiều với độ tin cậy 100(1 - α) % cho μ có thể được tính từ
Tương tự, khoảng tin cậy một chiều phía dưới định nghĩa một giới hạn trên cũng có thể được tính toán
Trong các khoảng tin cậy trước đó, chúng ta đã sử dụng σ; tức là, chúng ta giả định rằng phương sai là đã biết Nếu không biết, ta có thể thay thế bằng phương sai mẫu
Thay vào đó, ta sử dụng 𝑆 2 thay cho σ 2 Ta biết rằng khi 𝑥 𝑡 ~ N(μ, σ 2 ), thì (N - 1) 𝑆 2 /σ 2 tuân theo phân phối chi-square với N - 1 độ tự do Chúng ta cũng biết rằng m và 𝑆 2 là độc lập Khi đó, √N(m - μ)/S tuân theo phân phối t với N - 1 độ tự do (xem phần A.3.7), được ký hiệu là
Do đó, cho mọi α ∈ (0, 1/2), ta có thể xác định một khoảng, sử dụng các giá trị được chỉ định bởi phân phối t thay vì Z (phân phối chuẩn đơn vị)
𝑆 < 𝑡 1−𝛼/2,𝑁−1 } = 1 − 𝛼 hoặc sử dụng 𝑡 1−𝛼/2,𝑁−1 = −𝑡 𝛼/2,𝑁−1 , chúng ta có thể viết thành:
Hình 19.6: 95% của phân phối chuẩn đơn vị nằm trước 1.64
Tương tự, có thể định nghĩa khoảng tin cậy một mặt Phân phối t có sự phân tán lớn hơn (đuôi dài hơn) so với phân phối chuẩn đơn vị, và thông thường khoảng tin cậy dựa trên phân phối t lớn hơn; điều này có thể được dự đoán vì có sự không chắc chắn bổ sung do phương sai không được biết đến.
Ki ểm đị nh gi ả thuy ế t
Thay vì ước lượng một số tham số cụ thể, trong một số ứng dụng cụ thể, chúng ta có thể muốn sử dụng mẫu để kiểm tra một giả thuyết cụ thể về các tham số Ví dụ, thay vì ước lượng trung bình, chúng ta có thể muốn kiểm tra xem trung bình có nhỏ hơn 0.02 hay không Nếu mẫu ngẫu nhiên khớp với giả thuyết đang xem xét, chúng ta "không thể bác bỏ" giả thuyết; ngược lại, chúng ta nói rằng giả thuyết đã bị "bác bỏ" Tuy nhiên, khi chúng ta đưa ra quyết định như vậy, chúng ta thực ra không nói rằng nó đúng hay sai mà là mẫu dữ liệu có vẻ nhất quán với nó với một mức độ tin cậy nhất định hoặc không
Bảng 19.3: Lỗi loại I, lỗi loại II và sức mạnh của một thử nghiệm
Sự thật Không từ chối Từ chối Đúng
Lỗi Loại II Lỗi loại I
Trong kiểm định giả thuyết, quy trình được thực hiện như sau Chúng ta xác định một thống kê tuân theo phân phối nhất định nếu giả thuyết đúng Nếu giá trị thống kê được tính từ mẫu có xác suất rất thấp để được lấy từ phân phối này, chúng ta sẽ từ chối giả thuyết; nếu không, chúng ta sẽ không từ chối giả thuyết
Hãy giả sử chúng ta có một mẫu từ một phân phối chuẩn với giá trị trung bình không biết μ và phương sai biết σ 2 , và chúng ta muốn kiểm tra một giả thuyết cụ thể về μ, ví dụ như xem liệu nó có bằng với một hằng số cụ thể 𝜇 0 hay không Đây được ký hiệu là 𝐻 0 và được gọi là giả thuyết không
𝐻 0 : 𝜇 = 𝜇 0 đối với giả thuyết thay thế
𝐻 0 : 𝜇 ≠ 𝜇 0 m là ước lượng điểm của μ và có lý do để từ chối 𝐻 0 nếu m quá xa 𝜇 0 Đây là lúc mà ước lượng khoảng được sử dụng Chúng ta không từ chối giả thuyết với mức ý nghĩa α nếu 𝜇 0 nằm trong khoảng tin cậy 100(1 − α) phần trăm
𝜎 ∈ (−𝑧 𝛼/2 , 𝑧 𝛼/2 ) Chúng ta từ chối giả thuyết không có căn cứ nếu nó rơi ra ngoài, ở bất kỳ một bên nào đó Đây là một kiểm định hai mặt
Nếu chúng ta từ chối khi giả thuyết là đúng, điều này là một lỗi loại I và do đó α, được thiết lập trước kiểm định, xác định mức độ lỗi loại I mà chúng ta có thể chấp nhận, các giá trị thông thường của α là 0.1, 0.05, 0.01 (xem bảng 19.3) Lỗi loại II là khi chúng ta không từ chối giả thuyết không có căn cứ khi giá trị trung bình thực tế μ không bằng 𝜇 0 Xác suất rằng 𝐻 0 không bị từ chối khi giá trị trung bình thực tế là μ là một hàm của μ và được biểu diễn là
1 − β(μ) được gọi là hàm công suất của kiểm định và bằng xác suất từ chối khi μ là giá trị thực tế Xác suất lỗi loại II tăng khi μ và 𝜇 0 gần nhau, và chúng ta có thể tính toán kích thước mẫu cần thiết để có thể phát hiện được sự khác biệt δ = |μ−𝜇 0 | với độ công suất đủ
Cũng có thể có một kiểm định một mặt dạng
𝐻 0 : μ ≤ 𝜇 0 vs 𝐻 1 : μ > 𝜇 0 kiểm định một mặt, trong đó giả thuyết thay thế là μ ≠ 𝜇 0 Kiểm định một mặt với mức ý nghĩa α xác định khoảng tin cậy 100(1 − α) mà m phải nằm trong một phía để không bị bác bỏ giả thuyết Chúng ta không bác bỏ nếu
𝜎 (𝑚 − 𝜇 0 ) ∈ (−∞, 𝑧 𝛼 ) và bác bỏ nếu nằm bên ngoài Lưu ý rằng giả thuyết không ràng buộc H0 cũng cho phép sự bằng nhau, điều này có nghĩa là chúng ta chỉ nhận được thông tin về sự sắp xếp nếu kiểm định bị bác bỏ Điều này cho chúng ta biết rằng chúng ta nên sử dụng kiểm định một mặt nào trong hai Bất kỳ tuyên bố nào chúng ta có, nó phải nằm trong 𝐻 1 để khi kiểm định bị bác bỏ sẽ hỗ trợ tuyên bố của chúng ta
Nếu phương sai không được biết, tương tự như chúng ta đã làm trong các ước lượng khoảng, chúng ta sử dụng phương sai mẫu thay vì phương sai của quần thể và sự thực tế rằng
Ví dụ, cho 𝐻 0 : μ = 𝜇 0 so với 𝐻 1 : μ ≠ 𝜇 0 , chúng ta không từ chối ở mức ý nghĩa α nếu
𝑆 ∈ (−𝑡 𝛼/2,𝑁−1 , 𝑡 𝛼/2,𝑁−1 ) được gọi là kiểm định t hai mặt (two-sided t test) Kiểm định t một mặt cũng có thể được định nghĩa tương tự.
Đánh giá hiệ u su ấ t c ủ a thu ậ t toán phân lo ạ i
Bây giờ, sau khi đã xem xét kiểm định giả thuyết, chúng ta sẽ thấy cách nó được sử dụng trong việc kiểm tra tỷ lệ lỗi Chúng ta sẽ thảo luận về trường hợp lỗi phân loại, nhưng cùng phương pháp này áp dụng cho lỗi bình phương trong hồi quy, log likelihood trong học không giám sát, phần thưởng kỳ vọng trong học tăng cường và cả những trường hợp khác, miễn là chúng ta có thể viết được một phân phối mẫu phù hợp Chúng ta cũng sẽ thảo luận về các kiểm định phi tham số khi không tìm thấy phân phối mẫu phù hợp như vậy
Bây giờ chúng ta sẽ bắt đầu với việc đánh giá tỷ lệ lỗi, và trong phần tiếp theo, chúng ta sẽ thảo luận về so sánh tỷ lệ lỗi
Hãy bắt đầu với trường hợp chúng ta có một tập huấn luyện duy nhất T và một tập xác thực duy nhất V Chúng ta huấn luyện bộ phân loại trên T và kiểm tra nó trên V Chúng ta ký hiệu p là xác suất bộ phân loại mắc lỗi phân loại sai Chúng ta không biết p; đó là điều chúng ta muốn ước lượng hoặc kiểm định một giả thuyết về Trên mẫu có chỉ số t từ tập xác thực V, giả sử 𝑥 𝑡 biểu thị tính chính xác của quyết định của bộ phân loại: 𝑥 𝑡 là một biến ngẫu nhiên Bernoulli 0/1 nhận giá trị 1 khi bộ phân loại mắc lỗi và 0 khi bộ phân loại đúng Biến ngẫu nhiên nhị phân X biểu thị tổng số lỗi:
Chúng ta muốn kiểm định xem xác suất lỗi p có nhỏ hơn hoặc bằng một giá trị 𝑝 0 mà chúng ta chỉ định không:
Nếu xác suất lỗi là p, thì xác suất rằng bộ phân loại gây ra j lỗi trong N lỗi là:
Nếu trong trường hợp đó, xác suất chúng ta thấy X = e lỗi hoặc nhiều hơn là rất khó xảy ra, thì việc từ chối giả thuyết p ≤ 𝑝 0 là hợp lý Đó là, kiểm định nhị phân từ chối giả thuyết nếu:
𝑥=𝑒 trong đó α là mức ý nghĩa, ví dụ như 0.05
19.10.2 Kiểm định xấp xỉ theo phân phối chuẩn
Nếu p là xác suất lỗi, ước lượng điểm của chúng ta là 𝑝̂ = X/N Sau đó, hợp lý để từ chối giả thuyết không có giá trị nếu 𝑝̂ lớn hơn rất nhiều so với 𝑝 0 Độ lớn cần thiết để là đủ lớn được xác định bởi phân phối mẫu của 𝑝̂ và mức ý nghĩa α
Vì X là tổng của các biến ngẫu nhiên độc lập có cùng phân phối, định lý giới hạn trung tâm khẳng định rằng với N lớn, X/N xấp xỉ có phân phối chuẩn với giá trị trung bình 𝑝 0 và phương sai 𝑝 0 (1 - 𝑝 0 )/N Sau đó,
√𝑝0(1 − 𝑝 0 )/𝑁~𝑍 với ∼ đồng nghĩa với "xấp xỉ phân phối." Sau đó, sử dụng phương trình 19.7, kiểm tra xấp xỉ theo phân phối chuẩn từ chối giả thiết không đúng nếu giá trị này cho X = e lớn hơn 𝑧 𝛼 𝑧 0.05 là 1.64 Xấp xỉ này sẽ hoạt động tốt miễn là N không quá nhỏ và p không rất gần 0 hoặc 1; theo quy tắc thông thường, chúng ta yêu cầu Np ≥ 5 và N(1 - p) ≥ 5
Hai kiểm định mà chúng ta đã thảo luận trước đó sử dụng một tập dữ liệu xác thực duy nhất Nếu chúng ta chạy thuật toán K lần trên K cặp tập dữ liệu huấn luyện/xác thực, chúng ta sẽ có K tỷ lệ lỗi, 𝑝 𝑖 , với i = 1, ,K trên K tập dữ liệu xác thực Hãy để 𝑥 𝑖 𝑡 là 1 nếu bộ phân loại huấn luyện trên 𝑇 𝑖 mắc lỗi phân loại trên mẫu t của 𝑉 𝑖 ; 𝑥 𝑖 𝑡 là 0 nếu không có lỗi xảy ra
𝐾 − 1 từ phương trình 19.8, chúng ta biết rằng chúng ta có
𝑆 ~𝑡 𝐾−1 và bài kiểm định t sẽ từ chối giả thuyết không vô hiệu rằng thuật toán phân loại có tỷ lệ lỗi không quá 𝑝 0 ở mức ý nghĩa α nếu giá trị này lớn hơn 𝑡 𝛼,𝐾−1 Thông thường, K được chọn là 10 hoặc 30 𝑡 0.05,9 = 1.83 và 𝑡 0.05,29 = 1.70.
So sánh hai thu ậ t toán phân lo ạ i
Đưa ra hai thuật toán học tập, chúng tôi muốn so sánh và kiểm tra xem chúng có xây dựng các bộ phân loại có cùng tỷ lệ lỗi dự kiến hay không
19.11.1 Thử nghiệm McNemar Đưa ra một tập huấn luyện và một tập xác thực, chúng tôi sử dụng hai thuật toán để huấn luyện hai bộ phân loại trên tập huấn luyện và kiểm tra chúng trên tập xác thực bảng dữ liệu thống kê và tính toán lỗi của chúng TẠIbảng dữ liệu thống kê, giống như số được hiển thị ở đây, là một mảng các số tự nhiên ở dạng ma trận biểu thị số lượng hoặc tần số: e00: số ví dụ bị phân loại sai bởi cả hai e01: số ví dụ bị phân loại sai bởi 1 chứ không phải 2 e10: số ví dụ bị phân loại sai bởi 2 chứ không phải 1 e11: số ví dụ được phân loại chính xác bởi cả hai Theo giả thuyết khống rằng các thuật toán phân loại có cùng tỷ lệ lỗi, chúng tôi mong đợie01và những cái này bằng với(e01+e10)/2 Ta có thống kê chi bình phương với một bậc tự do:
Phép thử McNemar bác bỏ giả thuyết rằng hai thuật toán phân loại có cùng tỷ lệ lỗi ở mức ý nghĩa α nếu giá trị này là lớn hơn X 2 α,1 Vì α= 0.05,X 2 0.05,1= 3.84
Bộ này sử dụng k-gấp xác thực chéo để nhậnktập huấn luyện/xác nhận ngang hàng Chúng tôi sử dụng hai thuật toán phân loại để huấn luyện trên các tập huấn luyện
Ti, i = 1, ,K,và kiểm tra trên các bộ xác thựcVi Phần trăm lỗi của các bộ phân loại trên bộ xác thực được ghi lại là P 1 i và P 2 i
Nếu hai thuật toán phân loại có cùng tỷ lệ lỗi, thì chúng tôi hy vọng chúng có cùng giá trị trung bình hoặc tương đương với sự khác biệt của phương tiện của họ là
0 Sự khác biệt về tỷ lệ lỗi khi gấp i là Pi = P 1 i-P 2 i.Cái này là một kiểm tra theo cặp; tức là đối với mỗi i, cả hai thuật toán đều có cùng tập huấn luyện và tập hợp lệ Khi điều này được thực hiện K lần, chúng tôi có một phân phối của P i có chứa K điểm Cho rằng
P 1 i và P 2 i là cả hai (xấp xỉ) bình thường, sự khác biệt của họ P i cũng là bình thường Giả thuyết không là phân phối này có nghĩa là 0:
Theo giả thuyết null rằng μ = 0, chúng ta có một thống kê được phân phối với K − 1 bậc tự do:
Do đó, thử nghiệm t cặp cv gấp K bác bỏ giả thuyết rằng hai thuật toán sification clastest có cùng tỷ lệ lỗi ở mức độ quan trọng α nếu giá trị này nằm ngoài khoảng (−tα/2,K−1, tα/2,K−1) t 0,025,9 = 2,26 và t0,025,29 = 2,05
Nếu chúng ta muốn kiểm tra xem thuật toán đầu tiên có ít lỗi hơn Thứ hai, chúng ta cần một giả thuyết một chiều và sử dụng thử nghiệm một đuôi: H0 : μ ≥ 0 so với H1 : μ < 0 Nếu thử nghiệm bị từ chối, tuyên bố của chúng tôi rằng thử nghiệm đầu tiên có lỗi ít hơn đáng kể được hỗ trợ
19.11.3 5 × 2 cv Ghép nối t thử nghiệm
Trong thử nghiệm 5 × 2 cv t, được đề xuất bởi Dietterich (1998), chúng tôi thực hiện năm sao chép xác thực chéo hai lần Trong mỗi bản sao, tập dữ liệu là được chia thành hai bộ có kích thước bằng nhau p(j) i là sự khác biệt giữa lỗi tỷ lệ của hai phân loại trên gấp j = 1, 2 của bản sao i = 1, , 5 Các Trung bình trên phép sao chép i là pi
= (p (1) i +p (2) i )/2, và phương sai ước tính là S2 i = (p (1) i − pi) 2 + (p (2) i − pi) 2
Theo giả thuyết null mà hai thuật toán phân loại có Tỷ lệ lỗi tương tự, P (J) i là sự khác biệt của hai phân bố giống hệt nhau tỷ lệ, và bỏ qua thực tế là các tỷ lệ này không độc lập, p (j) Tôi có thể được coi là phân phối xấp xỉ bình thường với 0 phương sai trung bình và không xác định σ2 Sau đó p(j) i /σ xấp xỉ đơn vị bình thường Nếu ta giả định p(1) i và p(2) Tôi là những người bình thường độc lập (đó là Không hoàn toàn đúng vì bộ đào tạo và kiểm tra của họ không được vẽ độc lập với nhau), sau đó S2 i /σ2 có phân bố chi-bình phương với 19.11 So sánh hai thuật toán phân loại 575 một mức độ tự do Nếu mỗi s2 Tôi được cho là độc lập (điều này không đúng vì tất cả chúng đều được tính từ cùng một tập hợp dữ liệu có sẵn), sau đó tổng của chúng là chi- bình phương với năm bậc tự do:
Cho chúng ta một thống kê T với năm bậc tự do 5 × 2 cv ghép nối t
Kiểm tra kiểm tra bác bỏ giả thuyết rằng hai thuật toán phân loại có
Tỷ lệ lỗi tương tự ở mức quan trọng α nếu giá trị này nằm ngoài khoảng thời gian
19.11.4 Thử nghiệm F ghép nối 5 × 2 CV
Chúng ta lưu ý rằng tử số trong phương trình 19,15, p (1) 1 , là tùy ý; thực sự Mười giá trị khác nhau có thể được đặt trong tử số, cụ thể là, p (j) i , j 1, 2, i = 1, , 5, dẫn đến mười thống kê có thể:
Alpaydın (1999) đề xuất mở rộng thử nghiệm 5 × 2 cv t kết hợp kết quả của mười số liệu thống kê có thể Nếu p (j) i /σ ∼ Z, sau đó (p (j) i) 2 /σ 2 ∼ X 2 1 và tổng của chúng là chi- square với mười bậc tự do: Đặt điều này trong tử số của phương trình 19,15, chúng ta có được một thống kê rằng là tỷ lệ của hai biến ngẫu nhiên phân bố chi-square Hai như vậy các biến chia cho mức độ tự do tương ứng của chúng được phân phối F với mười và năm bậc tự do (phần A.3.8):
Thử nghiệm F ghép nối 5 × 2 cv bác bỏ giả thuyết rằng gorithms chứng thực phân loại có cùng tỷ lệ lỗi ở mức độ quan trọng α nếu giá trị này là lớn hơn Fα,10,5 F0,05,10,5 = 4,74.
So sánh nhi ề u thu ật toán: Phân tích phương sai
Trong nhiều trường hợp, chúng tôi có nhiều hơn hai thuật toán và chúng tôi muốn so sánh lỗi dự kiến của chúng Được cho L các thuật toán, chúng tôi huấn luyện chúng trên K tập huấn luyện, quy nạp K bộ phân loại với từng thuật toán, sau đó kiểm tra chúng trên K bộ xác thực và ghi lại tỷ lệ lỗi của chúng Điều này mang lại cho chúng tôi L nhómkcác giá trị Vấn đề sau đó là so sánh các L mẫu cho sự khác biệt có ý nghĩa thống kê Đây là thí nghiệm đơn nhân tố với L cấp độ, các thuật toán học tập, và có K lặp lại cho mỗi cấp độ
Phân tíchTRONGphân tích phương sai(ANOVA), chúng tôi xem xét L mẫu độc lập, mỗi kích phương sai thước K, bao gồm các biến ngẫu nhiên bình thường có nghĩa là không xác định μj và phương sai phổ biến chưa biếtσ2:
Chúng tôi quan tâm đến việc kiểm tra giả thuyếth0rằng tất cả các phương tiện đều bình đẳng: H0:μ1=μ2=… =μL so vớih1:μr=μs ,cho ít nhất một cặp(r,s)
Việc so sánh tỷ lệ lỗi của nhiều thuật toán phân loại phù hợp với lược đồ này Chúng ta có L các thuật toán phân loại và chúng tôi có tỷ lệ lỗi của chúng trên kxác nhận nếp gấp Xij là số lỗi xác thực do bộ phân loại tạo ra, được huấn luyện bởi thuật toán phân loại j chúng tôi gấp i Mỗi Xij là nhị thức và xấp xỉ chuẩn Vì H0 không bị từ chối, chúng tôi không tìm thấy sự khác biệt lỗi đáng kể giữa các tỷ lệ lỗi của L các thuật toán phân loại Do đó, đây là sự tổng quát hóa các thử nghiệm mà chúng ta đã thấy trong phần 19.11 so sánh tỷ lệ lỗi của hai thuật toán phân loại Các L các thuật toán phân loại có thể khác nhau hoặc có thể sử dụng các siêu tham số khác nhau, ví dụ: số lượng đơn vị ẩn trong một perceptron đa lớp, số lượng hàng xóm trong k-nn, vân vân
Cách tiếp cận trong ANOVA là lấy hai công cụ ước tính của σ 2 Một công cụ ước tính được thiết kế sao cho nó chỉ đúng khih0là đúng và thứ hai luôn là một ước tính hợp lệ, bất kể H0 là đúng hay không ANOVA sau đó từ chối H0, cụ thể là, rằng L các mẫu được rút ra từ cùng một quần thể, nếu hai công cụ ước tính khác nhau đáng kể Ước tính đầu tiên của chúng tôi để σ 2 chỉ có giá trị nếu giả thuyết là đúng, cụ thể là, μj =μ,j=1, ,L Vì Xij ∼ N(μ,σ 2 ), thì trung bình nhóm
Cũng bình thường với ý nghĩaμvà phương sai σ 2 /K Nếu giả thuyết là đúng, thì mj,j=1, ,L là L trường hợp rút ra từ N(μ,σ 2 /K) Sau đó của họ trung bình và phương sai là
Do đú, một ước tớnh của σ 2 là KãS 2 , cụ thể là,
Mỗi mj là bình thường và (L-1)S2/(σ 2 /K) là chi bình phương với(L-1) bậc tự do Sau đó chúng tôi có
Chúng tôi xác địnhSSb, tổng bình phương giữa các nhóm, như
Vì vậy, khi H0 là sự thật, chúng tôi có Ước tính thứ hai của chúng tôi về σ 2 là trung bình của phương sai nhóm,S 2 j ,của- kết thúc như
Chúng tôi xác định SSw, tổng bình phương trong nhóm:
Hãy nhớ rằng đối với một mẫu bình thường, chúng ta có và tổng của chi-square cũng là một chi-square, chúng ta có
Sau đó, chúng ta có nhiệm vụ so sánh hai phương sai cho bằng nhau, điều mà chúng ta có thể thực hiện bằng cách kiểm tra xem tỷ lệ của chúng có gần bằng 1 hay không Tỷ lệ của hai biến ngẫu nhiên chi bình phương độc lập chia cho bậc tự do tương ứng của chúng là một biến ngẫu nhiên có giá trị như sau:F-phân phối, và do đó khi H0 là sự thật, chúng tôi có Đối với bất kỳ giá trị ý nghĩa nhất địnhα, giả thuyết rằng L các thuật toán phân loại có cùng tỷ lệ lỗi dự kiến sẽ bị từ chối nếu thống kê này lớn hơn Fα,L−1,L(K−1)
Lưu ý rằng chúng tôi sẽ từ chối nếu hai công cụ ước tính không đồng nhất đáng kể thủy tùng H0 không đúng thì phương sai của mj xung quanh m sẽ lớn hơn những gì chúng ta thường có nếu H0 là đúng, và do đó nếu H0 là không đúng sự thật, ước lượng đầu tiên σ̂ 2 b sẽ đánh giá quá cao σ 2 , và tỷ lệ sẽ lớn hơn hơn 1 Đối với α= 0.0L =5 và K,F0.05,4,45= 2.6 Nếu Xij thay đổi xung quanh m với phương sai của σ 2 , sau đó nếu
H0 là đúng, mj thay đổi xung quanh m qua σ 2 /K Nếu có vẻ như chúng thay đổi nhiều hơn, thì H0 nên bị từ chối vì sự dịch chuyển của mj xung quanh m nhiều hơn những gì có thể được giải thích bằng một số tiếng ồn liên tục được thêm vào
Tên phân tích phương sai được bắt nguồn từ một phân vùng của tổng số sự thay đổi trong dữ liệu thành các thành phần của nó
SST chia cho mức độ tự do của nú, cụ thể là,KãL-1 (cúKã Lđiểm dữ liệu và chỳng tôi mất một bậc tự do vì m là cố định), cho chúng ta phương sai mẫu của Xij.Có thể chỉ ra rằng (bài tập 5) tổng bình phương có thể được chia thành tổng bình phương giữa các nhóm và tổng bình phương trong nhóm
Bảng 19.4 Bảng phân tích phương sai (ANOVA) cho mô hình một yếu tố đơn
Kết quả của ANOVA được báo cáo trong bảng ANOVA như thể hiện trong bảng 19.4 Đây là phân tích một chiều cơ bản về phương sai khi có một yếu tố duy nhất, ví dụ, thuật toán học tập Chúng tôi có thể xem xét các thử nghiệm với nhiều yếu tố, ví dụ: chúng tôi có thể có một yếu tố cho thuật toán phân loại và một yếu tố khác cho thuật toán trích xuất tính năng được sử dụng trước đây, và đây sẽ là một thử nghiệm hai yếu tố với sự tương tác
Nếu giả thuyết bị bác bỏ, chúng ta chỉ biết rằng có một số khác biệt giữa các nhóm L nhưng chúng tôi không biết ở đâu Đối với điều này, chúng tôi đăng học thử nghiệm, nghĩa là một bộ kiểm tra bổ sung liên quan đến các tập hợp con của các nhóm, cho Ví dụ, cặp
Bài kiểm tra chênh lệch bình phương nhỏ nhất của Fisher so sánh các nhóm trong một bài kiểm tra mandifference theo cặp Với mỗi nhóm, ta có mi ∼ N(μi, σ 2 w = MSw / K) và mi – mj ∼N(μi – μj , 2σ 2 w) Sau đó, theo giả thuyết null rằng H0 : μi = μj, chúng ta có
Chúng tôi bác bỏ H0 để ủng hộ giả thuyết thay thế H1 : μ1 = μ2 nếu|t| > tα/2,L(K−1) Tương tự, các thử nghiệm một chiều có thể được xác định để tìm theo cặp đặt hàng.Khi chúng tôi thực hiện một số bài kiểm tra để rút ra một kếtluận, điều này được gọi là nhiều so sánh, và chúng ta cần lưu ý rằng nếu giả thuyết T Các so sánh sẽ được kiểm tra, mỗi so sánh ở mức độ quan trọng α, sau đó xác suất tại ít nhất một giả thuyết bị bác bỏ không chính xác nhiều nhất là T α Chẳng hạn xác suất mà sáu khoảng tin cậy, mỗi khoảng được tính bằng 95 phần trăm khoảng tin cậy cá nhân, sẽ đồng thời chính xác ít nhất là 70 phần trăm Do đó, để đảm bảo rằng khoảng tin cậy tổng thể ít nhất là100 (1 - α), mỗi khoảng tin cậy nên được đặt ở mức 100 (1 - α / T) Này Bonferroni được gọi là hiệu chỉnh Bonferroni sửa chữa Đôi khi nó có thể là trường hợp ANOVA từ chối và không ai trong số các xét nghiệm theo cặp sau hoc tìm thấy một sự khác biệt đáng kể Trong trường hợp như vậy,kết luận là có một sự khác biệt giữa các phương tiện nhưng chúng tôi cần thêm dữ liệu để có thể xác định nguồn gốc của sự khác biệt Lưu ý rằng chi phí chính là đào tạo và kiểm tra phân loại L thuật toán trên bộ đào tạo / xác thực K Một khi điều này được thực hiện và các giá trị được lưu trữ trong bảng K×L, tính toán ANOVA hoặc so sánh theo cặp
Số liệu thống kê thử nghiệm từ những người đó là rất rẻ khi so sánh.
So sánh trên nhi ề u b ộ d ữ li ệ u
Giả sử chúng ta muốn so sánh hai hoặc nhiều thuật toán trên một số bộ dữ liệu chứ không phải một Điều làm cho điều này khác biệt là một thuật toán tùy thuộc vào mức độ sai lệch quy nạp của nó phù hợp với vấn đề sẽ hoạt động khác nhau trên các tập dữ liệu khác nhau và các giá trị lỗi này trên các tập dữ liệu khác nhau không thể được cho là phân phối bình thường xung quanh độ chính xác trung bình nào đó Điều này ngụ ý rằng các kiểm định tham số mà chúng ta đã thảo luận trong các phần trước dựa trên các nhị thức xấp xỉ chuẩn không còn áp dụng được nữa và chúng ta cần phải dùng đếnthử nghiệm phi tham số tham số Ưu điểm của việc có các bài kiểm tra như vậy là chúng ta cũng có thể sử dụng thử nghiệm chúng để so sánh các số liệu thống kê khác không bình thường, chẳng hạn như thời gian đào tạo, số lượng tham số miễn phí, v.v
Các thử nghiệm tham số thường mạnh mẽ đối với những sai lệch nhỏ so với quy tắc, đặc biệt nếu mẫu lớn Các bài kiểm tra phi tham số được phân phối miễn phí nhưng kém hiệu quả hơn; nghĩa là, nếu cả hai đều có thể áp dụng, nên ưu tiên kiểm tra tham số Thử nghiệm phi tham số tương ứng sẽ yêu cầu mẫu lớn hơn để đạt được cùng công suất Các phép thử phi tham số giả định không có kiến thức về sự phân bố của tổng thể cơ bản mà chỉ biết rằng các giá trị có thể được so sánh hoặc sắp xếp, và, như chúng ta sẽ thấy, các phép thử như vậy sử dụng thông tin về thứ tự này
Khi chúng tôi có một thuật toán được đào tạo trên một số bộ dữ liệu khác nhau, trung bình các lỗi của nó trên các bộ dữ liệu này không phải là một giá trị có ý nghĩa và, ví dụ: chúng tôi không thể sử dụng các mức trung bình đó để so sánh hai thuật toán Để so sánh hai thuật toán, phần thông tin duy nhất chúng ta có thể sử dụng là nếu trên bất kỳ tập dữ liệu nào,TẠIchính xác hơnb; sau đó chúng ta có thể đếm số lầnTẠI chính xác hơnbvà kiểm tra xem điều này có thể xảy ra tình cờ hay không nếu chúng thực sự chính xác như nhau Với nhiều hơn hai thuật toán, chúng ta sẽ xem xét giá trị trung bìnhcấp bậccủa người học được huấn luyện bởi các thuật toán khác nhau Các bài kiểm tra phi tham số về cơ bản sử dụng dữ liệu xếp hạng này chứ không phải các giá trị tuyệt đối
Trước khi tiếp tục với chi tiết của các thử nghiệm này, cần nhấn mạnh rằng việc so sánh tỷ lệ lỗi của các thuật toán trên toàn bộ các ứng dụng là vô nghĩa Bởi vì không có thứ gọi là “thuật toán học tập tốt nhất”, nên những bài kiểm tra như vậy sẽ không mang tính kết luận Tuy nhiên, chúng ta có thể so sánh các thuật toán trên một số bộ dữ liệu hoặc phiên bản của cùng một ứng dụng Ví dụ: chúng tôi có thể có một số bộ dữ liệu khác nhau để nhận dạng khuôn mặt nhưng có các thuộc tính khác nhau (độ phân giải, ánh sáng, số lượng đối tượng, v.v.) và chúng tôi có thể sử dụng kiểm tra phi tham số để so sánh các thuật toán trên những bộ dữ liệu đó; các thuộc tính khác nhau của bộ dữ liệu sẽ khiến chúng tôi không thể gộp các hình ảnh từ các bộ dữ liệu khác nhau vào một bộ duy nhất, nhưng chúng tôi có thể đào tạo các thuật toán riêng biệt trên các bộ dữ liệu khác nhau, có được thứ hạng riêng,
19.13.1 So sánh hai thuật toánkiểm tra dấu hiệu
Giả sử chúng tôi muốn so sánh hai thuật toán Cả hai chúng tôi đều đào tạo và xác nhận chúng trên i = 1, ,N các bộ dữ liệu khác nhau theo cách được ghép nối — nghĩa là tất cả Các điều kiện ngoại trừ các thuật toán khác nhau phải giống hệt nhau Chúng tôi nhận được kết quả e 1 i và e 2 i và nếu chúng ta sử dụng xác thực chéo K-fold trên mỗi tập dữ liệu, kiểm tra dấu hiệu đây là trung bình hoặc trung vị của các giá trị
K Kiểm tra dấu hiệu dựa trên ý tưởng rằng nếu hai thuật toán có lỗi bằng nhau, trên mỗi tập dữ liệu, có phải là 1/2 xác suất rằng cái đầu tiên có ít lỗi hơn cái thứ hai, và do đó chúng tôi hy vọng người đầu tiên sẽ giành chiến thắng trên bộ dữ liệu N / 2 Hãy để chúng tôi xác định
Nếu giả thuyết khống là đúng, X là nhị thức trong N thử nghiệm với p=1/2 Hãy để chúng tôi nói rằng chúng tôi đã thấy rằng người đầu tiên chiến thắng trên X= ebộ dữ liệu
Sau đó, xác suất mà chúng ta cóehoặc ít thắng hơn khi thực sự p=1/2 là
Và chúng tôi bác bỏ giả thuyết null nếu xác suất này quá nhỏ, nghĩa là,ít hơn α Nếu có mối quan hệ, chúng tôi chia đều cho cả hai bên; đó là, nếu có quan hệ t, chúng ta thêm t / 2 vào e (nếu t là lẻ, chúng ta bỏ qua quan hệ lẻ và giảm N xuống 1)
Trong thử nghiệm H0: μ1 ≤ μ2 so với H1: μ1 > μ2 chúng tôi từ chối nếu P{X ≥ e} < α.Đối với bài kiểm tra hai mặtchúng tôi bác bỏ giả thuyết khống nếuequá nhỏ hoặc quá lớn thủy tùnge < N/2, chúng tôi từ chối nếu 2P{X≤e}< α; nếu nhưe > N/2, chúng tôi từ chối nếu 2P{X≥e}< α —chúng ta cần tìm đuôi tương ứng và chúng ta nhân nó với 2 vì đây là phép thử hai đuôi
Như chúng ta đã thảo luận trước đây, các bài kiểm tra phi tham số có thể được sử dụng để so sánh bất kỳ phép đo nào, chẳng hạn như thời gian đào tạo Trong trường hợp như vậy, chúng ta thấy lợi thế của phép thử phi tham số sử dụng thứ tự thay vì giá trị trung bình của các giá trị tuyệt đối Giả sử chúng ta so sánh hai thuật toán trên mười bộ dữ liệu, chín trong số đó là nhỏ và có thời gian đào tạo cho cả hai thuật toán theo thứ tự phút và một thuật toán rất lớn và có thời gian đào tạo theo thứ tự một ngày Nếu chúng tôi sử dụng kiểm tra tham số và lấy trung bình thời gian đào tạo, tập dữ liệu lớn duy nhất sẽ chi phối quyết định, nhưng khi chúng tôi sử dụng kiểm tra không tham số và so sánh các giá trị riêng biệt trên từng tập dữ liệu, việc sử dụng thứ tự sẽ có tác dụng chuẩn hóa riêng cho từng tập dữ liệu và do đó sẽ giúp chúng tôi đưa ra quyết định mạnh mẽ
Ví dụ: chúng tôi cũng có thể sử dụng kiểm tra dấu hiệu làm kiểm tra một mẫu để kiểm tra xem lỗi trung bình trên tất cả các tập dữ liệu có nhỏ hơn 2% hay không bằng cách so sánh μ1 không phải theo giá trị trung bình của dân số thứ hai mà theo hằng số μ0 Chúng ta có thể làm điều này đơn giản bằng cách cắm hằng số μ0 thay cho tất cả các quan sát từ mẫu thứ hai và sử dụng quy trình đã sử dụng trước đó;nghĩa là, chúng tôi sẽ đếm số lần chúng tôi nhận được nhiều hơn hoặc ít hơn 0,02 và kiểm tra xem điều này có quá khó xảy ra theo giả thuyết không hay không cho rộng N, có thể sử dụng xấp xỉ thông thường đối với nhị thức (bài tập 6), nhưng trên thực tế, số lượng bộ dữ liệu có thể nhỏ hơn 20 Lưu ý rằng kiểm định dấu là kiểm định trên trung vị của tổng thể, bằng với giá trị trung bình nếu phân phối là đối xứng
Kiểm tra dấu hiệu chỉ sử dụng dấu của sự khác biệt chứ không phải độ lớn của nó, nhưng chúng ta có thể xem xét trường hợp thuật toán đầu tiên, khi nó thắng, luôn thắng với biên độ lớn trong khi thuật toán thứ hai, khi nó thắng, luôn thắng vừa đủ TràBài kiểm tra xếp hạng có chữ ký của Wilcoxon sử dụng cả dấu hiệu và mức độ của sự khác biệt, như sau Độ lớn của sự khác biệt, như sau.Chúng ta hãy nói, ngoài dấu hiệu khác biệt, chúng ta còn tính mi =|e 1 i −e 2 i | Và sau đó chúng tôi đặt hàng chúng sao cho nhỏ nhất, mini mi, được chỉ định hạng 1, nhỏ nhất tiếp theo được gán hạng 2, v.v Nếu có mối quan hệ,Thứ hạng của họ được đưa ra giá trị trung bình mà họ sẽ nhận được nếu họ hơi khác nhau Ví dụ: nếu độ lớn là 2, 1, 2, 4, cấp bậc là 2,5, 1, 2,5, 4 Sau đó, chúng tôi tính w + là tổng của tất cả các cấp bậc có dấu hiệu là dương và w− là tổng của tất cả các cấp bậc có dấu hiệu âm Giả thuyết null μ1 ≤ μ2 có thể bị bác bỏ để ủng hộ phương án thay thế μ1 > μ2 chỉ khi w+ nhỏ hơn nhiều so với w− Tương tự, hai mặt Giả thuyết μ1 = μ2 có thể bị bác bỏ để ủng hộ phương án μ1 = μ2 Chỉ khi W+ hoặc W−, nghĩa là W = Min(W+, W−), là rất nhỏ Các giá trị quan trọng cho bài kiểm tra xếp hạng đã ký Wilcoxon được lập bảng và cho N > 20, xấp xỉ bình thường có thể được sử dụng
Thử nghiệm Kruskal-Wallis là phiên bản phi tham số của ANOVA và là một khỏi quỏt nhiều mẫu của một bài kiểm tra xếp hạngCho M = L ã N quan sỏt, vớ dụ, tỷ lệ lỗi, của các thuật toán L trên tập dữ liệu N, Xij , i = 1, , L, j =1, ,N, chúng tôi xếp hạng chúng từ nhỏ nhất đến nhỏ nhất lớn nhất và gán cho họ cấp bậc, Rij , từ 1 đến M, một lần nữa lấy trung bình trong trường hợp hòa Nếu giả thuyết null H0 : μ1
= μ2 =ããã = μL là đỳng, thỡ trung bỡnh của cỏc cấp bậc của thuật toỏn i nờn xấp xỉ giữa
1 và M, nghĩa là (M + 1)/2 Chúng tôi biểu thị mẫu thứ hạng trung bình của thuật toán i bởi Ri• và chúng tôi bác bỏ giả thuyết nếu Thứ hạng trung bình dường như khác với một nửa
Thống kê thử nghiệm xấp xỉ chi-vuông phân bố với L − 1 bậc tự do và chúng tôi bác bỏ giả thuyết null nếu thống kê vượt quá Xα, L−1.Cũng giống như ANOVA tham số, nếu giả thuyết null bị bác bỏ, chúng tôi có thể làm bài kiểm tra sau khi kiểm tra để kiểm tra so sánh theo cặp cấp bậc Một phương pháp kiểm tra của Tukey cho điều này là bài kiểm tra của Tukey, sử dụng phạm vi học sinh
Th ử nghi ệ m đa biế n
Tất cả các bài kiểm tra mà chúng ta đã thảo luận trước đó trong chương này là đơn biến; nghĩa là họ sử dụng một thước đo hiệu suất duy nhất, ví dụ: sai số, độ chính xác, diện tích dưới đường cong, v.v Tuy nhiên, chúng tôi biết rằng các biện pháp khác nhau làm cho các hành vi khác nhau trở nên rõ ràng; ví dụ: lỗi phân loại sai là tổng của các kết quả dương tính giả và âm tính giả và một thử nghiệm về lỗi không thể phân biệt giữa hai loại lỗi này Thay vào đó, người ta có thể sử dụng phép thử hai biến đối với hai biến này sẽ hiệu quả hơn phép thử kiểm tra đơn biến về lỗi bởi vì nó cũng có thể kiểm tra loại phân loại sai Tương tự như vậy, chúng ta có thể xác định, ví dụ, một thử nghiệm hai biến đối với [tprate, fp-rate] hoặc [precision, recovery] để kiểm tra hai biện pháp cùng nhau (Yıldız, Aslan và Alpaydın 2011)
Hãy để chúng tôi nói rằng chúng tôi sử dụng p đo Nếu chúng ta so sánh về mặt (tp-rate, fp-rate) hoặc (độ chính xác, thu hồi), thì p=2 Trên thực tế, tất cả các phép đo hiệu suất được trình bày trong bảng 19.2, chẳng hạn như lỗi, tốc độ tp, độ chính xác, v.v., đều được tính toán từ bốn mục giống nhau trong bảng 19.1 và thay vì sử dụng bất kỳ phép đo được xác định trước nào, chúng ta chỉ có thể hãy tiếp tục và thực hiện kiểm tra bốn biến trên [tp, fp, fn, tn]
19.14.1 So sánh hai thuật toán
Chúng ta giả định rằng xij là các phân phối chuẩn biến p Chúng ta có i =1, ,K nếp gấp và chúng tôi bắt đầu với việc so sánh hai thuật toán, vì vậy j = 1, 2 Chúng tôi muốn kiểm tra xem hai quần thể có giống nhau hay không Vectơ trung bình trong không gian p chiều:
H0 : μ1 = μ2 so với H1 : μ1 = μ2 Đối với thử nghiệm theo cặp, chúng tôi tính toán sự khác biệt được ghép nối: di
Và chúng tôi kiểm tra xem chúng có trung bình bằng không:
H0 : μd = 0 so với H1 : μd = 0 Để kiểm tra điều này, chúng tôi tính toán trung bình mẫu và ma trận hiệp phương sai:
Theo giả thuyết không, các kiểm định đa biến của Hotelling số liệu thống kê (19.27) T ’2 = Km T S -1 m là của Hotelling T 2 phân phối với p Và K−1 bậc tự do (Rencher 1995) Chúng tôi bác bỏ giả thuyết không nếuT ’2 > T 2 α,p,K-1
Khi p=1, thử nghiệm đa biến này giảm xuống thành cặpBạnkiểm tra chúng tôi nói thảo luận trong phần 19.11.2 Bất phương trình 19.14, √km/sđo khoảng cách được chuẩn hóa thành 0 trong một chiều, trong khi ở đây,ktôitS−1tôiđo khoảng cách Mahalanobis bình phương tới0TRONGPkích thước Trong cả hai trường hợp, chúng tôi từ chối nếu khoảng cách quá lớn đến mức nó chỉ có thể xảy ra nhiều nhấtαã100 phần trăm thời gian
Nếu thử nghiệm đa biến bác bỏ giả thuyết không, chúng ta có thể làmPcác bài kiểm tra đơn biến post hoc riêng biệt (sử dụng phương trình 19.14) để kiểm tra xem (những) biến nào gây ra (những) sự từ chối Ví dụ: nếu kiểm định đa biến trên [fp, fn] bác bỏ giả thuyết khống, thì chúng ta có thể kiểm tra xem sự khác biệt đó có phải do sự khác biệt đáng kể về kết quả dương tính giả, âm tính giả hay cả hai
Có thể xảy ra trường hợp không có sự khác biệt đơn biến nào là có ý nghĩa trong khi sự khác biệt đa biến thì có ý nghĩa; đây là một trong những lợi thế của thử nghiệm đa biến Sự kết hợp tuyến tính của các giống gây ra sự khác biệt tối đa có thể được tính như
Sau đó, chúng ta có thể thấy tác động của các kích thước đơn biến khác nhau bằng cách xem xét các phần tử tương ứng củaw Thực ra nếu p =4, chúng ta có thể nghĩ về w như xác định cho chúng tôi một thước đo hiệu suất mới từ bốn giá trị ban đầu trong ma trận nhầm lẫn Thực tế đây là hướng LDA của Fisher (phần 6.8) không phải là ngẫu nhiên—chúng tôi đang tìm kiếm hướng tối đa hóa sự phân tách của hai nhóm dữ liệu
19.14.2 So sánh nhiều thuật toán
Tương tự, chúng ta có thể lấy một phép thử đa biến để so sánh L >2 bằng phiên bản đa biến của ANOVA, cụ thể là MANOVA chúng tôi kiểm tra cho
H0 : μ1=μ2==μ L so với h1 : μ r =μ s cho ít nhất một cặp r, s
Hãy để chúng tôi nói rằng x ij, i=1, ,K, j=1, ,L biểu thị p vectơ hiệu suất chiều của thuật toán j trong lần xác nhậni ANOVA đa biến (MANOVA) tính toán hai ma trận giữa và trong tán xạ:
Sau đó, thống kê kiểm định là Wilks's Λ phân phối với p,L(K−1),L−1 bậc tự do (Rencher 1995) Chúng tôi bác bỏ giả thuyết khống nếu Λ′>Λα,p,L(K−1),L−1 Lưu ý rằng sự từ chối dành cho các giá trị nhỏ của Λ′: Nếu các vectơ trung bình mẫu bằng nhau, chúng tôi mong đợi h là 0 và Λ′để tiếp cận 1; khi phương tiện mẫu trở nên trải rộng hơn, Λ′ trở nên “lớn hơn” so với e và Λ′tiếp cận 0
Nếu MANOVA từ chối, chúng tôi có thể thực hiện kiểm tra sau đại học theo một số cách: Chúng tôi có thể thực hiện một tập hợp các kiểm tra đa biến theo cặp như chúng tôi đã thảo luận trước đây, để xem cặp nào khác biệt đáng kể Hoặc, chúng ta có thể làm p phân tách ANOVA đơn biến trên từng biến thể riêng lẻ (phần 19.12) để xem (những) biến thể nào gây ra sự từ chối
Nếu MANOVA từ chối, sự khác biệt có thể là do một số tổ hợp tuyến tính của các biến thể: Các vectơ trung bình chiếm một không gian có số chiều được cho bởi s=min(p,L-1); kích thước của nó là các vectơ riêng của E -1 H, và bằng cách nhìn vào các vectơ riêng này, chúng ta có thể xác định chính xác chỉnh sửa (đo lường ∑ hiệu suất mới) khiến MANOVA bị từ chối Vì ví dụ, nếu λi/S i=1λi>0.9, chúng tôi nhận được đại khái một hướng và vẽ đồ thị phép chiếu dữ liệu theo hướng này cho phép sắp xếp đơn biến các thuật toán.
Ghi chú
Tài liệu liên quan đến thiết kế thí nghiệm theo sau cuộc thảo luận từ (Montgomery 2005), ở đây được điều chỉnh cho máy học Thảo luận chi tiết hơn về ước lượng khoảng, kiểm tra giả thuyết và phân tích phương sai có thể được tìm thấy trong bất kỳ cuốn sách thống kê nhập môn nào, ví dụ, Ross 1987
Dietterich (1998) thảo luận về các bài kiểm tra thống kê và so sánh chúng trên một số ứng dụng sử dụng các thuật toán phân loại khác nhau Đánh giá về việc sử dụng ROC và tính toán AUC được đưa ra trong Fawcett 2006 Demsar (2006) xem xét các thử nghiệm thống kê để so sánh các bộ phân loại trên nhiều bộ dữ liệu
Khi chúng ta so sánh hai hoặc nhiều thuật toán, nếu giả thuyết không cho rằng chúng có cùng tỷ lệ lỗi không bị bác bỏ, thì chúng ta sẽ chọn thuật toán đơn giản hơn, cụ thể là thuật toán có độ phức tạp về không gian hoặc thời gian ít hơn Nghĩa là, chúng tôi sử dụng tùy chọn ưu tiên trước nếu dữ liệu không ưu tiên hơn về tỷ lệ lỗi Ví dụ: nếu chúng ta so sánh mô hình tuyến tính và mô hình phi tuyến tính và nếu thử nghiệm không bác bỏ rằng chúng có cùng tỷ lệ lỗi dự kiến, thì chúng ta nên chuyển sang mô hình tuyến tính đơn giản hơn Ngay cả khi bài kiểm tra từ chối, trong việc chọn thuật toán này thay vì thuật toán khác, tỷ lệ lỗi chỉ là một trong các tiêu chí
Các tiêu chí khác như độ phức tạp của đào tạo (không gian/thời gian), độ phức tạp của thử nghiệm và khả năng diễn giải có thể được ưu tiên trong các ứng dụng thực tế Đây là cách kết quả bài kiểm tra sau đại học được sử dụng trong thuật toán MultiTest (Yıldız và Alpaydın 2006) để tạo ra một đơn đặt hàng đầy đủ chúng tôi làmL(L−1)/2 bài kiểm tra theo cặp một phía để đặt hàngTÔIcác thuật toán, nhưng rất có thể các bài kiểm tra sẽ không đưa ra thứ tự đầy đủ mà chỉ cho một phần thứ tự Các liên kết còn thiếu được điền vào bằng cách sử dụng thông tin phức tạp trước đó để có được đơn đặt hàng đầy đủ Sắp xếp tô pô đưa ra thứ tự các thuật toán sử dụng cả hai loại thông tin, lỗi và độ phức tạp
Ngoài ra còn có các bài kiểm tra để cho phép kiểm tratương phản Giả sử 1 và 2 là các phương thức mạng thần kinh và 3 và 4 là các phương thức logic mờ Sau đó, chúng ta có thể kiểm tra xem trung bình của 1 và 2 có khác với trung bình của 3 và 4 hay không, từ đó cho phép chúng ta so sánh các phương pháp nói chung
So sánh thống kê không chỉ cần thiết để lựa chọn giữa các thuật toán học mà còn để điều chỉnh các siêu tham số của thuật toán và khung thiết kế thử nghiệm cung cấp cho chúng tôi các công cụ để thực hiện điều này một cách hiệu quả; ví dụ, thiết kế bề mặt phản hồi có thể được sử dụng để học các trọng số trong kịch bản học nhiều nhân (Gửnen và Alpaydın 2011)
Một điểm quan trọng khác cần lưu ý là nếu đang so sánh các lỗi phân loại sai, điều này có nghĩa là theo quan điểm của chúng tôi, tất cả các phân loại sai đều có cùng chi phí Khi không đúng như vậy, các thử nghiệm của chúng ta nên dựa trên các rủi ro có tính đến một hàm tổn thất phù hợp Không có nhiều công việc đã được thực hiện trong lĩnh vực này Tương tự như vậy, các kiểm định này cần được tổng quát hóa từ phân loại sang hồi quy để có thể đánh giá sai số bình phương trung bình của thuật toán hồi quy hoặc để có thể so sánh sai số của hai thuật toán hồi quy
Khi so sánh hai thuật toán phân loại, hãy lưu ý rằng chúng tôi chỉ kiểm tra xem chúng có cùng tỷ lệ lỗi dự kiến hay không Nếu họ làm như vậy, điều này không có nghĩa là họ mắc lỗi giống nhau Đây là một ý tưởng mà chúng tôi đã sử dụng trong chương 17; chúng ta có thể kết hợp nhiều mô hình để cải thiện độ chính xác nếu các bộ phân loại khác nhau mắc các lỗi khác nhau.
Bài t ậ p
Trong bài toán hai lớp, giả sử chúng ta có ma trận mất mát trong đó λ11=λ22= 0, λ21= 1 và λ12=α Xác định ngưỡng của quyết định như là một chức năng củaα
GIẢI PHÁP: Rủi ro chọn lớp đầu tiờn là 0 ã P (C1|x)+α ã P (C2|x) và rủi ro chọn lớp thứ hai là 1 ã P (C1|x) + 0 ã P (C2|x) (mục 3.3)
Chúng tôi chọnVS1nếu cái trước nhỏ hơn cái sau và cho P (C2|x) = 1 − P (C1|x), Chúng tôi chọnVS1nếu như
Nghĩa là, việc thay đổi quyết định ngưỡng tương ứng với việc thay đổi chi phí tương đối của dương tính giả và âm tính giả
Chúng ta có thể mô phỏng một bộ phân loại với xác suất lỗi p bằng cách vẽ các mẫu từ phân phối Bernoulli Làm điều này, thực hiện nhị thức, gần đúng vàBạnkiểm tra cho p0 ∈(0,1) Lặp lại các thử nghiệm này ít nhất 1.000 lần cho một số giá trị của p và tính xác suất bác bỏ giả thuyết không Bạn mong đợi xác suất từ chối là bao nhiêu khi p0=p?
Giả sử rằng x t ∼N(μ,σ 2 )Ở đâu σ 2 đã được biết đến Làm thế nào chúng ta có thể kiểm tra cho H0:μ≥ μ0 so với H1:μ < μ0?
GIẢI: Theo H0, chúng ta có
Các K-xác thực chéo t kiểm tra chỉ kiểm tra sự bằng nhau của tỷ lệ lỗi Nếu bài kiểm tra từ chối, chúng tôi không biết thuật toán phân loại nào có tỷ lệ lỗi thấp hơn Làm cách nào chúng tôi có thể kiểm tra xem thuật toán phân loại đầu tiên không có tỷ lệ lỗi cao hơn thuật toán thứ hai hay không? Gợi ý: Chúng ta phải kiểm tra H0:μ≤0 so với H1:μ >0
Chứng minh rằng tổng bình phương có thể được chia thành tổng bình phương giữa các nhóm và tổng bình phương trong nhóm như sauSSt=SSb+ SSw
Sử dụng xấp xỉ bình thường đối với nhị thức để kiểm tra dấu
GIẢI PHÁP: Theo giả thuyết không rằng cả hai đều tốt như nhau, chúng ta có P=1/2 trở lên N bộ dữ liệu, chúng tôi mong đợi số lần thắng x xấp xỉ Gaussian với μ=pN=N/2 and σ2=P(1− p)N=N/4 Nếu có ethắng, chúng tôi từ chối nếuP(X < e) > α, hoặc nếu
Giả sử chúng ta có ba thuật toán phân loại Làm thế nào chúng ta có thể sắp xếp ba thứ này từ tốt nhất đến tồi tệ nhất?
Nếu chúng ta có hai biến thể của thuật toánTẠIvà ba biến thể của thuật toánb, làm thế nào chúng ta có thể so sánh độ chính xác tổng thể củaTẠIVàbtính đến tất cả các biến thể của chúng?
GIẢI PHÁP: Chúng ta có thể sử dụngtương phản(Montgomery 2005) Về cơ bản, những gì chúng ta sẽ làm là so sánh giá trị trung bình của hai biến thể củaTẠIvới mức trung bình của ba biến thể củab Đề xuất một kiểm định phù hợp để so sánh sai số của hai thuật toán hồi quy GIẢI PHÁP: Trong hồi quy, chúng tôi giảm thiểu tổng bình phương là thước đo phương sai, mà chúng tôi biết là phân phối chi bình phương Vì chúng tôi sử dụngFđể so sánh các phương sai (như chúng ta đã làm trong ANOVA), chúng ta cũng có thể sử dụng nó để so sánh các sai số bình phương của hai thuật toán hồi quy Đề xuất một kiểm định phù hợp để so sánh phần thưởng mong đợi của hai thuật toán học tăng cường.
Tài li ệ u tham kh ả o
Alpaydin, E 1999 “Kết hợp 5×2 mã lựcFKiểm tra để so sánh lớp được giám sátsification thuật toán học tập.Tính toán thần kinh11:1885–1892
Bouckaert, RR 2003 “Lựa chọn giữa hai thuật toán học tập dựa trên
Các bài kiểm tra hiệu chuẩn.” TRONGHội nghị quốc tế lần thứ 20 về học máy, biên tập T Fawcett và N Mishra, 51–58 Menlo Park, CA: AAAI Press
Demsar, J 2006 “So sánh thống kê các bộ phân loại qua nhiều tập dữ liệu.” Tạp chí Nghiên cứu Máy học7:1–30
Dietterich, TG 1998 “Xét nghiệm thống kê gần đúng để so sánh được giám sát thuật toán học tập phân loại.”Tính toán thần kinh10:1895–1923
Fawcett, T 2006 “Giới thiệu về Phân tích ROC.”Nhận dạng mẫu Lethạn27:861–874
Gửnen, M và, E Alpaydın 2011 “Thường xuyờn húa việc học đa nhõn bằng cách sử dụng Phương pháp bề mặt đáp ứng."Nhận dạng mẫu44:159–171.