Về tớnh toỏn thực nghiệm

Một phần của tài liệu Quy nạp quy tắc phân lớp sử dụng lý thuyết tập thô Lê Quang Đạt. (Trang 69)

Ba thuật toỏn trỡnh bày trong mục 3.3 trờn đõy cho phộp tạo ra cỏc bộ quy tắc khỏc nhau. Chỳng đó được cài đặt trong hệ thống phần mềm quy nạp quy tắc quyết định RoughFamily. Mục này giới thiệu một số kết quả tớnh toỏn thực nghiệm nhằm đỏnh giỏ tớnh hữu ớch của cỏc tập quy tắc được tạo ra bởi ba thuật toỏn với hai nhiệm vụ: phõn loại cỏc đối tượng và phỏt hiện tri thức (là cỏc quy tắc quyết định). Cỏc kết quả tớnh toỏn thực nghiệm này đó được Stefanowski J. cụng bố trong [12].

Để đỏnh giỏ tập quy tắc, cỏc số đo thụng dụng sau đõy được tớnh đến và sử dụng :

- Số quy tắc cú trong bộ quy tắc quy nạp được.

- Độ mạnh trung bỡnh của cỏc quy tắc (thể hiện bằng số cỏc đối tượng được phủ).

- Độ dài trung bỡnh của quy tắc (thể hiện trong số cỏc điều kiện sơ cấp). - Độ chớnh xỏc phõn loại của cỏc quy tắc.

Ba số đo đầu chủ yếu dựng để đỏnh giỏ bộ quy tắc trờn quan điểm phỏt hiện tri thức, số đo cuối cựng để đỏnh giỏ bộ quy tắc cho hệ thống phõn loại.

Độ chớnh xỏc phõn loại được tớnh toỏn bằng cỏch thực hiện phộp kiểm thử chộo 10 lần (10fold cross-validation) hoặc phương phỏp loại bỏ 1 (leaving one out).

Cỏc thực nghiệm được thực hiện trờn một số tập dữ liệu thực tế, lấy từ kho lưu trữ của UCI (University of California at Irvine) Đại học California tại

Số húa bởi Trung tõm Học liệu – Đại học Thỏi Nguyờn http://www.lrc-tnu.edu.vn/

Irvine. Đõy là những tập dữ liệu được biết đến rộng rói trong cộng đồng cỏc nhà nghiờn cứu về học mỏy và lý thuyết tập thụ. Cụ thể là cỏc tập: Iris, Tic- tac-toe, Voting, Election, Breast Cancer, Buses, Hvs-4.

Chỳ ý rằng, để ỏp dụng cỏc thuật toỏn quy nạp quy tắc đó trỡnh bày, cỏc tập dữ liệu đầu vào được giả định là xỏc định hoàn toàn: chỳng khụng chứa cỏc giỏ trị thiếu. Cỏc thuộc tớnh số liờn tục cũng đó được rời rạc húa. Do đú một số dữ liệu đó được điều chỉnh bằng cỏch bỏ đi một số đối tượng hoặc thuộc tớnh. Cỏc bộ dữ liệu iris hay buses đều chứa cỏc thuộc tớnh cú giỏ trị liờn tục đó được rời rạchúa bằng phương phỏp của Fayyad và Irani.

Bảng 3.2 dưới đõy cho thấy hiệu suất của cả ba loại thuật toỏn quy nạp quy tắc trỡnh bày trong mục 3.3, thụng qua độ chớnh xỏc phõn lớp. (Đối với tập dữ liệu Election, người ta khụng tớnh được bộ quy tắc vột cạn do kớch thước quỏ lớn, đũi hỏi quỏ nhiều thời gian và bộ nhớ).

Bảng 3.2 S độ chớnh xỏc phõn lớp ba thuật toỏn (thể hiện bằng %)

Bảng 3.3 cho kết quả so sỏnh cỏc quy tắc quyết định được tạo ra bởi cả ba thuật toỏn (gồm quy tắc tối tiểu, quy tắc thỏa món yờu cầu và quy tắc vột cạn) cỏc tiờu chớ: 1- Số quy tắc, 2- Chiều dài trung bỡnh của quy tắc (số điều kiện), 3- độ mạnh trung bỡnh của quy tắc{số vớ dụ được phủ bởi quy tắc}, SC- ngưỡng độ mạnh tương đối tối thiểu [%] tốt nhất.

Số húa bởi Trung tõm Học liệu – Đại học Thỏi Nguyờn http://www.lrc-tnu.edu.vn/

Bảng 3.3. So sỏnh đặc điểm của quy tắc quyết định

So sỏnh cỏc bộ quy tắc thu được bằng tất cả ba cỏch tiếp cận chỳng ta cú thể nhận thấy rằng :

- Bộ quy tắc vột cạn thường bao gồm một số lượng lớn cỏc quy tắc quyết định tương đối dài. Hầu hết cỏc quy tắc là rất yếu. ( xem breast cancer, tic tac toe, hvs4 trong Bảng 3.2)

- Bộ tối tiểu cú số lượng quy tắc nhỏ nhất. Tuy nhiờn, trong một số trường hợp, nú cho độ chớnh xỏc cao nhất.

- Bộ quy tắc thỏa món yờu cầu cú độ mạnh trung bỡnh của cỏc quy tắc lớn hơn khoảng hai lần so với cỏc bộ quy tắc khỏc. Chỳng cũng ngắn hơn. Hơn nữa số lượng quy tắc là chấp nhận được và thấp hơn nhiều so với với trường hợp tập vột cạn.

Tuy nhiờn, cỏc tập quy tắc thỏa món yờu cầu lại phụ thuộc vào việc lựa chọn điều kiện dừng. Hơn nữa, cú thể thấy rằng cỏc bộ quy tắc thỏa món yờu cầu cú thể khụng phủ tất cả vớ dụ cú cỏc tập dữ liệu.

Một phần của tài liệu Quy nạp quy tắc phân lớp sử dụng lý thuyết tập thô Lê Quang Đạt. (Trang 69)