Nhận xét rằng với độđo RIM, nếu số lượng các rút gọn càng ít thì số lượng các luật có tầm quan trọng như nhau càng nhiều nên việc sử dụng độ đo RIM
để đánh giá luật khó mang lại kết quả khả quan. Để giải quyết hạn chế này độ đo ERIM được đề xuất, đây là độ đo chủ quan được định nghĩa dựa trên trọng số của các thuộc tính điều kiện trong bảng quyết định, các trọng số này được
đánh giá bởi các chuyên gia thuộc cùng lĩnh vực. Theo nhận định của các chuyên gia, các thuộc tính có trọng số càng cao thì càng cần thiết nên các luật có trọng số càng lớn càng được xem là quan trọng.
3.4.1. Định nghĩa
Định nghĩa 1.
Độđo ERIM của một luật được định nghĩa như sau: ∑ = = i n k k i i w ERIM 1 ,
Trong đó, ERIMi là độ đo ERIM của luật thứ i (rulei), ni là số lượng các thuộc tính điều kiện trong luật rulei và wi,k là trọng số của thuộc tính thứk của luật rulei.
Định nghĩa 2.
Nếu hai luật có độ đo RIM bằng nhau, luật nào có độ đo ERIM lớn hơn thì luật đó được xem là quan trọng hơn.
3.4.2. Quá trình thực hiện
Bước 1: Phát sinh tập luật quan trọng theo độđo RIM
Bước 2: Tính toán giá trị độ đo ERIM cho từng luật trong tập luật thu
được ở bước 1.
Bước 3: Kết hợp cả hai độ đo RIM và ERIM để đánh giá luật: luật r1
quan trọng hơn luật r2 nếu RIMr1 >RIMr2 , nếu độđo RIM của hai luật này bằng nhau thì luật nào có độ đo ERIM lớn hơn luật
đó được xem là quan trọng hơn.
3.4.3. Một ví dụ về độđo ERIM
Với nguồn dữ liệu Car từ UCI gồm 1728 dòng và 7 thuộc tính, áp dụng thuật toán phát sinh tất cả các rút gọn ta chỉ thu được duy nhất 1 rút gọn. Với trọng số của từng thuộc tính được cho trong Bảng 3.8, tính toán giá trị độ đo ERIM cho từng luật từ tập luật quan trọng theo độ đo RIM, kết quả trình bày trong Bảng 3.9.
Buying-Price Maint -Price Doors Persons Lug_boot Satefy
10 8 7 7 5 10
Bảng 3.8. Trọng số cho từng thuộc tính điều kiện của nguồn Car
Stt Tập luật (minSup=8%, minConf=80%) RIM ERIM
1
r Lug_boot = small, Satefy = med →Class = unacc 100% 15=100%
2
r Buying-Price = vhigh→Class = unacc 100% 10=66.6%
3
r Satefy=low →Class = unacc 100% 10=66.6%
4
r Maint-Price = vhigh→Class = unacc 100% 8=53.3%
5
r Persons = 2→Class = unacc 100% 7=46.6%
Bảng 3.9. Tập luật với độđo ERIM từ nguồn Car
Độ đo ERIM của luật chính là tổng giá trị các trọng số của các thuộc tính
điều kiện có trong luật, những luật có độ đo ERIM càng cao càng được xem là quan trọng. Để tiện cho việc so sánh giữa các luật theo độ đo ERIM, thay vì sử
dụng giá trị ERIM ta sử dụng phần trăm giá trị ERIM so với giá trị ERIM lớn nhất trong tập luật. Với luật r1, độđo ERIM được tính như sau:
1 r ERIM = ∑ = = 2 1 k k w (wLug_boot + wSatefy) = 10+5 = 15
Nhận thấy rằng tuy 5 luật trong Bảng 3.9 không phân biệt được tầm quan trọng dựa vào độ đo RIM nhưng hoàn toàn có thể phân biệt dựa vào độ đo ERIM.
3.4.4. Nhận xét vềđộ đo ERIM
- Độ đo ERIM là một độ đo chủ quan được xây dựng trên độ đo RIM và trọng số của các thuộc tính. Thuận lợi của độđo này là kết hợp độđo chủ
quan và độđo khách quan trong quá trình đánh giá luật nên kết quả mà nó
đem lại có thể khả quan hơn so với độđo RIM.
- Tuy nhiên, độ đo này phụ thuộc vào yếu tố chính là nhận định đánh giá của các chuyên gia về giá trị tượng trưng cho sự cần thiết của các thuộc tính điều kiện (trọng số). Quá trình này tốn thời gian trong việc thống kê và đôi khi khó thực hiện được.
3.5. ĐỘĐO WAERIM
(Weight Average Based Enhanced Rule Importance Measure)
Xét ví dụ sử dụng độđo ERIM đểđánh giá luật. Giả sử ta có 2 luật: D G F E r D A r → → , , : : 2 1
Với trọng số của từng thuộc tính điều kiện được cho như sau:
10
=
A
w , wE =wF =wG =5
Giả sử rằng 2 luật trên có độ đo RIM như nhau, khi đó theo độ đo ERIM luật nào có giá trị ERIM lớn hơn luật đó sẽ quan trọng hơn. Ta có độđo ERIM của từng luật: 10 1= r ERIM 15 2= r ERIM Với kết quả trên, ta kết luận: r2 quan trọng hơn r1, nhận thấy rằng kết luận này khá phi lý vì từng thuộc tính điều kiện bên vế trái của luật r2 đều có trọng
số nhỏ hơn thuộc tính điều kiện trong luật r1, có nghĩa là không có thuộc tính
điều kiện nào trong r2 cần thiết hơn thuộc tính điều kiện trong r1 nhưng r2 vẫn
được xem là quan trọng hơn. Như thế, với độ đo ERIM các luật mà vế trái có càng nhiều thuộc tính điều kiện thì khả năng luật đó quan trọng càng lớn.
Để giải quyết vấn đề này, luận văn đề xuất độ đo WAERIM như là giải pháp thay thếđộđo ERIM, độ đo này đánh giá tầm quan trọng của luật dựa vào trọng số trung bình của tất cả các thuộc tính điều kiện. Độ đo này được định nghĩa như sau: 3.5.1. Định nghĩa Định nghĩa 1. i n k k i i n w WAERIM i ∑ = = 1 ,
Trong đó, WAERIMi là độ đo WAERIM của luật thứ i (rulei), ni là số
lượng các thuộc tính điều kiện trong luật rulei và wi,k là trọng số của thuộc tính thứk của luật rulei.
Định nghĩa 2.
Nếu hai luật có độ đo RIM bằng nhau, luật nào có độ đo WAERIM lớn hơn thì luật đó được xem là quan trọng hơn.
3.5.2. Quá trình thực hiện
Tương tựđộ đo ERIM, cách tiếp cận theo độđo WAERIM gồm 3 bước: Bước 1: Phát sinh tập luật sử dụng độđo RIM
Bước 2: Tính toán giá trị độ đo WAERIM cho từng luật trong tập luật thu được ở bước 1.
Bước 3: Kết hợp cả hai độ đo RIM và WAERIM để đánh giá luật: luật
1
r quan trọng hơn luật r2 nếu RIMr1 >RIMr2 , nếu độ đo RIM của hai luật này bằng nhau thì luật nào có độ đo WAERIM lớn hơn luật đó được xem là quan trọng hơn.
3.6. ĐỘĐO AIERIM
(Attributes Importance Degree Based Enhanced Rule Importance Measure)
Việc sử dụng trọng số của các thuộc tính điều kiện trong quá trình đánh giá luật giúp người dùng có thể chọn ra những luật thực sự đáng tin cậy vì các trọng số này chính là ý kiến nhận định của các chuyên gia trong cùng lĩnh vực.
Đối với các luật không thể phân biệt được tầm quan trọng bằng độ đo RIM có thể dễ dàng phân biệt được dựa vào độ đo ERIM hoặc WAERIM, tuy nhiên đối với những ứng dụng không được các chuyên gia đánh giá thì việc so sánh tầm quan trọng của các luật dựa vào độ đo RIM trong trường hợp này vẫn không thực hiện được.
Vì lý do đó, song song với độ đo WAERIM luận văn đề xuất độ đo AIERIM, độ đo này cũng cải tiến độ đo RIM dựa vào mức độ quan trọng của các thuộc tính điều kiện. Khác với ERIM và WAERIM, mức độ quan trọng của các thuộc tính điều kiện ở độđo AIERIM có được từ chính nguồn dữ liệu dùng
để khai phá. Định nghĩa về mức độ quan trọng của các thuộc tính điều kiện và
độ đo AIERIM được trình bày trong phần kế tiếp.
3.6.1. Định nghĩa
Định nghĩa 1.
Cho bảng quyết định T =(U,C∪D), B⊆C. Mức độ quan trọng
(Importance Degree) của tập thuộc tính điều kiện B đối với thuộc tính quyết
định Dđược định nghĩa như sau: ) ( ) ( ) (B D \ D ICD =γC −γC B Trong đó, U D POS D X X ) ( ) ( = γ là mức độ phụ thuộc của D vào tập X
Với B={a}, ICD(a)là mức độ quan trọng của thuộc tính a đối với thuộc tính quyết định D.
Định nghĩa 2. Độđo AIERIM của một luật được định nghĩa như sau: AIERIM (X → Y ) = ICD(X )
Định nghĩa 3.
Nếu hai luật có độ đo RIM bằng nhau, luật nào có độ đo AIERIM lớn hơn thì luật đó được xem là quan trọng hơn.
3.6.2. Một ví dụ về độđo AIERIM
Lấy ví dụ với nguồn Car từ UCI[5] gồm 1728 dòng và 6 thuộc tính điều kiện. Với mức độ quan trọng của tập thuộc tính được tính toán trong Bảng 3.10, tập luật quan trọng với độ đo AIERIM được tính toán và trình bày trong
Bảng 3.11. Stt Tập thuộc tính Mức độ quan trọng 1 { Buying-Price } 0.4 2 { Maint-Price } 0.38 3 { Doors } 0.11 4 { Persons } 0.47 5 { Lug_boot } 0.24 6 { Satefy } 0.52 7 { Lug_boot , Satefy } 0.54
Bảng 3.10. Mức độ quan trọng của các tập thuộc tính trên nguồn Car
Độđo AIERIM của luật chính là mức độ quan trọng của tập thuộc tính điều kiện bên vế trái của luật, những luật có độ đo AIERIM càng cao càng được xem là quan trọng.
Stt Tập luật (minSup=8%, minConf=80%) RIM AIERIM
1
r Lug_boot = small, Satefy = med →Class = unacc 100% 0.54
2
r Satefy=low →Class = unacc 100% 0.52
3
r Persons = 2→Class = unacc 100% 0.47
4
r Buying-Price = vhigh→Class = unacc 100% 0.4
5
r Maint-Price = vhigh→Class = unacc 100% 0.38
Chương 4. XÂY DỰNG ỨNG DỤNG SO SÁNH KỸ
THUẬT ĐÁNH GIÁ LUẬT GIỮA CÁC ĐỘ ĐO 4.1. GIỚI THIỆU
Chương này trình bày kết quả so sánh khả năng đánh giá luật giữa độ đo
được giới thiệu trong chương trước bằng các ứng dụng thực tế, đặc biệt là so sánh khả năng đánh giá luật giữa độ đo dựa trên lý thuyết tập thô mà luận văn
đề xuất (WAERIM, AIERIM) với các độ đo mà Jiye Li đề xuất (RIM, ERIM).
Ứng dụng được cài bằng ngôn ngữ C# 2008 kết nối với SQL Server 2005, với 2 nguồn dữ liệu chính để khai phá: Nursery từ UCI[5] và BankLoan.
4.1.1. Nguồn dữ liệu “Nursery”
Nguồn dữ liệu Nursery được sử dụng trong ứng dụng tuyển chọn các trẻ
em cho trường mầm non ở Ljubljana, Slovenia vì có quá nhiều đơn xin vào trường này. Nguồn dữ liệu Nursery gồm 9 thuộc tính và 12.960 dòng, thông tin về các thuộc tính của nguồn Nursery được trình bày trong Bảng 4.1.
Loại thuộc tính
Tên
thuộc tính Diễn giải Miền giá trị
Parents Nghề nghiệp của cha mẹ {usual, pretentious, great_pret} Has_nurs Phòng cho trẻ {proper, less_proper, improper,
critical, very_crit}
Form Loại gia đình {complete, completed, incomplete, foster} Children Số con trong gia đình {1, 2, 3, more}
Housing Vấn đề nhà cửa {convenient, less_conv, critical} Finance Vấn đề tài chính {convenient, inconv} Social Điều kiện xã hội {non-prob, slightly_prob,
problematic} Thuộc tính
điều kiện
Health Điều kiện sức khỏe {recommended, priority, not_recom} Thuộc tính
quyết định Decision Quyết định của nhà trường
{not_recom, recommend, very_recom, priority, spec_prior}
Ứng dụng nguồn dữ liệu Nursery vào việc so sánh các độ đo dựa vào trọng số của các thuộc tính điều kiện, luận văn giả sử rằng các thuộc tính điều kiện đều có giá trị bằng nhau và bằng 1. 4.1.2. Nguồn dữ liệu “BankLoan” Loại thuộc tính Tên thuộc tính Diễn giải Miền giá trị Tien Số tiền khách hàng muốn vay {0…N} Tuoi Tuổi của khách hàng {0…N} Trị số liên tục
Lai Lãi xuất vay (đơn vị %) {0…N}
ThoiHan Thời hạn vay (đơn vịTháng) {12, 24, 36, 48, 60, 72, 84, 96}
TraGoc Lịch trả nợ gốc {Hang thang, Cuoi ky} TraLai Lịch trả lãi {Hang nam, Hang thang} UyTin Uy tín vay của khách hàng trong
những lần vay trước {Chua, Co, Khong} SL_VayTruoc Số lần khách hàng vay trước đây {0, 1, 2, 3, 4, 5}
HonNhan Tình trạng hôn nhân của khách hàng
{Doc than, Ket hon, Ly hon} SoNguoiPT Số người sống phụ thuộc vào
khách hàng {0, 1, 2, 3, 4, 5} DamBaoNo Tỉ lệ đảm bảo nợ vay (giá trị vay
so với tài sản đảm bảo)
{>=1, <1} ThuNhap Mức độ ổn định thu nhập của
khách hàng
{On dinh, Tuong doi, Khong on dinh} Thuộc tính điều kiện Hạng mục KhaNangTra Khả năng trả nợ của khách hàng, được tính = Thời hạn vay*Thu nhập ròng hằng tháng + tài sản khác)/(Tiền vay + lãi 1 tháng*thời hạn vay). {>=1, <1} Thuộc tính quyết định
ChoVay Thông tin khách hàng được cho vay hay không
{Co, Khong}
Với nguồn dữ liệu cho vay thế chấp trong ngân hàng (BankLoan), tri thức mà ứng dụng muốn khai phá chính là dự đoán khả năng khách hàng có thể được ngân hàng chấp nhận cho vay tiền hay không dựa trên một số thông tin từ
khách hàng. Nguồn dữ liệu BankLoan gồm 14 thuộc tính và 1323 dòng dữ liệu, trong đó có 13 thuộc tính điều kiện (3 thuộc tính có giá trị số liên tục, 10 thuộc tính có giá trị hạng mục) và 1 thuộc tính quyết định. Danh sách các thuộc tính
được trình bày trong Bảng 5.1.
Trọng số của các thuộc tính điều kiện của BankLoan được trình bày trong
Bảng 5.2. Stt Thuộc tính điều kiện Trọng số 1 Tien 7 2 Lai 3 3 ThoiHan 3 4 TraGoc 1 5 TraLai 1 6 UyTin 7 7 SL_VayTruoc 4 8 Tuoi 7 9 HonNhan 4 10 SoNguoiPT 4 11 DamBaoNo 8 12 ThuNhap 8 13 KhaNangTra 8 Bảng 4.3. Trọng số các thuộc tính điều kiện của BankLoan
Trong [9], độđo ERIM được định nghĩa dựa trên các trọng số của các thuộc tính, và các trọng số này được xác định phụ thuộc vào khái niệm cấp bậc (Concept Hierarchy), những thuộc tính thuộc cùng cấp bậc có trọng số bằng nhau và bằng trọng số của cấp bậc đó. Tuy nhiên ở ứng dụng này luận văn không xây dựng khái niệm cấp bậc vì nguồn dữ liệu BankLoan có khá ít thuộc tính và nếu chia theo cấp bậc thì số cấp bậc cũng gần bằng số thuộc tính.
4.2. MÔ HÌNH XÂY DỰNG ỨNG DỤNG
Ứng dụng luận văn xây dựng theo mô hình trong Hình.5.1. Trước tiên là giai đoạn Tiền xử lý sẽ xử lý dữ liệu trống và không nhất quán, sau đó chia ngẫu nhiên dữ liệu làm 10 phần và sử dụng phương pháp kiểm tra chéo trên 10 phần dữ liệu này (mỗi lần dùng 9 phần dùng để training và 1 phần dùng để
testing). Vì nguồn dữ liệu BankLoan có 3 thuộc tính là trị số liên tục nên phải tiến hành rời rạc hóa dữ liệu training trước khi phát sinh luật. Kết quả của giai
đoạn Phát sinh luật là tập luật kết hợp (với ngưỡng minSup và minConf) sau khi đã loại bỏ đi các luật dư thừa. Từ tập luật thu được, tính toán giá trị các độ đo cho từng luật và lần lượt xây dựng các phân lớp ứng với từng độ đo. Giai
đoạn cuối cùng là dùng dữ liệu test để kiểm tra hiệu quả của các phân lớp đã
được xây dựng dựa vào kết quả test chính xác, độ đo nào có kết quả test chính xác cao hơn chứng tỏ khả năng đánh giá luật của độđo đó tốt hơn. Tiền xử lý Tập luật Hình 4.1. Mô hình xây dựng ứng dụng Chia dữ liệu Dữ liệu test Rời rạc hóa Phát sinh luật Xây dựng phân lớp Kết quả test chính xác Tính toán giá trị các độđo cho từng luật Test Dữ liệu training Dữ liệu gốc
4.3. KẾT QUẢ SO SÁNH GIỮA CÁC ĐỘĐO 4.3.1. Sử dụng nguồn “Nursery”
Sử dụng nguồn dữ liệu Nursery để so sánh khả năng đánh giá luật giữa các
độ đo: WAERIM, AIERIM với RIM, ERIM và với các độ đo hữu ích (ở đây luận văn chọn 3 độ đo hữu ích là Jaccard, Support và Confidence). Với ngưỡng hỗ trợ minSup=1.5% và ngưỡng tin cậy minConf=60% ta thu được tập luật từ
nguồn training với số lượng trung bình trong 10 lần test là 145 luật, số lượng rút gọn trung bình phát sinh từ nguồn traning là 1 rút gọn, và số lượng luật
được chọn để xây dựng phân lớp trong mỗi lần test dựa vào giá trị của độ đo