Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 76 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
76
Dung lượng
1,13 MB
Nội dung
i đại học thái nguyên Tr-ờng đại học CÔNG NGHệ THÔNG TIN Và TRUYềN THÔNG Lấ QUANG T QUY NP QUY TẮC PHÂN LỚP SỬ DỤNG LÝ THUYẾT TẬP THÔ LUN VN THC S KHOA HC MY TNH thái nguyên - năm 2014 S húa bi Trung tõm Hc liu i hc Thỏi Nguyờn http://www.lrc-tnu.edu.vn/ ii đại học thái nguyên Tr-ờng đại học CÔNG NGHệ THÔNG TIN Và TRUYềN THÔNG Lấ QUANG T QUY NP QUY TC PHN LP SỬ DỤNG LÝ THUYẾT TẬP THÔ LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH Chuyên ngành: KHOA HỌC MÁY TÍNH Mã số: 60.48.01 Người hướng dẫn khoa học: PGS.TS NGUYỄN THANH TÙNG Thái Nguyên, 2014 Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn/ iii LỜI CẢM ƠN Để hồn thành luận văn tơi nhận nhiều động viên, giúp đỡ nhiều cá nhân tập thể Trước hết, xin bày tỏ lòng biết ơn sâu sắc đến PGS TS Nguyễn Thanh Tùng hướng dẫn thực nghiên cứu Xin bày tỏ lịng biết ơn chân thành tới thầy cô giáo, người đem lại cho kiến thức bổ trợ, vô có ích năm học vừa qua Cũng xin gửi lời cám ơn chân thành tới Ban Giám hiệu, Phòng Đào tạo sau đại học, Trường Đại học Công nghệ Thông tin Truyền thông – Đại học Thái Nguyên tạo điều kiện cho trình học tập Cuối tơi xin gửi lời cám ơn đến gia đình, bạn bè, người ln bên tơi, động viên khuyến khích tơi q trình thực đề luận văn Thái Nguyên, ngày 18 tháng 07 năm 2014 Tác giả Lê Quang Đạt Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn/ ii LỜI CAM ĐOAN Tôi xin cam đoan cơng trình nghiên cứu tơi hướng dẫn PGS.TS Nguyễn Thanh Tùng Các số liệu, kết nghiên cứu luận văn trung thực chưa công bố Tác giả Lê Quang Đạt Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn/ iii MỤC LỤC LỜI CẢM ƠN i LỜI CAM ĐOAN ii MỤC LỤC iii DANH MỤC BẢNG v DANH MỤC HÌNH vi MỞ ĐẦU Chương 1: KHÁI QUÁT VỀ KHAI PHÁ DỮ LIỆU VÀ BÀI TOÁN PHÂN LỚP 1.1 Khái quát khai phá liệu 1.1.1 Khai phá liệu 1.1.2 Quy trình khai phá liệu 1.1.3 Các kỹ thuật khai phá liệu 1.1.4 Các ứng dụng khai phá liệu 1.1.5 Một số thách thức đặt cho việc khai phá liệu 11 1.2 Bài toán phân lớp 12 1.2.1 Phát biểu toán 12 1.2.2 Phương pháp tiếp cận chung để giải toán phân lớp 15 1.3 Kết luận chương 18 Chương 2: CƠ SỞ LÝ THUYẾT TẬP THÔ 19 2.1 Giới thiệu 19 2.2 Hệ thông tin 20 2.3 Quan hệ bất khả phân biệt 21 2.3.1 Sự dư thừa thông tin 21 2.3.2 Quan hệ tương đương - Lớp tương đương 22 2.3.3 Thuật toán xác định lớp tương đương 23 2.3.4 Xấp xỉ tập hợp 24 Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn/ iv 2.3.5 Sự không chắn hàm thuộc 34 2.3.6 Sự phụ thuộc tập thuộc tính 35 2.4 Rút gọn thuộc tính 36 2.4.1 Khái niệm 36 2.4.2 Ma trận phân biệt hàm phân biệt 39 2.5 Kết luận chương 42 Chương 3: SỬ DỤNG LÝ THUYẾT TẬP THÔ VÀO VIỆC QUY NẠP QUY TẮC QUYẾT ĐỊNH TỪ TẬP CÁC VÍ DỤ HỌC 43 3.1 Mở đầu 43 3.2 Một số khái niệm quy nạp quy tắc định 45 3.2.1 Quy tắc định 45 3.2.2 Các loại thuật toán quy nạp quy tắc 49 3.3 Các thuật toán quy nạp quy tắc định 50 3.3.1 Thuật toán sinh quy tắc tối tiểu 51 3.3.2 Thuật toán sinh quy tắc vét cạn 57 3.3.3 Các thuật toán sinh quy tắc thỏa mãn yêu cầu 58 3.4 Về tính tốn thực nghiệm 61 3.5 Kết luận chương 63 KẾT LUẬN 65 TÀI LIỆU THAM KHẢO 67 Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn/ v DANH MỤC BẢNG Bảng 1.1 Tập đối tượng Động vật có xương sống 13 Bảng 1.2 Ma trận liên hợp (trường hợp lớp) 17 Bảng 2.1 Một hệ thông tin đơn giản 20 Bảng 2.2 Một hệ định với C = {Age, LEMS} D = {Walk} 21 Bảng 2.3 Một bảng liệu thừa thông tin 22 Bảng 2.4 Một hệ định điều tra vấn đề da cháy nắng 25 Bảng 2.5 Hệ thông tin thuộc tính xe 28 Bảng 2.6 Bảng định dùng minh họa hàm thuộc thô 35 Bảng 2.7 Hệ thông tin dùng minh họa ma trận phân biệt 39 Bảng 3.1 Một ví dụ tập liệu 53 a ba thuật toán (thể %) 62 Bảng 3.3 So sánh đặc điểm quy tắc định 63 Số hóa Trung tâm Học liệu – Đại học Thái Ngun http://www.lrc-tnu.edu.vn/ vi DANH MỤC HÌNH Hình 1.1 Các bước thực trình khai phá liệu Hình 1.2 Bài tốn phân lớp 14 Hình 1.3 Phương pháp tiếp cận phổ biến xây dựng mơ hình phân lớp 17 Hình 2.1: Xấp xỉ tập đối tượng bảng 1-2 thuộc tính điều kiện Age LEMS Mỗi vùng thể kèm theo tập lớp tương ứng 28 Hình 2.2: Ma trận phân biệt Bảng 2.7 39 Hình 2.3: Ma trận phân biệt hệ thơng tin Bảng 2.7 xây dựng tập thuộc tính {a,b} 40 Hình 2.4: Ma trận phân biệt Hình 2.2 sau chọn c vào tập rút gọn f A = I,j,i j, cij {˅cij* | cij * cij} 41 Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn/ MỞ ĐẦU Trong nhiều tình huống, ta cần phải xếp đối tượng vào lớp khác nhau, dựa vào số thuộc tính Chẳng hạn, dựa vào kết xét nghiệm (số đo huyết áp, mức cholesterol, số lượng hồng cầu, số lượng bạch cầu, … ), ta cần khẳng định người có mắc phải chứng bệnh khơng Các tình gọi toán phân lớp (classification) hay toán nhận dạng mẫu (Pattern Recognition) Để giải toán phân lớp, người ta dựa vào tập đối tượng phân lớp Tập đối tượng gọi tập ví dụ học (set of learning examples) hay tập huấn luyện (training set) Quy nạp quy tắc phân lớp (hay quy tắc định) việc phát quy tắc phân lớp từ tập ví dụ học S cho Một quy tắc phân lớp mơ tả biểu thức tốn học mệnh đề có dạng if R then K đó, R hội biểu thức điều kiện liên quan đến giá trị thuộc tính, K biểu thức dạng d di nhãn lớp gán cho đối tượng cần phân lớp Phân lớp nhiệm vụ vô quan trọng, người thường phải đối mặt lĩnh vực đời sống Nghiên cứu phương pháp phân lớp từ lâu trở thành lĩnh vực khoa học thu hút quan tâm nhiều nhà nghiên cứu Cho đến nay, nhiều phương pháp tiếp cận toán phân lớp đề xuất Tuy nhiên, năm gần đây, nhu cầu giải vấn đề phân lớp phức tạp xuất ngày nhiều, phương pháp thống kê toán học tỏ hiệu Mặt khác, vài ba thập niên vừa qua, khả lưu trữ xử lý liệu máy tính khơng ngừng nâng cao, người sở hữu ngày nhiều sở liệu lớn, chứa đựng tri thức Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn/ hữu ích Thực tế địi hỏi người phải “Tìm cách dạy cho máy tính biết khai thác khối tri thức khổng lồ mà người có được, từ làm cho nhận biết kiện, bày tỏ cảm xúc với người, trả lời câu hỏi cách thơng minh” [4] Do đó, nhiều lĩnh vực khoa học đời: Học máy (Machine Learning) hay gọi Học thống kê (Statistical Learning), Khai phá liệu, Lý thuyết tập thô, … Các lĩnh vực khoa học nhằm giải nhiều vấn đề khác khoa học máy tính, có toán quy nạp quy tắc định Lý thuyết tập thô, Z Pawlak đề xuất vào năm đầu thập niên tám mươi kỷ hai mươi, cơng cụ tốn học nhằm xử lý mơ hồ, không chắn khai phá liệu Lý thuyết tập thô bắt nguồn từ quan sát đối tượng quần thể bất khả phân biệt thơng tin có chúng bị hạn chế Do đó, tồn khái niệm (là tập đối tượng lý thuyết tập thô) định nghĩa cách xác thơng qua thơng tin có sẵn có mà định nghĩa cách xấp xỉ Với lý đó, Pawlak đề xuất khái niệm “tập thô” Tập thô đặc trưng cặp khái niệm xác gọi xấp xỉ xấp xỉ Xấp xỉ khái niệm X tập tất đối tượng U chắn thuộc X , xấp xỉ tập đối tượng U thuộc X dựa thông tin từ tập liệu Các nghiên cứu gần cho thấy Lý thuyết tập thơ coi sở lý thuyết để giải hiệu số vấn đề quan trọng học máy, khai phá liệu, trí tuệ nhân tạo Các vấn đề quan trọng bao gồm: tìm kiếm mơ tả cho tập đối tượng thơng qua giá trị thuộc tính, kiểm tra phụ thuộc (hoàn toàn hay phần) thuộc tính, rút gọn Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn/ 54 Các khối tất điều kiện sơ cấp (các cặp thuộc tính-giá trị) có bảng [(Temperature, very_high)] ={1}, [(Temperature, high)] ={2,5,6}, [(Temperature, normal)] ={3,4,7}, [(Headache, yes)] ={1,2,4}, [(Headache, no)] ={3,5,6,7}, [(Weakness, yes)] ={1,4,5,7}, [(Weakness, no)] ={2,3,6}, [(Nausea, no)] ={1,3,5,6,7}, [(Nausea, yes)] ={2,4} Ta quy nạp quy tắc cho khái niệm định {1,2,4,5} (Flu = yes) Ta có K = G = {1,2,4,5} Tập C(G) tất cặp thuộc tính-giá trị liên quan đến tập đối tượng G {(Temperature, very_high), (Temperature, high), (Temperature, normal), (Headache, yes), (Headache, no), (Weakness, yes), (Weakness, no),(Nausea, no), (Nausea, yes)} Tiếp theo, ta xác định cặp thuộc tính-giá trị (a,v) có lực lượng lớn Với hai cặp thuộc tính-giá trị thuộc C(G) (Headache, yes) (Weakness, yes), lực lượng có giá trị Tiêu chí kích thước khối cặp thuộc tính-giá trị Vì khối cặp (Headache, yes) có kích thước nhỏ khối cặp (Weakness, yes), ta chọn cặp (Headache, yes) Ngồi ra, [(Headache, yes)] ⊆ K, (Headache, high) tổ hợp tối tiểu G Tập G tập B - [(Headache, yes)] ={1,2,4,5}−{1,2,4}={5} Tập T(G) Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn/ 55 {(Temperature, high), (Headache, no), (Weakness, yes), (Nausea, no)} Lần này, tiêu chí đầu tiên, lực lượng lớn nhất, xác định cho ta cặp thuộc tính-giá trị Tiêu chí thứ hai, kích thước khối thuộc tính-giá trị, lựa chọn cặp (Temperature, high) Tuy vậy, [(Temperature, high)] = {2,5,6} K phải chuyển qua bước lặp vòng lặp nội Các ứng cử viên (Headache, no) (Weakness, yes), hai cặp thuộc tínhgiá trị cho kích thước khối bốn Bằng cách dị tìm, lựa chọn (Headache, no) Nhưng, [(Temperature, high)] ∩ [(Headache, no)] ={5,6} K ={1,2,4,5}, ta phải chọn thêm (Weakness,yes)] Lần [(Temperature, high)] ∩ [(Headache, no)] ∩ [(Weakness, yes)] = {5}⊆ K ={1,2,4,5}, ứng viên tổ hợp tối tiểu ta tập {(Temperature, high),(Headache, no),(Weakness,yes)} Ta phải thực phần sau thuật toán LEM2: for c ∈ C if then ; Kết là, tổ hợp tối tiểu thứ hai xác định: {(Temperature, high), (Weakness, yes)} Cuối cùng, phủ địa phương K = {1,2,4,5} tập hợp gồm tổ hợp tối tiểu: {{(Headache, yes)}, {(Temperature, high), (Weakness, yes)}} Từ phủ địa phương này, ta có quy tắc định khái niệm K = {1,2,4,5} (Flu = yes) là: If (Headache = yes) then (Flu = yes) If (Temperature = high) & (Weakness = yes) then (Flu = yes) Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn/ 56 Bằng lăp lại thủ thục cho khái niệm K = {3,6,7} (Flu = no), ta thu phủ địa phương: {{(Temperature, normal), (Headache, no)}, {(Headache, no), (Weakness, no)}} Từ phủ địa phương này, ta có quy tắc định khái niệm K = {3,6,7} (Flu = no) là; If (Temperature = normal) & (Headache = no) then (Flu= no) If (Headache = no) & (Weakness = no) then (Flu = no) Bộ quy tắc tối tiểu Bảng 3.1, quy nạp LEM2, If (Headache = yes) then (Flu = yes) If (Temperature = high) & (Weakness = yes) then (Flu = yes) If (Temperature = normal) & (Headache = no) then (Flu = no) If (Headache = no) & (Weakness = no) then (Flu = no) Thuật tốn LEM2 giúp ích cho việc xây dựng hệ thống phân loại [20, 21, 83] Bộ quy tắc quy nạp sử dụng để phân loại đối tượng chưa biết nhãn lớp Việc phân loại thực cách so khớp mô tả đối tượng với điều kiện quy tắc định Tuy nhiên, điều gặp phải số khó khăn, ba trường hợp sau xảy ra: a Các đối tượng phù hợp xác với quy tắc b Các đối tượng phù hợp với nhiều quy tắc c Các đối tượng không phù hợp với quy tắc Trong trường hợp a quy tắc so khớp xác việc phân loại rõ ràng Trong trường hợp so khớp với quy tắc gần đúng, nhãn lớp mà quy tắc khuyến nghị khơng rõ ràng Khó khăn tương tự xảy việc lựa chọn khuyến nghị trường hợp (b) trường hợp (c) Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn/ 57 Như vậy, cần phảit mở rộng quy tắc quy nạp kỹ thuật cho phép để giải vấn đề khó khăn nêu Chú ý rằng, vào ứng dụng thực tiễn thực hiện, LEM2 thuật toán thường sử dụng số thuật toán quy nạp quy tắc sử dụng tập thơ 3.3.2 Thuật tốn sinh quy tắc vét cạn Trong hệ thống Rough Family, người ta có cài đặt thuật tốn với tên gọi Explore Explore cho phép quy nạp quy tắc thỏa mãn yêu cầu Yêu cầu này, thường độ mạnh quy tắc, người sử dụng cung cấp loại liệu đầu vào chương trình Thuật tốn trình bày mục 3.3.3 Để quy nạp quy tắc vét cạn từ bảng định, sử dụng thủ tục Explore cách không đưa điều kiện dừng Sử dụng thủ tục Explore kiều kiện dừng, tập tất quy tắc định tạo từ bảng 3.1 sau: Quy tắc If (Temperature = very_high) then (Flu = yes) {1} Quy tắc If (neusea = yes) then (Flu = yes) {2,4} Quy tắc If (Temperature = high)&(Weakness = yes) then (Flu=yes) {5} Quy tắc If (Headache = yes)&(Weakness = no) then (Flu= yes) {2} Quy tắc If (Temperature = high)&(Headache = yes) then (Flu= yes) {2} Quy tắc If (Temperature =normal)&(Headache = yes) then (Flu=yes) {4} Quy tắc If (Weakness = no) &(nausea = no) then (Flu = no) {3, 6} Quy tắc If (Temperature = normal)&(nausea=no) then (Flu= no) {3,5,7} Quy tắc If (Temperature = high)&(Headache = no) &(Weakness = no) then (Flu= no) { 6} Quy tắc 10 If (Temperature = normal) & (Headache = no) & &(Weakness = yes) then (Flu= no) {7} Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn/ 58 Tất quy tắc có phần điều kiện khơng dư thừa Các chữ số ghi cuối quy tắc định danh đối tượng phủ quy tắc Bộ quy tắc vét cạn cung cấp cho người dùng thông tin phong phú mơ hình có bảng liệu phân tích Tuy nhiên, để có quy tắc này, đòi hỏi phải tiêu tốn nhiều thời gian nhớ Như vậy, sử dụng cho số liệu với mục tiêu khám phá tri thức 3.3.3 Các thuật toán sinh quy tắc thỏa mãn yêu cầu Mục đích thuật tốn thuộc loại phát tập quy tắc định thỏa mãn yêu cầu người sử dụng Việc phát tất quy tắc khơng thể sử dụng cách tiếp cận trích lọc tập tối tiểu quy tắc lược đồ heuristic tham lam chúng Theo lược đồ này, số quy tắc mà người sử dụng u cầu cịn tiềm ẩn liệu, đặc biệt mẫu khác chia sẻ tỷ lệ lớn ví dụ chung Điều việc loại bỏ ví dụ học ví dụ phủ mộ quy tắc quy nạp Ngược lại, tập tối tiểu quy tắc chứa quy tắc riêng biệt, bao gồm nhiều điều kiện sơ cấp liên quan tới ví dụ học Điều bước lặp cuối chiến thuật heuristic đặt việc phát số ví dụ cịn lại Do đó, ta cần phát triển cách tiếp cận đặc biệt cho phép quy nạp khám phá có định hướng Thủ tục Explore hệ thống RoughFamily nói tới mục 3.3.2 một cách tiếp cận đặc biệt Explore xây dựng dựa thuật toán ban đầu đề xuất Stefanowski Vaderpooten [14] Việc khám phá không gian quy tắc Explore điều chỉnh tham số điều kiện dừng, phản ảnh yêu cầu người dùng Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn/ 59 Các điều kiện dừng đảm bảo cho quy tắc có tính chất mong muốn cho phép rút ngắn chi phí tính tốn cách đáng kể Trong nhiều ứng dụng, độ mạnh quy tắc thường lấy làm tham số điều chỉnh điều kiện dừng Phần thuật tốn Explore phát triển dựa chiến lược tìm kiếm ưu tiên bề rộng, quy tắc tạo theo kích thước tăng dần, từ quy tắc ngắn Chiến lược bắt đầu với quy tắc ban đầu quy tắc có phần điều kiện rỗng Trong trình tìm kiếm, phép hội rỗng mở rộng điều kiện sơ từ danh sách điều kiện cho phép Các phép hội mở rộng ứng viên đánh giá để trở thành phần điều kiện quy tắc phân lớp Tựa code phần thuật tốn, tức cơng đoạn tìm kiếm theo chiều rộng, sau Procedure Explore(SC : Các điều kiện dừng ; var : Tập quy tắc) Begin for điều kiện sơ cấp sẵn có c begin if = if c thỏa mãn SC then loại bỏ c ; và loại bỏ c then end; Lập thành hàng tất điều kiện sơ cấp lại ; While hàng điều kiện sơ cấp không rỗng begin loại bỏ phép hội C khỏi hàng; giả sử h số cao điều kiện chứa C; Tạo tất phép hội Số hóa Trung tâm Học liệu – Đại học Thái Nguyên ; http://www.lrc-tnu.edu.vn/ 60 Gọi tập tất phép hội for begin if = if thỏa SC then ; then begin if tối tiểu then ; end; end; Đặt tất phép hội từ vào cuối hàng end end Không gian khai thác quy tắc ứng viên kiểm soát điều kiện dừng SC theo yêu cầu xác định người sử dụng Thông thường điều kiện dừng liên quan đến độ mạnh tối thiểu quy tắc Gọi C phép hội điều kiện sơ cấp C bị loại bỏ, trở thành phần điều kiện quy tắc đáp ứng yêu cầu nếu: C SC: K K l, với l số phần trăm nhỏ ví dụ dương mà quy tắc phải phủ Một vài yêu cầu khác tích hợp vịa điều kiện dừng quy nạp quy tắc đáp ứng yêu cầu, chẳng hạn độ dài tối đa quy tắc Lưu ý số đối tượng bảng định đầu vào khơng phủ quy tắc quy tắc đáp ứng yêu cầu quy tắc định Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn/ 61 Xét bảng định cho Bảng 3.1 giả sử ta quan tâm phát quy tắc có độ mạnh khơng nhỏ 25% Áp dụng thuật toán Explore, ta thu quy tắc sau: Quy tắc If (neusea = yes) then (Flu = yes) {2,4} Quy tắc If (Weakness = no) &(nausea = no) then (Flu = no) {3, 6} 3.4 Về tính tốn thực nghiệm Ba thuật tốn trình bày mục 3.3 cho phép tạo quy tắc khác Chúng cài đặt hệ thống phần mềm quy nạp quy tắc định RoughFamily Mục giới thiệu số kết tính tốn thực nghiệm nhằm đánh giá tính hữu ích tập quy tắc tạo ba thuật toán với hai nhiệm vụ: phân loại đối tượng phát tri thức (là quy tắc định) Các kết tính tốn thực nghiệm Stefanowski J công bố [12] Để đánh giá tập quy tắc, số đo thông dụng sau tính đến sử dụng : - Số quy tắc có quy tắc quy nạp - Độ mạnh trung bình quy tắc (thể số đối tượng phủ) - Độ dài trung bình quy tắc (thể số điều kiện sơ cấp) - Độ xác phân loại quy tắc Ba số đo đầu chủ yếu dùng để đánh giá quy tắc quan điểm phát tri thức, số đo cuối để đánh giá quy tắc cho hệ thống phân loại Độ xác phân loại tính tốn cách thực phép kiểm thử chéo 10 lần (10fold cross-validation) phương pháp loại bỏ (leaving one out) Các thực nghiệm thực số tập liệu thực tế, lấy từ kho lưu trữ UCI (University of California at Irvine) Đại học California Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn/ 62 Irvine Đây tập liệu biết đến rộng rãi cộng đồng nhà nghiên cứu học máy lý thuyết tập thô Cụ thể tập: Iris, Tictac-toe, Voting, Election, Breast Cancer, Buses, Hvs-4 Chú ý rằng, để áp dụng thuật toán quy nạp quy tắc trình bày, tập liệu đầu vào giả định xác định hoàn tồn: chúng khơng chứa giá trị thiếu Các thuộc tính số liên tục rời rạc hóa Do số liệu điều chỉnh cách bỏ số đối tượng thuộc tính Các liệu iris hay buses chứa thuộc tính có giá trị liên tục rời rạc hóa phương pháp Fayyad Irani Bảng 3.2 cho thấy hiệu suất ba loại thuật tốn quy nạp quy tắc trình bày mục 3.3, thơng qua độ xác phân lớp (Đối với tập liệu Election, người ta khơng tính quy tắc vét cạn kích thước lớn, đòi hỏi nhiều thời gian nhớ) Bảng 3.2 S độ xác phân lớp ba thuật toán (thể %) Bảng 3.3 cho kết so sánh quy tắc định tạo ba thuật toán (gồm quy tắc tối tiểu, quy tắc thỏa mãn yêu cầu quy tắc vét cạn) tiêu chí: 1- Số quy tắc, 2- Chiều dài trung bình quy tắc (số điều kiện), 3- độ mạnh trung bình quy tắc{số ví dụ phủ quy tắc}, SCngưỡng độ mạnh tương đối tối thiểu [%] tốt Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn/ 63 Bảng 3.3 So sánh đặc điểm quy tắc định So sánh quy tắc thu tất ba cách tiếp cận nhận thấy : - Bộ quy tắc vét cạn thường bao gồm số lượng lớn quy tắc định tương đối dài Hầu hết quy tắc yếu ( xem breast cancer, tic tac toe, hvs4 Bảng 3.2) - Bộ tối tiểu có số lượng quy tắc nhỏ Tuy nhiên, số trường hợp, cho độ xác cao - Bộ quy tắc thỏa mãn u cầu có độ mạnh trung bình quy tắc lớn khoảng hai lần so với quy tắc khác Chúng ngắn Hơn số lượng quy tắc chấp nhận thấp nhiều so với với trường hợp tập vét cạn Tuy nhiên, tập quy tắc thỏa mãn yêu cầu lại phụ thuộc vào việc lựa chọn điều kiện dừng Hơn nữa, thấy quy tắc thỏa mãn u cầu khơng phủ tất ví dụ có tập liệu 3.5 Kết luận chương Chương trình bày việc ứng dụng lý thuyết tập thô vào việc quy nạp quy tắc định phân lớp từ tập ví dụ học biểu diễn dạng bảng định Các thuật toán nghiên cứu thuộc ba loại: Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn/ 64 Thuật toán quy nạp quy tắc tối thiểu, Thuật toán quy nạp vét cạn tất quy tắc, Thuật toán quy nạp quy tắc thỏa mãn yêu cầu Các quy tắc quy nạp thuật tốn sử dụng vào mục đích khác Bộ quy tắc tối tiểu thường sử dụng vào việc giải nhiệm vụ phân lớp (gán nhãn lớp cho đối tượng mới), quy tắc vét cạn thỏa mãn yêu cầu thường hướng tới việc thực vấn đề phát tri thức (các quy luật tiềm ẩn liệu) Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn/ 65 KẾT LUẬN Phân lớp nhiệm vụ vô quan trọng, người thường phải đối mặt lĩnh vực đời sống Nghiên cứu phương pháp phân lớp từ lâu trở thành lĩnh vực khoa học thu hút quan tâm nhiều nhà nghiên cứu Lý thuyết tập thô, Z Pawlak đề xuất vào năm đầu thập niên tám mươi kỷ hai mươi, cơng cụ tốn học nhằm xử lý liệu mơ hồ, không chắn khai phá liệu Các nghiên cứu gần cho thấy Lý thuyết tập thô coi sở lý thuyết để giải hiệu số vấn đề quan trọng khai phá liệu, học máy, trí tuệ nhân tạo Luận văn trình bày nghiên cứu ứng dụng lý thuyết tập thô vào việc quy nạp quy tắc định (phân lớp) từ tập ví dụ học biểu diễn dạng bảng định Hiện nay, có số thuật tốn quy nạp quy tắc phân lớp sử dụng lý thuyết tập thơ đề xuất Người ta phân thuật tốn thành ba loại: Thuật toán quy nạp quy tắc tối thiểu, Thuật toán quy nạp vét cạn tất quy tắc, Thuật toán quy nạp quy tắc thỏa mãn yêu cầu Trong luận văn này, học viên tập trung nghiên cứu ba thuật toán tiêu biểu đại diện cho ba loại thuật toán Các thuật toán minh họa ví dụ cụ thể Tính hữu ích thuật toán quy tắc tạo chúng việc xây dựng hệ thống phân loại việc thực nhiệm vụ khám phá tri thức thảo luận Để đảm bảo tính khoa học, sở lý thuyết vững cho việc nghiên cứu nhiệm vụ đề tài, học viên thực nghiên cứu tổng quan khai phá liệu toán phân lớp (nội dung Chương 1); Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn/ 66 sở lý thuyết tập thô, bao gồm khái niệm, kết (Nội dung Chương 2) Trong thời gian tới, học viên dự định áp dụng thuật toán quy nạp quy tắc phân lớp nghiên cứu vào việc giải toán phân lớp thực tế Vì thời gian nghiên cứu có hạn nên luận văn khơng tránh khỏi sai sót định, mong đóng góp ý kiến thày hội đồng độc giả để luận văn hồn thiện Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn/ 67 TÀI LIỆU THAM KHẢO [1] Andrzej Skowron, Ning Zong (2000), Rought Sets in KDD, Tutorial Notes [2] Grzymala-Busse J W., LERS - a system for learning from examples based on rough sets In R Slowínski, (ed.) Intel ligent Decision Support, Kluwer Academic Publishers, 1992, 3-18 [3] Jan Komorowski, Zdzislaw Pawlak, Lech Polkowski, Andrzej Skowron (1999), Rough Sets: A Tutorial [4] Jiawei Han, Michline Kamber (2001), Data Mining: Concepts and Techniques, Morgan Kaupmann Publishers [5] Jiye Li and Nick Cercone (2006) Introducing A Rule Importance Measure Technical Report, School of Computer Science, University of Waterloo, Canada [6] Mienko R., Stefanowski J., Toumi K., Vanderpooten D., DiscoveryOriented Induction of Decision Rules Cahier du Lamsade no 141, Paris Dauphine, Septembre 1996 [7] Pawlak Z (1991), Rough Sets - Theoritical Aspects of Reasoning about Data, Kluwer Academic Publishers, Dordrecht [8] Pawlak Z., Skowron A., A rough set approach for decision rules generation, ICS Research Report, 23/93 Warsaw University of Technology, 1993 [9] Skowron A., Extracting Laws from Decision Tables Computational Intelligence: An International Journal 11 (2), 1995, pp 371-388 [10] Skowron A., Boolean reasoning for decision rules generation In Komorowski J., Ras Z (eds), Methodologies for Intelligent Systems, LNAI 689, Springer-Verlag, Berlin, 1993, pp 295-305 [11] Slowinski R., Stefanowski J., Rough classiffication with valued closeness relation In Diday E (ed) New Approaches in Classication Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn/ 68 and Data Analysis, Studies in Classiffication, Data Analysis and Knowledge Organisation, Springer Verlag, 1994, 482-489 [12] Stefanowski J., On rough set based approaches to induction of decision rules, in Polkowski L., Skowron A (eds.), Rough Sets in Data Mining and Knowledge Discovery, Physica-Verlag, 1998, 500–530 [13] Stefanowski J., Classification support based on the rough sets Foundations of Computing and Decision Sciences, vol 18, no, 3-4 1993, 371-380 [14] Stefanowski J., Vanderpooten D., A general two stage approach to rule induction from examples In W Ziarko, editor, Rough Sets, Fuzzy Sets and Knowledge Discovery, Springer-Verlag, 1994, pp 317-325 [15] Torgeir R Hvidsten, A tutorial-based guide to the ROSETTA system: A Rough Set Toolkit for Analysis of Data www.lopdf.net/ ,/A-tutorial-based-guide-to-the-ROSETTA-system-Torg Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn/ ... toán phân lớp Chương nghiên cứu sở lý thuyết tập thô Chương trình bày thuật tốn quy nạp quy tắc phân lớp sử dụng lý thuyết tập thô, gồm loại: thuật toán quy nạp quy tắc tối tiểu, thuật toán quy nạp. .. Chương SỬ DỤNG LÝ THUYẾT TẬP THÔ VÀO VIỆC QUY NẠP QUY TẮC QUY? ??T ĐỊNH TỪ TẬP CÁC VÍ DỤ HỌC 3.1 Mở đầu Chương trình bày việc ứng dụng lý thuyết tập thô vào việc quy nạp quy tắc định (phân lớp) từ tập. .. thuật tốn quy nạp quy tắc phân lớp sử dụng lý thuyết tập thơ đề xuất Tất thuật tốn nhằm mục đích quy nạp mơ tả mang tính quy tắc lớp định tập đối tượng đầu vào Những mô tả tạo thành quy tắc định