1. Trang chủ
  2. » Luận Văn - Báo Cáo

Học Bằng Phương Pháp Suy Diễn Và Xây Dựng Cây Định Danh

24 513 1

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

MỤC LỤC Phần 1: Đặt vấn đề 1 Phần 2: Lý thuyết cơ sở của phương pháp suy diễn 2 I. Mô hình tổng quát của suy diễn II. Suy diễn tiến III. Suy diễn lùi Phần 3: Lý thuyết cơ sở của phương pháp học bằng cây định danh 6 I. Định nghĩa về cây định danh 6 II. Phân tích bài toán 6 III. Thuật toán Quinlan 6 1. Thuật toán 6 2. Minh hoạ thuật toán 6 3. Nhận xét (độ đo hỗn loạn) 9 4. Phát sinh tập luật 10 5. Tối ưu hóa tập luật 10 6. Kết luận 12 Phần 4: Cài đặt ứng dụng minh họa 15 Phần 5: Kết luận 25 Tài liệu tham khảo 25 Chuyên đề: Học Bằng Phương Pháp Suy Diễn Và Xây Dựng Cây Định Danh Phần 1 ĐẶT VẤN ĐỀ Trong đời sống xã hội phát triển ngày nay, nhu cầu học hỏi và tìm hiều ngày càng cao, đặc biệt trong lĩnh vực công nghệ thông tin trong những năm gần đây phát triển như vũ bảo nhu cầu công nghệ và tri thức luôn luôn đòi hỏi. vì vậy con người nghiên cứu thêm nhiều lĩnh vực mới và đạt được nhiều thành quả cao nhằm phục vụ nhu cầu xã hội. Từ khi trí tuệ nhân tạo ra đời cho đến nay, người ta không ngừng thực hiện các công trình nghiên cứu để đưa tư tưởng nghiên cứu cùng với máy tính để ứng dụng vào việc giải quyết các công việc trong thực tiễn đời sống. Một trong những nguyên nhân làm cho trí tuệ nhân tạo trở thành một trong những lĩnh vực mũi nhọn trong thời đại hiện nay là việc làm cho máy tính trở nên thông minh hơn, nói cụ thể hơn là người ta tìm cách tạo ra các chương trình thông minh hơn có khả năng giải quyết các vấn đề thực tế như cách giải quyết của con người. Một trong những lĩnh vực lý thú của trí tuệ nhân tạo được đề cập trong chuyên đề này là Máy học. Tức là làm sao cho các chương trình có thể học từ các sai lầm của chúng, từ những quan sát ngẫu nhiên hay từ các yêu cầu đặt ra của con người. Nói cách khác là làm cho các chương trình có khả năng rút kinh nghiệm từ những quan sát thực tế. Trí tuệ và việc học có liên quan mật thiết với nhau chặt chẽ. Thật vậy trí tuệ sẽ không tồn tại được nếu không tồn tại khả năng học hỏi. Và thông qua việc học chương trình máy tính ngày càng biến hóa và phát triển thích ứng với môi trường và yêu cầu phức tạp của xã hội hiện nay. Chuyên đề sau đây sẽ là một khảo sát nhỏ về một phương pháp học trong trí tuệ nhân tạo, đó là việc học bằng phương pháp suy diễn và xây dựng cây định danh. Bài toán được đặt ra là từ một mẫu cơ sở dữ liệu có sẳn, máy tính có thể phát hiện ra tính quy luật trong mẫu dữ liệu đó bằng phương pháp xây dựng cây định danh và nhờ đó giúp con người đưa ra các quyết định nhanh chóng và chuẩn xác. Báo cáo chuyên đề 2 Chuyên đề: Học Bằng Phương Pháp Suy Diễn Và Xây Dựng Cây Định Danh Phần 2 LÝ THUYẾT CƠ SỞ CỦA PHƯƠNG PHÁP SUY DIỄN I. MÔ HÌNH TỔNG QUÁT CỦA SUY DIỄN FACT: Tập sự kiện HYPO: Tập giả thuyết Operator MATCH(X,Y) = a. Dẫn ra sự kiện mới (1)IF MATCH(LHS, FACT) = T THEN ADD RHS TO FACT (2)IF NOT MATCH(RHS, FACT)=F THEN ADD NOT(LHS) TO FACT b. Tạo ra giả thuyết mới (3)IF MATCH(LHS, FACT) = F THEN ADD NOT(RHS) TO HYPO (4)IF MATCH(LHS, HYPO) =T THEN ADD RHS TO HYPO (5)IF MATCH(LHS, HYPO) =F THEN ADD NOT(RHS) TO HYPO (6)IF MATCH(RHS, FACT) =T THEN ADD LHS TO HYPO (7)IF MATCH(RHS, HYPO) =T THEN ADD LHS TO HYPO (8)IF MATCH(LHS, HYPO)=F THEN ADD NOT(LHS) TO HYPO c. Khẳng định hay phủ định giả thuyết (9) IF MATCH(hypo.FACT) = T THEN ADD hypo TO HYPO (10) IF MATCH(hypo.FACT)=F THEN DELETE hypo TO HYPO d. Tiếp nhận FACT mới từ bên ngồi GET(FACT) [] : Lặp lại nhiều lần {} : Tuỳ chọn Lập luận tiến: [(1)] Lập luận lùi: (6) + [(7)] + {d} + (9) + [(1)] Lập luận phản chứng: [(4)] + {d} + (10) + [(2)] II. SUY DIỄN TIẾN Suy diễn tiến: là quá trình suy luận xuất phát từ một sự kiện ban đầu, xác định các sự kiện có thể được “sinh” ra từ các sự kiện này. Ví du: Cho cơ sở tri thức được xác định như sau: Báo cáo chuyên đề 3 T if X được lượng giá T trong Y F if X được lượng giá F trong Y ? if X không thể lượng giá trong Y Chuyên đề: Học Bằng Phương Pháp Suy Diễn Và Xây Dựng Cây Định Danh Các sự kiện : A, B, C, D, E, F, G, H, K Tập các quy tắc hay luật sinh (Rule) { R1: A-> E; R2: B->D; R3: H->A; R4: E ^ G ->C; R5: E ^ K -> B; R6: D ^ e ^ K -> C; R7: G ^ K ^ F -> A; } Ví dụ (tiếp theo) ( suy diễn tiến) Sự kiện ban đầu: H, K R3: H -> A {A, H, K} R1: A -> E {A, E, H, K} R5: E ^ K -> B {A, B, E, H, K} R2: B -> D {A, B, D, E, H, K} R6: D ^ E ^ K -> C {A, B, C, D, E, H, K} Tập hợp {A, B, C, D, E, H, K} được gọi là bao đóng của tập {H,K} trên tập luật R ( gồm 7 luật như trên) III. SUY DIỄN LÙI Suy diễn lùi: là quá trình suy luận ngược xuất phát từ một số sự kiện ban đầu, ta tìm kiếm các sự kiện đã “sinh” ra sự kiện này. Một ví dụ thường gặp trong thực tế là xuất phát từ các trình trạng của máy tính, chuẩn đoán xem máy tính đã bị hỏng hóc ở đâu. Ví du: Tập các sự kiện ổ cứng là « hỏng » hay « hoạt động bình thường » hỏng màn hình Lỏng cáp màn hình Trình trạng đèn ổ cứng là « tắt » hoặc « sáng » Có âm thanh đọc ổ cứng Tình trạng đèn màn hình « xanh » hoặc « chớp đỏ » Điện vào máy « có » hay « không » Ví dụ (tt) ( Chuẩn đoán hỏng máy tính) Một số luật suy diễn : R1 : Nếu ( điện vào máy là « có ») và ( âm thanh đọc ổ cứng là « không ») thì (ổ cứng « hỏng »). R2 : Nếu (điện vào máy là « có ») và (tình trạng đèn ổ cứng là « tắt ») thì (ổ cứng « hỏng »). R3 : Nếu (điện vào máy là « có ») và ( tình trạng đèn màn hình là « chớp đỏ ») thì (cáp màn hình « lỏng »). Báo cáo chuyên đề 4 Chuyên đề: Học Bằng Phương Pháp Suy Diễn Và Xây Dựng Cây Định Danh Để xác định được các nguyên nhân gây ra sự kiện « không sử dụng được máy tính », ta phải xây dựng một cấu trúc đồ thị AND/OR như sau : Báo cáo chuyên đề 5 ổ cứng “hỏng” Cáp màn hình “lỏng” Điện vào máy “có” Tình trạng đèn màn hình “chớp đỏ” Âm thanh ổ cứng “không” Đèn ổ cứng “tắt” AND OR AND Chuyên đề: Học Bằng Phương Pháp Suy Diễn Và Xây Dựng Cây Định Danh Ví dụ 1: Dữ liệu của một bảng quan sát gồm 4 thuộc tính của con người như sau:  Tóc có giá trị vàng, nâu, đỏ  Chiều cao có giá trị cao, trung bình, thấp  Cân nặng có giá trị nặng, nhẹ, trung bình  Dùng kem chống nắng có giá trị có dùng kem, không dùng kem thì khi đi tắm biển người đó có bị cháy nắng hay không? Dữ liệu quan sát được cho trong bảng sau: Tên Màu tóc Chiều cao Cân nặng Dùng kem? Kết quả Sarah Vàng Trung bình Nhẹ Không Cháy nắng Dana Vàng Cao Trung bình Có Không Alex Nâu Thâp Trung bình Có Không Annie Vàng Thấp Trung bình Không Cháy nắng Emilie Đỏ Trung bình Nặng Không Cháy nắng Peter Nâu Cao Nặng Không Không John Nâu Trung bình Nặng Không Không Kartie Vàng Thấp Nhẹ Có Không (Bảng 1) Sau khi dữ liệu này được đưa vào chương trình máy tính thì chương trính sẽ trả lời các tính quy luật như sau: Làm sao máy tính làm được việc này? Ta hãy nghiên cứu kỹ hơn trong phần lý thuyết cơ sở của phương pháp học bằng xây dựng cây định danh. Báo cáo chuyên đề 6 1. (Màu tóc Vàng) và (có dùng kem) à không cháy nắng 2. (Màu tóc nâu) và (không dùng kem) à cháy nắng 3. (Màu tóc nâu) à không cháy nắng 4. (Màu tóc đỏ) à cháy nắng Chuyên đề: Học Bằng Phương Pháp Suy Diễn Và Xây Dựng Cây Định Danh Phần 3 LÝ THUYẾT CƠ SỞ CỦA PHƯƠNG PHÁP HỌC BẰNG XÂY DỰNG CÂY ĐỊNH DANH I. ĐỊNH NGHĨA VỀ CÂY ĐỊNH DANH: Cây định danh là cây mà nếu ta đi từ nút gốc đến các lá ta sẽ có một quyết định hay một quy luật dựa vào các thuộc tính trên đường đi từ gốc đến lá, như vậy mỗi đường đi từ nút gốc đến nút lá sẽ cho ra một quyết định hay một quy luật. Vì vậy người ta còn gọi cây định danh là cây quyết định. Ví dụ: Với ví dụ 1 ở trên thì cây định danh được xác định như sau: Các kết luận hay quyết định cho cây định danh này được đưa ra như hình số 1 II. PHÂN TÍCH BÀI TOÁN: Bài toán học bằng phương pháp xây dựng cây định danh được phân tích và khai thác qua các bước sau đây, dựa vào bảng dữ liệu ở bảng số 1 ở phần đặt vấn đề. Người ta dựa vào ý tưởng tiếp cận hình học là phân chia không gian bài toán tạo thành một cây định danh sau đó xây dựng các phương pháp học dựa trên cây định danh đó. Cây định danh được xây dựng bằng cách tìm các quy luật của dữ liệu. Gọi P là tập hợp những người quan sát được: Báo cáo chuyên đề 7 Màu tóc Dùng kem Cháy nắng - Emmile Ñoû Nâu Không cháy nắng - Alex - Peter - John Vàng Không Có Cháy nắng - Sarah - Annie Không cháy nắng - Dana - Kartie Chuyên đề: Học Bằng Phương Pháp Suy Diễn Và Xây Dựng Cây Định Danh 1. Ta xét ngẫu nhiên qua từng thuộc tính rồi phân nhóm kết quả theo từng giá trị của thuộc tính Quan sát thuộc tính tóc ta có: P vàng = {Sarah, Dana, Annie, Kartie} P nâu = {Alex, Peter, John } P đỏ = {Emmile} Người được gạch dưới và in đậm là bị cháy nắng, ta có sơ đồ sau: Ta thấy P vàng còn lẫn lộn người cháy nắng và không cháy nắng, tiếp tục quan sát thuộc tính kế tiếp là thuộc tính chiều cao với các tập hợp còn lẫn lộn này ta có: P vàng, thấp = {Annie, Kartie} P vàng, trung bình = {Sarah} P vàng, cao = {Dana} 2. Thực hiện quá trình như số 1 cho đến khi tất cả các nút lá của cây không còn lẫn lộn giữa cháy nắng và không cháy nắng nữa. Qua mỗi bước phân hoạch Báo cáo chuyên đề 8 Màu tóc - Emmile Đỏ Nâu - Alex - Peter - John Vàng - Dana - Kartie - Sarah - Annie Màu tóc - Emmile Đỏ Nâu - Alex - Peter - John Vàng Chiều cao - Dana Cao Trung bình - Sarah Thấp - Kartie - Annie Chuyên đề: Học Bằng Phương Pháp Suy Diễn Và Xây Dựng Cây Định Danh như vậy cây ngày càng phình ra đến khi xét hết các thuộc tính thì cây cuối cùng là cây định danh có khả năng cho ta các kết luận cuối cùng. 3. Nhận xét: Như vậy nếu ta chọn các thuộc tính ngẫu nhiên khác nhau thì kết quả cuối cùng sẽ cho ra cây định danh cuối cùng khác nhau. Với nhận xét này ta thấy nếu ta chọn thuộc tính đầu tiên theo một cách nào đó thông minh hơn dựa vào tần xuất xuất hiện của giá trị dữ liệu trên thuộc tính thì có thể sẽ cho ta một cây định danh đơn giản hơn. Việc chọn thuộc tính như thế nào là thông minh hơn ta sẽ xem thuật toán Quinlan sau đây: III. THUẬT TOÁN QUINLAN: 1. Thuật toán:  Với mỗi thuộc tính dẫn xuất A còn có thể sử dụng để phân hoạch thì ta tính: V A (j) = (T(j, r 1 ), T(j, r 2 ), …, T(j, r n ), ) T(j, r i ) = Trong đó r 1 , r 2 , …, r n là các giá trị thuộc tính mục tiêu. Như vậy nếu một thuộc tính A có thể nhận một trong 5 giá trị khác nhau thì nó sẽ có 5 vector đặc trưng.  Một vector V(A j ) được gọi là vector đơn vị nếu nó có duy nhất một thành phần có giá trị 1 và những thành phần khác có giá trị 0.  Thuộc tính được chọn để phân hoạch là thuộc tính có nhiều vector đơn vị nhất. 2. Minh họa thuật toán: a. Bước 1:  Xét thuộc tính Màu tóc - Xét giá trị Tóc vàng: V tóc (vàng) = {T(vàng, cháy nắng), T(vàng, không cháy nắng)} Số người tóc vàng là: 4 Số người tóc vàng và cháy nắng là: 2 Số người tóc vàng và không cháy nắng là: 2 Như vậy: V tóc (vàng) = (2/4, 2/4) = (0.5, 0.5) - Tương tự xét giá trị tóc nâu: Báo cáo chuyên đề 9 Tổng số phần tử trong phân hoạch có giá trị thuộc tính dẫn xuất là A là j và có giá trị thuộc tính mục tiêu là r i Tổng số phần tử trong phân hoạch có giá trị thuộc tính dẫn xuất là A là j Chuyên đề: Học Bằng Phương Pháp Suy Diễn Và Xây Dựng Cây Định Danh Số người tóc nâu là: 3 Số người tóc nâu và cháy nắng là: 0 Số người tóc nâu và không cháy nắng là: 3 Như vậy: V tóc (nâu) = (0/3, 3/3) = (0, 1) à vector đơn vị - Tóc đỏ: V tóc (đỏ) = (1/1, 0/1) = (1, 0) à Vector đơn vị Tổng số vector đơn vị của thuộc tính Màu Tóc là 2  Xét thuộc tính Chiều cao V chiều.cao (cao) = (0/2, 2/2) = (0, 1) V chiều.cao (trung bình) = (2/3, 1/3) V chiều.cao (thấp) = (1/3, 2/3)  Xét thuộc tính Cân nặng V cân.nặng (nhẹ) = (1/2, 1/2) V cân.nặng (trung bình) = (1/3, 2/3) V cân.nặng (nặng) = (1/3, 2/3)  Xét thuộc tính Dùng kem V dùng.kem (có) = (3/4, 0/3) = (0, 1) V dùng.kem (không) = (3/5, 2/5) Như vậy: thuộc tính màu tóc có số vector đơn vị nhiều nhất (2 vector đơn vị) nên sẽ được chọn đầu tiên để phân hoạch. Sau khi phân hoạch theo tóc vàng ta có tập phân hoạch: Tên Chiều cao Cân nặng Dùng kem? Kết quả Sarah Trung bình Nhẹ Không Cháy nắng Dana Cao Trung bình Có Không Annie Thấp Trung bình Không Cháy nắng Kartie Thấp Nhẹ Có Không (Bảng số 2) b. Bước 2: Trong tập phân hoạch này ta thấy còn chứa những người cháy nắng và không cháy nắng, tiếp tục phân hoạch tập này. Tính vector đặc trưng trên các tập còn lại (chiều cao, cân nặng, dùng kem).  Xét thuộc tính Chiều cao Báo cáo chuyên đề 10 [...]... bùng nổ thông tin với nền kinh tế thị trường thì việc nghiên cứu phương pháp học này của chương trình máy tính đã góp phần mang tính chiến lược cho công nghệ tri thức hiện nay Báo cáo chuyên đề 22 Chuyên đề: Học Bằng Phương Pháp Suy Diễn Và Xây Dựng Cây Định Danh Bài thu hoạch đã mô tả cách học bằng phương pháp suy diễn và xây dựng cây định danh của chương trình máy tính như thế nào? Đồng thời đã ứng dụng... rất nhiều điều lý thú đặc biệt là các vấn đề có liên quan đến trí tuệ nhân tạo và công nghệ tri thức ngày nay Bài thu hoạch này đã khái quát lên một cách học truyền thống và thú vị của chương trình máy tính đó là Học bằng phương pháp suy diễn và xây dựng cây định danh Phương pháp học này đã được áp dụng trong thực tế và đã giải được một số bài toán quan trọng trong việc tìm ra tri thức trong một... phải xây dựng vector đặc trưng như phương pháp của Quinlan, ứng với mỗi thuộc tính dẫn xuất ta chỉ cần tính ra độ đo hỗn loạn và lựa chọn thuộc tính nào có độ đo hỗn loạn là thấp nhất Người ta tính được công thức như sau: Gọi TA là độ đo hỗn loạn của một thuộc tính A, ta có: TA đề Báo cáo chuyên = bj j bt x - bj bt x log2 - bj bt 11 Chuyên đề: Học Bằng Phương Pháp Suy Diễn Và Xây Dựng Cây Định Danh. .. dùng thêm sự kiện mới vào và cách khắc phục của sự kiện đó Một số hình ảnh về phần mềm đơn giản: + Database của phần mềm: Giao diện của phần mềm: Báo cáo chuyên đề 21 Chuyên đề: Học Bằng Phương Pháp Suy Diễn Và Xây Dựng Cây Định Danh Một số dự kiện khác như OnClick, OnUpdate, OnEnter … Phần 5 KẾT LUẬN Được học môn Công nghệ tri thức do GS.TSKH Hoàng Kiếm giảng dạy, chúng em đã học được rất nhiều điều... năng của luật mặc định: Báo cáo chuyên đề 14 Chuyên đề: Học Bằng Phương Pháp Suy Diễn Và Xây Dựng Cây Định Danh IF không có giả thiết THEN người đó bị cháy nắng (a) IF không có giả thiết THEN người đó không cháy nắng (b) Dễ thấy rằng luật mặc định (a) có thể thay thế cho luật (2) và luật (4) vì “không có giả thiết” đại diện cho nhiều giả thiết nhất “màu tóc nâu”, “không dùng kem” và “màu tóc đỏ” Như... các dây nối Lỗi Mainboard 16 Chuyên đề: Học Bằng Phương Pháp Suy Diễn Và Xây Dựng Cây Định Danh Lỗi màn hình Triệu chứng Nguyên nhân và cách khắc phục Cắm thử màn hình ngoài vào cổng VGA ngoài, setup BIOS về mặc định, khởi động lại máy Cắm lại dây màn hình LCD Đèn backlight không sáng Hỏng dây màn hình Hỏng mạch cao áp Hỏng màn hình Hỏng Mainboard Setup BIOS mặc định, khởi động lại máy Cắm lại dây màn... Báo cáo chuyên đề Người không cháy nắng 2 0 Người bị cháy nắng 0 2 13 Chuyên đề: Học Bằng Phương Pháp Suy Diễn Và Xây Dựng Cây Định Danh Rõ ràng ta không thể loại bỏ thuộc tính “dùng kem” này trong luật này • Xét luật 2: IF (Màu tóc nâu) và (không dùng kem) THEN cháy nắng Bỏ giả thiết “màu tóc”: Màu tóc Tóc vàng Tóc không vàng Người không cháy nắng 0 2 Người bị cháy nắng 2 2 Người không cháy nắng 2 0... nâu) à không cháy nắng Báo cáo chuyên đề 4 (Màu tóc đỏ) à cháy nắng 12 Chuyên đề: Học Bằng Phương Pháp Suy Diễn Và Xây Dựng Cây Định Danh Vấn đề còn lại là làm sao tối ưu hóa tập luật này nếu nó có tồn tại luật dư thừa 5 Tối ưu hóa tập luật: a Loại bỏ giả thiết không cần thiết trong luật: Sau khi các luật chuyển từ cây định danh, có thể bỏ đi các luật không cần thiết để đơn giản tập các luật được sinh... chứng Nguyên nhân và cách khắc phục Máy chạy bình thường, nhưng đèn báo nguồn hiển thị không chính xác Lỗi Mainboard Lỗi ổ cứng/CD Đèn ổ cứng/CD không sáng Lỗi driver trong windows Lỗi Mainboard Lỗi liên quan đến nguồn: Triệu chứng Máy tắt đột ngột trong lúc chạy Báo cáo chuyên đề Nguyên nhân và cách khắc phục Sạc lại Pin 17 Chuyên đề: Học Bằng Phương Pháp Suy Diễn Và Xây Dựng Cây Định Danh Hỏng pin hoặc... gian và kiến thức còn gói gọn trong môn học nên chuyên đề sẽ không tránh được những sai xót, em mong nhận được sự đóng góp xây dựng tích cực của thầy Hoàng Kiếm cùng các bạn Cuối cùng, Em xin chân thành cám ơn sự giảng dạy và hướng dẫn nhiệt tình của thầy cũng như nhà Trường đã tạo điều kiện thuận lợi giúp em hoàn thành chuyên đề Báo cáo chuyên đề 23 Chuyên đề: Học Bằng Phương Pháp Suy Diễn Và Xây Dựng . nắng Chuyên đề: Học Bằng Phương Pháp Suy Diễn Và Xây Dựng Cây Định Danh Phần 3 LÝ THUYẾT CƠ SỞ CỦA PHƯƠNG PHÁP HỌC BẰNG XÂY DỰNG CÂY ĐỊNH DANH I. ĐỊNH NGHĨA VỀ CÂY ĐỊNH DANH: Cây định danh là cây mà nếu. của phương pháp suy diễn 2 I. Mô hình tổng quát của suy diễn II. Suy diễn tiến III. Suy diễn lùi Phần 3: Lý thuyết cơ sở của phương pháp học bằng cây định danh 6 I. Định nghĩa về cây định danh. xây dựng cây định danh và nhờ đó giúp con người đưa ra các quyết định nhanh chóng và chuẩn xác. Báo cáo chuyên đề 2 Chuyên đề: Học Bằng Phương Pháp Suy Diễn Và Xây Dựng Cây Định Danh Phần 2 LÝ

Ngày đăng: 10/04/2015, 16:26

Xem thêm: Học Bằng Phương Pháp Suy Diễn Và Xây Dựng Cây Định Danh

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w