Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 26 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
26
Dung lượng
385,5 KB
Nội dung
ĐẠI HỌC QUỐC GIA ĐẠI HỌC CÔNG NGHỆ THÔNG TIN TP. HỒ CHÍ MINH CHƯƠNG TRÌNH ĐẠO TẠO THẠC SĨ CNTT KHÓA 6 ________________ BÀI THU HOẠCH CHUYÊN ĐỀ: CÔNG NGHỆ TRI THỨC Đề tài: HỌC BẰNG PHƯƠNG PHÁP DỰA TRÊN CÂY ĐỊNH DANH GVHD: GS.TSKH. HOÀNG KIẾM SVTH: VƯƠNG THỊ NGỌC ẨN – CH1101063 LÊ THỊ PHÚC KHOA – CH1101015 TP. HCM, 6/2012 Bài thu hoạch MỤC LỤC Phần A: Mở đầu 2 Phần B: Lý thuyết cơ sở của phương pháp học bằng cây định danh 4 I. Khái niệm máy học II. Khám phá tri thức III. Phân loại máy học I. Định nghĩa về cây định danh 5 II. Phân tích bài toán 5 III. Thuật toán Quinlan 7 1. Thuật toán 7 2. Minh hoạ thuật toán 7 3. Nhận xét (độ đo hỗn loạn) 11 4. Phát sinh tập luật 13 5. Tối ưu hóa tập luật 13 6. Kết luận 15 IV. Thuật toán ILA 15 7. Thuật toán 16 8. Minh hoạ thuật toán 16 Phần C: Cài đặt ứng dụng minh họa 22 Phần D: Kết luận 25 Tài liệu tham khảo 26 Công Nghệ Tri Thức 2 Bài thu hoạch PHẦN A. MỞ ĐẦU Trí tuệ nhân tạo ngày nay đã trở thành một trong những lĩnh vực mũi nhọn, tiên phong hàng đầu, con người chúng ta làm cho máy tính trở nên thông minh hơn, tìm cách tạo ra các chương trình thông minh hơn để có khả năng giải quyết các vấn đề thực tế như cách giải quyết của con người. Bài thu hoạch sau đây là một khảo sát nhỏ về một phương pháp học trong trí tuệ nhân tạo, đó là học bằng phương pháp dựa trên cây định danh. Bài toán được đặt ra là từ một mẫu cơ sở dữ liệu có sẳn, máy tính có thể phát hiện ra tính quy luật trong mẫu dữ liệu đó bằng phương pháp xây dựng cây định danh và nhờ đó giúp con người đưa ra các quyết định nhanh chóng và chuẩn xác, Có thể ứng dụng để giải quyết vấn đề thực tế. Ví dụ ta có một bản thông tin dữ liệu như sau: Công Nghệ Tri Thức 3 Bài thu hoạch Tên Nước tiểu Giảm cân Đau lưng Sốt Kết quả An Vàng Không Không Có Không bệnh sỏi thận Cường Vàng Không Không Không Không bệnh sỏi thận Châu Có vôi Không Không Có Bệnh sỏi thận Dung Có máu ít Không Có Bệnh sỏi thận Diễm Có máu Nhanh Có Có Bệnh sỏi thận Hương Có máu Nhanh Có Không Không bệnh sỏi thận Hoa Có vôi Nhanh Có Không Bệnh sỏi thận Phương Vàng ít Không Có Không bệnh sỏi thận My Vàng Nhanh Có Có Bệnh sỏi thận Nhung Có máu ít Có Có Bệnh sỏi thận Thu Vàng ít Có Không Bệnh sỏi thận Thương Có vôi ít Không Không Bệnh sỏi thận Tuấn Có vôi Không Có Có Bệnh sỏi thận Tùng Có máu ít Không Không Không bệnh sỏi thận (Bảng 1) Sau khi dữ liệu này được đưa vào chương trình máy tính thì chương trình sẽ cho ra các luật như sau, và dựa vào các luật này người ta có thể chuẩn đoán bệnh: (Hình số 1) Làm sao máy tính làm được việc này? Ta hãy nghiên cứu kỹ hơn trong phần lý thuyết cơ sở của phương pháp học bằng xây dựng cây định danh. Công Nghệ Tri Thức 4 1. (Nước tiểuVàng) và (có đau lưng) à Bệnh sỏi thận 2. (Nước tiểu Vàng) và (không đau lưng) à Không bệnh sỏi thận 3. (Nước tiểu có vôi) àBệnh sỏi thận 4. (Nước tiểu có máu) và (có sốt) à Bệnh sỏi thận 5. (Nước tiểu có máu) và (không sốt) à Không bệnh sỏi thận Bài thu hoạch PHẦN B LÝ THUYẾT CƠ SỞ CỦA PHƯƠNG PHÁP HỌC BẰNG XÂY DỰNG CÂY ĐỊNH DANH I. KHÁI NIỆM MÁY HỌC: - Máy tính hay chương trình máy tính có khả năng hoàn thiện từ “kinh nghiệm” - Máy tính còn có nghĩa là việc mô hình hóa môi trường xung quanh hay khả năng một c hương trình máy tính sinh ra một cấu trúc dữ liệu mới khác với cấu trúc hiện có. chẳng hạn tìm ra những luật If…then… từ tập dữ liệu đầu vào. II. KHÁM PHÁ TRI THỨC: - Khám phá tri thức là tìm ra những tri thức tiềm ẩn, những tri thức mới (không phải là những tri thức kinh điển, kinh nghiệm,…) III. PHÂN LOẠI MÁY HỌC: - Phân loại thô: + Học giám sát + Học không giám sát - Phân loại theo 2 tiêu chuẩn cùng lúc: “cấp độ học” và “cách tiếp cận” + Cấp độ học: Học vẹt Học theo giải thích Học theo ví dụ, trường hợp Học khám phá + Cách tiếp cận: Tiếp cận thống kê Tiếp cận toán tử logic Tiếp cận hình học (Phân hoạch không gian, xây dựng cây định danh,…) Tiếp cận mạng Neural Tiếp cận khai mỏ dữ liệu …………………………… IV.ĐỊNH NGHĨA VỀ CÂY ĐỊNH DANH: Công Nghệ Tri Thức 5 Bài thu hoạch Cây định danh là cây mà nếu ta đi từ nút gốc đến các lá ta sẽ có một quyết định hay một quy luật dựa vào các thuộc tính trên đường đi từ gốc đến lá, như vậy mỗi đường đi từ nút gốc đến nút lá sẽ cho ra một quyết định hay một quy luật. Vì vậy người ta còn gọi cây định danh là cây quyết định. Ví dụ: Với ví dụ 1 ở trên thì cây định danh được xác định như sau: (Hình số 2) Các kết luận hay quyết định cho cây định danh này được đưa ra như hình số 1 V. PHÂN TÍCH BÀI TOÁN: Dựa vào ý tưởng tiếp cận hình học là phân chia không gian bài toán tạo thành một cây định danh sau đó xây dựng các phương pháp học dựa trên cây định danh đó. 1. Cây định danh được xây dựng bằng cách tìm các quy luật của dữ liệu: Gọi P là tập hợp những người quan sát được: Ta xét ngẫu nhiên qua từng thuộc tính rồi phân nhóm kết quả theo từng giá trị của thuộc tính Quan sát thuộc tính Nước tiểu ta có: P vàng = {An, Cường, Phương, My, Thu} P Có vôi = {Châu, Hoa, Phương, Tuấn} P Có máu = {Dung, Diễm, Hương, Nhung, Tùng} Người được gạch dưới và in đậm là bị Bệnh sỏi thận, ta có sơ đồ sau: Công Nghệ Tri Thức 6 Nước tiểu Đau lưng Có máu Bệnh sỏi thận - Châu - Hoa - Thương - Tuấn Vàng KhôngCó Không bệnh sỏi thận - An - Cường - Phương Bệnh sỏi thận - My - Thu Có vôi Sốt Không bệnh sỏi thận Bệnh sỏi thận Có Không - Dung - Diễm - Nhung - Hương - Tùng Bài thu hoạch (Hình số 3) Ta thấy P vàng còn lẫn lộn người bệnh và không bệnh Tiếp tục quan sát thuộc tính kế tiếp là thuộc tính Giảm cân với các tập hợp còn lẫn lộn này ta có: P vàng, không = {An, Cường} P vàng, ít = {Phương, Thu} P vàng, nhanh = {My} (Hình số 4) 2. Nhận xét: - Quá trình này cứ thế tiếp tục cho đến khi tất cả các nút lá của cây không còn lẫn lộn giữa bệnh và không bệnh nữa. - Qua mỗi bước phân hoạch cây càng ngày càng “phình” ra. Cây mà chúng ta đang xây dựng gọi là cây định danh. 9. Vấn đề: Nếu như ban đầu ta không chọn thuộc tính Nước tiểu để phân hoạch mà chọn thuộc tính khác như thuộc tính Giảm cân chẳng hạn để phân hoạch thì sao? Cuối cùng thì cách phân hoạch nào tốt hơn, thông minh hơn. Việc chọn thuộc tính như thế nào là thông minh hơn ta sẽ xem thuật toán Quinlan sau đây: Công Nghệ Tri Thức 7 Nước tiểu - Dung - Diễm - Hương - Nhung - Tùng Có máu Có vôi - Châu - Hoa - Phương - Tuấn Vàng - An - Cường - Phương - My - Thu Nước tiểu Vàng Giảm cân - My Nhanh ít - Phương - Thu Không - An - Cường Có vôi Có máu - Châu - Hoa - Phương - Tuấn - Dung - Diễm - Hương - Nhung - Tùng Bài thu hoạch VI. THUẬT TOÁN QUINLAN: 1. Thuật toán: - Với mỗi thuộc tính dẫn xuất A còn có thể sử dụng để phân hoạch thì ta tính: V A (j) = (T(j, r 1 ), T(j, r 2 ), …, T(j, r n ), ) T(j, r i ) = Trong đó r 1 , r 2 , …, r n là các giá trị thuộc tính mục tiêu. Như vậy nếu một thuộc tính A có thể nhận một trong 5 giá trị khác nhau thì nó sẽ có 5 vector đặc trưng. - Một vector V(A j ) được gọi là vector đơn vị nếu nó có duy nhất một thành phần có giá trị 1 và những thành phần khác có giá trị 0. - Thuộc tính được chọn để phân hoạch là thuộc tính có nhiều vector đơn vị nhất. 2. Minh họa thuật toán: Bước 1: Xét thuộc tính Nước tiểu - Xét giá trị vàng: V Nước tiểu (vàng) = {T(vàng, Bệnh sỏi thận), T(vàng, không bệnh sỏi thận)} Số người Nước tiểu vàng là: 5 Số người nước tiểu vàng và bệnh sỏi thận là: 2 Số người nước tiểu vàng và không bệnh sỏi thận là: 3 Như vậy: V nước tiểu (vàng) = (2/5, 3/5) = (0.4, 0.6) - Xét giá trị Có vôi: V Nước tiểu (Có vôi) = {T(Có vôi, Bệnh sỏi thận), T(Có vôi, không bệnh sỏi thận)} Số người nước tiểu có vôi là: 4 Số người nước tiểu có vôi và bệnh sỏi thận là: 4 Số người nước tiểu có vôi và không bệnh sỏi thận là: 0 Như vậy: V nước tiểu (có vôi) = (4/4,0/4) = (1, 0) à vector đơn vị - Xét giá trị Có máu: V Nước tiểu (Có máu) = {T(Có máu, Bệnh sỏi thận), T(Có máu, không bệnh sỏi thận)} Công Nghệ Tri Thức 8 Tổng số phần tử trong phân hoạch có giá trị thuộc tính dẫn xuất là A là j và có giá trị thuộc tính mục tiêu là r i Tổng số phần tử trong phân hoạch có giá trị thuộc tính dẫn xuất là A là j Bài thu hoạch Số người nước tiểu có máu là: 5 Số người nước tiểu có máu và bệnh sỏi thận là: 3 Số người nước tiểu có máu và không bệnh sỏi thận là: 2 Như vậy: V nước tiểu (có máu) = (3/5,2/5) = (0.6, 0.4) Xét thuộc tính Giảm cân V Giảm cân (Không) = (2/4, 2/4) V Giảm cân (ít) = (4/6, 2/6) V Giảm cân (Nhanh) = (3/4, 1/4) Xét thuộc tính đau lưng V đau lưng (Có) = (6/7, 1/7) V đau lưng (Không) = (3/7, 4/7) Xét thuộc tính Sốt V Sốt (có) = (6/8, 2/8) V Sốt (không) = (3/6, 3/6) Như vậy: thuộc tính Nước tiểu có số vector đơn vị nhiều nhất (1 vector đơn vị) nên sẽ được chọn đầu tiên để phân hoạch. Bước 2 Ta phân hoạch theo nhánh Nước tiểu vàng - Trong tập phân hoạch này ta thấy còn chứa những người Bệnh sỏi thận và không bệnh sỏi thận, tiếp tục phân hoạch tập này. Tính vector đặc trưng trên các tập còn lại: Giảm cân, đau lưng, sốt - Bảng quan sát Tên Giảm cân Đau lưng Sốt Kết qả An Không Không Có Không bệnh sỏi thận Cường Không Không Không Không bệnh sỏi thận Phương ít Không Có Không bệnh sỏi thận My Nhanh Có Có Bệnh sỏi thậnu Thu ít Có Không Bệnh sỏi thận (Bảng số 2) Xét thuộc tính Giảm cân V Giảm cân (Không) = (0/2, 2/2) = (0, 1) -> Vector đơn vị Công Nghệ Tri Thức 9 Bài thu hoạch V Giảm cân (ít) = (1/2, 1/2) V Giảm cân (Nhanh) = (1/1, 0/1) = (1,0) -> Vector đơn vị Xét thuộc tính đau lưng V đau lưng (Có) = (2/2, 0/2) = (1,0) -> Vector đơn vị V đau lưng (Không) = (0/3, 3/3) = (0,1) -> Vector đơn vị Xét thuộc tính Sốt V Sốt (có) = (1/3, 2/3) V Sốt (không) = (1/2, 1/2) Vì hai thuộc tính Giảm cân và đau lưng đều có cùng 2 vector đơn vị, tuy nhiên số phân hoạch của thuộc tính đau lưng là ít hơn nên ta chọn phân hoạch theo thuộc tính đau lưng. Tập phân hoạch này không còn lẫn lộn người bệnh sỏi thận và không bệnh sỏi thận nên ta dừng phân hoạch. Bước 3 Ta phân hoạch theo nhánh Nước tiểu có máu - Trong tập phân hoạch này ta thấy còn chứa lẫn lộn những người Bệnh sỏi thận và không bệnh sỏi thận, tiếp tục phân hoạch tập này. Tính vector đặc trưng trên các tập còn lại: Giảm cân, đau lưng, sốt - Bảng quan sát Tên Giảm cân Đau lưng Sốt Kết quả Dung ít Không Có Bệnh sỏi thận Diễm Nhanh Có Có Bệnh sỏi thận Hương Nhanh Có Không Không bệnh sỏi thận Nhung ít Có Có Bệnh sỏi thận Tùng ít Không Không Không bệnh sỏi thận (Bảng số 3) Xét thuộc tính Giảm cân V Giảm cân (ít) = (2/3, 1/3) V Giảm cân (Nhanh) = (1/2, 1/2) Xét thuộc tính đau lưng V đau lưng (Có) = (2/3, 1/3) V đau lưng (Không) = (1/2, 1/2) Công Nghệ Tri Thức 10 [...]... thu hoạch PHẦN D KẾT LUẬN Bài thu hoạch là một khảo sát nhỏ về một phương pháp học trong trí tuệ nhân tạo, đó là học bằng phương pháp dựa trên cây định danh Từ một mẫu cơ sở dữ liệu có sẳn, máy tính có thể phát hiện ra tính quy luật trong mẫu dữ liệu đó bằng phương pháp xây dựng cây định danh và nhờ đó giúp con người đưa ra các quyết định nhanh chóng và chuẩn xác, Có thể ứng dụng để giải quyết vấn đề... tập luật, đồng thời tối ưu hóa tập luật bằng việc loại bỏ các giả thiết thừa, loại bỏ giả thiết không gây ảnh hưởng đến tập luật Sau đó loại bỏ luật thừa bằng thay thế vào luật mặc định Sau đây ta sẽ nghiên cứu thêm một thuật toán gọi là thuật toán ILA cho việc trực tiếp xác định tập luật từ mẫu dữ liệu có sẵn cho bài toán trên mà thông qua việc xác định cây định danh V THUẬT TOÁN ILA: Thuật giải ILA... có cây định danh Nước tiểu Vàng Có máu Có vôi Bệnh sỏi thận Đau lưng Có Bệnh sỏi thận - My Công Nghệ Tri Thức - Thu Không Không bệnh sỏi thận - An - Cường - Phương - Châu - Hoa - Thương - Tuấn Sốt Có Bệnh sỏi thận - Dung - Diễm - Nhung Không Không bệnh sỏi thận - Hương - Tùng 13 Bài thu hoạch 10 Phát sinh tập luật: Dựa vào cây định danh được xây dựng như trong hình số 5 , rút ra các luật như sau: Bằng. .. Khác với việc xử lý luật theo phương pháp cây quyết định, vốn rất phức tạp trong trường hợp các nút cây trở nên khá lớn 1 Thuật toán: Bước 1: Chia mẫu ban đầu thành n bảng con Mỗi bảng con ứng với một giá trị của thuộc tính quyết định của tập mẫu Thực hiện lần lượt các bước từ 2 đến 8 cho mỗi bảng con có được Bước 2: j = 1 Bước 3: Trên mỗi bảng con đang khảo sát, chia danh sách các thuộc tính thành... Learning Algorithm) được dùng để xác định các luật phân loại cho tập hợp các mẫu học Thuật giải này thực hiện theo cơ chế lặp, để tìm luật riêng đại diện cho tập mẫu của từng lớp Sau khi xác định được luật, ILA loại bỏ các mẫu liên quan khỏi tập mẫu, đồng thời thêm luật mới này vào tập luật Kết quả có được là một danh sách có thứ tự các luật chứ không là một cây quyết định Các ưu điểm của thuật giải này... thể dùng luật mặc định để thay thế một hay nhiều luật có trong tập luật nếu luật mặc định đó không làm mất đi tính đúng đắn ban đầu Do có hai kết luận nên có hai khả năng của luật mặc định: IF không có giả thiết THEN Bệnh sỏi thận (a) IF không có giả thiết THEN Không bệnh sỏi thận (b) 12 Kết luận: Công Nghệ Tri Thức 15 Bài thu hoạch Sau khi dùng thuật toán Quinlan để xây dựng cây định danh, ta rút ra... thúc thuật toán Ta có cây định danh cuối cùng: Nước tiểu Vàng Có máu Có vôi Bệnh sỏi thận Đau lưng Có - Châu - Hoa - Thương - Tuấn Không Bệnh sỏi thận Có Bệnh sỏi thận Không bệnh sỏi thận - My - Thu Sốt - An - Cường - Phương - Dung - Diễm - Nhung Không Không bệnh sỏi thận - Hương - Tùng (Hình số 5) 3 Nhận xét (độ đo hỗn loạn): Thay vì phải xây dựng vector đặc trưng như phương pháp của Quinlan, ứng... thế nào? Một cách hành động là đặt ra một luật mặc định đại loại như: Nếu không có luật nào thỏa → Bệnh sỏi thận (1) Hoặc Nếu không có luật nào thỏa → không bệnh sỏi thận (2) Một số quy tắc khi chọn luật mặc định: (1) Chọn luật mặc định sao cho nó có thể thay thế cho nhiều luật nhất (2) Chọn luật mặc định có kết luận phổ biến nhất (3) Chọn luật mặc định sao cho tổng số mệnh đề của các luật mà nó thay... C CÀI ĐẶT ỨNG DỤNG MINH HỌA Hai chuyên đề nổi bật là giải thuật để xây dựng cây định danh và tìm ra tri thức cho mẫu dữ liệu thực tế là giải thuật Quinlan và giải thuật ILA Trong phần này ứng dụng chỉ minh họa cho giải thuật ILA để tìm ra tri thức cho bảng dữ liệu * Mô tả chương trình: Chương trình yêu cầu người dùng đưa vào danh sách các thuộc tính dẫn xuất, thuộc tính mục tiêu cùng với tất cả các... thừa 11 Tối ưu hóa tập luật: a Loại bỏ giả thiết không cần thiết trong luật: Sau khi các luật chuyển từ cây định danh, có thể bỏ đi các luật không cần thiết để đơn giản tập các luật được sinh ra, ta sẽ bỏ đi những giả thiết không làm thay đổi tác dụng của luật đối với mẫu Ta lần lượt xét 5 tập luật ở trên: • Xét luật 1: IF (Nước tiểu Vàng) và (có đau lưng) THEN Bệnh sỏi thận Giả thiết có 2 phần, nếu bỏ . đầu 2 Phần B: Lý thuyết cơ sở của phương pháp học bằng cây định danh 4 I. Khái niệm máy học II. Khám phá tri thức III. Phân loại máy học I. Định nghĩa về cây định danh 5 II. Phân tích bài toán 5 III người. Bài thu hoạch sau đây là một khảo sát nhỏ về một phương pháp học trong trí tuệ nhân tạo, đó là học bằng phương pháp dựa trên cây định danh. Bài toán được đặt ra là từ một mẫu cơ sở dữ liệu. quyết định hay một quy luật. Vì vậy người ta còn gọi cây định danh là cây quyết định. Ví dụ: Với ví dụ 1 ở trên thì cây định danh được xác định như sau: (Hình số 2) Các kết luận hay quyết định