Bài tập nhóm hệ cơ sở tri thức đề tài hệ học
Trang 1KHOA CÔNG NGHỆ THÔNG TIN
Trang 2MỤC LỤC
LỜI GIỚI THIỆU
Từ khi các hệ cơ sở trí thức ra đời cho đến nay, người ta không ngừng thực hiện cáccông trình nghiên cứu để đưa tư tưởng nghiên cứu cùng với máy tính ứng dụng vào giải quyếtcác công việc trong thực tiễn đời sống
Một trong những nguyên nhân làm cho các hệ cơ sở tri thức phổ biến trong thời đạihiện nay là việc làm cho máy tính trở nên thông minh hơn, nói cụ thể hơn là người ta tìm cáchtạo ra các chương trình thông minh hơn có khả năng giải quyết các vấn đề thực tế như cáchgiải quyết của con người việc học chương trình máy tính ngày càng biến hóa và phát triểnthích ứng với môi trường và yêu cầu phức tạp của xã hội hiện nay
Bài báo cáo sau đây về hệ học trong hệ cơ sở tri thức, đó là việc học bằng phươngpháp xây dựng cây định danh Bài toán được đặt ra là từ một mẫu cơ sở dữ liệu có sẳn, máytính có thể phát hiện ra tính quy luật trong mẫu dữ liệu đó bằng phương pháp xây dựng câyđịnh danh và nhờ đó giúp con người đưa ra các quyết định nhanh chóng và chuẩn xác
Trong một bài toán của hệ học, đầu vào là một tập dữ liệu huấn luyện bao gồm cácmẫu dữ liệu Mỗi mẫu dữ liệu bao gồm một tập giá trị ứng với các thuộc tính Tập thuộc tínhđược chia làm hai phần: thuộc tính quan sát và thuộc tính kết quả Mục tiêu của học máy làtìm một ánh xạ từ thuộc tính quan sát vào thuộc tính kết quả (tìm moi quan hệ giữa thuộc tínhquan sát và thuộc tính kết quả) ứng với tập dữ liệu huấn luyện Ánh xạ này sẽ được áp dụnglên những mẫu quan sát mới để rút ra kết quả tương ứng
Công việc của từng thành viên
Trang 35 Trần Thị Như Ý Cây định danh + Quinlan + Ứng dụng 20%
Thuật ngữ "học" là tiếp thu tri thức
Có hai tiếp cận cho hệ thống học:
– Học từ ký hiệu: bao gồm việc hình thức hóa, sửa chữa các luật tường minh, sự kiện vàcác quan hệ
– Học từ dữ liệu số: được áp dụng cho những hệ thống được mô hình dưới dạng số liênquan đến các kỹ thuật nhằm tối ưu các tham số Học theo dạng số bao gồm mạng Neural nhân
t ạo, thuật giải di truyền, bài toán tối ưu truyền thống Các kỹ thuật học theo số không tạo raCSTT tường minh
Quá trình học diễn ra dưới nhiều hình thức như:
Trang 41 Học vẹt:
Hệ tiếp nhận các khẳng định của các quyết định đúng Khi hệ tạo ra một quyết địnhkhông đúng, hệ sẽ đưa ra các luật hay quan hệ đúng mà hệ đã sử dụng Hình thức học vẹtnhằm cho phép chuyên gia cung cấp tri thức theo kiểu tương tác
2 Học bằng cách chỉ dẫn:
Thay vì đưa ra một luật cụ thể cần áp dụng vào tình huống cho trước, hệ thống sẽ đượccung cấp bằng các chỉ dẫn tổng quát Ví dụ: "gas hầu như bị thoát ra từ van thay vì thoát ra từống dẫn" Hệ thống phải tự mình đề ra cách biến đổi từ trừu tượng đến các luật khả dụng
5 Học dựa trên giải thích:
Hệ thống phân tích tập các lời giải ví dụ (và kết quả) nhằm ấn định khả năng đúnghoặc sai và tạo ra các giải thích dùng để hướng dẫn cách giải bài toán trong tương lai
6 Học dựa trên tình huống:
Bất kỳ tính huống nào được hệ thống lập luận đều được lưu trữ cùng với kết quả cho
dù đúng hay sai Khi gặp tình huống mới, hệ thống sẽ làm thích nghi hành vi đã lưu trữ vớitình huống mới
7 Khám phá hay học không giám sát:
Thay vì có mục tiêu tường minh, hệ khám phá liên tục tìm kiếm các mẫu và quan hệtrong dữ liệu nhập Các ví dụ về học không giám sát bao gồm gom cụm dữ liệu, học để nhậndạng các đặc tính cơ bản như cạnh từ các điểm ảnh
Ví dụ:
- Hệ MYCIN
- Mạng Neural nhân tạo: Mạng neuron sử dụng một hình thức học có sự hướng dẫn
- Thuật toán học Quinland
Trang 5- Máy chơi cờ carô, cờ tướng
Cây định danh là cây mà nếu ta đi từ nút gốc đến các lá ta sẽ có một quyết định haymột quy luật dựa vào các Thuộc tính trên đường đi từ gốc đến lá, như vậy mỗi đường đi từ nútgốc đến nút lá sẽ cho ra một quyết định hay một quy luật
Vì vậy người ta còn gọi cây định danh là cây quyết định
Bài toán học bằng phương pháp xây dựng cây định danh được phân tích và khai thácqua các bước sau đây, dựa vào bảng dữ liệu ở bảng số 1 ở phần đặt vấn đề
Người ta dựa vào ý tưởng tiếp cận hình học là phân chia không gian bài toán tạo thànhmột cây định danh sau đó xây dựng các phương pháp học dựa trên cây định danh đó Câyđịnh danh được xây dựng bằng cách tìm các quy luật của dữ liệu
Ta xét ngẫu nhiên qua từng thuộc tính rồi phân nhóm kết quả theo từng giá trị
của Thuộc tính
Trang 6Hình 2 Hình 1Cây định danh có độc hay không
Là thuật toán học theo quy nạp dùng luật, đa mục tiêu
- Do Quinlan đưa ra năm 1979
- Ý tưởng: Chọn Thuộc tính quan trọng nhất để tạo cây quyết định
- Thuộc tính quan trọng nhất là Thuộc tính phân loại Bảng quan sát thành các bảngcon sao cho từ mỗi bảng con này dễphân tích để tìm quy luật chung
1 Thuật toán:
Với mỗi Thuộc tính dẫn xuất A còn có thể sử dụng để phân hoạch thì ta tính:
Trang 7xây dựng các vector
VA(j) = (T(j, r1), T(j, r2), …, T(j, rn), )
Trong đó
- r1, r2, …, rn là các giá trị Thuộc tính mục tiêu
- Thuộc tính A là Thuộc tính dẫn xuất
- T(j,r1)=TAij/TAj
TAij: tổng số phần tử trong phân hoạch có Thuộc tính A là j và Thuộc tính mục tiêu là ri
TAj: tổng số phần tử trong phân hoạch có Thuộc tính A là j
Trang 8Thuộc tính Màu (3 giá trị):
VMàu(Nâu) = (T(Nâu/Độc),T(Nâu/Không độc)) = (0/3;3/3) = (0;1);
VMàu(Xanh) = (T(Xanh/Độc),T(Xanh/Không độc)) = (4/6;2/6) = (2/3;1/3);
VMàu(Đỏ) = (T(Đỏ/Độc),T(Đỏ/Không độc)) = (2/7;5/7);
Số vectơ đơn vị : 1
Thuộc tính Bên trong (2 giá trị):
VBên trong(Cứng) = (T(Cứng/Độc),T(Cứng/Không độc)) = (3/10;7/10);
VBên trong (Mềm) = (T(Mềm/Độc),T(Mềm/Không độc)) = (3/6;3/6) = (1/2;1/2);
Trang 9Hình 4 Hình 2Cây định danh thuộc tính Màu
♦ Bảng theo Thuộc tính màu xanh:
Thuộc tính Bên trong (2 giá trị):
VBên trong(Cứng) = (T(Cứng /Độc),T(Cứng /Không độc)) = (2/3;1/3);
VBên trong (Mềm) = (T(Mềm/Độc),T(Mềm/Không độc)) = (2/3;1/3)
Số vectơ đơn vị : 0
Thuộc tính Kích thước (2 giá trị):
VKích thước (Lớn) = (T(Lớn/Độc),T(Lớn/Không độc)) = (0/2;2/2) = (0;1);
Trang 10VKích thước (Nhỏ) = (T(Nhỏ/Độc),T(Nhỏ/Không độc)) = (4/4;0/4) = (1;0);
Số vectơ đơn vị : 2
Chọn Thuộc tính Kích thước làm Thuộc tính phân hoạch:
Hình 7 Hình 3Cây định danh thuộc tính Màu và Kích thước 1
Trang 11VBên trong(Cứng) = (T(Cứng/Độc),T(Cứng/Không độc)) = (1/2;1/2);
VBên trong (Mềm) = (T(Mềm/Độc),T(Mềm/Không độc)) = (1/5;4/5);
Chọn Thuộc tính Kích thước làm Thuộc tính phân hoạch:
Hình 9 Hình 4Cây định danh thuộc tính Màu và Kích thước 2
Trang 12Thuộc tính Bên trong (2 giá trị):
VBên trong(Cứng) = (T(Cứng/Độc),T(Cứng/Không độc)) = (1/2;1/2);
VBên trong (Mềm) = (T(Mềm/Độc),T(Mềm/Không độc)) = (1/1;0/1) = (1;0);
Số vectơ đơn vị : 1
Chọn Thuộc tính Vỏ làm Thuộc tính phân hoạch:
Hình 11 Hình 5Cây định danh thuộc tính Màu, Kích thước, Vỏ
Cây định danh kết quả:
Trang 13Hình 12 Hình 6Cây định danh đầy đủ
3 Phát sinh tập luật:
Kết quả học:
1. If (Màu = Nâu) then (Độc = Không)
2. If (Màu = Xanh) AND (Kích thước = Lớn) then (Độc = Không)
3. If (Màu = Xanh) AND (Kích thước = Nhỏ) then (Độc = Độc)
4. If (Màu = Đỏ) AND (Kích thước = Nhỏ) then (Độc = Không)
5. If (Màu = Đỏ) AND (Kích thước = Lớn) AND (Vỏ= Nhẵn) then (Độc = Độc)
6. If (Màu = Đỏ) AND (Kích thước = Lớn) AND (Vỏ= Có gai) then (Độc = Không)
Đối với một cơ sở dữ liệu thực thì không phải lúc nào cũng cho ra một tập đồng nhất Với
cơ sở dữ liệu này người ta cần đo độ bất định (lộn xộn) của dữ liệu, hay độ không đồng bộnhất trong các tập con được sinh ra
- Độ bất định Entropy của thuộc tính Y được tính theo công thức:
Trong đó:
nt là tổng số phần tử có trong phân hoạch
nb là tổng số phần tử có thuộc tính dẫn xuất Y có giá trị b
nbc : tổng số phần tử có thuộc tính dẫn xuất Y có giá trị b và Thuộc tính
Trang 14mục tiêu có giá trị c.
Dù công thức chưa cho thấy sự lộn xộn nhưng người ta dùng nó để đo độ
thông tin Để thấy được các khía cạnh quan tâm, giả sử có một tập gồm các phần tử
của 2 lớp A và B Nếu số phần tử của 2 lớp là cân bằng thì độ bất định là 1 và giá trị
cực đại về độ bất định được tính theo:
= Mặt khác nếu phần tử thuộc chỉ 1 trong A, B, độ bất định là 0
B2: Chọn Thuộc tính có độ bất định nhỏ nhất để phân hoạch Trừ khi hết
Thuộc tính phân hoạch thì dừng
2 Ví dụ.
Đây là bảng khảo sát về loại quả có Độc hay Không có độc
Hình 13 Bảng 6Bảng số liệu Cây có Độc hay không
Giải:
Trang 15- Thuộc tính Vỏ: (2 giá trị)
Tập Có gai: 2/8 bị Độc ; 6/8 Không bị độc
Tập Nhẵn: 4/8 bị Độc ; 4/8 Không bị độc
E (Vỏ) =
- Thuộc tính Màu: (3 giá trị)
Tập Màu nâu: 0/3 bị Độc ; 3/3 Không bị độc
Hình 14 Hình 7Cây định danh Màu theo độ bất định
Ta rút ra được luật :
- Nếu Màu của quả là Nâu thì sẽ Không bị độc
Từ sơ đồ trên ta có 2 bảng:
Trang 16Bảng 1:
Vậy ta chọn Thuộc tính Kích thước làm Thuộc tính phân hoạch
Hình 16 Hình 8Cây định danh Kích thước theo độ bất định
Từ cây trên ta rút ra được luật :
- Nếu Kích thước của quả là Lớn và quả có Màu Xanh thì sẽ Không bị độc
Bảng 2:
Trang 17Hình 18 Hình 9Cây định danh Kích thước theo độ bất định 2
Từ cây trên ta rút ra được luật :
- Nếu Kích thước là Nhỏ và quả có Màu Đỏ thì sẽ Không bị độc
Từ hình trên ta có bảng :
Bảng 3:
Trang 18- Nếu quả có Kích thước Lớn và Màu quả là Đỏ và quả có Vỏ Nhẵn thì sẽ bị Độc.
- Nếu quả có Kích thước Lớn và Màu quả là Đỏ và Vỏ là Có gai thì sẽ không bị độc
Cây định danh
Hình 20 Hình 10Cây định danh đầy đủ
Trang 19V THUẬT TOÁN ILA
Thuật giải ILA được dùng để xác định các luật phân loại cho tập hợp và các mẫu học.Thuật giải này được thực hiện cơ chế lặp, để tìm luật riêng đại diện cho tập mẫu cùng lớp Saukhi xác định được luật ILA bỏ các tập mẫu liên quan khỏi tập mẫu, đồng thời thêm luật mớinày vào tập luật
Kết quả có được là một danh sách có thứ tự các luật
- Tập luật R có giá trị khởi tạo là ∅
- Tất cả các dòng trong bảng ban đầu chưa được đánh dấu (kiểm tra)
2 Thuật giải ILA
- B1: Dựa vào Thuộc tính quyết định (có m giá trị), chia bảng thành m bảng con
- B2: Xét bảng con thứ (i):
Khởi tạo biến đếm kết hợp Thuộc tính j, j=1 (Thuộc tính)
- B3: Với mỗi bảng con đang xét, phân chia danh sách các Thuộc tính theo các tổhợp phân biệt, mỗi tổ hợp ứng với j Thuộc tính phân biệt
- B4: Với mỗi tổ hợp các Thuộc tính, đếm các giá trị Thuộc tính xuất hiện theo cùng
tổ hợp Thuộc tính trong các dòng chưa được đánh dấu của bảng con đang xét(đồng thời không xuất hiện với tổ hợp Thuộc tính này trên các bảng còn lại) Gọi
tổ hợp đầu tiên (trong bảng con) có số lần xuất hiện nhiều nhất là tổ hợp lớn nhất
- B5: Nếu tổ hợp lớn nhất bằng ∅, tăng j lên 1 và quay lại B3
- B6: Đánh dấu các dòng thoả tổ hợp lớn nhất của bảng con đang xét
- B7: Thêm luật mới vào tập luật R, với vế trái là tập các giá trị của Thuộc tính ứngvới tổ hợp lớn nhất (kết hợp các Thuộc tính bằng toán tử AND) và vế phải là giátrị Thuộc tính quyết định tương ứng
- B8: Nếu tất cả các dòng đều đã được đánh dấu thì ta thực hiện tương tự với cácbảng con còn lại (B2 -> B7) Ngược lại (nếu chưa đánh dấu hết các dòng) thì quaylại B4 Nếu tất cả các bảng con đã được đánh dấu hết thì ta kết thúc, kết quả thu
được là tập luật cần tìm.
3 Ưu điểm của thuật giải
- Dạng các luật sẽ phù hợp cho việc khảo sát dữ liệu, mô tả mỗi lớp một cách đơngiản để phân biệt với các lớp khác
Trang 20- Tập luật được sắp theo thứ tự, riêng biệt – cho phép quan tâm đến một luật tại thờiđiểm bất kỳ một cách dễ dàng.
4 Ví dụ minh họa
Bảng:
Hình 21 Bảng 10Bảng số liệu Cây có Độc hay không
Bảng có 4 thuộc tính dẫn xuất (Vỏ, Màu, Bên trong, Kích thước) và 1 thuộc tính dẫn xuất(độc)
B1: Chia bảng trên thành 2 bảng con (dựa vào thuộc tính quyết định là có độc hay không).
Trang 21Có 4 tổ hợp: {Vỏ}, {Màu}, {Bên trong}, {Kích thước}
{Vỏ,Kích thước}
{Màu,Bên trong}
{Màu,Kích thước}
{Bên trong, Kích thước}
- Tổ hợp lớn nhất: {Màu, Kích thước} = “Xanh, Nhỏ”
- Đánh đấu dòng có {Màu, Kích thước} = “Xanh, Nhỏ”
Trang 22P Có gai Xanh Cứng Nhỏ Có
Hình 25 Bảng 14Bảng Có độc sau khi đánh dấu "Xanh, Nhỏ"
- Quay lại kiểm tra, ta có:
{Vỏ,
Màu}
{Vỏ,Bên trong}
{Vỏ,Kích thước}
{Màu,Bên trong}
{Màu,KíchThước}
{BênTrong, Kích thước}
{Màu,Bên trong, Kích thước}
Nhẵn, Đỏ, Mềm (1) Nhẵn Đỏ, Lớn (2) Đỏ, Mềm, Lớn (1)
- Tổ hợp lớn nhất: {Vỏ, Màu, Kích thước} = “Nhẵn, Đỏ, Lớn”
- Đánh dấu dòng có {Vỏ, Màu, Kích thước} = “Nhẵn, Đỏ, Lớn”
Hình 26 Bảng 15Bảng Có độc sau khi đánh đấu "Xanh, Nhỏ" và "Nhẵn, Đỏ, Lớn"
Xét bảng con i=2
Trang 23- Có 4 tổ hợp: {Vỏ}, {Màu}, {Bên trong}, {Kích thước}
- Tổ hợp lớn nhất: {Màu} = “Nâu”
- Đánh dấu dòng có {Màu} = “Nâu”
Hình 28 Bảng 17Bảng Không độc sau khi đánh dấu "Nâu"
- Quay lại kiểm tra:
Màu} {Vỏ,Bên trong} {Vỏ,Kích thước} {Màu,Bên trong} {Màu,KíchThước} {BênTrong, Kích thước}
Đỏ, Nhỏ (4)
∅
- Tổ hợp lớn nhất: {Vỏ, Màu} = “Đỏ, Nhỏ”
- Đánh dấu dòng có {Vỏ, Màu} = “Đỏ, Nhỏ”
Trang 24Hình 29 Bảng 18Bảng Không độc sau khi đánh dấu "Nâu", "Đỏ, Nhỏ"
- Quay lại kiểm tra:
{Vỏ,
Màu}
{Vỏ,Bên trong}
{Vỏ,Kích thước}
{Màu,Bên trong}
{Màu,KíchThước}
{BênTrong, Kích thước}
- Tổ hợp lớn nhất :{Vỏ, Kích thước} = “Có Gai, Lớn”
- Đánh dấu dòng có {Vỏ, Kích thước} = “Có Gai, Lớn”
Hình 30 Bảng 19Bảng Không độc sau khi đánh dấu “Nâu”, “Đỏ, Nhỏ”, “Có gai, Lớn”
- R = R {Vỏ = Có gai AND Kích thước= Lớn THEN Độc = Không}.
- Đánh dấu hết dòng AND xét hết bảng con => kết thúc
5 Đánh giá giải thuật.
Số lượng các luật thu được xác định mức độ thành công của thuật giải Đây chính làmục đích chính của bài toán phân lớp thông qua một tập mẫu học
1) Tổng quan về mạng neuron nhân tạo :
Trái với mô hình học máy trên cơ sở tri thức, mô hình học máy nhờ mạng neuron nhân tạo đó
là mô hình học bằng cách mô phỏng lại cấu trúc và nguyên lý làm việc của hệ neuron sinh họccon người Hệ neuron sinh học con người được thừa nhận có khỏang 1010 hoặc 1012 tế bạoneuron gồm nhiều lớp đó là lớp vào, các lớp ẩn và lớp ra Lớp vào nối với các phần tử cảm
Trang 25biến như tai, mắt, miệng, mũi, da vân vân, lớp ra nối với các phần tử cơ bắp như chân, tay vânvân và các lớp ẩn chứa các đơn vị xử lý xử các thông tin nhận được từ lớp vào và gởi quyếtđịnh đến lớp ra để điều khiển các phần tử cơ bắp như chân và tay vân vân Mỗi neuron sinhhọc có nhiều ngõ vào và một ngõ ra và ngõ ra của neuron này được kết nối với ngõ vào củaneuron khác Tín hiệu truyền từ neuron này đến neuron khác là dưới dạng điện áp Nếu tínhiệu truyền giữa hai neuron là điện áp dương thì hai nuron được kết nối dưới dạng kích thích.Nếu tín hiệu truyền giữa hai neuronlà điện áp âm thì hai neuron được kết nối dưới dạng ứcchế Nếu tín hiệu truyền giữa hai neuron là điện áp zero thì hai neuron là không có sự kết nối.Lượng điện áp truyền giữa các neuron được gọi là cường độ kết nối Trên cơ sở của hệ neuronsinh học con người như được mô tả, một mạng neuron nhân tạo nhiều lớp được thiết lập nhưhình:
Hình 31 Hình 11Mạng neuron nhân tạo
Có ba thành phần cơ bản của các mạng neuron nhân tạo đó là mô hình kết nối, đơn vị
xử lý và luật học
+ Mô hình kết nối : Có hai mô hình kết nối đó là kết nối truyền thẳng và kết nối hồiquy Mô hình kết nối truyền thẳng được gọi là mạng truyền thẳng đó là cấu trúc mạng đượckết nối chuyển tiếp tín hiệu từ lớp vào thông qua lớp ẩn và đến lớp ra Mô hình kết nối hồiquy được gọi là mạng hồi quy đó là cấu trúc mạng được kết nối chuyển tiếp tín hiệu từ lớpvào thông qua lớp ẩn đến lớp ra và đồng thời hồi tiếp tín hiệu về đơn vị xử lý chính nó hoặccác đơnvị xử khác trong lớp hoặc ở lớp khác + Đơn vị xử lý : Một mạng neuron nhân tạo cónhiều lớp đó là lớp vào, các lớp ẩn và lớp ra Lớp vào chứa các neuron được xem như nơi