Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 15 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
15
Dung lượng
148,5 KB
Nội dung
CHƯƠNG II-CÁC KHÁI NIỆM VÀ VIỆC SẮP XẾP TỪ TỔNG QUÁT ĐẾN CỤ THỂ Vấn đề quy nạp các chức năng tổng quát từ những ví dụ cụ thể là trung tâm của việc học.Chương này nghiên cứu về các khái niệm: tìm ra định nghĩa của loại tổng quát từ một ví dụ điển hình của …….Việc học các khái niệm có thể được trình bày rõ ràng như là một vấn đề của việc tìm kiếm một giả thuyết phù hợp nhất cho các ví dụ luyện tập,thông qua khoảng trống đã được định nghĩa trước của những giả thuyết tiềm ẩn.Trong nhiều trường hợp việc nghiên cứu này có thể được tổ chức hiệu quả bằng việc tận dụng một cấu trúc xuất hiện ngẫu nhiên ở khoảng trống của giả thuyết-đó là việc sắp xếp từ tổng quát đến cụ thể các giả thuyết.Chương này trình bày một số thuật toán vá xem xét các tình huống mà chúng có thể đồng quy về một giả thuyết chính xác.Chúng tôi cũng nghiên cứu bản chất việc học quy nạp và lý lẽ hợp lý mà bất cứ chương trình nào cũng có thể khái quát hóa dựa vào lý lẽ này,ngoài những dữ liệu được quan sát. 2.1-GIỚI THIỆU Đa số việc học bao gồm việc tìm ra những khái niệm tổng quát từ những ví dụ luyện tập cụ thể.Ví dụ như con người dần biết được các khái niệm hay loại chung nào đó,như “chim”,”xe”,”những trường hợp mà tôi nên học nhiều hơn để vượt qua kì thi”….Mỗi một khái niệm như vậy có thể được nhìn dưới góc độ như là việc miêu tả một tập hợp con của các vật hay sự kiện nào đó được định nghĩa qua một tập hợp lơn hơn (Ví dụ như tập hợp con của động vật cấu thành loài chim).Mỗi khái niệm có thể được nghĩ đến như một hàm số hệ thống ghi đại số Boolean được định nghĩa thông qua tập hợp lớn này (ví dụ một hàm số được định nghĩa dựa vào các con vật,tất cả những giá trị là đúng đối với chim và sai đối với các động vật khác.) Trong chương này chúng tôi cũng nghiên cứu vấn đề suy luận một cách tự động định nghĩa chung của một khái niệm nào đó,những ví dụ cụ thể xem như là thành viên hay không phải thành viên của khái niệm đó.Bài tập này nói chung như là việc học các khái niệm ,hay là giống như một hàm số dùng các giá trị ghi đại số của Boolean từ các ví dụ . 2.2-Bài tập tìm các khái niệm Để đặt nền tảng cho việc thảo luận về việc học các khái niệm,chúng ta hãy nghiên cứu bài tập mẫu về tìm ra khái niệm “những ngày mà bạn tôi Aldo chơi môn thể thao dưới nước yêu thích”.Bảng 2.1 miêu tả một tập hợp các ngày ,mỗi ngày tượng trưng cho một tập hợp các đặc tính.Đặc tính Môn thể thao yêu thích cho thấy Aldo có chơi môn thể thao dưới nước yêu thích của mình vào ngày này hay không.Bài tập này nhằm mục đích học cách đoán trước giá trị Môn thể thao yêu thích cho một ngày tùy ý ,dựa vào các giá trị các đặc tính của nó. Chúng tôi sẽ trình bày giả thuyết nào trong trường hợp này?Chúng ta hãy bắt đầu bằng việc xem xét sự trình bày đơn giản mà mỗi một giả thuyết bao gồm sự kết hợp các sự yêu cầu lên các đặc tính trong ví dụ này.Cụ thể,hãy xem mỗi giả thuyết là một vector của 6 sự yêu cầu,làm rõ 6 giái trị của 6 đặc tính Trời,Nhiệt độ không khí,độ ẩm,gió,nước và Dự báo.Với mỗi đặc tính,giả thuyết có thể hoặc là: *chỉ ra bằng một dấu hỏi ? rằng bất kì giá trị nào đều được chấp nhận cho đặc tính này *hoặc là nói rõ một giá trị đòi hỏi cụ thể (ví dụ ấm áp) cho đặc tính này *hoặc là chỉ ra bằng một dấu (phi) rằng không có giá trị nào được chấp nhận cho đặc tính này. Nếu một trường hợp x nào đó thỏa mãn tất cả những yêu cầu của giả thuyết h,thì h phân loại x là một ví dụ tuyệt đối…Để minh họa,giả thuyết mà Aldo chơi môn thể thao dưới nước yêu thích của mình chỉ vào những ngày lạnh với độ ẩm cao(không phụ thuộc vào các giá trị của các đặc tính khác ),được trình bày bằng biểu thức (?,cold,high.?,?,?) Giả thuyết chung nhất là –mỗi ngày là một ví dụ dương-được biểu thị bởi (?,?,?,?,?,?) Và giả thuyết cụ thể nhất có thể là –rằng không ngày nào là một ví dụ dương—được biểu thị bởi (phi,…) Tóm lại,bài tập tìm khái niệm Môn thể thao yêu thích đòi hỏi xem xét tập hợp những ngày mà Môn thể thao yêu thích là Có,miêu tả tập hợp này bằng sự liên kết các sự đè nén đối với các đặc tính của ví dụ này.Nói một cách tổng quát,bất kì bài tập tìm khái niệm nào cũng có thể được miêu tả bằng tập hợp các ví dụ hàm số đích được xác định,bằng hàm số đích ,bằng tập hợp các giả thuyết có thể xảy ra được xem xét bởi người học và bằng tập hợp các ví dụ luyện tập sẵn có.Định nghĩa của bài tập tìm khái niệm Môn thể thao yêu thích trong phần giới thiệu chung này được đưa ra trong Bảng 2.2. 2.2.1.PHƯƠNG PHÁP KÍ HIỆU Qua cuốn sách này,chúng tôi dùng thuật ngữ chuyên môn khi thảo luận các vấn đề về tìm khái niệm.Tập hợp các thuật ngữ mà qua đó khái niệm được định nghĩa được gọi là tập hợp các ví dụ,mà chúng tôi đánh dấu là X.Trong ví dụ trên,X là tập hợp tất cả các ngày có thể,mỗi ngày được biểu thị bởi các đặc tính Trời,Nhiệt độ,Độ ẩm,Gió,Nước và Dự báo.Định nghĩa hay hàm số rút ra được gọi khái niệm đích,kí hiệu là c.Nói khái quát,có thể là bất kì hàm số dùng các giá trị ghi đại số Boolean được định nghĩa qua tập hợp X.;đó là,X→{0,1}.Trong ví dụ trên,khái niệm đích tương ứng với giá trị củaMôn thể thao yêu thích là ( c(x)=1 nếu ……… ) *Đã cho: *Các ví dụ X:các ngày có thể,mỗi ngày được biểu thị bằng một đặc tính -Trời(với các giá trị có thể là nắng,có mây hoặc mưa) -Nhiệt độ……. *Các giả thuyết H:mỗi giả thuyết …………………. *Tìm ra: -Một giả thuyết h trong H thỏa mãn h(x)=c(x) với mọi x trong X. Khi nghiên cứu khái niệm đích,người học được cung cấp một tập hợp các ví dụ luyện tập,mỗi tập hopwj bao gồm một tham số x trong tập hơp X,cùng với khái niệm đích c(x).Các tham số thỏa mãn c(x)=1 được gọi là ví dụ dương,còn gọi là thành viên của khái niệm đích.Chúng tôi sẽ luôn viết cặp (x,c(x)) để biểu thị ví dụ luyện tập bao gồm tham số x và khái niệm đích giá trị c(x).CHúng tôi sẽ dùng kí hiệu D để kí hiệu tập hợp các ví dụ luyện tập sẵn có. Được cung cấp một tập hợp các ví dụ luyện tập của khái niệm đích c,vấn đề phải giải quyết của người học là đưa ra giả thuyết,hay là ước lượng giả thuyết c.Chúng tôi dùng kí hiệu H để kí hiệu tập hợp tất cả các giả thuyết có thể xảy ra mà người học có thể xem xét liên quan đến sự giống nhau với khái niệm đích.Nói khái quát,mỗi giả thuyết h trong H biểu thị một hàm số Boolean được xác định theo X;đó là,h: X→{0,1}.Mục đích của người học là tìm ra giả thuyết h thỏa mãn h(x)=c(x) với mọi x trong X. 2.2.2-GIẢ THUYẾT HỌC THEO PHƯƠNG PHÁP QUI NẠP. Chú ý rằng mặc dù nhiệm vụ của người học là xác định một giả thuyết h giống với khái niệm đích c dựa vào tập hợp tham số X,thì thông tin duy nhất sẵn có đối với c là giá trị của nó dựa vào các ví dụ luyện tập.Do đó,việc học các thuật toán quy nạp phải đảm bảo rằng giả thuyết đưa ra phải phù hợp với khái niệm đích dựa vào các dữ liệu luyện tập.Thiếu bất kì thông tin nào,thì giả thuyết đúng đắn nhất liên quan đến các tham số không nhìn thấy là giả thuyết phù hợp nhất với các dữ liệu luyện tập được thấy.Đây là sự đạt được quan trọng nhất của việc học theo cách quy nạp,và chúng ta sẽ có nhiều điều để trao đổi về việc này suốt cuốn sách.Chúng tôi trình bày khái quát vấn đề này và sẽ phân tích cụ thể hơn trong chương 5,6 và 7. Giả thuyết học theo cách quy nạp:Bất kì một giả thuyết nào được tìm thấy là giống với hàm số đích dựa vào tập hợp đủ lớn các ví dụ luyện tập thì cúng sẽ giống với hàm số đích dựa vào các ví dụ không được nhìn thấy. 2.3-VIỆC HỌC KHÁI NIỆM NHƯ VIỆC NGHIÊN CỨU Việc học khái niệm có thể được xem như bài thực hành nghiên cứu thông qua một lượng lớn các giả thuyết được định nghĩa một cách tuyệt đối bởi sự trình bày các giả thuyết.Mục đích của việc nghiên cứu này là tìm ra giả thuyết phù hợp nhất với các ví dụ luyện tập.Rất quan trọng để chỉ ra rằng bằng việc lựa chọn một sự trình bày giả thuyết,việc thiết kế các thuật ngữ định nghĩa một cách tuyệt đối khoảng trống của tất cả các giả thuyết rằng mà chương trình có thể trình bày và chính vì thế có thể học được.Ví dụ ta có thể xem xét các tham số X và các giả thuyết H trong bài tập Môn thể thao yêu thích.Đặt trường hợp rằng đặc tính Trời có 3 giá trị có thể ,và Nhiệt độ,độ ẩm,gió,nước và dự báo có 2 giá trị có thể,trường hợp khoảng trống X chứa chính xác 3.2.2.2.2.2=96 trường hợp phân biệt.Phép tính tương tự cho thấy rằng có 5.4.4.4.4=5120 giả thuyết phân biệt theo cú pháp trong taajpp hợp H.Tuy nhiên chúng ta phải chú ý là,mỗi giả thuyết chứa một hay nhiều hơn một biểu tượng”phi” biểu thị cho một tập hợp rỗng các trường hợp;có nghĩa la nó phân loại mỗi trường hợp là âm.Do đó,con số các giả thuyết phân biệt về ngữ nghĩa thì chỉ có 1+(4.3.3.3.3.3)=973.Ví dụ Môn thể thao yêu thích của chúng ta là một bài tập rất đơn giản,với một khoảng trống giả thuyết tương đối có giới hạn và nhỏ hẹp.Hầu hết các bài tập thực tiễn bao gồm những khoảng trống giả thuyết lớn hơn,đôi khi không có giới hạn. Nếu chúng ta xem việc học như là việc nghiên cứu thì thật là bình thường rằng việc nghiên cứu các thuật toán sẽ xem xét các tiêu chí khác nhau của việc nghiên cứu khoảng trống giả thuyết.Chúng ta sẽ chỉ quan tâm tới các thuật toán có khả năng đủ để nghiên cứu các khoảng trống giả thuyết rộng lơn hoặc không giới hạn,để tìm ra các giả thuyết phú hợp với các dư liệu luyên tập nhât. 2.3.1-VIỆC SẮP XẾP TỪ TỔNG QUÁT ĐẾN CỤ THỂ CÁC GIẢ THUYẾT Nhiều thuật ngữ trong việc học khái niệm tổ chức sắp xếp việc nghiên cứu thông qua khoảng trống giả thuyết bằng cách dựa vào một cấu trúc rất hữu ích tồn tại đối với bất kì vấn đề học khái niệm nào: một sự sắp xếp từ tổng quát đến cụ thể các giả thuyết.Bằng cách tận dụng cấu trúc diễn ra tự nhiên qua khoảng trống giả thuyết,chúng ta có thể thiết lập nên các thuật ngữ nghiên cứu những khoảng trống giả thuyết mà không cần liệt kê chính xác từng giả thuyết.Để minh họa việc sắp xếp từ tổng quát đến cụ thể,hãy xem xét 2 giả thuyết sau: ……………… Bây giờ hãy xem tập hợp những tham số dương qua h1 và h2.Bởi vì h2 có ít điều kiện về tham số hơn nên sẽ có nhiều hơn các tham số dương.Trên thực tế,bất kì tham số nào được xem là dương bởi h1 cũng là tham số dương với h2.Do đó,chúng ta coi h2 mang tính tổng quát hơn h1. Mơi quan hệ tổng quát hơn tự nhiên giữa các giả thuyết nà có thể được định nghĩa chính xác như sau.Đầu tiên,đối với tham số x bất kì trong tập hợp X và giả thuyết h trong H,chúng ta nói rằng x thỏa mãn h khi và chỉ khi h(x)=1.Bây giờ chúng ta định nghĩa mối quan hệ tổng-quát-hơn-hoặc bằng-nhau thông qua những tập hợp các tham số thỏa mãn 2 giả thuyết sau:Giả thuyết đưa ra hj và hk,hj là tổng-quát-hơn-hoặc bằng hk khi và chỉ khi có bất kì tham số nào thỏa mãn đồng thời 2 giả thuyết hj và hk. *Định nghĩa:Cho hj và hk là các hàm số Boolean xác định theo X.Thì hj sẽ tổng-quát-hơn-hoặc bằng hk (viết là…)khi và chỉ khi …… Chúng ta cũng sẽ thấy hữu ích khi xem xét các trường hợp trong đó một giả thuyết tuyệt đối tổng quát hơn giả thuyết khác.Do đó,chúng ta có thể nói rằng hj là tuyệt đối tổng-quát-hơn-hoặc bằng- hk(viết là….) khi và chỉ khi …… Cuối cùng,đôi khi chúng ta có thể thấy trường hợp ngược lại hữu ích và nói rằng hj cụ- thể-hơn hk khi hk tổng-quát-hơn hj. Để minh họa những định nghĩa này,hãy xem 3 giả thuyết h1,h2 và h3 trên ví dụ Môn thể thao yêu thích,trong bảng Figure 2.1.Những giả thuyết này liên hệ với nhau như thế nào qua mối liên hệ với >=g? Như đã ghi chú từ trước,giả thuyết h2 tổng quát hơn h1 bởi vì mỗi tham số thỏa mãn h1 cũng thỏa mãn h2.Tương tự,h2 tổng quát hơn h3.Chú ý rằng h1 va h3 không giả thuyết nào tổng quát hơn giả thuyết nào ;mặc dù các tham số thỏa mãn 2 giả thuyết này trùng nhau,nhưng không tập hợp nào bao hàm tập hợp nào.Để ý rằng mối quan hệ >=g và >g được định nghĩa độc lập với khái niệm đích.Một cách chính thức,mối quan hệ >=g định nghĩa sự sắp xếp từng phần qua khoảng trống giả thuyết H (mối quan hệ là phản thân,không cân xứng và đòi hỏi qua lại).Thông thường,khi chúng ta nói một cấu trúc là sự sắp xếp từng phần,có nghĩa là có thể có các cặp giả thuyết như h1 và h3,mà……. Mối quan hệ >=g quan trọng bởi vì nó đưa ra cho chúng ta một cấu trúc hữu ích thông qua khoảng trống giả thuyết H đới với bất kì vấn đề học về khái niệm nào.Phần sau trình bày những thuật ngữ trong việc học khái niệm mà chúng dựa vào sự sắp xếp từng phần để tổ chức một cách hiệu quả việc nghiên cứu các giả thuyết phù hợp với dữ liệu luyện tập. 2.4-TÌM MỘT GIẢ THUYẾT CỤ THỂ NHẤT Chúng ta có thể sử dụng sự săp xếp từng phần tổng-quát-hơn như thết nào để tổ chức tìm ra một giả thuyết thích hợp với những ví dụ luyện tập đã được đưa ra?Có một cách đó là bắt đầu từ giả thuyết có thể cụ thể nhất trong tập hợp H,sau đó khái quát hóa giả thuyết này mỗi lần nó không phù hợp với một ví dụ luyện tập dương.(Chúng ta nói rằng một giả thuyết phù hợp một ví dụ dương khi nó chính xác phân loại ví dụ đó là dương).Để chắc chắn hơn về về việc sử dụng việc sắp xếp từng phần như thế nào,hãy xem xét thuật toán FIND-S được định nghĩa ở Bảng 2.3. Để minh họa thuật toán này,người học được cung cấp một chuỗi ví dụ luyện tập từ Bảng 2.1 với bài tập Môn thể thao yêu thích.Bước đầu tiên của FIND-S là kí hiệu h đối với giả thuyết cụ thể nhất trong H h←(phi,… ) Khi xem xét ví dụ luyện tập đầu tiên trong Bảng 2.1,ví dụ mà dường như là một ví dụ dương,thì rõ ràng giả thuyết của ta là quá cụ thể.Cụ thể là,không có một điều kiện “phi” nào trong h thỏa mãn bởi ví dụ này,chính vì vậy mỗi điều kiện được thay bằng điều kiện tiếp theo mà nó phù hợp với ví dụ này;tức là,giá trị đặc tính cho ví dụ luyện tập này. h←(nắng,ấm,bình thường,mạnh,ấm,không thay đổi) Giả thuyết h này vẫn rất cụ thể;nó xác nhận rằng tất cả các tham số đều âm ngoại trừ ví dụ luyện tập dương duy nhất mà chúng ta đã thấy.Kế đến,ví dụ luyện tập thứ 2(cũng dương trong trường hợp này)buộc thuật toán phải khái quát hơn nữa giả thuyết h,lần này sẽ thay thế một dấu “?” ở chỗ bất kì các giá trị đặc tính nào trong h mà không thỏa mãn bởi một ví dụ mới.Giả thuyết đã sàng lọc trong trường hợp này là h←(nắng,ấm,? ,mạnh,ấm,không thay đổi) Khi gặp ví dụ luyện tập thứ 3-trong trường hợp này là một ví dụ âm-thì thuật toán cũng đúng với h.Thực tế,thuật toán FIND-S đơn giản bỏ qua mỗi ví dụ âm!Tuy lúc đầu điều này hơi lạ,nhưng hãy chú ý rằng trong trường hợp đang xét giả thuyết h đã phù hợp với giá trị âm mới(đó là,giả thuyết h đã phân loại chính xác ví dụ này là âm).và vì thế không cần phải kiểm tra lại.Trong trường hợp tổng quát,miễn là chúng ta chắc chắn là khoảng trống giả thuyết H chứa một giả thuyết miêu tả khái niệm đích c và dữ liệu luyện tập không có sai sót nào,thì giả thuyết hiện tại h không cần phải kiểm tra lại một ví dụ âm nào.Để tìm hiểu tại sao,hãy nhớ lại là giả thuyết hiện tại h là giả thuyết cụ thể nhất trong tập hợp H phù hợp với các ví dụ dương đã được đưa ra.Bởi vì khái niệm đích c cũng chắc chắn thuộc H và phù hợp với ví dụ luyện tập dương,cho nên c chắc chắn tổng-quát-hơn-hoặc-bằng h.Nhưng khái niệm đích c sẽ không bao giờ chứa một ví dụ âm,nên giả thuyết h cũng vậy.Do đó,giả thuyết h không cần phải kiểm tra lại bất kì một giá trị âm nào. Để hoàn thành việc tìm FIND-S,ví dụ (dương)thứ 4 dẫn đến việc khái quát hóa h. là h←(nắng,ấm,? ,mạnh,?,?) Thuật toán FIND-S minh họa một phương pháp mà trong đó việc sắp xếp từng phần tổng-quát-hơn có thể được sử dụng để tìm một giả thuyết hợp lí nhất.Việc tìm kiếm chuyển từ giả thuyết này đến giả thuyết khác,tìm kiếm từ giả thuyết cụ thể nhất và dần dần đến các giả thuyết tổng quát hơn theo chuỗi săp xếp từng phần.Hình FIGURE 2.2 minh họa việc tìm kiếm này theo tham số và các khoảng trống giả thuyết.Ở mỗi bước,giả thuyết được khái quát hóa chỉ khi có một ví dụ dương mới.Do đó,mỗi giai đoạn giả thuyết đó là giả thuyết cụ thể nhất phù hợp với các ví dụ luyện tập được đưa ra(do đó có tên FIND-S).Tài liệu về việc học khái niệm rất phổ biến bởi nhiều thuật toán khác nhau mà nó sử dụng cùng một cách sắp xếp từng phần tổng-quát-hơn để tìm loại mới hơn này hay khác.Rất nhiều dạng thuật toán như vậy được thảo luận trong chương này và một vài thuật toán khác được trình bày trong chương 10. Đặc tính cơ bản của thuật toán FIND-s là đối với các khoảng trống giả thuyêt được miêu tả bởi sự liên kết các điều kiện (ví dụ như H trong bài tập môn thể thao yêu thích),thuật toán FIND-s đảm bảo đưa ra giả thuyết cụ thể nhất thuộc H phù hợp với các ví dụ luyện tập dương.Giả thuyết cuối cùng cũng sẽ phù hợp với các ví dụ âm,miễn là khái niệm đích chính xác được chứa đựng trong H,và với điều kiện là các ví dụ luyện tập là đúng.Tuy nhiên,vẫn còn một số câu hỏi chưa có câu trả lời qua thuật toán này,ví dụ như là: *Liệu người học đã đi đến được khái niệm đích chính xác chưa?Dù FIND-s sẽ tìm ra một giả thuyết phù hợp với dữ liệu luyện tập nhưng nó không có cách nào khẳng định là nó đã tìm thấy một giả thuyết duy nhất trong H thỏa mãn dữ liệu(cụ thể đó là khái niệm đích chính xác)hay không,hay là liệu còn có nhiều giả thuyeert cũng phù hợp khác.Chúng ta cần có một thuật toán chắc chắn là nó đã tìm chính xác;và nếu không,ít nhất là phải khẳng định tính không chính xác của nó. *Tại sao lại cần một giả thuyết cụ thể nhất?trong trường hợp có nhiều giả thuyết phù hợp với các ví dụ luyện tập ,thuật toán FIND-s sẽ tìm ra giả thuyết sụ thể nhất.Điều này không rõ ràng là liệu chúng ta có cần giả thuyết cụ thể nhất này hơn các giả thuyết tổng quát nhất hay không *Liệu những ví dụ luyện tập có phù hợp?Trong hầu hết vấn đề học thực tiễn,có một vài trường hợp các ví dụ luyện tập sẽ chứa đựng ít nhất vài lỗi sai hoặc gây nhiễu.Những tập hợp như vậy sẽ làm thuật toán FIND-S lẫn lộn.trong điều kiện nó bỏ qua các ví dụ âm.Chúng ta cần một thuật toán mà ít nhất có thể tìm ra những ví dụ không phù hợp như vậy hoặc có thể sửa những lỗi như thế. *Điều gì sẽ xảy ra nếu có một vài giả thuyết cụ thể phù hợp nhất?Trong ngôn ngữ giả thuyết H đối với bài tập Môn thê thao yêu thích,lúc nào cũng có một giả thuyết cụ thể nhất và duy nhất thỏa mãn bất kì ví dụ dương nào.Tuy nhiên,đối với các khoảng trống giả thuyết khác(sẽ thảo luận sau),có thể có vài giả thuyết cụ thể nhất phù hợp với các dữ liệu.Trong trường hợp này,FIND-S sẽ mở rộng lựa chọn lại cách khái quát hóa giả thuyết,để đảm bảo khả năng là khái niệm đích nằm ở một nhánh khác của sự sắp xếp từng phần chứ không phải trên nhánh mà nó đã chọn.Hơn nữa,chúng ta có thể định nghĩa các khoảng trống khái niệm mà không có giả thuyết cụ thể nào phù hợp,mặc dù đây là một vấn đề về lý thuyết hơn là về thực hành. 2.5-CÁC KHOẢNG TRỐNG PHIÊN BẢN VÀ THUẬT TOÁN LOAI-TRỪ-CÁC-ỨNG-VIÊN Phần này miêu tả một cách tiếp cận thứ 2 việc học khái niệm,đó là thuật toán loại trừ các ứng viên,mà nó có thể cải thiện những hạn chế của FIND-s.Ta chú ý rằng mặc dù sản phẩm của FIND-S là một giả thuyêt thuộc H,mà nó phù hợp với các ví dụ luyện tập,nhưng đây chỉ là một trong những giả thuyết trong H mà cũng có thể phù hợp với các dữ liệu.Ý chính trong thuật toán loại bỏ các ứng viên là đưa ra sự miêu tả tập hợp tất cả các giả thuyết phù hợp với các ví dụ luyện tập.Lạ thay,thuật toán loại bỏ các u ứng viên này tính toán sự miêu tả tập hợp này mà không liệt kê chính xác các thành viên.Thuật toán làm được điều này bằng cách một lần nữa sử dụng cách sắp xếp từng phần tổng quát hơn,lần này duy trì một sự trình bày chặt chẽ tập hợp các giả thuyết phù hợp và định nghĩa phát triển sự trình bày này khi gặp một ví dụ luyện tập mới. Thuật toán loại trừ các ứng viên được áp dụng để giải quyết các vấn đề như việc học các quy tắc trong quang phổ nghiệm khối trong hóa học và việc học các quy tắc kiểm soát việc nghiên cứu dựa vào kinh nghiệm để tìm hiểu.Tuy nhiên,việc áp dụng thực tiễn của thuật toán loại trừ các ứng viên và thuật toán FIND-S bị giới hạn bởi thực tế chúng đều thực thi kém khi đưa vào những dữ liệu gây nhiễu.Với mục địch của chúng ta, thuật toán loại trừ các ứng viên cung cấp một khung thuộc về khái niệm đối với việc giới thiệu các vấn đề cơ bản trong việc nghiên cứu máy móc.Phần còn lại của chương này chúng tôi sẽ trình bày thuật toán và thảo luận các vấn đề này.Bắt đầu chương tiếp theo,chúng tôi sẽ xem xét nghiên cứu các thuật toán được sử dụng thường xuyên hơn với các dữ liệu gây nhiễu. 2.5.1 GIỚI THIỆU Thuật toán loại trừ các ứng viên tìm được tất cả các giả thuyết có thể miêu tả được phù hợp với những ví dụ luyện tập đã cho.Để định nghĩa một cách chính xác thuật toán này,chúng ta hãy bắt đầu với một vài định nghĩa cơ bản.Đầu tiên,chúng ta nói rằng một giả thuyết là phù hợp với những ví dụ luyện tập nếu nó phân loại chính xác những ví dụ này *Định nghĩa:Một giả thuyết h là phù hợp với một tập hợp các ví dụ luyện tập D khi và chỉ khi h(x)=c(x) với mỗi ví dụ (x,c(x)) thuộc D. Hãy chú ý sự khác nhau cơ bản giữa định nghĩa consistent(phù hợp) và định nghĩa trước đó thỏa mãn (satisfies).Một ví dụ x được cho là thỏa mãn giả thuyết h khi h(x)=1,cho dù x là ví dụ dương hay âm của khái niệm đích.Tuy nhiên,một ví dụ như vậy là thỏa mãn hay không phụ thuộc vào khái niệm đích,cụ thể là h(x)=c(x). Thuật toán loại trừ các ứng viên trình bày tập hợp tất cả các giả thuyết phù hợp với các ví dụ luyện tập đã cho.Tập hợp con của tất cả các giả thuyết này được gọi là khoảng trống phiên bản liên quan đến khoảng trống giả thuyết H và ví dụ luyện tập D,bởi vì nó chứa tất cả các phiên bản có thể đúng của khái niệm đích. *Định nghĩa: Khoảng trống phiên bản,kí hiệu VS H.D ,xét đến khoảng trống giả thuyết H và các ví dụ luyện tập D ,là tập hợp con của các giả thuyết từ H phù hợp với các ví dụ luyện tập thuộc D. ………… 2.5.2-THUẬT TOÁN LIỆT-KÊ-RỒI-LOẠI-BỎ Một cách rõ ràng để trình bày khoảng trống phiên bản là đơn giản liệt kê tất cả các thành tố của nó.Điều này dẫn đến một thuật toán nghiên cứu giản đơn,mà chúng ta có thể gọi đó là thuật toán liệt-kê-rồi-loại- bỏ. Thuật toán liệt-kê-rồi-loại-bỏ lúc đầu kí hiệu khoảng trống phiên bản chứa đựng tất cả các giả thuyết thuộc H,sau đó loại bỏ bất kỳ giả thuyết nào thấy không phù hợp với bất kỳ ví dụ luyện tập nào.Khoảng trống phiên bản của các giả thuyết ứng viên vì thế thu hẹp lại vì nhiều ví dụ được xem xét hơn,cho đến khi một giả thuyết lý tưởng duy nhất còn lại phù hợp với tất cả các ví dụ đã cho.Giả thuyết này có thể đúng là giả thuyết cần tìm.Nếu không đủ dữ liệu cần thiết để thu hẹp khoảng trống phiên bản thành một giả thuyết duy nhất,thì thuật toán có thể đưa ra một tập hợp các giả thuyết phù hợp với dữ liệu đã cho. Về căn bản, thuật toán liệt-kê-rồi-loại-bỏ có thể được áp dụng bất cứ trường hợp nào nếu khoảng trống giả thuyết H là giới hạn.Thuật toán này có nhiều tiện ích,bao gồm thực tế là nó đảm bảo đưa ra tất cả những giả thuyết phù hợp với các dữ liệu luyện tập.Nhưng không may thay,nó đòi hỏi việc liệt kê tất cả các giả thuyết thuộc H-một đòi hỏi không thực tế đối với tất cả các giả thuyết trừ các khoảng trống giả thuyết lặt vặt nhất. 2.5.3-TRÌNH BÀY CHI TIẾT VỀ CÁC KHOẢNG TRỐNG PHIÊN BẢN Thuật toán loại trừ các ứng viên làm việc dựa vào cùng một quy tắc như Thuật toán liệt-kê-rồi-loại-bỏ.Tuy nhiên, Thuật toán loại trừ các ứng viên sử dụng sự trình bày chi tiết của khoảng trống phiên bản hơn nhiều.Nói một cách cụ thể là,khoảng trống phiên bản được trình bày dựa cào các thành tố khái quát nhất và các thành tố ít khái quát nhất.Các thành tố tạo nên những tập hợp giới hạn giữa khái quát và cụ thể mà chúng xác định biên giới khoảng trống phiên bản trong vòng khoảng trống giả thuyết được sắp xếp từng phần. …. Để minh họa sự trình bày những khoảng trống phiên bản này,hãy xem lại vấn đề nghiên cứu khái niệm môn thể thao yêu thích trình bày trong Bảng 2.2.Nhớ rằng được đưa ra 4 ví dụ luyện tập từ bảng 2.1,FIND-S đã đưa ra giả thuyết : h=(nắng,ấm,?,mạnh,?,?) Thực tế,đây chỉ là một trong 6 giả thuyết khác nhau từ H mà chúng phù hợp với những ví dụ luyện tập này.Tất cả 6 giả thuyết này được trình bày trong bảng 2.3.Chúng cấu thành một khoảng trống phiên bản tương tự với tập hợp dữ liệu này và sự trình bày giả thuyết này .Các mũi tên giữa 6 giả thuyết trong bảng 2.3 cho thấy các tham số trong mối quan hệ tổng-quát-hơn. Thuật toán loại trừ các ứng viên trình bày một khoảng trống phiên bản bằng cách lưu trữ chỉ những thành tố khái quát nhất (kí hiệu G) và những thành tố cụ thể nhất(kí hiệu S).Chỉ đưa ra hai tập hợp này đã có thể liệt kê tất cả các thành tố của khoảng trống phiên bản cần thiết bằng cách đưa ra các giả thuyết ẩn trong hai tập hợp này qua việc sắp xếp từng phần từ tổng quát đến cụ thể. Điều này hiển nhiên có thể đúng rằng chúng ta có thể trình bày khoảng trống phiên bản dựa vào các thành tố khái quát nhất và cụ thế nhất.Bên dưới chúng tôi định nghĩa các tập hợp giới hạn G và S chính xác và chứng minh rằng những tập hợp này thật sự tượng trưng cho khoảng trống phiên bản. *Định nghĩa:Giới hạn khái quát G,xét đến khoảng trống giả thuyết H và dữ liệu luyện tập D,là một tập hợp các thành tố khái quát nhất của H phù hợp với D. *Định nghĩa:Giới hạn cụ thể S,xét đến khoảng trống H và dữ liệu luyện tập D,là tập hợp các thành tố ít khái quát nhất(hay cụ thể nhất) của H phù hợp với D. Miễn là các tập hợp G và S được xác định rõ ràng,thì chúng hoàn toàn làm rõ khoảng trống phiên bản.Cụ thể,chúng ta có thể chỉ ra rằng khoảng trống phiên bản chính xác là các tập hợp những giả thuyết bao gồm G,cộng với những giả thuyết bao gồm S,cùng với những giả thuyết ẩn giữa G và S trong khoảng trống giả thuyết được sắp xếp từng phần.Điều này được nói rõ trong Định lý 2.1 *Định lý 2.1:Định lý trình bày khoảng trống phiên bản.Cho X là tập hợp những đặc tính của tham số và H là tập hợp các giả thuyết theo Boolean được xác định theo X.Cho c:X→{0,1} là một khái niệm đích tự do xác định theo X,và D là tập hợp những ví dụ luyện tập {x,c(x)}.Với tất cả X,H,c và D sao cho S và G được xác định rõ thì ………… *Chứng minh.Để chứng minh định lý nó phải cho thấy được rằng(1) mỗi giả thuyết h thỏa mãn vế phải của biểu thức thuộc V S HD và (2) mỗi thành tố của VSHD thỏa mãn vế phải của của biểu thức.Để chứng minh (1) cho g là một thành tố tự do của G và s là một thành tố tự do của S, và h là một thành tố tự do của H,sao cho ……Vậy thì theo định nghĩa của S,s phải được thỏa mãn bởi tất cả các ví dụ dương thuộc D.Bởi vì… ,h cũng phải được thỏa mãn bởi tất cả các ví dụ dương thuộc D.Tương tự,theo định nghĩa của G,g không thể được thỏa mãn bởi bất kì ví dụ âm nào thuộc D và bởi vì ……,h không thể được thỏa mãn bởi bất kì ví dụ âm nào thuộc D.Bởi vì h được thỏa mãn tất cả các ví dụ dương thuộc D và không bởi bất kì ví dụ âm nào thuộc D,nên h phù hợp với D,và do đó h là một thành tố của V SHD.Điều này chứng minh bước 1.Việc chứng minh (2) hơi phức tạp hơn một chút.Có thể chứng minh bằng cách giả sử một giả thuyết h nào đó thuộc V SHD mà h không thỏa mãn vế phải của biểu thức,sau đó chứng minh là điều này trái với biểu thức.(Bài tập 2.6) 2.5.4 THUẬT TOÁN NGHIÊN CỨU LOẠI BỎ CÁC ỨNG VIÊN Thuật toán loại bỏ các ứng viên tính toán khoảng trống phiên bản chứa đựng tất cả các giả thuyết từ H mà các giả thuyết này phù hợp với một chuỗi các ví dụ luyện tập đã cho.Bắt đầu bằng việc kí hiệu khoảng trống phiên bản bằng một tập hợp các giả thuyết thuộc H;cụ thể là kí hiệu tập hợp giới hạn Gcho giả thuyết khái quát nhất thuộc H Go……………… Và kí hiệu tập hợp giới hạn S cho giả thuyết cụ thể nhất(ít khái quát nhất) So……… Hai tập hợp giới hạn này giới hạn khoảng trống giả thuyết toàn diện,bởi vì mỗi một giả thuyết khác thuộc H vừa khái quát hơn vừa So vừa cụ thể hơn Go.Khi mỗi ví dụ luyện tập được xem xét,các tập hợp giới hạn S và G được khái quát hóa và cụ thể hóa,theo thứ tự,để loại bỏ từ khoảng trống phiên bản bất kì một giả thuyết không phù hợp nào.Sau khi tất cả các ví dụ đã được tiến hành,khoảng trống phiên bản được đã được tính toán chứa tất cả các giả thuyết phù hợp với những ví dụ này và chỉ những ví dụ này mà thôi.Thuật toán này được tóm tắt trong bảng 2.5 *Bảng 2.5 Kí hiệu G cho tập hợp các giả thuyết khái quát nhất thuộc H Kí hiệu S cho tất cả các giả thuyết cụ thể nhất thuộc H Với mỗi ví dụ luyện tập d,xét -Nếu d là một ví dụ dương, +Loại khỏi G bất kì giả thuyết nào không phù hợp với d +Với mỗi giả thuyết s thuộc S không phù hợp với d Loại s khỏi S Thêm vào S tất cả các khái quát hóa nhỏ nhất h thuộc s sao cho h phù hợp với d,và một thành tố nào đó của G khái quát hơn h Loại khỏi S bất kì giả thuyết nào khái quát hơn một giả thuyết khác thuộc S -Nếu d là một giá trị âm +Loại khỏi S bất kì giả thuyết nào không phù hợp với d +Với mỗi giả thuyết g thuộc G mà không phù hợp với d Loại g khỏi G Thêm vào G tất cả các khái quát hóa nhỏ nhất h của g sao cho h phù hợp với d,và một thành tố nào đó của S cụ thể hơn h Loại khỏi G bất kì giả thuyết nào ít khái quát hơn một giả thuyết khác thuộc G Chú ý rằng thuật toán được trình bày chi tiết theo các phép tính như là phép tính khái quát hóa nhỏ nhât và cụ thể hóa các giả thuyết được đưa ra,và xem xét các giả thuyết không phải lớn nhất cũng không phải nhỏ nhất.Sự thực hiện chi tiết các phép tính này tất nhiên phụ thuộc vào sự trình bày cụ thể các trường hợp và giả thuyết.Tuy nhiên,bản thân thuật toán cũng được áp dụng cho bất kì bài tập học khái niệm nào và khoảng trống giả thuyết mà những phép tính này được xác định rõ.Trong ví dụ áp dụng thuật toán sau chúng ta sẽ thấy những phép tính như vậy có thể được áp dụng vào bài tập Môn thể thao yêu thích. 2.5.5 VÍ DỤ MINH HỌA Hình 2.4 phát họa thuật toán loại bỏ các ứng viên được áp dụng vào 2 ví dụ luyện tập đầu tiên từ bảng 2.1.Như đã được miêu tả ở trên,các tập hợp giới hạn lúc đầu được kí hiệu là Go và So,theo thứ tự là những giả thuyết khái quát nhất và cụ thể nhất thuộc H. Khi ví dụ luyện tập đầu tiên được trình bày,(trong trường hợp này là một ví dụ dương), thuật toán loại bỏ các ứng viên kiểm tra giới hạn S và xem thử nó có cụ thể không-nó không thể là một ví dụ dương.Do đó giới hạn này được củng cố bằng việc loại nó khỏi giả thuyết khái quát hơn ít nhất mà thỏa mãn ví dụ mới này.Giới hạn được củng cố này được trình bày là S1trong hình 2.4.Chúng ta không cần giới hạn G mới nào trong ví dụ này vì Go đã phù hợp với nó rồi.Khi ví dụ luyện tập thứ 2(cũng dương) được xem xét,nó sẽ khái quát hóa tương tự S đối với S2,và G không đổi(G2=G1=Go).Chú ý rằng việc tiến hành 2 ví dụ dương đầu tiên rất giống với tiến hành thực hiện bởi thuật toán FIND-S. Như đã được minh họa bởi 2 bước đầu tiên,những ví dụ luyện tập dương có thể làm cho giới hạn S trở nên khái quát hơn.Những ví dụ âm đóng vai trò làm cho giới hạn G trở nên dần cụ thể hóa.Hãy xem ví dụ luyện tập 3,được miêu tả trong hình 2.5.Ví dụ âm này nói lên rằng giới hạn G rất khái quát;có nghĩa là,giả thuyết thuộc G không tiên liệu được là ví dụ mới này là ví dụ dương.Giả thuyết thuộc giới hạn G do đó phải được cụ thể hóa cho đến khi nó phân loại được ví dụ âm mới này.Như được trình bày trong hình 2.5,có vài giả thuyết cụ thể hơn ít thay đổi.Tất cả những giả thuyết này trở thành những thành tố của tập hợp giới hạn G3 mới. Cứ cho rằng có 6 cái gán cho có thể cụ thể hóa G2,vậy tại sao chỉ có 3 giả thuyết mới trong G3?Ví dụ,giả thuyết h=……….là hình thức cụ thể hóa nhất của G2 mà nó cho rằng ví dụ mới là âm,nhưng không bao gồm trong G3.Lí do mà giả thuyết này bị loại bỏ là nó không phù hợp với những ví dụ dương hiển nhiên đã cho.Thuật toán xác định điều này đơn giản bằng việc chỉ ra h không khái quát hơn giới hạn cụ thể hiện tại,S2.Thật ra,giới hạn S hình thành nên một bảng tóm tắt các ví dụ dương hiển nhiên có thể được dùng để xác định co giả thuyết nào được đưa ra phù hợp với những ví dụ này.Bất kì giả thuyết nào khái quát hơn S theo định nghĩa sẽ phù hợp bất kì một ví dụ nào mà S phù hợp,và do đó sẽ phù hợp với bất kì ví dụ dương nào trước đó.Theo cách làm đối ngẫu,giới hạn G tóm tắt các thông tin từ các ví dụ âm hiển nhiên.Bất kì giả thuyết nào cụ thể hơn G thì chắc chắn phù hợp với những ví dụ dương trước đó.Điều này đúng bởi vì giả thuyết như vậy theo định nghĩa không thể phù hợp với những ví dụ mà G không phù hợp. Ví dụ luyện tập thứ 4 như được trình bày trong hình 2.6,sẽ khái quát hóa tiếp theo giới hạn S.Nó cũng đưa ra kết quả loại bỏ một thành tố của giới hạn G,bởi vì thành tố này không phù hợp với ví dụ dương mới.VIệc làm cuối cùng này có kết quả từ bước 1với điều kiện “Nếu d là một ví dụ dương” trong thuật toán bảng 2.5.Để hiểu được cơ sở lí luận của bước này chúng ta phải xem xét vì sao giả thuyết sai này bị loại khỏi G.Chú ý rằng nó không được cụ thể hóa,vì cụ thể hóa thì nó cũng không phù hợp với giá trị dương.Nó cũng không được khát quát hóa vì theo định nghĩa G bất kì giả thuyết nào khát quát hơn ít nhất phù hợp với một giá trị luyện tập âm.Do đó giả thuyết này phải bị loại khỏi G,bằng cách đó loại bỏ một nhánh hoàn toàn qua việc săp xếp từng phần từ các giả thuyết cần phải xem xét.Sau khi tiến hành 4 ví dụ này,tập hợp giới hạn S4 và G4 liệt kê tất cả các giả thuyết phù hợp với tập hợp các ví dụ luyện tập.Khoảng trống phiên bản hoàn thiện này,bao gồm các giả thuyết khác bị giới hạn bởi G4 và S4,được trình bày trong hinh 2.7.Khoảng trống phiên bản đã tìm thấy này không phụ thuộc vào chuỗi mà trong đó các ví dụ luyện tập được trình bày.(bởi vì cuối cùng thì nó chứa tấc cả csc giả thuyết phù hợp với tập hợp các ví dụ).Khi các dữ liệu tiếp theo được đưa vào,giới hạn G và S dần dần gần lại với nhau,liệt kê một khoảng trống phiên bản càng lúc càng nhỏ hơn từ các giả thuyết ứng cử viên. 2.6 NHẬN XÉT VỀ CÁC KHOẢNG TRỐNG PHIÊN BẢN VÀ THUẬT TOÁN LOẠI TRỪ CÁC ỨNG VIÊN 2.6.1 LIỆU THUẬT TOÁN LOẠI TRỪ CÁC ỨNG VIÊN CÓ ĐƯA RA ĐƯỢC GIẢ THUYẾT CHÍNH XÁC? Khoảng trống phiên bản được đưa ra bởi thuật toán loại trừ các ứng viên sẽ đưa ra được giả thuyết mà chính xác phù hợp với khái niệm đích,với điều kiện là (1) không có lỗi sai nào trong quá trình luyện tập,và (2) có một giả thuyết nào đó chính xác miêu tả khái niệm đích.Thật vậy,khi các ví dụ luyện tập mới được đưa ra,khoảng trống phiên bản có thể được kiểm soát để chắc chắn xác định các điều chưa rõ so với khái niệm đích và xác định xem khi nào thì các ví dụ luyện tập đủ đã được đưa vào để xác định khái niệm đích chính xác.Khái niệm đích chính xác được xem xét khi S và G tiếp cận được một giả thuyết giống nhau và duy nhất. Việc gì sẽ xảy ra nếu các dữ liệu luyện tập có lỗi sai?Ví dụ,giả sử rằng ví dụ luyện tập thứ 2 ở trên là một ví dụ dương mà lại được xác định là âm.Không may thay,trong trường hợp này thuật toán chắc chắn loại bỏ khái niệm đích khỏi khoảng trống phiên bản.!Bởi vì nó sẽ loại bỏ bất kì giả thuyết nào không phù hợp với ví dụ luyện tập,nó sẽ loại bỏ khái niệm đích chính xác ngay khi tìm thấy giá trị sai này.Dĩ nhiên với việc được cung cấp đầy đủ các dữ liệu thêm vào người học sẽ cuối cùng tìm ra sự không phù hợp bằng cách chú ý rằng các tập hợp giới hạn S và G cuối cùng cũng tiếp cận một phiên bản rỗng.Một phiên bản rỗng như vậy chỉ ra rằng không có giả thuyết nào thuộc H phù hợp với các giá trị luyện tập.Hiện tượng tương tự cũng xảy ra khi các ví dụ luyện tập là đúng,nhưng khái niệm đích không được miêu tả trong sự trình bày các giả thuyết(nếu khái niệm đích là sự tách rời khỏi các đặc tính khoảng trống giả thuyết chỉ miêu tả sự liên kết mà thôi.)Chúng ta sẽ xem xét những điều này chi tiết hơn.Còn bây giờ chúng ta chỉ những trường hợp mà các ví dụ luyện tập là đúng và khái niệm đích xác có mặt trong khoảng trống giả thuyết. 2.6.2 VÍ DỤ LUYỆN TẬP NÀO NGƯỜI HỌC ĐÒI HỎI TIẾP THEO? Theo quan điểm này,chúng tôi đã nói rằng các ví dụ được cung cấp cho người học là bởi một giáo viên khác bên ngoài.Giả sử thay vì người học đợc cho phép thực hành thí nghiệm mà trong đó nó lựa chọn tham số tiếp theo,sau đó có được sự sắp xếp đúng cho trường hợp này từ một chuyên viên bên ngoài(bản chất của giáo viên.Viễn cảnh này bao gồm các tình huống mà người học thực hành thí nghiệm ngoài trời(ví dụ như xây cầu và để cho thiên nhiên thẩm dịnh là chúng vững chắc hay không),hoặc trong những tình huống mà người giáo viên sẵn sàng cung câp sự phân loại đúng(ví dụ như đề nghị xây cầu mới và giáo viên là người thẩm định là nó có vững chắc hay không).Chúng tôi dùng thuật ngữ “sự chất vấn” cho những trường hợp như vậy . Hãy xem lại khoảng trống phiên bản được rút ra từ 4 ví dụ luyện tập trong khái niệm Môn thể thao yêu thích được minh họa trong hinh 2.3.Câu hỏi chất vấn nào là tốt mà người học cần đưa ra trong trường hợp này?các chất vấn chung trong trường hợp này là gì?rõ ràng là người học nên cố gắng phân biệt trong tất cả các giả thuyết cần lựa chọn trong khoảng trống phiên bản hiện tại.Do đó,nó nên lựa chọn một tham số mà sẽ được cho là dương bởi những giả thuyết này nhưng sẽ được cho là âm với những giả thuyết khác.Một ví dụ như thế là (nắng,ấm,bình thường,nhẹ,ấm,không thay đổi) Chú ý rằng tham số này thỏa mãn 3 trong số 6 giả thuyết trong khoảng trống phiên bản hiện tại(hình 2.3).Nếu người học xếp trường hợp này là một ví dụ dương,giới hạn S của khoảng trống phiên bản sau đó được khái quát hóa.Nếu người học cho đây là một ví dụ âm thì giới hạn G sẽ cụ thể hóa.Bằng một trong 2 cách trên,người học sẽ tìm ra đặc tính của khái niệm đích,rút 6 giả thuyết trong khoảng trống phiên bản lại còn 3. Một cách tổng quát,quy tắc đưa ra chất vấn đối với người học là đưa ra các trường hợp thỏa mãn chính xác một nửa các giả thuyết trong khoảng trống phiên bản hiện tại.Khi đã làm được điều này,kích cỡ của khoảng trống phiên bản được rút lại một nửa với ví dụ mới,và khái niệm đích có thể được tìm thấy với những thí nghiệm………… Tình huống này cũng giống như chơi một trò chơi 20 câu hỏi,mà trong đó mục đích chính là hỏi những câu hỏi có-không để tìm ra giả thuyết đúng.Quy tắc để chơi là hỏi 20 câu hỏi phân chia ngang bằng nhau các giả thuyết ứng viên thành tập hợp có thể trả lời là có và không.Trong khi chúng ta thấy là có thể đưa ra một tham số thỏa mãn một nửa số giả thuyết trong khoảng trống phiên bản hình 2.3,thì khái quát có thể không có tham số phù hợp với một nửa giả thuyết.trong những trường hợp đó,một lượng lớn các câu hỏi chất vấn được đòi hỏi hơn là…. 2.6.3CÁC KHÁI NIỆM ĐÃ BIẾT ĐƯỢC SỬ DỤNG NHƯ THẾ NÀO? GiẢ sử rằng không một ví dụ luyện tập thêm nào được đưa ra ngoài 4 ví dụ sẵn có trong trường hợp trên nhưng người học bây giờ phải phân loại các trường hợp mới chưa được đưa ra.Mặc dù khoảng trống phiên bản trong hình 2.3 vẫn còn nhiều gả thuyết,lưu ý là khái niệm đích vẫn chưa được xác định đầy đủ,có thể phân loại các ví dụ đó cúng một mức độ chắc chắn như thể khái niệm đích đã được xác định rõ.Để minh họa,giả sử người học được yêu cầu phân loại 4 trường hợp trong bảng 2.6. Chú ý rằng mắc dù trường hợp A không thuộc những ví dụ luyện tập,nhưng nó vẫn được xem là một tham số dương bởi mỗi một giả thuyết trong khoảng trống phiên bản hiện tại(hình 2.3).Bởi vì những giả thuyết trong khoảng trống phiên bản không cho là tham số này dương,người học có thể phân loại A là dương với [...]... chất vấn thí nghiệm đối với người học.Điều này dễ chấp nhận vì những trường hợp được phân loại không rõ ràng như vậy chính là những trường hợp mà sự phân loại chính xác của chúng cung cấp những thông tinmới nhất để xác định khoảng trống phiên bản Cuối cùng,trường hợp D được phân loại là dương bởi 2 trong số các giả thuyết phiên bản và phân loại là âm bởi 4 giả thuyết khác.Trong trường hợp này chúng . giả thuyết h giống với khái niệm đích c dựa vào tập hợp tham số X,thì thông tin duy nhất sẵn có đối với c là giá trị của nó dựa vào các ví dụ luyện tập.Do. phù hợp với khái niệm đích dựa vào các dữ liệu luyện tập.Thiếu bất kì thông tin nào,thì giả thuyết đúng đắn nhất liên quan đến các tham số không nhìn thấy