Tiểu luận môn CÔNG NGHỆ TRI THỨC VÀ ỨNG DỤNG TÌM HIỂU MẠNG BAYES VÀ THUẬT TOÁN BAYES VÀ ỨNG DỤNG BAYES THEOREM TRONG PHÂN LỚP DỮ LIỆU NAÏVE BAYES CLASSIFIER
Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 26 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
26
Dung lượng
378,73 KB
Nội dung
Công nghệ tri thức & Ứng dụng GS.TSKHHoàng Kiếm ĐẠI HỌC QUỐC GIA TP.HCM TRƯỜNG ĐẠI CÔNG NGHỆ THÔNG TIN BÀI THU HOẠCH CÔNG NGHỆ TRI THỨC VÀ ỨNG DỤNG Đề tài: TÌM HIỂU MẠNG BAYES VÀ THUẬT TOÁN BAYES VÀ ỨNG DỤNG BAYES THEOREM TRONG PHÂN LỚP DỮ LIỆU (NAÏVE BAYES CLASSIFIER) Giảng viên hướng dẫn Học viên thực hiện Lớp MSHV : GS.TSKHHOÀNG KIẾM :TRỊNH NAM VIỆT : CH08 :CH1301115 Tháng 10/2014 CH1301115 – Trịnh Nam Việt Page 1 Công nghệ tri thức & Ứng dụng GS.TSKHHoàng Kiếm MỤC LỤC Lời mở đầu 2 Chương I: Tổng quan 3 1 Công nghệ tri thức .3 2 Khoa học tri thức .3 3 Vai trò của công nghệ tri thức 3 4 Hướng nghiên cứu, phát triển công nghệ tri thức 3 5 Quản lí tri thức 4 6 Tổng quan hệ cơ sở tri thức .5 7 Máy học và khám phá tri thức 8 8 Nhà kho dữ liêu và khai mỏ dữ liệu 11 Chương II: Giới thiệu mạng Bayes và thuật toán Bayes 13 1 Mạng Bayes .13 2 Thuật toán 17 Chương III: Ứng dụng Bayes Theorem trong phân lớp dữ liệu (Naïve Bayes Classifier) 19 1 Mục đích chương trình 19 2 Tóm tắt quá trình hoạt động 19 Kết luận 24 Tài liệu tham khảo 25 CH1301115 – Trịnh Nam Việt Page 2 Công nghệ tri thức & Ứng dụng GS.TSKHHoàng Kiếm LỜI MỞ ĐẦU Ước mơ của con người là tạo ra những máy móc có thông minh như con người, có thể xử lí những công việc của con người với tỉ lệ thành công cao nhất Nhưng cũng có những bài toán phức tạp với những giới hạn không vượt qua được về thời gian và cả chi phí nên “Công Nghệ tri thức”– một nhánh nhỏ của Khoa học máy tính - giúp con người giải quyết những bài toán với thời gian, chi phí và độ chính xác chấp nhận được 1 CH1301115 – Trịnh Nam Việt Page 3 Công nghệ tri thức & Ứng dụng 2 GS.TSKHHoàng Kiếm CHƯƠNG I: TỔNG QUAN 1 Công nghệ tri thức: Công nghệ tri thức (Knowledge Engineering): có thể xem là một nhánh nghiên cứu của trí tuệ nhân tạo, phân tích tri thức lĩnh vực và chuyển nó thành những mô hình tính toán đưa vào máy tính để phục vụ những nhu cầu cần thiết (John F.Sowa Knowledge representation: Logical, philosophical, and Computational Foundations Copyright @2000 by Brooks/Cole A division of Thomson Learning) 2 Khoa học tri thức: Khoa học về sáng tạo, quản lí, khai thác, sử dụng tri thức, dựa trên sự kết hợp của khoa học thông tin + khoa học hệ thống + khoa học xã hội 3 Vai trò của công nghệ tri thức: Cùng với sự phát triển nhanh chóng, vượt bậc của ngành công nghiệp máy tính, nhu cầu của người dùng đối với máy tính ngày một cao hơn: không chỉ giải quyết những công việc lưu trữ, tính toán bình thường, người dùng còn mong đợi máy tính có khả năng thông minh hơn, có thể giải quyết vấn đề như con người Và từ đó trí tuệ nhân tạo nói chung và đặc biệt là công nghệ tri thức ra đời và phát triển Công nghệ tri thức đóng vai trò hết sức quan trọng trong việc phát triển Công nghệ thông tin, nâng cao sự hữu dụng của máy tính, giúp con người gần gũi với máy tính hơn Công nghệ tri thức còn góp phần thúc đẩy nhiều ngành khoa học khác phát triển, khả năng phát triển khoa học dựa trên tri thức liên ngành 4 Hướng nghiên cứu, phát triển công nghệ tri thức CH1301115 – Trịnh Nam Việt Page 4 Công nghệ tri thức & Ứng dụng GS.TSKHHoàng Kiếm Quản lý tri thức (knowledge management): bao gồm tiếp nhận, biểu diễn và tối ưu hóa cơ sở tri thức… Các hệ cơ sở tri thức (knowledge-based systems): tìm hiểu cấu trúc bên trong của một hệ cơ sở tri thức, phân loại các hệ cơ sở tri thức, và một số hệ cơ sở tri thức điển hình Khai mỏ dữ liệu, khám phá tri thức (Data mining, knowledge discovery): nghiên cứu về phương pháp, kỹ thuật để khai mỏ dữ liệu và khám phá tri thức 5 Quản lí tri thức a Tiếp nhận tri thức Có thể chia thành 2 cách để tiếp nhận tri thức như sau: + Thụ động: - Gián tiếp: những tri thức kinh điển Trực tiếp: những tri thức kinh nghiệm (không kinh điển) do “chuyên gia lĩnh vực” đưa ra + Chủ động: - Đối với những tri thức tiềm ẩn, không rõ ràng hệ thống phải tự phân tích, suy diễn, khám phá để có thêm tri thức mới CH1301115 – Trịnh Nam Việt Page 5 Công nghệ tri thức & Ứng dụng GS.TSKHHoàng Kiếm + Giao tiếp người máy: - Thông qua bàn phím, chuột, cảm biến, cảm ứng, thiết bị ghi âm, mà hình, âm thanh, văn bản… b Biểu diễn tri thức: +Phương pháp biểu diễn tri thức: - Logic mệnh đề & logic vị từ - Hệ luật dẫn - Đối tượng-thuộc tính-giá trị - Mạng ngữ nghĩa - Frame - Script … c Tối ưu hóa cơ sở tri thức: +Tại sao tối ưu cơ sở tri thức ? - Vấn đề mâu thuẫn, trùng lắp, dư thừa nảy sinh khi tri thức được tiếp nhận và biểu diễn trong cơ sở tri thức Vì vậy đòi hỏi chúng ta phải có phương pháp để tối ưu cơ sở tri thức - Tùy thuộc vào cách biểu diễn tri thức, chúng ta sẽ có phương pháp thích hợp để tối ưu cơ sở tri thức Ví dụ: điển hình cho vấn đề này là bài toán loại bỏ luật thừa trong cơ sở tri thức luật 6 Tổng quan hệ cơ sở tri thức CH1301115 – Trịnh Nam Việt Page 6 Công nghệ tri thức & Ứng dụng a GS.TSKHHoàng Kiếm Hệ cơ sở tri thức đóng: Là những hệ cơ sở tri thức được xây dựng với một số “tri thức lĩnh vực” ban đầu, và chỉ những tri thức đó mà thôi trong suốt quá trình hoạt động hay suốt thời gian sống của nó Ví dụ: những hệ cơ sở tri thức về kinh dịch, những hệ giải toán, thường là những hệ cơ sở tri thức giải quyết vấn đề… b Hệ cơ sở tri thức mở: Kà những hệ cơ sở tri thức tiên tiến hơn, nó có khả năng bổ sung tri thức trong quá trình hoạt động, khám phá CH1301115 – Trịnh Nam Việt Page 7 Công nghệ tri thức & Ứng dụng GS.TSKHHoàng Kiếm Ví dụ: Những hệ giải toán cho phép bổ sung tri thức trong quá trình suy luận (tri thức ban đầu là những tiên đề và một số định lý, tri thức bổ sung là những định lý mới, những tri thức heurictis, …); những hệ cơ sở tri thức chẩn đoán, dự báo chẳng hạn: hệ chẩn đoán y khoa MYCIN và EMYCIN, những hệ dự báo thời tiết, khí hậu, động đất, … c Hệ cơ sở tri thức kết hợp: Bao gồm sự kết hợp giữa hệ đóng và hệ mở, hệ kết hợp giữa CSTT và CSDL, hệ kết hợp giữa hệ CSTT này với một hệ CSTT khác, … Những hệ cơ sở tri thức kết hợp thường phát triển mạnh dựa trên tri thức liên ngành Ví dụ: những hệ hỗ trợ ra quyết định trong đời sống, kinh tếvà khoa học; (kinh dịch, tử vi áp dụng với đời sống; kinh dịch, tử vi áp dụng với y học; …); những hệ chẩn đoán, dự báo đòi hỏi tri thức liên ngành; … d Phân loại + Phân loại theo phương pháp biểu diễn tri thức: Tùy thuộc vào phương pháp biểu diễn tri thức mà chúng ta có thể phân loại các hệ cơ sở tri thức: Hệ cơ sở tri thức dựa trên logic mệnh đề và logic vị từ Hệ cơ sở tri thức dựa trên luật dẫn Hệ cơ sở tri thức dựa trên đối tượng Hệ cơ sở tri thức dựa trên Frame Hệ cơ sở tri thức dựa trên mạng ngữ nghĩa Hệ CSTT kết hợp một số phương pháp biểu diễn đã nêu trên… CH1301115 – Trịnh Nam Việt Page 8 Công nghệ tri thức & Ứng dụng GS.TSKHHoàng Kiếm + Phân loại theo ứng dụng: Hệ giải quyết vấn đề: thường là hệ có tính chất đóng, nhưng đôi khi cũng có hệ mang tính mở Ví dụ: Những hệ giải toán, thuật giải Vương Hạo, thuật giải Robinson, … Hệ hỗ trợ quyết định: thường là các hệ mang tính kết hợp (CSDL + tri thức ngành + hàm toán học + ), đối tượng sử dụng là các nhà lãnh đạo Ví dụ: những hệ thống đánh giá doanh nghiệp (tình hình tài chính, kết quả kinh doanh, qui trình nghiệp vụ, qui trình sản xuất, tính chuyên nghiệp trong quản lý, …), những hệ thống lập kế hoạch (planning), … Hệ dự báo, chẩn đoán: thường cũng giống như những hệ hỗ trợ ra quyết định với tính ngoại suy cao hơn Ví dụ: Bài toán chẩn đoán hỏng hóc xe, chẩn đoán y khoa, dự báo thị trường chứng khoán, thời tiết … Hệ điều khiển: là những hệ điều khiển có gắn với CSTT Những hệ thống này thường ứng dụng trong công nghiệp, trong điều khiển tự động hóa, thường là những hệ thống thời gian thực (real-time systems) Một số hệ thống này có sử dụng kết hợp lý thuyết mờ để xử lý Ví dụ: Máy giặt, Máy bơm nước với bộ điều khiển mờ, … 7 Máy học và khám phá tri thức a Thế nào là khám phá tri thức (knowledge discovery) ? Khám phá tri thức là tìm ra những tri thức tiềm ẩn, những tri thức mới (không phải là những tri thức kinh điển, kinh nghiệm, …) CH1301115 – Trịnh Nam Việt Page 9 Công nghệ tri thức & Ứng dụng GS.TSKHHoàng Kiếm Thừa dữ liệu, thông tin nhưng thiếu tri thức Ví dụ: Trong toán học Dữ liệu: 1, 1, 2, 3, 5, 8, 13, 21, 34, … Mối liên hệ này có thể được biểu diễn bằng công thức sau: Un = Un-1 + Un-2 Mối liên hệ này có thể được biểu diễn bằng công thức sau: Un = Un-1 + Un-2 Công thức tìm ra ở trên chính là tri thức Ví dụ: Trong vật lý CH1301115 – Trịnh Nam Việt Page 10 Công nghệ tri thức & Ứng dụng d GS.TSKHHoàng Kiếm Cách tiếp cận Tiếp cận thống kê Tiếp cận toán tử logic Tiếp cận hình học (phân hoạch không gian, xây dựng cây định danh, …) Tiếp cận mạng Neural Tiếp cận khai mỏ dữ liệu … 8 Nhà kho dữ liệu và khai mỏ dữ liệu DATA WAREHOUSE = Biến đổi dữ liệu thành tri thức yễm trợ tiến trình ra quyết định CH1301115 – Trịnh Nam Việt Page 12 Công nghệ tri thức & Ứng dụng GS.TSKHHoàng Kiếm DatawareHouse = Business Information + Decision Making(IBM BPEC’96 Conference, San Diego, USA) Sự bùng nổ của các CSDL lớn vượt quá khả năng diễn dịch và lĩnh hội của con người, phát sinh yêu cầu sáng tạo các công cụ kỹ thuật mới để phân tích dữ liệu một cách thông minh và tự động nhằm tạo ra tri thức hữu dụng hỗ trợ tốt cho tiến trình ra quyết định.(Usama, Data Mining and Knowledge Discovery, 1995) Một số bài toán điển hình về data mining: -Bài toán khám phá luật kết hợp -Bài toán nhận dạng mẫu -Bài toán phân loại dữ liệu -Bài toán gom nhóm dữ liệu -Bài toán lập mô hình -Bài toán dự báo CH1301115 – Trịnh Nam Việt Page 13 Công nghệ tri thức & Ứng dụng GS.TSKHHoàng Kiếm CHƯƠNG II: GIỚI THIỆU MẠNG BAYES VÀ THUẬT TOÁN BAYES 1 Mạng Bayes a Định nghĩa Một mạng Bayes là một đồ thị có hướng phi chu trình mà trong đó: • các nút biểu diễn các biến, • các cạnh biểu diễn các quan hệ phụ thuộc thống kê giữa các biến và phân phối xác suất địa phương cho mỗi giá trị nếu cho trước giá trị của các cha của nó Nếu có một cạnh từ nút A tới nút B, thì biến B phụ thuộc trực tiếp vào biến A, và A được gọi là cha của B Nếu với mỗi biến Xi, , tập hợp các biến cha được ký hiệu bởi parents(Xi), thì phân phối có điều kiện phụ thuộc của các biến là tích của các phân phối địa phương Nếu Xi không có cha, ta nói rằng phân phối xác suất địa phương của nó là không có điều kiện, ngược lại thì gọi là có điều kiện Nếu biến được biểu diễn bởi một nút được quan sát, thì ta nói rằng nút đó là một chứng cứ (evidence node) Các câu hỏi về sự phụ thuộc không tương đẳng giữa các biến có thể được trả lời bằng cách nghiên cứu đồ thị Có thể chứng minh rằng trong đồ thị, tính độc lập có điều kiện được biểu diễn bởi tính chất đồ thị d-khả ly: cho trước một số nút hiển nhiên cụ thể, các nút X và Y là d-khả ly trong đồ thị khi và chỉ khi các biến X và Y là độc lập, CH1301115 – Trịnh Nam Việt Page 14 Công nghệ tri thức & Ứng dụng GS.TSKHHoàng Kiếm với giá trị đã biết các chứng cứ tương ứng Tập hợp gồm tất cả các nút khác mà X có thể phụ thuộc trực tiếp được cho bởi bao Markov của X Một ưu điểm của mạng Bayes là, về mặt trực quan, ta có thể hiểu các quan hệ phụ thuộc một cách trực tiếp và các phân phối địa phương dễ dàng hơn là phân phối có điều kiện phụ thuộc hoàn chỉnh b Mạng Bayes nhân quả Mạng Bayes nhân quả là một mạng Bayes mà trong đó các cạnh có hướng của đồ thị được hiểu là các quan hệ nhân quả trong một miền xác định có thực nào đó Các cạnh có hướng, một cách tổng quát, không nhất thiết phải được hiểu là các quan hệ nhân quả; tuy nhiên, trong thực tiễn, tri thức về các quan hệ nhân quả rất hay được dùng để hướng dẫn vẽ các đồ thị mạng Bayes, kết quả là có được các mạng Bayes nhân quả c Học cấu trúc Trong trường hợp đơn giản nhất, một mạng Bayes được xây dựng bởi một chuyên gia và rồi được dùng để thực hiện việc suy luận Trong các ứng dụng khác, công việc xây dựng mạng quá phức tạp đối với con người Trong trường hợp này, cấu trúc và các tham số mạng của các phân bố địa phương phải được học từ dữ liệu Học cấu trúc của một mạng Bayes (nghĩa là học đồ thị) là một phần rất quan trọng của ngành nhận thức máy Giả thiết rằng dữ liệu được sinh từ một mạng Bayes và rằng tất cả các biến là quan sát được (chứng cứ) trong mọi lần lặp, việc tối ưu hóa dựa trên phương pháp tìm kiếm có thể được dùng để tìm cấu trúc mạng Việc này đòi hỏi một hàm tính điểm (scoring function) và một chiến lược tìm kiếm Hàm tính điểm thông dụng là xác suất hậu nghiệm (posterior probability) của cấu trúc khi cho trước dữ liệu huấn luyện (training data) Quá trình tìm kiếm duyệt toàn cục để trả về một cấu trúc có số điểm tối ưu đòi hỏi thời gian cấp siêu lũy thừa (superexponential) theo số lượng biến Ngược lại, các chiến lược tìm kiếm địa phương thực hiện các thay đổi tăng dần hướng tới việc nâng cao điểm số của cấu trúc Một thuật toán tìm kiếm toàn CH1301115 – Trịnh Nam Việt Page 15 Công nghệ tri thức & Ứng dụng GS.TSKHHoàng Kiếm cục như Phương pháp xích Markov Monte Carlo (Markov chain Monte Carlo) có thể tránh việc bị bẫy trong một cực tiểu địa phương d Học Tham số Để cụ thể hóa mạng Bayes và biểu diễn đầy đủ các phân bố xác suất phụ thuộc có điều kiện, đối với mỗi biến X, cần phải chỉ ra phân bố xác suất X theo điều kiện thông tin từ các cha của X Phân bố của X theo các cha của nó có thể có hình thức bất kỳ Người ta thường dùng các phân bố rời rạc hay phân bố Gauss, do các phân bố này làm đơn giản việc tính toán Đôi khi, khi chỉ biết được các ràng buộc của các phân bố; ta có thể dùng nguyên lý entropy cực đại để xác định một phân bố cụ thể, phân bố với entropy cực đại thỏa mãn các ràng buộc đó (Tương tự, trong ngữ cảnh cụ thể của một mạng Bayes động, người ta thường lấy phân bố có điều kiện cho sự phát triển theo thời gian của trạng thái ẩn để cực đại hóa hệ số entropy (entropy rate) của quá trình ngẫu nhiên được nói đến.) Thông thường, các phân bố có điều kiện này bao gồm các tham số chưa biết và phải được ước lượng từ dữ liệu, đôi khi bằng cách tiếp cận khả năng cực đại (maximum likelihood) Việc cực đại hóa trực tiếp khả năng (hoặc xác suất hậu nghiệm) thường phức tạp khi có các biến không quan sát được Một cách tiếp cận truyền thống đối với vấn đề này là thuật toán cực đại hóa k vọng (expectation-maximization algorithm), thuật toán này luân phiên giữa việc tính toán các giá trị kỳ vọng của các biến không được quan sát theo dữ liệu quan sát được, với việc cực đại hóa khả năng (hay hậu nghiệm) hoàn chỉnh với giả thuyết rằng các giá trị mong đợi đã tính được là đúng đắn Dưới các điều kiện chính quy và vừa phải, quá trình này hội tụ về các giá trị khả năng cực đại (hay xác suất hậu nghiệm cực đại) của các tham số Một cách tiếp cận Bayes đầy đủ hơn đối với việc học tham số là coi các tham số như là các biến không quan sát được khác và tính một phân bố hậu nghiệm đầy đủ trên toàn bộ các nút theo dữ liệu quan sát được, sau đó tách các tham số ra Cách tiếp cận này có thể có chi phí tính toán cao và dẫn đến các mô hình có số chiều lớn, do đó trong thực tế, các cách tiếp cận truyền thống thường được sử dụng hơn CH1301115 – Trịnh Nam Việt Page 16 Công nghệ tri thức & Ứng dụng GS.TSKHHoàng Kiếm e Suy luận Do mạng Bayes là một mô hình hoàn chỉnh cho các biến và các quan hệ giữa chúng, có thể dùng mạng Bayes để trả lời các truy vấn xác suất về các biến này Ví dụ, mạng Bayes có thể được dùng để tìm tri thức mới nhất về trạng thái của một tập con gồm các biến khi các biến khác (các biến hiển nhiên) được quan sát Quá trình tính phân bố hậu nghiệm này của các biến khi cho trước các biến hiển nhiên được gọi là suy luận xác suất Quá trình hậu nghiệm cho ra một thống kê đủ phổ quát (universal sufficient statistic) cho các ứng dụng phát hiện, khi người ta muốn chọn các giá trị cho một tập con các biến nhằm mục đích cực tiểu hóa một hàm phí tổn nào đó, chẳng hạn xác suất của lỗi quyết định Do đó, có thể coi mạng Bayes là một cơ chế cho việc xây dựng tự động các mở rộng của định lý Bayes cho các bài toán phức tạp hơn f Ứng dụng Mạng Bayes được dùng cho việc mô hình hóa tri thức trong các mạng điều hòa gene (gene regulatory network), trong các hệ thống y học, phân tích văn bản, xử lý ảnh dung hợp dữ liệu, và các hệ hỗ trợ quyết định (decision support system) 2 Thuật toán Bayes Trong lĩnh vực Machine Learning, Bayes Theorem (hay Bayes’ Rule) là kỹ thuật phân lớp dựa vào việc tính xác suất có điều kiện Bayes’ Rule được ứng dụng rất rộng rãi bởi tính dễ hiểu và dễ triển khai Bayes' Rule (CT1): Trong đó: CH1301115 – Trịnh Nam Việt Page 17 Công nghệ tri thức & Ứng dụng GS.TSKHHoàng Kiếm D : Data h : Hypothesis (giả thuyết) P(h) : Xác suất giả thuyết h (tri thức có được về giả thuyết h trước khi có dữ liệu D) và gọi là prior probability của giả thuyết h P(D| h): Xác suất có điều kiện D khi biết giả thuyết h (gọi là likelihood probability) P(D): xác suất của dữ liệu quan sát D không quan tâm đến bất kỳ giả thuyết h nào.(gọi làprior probability của dữ liệu D) Tỷ số : Chỉ số liên quan (irrelevance index) dùng để đo lường sự liên quan giữa 2 biến A và B Nếu irrelevance index =1, có nghĩa A và B không liên quan nhau P(h|D) :Xác suất có điều kiện h khi biết D (gọi là posterior probability của giả thuyết h) Trong rất nhiều ứng dụng, các giả thuyết hi có thể loại trừ nhau và vì dữ liệu quan sát D là tập con của tập giả thuyết cho nên chúng ta có thể phân rã P(D) như sau (CT2): Vì CH1301115 – Trịnh Nam Việt nên (CT1) có thể viết lại như sau (CT3) Page 18 Công nghệ tri thức & Ứng dụng GS.TSKHHoàng Kiếm Thay P(D) trong (CT2) vào (CT1) ta được (CT4) (CT4) gọi là Bayes’s Theorem CH1301115 – Trịnh Nam Việt Page 19 Công nghệ tri thức & Ứng dụng GS.TSKHHoàng Kiếm CHƯƠNG III ỨNG DỤNG BAYES THEOREM TRONG PHÂN LỚP DỮ LIỆU (NAÏVE BAYES CLASSIFIER) 1 Mục đích chương trình: Ở mục đích thực hiện bài tiểu lận cho môn học nên mục đích chính của chương trình là chạy thử để kiểm tra việc thực hiện thuật toán có chính xác hay không, là tiền đề cho các chương trình sau này Chương trình sau đây minh họa việc sử dụng Bayes Theorem trong việc phân lớp dữ liệu Bộ phân lớp dữ liệu dựa trên Bayes theorem còn gọi là Naïve Bayes Classifier 2 Tóm tắt quá trình hoạt động: Có training data về việc là tỉ phú như sau: CH1301115 – Trịnh Nam Việt Page 20 Công nghệ tri thức & Ứng dụng GS.TSKHHoàng Kiếm Sử dụng Naïve Bayes Classifier để xác định khả năng là tỉ phú với các yếu tố của người được dự đoán như sau: CH1301115 – Trịnh Nam Việt Page 21 Công nghệ tri thức & Ứng dụng GS.TSKHHoàng Kiếm Từ Training data ta có dữ liệu như sau: Vì thuộc tính phân lớp Tỉ phú chỉ có 2 giá trị là “check” (nghĩa là tỉ phú) và “uncheck” (không là tỉ phú) nên ta phải tính Pr(check|E) và Pr(uncheck|E) như sau Trong đó E là dữ liệu cần phân lớp (dự đoán) CH1301115 – Trịnh Nam Việt Page 22 Công nghệ tri thức & Ứng dụng GS.TSKHHoàng Kiếm Tỉ lệ dự đoán là tỉ phú Tỉ lệ dự đoán không là tỉ phú Khả năng của 2 lớp là: Check = 5/15 * 6/15 * 5/15 * 9/15 = 0.0267 Uncheck = 1/15 * 1/15 * 6/15 * 6/15 = 0.0007 CH1301115 – Trịnh Nam Việt Page 23 Công nghệ tri thức & Ứng dụng GS.TSKHHoàng Kiếm Chuyển đổi thành xác suất bằng cách chuẩn hóa P(“check”) = 0.0267 / ( 0.0267 + 0.0007) = 0.974 P(“uncheck”) = 0.0007 / / ( 0.0267 + 0.0007) = 0.026 Vì P(“check”) > P(“uncheck”) nên kết quả dự đoán Tỉ phú =“check” ( TRUE ) CH1301115 – Trịnh Nam Việt Page 24 Công nghệ tri thức & Ứng dụng GS.TSKHHoàng Kiếm KẾT LUẬN 1 Kết quả đạt được: Đã tìm hiểu và có thể implement thuật toán Naïve Bayes cho mục đích phân lớp 2 Hạn chế Do hạn chế về thời gian và kiến thức nên tiểu luận chỉ mới trình bày sơ lược về Công nghệ tri thức và thuật toán Bayes Ngoài ra do không có các mẫu huấn luyện lớn có ( lấy được từ các CSDL lớn ) nên phần mềm ứng dụng cũng chỉ có 1 vài mẫu huấn luyện nhỏ để kiểm tra thuật toán CH1301115 – Trịnh Nam Việt Page 25 Công nghệ tri thức & Ứng dụng GS.TSKHHoàng Kiếm TÀI LIỆU THAM KHẢO [1] Slide bài giảng môn học Công nghệ tri thức và ứng dụng, GS TSKH Hoàng Kiếm [2] Dino Isa, V P Kallimani , R Rajkumar , Lam Hong, Lee - Text Document Pre-Processing Using the Bayes Formula for Classification Based on the Vector Space Model 2008 [3] Tom M Mitchell Machine Learning McGraw-Hill Science/Engineering/Math 1997 [4] Georgios Paliouras; Vangelis Karkaletsis; Constantine D Spyropoulos Machine Learning and its application Advanced Lectures Springer, 2001 [5] Một số website thông tin và một số nguồn tài liệu khác trên internet CH1301115 – Trịnh Nam Việt Page 26 ... mỏ liệu 11 Chương II: Giới thiệu mạng Bayes thuật toán Bayes 13 Mạng Bayes .13 Thuật toán 17 Chương III: Ứng dụng Bayes Theorem phân lớp liệu (Nạve Bayes. .. system) Thuật toán Bayes Trong lĩnh vực Machine Learning, Bayes Theorem (hay Bayes? ?? Rule) kỹ thuật phân lớp dựa vào việc tính xác suất có điều kiện Bayes? ?? Rule ứng dụng rộng rãi tính dễ hiểu dễ tri? ??n... 24 ? ?Công nghệ tri thức & Ứng dụng GS.TSKHHoàng Kiếm KẾT LUẬN Kết đạt được: Đã tìm hiểu implement thuật tốn Nạve Bayes cho mục đích phân lớp Hạn chế Do hạn chế thời gian kiến thức nên tiểu luận