Tiểu luận môn CÔNG NGHỆ TRI THỨC VÀ ỨNG DỤNG TÌM HIỂU VÀ CÀI ĐẶT THUẬT TOÁN PHÂN LỚP NAIVE BAYES

MỤC LỤC Trang LỜI NÓI ĐẦU 1 CHƯƠNG I PHƯƠNG PHÁP PHÂN LỚP BAYES 2 1. Phân lớp là gì? 2 2. Phương pháp phân lớp Bayes 3 2.1. Tổng quan 3 2.2. Định lý Bayes 4 2.3. Phân lớp Naïve Bayes (NBC) 6 2.4. Phương pháp sửa lỗi Laplace 7 2.5. Ưu khuyết điểm 9 2.5.1. Ưu điểm 9 2.5.2. Khuyết điểm 10 CHƯƠNG II CÀI ĐẶT THỬ NGHIỆM VÀ KẾT QUẢ 11 1. Cài đặt thử nghiệm 11 1.1. Các lớp cấu trúc cơ sở dữ liệu (gói dataset) 11 1.2. Các lớp mô hình và thuật toán phân lớp NaiveBayesian (gói model) 12 2. Kết quả thử nghiệm 16 CHƯƠNG III KẾT LUẬN 20 TÀI LIỆU THAM KHẢO 21 Bài thu hoạch môn Công nghệ tri thức GS.TSKH. Hoàng Văn Kiếm SVTH: Trầm Hoàng Nam - CH1301100 Trang 1/21 LỜI NÓI ĐẦU Cùng với sự phát triển nhanh chóng, vượt bậc của ngành công nghiệp máy tính, nhu cầu của người dùng đối với máy tính ngày một cao hơn, không chỉ giải quyết những công việc lưu trữ, tính toán bình thường, người dùng còn mong đợi máy tính có khả năng thông minh hơn, có thể giải quyết vấn đề như con người. Theo đó, bất kỳ một lĩnh vực nào cũng ứng dụng công nghệ tri thức vào quá trình hoạt động, từ đó lượng dữ liệu không ngừng tăng lên một cách bùng nổ. Mỗi công ty, doanh nghiệp phải lưu trữ hệ thống cơ sở dữ liệu đa dạng, khổng lồ. Tuy nhiên, vấn đề bất cập hiện nay là chúng ta đang “ngập” trong biển dữ liệu nhưng lại “đói” tri thức. Chính vì vậy, vấn đề đặt ra là liệu chúng ta có thể khai thác được gì từ những biển dữ liệu tưởng chừng như vô nghĩa đó? Do đó, khai mỏ dữ liệu - Data Mining ra đời như một hướng giải quyết hữu hiệu cho vấn đề trên, giúp khai thác, rút trích ra những thông tin, tri thức hữu ích từ các cơ sở dữ liệu đó. Trong lĩnh vực khai phá dữ liệu, phân lớp dữ liệu giúp phân loại các mẫu dữ liệu nhằm mô tả các lớp quan trọng hay dự đoán khuynh hướng dữ liệu trong tương lai. Qua đó, các nhà lãnh đạo sẽ đánh giá các tri thức để xem xét xây dựng chiến lược hoạt động phù hợp trong tương lai. Chính vì lợi ích thực tiễn trên mà phân lớp được ứng dụng rộng rãi trong nhiều lĩnh vực, đặc biệt là thương mại. Có nhiều phương pháp phân lớp dữ liệu, trong đó Naïve Bayes là phương pháp được triển khai rộng rãi vì sự đơn giản, dễ triển khai và hiệu quả khá cao. Tiểu luận này là kết quả lĩnh hội được sau khi học môn Công nghệ tri thức và ứng dụng, đặc biệt là phần khai mỏ dữ liệu. Tiểu luận chủ yếu trình bày các vấn đề chính về thuật toán phân lớp dữ liệu Naïve Bayes và tiến hành cài đặt thuật toán này bằng ngôn ngữ Java với gói thư viện OpenCSV. Em xin chân thành cảm ơn GS. TSKH Hoàng Văn Kiếm, giảng viên môn Công nghệ Tri thức và Ứng dụng, đã truyền đạt cho chúng em những kiến thứ quý báu về môn học, giúp chúng em có cái nhìn xa hơn về một thời đại công nghệ và sự phục vụ của các hệ tri thức. Do kiến thức còn hạn hẹp, nên tiểu luận không tránh khỏi những sai sót nhất định. Kính mong Thầy góp ý giúp em hoàn thiện tiểu luận cũng như cũng cố vốn kiến thức của bản thân. Em xin chân thành cảm ơn! Bài thu hoạch môn Công nghệ tri thức GS.TSKH. Hoàng Văn Kiếm SVTH: Trầm Hoàng Nam - CH1301100 Trang 2/21 CHƯƠNG I PHƯƠNG PHÁP PHÂN LỚP BAYES 1. Phân lớp là gì? Phân lớp dữ liệu (data classification) là việc phân loại các mẫu dữ liệu vào một trong các nhóm đã xác định trước sao cho đặc tính của mẫu dữ liệu gần với đặc tính của nhóm đó nhất. Phần lớp dữ liệu gồm hai bước: xây dựng mô hình và vận hành mô hình. Bước 1: Xây dựng mô hình nhằm mục tiêu mô tả một tập những lớp được định nghĩa trước, trong đó mỗi bộ hoặc mẫu sẽ được gán về một lớp đã xác định trước bởi thuộc tính nhãn lớp. Tập hợp những bộ được dùng để xây dựng mô hình được gọi là tập dữ liệu học. Mô hình được biểu diễn dưới dạng luật phân lớp, cây quyết định hoặc công thức toán học Hình 1: Xây dựng mô hình Bước 2: Vận hành mô hình nhằm mục đích xác định lớp của dữ liệu tương lai hoặc phân lớp những đối tượng chưa biết. Trước khi vận hành mô hình cần đánh giá độ chính xác của mô hình trong đó các mẫu kiểu kiểm tra được đem so sánh với kết quả phân lớp của mô hình. Độ chính xác (accuracy) của bộ phân lớp trên tập kiểm tra cho trước là phần trăm của các mẫu trong tập kiểm tra được bộ phân lớp xếp lớp đúng. Lưu ý, tập kiểm tra và tập học là hai tập độc lập với nhau. sampltest ofnumber total sampletest classifiedcorrectly Accuracy Bài thu hoạch môn Công nghệ tri thức GS.TSKH. Hoàng Văn Kiếm SVTH: Trầm Hoàng Nam - CH1301100 Trang 3/21 Hình 2: Vận hành mô hình 2. Phương pháp phân lớp Bayes 2.1. Tổng quan Trong lĩnh vực Data Mining, Bayes Theorem (hay Bayes’ Rule) là kỹ thuật phân lớp dựa vào việc tính xác suất có điều kiện. Bayes’ Rule được ứng dụng rất rộng rãi bởi tính dễ hiểu và dễ triển khai. Mục đích của Naïve Bayes: cho biết mẫu dữ liệu mới thuộc vào lớp nào với độ chính xác cao nhất có thể. Dữ liệu đầu vào: tập dữ liệu huấn luyện, mẫu dữ liệu mới cần kiểm tra Dữ liệu đầu ra: phân lớp của mẫu dữ liệu cần kiểm tra. Thông thường, giải thuật Naïve Bayes giả định rằng tất cả các thuộc tính (biến) đều quan trọng như nhau và độc lập với nhau. Tức là, nếu có sự hiện diện hay vắng mặt của một thuộc tính sẽ không làm ảnh hưởng đến sự hiện diện hay vắng mặt của thuộc tính khác. Ví dụ như: một quả táo có thể xem là một quả táo khi nó có: màu là đỏ, hình dạng là cầu, đường kính là khoảng 3 inch, … Nếu thiếu đi thuộc tính hình dạng là cầu thì hai thuộc tính còn lại vẫn đóng góp độc lập vào xác suất để xác định là quả táo. Mặc dù giải thuật Naïve Bayes khá đơn giản nhưng trong thực tế lại cho kết quả khá tốt. Năm 2006, một thống kê so sánh toàn diện cho thấy phân lớp Naïve Bayes cho kết quả tốt hơn các giải thuật phân lớp khác, chẳng hạn như sự tăng của cây cối và rừng tự phát. Lợi thế của Naïve Bayes là có thể ước tính các thông số (trung bình và phương sai của các thuộc tính – biến ) cần thiết cho việc phân lớp chỉ cần nhờ vào một tập dữ liệu huấn luyện nhỏ. Giả định các biến là độc lập với nhau nên khi một thuộc tính thay đổi Bài thu hoạch môn Công nghệ tri thức GS.TSKH. Hoàng Văn Kiếm SVTH: Trầm Hoàng Nam - CH1301100 Trang 4/21 thì chỉ cần xác định lại các thông số thuộc tính đó chứ không cần phải xác định lại thông số toàn bộ thuộc tính. Ứng dụng của định lý Bayes thường dựa trên một giả thiết có tính triết học Bayesian probability ngầm định rằng độ bất định và kỳ vọng có thể tính toán được giống như là xác suất. Định lí Bayes được đặt theo tên của Reverend Thomas Bayes (1702—1761), người nghiên cứu cách tính một phân bố với tham số là một phân bố nhị phân. Người bạn của ông, Richard Price, chỉnh sửa và giới thiệu công trình năm 1763, sau khi Bayes mất, với tựa đề An Essay towards solving a Problem in the Doctrine of Chances. Pierre-Simon Laplace mở rộng kết quả trong bài luận năm 1774. Bayes Thoerem được triển khai rất rộng rãi trong Data Mining vì dễ hiểu, dễ triển khai. Tuy nhiên, Bayes Theorem giả thiết rằng các biến trong mô hình là độc lập nhau. Nếu các biến không độc lập nhau thì Bayes Theorem cho kết quả thiếu chính xác. Hiện nay có rất nhiều Data Mining Software triển khai Naïve Bayes Classifier như Weka, XMMiner, StatSoft,… 2.2. Định lý Bayes Định lý Bayes cho phép tính xác suất xảy ra của một sự kiện ngẫu nhiên C khi biết sự kiện liên quan E đã xảy ra. Xác suất này được ký hiệu là P(C|E), và đọc là “xác suất của C nếu có E”. Đại lượng này được gọi xác suất có điều kiện hay xác suất hậu nghiệm vì nó được rút ra từ giá trị được cho của E hoặc phụ thuộc vào giá trị đó. posterior tconsgnormalizin priorlikelihood EP CPCEP ECP      tan_)( )()|( )|( Từ đó dẫn tới )()|()()()|( CPCEPECPEPECP   P(C|E): Xác suất xảy ra C khi E đã xảy ra.  P(E|C): Xác suất xảy ra E khi C đã xảy ra. Đại lượng này gọi là khả năng (likelihood) xảy ra E khi biết C đã xảy ra.  P(C): Xác suất xảy ra C, không quan tâm đến B. Đây được gọi xác suất tiên nghiệm (prior), nó là "tiên nghiệm" theo nghĩa rằng nó không quan tâm đến bất kỳ thông tin nào về B.  P(E): Xác suất xảy ra E, không quan tâm đến C. Đại lượng này còn gọi là hằng số chuẩn hóa (normalising constant), vì nó luôn giống nhau, không Bài thu hoạch môn Công nghệ tri thức GS.TSKH. Hoàng Văn Kiếm SVTH: Trầm Hoàng Nam - CH1301100 Trang 5/21 phụ thuộc vào sự kiện A đang muốn biết. Theo định lí Bayes, xác suất xảy ra C khi biết E sẽ phụ thuộc vào 3 yếu tố:  Xác suất xảy ra C của riêng nó (prior), không quan tâm đến E. Kí hiệu là P(C) và đọc là xác suất của C. Đây được gọi là xác suất biên duyên hay xác suất tiên nghiệm, nó là “tiên nghiệm” (trước khi kiểm chứng) theo nghĩa rằng nó không quan tâm đến bất kỳ thông tin nào về E.  Xác suất xảy ra E của riêng nó, không quan tâm đến C. Kí hiệu là P(E) và đọc là “xác suất của E”. Đại lượng này còn gọi là hằng số chuẩn hóa (normalising constant), vì nó luôn giống nhau, không phụ thuộc vào sự kiện C đang muốn biết.  Xác suất xảy ra E khi biết C xảy ra. Kí hiệu là P(E|C) và đọc là "xác suất của E nếu có C". Đại lượng này gọi là khả năng (likelihood) xảy ra E khi biết C đã xảy ra. Chú ý không nhầm lẫn giữa khả năng xảy ra E khi biết C và xác suất xảy ra C khi biết E. Ví dụ minh họa 75% người mắc bệnh quai bị thì bị cúm. Tỉ lệ một người bình thường mắc bệnh quai bị là 1/15000. Tỉ lệ một người bình thường mắc bệnh cúm là 1/1000. Hỏi: Nếu một người đang mắc bệnh cúm thì xác suất người đó cũng mắc bệnh quai bị là bao nhiêu? Giải  Gọi C là thuộc tính bị bệnh quai bị.  Gọi E là thuộc tính bị bệnh cúm. Ta có:  Xác suất người mắc bệnh cúm trên người mắc bệnh quai bị: P(E|C) = 75% = ¾  Xác suất một người bình thường mắc bệnh quai bị: P(C) = 1/15000  Xác suất một người bình thường mắc bệnh cúm: P(E) = 1/1000 Như vậy: P(E) P(C) C)|P(E )|(  ECP Bài thu hoạch môn Công nghệ tri thức GS.TSKH. Hoàng Văn Kiếm SVTH: Trầm Hoàng Nam - CH1301100 Trang 6/21 20/105.0 1000 1 ) 15000 1 4 3 ( )|(   ECP 2.3. Phân lớp Naïve Bayes (NBC)  Gọi F (field) là các thuộc tính của tập dữ liệu  Gọi E (evidence) = (E 1, E 2 , E 3 , …, E n ) là các giá trị quan sát (thu thập) ứng với từng thuộc tính. E là mẫu dữ liệu điều kiện.  Gọi C (class) là thuộc tính phân lớp dữ liệu (C có bao nhiêu giá trị khác nhau thì dữ liệu sẽ phân thành bấy nhiêu lớp tương ứng). Công thức Naïve Bayes như sau: )( )|( )|()|()( )|( 21 EP CCEPCCEPCCEPCCP ECCP knkkk k   Hay:        c k k ni kik k ECCP CCEPCCP ECCP 1 1 )|( )|()( )|( Trong đó:  K: giá trị quy định cho C k là thuộc tính phân lớp nào.  P(E): tổng xác suất mà mẫu dữ liệu điều kiện E có thể xảy ra trên tất cả các giá trị của thuộc tính phân lớp hay tổng các likelihood(C = C k ).    c k k ECCPEP 1 )|()( . K quy định cho C k thay đổi lần lượt ứng với từng thuộc tính phân lớp.     ni ki CCEP 1 )|( : ứng với likelihood  )( k CCP  : ứng với prior     c k k ECCP 1 )|( : ứng với normalzing_contant = tổng các likelihood(C = C k )  )|( ECCP k  : ứng với posterior Nên ta có thể biểu diễn: tconsgnormalizin priorlikelihood posterior tan_   Bài thu hoạch môn Công nghệ tri thức GS.TSKH. Hoàng Văn Kiếm SVTH: Trầm Hoàng Nam - CH1301100 Trang 7/21 Mô tả như sau: Các xác suất tính bằng thống kê tần suất:  Xác suất một phân lớp xảy ra P(C k ) = P(C = C k ) = (số mẫu thuộc lớp C k )/(tổng số mẫu)  Xác suất một giá trị quan sát (của một thuộc tính) xảy ra ứng với một phân lớp R i (e i | C k ) = P(E i = e i | C = C k ) = (số mẫu trong lớp C k E i = e i )/(số mẫu của lớp C k ) trong đó: + E i : thuộc tính thứ i + e i : giá trị trong thuộc tính E i 2.4. Phương pháp sửa lỗi Laplace Tránh xác suất bằng 0 hoặc bằng 1.  P(C = C k ) = (số mẫu thuộc lớp C k + 1)/(tổng số mẫu + tổng số phân lớp của thuộc tính phân lớp)  R i (e i | C k ) = P(E i = e i | C = C k ) = (số mẫu trong lớp C k E i = e i + 1)/(số mẫu của lớp C k + số giá trị quan sát của thuộc tính E i ) trong đó: E i : thuộc tính thứ I; e i : giá trị trong thuộc tính E i  Tập dữ liệu huấn luyện ghi nhận các ngày đi chơi và không đi chơi với thời tiết dựa trên các thuộc tính: Ngoài trời, Nhiệt độ, Gió. Thuộc tính phân lớp là: đi chơi. Bài thu hoạch môn Công nghệ tri thức GS.TSKH. Hoàng Văn Kiếm SVTH: Trầm Hoàng Nam - CH1301100 Trang 8/21 Ngày Ngoài trời Nhiệt độ Gió Đi chơi 1 Nắng Nóng Yếu Không 2 Nắng Mát Mạnh Không 3 Âm u Lạnh Yếu Có 4 Mưa Mát Yếu Có Bảng thống kê tần suất : Thuộc tính Giá trị quan sát (thu thập) Tần suất Tỉ lệ Có Không Có Không Ngoài trời Nắng 0 2 0/2 2/2 Âm u 1 0 1/2 0/2 Mưa 1 0 1/2 0/2 Nhiệt độ Nóng 0 1 0/2 1/2 Mát 1 1 1/2 1/2 Lạnh 1 0 1/2 0/2 Gió Mạnh 0 1 0/2 1/2 Yếu 2 1 2/2 1/2 Đi chơi 2 2 2/4 2/4 Cho mẫu dữ liệu điều kiện (E) như sau: Ngoài trời Nhiệt độ Gió Đi chơi Nắng Mát Mạnh ? Với mẫu dữ liệu điều kiện như trên, ta có nên đi chơi ? Từ bảng thống kê tần suất: R ngoài trời (Nắng,Có ) = P(Ngoài trời = Nắng | Có) = 0/2 Vì xác suất không thể bằng 0 nên ta phải dùng kỹ thuật sửa lỗi Laplace. Ta sẽ có bảng thống kê tần suất mới như sau: Bảng thống kê tần suất sau khi sửa lỗi Laplace: Bài thu hoạch môn Công nghệ tri thức GS.TSKH. Hoàng Văn Kiếm SVTH: Trầm Hoàng Nam - CH1301100 Trang 9/21 Thuộc tính Giá trị quan sát (thu thập) Tần suất Tỉ lệ Có Không Có Không Ngoài trời Nắng 1 3 1/5 3/5 Âm u 2 1 2/5 1/5 Mưa 2 1 2/5 1/5 Nhiệt độ Nóng 1 2 1/5 2/5 Mát 2 2 2/5 2/5 Lạnh 2 1 2/5 1/5 Gió Mạnh 1 2 1/4 2/4 Yếu 3 2 3/4 2/4 Đi chơi 3 3 3/6 3/6 Lúc này R ngoài trời (Nắng,Có ) = P(Ngoài trời = Nắng | Có) = 1/5 Prior(có) = 3/6 Prior(không) = 3/6 Likelihood(có) = 1/5 × 2/5 × 1/4 = 1/50 = 0,02 Likelihood(không) = 3/5 × 2/5 × 2/4 = 3/25 = 0,12 Normalzing_contant = 0,02 + 0,12 = 0,14 Xác suất phân lớp C = “Có” xảy ra ứng với mẫu dữ liệu điều kiện E 07,0 14,0 6 3 02,0 P(E) prior(có) (có)likelihood )|""(      ECóCP Xác suất phân lớp C = “Không” xảy ra ứng với mẫu dữ liệu điều kiện E 429,0 14,0 6 3 12,0 P(E) (không)prior (không)likelihood )|""(      EKhôngCP  Như vậy: P(C = “Có” | E) < P(C = “Không”|E) nên xác suất lựa chọn không đi chơi là cao hơn. 2.5. Ưu khuyết điểm 2.5.1. Ưu điểm  Dễ hiểu, cài đặt nhanh do giả định các thuộc tính là độc lập.  Cho kết quả khá chính xác trong thực tế mặc dù chịu những giả thuyết về [...]... ứng dụng rất rộng rãi bởi tính dễ hiểu và dễ tri n khai Tiểu luận đã trình bày các kiến thức kỹ thuật phân lớp dữ liệu Naïve Bayes và tiến hành cài đặt thử nghiệm với ngôn ngữ lập trình Java Hướng phát tri n tiếp theo của em là tiếp tục cài đặt kiểm định thuật toán với lượng dữ liệu lớn và ứng dụng vào thực tiễn Đồng thời, tiếp tục tìm hiểu, cài đặt thử nghiệm các thuật toán như luật kết hợp, gom cụm,... Các lớp mô hình và thuật toán phân lớp NaiveBayesian (gói model) SVTH: Trầm Hoàng Nam - CH1301100 Trang 12/21 Bài thu hoạch môn Công nghệ tri thức GS.TSKH Hoàng Văn Kiếm Hình 4: Các lớp mô hình (gói model) a Lớp BayesianAttribute: Chứa một thuộc tính tương ứng với một lớp trong mô hình phân lớp (ví dụ: thuộc tính Tuổi trong lớp Độ an toàn = Có) - Các thuộc tính: o String name: tên thuộc tính o String... kiến thức và kinh nghiệm quý báu về Công nghệ tri thức cho chúng em Từ đó giúp em có thêm kiến thức mới về ngành Công nghệ thông tin, qua đó cũng giúp em hoàn thành tiểu luận này Em xin chân thành cảm ơn! SVTH: Trầm Hoàng Nam - CH1301100 Trang 20/21 Bài thu hoạch môn Công nghệ tri thức GS.TSKH Hoàng Văn Kiếm TÀI LIỆU THAM KHẢO [1] GS.TSKH Hoàng Văn Kiếm, Slide bài giảng Công nghệ Tri thức và Ứng dụng. .. cứu nhờ vào những ứng dụng thực tiễn rộng rãi Hầu hết các lĩnh vực y học, kinh doanh, tài chính và thị trường chứng khoán, công nghệ thông tin, điện tử viễn thông… đã vận dụng linh hoạt để cải thiện cũng như cho ra đời các sản phẩm, dịch vụ phù hợp với người dùng trong thời đại công nghệ mới Trong đó, Bayes Theorem là kỹ thuật phân lớp dựa vào việc tính xác suất có điều kiện Bayes Rule được ứng dụng. .. hình phân lớp (chứa trong bảng countTable) o int getAttributeIndex(String attName, String className): lấy từ trong danh sách countable chỉ số của đối tượng BayesianAttribute có tên thuộc tính là attName và thuộc lớp className o ArrayList getCountTable(): trả về toàn bộ bảng thống kê tần suất xuất hiện của giá trị thuộc tính c Lớp NaiveBayesianAlgo: biểu diễn thuật toán Naïve Bayesian... thuộc tính dư thừa thì Naïve Bayes không còn hiệu quả  Dữ liệu liên tục có thể không tuân theo phân phối chuẩn SVTH: Trầm Hoàng Nam - CH1301100 Trang 10/21 Bài thu hoạch môn Công nghệ tri thức GS.TSKH Hoàng Văn Kiếm CHƯƠNG II CÀI ĐẶT THỬ NGHIỆM VÀ KẾT QUẢ 1 Cài đặt thử nghiệm Chương trình minh họa thuật toán Naïve Bayesian được viết bằng ngôn ngữ Java Trong đó, có sử dụng gói thư viện OpenCSV để đọc... quả trên cho thấy thuật toán Naïve Bayesian có thể ứng dụng trên những bài toán phân lớp có yêu cầu độ chính xác không quá cao, hoặc trong trường hợp hạn chế về số mẫu dữ liệu đào tạo SVTH: Trầm Hoàng Nam - CH1301100 Trang 18/21 Bài thu hoạch môn Công nghệ tri thức GS.TSKH Hoàng Văn Kiếm Thử nghiệm này cũng chưa xét đến độ nhạy cảm của thuật toán khi xử lý dữ liệu bất đối xứng Tuy nhiên, qua thống... phân lớp khi số lượng mẫu dữ liệu đào tạo giảm dần SVTH: Trầm Hoàng Nam - CH1301100 Trang 17/21 Bài thu hoạch môn Công nghệ tri thức GS.TSKH Hoàng Văn Kiếm Qua thí nghiệm trên, có thể thấy thuật toán Naïve Bayesian thực hiện khá tốt thao tác phân lớp trên tập dữ liệu CAR Kể cả khi số mẫu dữ liệu giảm đến 90%, thì độ chính xác của thuật toán chỉ suy giảm 9% (từ 84% xuống 75%) Kết quả trên cho thấy thuật. .. tương ứng với kết quả SVTH: Trầm Hoàng Nam - CH1301100 Trang 15/21 Bài thu hoạch môn Công nghệ tri thức GS.TSKH Hoàng Văn Kiếm phân lớp là Ci Sau đó nhân dồn các xác suất độc lập của các thuộc tính này với xác suất của lớp Ci Kết quả nhãn phân lớp thuộc về lớp có xác xuất cao nhất Trình tự khi muốn thực hiện một bài toán phân lớp là: - Khởi tạo bộ dữ liệu đào tạo từ file car_training.csv (trong thư mục... một mô hình phân lớp cho trước - Các thuộc tính: o NaiveBayesianModel model: mô hình phân lớp đã được đào tạo - Phương thức: o String predict(Itemset dataRow): trả về kết quả tiên đoán là nhãn được gán cho dataRow sau khi đưa vào mô hình phân lớp model Phương thức xử lý như sau: tuần tự xét từng lớp C i: với mỗi thuộc tính a thuộc dataRow, tính xác suất độc lập của giá trị của a tương ứng với kết quả . môn Công nghệ tri thức và ứng dụng, đặc biệt là phần khai mỏ dữ liệu. Tiểu luận chủ yếu trình bày các vấn đề chính về thuật toán phân lớp dữ liệu Naïve Bayes và tiến hành cài đặt thuật toán này. 10 CHƯƠNG II CÀI ĐẶT THỬ NGHIỆM VÀ KẾT QUẢ 11 1. Cài đặt thử nghiệm 11 1.1. Các lớp cấu trúc cơ sở dữ liệu (gói dataset) 11 1.2. Các lớp mô hình và thuật toán phân lớp NaiveBayesian (gói. viên môn Công nghệ Tri thức và Ứng dụng, đã truyền đạt cho chúng em những kiến thứ quý báu về môn học, giúp chúng em có cái nhìn xa hơn về một thời đại công nghệ và sự phục vụ của các hệ tri thức.

Định dạng
Số trang	22
Dung lượng	898,53 KB