Thuyết trình KHAI PHÁ DỮ LIỆU – DATA MINING Naïve Bayes and Bayesian belief networks

15 1.7K 3
Thuyết trình KHAI PHÁ DỮ LIỆU – DATA MINING Naïve Bayes and Bayesian belief networks

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

TRƯỜNG ĐẠI HỌC BÁCH KHOA TP Hồ Chí Minh Khoa Khoa Học & Kỹ Thuật Máy Tính KHAI PHÁ DỮ LIỆU – DATA MINING Bài tập lớn Naïve Bayes and Bayesian belief networks Giảng viên TS VÕ THỊ NGỌC CHÂU Group Nguyễn Chí Thanh 7140837 Lê Hồng Dũng 7140819 Trần Bảo Phong 7140252 Mục lục Giới thiệu .1 Lý thuyết Bayes 2.1 Naive Bayes Classifier 2.2 Laplacian Correction .3 Mạng Bayes 3.1 Giới thiệu 3.2 Huấn luyện Mạng Bayes Ứng dụng Bayes Theorem việc phân lớp liệu Tài liệu tham khảo 13 Giới thiệu Phân loại Bayes phân loại mẫu theo mô hình thống kê Mô hình phân loại Bayes dự đoán xác suất thành phần lớp, chẳng hạn xác suất mà mẫu định thuộc lớp đặc biệt Phân loại Bayes dựa định lý Bayes Phân loại Bayes ngây thơ (Naive Bayesian) giả định tác động giá trị thuộc tính lớp định độc lập với giá trị thuộc tính khác Giả định gọi lớp có điều kiện độc lập Nó thực để đơn giản hóa việc tính toán có liên quan theo nghĩa này, coi "ngây thơ" Lý thuyết Bayes Giả sử có mẫu X bao gồm tập n thuộc tính {x1,x2,x3, ,xn) Trong lý thuyết xác xuất Bayes, X gọi biến cố Chúng ta giả định H tập giả định giá trị X phân loại vào lớp C Trong toán phân loại liệu cách áp dụng lý thuyết Bayes cần tìm giá trị P(H|X) - xác suất có điều kiện H xẩy biến cố X Nói cách khác tìm xác xuất biến X thuộc tập C, biết thuộc tính X P(H|X) xác suất có điều kiện H xẩy biến cố X Ví dụ: giả sử tập liệu mẫu gồm có thuộc tính tuổi thu nhập, mẫu X có tuổi 35 tuổi thu nhập 40,000$ Gọi H giả thuyết khách hàng mua máy tính Như P(H|X) xác xuất mua máy tính khách hàng biết tuổi thu nhập Ngược lại P(H) xác xuất xẩy biến cố H Trong ví dụ P(H) xác suất khách hàng mua máy tính mà không phụ thuộc vào yếu tố khác (như tuổi, thu nhập, hay thuộc tính khác) Trong xác suất P(H|X) phụ thuộc vào nhiều yếu tố khác khách hàng (tuổi, thu nhập), P(H) hoàn toàn độc lập với biến cố X Trang P(X) xác xuất xẩy biến cố X Trong ví dụ xác suất người tập liệu có độ tuổi 35 tuổi thu nhập 40,000$ Theo lý thuyết Bayes để tính xác xuất P(H|X) tính thông qua P(H), P(X) P(X|H) theo công thức sau: 𝑃(𝐻|𝑋) = P(X|H) 𝑃(𝐻) P(X) xác suất tính dựa vào tập mẫu liệu 2.1 Naive Bayes Classifier Phân loại Bayes “ngây thơ” phát biểu sau: a Giả sử T tập liệu mẫu phần tử gán nhãn tương ứng Giả sử có k phân loại (class) C1, C2, , Ck Mỗi phần tử biểu diễn vector đặc trưng gồm n chiều, X ={x1,x2, ,xn} để miêu tả tương ứng với n thuộc tính tương ứng A1,A2,…An b Cho mẫu X, việc phân loại X vào nhãn tập C1,C2, ,Cn cách tìm giá trị lớn xác suất có điều kiện lớp biết trước kiện X Hay X thuộc vào lớp Ci 𝑃(𝐶𝑖|𝑋) > 𝑃(𝐶𝑗|𝑋) 𝑣ớ𝑖 ≤ 𝑗 ≤ 𝑚, 𝑗 ≠𝑖 Vì cần tìm Ci mà có giá trị P(Ci|X) lớn Và lớp Ci mà có giá trị P(Ci|X) lớn gọi xác suất hậu nghiệm tối đa Theo lý thuyết Bayes 𝑃(𝐶𝑖|𝑋) = P(X|Ci) 𝑃(𝐶𝑖) P(X) c Trong P(X) tính cho tất lớp, cần tính P(X|Ci) P(Ci) lớn Nếu xác xuất lớp xác xuất tiên nghiệm P(Ci) , thường giả định xác xuất lớp P(Ci) Vì P(C1) = P(C2)=…=P(Ck) Vì cần tìm tối đa P(X|Ci) Còn không cần phải tính Trang P(X|Ci)P(Ci) Thông thường tính P(Ci) dựa vào tần suất xuất Ci tập mẫu T, P(Ci) = freq(Ci,T)/|T| d Với tập liệu gồm nhiều thuộc tính, thường tốn nhiều thời gian để tính toán xác suất P(X|Ci) Chính mô hình Naïve Bayes giả định thuộc tính độc lập với Như xác xuất P(X|Ci) tính sau: xác suất P(x1|Ci), P(x2|Ci),…, P(xn|Ci) dễ dàng tính dựa vào tập huấn luyện Vì xk giá trị thuộc tính Ak X + Nếu Ak giá trị rời rạc, P(xk|Ci) số lượng phần tử lớp Ci có thuộc tính Ak có giá trị xk chia cho số lượng phần tử Ci, freq(Ci,T) + Nếu Ak giá trị liên tục, thông thường giả định giá trị tuân theo phân bố Gaussian với giá trị trung bình µ độ lệch chuẩn σ tính sau Vì giá trị P(xk|Ci) tính: Chúng ta cần tính giá trị giá trị trung bình độ lệch chuẩn tập giá trị thuộc tính Ak tập mẫu Ci e Để tìm gán nhãn cho mẫu X, cần tính P(X|Ci)P(Ci) cho lớp Ci Quá trình phân lớp cho mẫu X vào lớp Ci lớp có giá trị P(X|Ci)P(Ci) lớn 2.2 Laplacian Correction Theo công thức tính xác suất P(X|Ci): Trang dựa theo giả định thuộc tính độc lập Từ công thức tính thấy lớp Ci mà X có thuộc tính xk mà mẫu lớp Ci có giá trị Trường hợp P(xk|Ci) = điều dẫn đến P(X|Ci) = mặc cho giá trị P(xt|Ci) thuộc tính lại lớn Vì Laplacion Correction cách thức để giải vấn đề xác suất Laplace correction giả định tập liệu mẫu đủ lớn để thêm vào cho giá trị đếm tạo xác suất khác cho thuộc tính Nếu có q lần đếm cần phải cộng q vào mẫu số lúc tính xác suất P(xk|Ci) Một cách tổng quát dung phương pháp z-estimation theo công thức Trang Mạng Bayes 3.1 Giới thiệu Bayesian Belief Networks (BBNs) gọi Bayesian Networks (BNs) hay Belief Networks (BNs) phát triển vào cuối năm 1970s Đại học Stanford [1] BBN mô hình đồ thị (graphical model) thể mối quan hệ nhân – (cause – effect) biến BBNs chủ yếu dựa lý thuyết xác suất có điều kiện hay gọi lý thuyết Bayes (Bayesian theory, hay Bayes’ theory) Chính thế, kỹ thuật có tên gọi Bayesian Belief Networks (BBNs) BBNs dạng biểu đồ ảnh hưởng (influence diagram), kết hợp hài hòa lý thuyết xác suất lý thuyết đồ thị để giải hai vấn đề quan trọng: tính không chắn tính phức tạp, ứng dụng rộng rãi toán học kỹ thuật Trained Bayesian belief networks sử dụng phân lớp liệu Một Belief Networks xác định hai thành phần: Đồ thị có hướng, không tuần hoàn bảng tập hợp xác suất có điều kiện (CPT) Mỗi nút đồ thị đại diện cho biến ngẫu nhiên Các biến giá trị rời rạc giá trị liên tục BBNs mô hình trực tiếp mà biến đại diện nút (node), mối quan hệ nhân hai biến biểu thị mũi tên gọi “edge” Mũi tên hướng từ nút nguyên nhân “parent node” đến nút kết “child node” Hình 3.1: Ví dụ Mạng Bayes Trang 3.2 Huấn luyện Mạng Bayes Trong việc huấn luyện mạng Bayes, số kịch xảy Các cấu trúc liên kết cho biết trước suy từ liệu Các biến quan sát ẩn tất số liệu huấn luyện Trường hợp liệu ẩn gọi giá trị thiếu không đầy đủ liệu Nếu biết trước cấu trúc liên kết mạng quan sát biến, việc huấn luyện mạng đơn giản Chúng trình bày phương pháp : Cho D tập huấn luyện tập liệu: 𝑋1 , 𝑋2 , , 𝑋|𝐷| Huấn luyện mạng Bayes có nghĩa phải tìm hiểu giá trị conditional probability table (CPT) Giả sử 𝑤𝑖𝑗𝑘 CPT cho biến 𝑌𝑖 = 𝑦𝑖𝑗 có “parent” 𝑈𝑖 = 𝑈𝑖𝑘 , ta có 𝑤𝑖𝑗𝑘 ≡ P ( 𝑌𝑖 = 𝑦𝑖𝑗 | 𝑈𝑖 = 𝑈𝑖𝑘 ) Ví dụ, 𝑤𝑖𝑗𝑘 CPT hình 1.1 (b), ta có 𝑌𝑖 LungCancer; 𝑦𝑖𝑗 giá trị nó, "Yes"; 𝑈𝑖 liệt kê nút cha 𝑌𝑖 , cụ thể là, {FamilyHistory, Smoker}; 𝑈𝑖𝑘 liệt kê giá trị nút “parents”, cụ thể là, {"yes", "yes"} Các 𝑤𝑖𝑗𝑘 xem trọng số Tập trọng số gọi chung W Một chiến lược “descent gradient” sử dụng để tìm kiếm giá trị 𝑤𝑖𝑗𝑘 , dựa giả định thiết lập có 𝑤𝑖𝑗𝑘 có khả năng, lặp lại nhiều lần Chúng muốn tìm tập trọng số, W Để bắt đầu, trọng số khởi tạo giá trị xác suất ngẫu nhiên Các phương pháp Gradient descent thực “greedy hill-climbing” Các trọng số cập nhật lần lặp Cuối cùng, chúng hội tụ giải pháp tối ưu |𝐷| Chúng tối đa hóa 𝑃𝑤 (D) = ∏𝑑=1 𝑃𝑤 (𝑋𝑑 ) Điều thực cách làm theo gradient ln𝑃𝑤 (S), làm cho vấn đề đơn giản Trang Với cấu trúc liên kết mạng khởi tạo 𝑤𝑖𝑗𝑘 , thuật toán thực sau: Tính toán gradient: Đối với i, j, k, tính toán 𝜕ln𝑃𝑤 (D) 𝜕𝑤𝑖𝑗𝑘 |𝐷| P ( 𝑌𝑖 = 𝑦𝑖𝑗 , 𝑈𝑖 = 𝑈𝑖𝑘 |𝑋𝑑 ) 𝑤𝑖𝑗𝑘 = ∑𝑑=1 (1.1) Xác suất phía bên phải phương trình tính cho tuple huấn luyện, 𝑋𝑑 , D Để ngắn gọn, gọi xác suất P Khi biến đại diện 𝑌𝑖 𝑈𝑖 ẩn số 𝑋𝑑 , xác suất tương ứng p tính toán từ biến quan sát tuple cách sử dụng thuật toán chuẩn cho việc suy luận mạng Bayes, chẳng hạn phần mềm thương mại Hugin Take a small step in the direction of the gradient: Các trọng số cập nhập 𝑤𝑖𝑗𝑘 ← 𝑤𝑖𝑗𝑘 + (𝑙) 𝜕ln𝑃𝑤 (D) 𝜕𝑤𝑖𝑗𝑘 (1.2) nơi 𝑙 learning rate biểu diễn step size 𝜕ln𝑃𝑤 (D) 𝜕𝑤𝑖𝑗𝑘 tính từ phương trình (1.1) Renormalize the weights: Bởi trọng 𝑤𝑖𝑗𝑘 giá trị xác suất, giá trị chúng phải nằm 0.0 1.0, Σ𝑗 𝑤𝑖𝑗𝑘 phải với i, k Các tiêu chí đạt cách chuẩn hóa lại trọng số sau họ cập nhật phương trình (1.2) Trang Ứng dụng Bayes Theorem việc phân lớp liệu Để phân lớp đối tượng có nhiều phương pháp phân lớp dựa định lý Bayes, mạng neural, phương pháp k láng giềng gần nhất, định, thuật toán di truyền… Bộ phân lớp liệu dựa định lý Bayes (Bayes theorem) gọi Naïve Bayes Classifier Mục đích: để dự đoán nhãn phân lớp cho liệu /mẫu Đặc điểm: - Học theo xác suất: tính xác suất rõ ràng cho giả thiết, hướng thiết thực cho số vấn đề thuộc loại học; - Có tăng trưởng: mẫu huấn luyện tăng/giảm dần khả giả thiết, tri thức ưu tiên kết hợp với liệu quan sát; - Dự đoán theo xác suất: dự đoán nhiều giả thiết, trọng số cho khả xảy chúng; - Chuẩn: phương pháp Bayes cung cấp chuẩn để tạo định tối ưu so với phương pháp khác Đầu vào: tập mẫu liệu huấn luyện, với nhãn phân lớp cho mẫu liệu Đầu ra: mô hình (bộ phân lớp) dựa tập huấn luyện nhãn phân lớp Một số ứng dụng phân lớp tiêu biểu: tín dụng, tiếp thị, chẩn đoán y khoa, phân tích hiệu điều trị… bước tiến trình phân lớp: Bước 1: xây dựng mô hình từ tập huấn luyện - Mỗi / mẫu liệu phân vào lớp xác định trước - Lớp / mẫu liệu xác định thuộc tính gán nhãn lớp Trang - Tập / mẫu liệu huấn luyện – tập huấn luyện – dùng để xây dựng mô hình - Mô hình biểu diễn luật phân lớp, định công thức toán học Bước 2: Sử dụng mô hình – kiểm tra tính đắn mô hình dùng để phân lớp liệu - Phân lớp cho đối tượng chưa phân lớp - Đánh giá độ xác mô hình: + Lớp biết trước mẫu/ liệu đem kiểm tra so sánh với kết thu từ mô hình + Tỉ lệ xác = % mẫu/ liệu phân lớp mô hình số lần kiểm tra Trang Phân lớp liệu Naïve Bayesian có giả định, đặc điểm sau: - Các thuộc tính độc lập: làm cho tính toán; cho phân lớp tối ưu thỏa yêu cầu; thực tế biến (thuộc tính) thường có liên quan với nên yêu cầu thỏa - Nếu thuộc tính thứ i rời rạc: P(xi|C) ước lượng tần số liên quan mẫu có giá trị xi cho thuộc tính thứ i lớp C - Nếu thuộc tính thứ i liên tục: P(xi|C) ước lượng thông qua hàm mật độ Gaussian Bộ phân lớp liệu Naïve Bayes Classifier dựa ý tưởng gán cho mẫu X nhãn phân lớp C cho P(C | X) lớn hay khả xảy cao dựa xác suất Ví dụ sau minh họa cho việc phân lớp liệu phương pháp Naïve Bayes Classifier: Cho tập liệu chơi tennis sau (Tập huấn luyện trích từ Quinlan’s ID3) Trang 10 Thời tiết Nắng Nắng U ám Mưa Mưa Mưa U ám Nắng Nắng Mưa Nắng U ám U ám mưa Nhiệt độ Nóng Nóng Nóng ấm áp Mát Mát Mát ấm áp Mát ấm áp ấm áp ấm áp Nóng ấm áp Ước lượng P(xi|C) Thời tiết P(nắng | p) = 2/9 P(u ám | p) = 4/9 P(mưa | p) = 3/9 Nhiệt độ P(nóng | p) = 2/9 P(ấm áp | p) = 4/9 P(mát | p) = 3/9 Độ ẩm Cao Cao Cao Cao Vừa Vừa Vừa Cao Vừa Vừa Vừa Cao Vừa Cao Gió Lớp không không không không không Có Có không không không Có Có không Có N N P P P N P N P P P P P N P(p) = 9/14 P(n) = 5/14 P(nắng | n) = 3/5 P(u ám | n) = Độ ẩm P(cao | p) = 3/9 P(vừa | p) = 6/9 P(cao | n) = 4/5 P(vừa | n) = 1/5 P(mưa | n) = 2/5 P(nóng | n) = 2/5 P(ấm áp | n) = 2/5 P(mát | n) = 1/5 Gió P(có | p) = 3/9 P(có | n) = 3/5 P(không | p) = 6/9 P(không | n) = 2/5 Cho mẫu X = X thuộc lớp nào? Ta có: P(X|p).P(p) = 3 P(mưa|p) P(nóng|p) P(cao|p) P(không|p).P(p) = = 0.010582 9 9 14 P(X|n).P(n) = 2 P(mưa|n) P(nóng|n) P(cao|n) P(không|n).P(n) = 5 5 14 = 0.018286 Trang 11 Ta chọn xác suất cao để phân lớp mẫu X Do Mẫu X phân vào lớp n (không chơi tennis) Chuẩn hóa Bayes: Trong trường hợp có thuộc tính có xác suất p = ta phải chuẩn hóa cách thêm vào tất thuộc tính lớp để thực tính toán Ví dụ lớp N có thuộc tính “thời tiết” với giá trị “u ám” có p = Ta chỉnh lại sau: nắng = U ám = Mưa = Khi ta có P(u ám | n) = 1/8 Kết luận: Phân lớp liệu Naïve Bayesian cho kết tốt thực tế chịu giả thiết tính độc lập thống kê thuộc tính; phân lớp không yêu cầu phải ước lượng cách xác xác suất; dễ cài đặt, học nhanh, kết dễ hiểu; sử dụng phân loại text, spam… nhiên liệu có nhiều thuộc tính dư thừa Naïve Bayesian không hiệu quả; liệu liên tục không tuân theo phân phối chuẩn Trang 12 Tài liệu tham khảo [1] Jiawei Han, Micheline Kamber, Jian Pei, ―Data Mining: Concepts and Techniques‖, Third Edition, Morgan Kaufmann Publishers, 2012 [2] Wikipedia: Bayes Theorem [3] David L Olson, Dursun Delen, ―Advanced Data Mining Techniques‖, Springer-Verlag, 2008 Trang 13 [...]... spam… tuy nhiên khi dữ liệu có nhiều thuộc tính dư thừa thì Naïve Bayesian không còn hiệu quả; dữ liệu liên tục có thể không tuân theo phân phối chuẩn Trang 12 Tài liệu tham khảo [1] Jiawei Han, Micheline Kamber, Jian Pei, Data Mining: Concepts and Techniques‖, Third Edition, Morgan Kaufmann Publishers, 2012 [2] Wikipedia: Bayes Theorem [3] David L Olson, Dursun Delen, ―Advanced Data Mining Techniques‖,... liên tục: P(xi|C) được ước lượng thông qua hàm mật độ Gaussian Bộ phân lớp dữ liệu Naïve Bayes Classifier dựa trên ý tưởng gán cho mẫu X nhãn phân lớp là C sao cho P(C | X) là lớn nhất hay khả năng xảy ra là cao nhất dựa trên xác suất Ví dụ sau minh họa cho việc phân lớp dữ liệu bằng phương pháp Naïve Bayes Classifier: Cho tập dữ liệu chơi tennis như sau (Tập huấn luyện trích từ Quinlan’s ID3) Trang 10... bộ / mẫu dữ liệu huấn luyện – tập huấn luyện – được dùng để xây dựng mô hình - Mô hình được biểu diễn bởi các luật phân lớp, cây quyết định hoặc các công thức toán học Bước 2: Sử dụng mô hình – kiểm tra tính đúng đắn của mô hình và dùng nó để phân lớp dữ liệu mới - Phân lớp cho những đối tượng mới hoặc chưa được phân lớp - Đánh giá độ chính xác của mô hình: + Lớp biết trước của một mẫu/ bộ dữ liệu đem... chính xác của mô hình: + Lớp biết trước của một mẫu/ bộ dữ liệu đem kiểm tra được so sánh với kết quả thu được từ mô hình + Tỉ lệ chính xác = % các mẫu/ bộ dữ liệu được phân lớp đúng bởi mô hình trong số các lần kiểm tra Trang 9 Phân lớp dữ liệu Naïve Bayesian có những giả định, đặc điểm sau: - Các thuộc tính là độc lập: làm cho có thể tính toán; cho ra bộ phân lớp tối ưu khi thỏa yêu cầu; thực tế thì... lớp n (không chơi tennis) Chuẩn hóa Bayes: Trong trường hợp có một thuộc tính có xác suất p = 0 thì ta phải chuẩn hóa bằng cách thêm 1 vào tất cả các thuộc tính của lớp để thực hiện tính toán Ví dụ lớp N có thuộc tính “thời tiết” với giá trị “u ám” có p = 0 Ta chỉnh lại như sau: nắng = 4 U ám = 1 Mưa = 3 Khi đó ta có P(u ám | n) = 1/8 Kết luận: Phân lớp dữ liệu Naïve Bayesian cho kết quả tốt trong thực ... pháp z-estimation theo công thức Trang Mạng Bayes 3.1 Giới thiệu Bayesian Belief Networks (BBNs) gọi Bayesian Networks (BNs) hay Belief Networks (BNs) phát triển vào cuối năm 1970s Đại học Stanford... nhân – (cause – effect) biến BBNs chủ yếu dựa lý thuyết xác suất có điều kiện hay gọi lý thuyết Bayes (Bayesian theory, hay Bayes theory) Chính thế, kỹ thuật có tên gọi Bayesian Belief Networks. .. nhiên liệu có nhiều thuộc tính dư thừa Naïve Bayesian không hiệu quả; liệu liên tục không tuân theo phân phối chuẩn Trang 12 Tài liệu tham khảo [1] Jiawei Han, Micheline Kamber, Jian Pei, Data Mining:

Ngày đăng: 09/02/2016, 13:14

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan