Tài liệu phân lớp bayer

1 Phân lớp Bayer  Một bộ phân lớp thống kê dựa trên định lý Bayes  Nó dùng học xác suất bằng cách tính toán xác suất hiện cho từng giả thuyết  Bộ phân lớp naïve Bayesian, giả sử các thuộc tính hoàn toàn độc lập, được sử dụng phổ biến với tập dữ liêu lớn  Mô hình gia tăng theo nghĩa từng mẫu huấn luyện có thể tăng hoặc giảm dần xác suất một giả thuyết là đúng. Kiến thức biết trước có thể kết hợp với dữ liệu quan sát được.  Cho dữ liệu mẫu X với một nhãn lớp chưa biết, H là giải thuyết rằng X thuộc về một lớp xác định C  Xác suất có điều kiện H cho biết trước X, Pr(H|X), theo đĩnh lý Bayes:  Khó khăn thực tế: đòi hỏi kiến thức khởi đầu của nhiều xác suất, chi phí tính toán cao Pr( | )Pr( ) Pr( | ) Pr( ) X H H HX X 2 Phân lớp naïve Bayesian  Cho rằng chúng ta có n lớp C 1 , C 2 ,…,C n . Cho một mẫu chưa biết X, bộ phân lớp sẽ dự đoán rằngX=(x 1 ,x 2 ,…,x n ) thuộc về lớp với xác suất có điều kiện cao nhất:  Cực đại Pr(X | C i ).Pr(C i ) / Pr(X) => Cực đại Pr(X | C i ).Pr(C i )  Lưu ý: Pr(C i ) = s i / s và  Giảm đáng kể chi phí tính toán, chỉ đếm phân phối lớp  Naïve: lớp độc lập có điều kiện if Pr( | ) Pr( | ), for , i i j X C C X C X i j n i j 1 Pr( | ) Pr( | ) where Pr( | ) / n i k i k i ik i k X C x C x C s s Thể hiện thuộc lớp C i Tất cả thể hiện Thể hiện với lớp C i Và giá trị k cho thuộc tính k 3 Phân lớp naïve Bayesian – Ví dụ  Ở đây, chúng ta có hai lớp C1=“có” (Positive) and C2=“không” (Negative)  Pr(“có”) = thể hiện với “có” (s1) / tất cả thể hiện (s) = 9/14  Nếu một thể hiện X mới có quan sát=“nắng”, sau đó Pr(quan sát=“nắng” | “có”) = 2/9 (bởi vì có 9 thể hiện với “có” (hay P) trong số 2 quan sát = “nắng”)  Tương tự, độ ẩm =“cao”, Pr(độ ẩm=“cao” | “không”) = 4/5  Và tiếp tục 4 Naïve Bayes (Ví dụ tiếp theo)  Bây giờ, cho tập huấn luyện, chúng ta có thể tính toán tất cả xác suất  Cho rằng chúng ta có thể hiện mới X = <nắng, ấm áp, cao, có>. Nên được phân loại như thế nào?  Tương tự: X = < nắng, ấm, cao, có> Pr(X | “không”) = 3/5 . 2/5 . 4/5 . 3/5 Pr(X | “có”) = (2/9 . 4/9 . 3/9 . 3/9) 5 Naïve Bayes (Ví dụ tiếp theo)  Để tìm ra X thuộc về lớp này chúng ta cần tối đa hoá: Pr(X | C i ).Pr(C i ), cho từng lớp C i (ở đây là “có” và “không”)  Để chuyển hoá những xác suất này, chúng ta cần chuẩn hoá bằng cách chia từng cái cho tổng của hai:  Pr(“không” | X) = 0.04 / (0.04 + 0.007) = 0.85  Pr(“có” | X) = 0.007 / (0.04 + 0.007) = 0.15  Do đó, thể hiện X nên được phân loại là “không”. X = <nắng, ấm, cao, có> Pr(X | “không”).Pr(“không”) = (3/5 . 2/5 . 4/5 . 3/5) . 5/14 = 0.04 Pr(X | “có”).Pr(“có”) = (2/9 . 4/9 . 3/9 . 3/9) . 9/14 = 0.007 6 Phân lớp dựa trên kết hợp  Nhớ rằng luật kết hợp “định lượng”  Nếu phần bên phải của luật bị giới hạn thành thuộc tính lớp cần dự đoán, luật có thể được sử dụng trực tiếp để phân loại  Nó khám phá ra những luật có độ tin cậy và hộ trợ cao dưới dạng “cond_set => Y” trong đó Y là nhãn lớp.  Đã được chứng minh rằng tốt hơn cây quyết định trong một số trường hợp 7 Đo lường hiệu năng của mô hình phân lớp  Khi trường kết quả là có thứ tự hay rời rạc (VD: dự đoán hai lớp), chúng ta có thể sử dụng bản phân loại, gọi là , confusion matrix để đánh giá mô hình kết quả  Ví dụ  Tỉ lệ phân lớp chính xác toàn cục = (18 + 15) / 38 = 87%  Cho T, tỉ lệ phân lớp chính xác = 18 / 20 = 90%  Cho F, tỉ lệ phân lớp chính xác = 15 / 18 = 83% T F Total T 18 2 20 F 3 15 18 Total 21 17 38 Lóp dự đoán Lớp thật sự 8  Thường dùng để phân lớp, nhưng có thể thay đổi cho các phương pháp khác  Đo lường mức độ thay đổi trong xác suất có điều kiện của một lớp mục tiêu khi đi từ một tập phổ biến (tập kiểm tra đầy đủ) đến mẫu điều chỉnh:  Ví dụ:  Cho rằng tỉ lệ phản hồi mong đợi cho chiến dịch gửi thư trực tiếp là 5% trong tập huấn luyện  Sử dụng bộ phân lớp để gán giá trị “có”,“không” cho lớp mục tiêu “được dự đoán phản hồi”  Nhóm có sẽ chứa một tỷ lệ cao hơn của những phản hồi thực sự hơn tập kiểm tra  Cho rằng nhóm có chứa 50% phản hồi thực sự  Giá trị lift = 10 = 0.5 / 0.05  Điều gì nếu mẫu lift quả nhỏ  Cần tăng cường kích thước mẫu  Sự cân bằng giữa lift và kích thước mẫu Đo lường hiệu quả: bản đồ Lift lift class sample class population t t Pr( | ) / Pr( | ) Kích thước mẫu Số lượng phản hổi lift 9 Thế nào là dự đoán  Dự đoán tương tự như phân lớp  Đầu tiên, xây dựng mô hình  Tiếp theo, sử dụng mô hình để dự đoán giá trị chưa biết  Dự đoán khác biệt với phân lớp  Phân lớp đề cập đến dự đoán nhãn lớp rời rạc (VD: “yes”, “no”)  Mô hình dự đoán được sử dụng để dự đoán giá trị của thuộc tính số mục tiêu  Chúng có thể được xem như hàm giá trị - liên tục  Phương pháp dự đoán chính là hồi quy  Hồi quy tuyến tính và hồi quy đa biến  Hồi quy phi tuyến  K-Nearest-Neighbor  Các miền ứng dụng chính:  Hệ thống tư vấn, gán điểm tính dụng, giá trị đời sống khách hàng. 10 Dự đoán: Phân tích hồi quy  Hướng tiếp cận phổ biến là hồi quy: Hồi quy tuyến tính hay đa biến.  Hồi quy tuyến tính: Y = + X  Mô hình là đường thẳng phản ánh phân phối dữ liệu tốt nhất, đường thẳng cho phép dự đoán giá trị thuộc tính Y dựa trên một thuộc tính X.  Hai tham số, và xác định đường thẳng và được ước lượng bằng cách sử dụng dữ liệu có sẵn  Hướng tiếp cận phổ biến: áp dụng tiêu chuẩn hình vuông nhỏ nhất với giá trị nhỏ nhất Y1, Y2, …, X1, X2, ….  Ứng dụng hồi quy: http://www.math.csusb.edu/faculty/stanton/probstat/regression.html  Hồi quy đa biến: Y = b0 + b1 X1 + b2 X2  Cần thiết khi dự đoán được thực hiện dựa trên đa thuộc tính  VD: dự đoán Customer LTV dựa trên: tuổi, thu nhập, chi tiêu, mua sắm  Nhiều hàm phi tuyến có thể được chuyển hoá thành dạng trên [...]... nhóm thẻ 21 Ví dụ phân lớp – Dữ liệu ngân hàng  Muốn xác định phản hồi của chiến dịch gủi thư trực tiếp  Một sản phẩm mới, "Personal Equity Plan" (PEP)  Dữ liệu huấn luyện bao gồm những bản ghi gồm thông tin về các phản hồi trước đây của khác hàng và mua sản phẩm  Trong trường hợp này, lớp mục tiêu là “pep” với giá trị nhị phân  Muốn xây dựng một mô hình và áp dụng nó vào dữ liệu mới (một danh... Chuẩn bị dữ liệu  Những bước chuẩn bị dữ liệu cho Weka và See5  Mở tập huấn luyện bằng Excel, xoá cột “id”, lưu kết quả (VD: “bank.csv”)  Làm tương tự cho dữ liệu khách hàng mới, nhưng thêm cột mới “pep” vào cột cuối cùng, giá trị của cột này nên là “?” cho tất cả các bản ghi  Weka  Phải chuyển dữ liệu thành định dạng ARFF  Thuộc tính đặc tả và dữ liệu thuộc cùng một file  Phần dữ liệu là file...  Phần dữ liệu là file định giới bằng dấu phẩy không có dòng nhãn  See5/C5  Tạo ra file “tên” và file “dữ liệu  File “tên” chứa thuộc tính đặc tả, file “dữ liệu chứa như trên  Dòng đầu tiên của file “tên” phải là tên của lớp mục tiêu – trong trường hợp này là “pep” 23 File định dạng dữ liệu cho Weka Dữ liêu huấn luyện Trường hợp mới @relation ’train-bank-data' @attribute 'age' real @attribute...  Mô hình dự đoán được đánh giá dưa trên độ chính xác của chúng khi dự đoán trên dữ liện chưa biết  Độ chính xác được đo lường dựa trên tỉ lệ lỗi (thường là % số bản ghi bị phân loại sai)  Tỷ lể lỗi trên tập đánh giá tiền phân lớp ước lượng tỉ lệ lỗi thực sự  Độ chính xác dự đoán  Sự khác biệt giữa điểm số dự đoán và kết quả thực sự (từ tập đánh giá)  Độ chính xác của mô hình được đo lường bằng... chuẩn  Không duyệt các định hướng phân loại có chủ đề hay tìm kiếm những thuật ngữ hiện  Thay vì sử dụng một ngôn ngữ, tôi định nghĩa thế giới của mình (tagging) Chia sẽ ngôn ngữ và nội dung của mình để tạo nên cộng đồng  Gán thể tạo ra cộng đồng thông qua sự chồng chéo của cảnh  Điều này tạo nên mạng xã hộih có thể phát triển và tiến hoá cao hơn nữa Nhưng, liệu điều này có dẫn đến sự tiến hoá... và mua sản phẩm  Trong trường hợp này, lớp mục tiêu là “pep” với giá trị nhị phân  Muốn xây dựng một mô hình và áp dụng nó vào dữ liệu mới (một danh sách khách hàng) trong đó giá trị của thuộc tính lớp là chưa biết id ID12101 ID12102 ID12103 ID12104 ID12105 ID12106 ID12107 ID12108 ID12109 ID12110 ID12111 … tuổi 48 40 51 23 57 57 22 58 37 54 66 … gtính FEMALE MALE FEMALE FEMALE FEMALE FEMALE MALE... @attribute 'pep' {'YES','NO'} @data 23,MALE,INNER_CITY,18766.9,YES,0,YES,YES,NO,YES,? 30,MALE,RURAL,9915.67,NO,1,NO,YES,NO,YES,? 24 Thực thi C4.5 trong Weka  Để xây dựng mô hình (cây quyết định) sử dụng lớp classifiers.trees.j48 J48 Cây quyết định đầu ra (đã tỉa) children . 1 Phân lớp Bayer  Một bộ phân lớp thống kê dựa trên định lý Bayes  Nó dùng học xác suất bằng cách tính toán xác suất hiện cho từng giả thuyết  Bộ phân lớp naïve Bayesian,. tương tự như phân lớp  Đầu tiên, xây dựng mô hình  Tiếp theo, sử dụng mô hình để dự đoán giá trị chưa biết  Dự đoán khác biệt với phân lớp  Phân lớp đề cập đến dự đoán nhãn lớp rời rạc (VD:. ) Pr( ) X H H HX X 2 Phân lớp naïve Bayesian  Cho rằng chúng ta có n lớp C 1 , C 2 ,…,C n . Cho một mẫu chưa biết X, bộ phân lớp sẽ dự đoán rằngX=(x 1 ,x 2 ,…,x n ) thuộc về lớp với xác suất có

Định dạng
Số trang	40
Dung lượng	1,71 MB