Lập trình máy tính để suy luận từ dữ liệu là sự kết hợp giữa thống kê và khoa học máy tính, đến từ một quy trình không hoàn toàn được biết đến thông qua việc mô hình hóa quy trình như mộ
Trang 2
Chúng ta thảo luận về lý thuyết xác suất như là khung cơ bản để đưa ra quyết định trong điều kiện không chắc chắn Trong phân loại, nguyên tắc Bayes được sử dụng để tính toán xác suất của các lớp Chúng ta tổng quát hóa để thảo luận về cách chúng ta có thể đưa ra quyết định hợp lý giữa nhiều hành động để giảm thiểu rủi ro dự kiến.
Trang 3Lập trình máy tính để suy luận từ dữ liệu là sự kết hợp giữa thống kê và khoa học máy tính, đến từ một quy trình không hoàn toàn được biết đến thông qua việc
mô hình hóa quy trình như một quy trình ngẫu nhiên sử dụng lý thuyết xác suất để phân tích nó
Ví dụ : Việc ném một đồng xu là một quy trình ngẫu nhiên chúng ta không thể dự
đoán ở mỗi lần ném liệu kết quả sẽ là mặt trước hay mặt sau, Nếu chúng ta áp dụng vị trí ban đầu của nó, lực và hướng nơi bắt nó và cetera, kết quả chính xác của lần ném có thể được dự đoán.
3.1 Giới thiệu
Trang 4
x = f(z)
Trong đó:
- x : cái quan sát được
- z : không cái quan sát được
- f : Hàm xác định kết quả từ phần kiến thức không thể quan sát được.
Vì không thể lập mô hình theo cách này :
x : một biến ngẫu nhiên được rút ra từ phân bố xác suất
(Nếu x = 1 ngửa hoặc x = 0 là sấp )
P(X =x)
Trang 53.2 Phân loại
Trang 6Mục tiêu
Lọc được lớp "khách hàng rủi ro cao" để trong tương lai có thể kiểm tra xem người đó có tuân theo mô tả lớp hay không để chấp nhận hoặc từ
chối đơn đăng ký
Trang 8
3.3 Tổn thất và rủi ro
3.3.1 Tổn thất
Tổn thất là một giá trị đo lường mức độ thiệt hại hoặc mất mát
kinh tế, xã hội, hoặc cá nhân có thể phải chịu khi quyết định đưa
ra không chính xác
Trong đó:
: tổn thất kỳ vọng của một quyết định
quan đến lớp ‘ rủi ro cao ’)
: tổn thất liên quan đến quyết định khi tham số là
: sác suất điều kiện của khi đã quan sát dữ liệu x
Trang 9
3.3.2 Rủi ro
của các giả thuyết.
Rủi ro được tính bằng cách tích của xác suất của mỗi kịch bản với tổn thất tương ứng:
Trang 103.4 Hàm phân biệt
Được sử dụng trong bài toán phân loại giúp quyết định xem một quan sát nào Đối với bài toán phân loại hai lớp có thể được xây dựng để đánh giá giá trị của hàm đối. Cụ thể, nếu giá trị lớn hơn một ngưỡng quan sát được gán vào một lớp, ngược lại nếu nhỏ hơn thì được gán vào lớp còn lại.
Giả sử có C lớp khác nhau và mỗi lớp có một hàm phân phối có điều kiện P (X|Ci),với X là biến ngẫu nhiên đại diện cho dữ liệu quan sát được đối với bài toán phân loại, chúng ta muốn tính xác suất điều kiện P (C|X) tức là xác suất để một quan sát thuộc về lớp C khi đã biết giá trị của X.
Trang 11đo lường bằng sự dao động của giá cổ phiếu, và rủi ro là kỳ vọng của tổn thất dưới điều kiện xác suất Quyết định đầu tư của bạn có thể được đánh giá bằng cách so sánh rủi ro của nhiều kịch bản khác nhau.
Ví dụ thực tế :
Trang 12nhiên đại diện cho dữ liệu quan sát được đối với
bài toán phân loại, chúng ta muốn tính xác suất
điều kiện P (C|X)tức là xác suất để một quan sát
thuộc về lớp C khi đã biết giá trị của X.
Trang 13Trong ngữ cảnh này, ngân hàng có thể có một hàm tiện ích cụ thể cho việc chấp nhận hoặc từ chối một đơn vay dựa trên rủi ro dự kiến. Sự kết hợp giữa xác suất
và tiện ích được tính để đưa ra quyết định tối ưu. Điều này thường dẫn đến việc đặt ra các câu hỏi như: "Đối với mỗi khách hàng, nếu chấp nhận đơn vay, ngân hàng có thể có được một giá trị tiện ích là bao nhiêu?" hoặc "Nếu từ chỗi đơn vay, ngân hàng có thể tránh được một khoản thiệt hại có giá trị là bao nhiêu?" Lý thuyết tiện ích có thể giúp ngân hàng đưa ra quyết định dựa trên một sự cân nhắc tổng thể giữa rủi ro và lợi nhuận mong đợi, đồng thời tạo ra một cơ sở quyết định tối ưu dựa trên ước lượng xác suất và giá trị mong đợi.
3.5 Lý thuyết hữu ích
Trang 14
Giả sử có một ngân hàng đang sử dụng định lý Bayes để đánh giá rủi ro của khách hàng khi cấp vay. Mục tiêu của ngân hàng có thế là tối ưu hóa một hàm tiện ích, thường được biểu diến như sau:
Trong đó:
- xác suất của khách hàng thuộc lớp dựa trên dữ
liệu quan sát được X (sử dụng định lý Bayes).
tiện ích hoặc giá trị mong đợi liên quan đến việc chấp nhận khách hàng thuộc lớp .
3.5 Lý thuyết hữu ích
Trang 15Quy tắc hiệp hội của định lý Bayes là một quy tắc toán học cho phép chúng ta tính xác suất của một biến ngẫu nhiên dựa trên xác suất của các biến ngẫu nhiên khác Quy tắc này được biểu diễn bởi công thức sau:
P(A|B) =
Trong đó:
- A : biến ngẫu nhiên cần tính xác suất
- B : biến ngẫu nhiên được biết
3.6 Quy tắc hiệp hội
Trang 16Ví dụ:
Trang 17
có màu đỏ, biến ngẫu nhiên B là quả bóng đầu tiên được lấy ra có màu đỏ.
P(A|B) = = =
=> Vậy xác suất rằng quả bóng tiếp theo được lấy ra cũng có màu đỏ là
Quy tắc hiệp hội của định lý Bayes có nhiều ứng dụng thực tế trong các lĩnh vực như phân tích dữ liệu, trí tuệ nhân tạo, và xử lý ngôn ngữ tự nhiên.
3.6 Quy tắc hiệp hội
Trang 18Lịch sử phát triển của quyết định trong điều kiện không chắc chắn Con người đã sử dụng mọi nơi để tìm dấu hiệu giảm sự không chắc chắn, từ thiên nhiên đến đối tượng hàng ngày Lý thuyết xác suất chỉ xuất hiện trong vài trăm năm và được đề cập đến sự đóng góp của các tác giả như Laplace, Bernoulli Các tác giả Russell và Norvig (1995) thảo luận về giá trị thông tin và đánh giá nó theo đơn vị tiền tệ Quy tắc liên kết, được
sử dụng trong khai thác dữ liệu, đơn giản và quan trọng trong triển khai trên cơ sở dữ liệu lớn Các chương sau sẽ mở rộng về mô hình đồ thị và khái niệm biến ẩn
3.8 Ghi chú
Trang 19
BÀI TẬP CHƯƠNG 3
Câu 1 :Trong một bài toán hai lớp, tỷ lệ xác suất (likelihood ratio) được định nghĩa là
P(x | C ): Xác suất của dữ liệu x xuất hiện cho biết lớp C ₁): Xác suất của dữ liệu x xuất hiện cho biết lớp C₁ ₁): Xác suất của dữ liệu x xuất hiện cho biết lớp C₁
P(x | C ): Xác suất của dữ liệu x xuất hiện cho biết lớp C ₂): Xác suất của dữ liệu x xuất hiện cho biết lớp C₂ ₂): Xác suất của dữ liệu x xuất hiện cho biết lớp C₂
Hàm phân biệt dựa trên tỷ lệ xác suất là: [ \text{Hàm phân biệt} =
Trang 20
BÀI GIẢI
Câu 1 Tỷ số khả năng (Likelihood Ratio)
Tỷ số khả năng trong bài toán hai lớp được định nghĩa là:
Tỷ số khả năng = P(x | C ) / P(x | C )₁): Xác suất của dữ liệu x xuất hiện cho biết lớp C₁ ₂): Xác suất của dữ liệu x xuất hiện cho biết lớp C₂
Với:
P(x | C ): Xác suất của dữ liệu x xuất hiện cho biết lớp C là đúng.₁): Xác suất của dữ liệu x xuất hiện cho biết lớp C₁ ₁): Xác suất của dữ liệu x xuất hiện cho biết lớp C₁ P(x | C ): Xác suất của dữ liệu x xuất hiện cho biết lớp C là đúng.₂): Xác suất của dữ liệu x xuất hiện cho biết lớp C₂ ₂): Xác suất của dữ liệu x xuất hiện cho biết lớp C₂ Hàm phân biệt (Discriminant Function) dựa trên Tỷ số khả năng:Hàm phân biệt có thể được viết dựa trên Tỷ số khả năng như sau:Hàm phân biệt = log(Tỷ số khả năng) = log(P(x | C ) / P(x | C ))₁): Xác suất của dữ liệu x xuất hiện cho biết lớp C₁ ₂): Xác suất của dữ liệu x xuất hiện cho biết lớp C₂
Trang 21
BÀI TẬP CHƯƠNG 3
Câu 2: Trong một bài toán hai lớp, log odds được định nghĩa là log odds =log P(C | x): Xác suất lớp C là đúng cho biết dữ liệu x xuất hiện ₁): Xác suất của dữ liệu x xuất hiện cho biết lớp C₁ ₁): Xác suất của dữ liệu x xuất hiện cho biết lớp C₁
P(C | x): Xác suất lớp C là đúng cho biết dữ liệu x xuất hiện ₂): Xác suất của dữ liệu x xuất hiện cho biết lớp C₂ ₂): Xác suất của dữ liệu x xuất hiện cho biết lớp C₂
Hàm phân biệt có thể được viết dựa trên Log Odds như sau:
Hàm phân biệt = Log Odds =
Trang 22
Câu 2: Log Odds
Log Odds trong bài toán hai lớp được định nghĩa là:
Log Odds = log(P(C | x) / P(C | x)) ₁): Xác suất của dữ liệu x xuất hiện cho biết lớp C₁ ₂): Xác suất của dữ liệu x xuất hiện cho biết lớp C₂
Với:
P(C | x): Xác suất lớp C là đúng cho biết dữ liệu x xuất hiện ₁): Xác suất của dữ liệu x xuất hiện cho biết lớp C₁ ₁): Xác suất của dữ liệu x xuất hiện cho biết lớp C₁ P(C | x): Xác suất lớp C là đúng cho biết dữ liệu x xuất hiện ₂): Xác suất của dữ liệu x xuất hiện cho biết lớp C₂ ₂): Xác suất của dữ liệu x xuất hiện cho biết lớp C₂ Hàm phân biệt (Discriminant Function) dựa trên Log Odds: Hàm phân biệt có thể được viết dựa trên Log Odds như sau: Hàm phân biệt = Log Odds = log(P(C | x) / P(C | x)) ₁): Xác suất của dữ liệu x xuất hiện cho biết lớp C₁ ₂): Xác suất của dữ liệu x xuất hiện cho biết lớp C₂
BÀI GIẢI
Trang 23
BÀI TẬP CHƯƠNG 3Câu 3 : Quy tắc quyết định tối ưu với Ma trận Lỗ (Loss Matrix)
Với ma trận lỗ được cho như sau:
Lỗ = [[0, 10],
[1, 0]]
Quy tắc quyết định tối ưu sẽ là:
Chọn lớp C nếu:₁): Xác suất của dữ liệu x xuất hiện cho biết lớp C₁
P(C | x) > P(C | x)₁): Xác suất của dữ liệu x xuất hiện cho biết lớp C₁ ₂): Xác suất của dữ liệu x xuất hiện cho biết lớp C₂
Chọn lớp C nếu:₂): Xác suất của dữ liệu x xuất hiện cho biết lớp C₂
P(C | x) < P(C | x)₁): Xác suất của dữ liệu x xuất hiện cho biết lớp C₁ ₂): Xác suất của dữ liệu x xuất hiện cho biết lớp C₂
Trang 24
BÀI GIẢICâu 3: Quy tắc quyết định tối ưu với Ma trận Lỗ (Loss Matrix)Với ma trận lỗ được cho như sau:
Lỗ = [[0, 10],
[1, 0]]
Quy tắc quyết định tối ưu sẽ là:
Chọn lớp C nếu:₁): Xác suất của dữ liệu x xuất hiện cho biết lớp C₁
P(C | x) > P(C | x)₁): Xác suất của dữ liệu x xuất hiện cho biết lớp C₁ ₂): Xác suất của dữ liệu x xuất hiện cho biết lớp C₂
Chọn lớp C nếu:₂): Xác suất của dữ liệu x xuất hiện cho biết lớp C₂
P(C | x) < P(C | x)₁): Xác suất của dữ liệu x xuất hiện cho biết lớp C₁ ₂): Xác suất của dữ liệu x xuất hiện cho biết lớp C₂
Trang 25Mô hình cascade ba tầng với loại bỏ hoạt động như sau:
Mức 1: Sử dụng một mô hình để phân loại dữ liệu.
Nếu dữ liệu bị loại bỏ ở mức 1, nó sẽ được chuyển đến mức 2.
Mức 2: Sử dụng một mô hình khác để phân loại dữ liệu.
Nếu dữ liệu vẫn bị loại bỏ ở mức 2, nó sẽ được chuyển đến mức 3.
Mức 3: Sử dụng mô hình cuối cùng để phân loại dữ liệu.
Việc chọn các mô hình cho từng mức và cách thức điều chỉnh giá trị A (tương ứng với mức độ
loại bỏ) cần được thực hiện dựa trên tập dữ liệu và mục đích sử dụng mô hình.
Trang 26
BÀI TẬP CHƯƠNG 3
Câu 5 : Ai đó tung một đồng xu công bằng và nếu kết quả là mặt ngửa, bạn sẽ không nhận được gì, nếu không bạn sẽ nhận được 5 đô la Bạn sẽ trả bao nhiêu để chơi trò chơi này? Điều gì sẽ xảy ra nếu người thắng $500 thay vì $57
Lời giải :
Trò chơi tung đồng xu
Trường hợp 1: Giải thưởng $5
Giá trị mong đợi của trò chơi này là:
E = (1/2) * 0 + (1/2) * 5 = $2.5
Do đó, bạn nên trả tối đa $2.5 để chơi trò chơi này.
Trường hợp 2: Giải thưởng $500
Giá trị mong đợi của trò chơi này là:
E = (1/2) * 0 + (1/2) * 500 = $250
Do đó, bạn nên trả tối đa $250 để chơi trò chơi này
Trang 27LÝ THUYẾT
CÂY RA
QUYẾT ĐỊNH
Trang 28
Thế nào cây ra quyết định ?
…
Ra quyết định
Hậu quả Rủi ro
Trang 299.1 Giới thiệu
cho toàn bộ không
gian đầu vào.
• Xác định mô hình cục bộ cho mỗi vùng dựa trên dữ liệu huấn luyện trong vùng đó.
• Sử dụng mô hình cục bộ tương ứng cho mỗi đầu vào thử nghiệm.
Thực hiện một hàm kiểm tra fm(x) với các kết quả riêng biệt được gán nhãn cho các nhánh
Đại diện cho một vùng cục bộ trong không gian đầu vào
Trang 30Ví dụ
Hình 9.1 Ví dụ về tập dữ liệu và cây quyết định tương ứng
Trang 31Là mỗi nút bên trong chỉ sử dụng một chiều đầu vào Nếu chiều đầu vào là rời rạc, nút sẽ kiểm tra giá trị của nó và chia thành n nhánh tương ứng với các giá trị có thể của chiều đó
Ví dụ: nếu chiều màu có các giá trị {đỏ, xanh lam, xanh lục}, thì một
nút trên chiều đó sẽ có ba nhánh, mỗi nhánh tương ứng với một giá trị
có thể của chiều
9.2 Cây đơn biến
Trang 329.2 Cây đơn biến
Nút quyết định có các nhánh riêng biệt và đầu vào số phải được rời rạc hóa Nếu
là số (có thứ tự), phép kiểm tra là phép so sánh :
Trong đó:
: giá trị ngưỡng được chọn phù hợp.
Chia không gian đầu vào thành hai sự phân chia nhị phân
= {x/ > } và = {x| ≤ }
Trang 339.3 Cắt tỉa
Một Nút không được phân chia nếu số lượng phiên bản và ngăn chặn lỗi có tỷ lệ phần tram ít hơn
so với ban đầu nhất định được gọi
là quá trình cắt tỉa và đồng thời loại bỏ một số các cây con tránh làm đầy quá mức.
Trang 349.3 Cắt tỉa
Hình 9.5: Cây hồi quy thực hiện làm mịn hình 9.4 cho các giá trị khác của
Trang 35
: Loại công việc
Hình 9.6 Ví dụ về cây quyết định (giả định) Mỗi đường đi từ gốc đến lá có thể được viết
dưới dạng một quy tắc liên hợp, bao gồm các điều kiện được xác định bởi các nút quyết định trên đường đi.
9.3 Cắt tỉa
Trang 369.4 Trích suất luật từ cây
Khả năng của cây quyết định trích suất tính năng riêng nơi chỉ sử dụng các biến cần thiết bằng cách chọn những biến được sử dụng ban đầu vào các phương pháp học khác
Các nút quyết định mang theo các điều kiện và chuyển đổi thành các
tỷ lệ IF -Then làm cho nó trở nên rất dễ giải “C4.5 rules là phương pháp tạo ra cơ sở quy tắc hiểu rõ quyết định của mô hình “
Trang 37
Ví dụ:
Cây quyết định của hình 9.6 có thể được viết dưới dạng tập hợp các quy tắc sau:
R1: IF (38,5 tuổi) AND (số năm làm việc>2,5) THEN y = 0,8
R2: IF (tuổi > 38,5) AND (số năm làm việc<2,5) THEN y = 0,6
R3: IF (38,5 tuổi) AND (loại công việc='A') THEN y = 0,4
R4: IF (tuổi < 38,5) AND (loại công việc='B*) THEN y = 0,3
R5: IF (tuổi < 38,5) AND (loại công việc='C') THEN y = 0,2
Cơ sở quy tắc như vậy cho phép trích xuất tri thức nó có thể dễ hiểu và cho phép các chuyên gia xác minh mô hình đã học được từ dữ liệu.Các quy tắc phản ánh các đặc điểm chính của tập dữ liệu: chúng hiển thị các tính năng quan trọng
và phân chia vị trí
Trang 38Ngoài ra
Quy tắc cắt tỉa
Quy tắc cắt tỉa có thể được đơn giản hóa Việc cắt tỉa một cây con tương ứng với việc cắt tỉa các thuật ngữ từ một số quy tắc cùng một lúc Có thể cắt bớt một thuật ngữ khỏi một quy tắc mà không cần chạm vào các quy tắc khác
Ví dụ: Trong bộ quy tắc trước đó, đối với R3, nếu chúng ta thấy rằng tất cả
những người có loại công việc = 'A' có kết quả gần bằng 0,4 bất kể độ tuổi, thì R3 có thể được cắt bớt thành
R3': IF (loại công việc = 'A') THEN y = 0,4
Trang 399.5 Quy tắc học tập từ dữ liệu
Là một phương pháp học máy sử dụng để tạo ra
các quy tắc IF-THEN từ dữ liệu để phân loại các
dữ liệu mới, dự đoán giá trị của một thuộc tính hoặc hiểu mối quan hệ giữa các thuộc tính thêm các điều kiện vào một quy tắc cho đến khi nó bao trùm tất cả các ví dụ dương trong tập huấn luyện Các điều kiện được thêm vào để tối đa hóa một số tiêu chí, chẳng hạn như giảm thiểu entropy hoặc thu được thông tin.
Trang 409.5 Quy tắc học tập từ dữ liệu
Ripper hoạt động theo các bước sau:
1 Khởi tạo một quy tắc trống
2 Lặp lại cho đến khi không còn ví dụ dương nào trong tập huấn luyện
3 Thêm điều kiện vào quy tắc để tối đa hóa một số tiêu chí
4 Cắt tỉa quy tắc để cải thiện độ chính xác (là quá trình loại bỏ các điều kiện khỏi quy tắc mà không làm giảm độ chính xác của quy tắc)
Trang 419.5 Quy tắc học tập từ dữ liệu
Ví dụ :
Giả sử chúng ta có tập dữ liệu gồm các ví dụ về bệnh nhân ung thư và không ung thư Tập dữ liệu này bao gồm các thông tin về tuổi, giới tính, tiền sử gia đình, triệu chứng, v.v Chúng ta muốn sử dụng Ripper để tạo ra một
mô hình có thể phân loại các bệnh nhân mới là ung thư hay không
IF age > 50 AND sex = "male" AND family_history
= "yes" THEN class = "cancer"