1. Trang chủ
  2. » Giáo Dục - Đào Tạo

Thực tập tốt nghiệp báo cáo thực tập tốt nghiệp xây dựng học liệu cho học phần ai giải thích Được

98 0 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Xây dựng học liệu cho học phần AI giải thích được
Tác giả Phạm Lê Anh
Người hướng dẫn TS. Trần Anh Tú
Trường học Học viện Kỹ thuật Mật mã
Chuyên ngành An toàn thông tin
Thể loại Báo cáo thực tập tốt nghiệp
Năm xuất bản 2024
Thành phố Hà Nội
Định dạng
Số trang 98
Dung lượng 1,47 MB

Cấu trúc

  • Chương 1: Giới thiệu (6)
  • CHƯƠNG 2: TỔNG QUÁT KHÁI NIỆM (7)
    • I. Học máy là gì? (7)
    • II. Thuật ngữ (9)
  • Chương 3 Khả năng diễn giải (12)
    • 3.1 Tầm quan trọng của khả năng diễn giải (13)
    • 3.2 Phân loại các phương pháp diễn giải (21)
    • 3.3 Phạm vi khả năng diễn giải (23)
      • 3.3.1 Tính minh bạch của thuật toán (23)
      • 3.3.2 Khả năng diễn giải mô hình toàn diện, toàn cầu (24)
      • 3.3.3 Khả năng diễn giải mô hình toàn cục ở cấp độ mô-đun (24)
      • 3.3.4 Khả năng diễn giải cục bộ cho một dự đoán đơn lẻ (25)
      • 3.3.5 Khả năng diễn giải cục bộ cho một nhóm dự đoán (26)
    • 3.4 Đánh giá khả năng diễn giải (26)
    • 3.5 Tính chất của Giải thích (27)
    • 3.6 Giải thích thân thiện với con người (30)
      • 3.6.1 Giải thích là gì? (30)
      • 3.6.2 Giải thích tốt là gì? (31)
  • Chương 4: Bộ dữ liệu (36)
    • 4.1 Thuê xe đạp (Hồi quy) (36)
    • 4.2 Các yếu tố nguy cơ ung thư cổ tử cung (Phân loại) (37)
  • Chương 5 Các mô hình có thể diễn giải (38)
    • 5.1 Hồi quy tuyến tính (40)
      • 5.1.1 Diễn giải (43)
      • 5.1.2 Ví dụ (46)
      • 5.1.4 Giải thích các kỳ vọng riêng lẻ (52)
      • 5.1.5 Mã hóa các tính năng phân loại (54)
      • 5.1.6 Các mô hình tuyến tính có tạo ra các giải thích tốt không? (56)
      • 5.1.7 Các mô hình tuyến tính thưa thớt (57)
      • 5.1.8 Ưu điểm (61)
      • 5.1.9 Nhược điểm (62)
    • 5.2 Hồi quy logistic (63)
      • 5.2.1 Sai lầm của hồi quy tuyến tính trong phân loại là gì? (63)
      • 5.2.2 Lý thuyết (65)
      • 5.2.3 Diễn giải (67)
      • 5.2.4 Ví dụ (69)
      • 5.2.5 Ưu điểm và nhược điểm (70)
      • 5.2.6 Phần mềm (71)
    • 5.3 GLM, GAM và nhiều hơn nữa (71)
      • 5.3.1 Kết quả không theo chuẩn Gauss - GLM (74)
      • 5.3.2 Tương tác (81)
      • 5.3.3 Ưu điểm (82)
      • 5.3.4 Nhược điểm (83)
      • 5.3.5 Phần mềm (84)
      • 5.3.6 Các phần mở rộng khác (84)
    • 5.4 Cây quyết định (85)
      • 5.4.1 Diễn giải (86)
      • 5.4.3 Ưu điểm (87)
      • 5.4.4 Nhược điểm (88)
      • 5.4.5 Phần mềm (89)
    • 5.5 Các mô hình có thể diễn giải khác (89)
      • 5.5.1 Bộ phân loại Bayes ngây thơ (89)
      • 5.5.2 K-Nearest Neighbors (90)
  • Chương 6 Phương pháp không phụ thuộc vào mô hình (91)
  • Kết luận (96)
  • Tài liệu tham khảo (97)

Nội dung

Đó là lý do tại sao bạn sẽ không tìm thấy những phương pháp mới lạ và lạ mắt nhất trong cuốn sách này, mà là các phương pháp đã được thiết lập và cáckhái niệm cơ bản về khả năng diễn giả

Giới thiệu

Báo cáo này giải thích cho bạn cách làm cho các mô hình học máy (có giám sát) có thể diễn giải được Các chương có chứa một số công thức toán học, nhưng bạn sẽ có thể hiểu được ý tưởng đằng sau các phương pháp ngay cả khi không có công thức Cuốn sách này không dành cho những người đang cố gắng học máy từ đầu. Nếu bạn mới làm quen với máy học, có rất nhiều sách và tài nguyên khác để tìm hiểu những điều cơ bản Tôi khuyên bạn nên đọc cuốn sách “The Elements of Statistical Learning” của Hastie, Tibshirani và Friedman (2009) 1 và khóa học trực tuyến “Machine Learning” của Andrew Ng trên nền tảng học trực tuyến coursera.com để bắt đầu với máy học Cả cuốn sách và khóa học đều miễn phí!

Các phương pháp mới để diễn giải các mô hình học máy được xuất bản với tốc độ chóng mặt Việc theo kịp mọi thứ được xuất bản sẽ là điều điên rồ và đơn giản là không thể Đó là lý do tại sao bạn sẽ không tìm thấy những phương pháp mới lạ và lạ mắt nhất trong cuốn sách này, mà là các phương pháp đã được thiết lập và các khái niệm cơ bản về khả năng diễn giải của máy học Những điều cơ bản này giúp bạn chuẩn bị để làm cho các mô hình học máy có thể diễn giải được Việc tiếp thu các khái niệm cơ bản cũng giúp bạn hiểu rõ hơn và đánh giá tốt hơn bất kỳ bài báo mới nào về khả năng diễn giải được xuất bản trên arxiv.org trong 5 phút kể từ khi bạn bắt đầu đọc cuốn sách này (tôi có thể đang phóng đại tỷ lệ xuất bản).

Cuốn sách này bắt đầu bằng một số truyện ngắn (phản địa đàng) không cần thiết để hiểu cuốn sách, nhưng hy vọng sẽ giải trí và khiến bạn suy nghĩ Sau đó, cuốn sách khám phá các khái niệm về khả năng diễn giải của máy học Chúng ta sẽ thảo luận về thời điểm khả năng diễn giải trở nên quan trọng và các loại giải thích khác nhau hiện có Các thuật ngữ được sử dụng trong toàn bộ cuốn sách có thể được tra cứu trong chương Thuật ngữ Hầu hết các mô hình và phương pháp được giải thích đều được trình bày bằng các ví dụ dữ liệu thực tế được mô tả trong chương Dữ liệu.

Một cách để làm cho máy học có thể diễn giải được là sử dụng các mô hình có thể diễn giải được, chẳng hạn như mô hình tuyến tính hoặc cây quyết định Tùy chọn khác là sử dụng các công cụ diễn giải không phụ thuộc vào mô hình có thể áp dụng cho bất kỳ mô hình máy học có giám sát nào Các phương pháp không phụ thuộc vào mô hình có thể được chia thành các phương pháp toàn cục mô tả hành vi trung bình của mô hình và các phương pháp cục bộ giải thích các dự đoán riêng lẻ.Chương Phương pháp không phụ thuộc mô hình đề cập đến các phương pháp như biểu đồ phụ thuộc một phần và tầm quan trọng của tính năng Các phương pháp không phụ thuộc mô hình hoạt động bằng cách thay đổi đầu vào của mô hình học máy và đo lường những thay đổi trong đầu ra dự đoán Cuốn sách kết thúc với một viễn cảnh lạc quan về tương lai của học máy có thể diễn giải được.

TỔNG QUÁT KHÁI NIỆM

Học máy là gì?

Học máy là một tập hợp các phương pháp mà máy tính sử dụng để đưa ra và cải thiện các dự đoán hoặc hành vi dựa trên dữ liệu.

Ví dụ, để dự đoán giá trị của một ngôi nhà, máy tính sẽ học các mẫu từ các giao dịch bán nhà trong quá khứ Cuốn sách tập trung vào học máy có giám sát, bao gồm tất cả các vấn đề dự đoán trong đó chúng ta có một tập dữ liệu mà chúng ta đã biết kết quả mong muốn (ví dụ: giá nhà trong quá khứ) và muốn học cách dự đoán kết quả cho dữ liệu mới Học máy có giám sát không bao gồm các tác vụ phân cụm(= học không giám sát) trong đó chúng ta không có kết quả mong muốn cụ thể nhưng muốn tìm các cụm điểm dữ liệu Học tăng cường cũng không bao gồm,trong đó một tác nhân học cách tối ưu hóa phần thưởng nhất định bằng cách hành động trong một môi trường (ví dụ: máy tính chơi Tetris) Mục tiêu của học máy có giám sát là học một mô hình dự đoán ánh xạ các đặc điểm của dữ liệu (ví dụ: kích thước ngôi nhà, vị trí, loại sàn, ) thành đầu ra (ví dụ: giá nhà) Nếu đầu ra là phân loại, thì nhiệm vụ được gọi là phân loại, và nếu là số, thì được gọi là hồi quy. Thuật toán học máy học một mô hình bằng cách ước tính các tham số (như trọng số) hoặc học các cấu trúc (như cây) Thuật toán được hướng dẫn bởi một hàm điểm hoặc mất mát được giảm thiểu Trong ví dụ về giá trị nhà, máy sẽ giảm thiểu sự khác biệt giữa giá nhà ước tính và giá dự đoán Sau đó, có thể sử dụng một mô hình học máy được đào tạo đầy đủ để đưa ra dự đoán cho các trường hợp mới. Ước tính giá nhà, đề xuất sản phẩm, phát hiện biển báo đường phố, dự đoán vỡ nợ tín dụng và phát hiện gian lận: Tất cả các ví dụ này đều có điểm chung là chúng có thể được giải quyết bằng máy học Các nhiệm vụ khác nhau, nhưng cách tiếp cận thì giống nhau:

Bước 1: Thu thập dữ liệu Càng nhiều càng tốt Dữ liệu phải chứa kết quả bạn muốn dự đoán và thông tin bổ sung để đưa ra dự đoán Đối với máy dò biển báo đường phố ("Có biển báo đường phố trong hình ảnh không?"), bạn sẽ thu thập hình ảnh đường phố và dán nhãn xem biển báo đường phố có hiển thị hay không Đối với một công cụ dự đoán tín dụng mặc định, bạn cần dữ liệu trong quá khứ về các khoản vay thực tế, thông tin về việc khách hàng có vỡ nợ hay không và dữ liệu giúp bạn đưa ra dự đoán, chẳng hạn như thu nhập, các khoản vỡ nợ tín dụng trong quá khứ, v.v Đối với một chương trình ước tính giá trị nhà tự động, bạn có thể thu thập dữ liệu từ các giao dịch mua bán nhà trong quá khứ và thông tin về bất động sản như kích thước, vị trí, v.v.

Bước 2: Nhập thông tin này vào thuật toán học máy tạo ra mô hình phát hiện dấu hiệu, mô hình xếp hạng tín dụng hoặc công cụ ước tính giá trị nhà.

Bước 3: Sử dụng mô hình với dữ liệu mới Tích hợp mô hình vào sản phẩm hoặc quy trình, chẳng hạn như ô tô tự lái, quy trình đăng ký tín dụng hoặc trang web thị trường bất động sản.

Máy móc vượt trội hơn con người trong nhiều nhiệm vụ, chẳng hạn như chơi cờ vua (hoặc gần đây hơn là Cờ vây) hoặc dự đoán thời tiết Ngay cả khi máy móc giỏi như con người hoặc kém hơn một chút trong một nhiệm vụ, vẫn có những lợi thế lớn về tốc độ, khả năng tái tạo và khả năng mở rộng Một mô hình học máy đã được triển khai có thể hoàn thành nhiệm vụ nhanh hơn nhiều so với con người, cung cấp kết quả nhất quán một cách đáng tin cậy và có thể sao chép vô hạn Sao chép mô hình máy học trên máy khác vừa nhanh vừa rẻ Việc đào tạo con người cho một nhiệm vụ có thể mất hàng thập kỷ (đặc biệt là khi họ còn trẻ) và rất tốn kém Một nhược điểm lớn của việc sử dụng máy học là thông tin chi tiết về dữ liệu và nhiệm vụ mà máy giải quyết bị ẩn trong các mô hình ngày càng phức tạp Bạn cần hàng triệu con số để mô tả một mạng nơ-ron sâu và không có cách nào để hiểu toàn bộ mô hình Các mô hình khác, chẳng hạn như rừng ngẫu nhiên, bao gồm hàng trăm cây quyết định "bỏ phiếu" cho các dự đoán Để hiểu cách đưa ra quyết định, bạn sẽ phải xem xét các phiếu bầu và cấu trúc của từng cây trong số hàng trăm cây Điều đó không hiệu quả cho dù bạn thông minh đến đâu hay trí nhớ làm việc của bạn tốt đến đâu Các mô hình hoạt động tốt nhất thường là sự kết hợp của một số mô hình (còn gọi là tập hợp) không thể diễn giải được, ngay cả khi từng mô hình riêng lẻ có thể được diễn giải Nếu bạn chỉ tập trung vào hiệu suất, bạn sẽ tự động nhận được ngày càng nhiều mô hình không rõ ràng Các mô hình chiến thắng trong các cuộc thi máy học thường là tập hợp các mô hình hoặc các mô hình rất phức tạp như cây tăng cường hoặc mạng nơ-ron sâu.

Thuật ngữ

Để tránh nhầm lẫn do mơ hồ, sau đây là một số định nghĩa về các thuật ngữ được sử dụng trong cuốn sách này:

Thuật toán là một tập hợp các quy tắc mà máy móc tuân theo để đạt được một mục tiêu cụ thể2 Thuật toán có thể được coi là một công thức xác định các đầu vào, đầu ra và tất cả các bước cần thiết để chuyển từ đầu vào đến đầu ra Công thức nấu ăn là các thuật toán trong đó các thành phần là đầu vào, thực phẩm đã nấu chín là đầu ra và các bước chuẩn bị và nấu ăn là các hướng dẫn của thuật toán.

Học máy là một tập hợp các phương pháp cho phép máy tính học hỏi từ dữ liệu để đưa ra và cải thiện các dự đoán (ví dụ như ung thư, doanh số bán hàng hàng tuần, vỡ nợ tín dụng) Học máy là một sự thay đổi mô hình từ "lập trình thông thường" trong đó tất cả các hướng dẫn phải được cung cấp rõ ràng cho máy tính sang "lập trình gián tiếp" diễn ra thông qua việc cung cấp dữ liệu.

Thuật toán Học viên hoặc Học máy là chương trình được sử dụng để học một mô hình học máy từ dữ liệu Một tên khác là “inducer” (ví dụ: “tree inducer”).

Mô hình Học máy là chương trình đã học ánh xạ các đầu vào thành các dự đoán. Đây có thể là một tập hợp các trọng số cho một mô hình tuyến tính hoặc cho một mạng nơ-ron Các tên khác cho từ “mô hình” không cụ thể là “predictor” hoặc - tùy thuộc vào nhiệm vụ - “classifier” hoặc “regression model” Trong các công thức, mô hình học máy đã được đào tạo được gọi là ff^ hoặc ^f(x)f^(x).

HÌNH 2.1: Người học học một mô hình từ dữ liệu đào tạo được gắn nhãn Mô hình được sử dụng để đưa ra dự đoán.

Mô hình hộp đen là một hệ thống không tiết lộ các cơ chế bên trong của nó Trong học máy, "hộp đen" mô tả các mô hình không thể hiểu được bằng cách xem các tham số của chúng (ví dụ: mạng nơ-ron) Đôi khi, đối lập với hộp đen được gọi là Hộp trắng và được gọi trong sách này là mô hình có thể diễn giải Các phương pháp không phụ thuộc vào mô hình để có thể diễn giải coi các mô hình học máy là hộp đen, ngay cả khi chúng không phải vậy.

Học máy có thể diễn giải đề cập đến các phương pháp và mô hình giúp con người hiểu được hành vi và dự đoán của các hệ thống học máy.

Một tập dữ liệu là một bảng có dữ liệu mà máy học từ đó Tập dữ liệu chứa các tính năng và mục tiêu để dự đoán Khi được sử dụng để tạo ra một mô hình, tập dữ liệu được gọi là dữ liệu đào tạo.

Một trường hợp là một hàng trong tập dữ liệu Các tên gọi khác của 'trường hợp' là:(dữ liệu) điểm, ví dụ, quan sát Một trường hợp bao gồm các giá trị tính năng x(i) và, nếu biết, kết quả mục tiêu y(i).

Các tính năng là các đầu vào được sử dụng để dự đoán hoặc phân loại Một tính năng là một cột trong tập dữ liệu Trong suốt cuốn sách, các tính năng được cho là có thể diễn giải được, nghĩa là dễ hiểu ý nghĩa của chúng, chẳng hạn như nhiệt độ vào một ngày nhất định hoặc chiều cao của một người Khả năng diễn giải của các tính năng là một giả định lớn Nhưng nếu khó hiểu các tính năng đầu vào, thì thậm chí còn khó hiểu hơn về chức năng của mô hình Ma trận có tất cả các tính năng được gọi là X và x (i) đối với một trường hợp duy nhất Vectơ của một tính năng duy nhất cho tất cả các trường hợp là xj và giá trị cho tính năng j và trường hợp I là (i)jxj(i).

Mục tiêu là thông tin mà máy học để dự đoán Trong các công thức toán học, mục tiêu thường được gọi là y hoặc y I đối với một trường hợp duy nhất.

Nhiệm vụ học máy là sự kết hợp của một tập dữ liệu với các tính năng và một mục tiêu Tùy thuộc vào loại mục tiêu, nhiệm vụ có thể là phân loại, hồi quy, phân tích sinh tồn, phân cụm hoặc phát hiện ngoại lệ.

Dự đoán là những gì mô hình học máy "đoán" giá trị mục tiêu dựa trên các tính năng đã cho Trong cuốn sách này, dự đoán của mô hình được biểu thị bằng f(x(i))f^(x(i)) or ^yy^.

Khả năng diễn giải

Tầm quan trọng của khả năng diễn giải

Nếu một mô hình học máy hoạt động tốt, tại sao chúng ta không chỉ tin tưởng vào mô hình đó và bỏ qua lý do tại sao nó đưa ra một quyết định nhất định? "Vấn đề là một số liệu duy nhất, chẳng hạn như độ chính xác phân loại, là mô tả không đầy đủ về hầu hết các tác vụ trong thế giới thực." (Doshi-Velez và Kim 2017 6)

Chúng ta hãy đi sâu hơn vào lý do tại sao khả năng diễn giải lại quan trọng đến vậy Khi nói đến mô hình dự đoán, bạn phải đánh đổi: Bạn chỉ muốn biết những gì được dự đoán? Ví dụ, khả năng khách hàng sẽ rời bỏ hoặc một số loại thuốc sẽ hiệu quả như thế nào đối với bệnh nhân Hay bạn muốn biết lý do tại sao dự đoán được đưa ra và có thể phải trả giá cho khả năng diễn giải bằng sự sụt giảm hiệu suất dự đoán? Trong một số trường hợp, bạn không quan tâm đến lý do tại sao một quyết định được đưa ra, chỉ cần biết rằng hiệu suất dự đoán trên tập dữ liệu thử nghiệm là tốt là đủ Nhưng trong những trường hợp khác, việc biết 'lý do' có thể giúp bạn tìm hiểu thêm về vấn đề, dữ liệu và lý do tại sao một mô hình có thể thất bại Một số mô hình có thể không cần giải thích vì chúng được sử dụng trong môi trường rủi ro thấp, nghĩa là lỗi sẽ không gây ra hậu quả nghiêm trọng (ví dụ: hệ thống đề xuất phim) hoặc phương pháp đã được nghiên cứu và đánh giá rộng rãi (ví dụ: nhận dạng ký tự quang học) Nhu cầu về khả năng diễn giải phát sinh từ sự chưa hoàn thiện trong quá trình chính thức hóa vấn đề (Doshi-Velez và Kim 2017), nghĩa là đối với một số vấn đề hoặc nhiệm vụ nhất định, chỉ đưa ra dự đoán (cái gì) là chưa đủ Mô hình cũng phải giải thích cách đưa ra dự đoán (tại sao), vì dự đoán đúng chỉ giải quyết được một phần vấn đề ban đầu của bạn Những lý do sau đây thúc đẩy nhu cầu về khả năng diễn giải và giải thích (Doshi-Velez và Kim 2017 và Miller 2017).

Sự tò mò và học hỏi của con người: Con người có một mô hình tinh thần về môi trường của họ được cập nhật khi có điều gì đó bất ngờ xảy ra Bản cập nhật này được thực hiện bằng cách tìm lời giải thích cho sự kiện bất ngờ Ví dụ, một người đột nhiên cảm thấy ốm và tự hỏi: "Tại sao tôi lại cảm thấy ốm như vậy?" Anh ta biết rằng mình bị ốm mỗi khi ăn những quả mọng đỏ đó Ông cập nhật mô hình tinh thần của mình và quyết định rằng quả mọng gây ra bệnh tật và do đó nên tránh Khi các mô hình học máy mờ đục được sử dụng trong nghiên cứu, các phát hiện khoa học vẫn hoàn toàn ẩn nếu mô hình chỉ đưa ra dự đoán mà không có lời giải thích Để tạo điều kiện thuận lợi cho việc học và thỏa mãn sự tò mò về lý do tại sao một số dự đoán hoặc hành vi nhất định được tạo ra bởi máy móc, khả năng diễn giải và giải thích là rất quan trọng Tất nhiên, con người không cần giải thích cho mọi thứ xảy ra Đối với hầu hết mọi người, việc họ không hiểu cách máy tính hoạt động là điều bình thường Những sự kiện bất ngờ khiến chúng ta tò mò Ví dụ: Tại sao máy tính của tôi đột nhiên tắt máy?

Có liên quan chặt chẽ đến việc học là mong muốn tìm kiếm ý nghĩa trong thế giới của con người Chúng ta muốn hài hòa các mâu thuẫn hoặc sự không nhất quán giữa các yếu tố trong cấu trúc kiến thức của mình "Tại sao con chó của tôi lại cắn tôi mặc dù trước đây nó chưa từng làm như vậy?" một người có thể hỏi Có một mâu thuẫn giữa kiến thức về hành vi trong quá khứ của con chó và trải nghiệm khó chịu mới xảy ra về vết cắn Lời giải thích của bác sĩ thú y đã hòa giải mâu thuẫn của chủ chó: "Con chó đang bị căng thẳng và cắn" Quyết định của máy móc càng ảnh hưởng đến cuộc sống của một người thì máy móc càng cần giải thích hành vi của mình Nếu một mô hình học máy từ chối đơn xin vay, điều này có thể hoàn toàn bất ngờ đối với người nộp đơn Họ chỉ có thể dung hòa sự không nhất quán này giữa kỳ vọng và thực tế bằng một số loại giải thích Các giải thích thực tế không nhất thiết phải giải thích đầy đủ tình huống, nhưng phải giải quyết được nguyên nhân chính Một ví dụ khác là đề xuất sản phẩm theo thuật toán Cá nhân tôi luôn nghĩ về lý do tại sao một số sản phẩm hoặc bộ phim nhất định được thuật toán đề xuất cho tôi Thường thì khá rõ ràng: Quảng cáo theo dõi tôi trên Internet vì tôi vừa mới mua một chiếc máy giặt và tôi biết rằng trong những ngày tới, tôi sẽ được theo dõi bởi các quảng cáo về máy giặt Đúng vậy, việc đề xuất găng tay là hợp lý nếu tôi đã có một chiếc mũ mùa đông trong giỏ hàng của mình Thuật toán đề xuất bộ phim này vì những người dùng thích các bộ phim khác mà tôi thích cũng thích bộ phim được đề xuất Ngày càng nhiều các công ty Internet thêm các giải thích vào các đề xuất của họ Một ví dụ điển hình là các đề xuất sản phẩm, dựa trên các kết hợp sản phẩm thường được mua:

HÌNH 3.1: Các sản phẩm được đề xuất thường được mua cùng nhau.

Trong nhiều ngành khoa học, có sự thay đổi từ phương pháp định tính sang định lượng (ví dụ: xã hội học, tâm lý học) và cũng hướng tới học máy (sinh học, di truyền học) Mục tiêu của khoa học là thu thập kiến thức, nhưng nhiều vấn đề được giải quyết bằng các tập dữ liệu lớn và mô hình học máy hộp đen Bản thân mô hình trở thành nguồn kiến thức thay vì dữ liệu Khả năng diễn giải giúp trích xuất kiến thức bổ sung này do mô hình nắm bắt được.

Các mô hình học máy thực hiện các nhiệm vụ trong thế giới thực đòi hỏi các biện pháp an toàn và thử nghiệm Hãy tưởng tượng một chiếc xe tự lái tự động phát hiện người đi xe đạp dựa trên hệ thống học sâu Bạn muốn chắc chắn 100% rằng sự trừu tượng mà hệ thống đã học được là không có lỗi, vì việc cán qua người đi xe đạp là khá tệ Một lời giải thích có thể tiết lộ rằng tính năng học được quan trọng nhất là nhận dạng hai bánh xe đạp và lời giải thích này giúp bạn nghĩ về các trường hợp ngoại lệ như xe đạp có túi bên che một phần bánh xe.

Theo mặc định, các mô hình học máy sẽ thu thập các sai lệch từ dữ liệu đào tạo. Điều này có thể biến các mô hình học máy của bạn thành những kẻ phân biệt chủng tộc, phân biệt đối xử với các nhóm chưa được đại diện đầy đủ Khả năng diễn giải là một công cụ gỡ lỗi hữu ích để phát hiện sự thiên vị trong các mô hình học máy Có thể xảy ra trường hợp mô hình học máy mà bạn đã đào tạo để tự động phê duyệt hoặc từ chối các đơn xin tín dụng phân biệt đối xử với một nhóm thiểu số vốn đã bị tước quyền trong lịch sử Mục tiêu chính của bạn là chỉ cấp các khoản vay cho những người cuối cùng sẽ trả nợ Sự không đầy đủ của việc xây dựng vấn đề trong trường hợp này nằm ở chỗ bạn không chỉ muốn giảm thiểu tình trạng vỡ nợ mà còn có nghĩa vụ không được phân biệt đối xử dựa trên một số đặc điểm nhân khẩu học nhất định Đây là một ràng buộc bổ sung là một phần trong việc xây dựng vấn đề của bạn (cấp các khoản vay theo cách tuân thủ và ít rủi ro) không được hàm mất mát mà mô hình học máy đã được tối ưu hóa bao gồm.

Quá trình tích hợp máy móc và thuật toán vào cuộc sống hàng ngày của chúng ta đòi hỏi khả năng diễn giải để tăng sự chấp nhận của xã hội Mọi người gán niềm tin, mong muốn, ý định, v.v cho các đối tượng Trong một thí nghiệm nổi tiếng, Heider và Simmel (1944) 7 đã cho những người tham gia xem video về các hình dạng mà một vòng tròn mở ra một "cánh cửa" để vào một "căn phòng" (chỉ đơn giản là một hình chữ nhật) Những người tham gia mô tả hành động của các hình dạng như cách họ mô tả hành động của một tác nhân con người, gán ý định và thậm chí là cảm xúc và đặc điểm tính cách cho các hình dạng Robot là một ví dụ điển hình, như máy hút bụi của tôi, mà tôi đặt tên là "Doge" Nếu Doge bị kẹt, tôi nghĩ: "Doge muốn tiếp tục dọn dẹp, nhưng nhờ tôi giúp vì nó bị kẹt." Sau đó, khi Doge dọn dẹp xong và tìm kiếm căn cứ để sạc lại, tôi nghĩ: "Doge có mong muốn sạc lại và có ý định tìm căn cứ." Tôi cũng gán cho Doge các đặc điểm tính cách:

"Doge hơi ngốc, nhưng theo một cách dễ thương." Đây là suy nghĩ của tôi, đặc biệt là khi tôi phát hiện ra rằng Doge đã làm đổ một cây trong khi tận tụy hút bụi nhà. Một cỗ máy hoặc thuật toán giải thích được các dự đoán của nó sẽ được chấp nhận nhiều hơn Xem thêm chương về giải thích, trong đó lập luận rằng giải thích là một quá trình xã hội.

Giải thích được sử dụng để quản lý các tương tác xã hội Bằng cách tạo ra một ý nghĩa chung về một điều gì đó, người giải thích sẽ tác động đến hành động, cảm xúc và niềm tin của người nhận lời giải thích Để một cỗ máy có thể tương tác với chúng ta, nó có thể cần định hình cảm xúc và niềm tin của chúng ta Máy móc phải

"thuyết phục" chúng ta để chúng có thể đạt được mục tiêu đã định Tôi sẽ không hoàn toàn chấp nhận máy hút bụi rô-bốt của mình nếu nó không giải thích được hành vi của mình ở một mức độ nào đó Máy hút bụi tạo ra một ý nghĩa chung, ví dụ, về một "tai nạn" (như bị kẹt trên thảm phòng tắm một lần nữa) bằng cách giải thích rằng nó bị kẹt thay vì chỉ dừng lại để làm việc mà không bình luận Điều thú vị là có thể có sự không phù hợp giữa mục tiêu của máy giải thích (tạo lòng tin) và mục tiêu của người nhận (hiểu dự đoán hoặc hành vi) Có lẽ lời giải thích đầy đủ về lý do tại sao Doge bị kẹt có thể là do pin rất yếu, một trong các bánh xe không hoạt động bình thường và có một lỗi khiến rô-bốt liên tục đến cùng một điểm mặc dù có chướng ngại vật Những lý do này (và một vài lý do khác) khiến robot bị kẹt, nhưng nó chỉ giải thích rằng có thứ gì đó cản đường, và thế là đủ để tôi tin vào hành vi của nó và hiểu được ý nghĩa chung của vụ tai nạn đó Nhân tiện, Doge lại bị kẹt trong phòng tắm Chúng tôi phải tháo thảm mỗi lần trước khi để Doge hút bụi.

HÌNH 3.2: Doge, máy hút bụi của chúng tôi, bị kẹt Để giải thích cho vụ tai nạn, Doge nói với chúng tôi rằng nó cần phải ở trên một bề mặt bằng phẳng.

Các mô hình học máy chỉ có thể được gỡ lỗi và kiểm tra khi chúng có thể được diễn giải Ngay cả trong các môi trường rủi ro thấp, chẳng hạn như đề xuất phim, khả năng diễn giải vẫn có giá trị trong giai đoạn nghiên cứu và phát triển cũng như sau khi triển khai Sau đó, khi một mô hình được sử dụng trong sản phẩm, mọi thứ có thể trở nên sai lệch Việc diễn giải cho một dự đoán sai lầm giúp hiểu được nguyên nhân của lỗi Nó đưa ra hướng dẫn về cách sửa hệ thống Hãy xem xét một ví dụ về bộ phân loại husky so với sói phân loại sai một số husky thành sói Sử dụng các phương pháp học máy có thể diễn giải, bạn sẽ thấy rằng việc phân loại sai là do tuyết trên hình ảnh Bộ phân loại đã học cách sử dụng tuyết làm tính năng để phân loại hình ảnh là "sói", điều này có thể hợp lý khi phân biệt sói với husky trong tập dữ liệu đào tạo, nhưng không hợp lý khi sử dụng trong thế giới thực.

Nếu bạn có thể đảm bảo rằng mô hình học máy có thể giải thích các quyết định, bạn cũng có thể kiểm tra các đặc điểm sau dễ dàng hơn (Doshi-Velez và Kim 2017):

Công bằng: Đảm bảo rằng các dự đoán không thiên vị và không phân biệt đối xử ngầm hoặc rõ ràng với các nhóm chưa được đại diện Một mô hình có thể diễn giải có thể cho bạn biết lý do tại sao mô hình quyết định rằng một người nào đó không nên vay tiền và con người có thể dễ dàng đánh giá liệu quyết định đó có dựa trên thành kiến về nhân khẩu học đã học (ví dụ: chủng tộc) hay không.

Phân loại các phương pháp diễn giải

Các phương pháp diễn giải học máy có thể được phân loại theo nhiều tiêu chí khác nhau.

Nội tại hay hậu hoc? Tiêu chí này phân biệt khả năng diễn giải đạt được bằng cách hạn chế độ phức tạp của mô hình học máy (nội tại) hay bằng cách áp dụng các phương pháp phân tích mô hình sau khi đào tạo (hậu hoc) Khả năng diễn giải nội tại đề cập đến các mô hình học máy được coi là có thể diễn giải do cấu trúc đơn giản của chúng, chẳng hạn như cây quyết định ngắn hoặc mô hình tuyến tính thưa thớt Khả năng diễn giải hậu hoc đề cập đến việc áp dụng các phương pháp diễn giải sau khi đào tạo mô hình Ví dụ, tầm quan trọng của tính năng hoán vị là một phương pháp diễn giải hậu hoc Các phương pháp hậu hoc cũng có thể được áp dụng cho các mô hình có thể diễn giải nội tại Ví dụ, tầm quan trọng của tính năng hoán vị có thể được tính toán cho cây quyết định Tổ chức các chương trong cuốn sách này được xác định bởi sự khác biệt giữa các mô hình có thể diễn giải nội tại và các phương pháp diễn giải hậu hoc (và không phụ thuộc vào mô hình).

Kết quả của phương pháp diễn giải Các phương pháp diễn giải khác nhau có thể được phân biệt sơ bộ theo kết quả của chúng.

Thống kê tóm tắt tính năng: Nhiều phương pháp giải thích cung cấp thống kê tóm tắt cho từng tính năng Một số phương pháp trả về một số duy nhất cho mỗi tính năng, chẳng hạn như tầm quan trọng của tính năng hoặc kết quả phức tạp hơn,chẳng hạn như cường độ tương tác của từng tính năng theo cặp, bao gồm một số cho mỗi cặp tính năng.

Hình ảnh hóa tóm tắt tính năng: Hầu hết các thống kê tóm tắt tính năng cũng có thể được hình ảnh hóa Một số tóm tắt tính năng thực sự chỉ có ý nghĩa nếu chúng được hình ảnh hóa và bảng sẽ là lựa chọn sai Sự phụ thuộc một phần của tính năng là một trường hợp như vậy Biểu đồ phụ thuộc một phần là các đường cong hiển thị một tính năng và kết quả dự đoán trung bình Cách tốt nhất để trình bày các phụ thuộc một phần là thực sự vẽ đường cong thay vì in tọa độ.

Nội dung mô hình (ví dụ: trọng số đã học): Việc giải thích các mô hình có thể diễn giải nội tại nằm trong danh mục này Ví dụ là trọng số trong các mô hình tuyến tính hoặc cấu trúc cây đã học (các tính năng và ngưỡng được sử dụng để phân tách) của cây quyết định Các ranh giới giữa nội dung mô hình và thống kê tóm tắt tính năng bị mờ đi, ví dụ như trong các mô hình tuyến tính, vì các trọng số vừa là nội dung mô hình vừa là thống kê tóm tắt cho các tính năng cùng một lúc Một phương pháp khác đưa ra các thông tin bên trong mô hình là hình ảnh hóa các bộ phát hiện tính năng đã học được trong mạng nơ-ron tích chập Các phương pháp diễn giải đưa ra thông tin bên trong mô hình theo định nghĩa là dành riêng cho mô hình (xem tiêu chí tiếp theo). Điểm dữ liệu: Danh mục này bao gồm tất cả các phương pháp trả về các điểm dữ liệu (đã tồn tại hoặc mới tạo) để làm cho mô hình có thể diễn giải được Một phương pháp được gọi là giải thích phản thực tế Để giải thích dự đoán của một trường hợp dữ liệu, phương pháp này tìm một điểm dữ liệu tương tự bằng cách thay đổi một số tính năng mà kết quả dự đoán thay đổi theo cách có liên quan (ví dụ: lật ngược trong lớp dự đoán) Một ví dụ khác là xác định các nguyên mẫu của các lớp dự đoán Để hữu ích, các phương pháp diễn giải đưa ra các điểm dữ liệu mới yêu cầu bản thân các điểm dữ liệu có thể được diễn giải Điều này hiệu quả đối với hình ảnh và văn bản, nhưng ít hữu ích hơn đối với dữ liệu dạng bảng có hàng trăm tính năng.

Mô hình có thể diễn giải được nội tại: Một giải pháp để diễn giải các mô hình hộp đen là xấp xỉ chúng (toàn cục hoặc cục bộ) bằng một mô hình có thể diễn giải được Bản thân mô hình có thể diễn giải được được diễn giải bằng cách xem xét các tham số mô hình nội bộ hoặc số liệu thống kê tóm tắt tính năng.

Dành riêng cho mô hình hay không phụ thuộc vào mô hình? Các công cụ diễn giải dành riêng cho mô hình bị giới hạn ở các lớp mô hình cụ thể Việc diễn giải trọng số hồi quy trong mô hình tuyến tính là diễn giải dành riêng cho mô hình, vì - theo định nghĩa - việc diễn giải các mô hình có thể diễn giải nội tại luôn dành riêng cho mô hình Các công cụ chỉ hoạt động để diễn giải ví dụ như mạng nơ-ron là dành riêng cho mô hình Các công cụ không phụ thuộc vào mô hình có thể được sử dụng trên bất kỳ mô hình máy học nào và được áp dụng sau khi mô hình đã được đào tạo(sau hoc) Các phương pháp không phụ thuộc vào mô hình này thường hoạt động bằng cách phân tích các cặp đầu vào và đầu ra của tính năng Theo định nghĩa, các phương pháp này không thể truy cập vào các thông tin bên trong mô hình như trọng số hoặc thông tin cấu trúc.

Phạm vi khả năng diễn giải

Một thuật toán đào tạo một mô hình tạo ra các dự đoán Mỗi bước có thể được đánh giá theo tính minh bạch hoặc khả năng diễn giải.

3.3.1 Tính minh bạch của thuật toán

Thuật toán tạo ra mô hình như thế nào?

Tính minh bạch của thuật toán liên quan đến cách thuật toán học một mô hình từ dữ liệu và loại mối quan hệ nào mà nó có thể học được Nếu bạn sử dụng mạng nơ- ron tích chập để phân loại hình ảnh, bạn có thể giải thích rằng thuật toán học các bộ dò cạnh và bộ lọc ở các lớp thấp nhất Đây là sự hiểu biết về cách thuật toán hoạt động, nhưng không phải đối với mô hình cụ thể được học vào cuối cùng, và không phải đối với cách đưa ra các dự đoán riêng lẻ Tính minh bạch của thuật toán chỉ yêu cầu kiến thức về thuật toán chứ không phải về dữ liệu hoặc mô hình đã học Cuốn sách này tập trung vào khả năng diễn giải của mô hình chứ không phải tính minh bạch của thuật toán Các thuật toán như phương pháp bình phương nhỏ nhất cho các mô hình tuyến tính được nghiên cứu và hiểu rõ Chúng được đặc trưng bởi tính minh bạch cao Các phương pháp học sâu (đẩy một gradient qua một mạng lưới với hàng triệu trọng số) ít được hiểu rõ hơn và hoạt động bên trong là trọng tâm của nghiên cứu đang diễn ra Chúng được coi là ít minh bạch hơn.

3.3.2 Khả năng diễn giải mô hình toàn diện, toàn cầu

Mô hình được đào tạo đưa ra dự đoán như thế nào?

Bạn có thể mô tả một mô hình là có thể diễn giải được nếu bạn có thể hiểu toàn bộ mô hình cùng một lúc (Lipton 20168) Để giải thích đầu ra của mô hình toàn cầu, bạn cần mô hình được đào tạo, kiến thức về thuật toán và dữ liệu Mức độ diễn giải này liên quan đến việc hiểu cách mô hình đưa ra quyết định, dựa trên quan điểm toàn diện về các tính năng của nó và từng thành phần đã học như trọng số, các tham số khác và cấu trúc Những tính năng nào là quan trọng và loại tương tác nào diễn ra giữa chúng? Khả năng diễn giải mô hình toàn cầu giúp hiểu được sự phân phối kết quả mục tiêu của bạn dựa trên các tính năng Khả năng diễn giải mô hình toàn cầu rất khó đạt được trong thực tế Bất kỳ mô hình nào vượt quá một số ít tham số hoặc trọng số đều không có khả năng phù hợp với bộ nhớ ngắn hạn của con người trung bình Tôi cho rằng bạn không thể thực sự tưởng tượng ra một mô hình tuyến tính với 5 tính năng, vì điều đó có nghĩa là phải vẽ siêu phẳng ước tính trong đầu trong không gian 5 chiều Bất kỳ không gian tính năng nào có nhiều hơn

3 chiều đơn giản là không thể tưởng tượng được đối với con người Thông thường, khi mọi người cố gắng hiểu một mô hình, họ chỉ xem xét một phần của mô hình đó, chẳng hạn như trọng số trong các mô hình tuyến tính.

3.3.3 Khả năng diễn giải mô hình toàn cục ở cấp độ mô-đun

Các phần của mô hình ảnh hưởng đến dự đoán như thế nào?

Một mô hình Naive Bayes với hàng trăm tính năng sẽ quá lớn đối với tôi và bạn để lưu trong bộ nhớ làm việc của chúng ta Và ngay cả khi chúng ta cố gắng ghi nhớ tất cả các trọng số, chúng ta cũng không thể nhanh chóng đưa ra dự đoán cho các điểm dữ liệu mới Ngoài ra, bạn cần phải có phân phối chung của tất cả các tính năng trong đầu để ước tính tầm quan trọng của từng tính năng và cách các tính năng ảnh hưởng đến dự đoán trung bình Một nhiệm vụ bất khả thi Nhưng bạn có thể dễ dàng hiểu được một trọng số duy nhất Mặc dù khả năng diễn giải mô hình toàn cục thường nằm ngoài tầm với, nhưng vẫn có nhiều khả năng hiểu được ít nhất một số mô hình ở cấp độ mô-đun Không phải tất cả các mô hình đều có thể diễn giải ở cấp độ tham số Đối với các mô hình tuyến tính, các phần có thể diễn giải là trọng số, đối với các cây, đó sẽ là các phân tách (các tính năng được chọn cộng với các điểm cắt) và dự đoán nút lá Ví dụ, các mô hình tuyến tính có vẻ như có thể được diễn giải hoàn hảo ở cấp độ mô-đun, nhưng việc diễn giải một trọng số duy nhất được lồng ghép với tất cả các trọng số khác Việc diễn giải một trọng số duy nhất luôn đi kèm với chú thích rằng các tính năng đầu vào khác vẫn giữ nguyên giá trị, điều này không đúng với nhiều ứng dụng thực tế Một mô hình tuyến tính dự đoán giá trị của một ngôi nhà, tính đến cả kích thước ngôi nhà và số phòng, có thể có trọng số âm cho tính năng phòng Điều này có thể xảy ra vì đã có tính năng kích thước ngôi nhà có mối tương quan cao Trong một thị trường mà mọi người thích phòng lớn hơn, một ngôi nhà có ít phòng hơn có thể có giá trị hơn một ngôi nhà có nhiều phòng hơn nếu cả hai đều có cùng kích thước Các trọng số chỉ có ý nghĩa trong bối cảnh của các tính năng khác trong mô hình Nhưng các trọng số trong một mô hình tuyến tính vẫn có thể được diễn giải tốt hơn các trọng số của mạng nơ-ron sâu.

3.3.4 Khả năng diễn giải cục bộ cho một dự đoán đơn lẻ

Tại sao mô hình đưa ra một dự đoán nhất định cho một trường hợp?

Bạn có thể phóng to một trường hợp đơn lẻ và xem xét những gì mô hình dự đoán cho đầu vào này và giải thích lý do Nếu bạn xem xét một dự đoán riêng lẻ, hành vi của mô hình phức tạp khác có thể hoạt động dễ chịu hơn Ở cấp độ cục bộ, dự đoán có thể chỉ phụ thuộc tuyến tính hoặc đơn điệu vào một số tính năng, thay vì phụ thuộc phức tạp vào chúng Ví dụ, giá trị của một ngôi nhà có thể phụ thuộc phi tuyến tính vào kích thước của ngôi nhà đó Nhưng nếu bạn chỉ xem xét một ngôi nhà cụ thể rộng 100 mét vuông, thì có khả năng đối với tập hợp dữ liệu đó, dự đoán của mô hình phụ thuộc tuyến tính vào kích thước Bạn có thể tìm ra điều này bằng cách mô phỏng cách giá dự đoán thay đổi khi bạn tăng hoặc giảm kích thước

10 mét vuông Do đó, các giải thích cục bộ có thể chính xác hơn các giải thích toàn cục Cuốn sách này trình bày các phương pháp có thể giúp các dự đoán riêng lẻ dễ diễn giải hơn trong phần về các phương pháp không phụ thuộc vào mô hình.

3.3.5 Khả năng diễn giải cục bộ cho một nhóm dự đoán

Tại sao mô hình đưa ra các dự đoán cụ thể cho một nhóm trường hợp?

Các dự đoán của mô hình cho nhiều trường hợp có thể được giải thích bằng các phương pháp diễn giải mô hình toàn cục (ở cấp độ mô-đun) hoặc bằng các giải thích về từng trường hợp riêng lẻ Các phương pháp toàn cục có thể được áp dụng bằng cách lấy nhóm trường hợp, xử lý chúng như thể nhóm là tập dữ liệu hoàn chỉnh và sử dụng các phương pháp toàn cục với tập hợp con này Các phương pháp giải thích riêng lẻ có thể được sử dụng cho từng trường hợp và sau đó được liệt kê hoặc tổng hợp cho toàn bộ nhóm.

Đánh giá khả năng diễn giải

Không có sự đồng thuận thực sự nào về khả năng diễn giải trong học máy Cũng không rõ cách đo lường khả năng này Nhưng có một số nghiên cứu ban đầu về vấn đề này và nỗ lực xây dựng một số phương pháp đánh giá, như được mô tả trong phần sau.

Doshi-Velez và Kim (2017) đề xuất ba cấp độ chính để đánh giá khả năng diễn giải: Đánh giá cấp độ ứng dụng (nhiệm vụ thực tế): Đưa lời giải thích vào sản phẩm và để người dùng cuối kiểm tra Hãy tưởng tượng phần mềm phát hiện gãy xương có thành phần học máy định vị và đánh dấu gãy xương trên phim chụp X-quang Ở cấp độ ứng dụng, các bác sĩ X-quang sẽ kiểm tra trực tiếp phần mềm phát hiện gãy xương để đánh giá mô hình Điều này đòi hỏi phải thiết lập thử nghiệm tốt và hiểu biết về cách đánh giá chất lượng Một cơ sở tốt cho điều này luôn là mức độ giỏi của con người trong việc giải thích cùng một quyết định. Đánh giá cấp độ con người (nhiệm vụ đơn giản) là đánh giá cấp độ ứng dụng được đơn giản hóa Sự khác biệt là các thí nghiệm này không được thực hiện với các chuyên gia trong lĩnh vực này mà với những người không chuyên Điều này giúp các thí nghiệm rẻ hơn (đặc biệt nếu các chuyên gia trong lĩnh vực là bác sĩ X quang) và dễ dàng tìm được nhiều người thử nghiệm hơn Một ví dụ là cho người dùng xem các giải thích khác nhau và người dùng sẽ chọn giải thích tốt nhất. Đánh giá cấp độ chức năng (nhiệm vụ ủy nhiệm) không yêu cầu con người Điều này hiệu quả nhất khi lớp mô hình được sử dụng đã được người khác đánh giá trong quá trình đánh giá cấp độ con người Ví dụ, có thể biết rằng người dùng cuối hiểu cây quyết định Trong trường hợp này, một đại diện cho chất lượng giải thích có thể là độ sâu của cây Cây ngắn hơn sẽ có điểm khả năng giải thích tốt hơn Sẽ hợp lý khi thêm ràng buộc rằng hiệu suất dự đoán của cây vẫn tốt và không giảm quá nhiều so với cây lớn hơn.

Tính chất của Giải thích

Chúng tôi muốn giải thích các dự đoán của mô hình học máy Để đạt được điều này, chúng tôi dựa vào một số phương pháp giải thích, là một thuật toán tạo ra các giải thích Một giải thích thường liên hệ các giá trị tính năng của một trường hợp với dự đoán mô hình của nó theo cách mà con người có thể hiểu được Các loại giải thích khác bao gồm một tập hợp các trường hợp dữ liệu (ví dụ: trong trường hợp mô hình k-láng giềng gần nhất) Ví dụ, chúng tôi có thể dự đoán nguy cơ ung thư bằng cách sử dụng máy vectơ hỗ trợ và giải thích các dự đoán bằng cách sử dụng phương pháp thay thế cục bộ, phương pháp này tạo ra các cây quyết định làm giải thích Hoặc chúng tôi có thể sử dụng mô hình hồi quy tuyến tính thay vì máy vectơ hỗ trợ Mô hình hồi quy tuyến tính đã được trang bị phương pháp giải thích(diễn giải trọng số).

Chúng tôi xem xét kỹ hơn các tính chất của phương pháp giải thích và giải thích (Robnik-Sikonja và Bohanec, 20189) Các tính chất này có thể được sử dụng để đánh giá mức độ tốt của phương pháp giải thích hoặc giải thích Không rõ cách đo lường chính xác tất cả các tính chất này, vì vậy một trong những thách thức là chính thức hóa cách tính toán chúng.

Tính chất của phương pháp giải thích

Sức mạnh biểu đạt là "ngôn ngữ" hoặc cấu trúc của các giải thích mà phương pháp có thể tạo ra Một phương pháp giải thích có thể tạo ra các quy tắc IF-THEN, cây quyết định, tổng có trọng số, ngôn ngữ tự nhiên hoặc thứ gì đó khác.

Tính trong suốt mô tả mức độ phương pháp giải thích dựa vào việc xem xét mô hình học máy, như các tham số của nó Ví dụ, các phương pháp giải thích dựa vào các mô hình có thể diễn giải nội tại như mô hình hồi quy tuyến tính (cụ thể theo mô hình) có tính trong suốt cao Các phương pháp chỉ dựa vào việc thao tác các đầu vào và quan sát các dự đoán có tính trong suốt bằng không Tùy thuộc vào tình huống, các mức độ trong suốt khác nhau có thể được mong muốn Ưu điểm của tính trong suốt cao là phương pháp có thể dựa vào nhiều thông tin hơn để tạo ra các giải thích Ưu điểm của tính trong suốt thấp là phương pháp giải thích có tính di động hơn.

Tính di động mô tả phạm vi các mô hình học máy mà phương pháp giải thích có thể được sử dụng Các phương pháp có tính trong suốt thấp có tính di động cao hơn vì chúng coi mô hình học máy như một hộp đen Các mô hình thay thế có thể là phương pháp giải thích có tính di động cao nhất Các phương pháp chỉ hoạt động cho ví dụ như mạng nơ-ron hồi quy có tính di động thấp. Độ phức tạp thuật toán mô tả độ phức tạp tính toán của phương pháp tạo ra lời giải thích Thuộc tính này rất quan trọng khi thời gian tính toán là nút thắt trong việc tạo ra lời giải thích.

Thuộc tính của từng lời giải thích Độ chính xác: Lời giải thích dự đoán dữ liệu chưa biết tốt như thế nào? Độ chính xác cao đặc biệt quan trọng nếu lời giải thích được sử dụng để dự đoán thay cho mô hình học máy Độ chính xác thấp có thể ổn nếu độ chính xác của mô hình học máy cũng thấp và nếu mục tiêu là giải thích mô hình hộp đen thực hiện chức năng gì Trong trường hợp này, chỉ có độ trung thực là quan trọng. Độ trung thực: Lời giải thích xấp xỉ dự đoán của mô hình hộp đen tốt như thế nào? Độ trung thực cao là một trong những thuộc tính quan trọng nhất của lời giải thích, vì lời giải thích có độ trung thực thấp sẽ vô dụng khi giải thích mô hình học máy. Độ chính xác và độ trung thực có mối quan hệ chặt chẽ với nhau Nếu mô hình hộp đen có độ chính xác cao và lời giải thích có độ trung thực cao, thì lời giải thích cũng có độ chính xác cao Một số giải thích chỉ cung cấp độ trung thực cục bộ, nghĩa là giải thích chỉ xấp xỉ tốt với dự đoán của mô hình cho một tập hợp con dữ liệu (ví dụ: mô hình thay thế cục bộ) hoặc thậm chí chỉ cho một trường hợp dữ liệu riêng lẻ (ví dụ: Giá trị Shapley).

Tính nhất quán: Giải thích khác nhau bao nhiêu giữa các mô hình đã được đào tạo trên cùng một tác vụ và tạo ra các dự đoán tương tự? Ví dụ: tôi đào tạo một máy vectơ hỗ trợ và một mô hình hồi quy tuyến tính trên cùng một tác vụ và cả hai đều tạo ra các dự đoán rất giống nhau Tôi tính toán các giải thích bằng phương pháp tôi chọn và phân tích mức độ khác nhau của các giải thích Nếu các giải thích rất giống nhau, thì các giải thích đó có tính nhất quán cao Tôi thấy tính chất này hơi khó hiểu, vì hai mô hình có thể sử dụng các tính năng khác nhau, nhưng lại đưa ra các dự đoán tương tự (còn gọi là "Hiệu ứng Rashomon") Trong trường hợp này, tính nhất quán cao là không mong muốn vì các giải thích phải rất khác nhau Tính nhất quán cao là mong muốn nếu các mô hình thực sự dựa trên các mối quan hệ tương tự.

Tính ổn định: Các giải thích cho các trường hợp tương tự có giống nhau như thế nào? Trong khi tính nhất quán so sánh các giải thích giữa các mô hình, tính ổn định so sánh các giải thích giữa các trường hợp tương tự cho một mô hình cố định Độ ổn định cao có nghĩa là những thay đổi nhỏ trong các đặc điểm của một trường hợp không làm thay đổi đáng kể lời giải thích (trừ khi những thay đổi nhỏ này cũng làm thay đổi mạnh mẽ dự đoán) Thiếu độ ổn định có thể là kết quả của phương sai cao của phương pháp giải thích.

Giải thích thân thiện với con người

Chúng ta hãy đào sâu hơn và khám phá xem con người chúng ta coi những giải thích nào là "tốt" và những hàm ý đối với máy học có thể diễn giải được là gì. Nghiên cứu nhân văn có thể giúp chúng ta tìm ra câu trả lời Miller (2017) đã tiến hành một cuộc khảo sát lớn về các ấn phẩm về giải thích và chương này dựa trên bản tóm tắt của ông.

Trong chương này, tôi muốn thuyết phục bạn về những điều sau: Khi giải thích một sự kiện, con người thích những giải thích ngắn gọn (chỉ 1 hoặc 2 nguyên nhân) đối lập tình huống hiện tại với tình huống mà sự kiện đó sẽ không xảy ra Đặc biệt là những nguyên nhân bất thường cung cấp những giải thích tốt Giải thích là những tương tác xã hội giữa người giải thích và người được giải thích (người nhận giải thích) và do đó bối cảnh xã hội có ảnh hưởng lớn đến nội dung thực tế của giải thích.

Khi bạn cần giải thích với TẤT CẢ các yếu tố cho một dự đoán hoặc hành vi cụ thể, bạn không muốn một giải thích thân thiện với con người mà là một sự quy kết nhân quả hoàn chỉnh Bạn có thể muốn một sự quy kết nhân quả nếu bạn có nghĩa vụ pháp lý phải chỉ định tất cả các tính năng ảnh hưởng hoặc nếu bạn gỡ lỗi mô hình máy học Trong trường hợp này, hãy bỏ qua các điểm sau Trong mọi trường hợp khác, khi người bình thường hoặc người có ít thời gian là người nhận được lời giải thích, các phần sau đây sẽ thú vị đối với bạn.

Giải thích là câu trả lời cho câu hỏi tại sao (Miller 2017).

Tại sao phương pháp điều trị không có hiệu quả với bệnh nhân?

Tại sao khoản vay của tôi bị từ chối?

Tại sao chúng ta vẫn chưa được người ngoài hành tinh liên lạc?

Hai câu hỏi đầu tiên có thể được trả lời bằng lời giải thích "hàng ngày", trong khi câu hỏi thứ ba thuộc danh mục "Các hiện tượng khoa học và câu hỏi triết học tổng quát hơn" Chúng tôi tập trung vào các lời giải thích kiểu "hàng ngày" vì chúng có liên quan đến việc học máy có thể diễn giải được Các câu hỏi bắt đầu bằng "như thế nào" thường có thể được diễn đạt lại thành câu hỏi "tại sao": "Khoản vay của tôi bị từ chối như thế nào?" có thể được chuyển thành "Tại sao khoản vay của tôi bị từ chối?".

Trong phần sau, thuật ngữ "giải thích" đề cập đến quá trình xã hội và nhận thức của việc giải thích, nhưng cũng đề cập đến sản phẩm của các quá trình này Người giải thích có thể là con người hoặc máy móc.

3.6.2 Giải thích tốt là gì?

Phần này cô đọng thêm tóm tắt của Miller về các giải thích "tốt" và bổ sung thêm những hàm ý cụ thể cho máy học có thể diễn giải được.

Giải thích có tính tương phản (Lipton 199010) Con người thường không hỏi tại sao một dự đoán nào đó được đưa ra, mà là tại sao dự đoán này được đưa ra thay vì một dự đoán khác Chúng ta có xu hướng nghĩ theo hướng phản thực tế, tức là "Dự đoán sẽ như thế nào nếu đầu vào X khác?" Đối với dự đoán giá nhà, chủ nhà có thể quan tâm đến lý do tại sao giá dự đoán lại cao so với mức giá thấp hơn mà họ mong đợi Nếu đơn xin vay của tôi bị từ chối, tôi không muốn nghe tất cả các yếu tố thường nói lên hoặc phản đối việc từ chối Tôi quan tâm đến các yếu tố trong đơn xin vay của mình cần phải thay đổi để được vay Tôi muốn biết sự tương phản giữa đơn xin vay của mình và phiên bản đơn xin vay được chấp nhận Việc thừa nhận rằng các giải thích tương phản là quan trọng là một phát hiện quan trọng đối với máy học có thể giải thích được Từ hầu hết các mô hình có thể diễn giải, bạn có thể trích xuất một lời giải thích ngầm đối chiếu dự đoán của một trường hợp với dự đoán của một trường hợp dữ liệu nhân tạo hoặc trung bình các trường hợp Các bác sĩ có thể hỏi: "Tại sao thuốc không có tác dụng với bệnh nhân của tôi?" Và họ có thể muốn một lời giải thích đối chiếu bệnh nhân của họ với một bệnh nhân mà thuốc có tác dụng và giống với bệnh nhân không đáp ứng Các lời giải thích đối lập dễ hiểu hơn các lời giải thích đầy đủ Một lời giải thích đầy đủ về câu hỏi của bác sĩ tại sao thuốc không có tác dụng có thể bao gồm: Bệnh nhân đã mắc bệnh trong

10 năm, 11 gen được biểu hiện quá mức, cơ thể bệnh nhân rất nhanh trong việc phân hủy thuốc thành các chất hóa học không hiệu quả, Một lời giải thích đối lập có thể đơn giản hơn nhiều: Ngược lại với bệnh nhân có phản ứng, bệnh nhân không đáp ứng có một số tổ hợp gen nhất định khiến thuốc kém hiệu quả hơn Lời giải thích tốt nhất là lời giải thích làm nổi bật sự khác biệt lớn nhất giữa đối tượng quan tâm và đối tượng tham chiếu. Ý nghĩa của nó đối với máy học có thể diễn giải: Con người không muốn có lời giải thích đầy đủ cho một dự đoán, mà muốn so sánh sự khác biệt với dự đoán của một trường hợp khác (có thể là dự đoán nhân tạo) Việc tạo ra các lời giải thích tương phản phụ thuộc vào ứng dụng vì nó yêu cầu một điểm tham chiếu để so sánh Và điều này có thể phụ thuộc vào điểm dữ liệu cần giải thích, nhưng cũng phụ thuộc vào người dùng nhận được lời giải thích Người dùng trang web dự đoán giá nhà có thể muốn có lời giải thích về dự đoán giá nhà tương phản với ngôi nhà của họ hoặc có thể với một ngôi nhà khác trên trang web hoặc có thể với một ngôi nhà trung bình trong khu phố Giải pháp để tạo ra các lời giải thích tương phản tự động cũng có thể liên quan đến việc tìm kiếm các nguyên mẫu hoặc nguyên mẫu trong dữ liệu.

Các lời giải thích được chọn Mọi người không mong đợi các lời giải thích bao gồm danh sách nguyên nhân thực tế và đầy đủ của một sự kiện Chúng ta thường chọn một hoặc hai nguyên nhân từ nhiều nguyên nhân có thể là LÀ lời giải thích. Để chứng minh, hãy bật tin tức trên TV: "Giá cổ phiếu giảm là do phản ứng dữ dội ngày càng tăng đối với sản phẩm của công ty do sự cố với bản cập nhật phần mềm mới nhất".

“Tsubasa và đội của anh ấy đã thua trận vì hàng phòng ngự yếu: họ đã tạo cho đối thủ quá nhiều không gian để triển khai chiến lược của mình.”

“Sự ngờ vực ngày càng tăng đối với các thể chế đã được thiết lập và chính phủ của chúng ta là những yếu tố chính làm giảm tỷ lệ cử tri đi bỏ phiếu.”

Thực tế là một sự kiện có thể được giải thích bằng nhiều nguyên nhân khác nhau được gọi là Hiệu ứng Rashomon Rashomon là một bộ phim Nhật Bản kể những câu chuyện (giải thích) trái ngược nhau về cái chết của một samurai Đối với các mô hình học máy, sẽ có lợi nếu có thể đưa ra dự đoán tốt từ các tính năng khác nhau Các phương pháp tổng hợp kết hợp nhiều mô hình với các tính năng khác nhau (giải thích khác nhau) thường hoạt động tốt vì việc tính trung bình trên các

“câu chuyện” đó làm cho các dự đoán trở nên mạnh mẽ và chính xác hơn Nhưng điều đó cũng có nghĩa là có nhiều hơn một lời giải thích có chọn lọc về lý do tại sao một dự đoán nhất định được đưa ra. Ý nghĩa của nó đối với học máy có thể diễn giải: Hãy làm cho lời giải thích thật ngắn gọn, chỉ đưa ra 1 đến 3 lý do, ngay cả khi thế giới phức tạp hơn Phương pháp LIME thực hiện tốt điều này.

Các lời giải thích mang tính xã hội Chúng là một phần của cuộc trò chuyện hoặc tương tác giữa người giải thích và người nhận lời giải thích Bối cảnh xã hội quyết định nội dung và bản chất của các lời giải thích Nếu tôi muốn giải thích cho một người am hiểu kỹ thuật tại sao tiền điện tử kỹ thuật số lại có giá trị đến vậy, tôi sẽ nói những điều như: “Sổ cái phi tập trung, phân tán, dựa trên blockchain, không thể được kiểm soát bởi một thực thể trung tâm, gây được tiếng vang với những người muốn bảo vệ tài sản của mình, điều này giải thích cho nhu cầu và giá cao”. Nhưng với bà tôi, tôi sẽ nói: “Bà ơi, hãy xem này: Tiền điện tử giống như vàng máy tính vậy. Ý nghĩa của nó đối với máy học có thể diễn giải: Hãy chú ý đến môi trường xã hội của ứng dụng máy học và đối tượng mục tiêu Việc đưa phần xã hội vào mô hình máy học đúng hoàn toàn phụ thuộc vào ứng dụng cụ thể của bạn Tìm các chuyên gia từ khoa học nhân văn (ví dụ: nhà tâm lý học và nhà xã hội học) để giúp bạn.

Giải thích tập trung vào điều bất thường Mọi người tập trung nhiều hơn vào các nguyên nhân bất thường để giải thích các sự kiện (Kahnemann và Tversky,

198111) Đây là những nguyên nhân có xác suất nhỏ nhưng vẫn xảy ra Việc loại bỏ các nguyên nhân bất thường này sẽ thay đổi đáng kể kết quả (giải thích phản thực tế) Con người coi những nguyên nhân "bất thường" này là những giải thích tốt Một ví dụ từ Štrumbelj và Kononenko (2011)12 là: Giả sử chúng ta có một tập dữ liệu về các tình huống kiểm tra giữa giáo viên và học sinh Học sinh tham gia một khóa học và vượt qua khóa học ngay sau khi thuyết trình thành công Giáo viên có tùy chọn đặt thêm câu hỏi cho học sinh để kiểm tra kiến thức của họ Học sinh không trả lời được những câu hỏi này sẽ trượt khóa học Học sinh có thể có nhiều mức độ chuẩn bị khác nhau, điều này dẫn đến các xác suất khác nhau để trả lời đúng các câu hỏi của giáo viên (nếu họ quyết định kiểm tra học sinh) Chúng tôi muốn dự đoán liệu một học sinh có vượt qua khóa học hay không và giải thích dự đoán của chúng tôi Cơ hội vượt qua là 100% nếu giáo viên không hỏi thêm bất kỳ câu hỏi nào, nếu không, xác suất vượt qua phụ thuộc vào mức độ chuẩn bị của học sinh và xác suất trả lời đúng các câu hỏi.

Bộ dữ liệu

Thuê xe đạp (Hồi quy)

Bộ dữ liệu này chứa số lượng xe đạp được thuê hằng ngày từ công ty cho thuê xe đạp Capital-Bikeshare tại Washington D.C., cùng với thông tin về thời tiết và theo mùa Dữ liệu được Capital-Bikeshare cung cấp công khai Fanaee-T và Gama (2013)14 đã thêm dữ liệu thời tiết và thông tin theo mùa Mục tiêu là dự đoán số lượng xe đạp sẽ được thuê tùy thuộc vào thời tiết và ngày Dữ liệu có thể được tải xuống từ Kho lưu trữ máy học UCI.

Các tính năng mới đã được thêm vào bộ dữ liệu và không phải tất cả các tính năng gốc đều được sử dụng cho các ví dụ trong cuốn sách này Sau đây là danh sách các tính năng đã được sử dụng:

Số lượng xe đạp bao gồm cả người dùng thông thường và người dùng đã đăng ký.

Số lượng được sử dụng làm mục tiêu trong tác vụ hồi quy.

Mùa, có thể là mùa xuân, mùa hè, mùa thu hoặc mùa đông.

Chỉ báo ngày đó có phải là ngày lễ hay không.

Năm, có thể là 2011 hoặc 2012.

Số ngày kể từ ngày 01.01.2011 (ngày đầu tiên trong bộ dữ liệu) Tính năng này được giới thiệu để tính đến xu hướng theo thời gian.

Chỉ báo xem ngày đó là ngày làm việc hay cuối tuần.

Tình hình thời tiết vào ngày đó Một trong số: trời quang mây, ít mây, nhiều mây, nhiều mây sương mù + mây, sương mù + mây tan, sương mù + ít mây, sương mù tuyết nhẹ, mưa nhẹ + giông + mây rải rác, mưa nhẹ + mây rải rác mưa lớn + băng giá + giông + sương mù, tuyết + sương mù

Nhiệt độ tính bằng độ C. Độ ẩm tương đối tính bằng phần trăm (0 đến 100).

Tốc độ gió tính bằng km trên giờ. Đối với các ví dụ trong cuốn sách này, dữ liệu đã được xử lý một chút Bạn có thể tìm thấy tập lệnh R xử lý trong kho lưu trữ GitHub của cuốn sách cùng với tệpRData cuối cùng.

Các yếu tố nguy cơ ung thư cổ tử cung (Phân loại)

Bộ dữ liệu ung thư cổ tử cung chứa các chỉ số và yếu tố nguy cơ để dự đoán liệu một phụ nữ có bị ung thư cổ tử cung hay không Các tính năng bao gồm dữ liệu nhân khẩu học (như tuổi), lối sống và tiền sử bệnh Dữ liệu có thể được tải xuống từ kho lưu trữ UCI Machine Learning và được mô tả bởi Fernandes, Cardoso và Fernandes (2017)16.

Tập hợp con các tính năng dữ liệu được sử dụng trong các ví dụ của cuốn sách là:

Lần quan hệ tình dục đầu tiên (tuổi tính theo năm)

Có hút thuốc hay không

Có hút thuốc (tính theo năm)

Thuốc tránh thai nội tiết tố có hay không

Thuốc tránh thai nội tiết tố (tính theo năm)

Vòng tránh thai tử cung có hay không (IUD)

Số năm sử dụng vòng tránh thai tử cung (IUD)

Bệnh nhân đã từng mắc bệnh lây truyền qua đường tình dục (STD) chưa có hay không

Số lần chẩn đoán STD

Thời gian kể từ lần chẩn đoán STD đầu tiên

Thời gian kể từ lần chẩn đoán STD gần nhất

Kết quả sinh thiết là "Khỏe mạnh" hoặc "Ung thư" Mục tiêu kết quả.

Sinh thiết đóng vai trò là tiêu chuẩn vàng để chẩn đoán ung thư cổ tử cung Đối với các ví dụ trong cuốn sách này, kết quả sinh thiết được sử dụng làm mục tiêu Các giá trị bị thiếu cho mỗi cột được quy ước theo chế độ (giá trị thường gặp nhất), có lẽ là một giải pháp tồi, vì câu trả lời đúng có thể tương quan với xác suất giá trị bị thiếu Có lẽ có sự thiên vị vì các câu hỏi có tính chất rất riêng tư Nhưng đây không phải là một cuốn sách về việc quy ước dữ liệu bị thiếu, vì vậy việc quy ước chế độ sẽ phải đủ cho các ví dụ. Để tái tạo các ví dụ của cuốn sách này với tập dữ liệu này, hãy tìm tập lệnh R xử lý trước và tệp RData cuối cùng trong kho lưu trữ GitHub của cuốn sách.

Các mô hình có thể diễn giải

Hồi quy tuyến tính

Mô hình hồi quy tuyến tính dự đoán mục tiêu là tổng trọng số của các đầu vào tính năng Tính tuyến tính của mối quan hệ đã học giúp việc diễn giải trở nên dễ dàng. Các mô hình hồi quy tuyến tính từ lâu đã được các nhà thống kê, nhà khoa học máy tính và những người khác giải quyết các vấn đề định lượng sử dụng.

Các mô hình tuyến tính có thể được sử dụng để mô hình hóa sự phụ thuộc của mục tiêu hồi quy y vào một số tính năng x Các mối quan hệ đã học là tuyến tính và có thể được viết cho một trường hợp i duy nhất như sau:

Kết quả dự đoán của một trường hợp là tổng có trọng số của các đặc điểm p của nó Beta (©j) biểu diễn các trọng số hoặc hệ số đặc điểm đã học Trọng số đầu tiên trong tổng (©0) được gọi là giá trị cắt và không được nhân với một đặc điểm. Epsilon (ê) là lỗi mà chỳng ta vẫn mắc phải, tức là sự khỏc biệt giữa dự đoỏn và kết quả thực tế Những lỗi này được cho là tuân theo phân phối chuẩn Gauss, nghĩa là chúng ta mắc lỗi theo cả hướng tiêu cực và hướng tích cực và mắc nhiều lỗi nhỏ và ít lỗi lớn.

Có thể sử dụng nhiều phương pháp khác nhau để ước tính trọng số tối ưu Phương pháp bình phương tối thiểu thông thường thường được sử dụng để tìm các trọng số giảm thiểu sự khác biệt bình phương giữa kết quả thực tế và kết quả ước tính:

Chúng tôi sẽ không thảo luận chi tiết về cách tìm ra trọng số tối ưu, nhưng nếu bạn quan tâm, bạn có thể đọc chương 3.2 của cuốn sách “Các yếu tố của học thống kê” (Friedman, Hastie và Tibshirani 2009)17 hoặc một trong những nguồn tài nguyên trực tuyến khác về mô hình hồi quy tuyến tính. Ưu điểm lớn nhất của mô hình hồi quy tuyến tính là tính tuyến tính: Nó làm cho quy trình ước tính trở nên đơn giản và quan trọng nhất là các phương trình tuyến tính này có cách diễn giải dễ hiểu ở cấp độ mô-đun (tức là trọng số) Đây là một trong những lý do chính khiến mô hình tuyến tính và tất cả các mô hình tương tự lại phổ biến trong các lĩnh vực học thuật như y học, xã hội học, tâm lý học và nhiều lĩnh vực nghiên cứu định lượng khác Ví dụ, trong lĩnh vực y tế, không chỉ quan trọng là dự đoán kết quả lâm sàng của bệnh nhân mà còn phải định lượng ảnh hưởng của thuốc và đồng thời tính đến giới tính, độ tuổi và các đặc điểm khác theo cách có thể diễn giải được.

Trọng số ước tính đi kèm với khoảng tin cậy Khoảng tin cậy là phạm vi ước tính trọng số bao gồm trọng số “thực” với một độ tin cậy nhất định Ví dụ, khoảng tin cậy 95% cho trọng số 2 có thể dao động từ 1 đến 3 Diễn giải của khoảng này sẽ là: Nếu chúng ta lặp lại ước tính 100 lần với dữ liệu mới lấy mẫu, khoảng tin cậy sẽ bao gồm trọng số thực trong 95 trên 100 trường hợp, với điều kiện là mô hình hồi quy tuyến tính là mô hình chính xác cho dữ liệu.

Mô hình có phải là mô hình "chính xác" hay không phụ thuộc vào việc các mối quan hệ trong dữ liệu có đáp ứng một số giả định nhất định hay không, đó là tính tuyến tính, tính chuẩn, tính đồng phương sai, tính độc lập, các tính năng cố định và không có đa cộng tuyến.

Mô hình hồi quy tuyến tính buộc dự đoán phải là sự kết hợp tuyến tính của các tính năng, đây vừa là điểm mạnh lớn nhất vừa là hạn chế lớn nhất của nó Tính tuyến tính dẫn đến các mô hình có thể diễn giải được Các hiệu ứng tuyến tính dễ định lượng và mô tả Chúng có tính cộng gộp, do đó, dễ tách các hiệu ứng Nếu bạn nghi ngờ có tương tác tính năng hoặc mối liên hệ phi tuyến tính của một tính năng với giá trị mục tiêu, bạn có thể thêm các điều khoản tương tác hoặc sử dụng spline hồi quy.

Người ta cho rằng kết quả mục tiêu đưa ra các tính năng tuân theo phân phối chuẩn Nếu giả định này bị vi phạm, các khoảng tin cậy ước tính của trọng số tính năng sẽ không hợp lệ. Đồng dạng phương sai (phương sai không đổi)

Phương sai của các điều khoản lỗi được cho là không đổi trên toàn bộ không gian tính năng Giả sử bạn muốn dự đoán giá trị của một ngôi nhà khi biết diện tích sinh hoạt tính bằng mét vuông Bạn ước tính một mô hình tuyến tính giả định rằng, bất kể kích thước của ngôi nhà, lỗi xung quanh phản hồi dự đoán đều có cùng phương sai Giả định này thường bị vi phạm trong thực tế Trong ví dụ về ngôi nhà, có thể phương sai của các điều khoản lỗi xung quanh giá dự đoán cao hơn đối với những ngôi nhà lớn hơn, vì giá cao hơn và có nhiều chỗ hơn cho biến động giá Giả sử lỗi trung bình (chênh lệch giữa giá dự đoán và giá thực tế) trong mô hình hồi quy tuyến tính của bạn là 50.000 Euro Nếu bạn giả định đồng dạng phương sai, bạn giả định rằng lỗi trung bình 50.000 là giống nhau đối với những ngôi nhà có giá 1 triệu và những ngôi nhà chỉ có giá 40.000 Điều này là không hợp lý vì nó có nghĩa là chúng ta có thể mong đợi giá nhà âm. Độc lập

Giả định rằng mỗi trường hợp độc lập với bất kỳ trường hợp nào khác Nếu bạn thực hiện các phép đo lặp lại, chẳng hạn như nhiều xét nghiệm máu cho mỗi bệnh nhân, thì các điểm dữ liệu không độc lập Đối với dữ liệu phụ thuộc, bạn cần các mô hình hồi quy tuyến tính đặc biệt, chẳng hạn như các mô hình hiệu ứng hỗn hợp hoặc GEE Nếu bạn sử dụng mô hình hồi quy tuyến tính "bình thường", bạn có thể rút ra kết luận sai từ mô hình.

Các tính năng cố định

Các tính năng đầu vào được coi là "cố định" Cố định có nghĩa là chúng được coi là

"hằng số cho trước" chứ không phải là các biến thống kê Điều này ngụ ý rằng chúng không có lỗi đo lường Đây là một giả định khá phi thực tế Tuy nhiên, nếu không có giả định đó, bạn sẽ phải phù hợp với các mô hình lỗi đo lường rất phức tạp để tính đến các lỗi đo lường của các tính năng đầu vào của bạn Và thông thường bạn không muốn làm như vậy.

Không có đa cộng tuyến

Bạn không muốn các tính năng có tương quan mạnh, vì điều này làm hỏng việc ước tính trọng số Trong trường hợp hai tính năng có tương quan mạnh, việc ước tính trọng số sẽ trở nên có vấn đề vì các hiệu ứng của tính năng có tính cộng và không thể xác định được tính năng nào trong số các tính năng có tương quan sẽ được gán hiệu ứng.

Diễn giải về trọng số trong mô hình hồi quy tuyến tính phụ thuộc vào loại tính năng tương ứng.

Tính năng số: Tăng tính năng số lên một đơn vị sẽ thay đổi kết quả ước tính theo trọng số của tính năng đó Một ví dụ về tính năng số là kích thước của một ngôi nhà.

Tính năng nhị phân: Một tính năng có một trong hai giá trị có thể cho mỗi trường hợp Một ví dụ là tính năng "Ngôi nhà có vườn" Một trong các giá trị được tính là danh mục tham chiếu (trong một số ngôn ngữ lập trình được mã hóa bằng 0), chẳng hạn như "Không có vườn" Thay đổi tính năng từ danh mục tham chiếu sang danh mục khác sẽ thay đổi kết quả ước tính theo trọng số của tính năng.

Hồi quy logistic

Hồi quy logistic mô hình hóa xác suất cho các vấn đề phân loại với hai kết quả có thể xảy ra Đây là phần mở rộng của mô hình hồi quy tuyến tính cho các vấn đề phân loại.

5.2.1 Sai lầm của hồi quy tuyến tính trong phân loại là gì?

Mô hình hồi quy tuyến tính có thể hoạt động tốt trong hồi quy, nhưng lại không hoạt động trong phân loại Tại sao vậy? Trong trường hợp có hai lớp, bạn có thể gắn nhãn một lớp bằng 0 và lớp kia bằng 1 và sử dụng hồi quy tuyến tính Về mặt kỹ thuật, nó hoạt động và hầu hết các chương trình mô hình tuyến tính sẽ đưa ra trọng số cho bạn Nhưng có một vài vấn đề với cách tiếp cận này:

Mô hình tuyến tính không đưa ra xác suất, nhưng nó xử lý các lớp dưới dạng số (0 và 1) và phù hợp với siêu phẳng tốt nhất (đối với một tính năng duy nhất, đó là một đường thẳng) giúp giảm thiểu khoảng cách giữa các điểm và siêu phẳng Vì vậy, nó chỉ nội suy giữa các điểm và bạn không thể diễn giải nó như xác suất.

Mô hình tuyến tính cũng ngoại suy và cung cấp cho bạn các giá trị dưới 0 và trên

1 Đây là một dấu hiệu tốt cho thấy có thể có một cách tiếp cận thông minh hơn đối với phân loại.

Vì kết quả dự đoán không phải là xác suất, mà là nội suy tuyến tính giữa các điểm, nên không có ngưỡng có ý nghĩa nào để bạn có thể phân biệt một lớp với lớp khác. Một minh họa hay về vấn đề này đã được đưa ra trên Stackoverflow.

Các mô hình tuyến tính không mở rộng sang các vấn đề phân loại với nhiều lớp. Bạn sẽ phải bắt đầu dán nhãn lớp tiếp theo bằng 2, rồi 3, v.v Các lớp có thể không có thứ tự có ý nghĩa nào, nhưng mô hình tuyến tính sẽ áp đặt một cấu trúc kỳ lạ lên mối quan hệ giữa các tính năng và dự đoán lớp của bạn Giá trị của một tính năng có trọng số dương càng cao thì tính năng đó càng đóng góp nhiều hơn vào dự đoán của một lớp có số cao hơn, ngay cả khi các lớp tình cờ có số tương tự không gần hơn các lớp khác.

HÌNH 5.5: Một mô hình tuyến tính phân loại khối u thành ác tính (1) hoặc lành tính (0) dựa trên kích thước của chúng Các đường biểu diễn dự đoán của mô hình tuyến tính Đối với dữ liệu bên trái, chúng ta có thể sử dụng 0,5 làm ngưỡng phân loại Sau khi đưa vào thêm một vài trường hợp khối u ác tính, đường hồi quy dịch chuyển và ngưỡng 0,5 không còn phân tách các lớp nữa Các điểm bị dao động nhẹ để giảm tình trạng vẽ quá mức.

Một giải pháp phân loại là hồi quy logistic Thay vì khớp với đường thẳng hoặc siêu phẳng, mô hình hồi quy logistic sử dụng hàm logistic để nén đầu ra của phương trình tuyến tính giữa 0 và 1 Hàm logistic được định nghĩa là:

HÌNH 5.6: Hàm logistic Nó đưa ra các số từ 0 đến 1 Ở đầu vào 0, nó đưa ra 0,5.

Bước từ hồi quy tuyến tính sang hồi quy logistic khá đơn giản Trong mô hình hồi quy tuyến tính, chúng tôi đã mô hình hóa mối quan hệ giữa kết quả và các tính năng bằng một phương trình tuyến tính: Đối với phân loại, chúng tôi ưu tiên các xác suất từ 0 đến 1, do đó chúng tôi gói vế phải của phương trình vào hàm logistic Điều này buộc đầu ra chỉ giả định các giá trị từ 0 đến 1.

Chúng ta hãy xem lại ví dụ về kích thước khối u một lần nữa Nhưng thay vì mô hình hồi quy tuyến tính, chúng ta sử dụng mô hình hồi quy logistic:

HÌNH 5.7: Mô hình hồi quy logistic tìm ra ranh giới quyết định đúng giữa ác tính và lành tính tùy thuộc vào kích thước khối u Đường thẳng là hàm logistic được dịch chuyển và nén để phù hợp với dữ liệu.

Phân loại hoạt động tốt hơn với hồi quy logistic và chúng ta có thể sử dụng 0,5 làm ngưỡng trong cả hai trường hợp Việc đưa thêm các điểm không thực sự ảnh hưởng đến đường cong ước tính.

Diễn giải về trọng số trong hồi quy logistic khác với diễn giải về trọng số trong hồi quy tuyến tính, vì kết quả trong hồi quy logistic là xác suất nằm trong khoảng từ 0 đến 1 Các trọng số không còn ảnh hưởng tuyến tính đến xác suất nữa Tổng có trọng số được hàm logistic chuyển đổi thành xác suất Do đó, chúng ta cần xây dựng lại phương trình diễn giải sao cho chỉ có hạng tử tuyến tính nằm ở vế phải của công thức.

Chúng tôi gọi thuật ngữ trong hàm ln() là “odds” (xác suất của sự kiện chia cho xác suất không có sự kiện nào) và được bao bọc trong logarit, nó được gọi là log odds.

Công thức này cho thấy mô hình hồi quy logistic là mô hình tuyến tính cho log odds Tuyệt! Nghe có vẻ không hữu ích! Với một chút xáo trộn các thuật ngữ, bạn có thể tìm ra cách dự đoán thay đổi khi một trong các tính năng xj thay đổi 1 đơn vị Để thực hiện việc này, trước tiên chúng ta có thể áp dụng hàm exp() cho cả hai vế của phương trình:

Sau đó, chúng ta so sánh những gì xảy ra khi chúng ta tăng một trong các giá trị tính năng lên 1 Nhưng thay vì xem xét sự khác biệt, chúng ta xem xét tỷ lệ của hai dự đoán:

Chúng tôi áp dụng quy tắc sau:

Và chúng tôi loại bỏ nhiều thuật ngữ:

GLM, GAM và nhiều hơn nữa

Điểm mạnh lớn nhất nhưng cũng là điểm yếu lớn nhất của mô hình hồi quy tuyến tính là dự đoán được mô hình hóa như một tổng có trọng số của các tính năng.Ngoài ra, mô hình tuyến tính đi kèm với nhiều giả định khác Tin xấu là (thực ra không phải tin tức) rằng tất cả các giả định đó thường bị vi phạm trong thực tế: Kết quả đưa ra cho các tính năng có thể có phân phối không theo chuẩn Gauss, các tính năng có thể tương tác và mối quan hệ giữa các tính năng và kết quả có thể không tuyến tính Tin tốt là cộng đồng thống kê đã phát triển nhiều sửa đổi khác nhau để biến mô hình hồi quy tuyến tính từ một lưỡi dao đơn giản thành một con dao Thụy Sĩ.

Chương này chắc chắn không phải là hướng dẫn chắc chắn của bạn để mở rộng các mô hình tuyến tính Thay vào đó, nó đóng vai trò là tổng quan về các phần mở rộng như Mô hình tuyến tính tổng quát (GLM) và Mô hình cộng tính tổng quát (GAM) và cung cấp cho bạn một chút trực giác Sau khi đọc, bạn sẽ có cái nhìn tổng quan vững chắc về cách mở rộng các mô hình tuyến tính Nếu bạn muốn tìm hiểu thêm về mô hình hồi quy tuyến tính trước, tôi khuyên bạn nên đọc chương về các mô hình hồi quy tuyến tính, nếu bạn chưa đọc.

Chúng ta hãy nhớ lại công thức của mô hình hồi quy tuyến tính:

Mô hình hồi quy tuyến tính giả định rằng kết quả y của một trường hợp có thể được biểu thị bằng tổng có trọng số của các đặc điểm p của nó với một lỗi riêng lẻ ê tuõn theo phõn phối chuẩn Gauss Bằng cỏch ộp dữ liệu vào corset của một cụng thức, chúng ta có được nhiều khả năng diễn giải mô hình Các hiệu ứng đặc điểm là cộng dồn, nghĩa là không có tương tác và mối quan hệ là tuyến tính, nghĩa là việc tăng một đơn vị của một đặc điểm có thể được chuyển trực tiếp thành sự tăng/ giảm của kết quả dự đoán Mô hình tuyến tính cho phép chúng ta nén mối quan hệ giữa một đặc điểm và kết quả dự kiến thành một con số duy nhất, cụ thể là trọng số ước tính.

Nhưng một tổng có trọng số đơn giản quá hạn chế đối với nhiều vấn đề dự đoán trong thế giới thực Trong chương này, chúng ta sẽ tìm hiểu về ba vấn đề của mô hình hồi quy tuyến tính cổ điển và cách giải quyết chúng Còn nhiều vấn đề khác có thể bị vi phạm các giả định, nhưng chúng ta sẽ tập trung vào ba vấn đề được hiển thị trong hình sau:

HÌNH 5.8: Ba giả định của mô hình tuyến tính (bên trái): Phân phối chuẩn Gauss của kết quả cho các tính năng, tính cộng (= không có tương tác) và mối quan hệ tuyến tính Thực tế thường không tuân theo các giả định đó (bên phải): Kết quả có thể có phân phối không chuẩn Gauss, các tính năng có thể tương tác và mối quan hệ có thể không tuyến tính.

Có một giải pháp cho tất cả các vấn đề này:

Vấn đề: Kết quả mục tiêu y cho các tính năng không tuân theo phân phối chuẩn Gauss.

Ví dụ: Giả sử tôi muốn dự đoán số phút tôi sẽ đạp xe trong một ngày nhất định.Với các tính năng, tôi có loại ngày, thời tiết, v.v Nếu tôi sử dụng mô hình tuyến tính, nó có thể dự đoán số phút âm vì nó giả định phân phối chuẩn Gauss không dừng ở 0 phút Ngoài ra, nếu tôi muốn dự đoán xác suất bằng mô hình tuyến tính,tôi có thể nhận được xác suất âm hoặc lớn hơn 1.

Giải pháp: Mô hình tuyến tính tổng quát (GLM).

Vấn đề: Các tính năng tương tác.

Ví dụ: Trung bình, mưa nhẹ có tác động tiêu cực nhẹ đến mong muốn đạp xe của tôi Nhưng vào mùa hè, trong giờ cao điểm, tôi rất thích mưa, vì khi đó tất cả những người đi xe đạp thời tiết đẹp sẽ ở nhà và tôi có đường dành riêng cho xe đạp! Đây là sự tương tác giữa thời gian và thời tiết mà không thể mô hình cộng tính thuần túy nào có thể nắm bắt được.

Giải pháp: Thêm tương tác theo cách thủ công.

Vấn đề: Mối quan hệ thực sự giữa các đặc điểm và y không phải là tuyến tính.

Ví dụ: Trong khoảng từ 0 đến 25 độ C, ảnh hưởng của nhiệt độ đến mong muốn đạp xe của tôi có thể là tuyến tính, nghĩa là sự gia tăng từ 0 đến 1 độ sẽ khiến mong muốn đạp xe tăng lên giống như sự gia tăng từ 20 đến 21 độ Nhưng ở nhiệt độ cao hơn, động lực đạp xe của tôi sẽ giảm dần và thậm chí là không còn nữa - tôi không thích đạp xe khi trời quá nóng.

Giải pháp: Mô hình cộng tính tổng quát (GAM); phép biến đổi các đặc điểm.

Các giải pháp cho ba vấn đề này được trình bày trong chương này Nhiều phần mở rộng khác của mô hình tuyến tính đã bị bỏ qua Nếu tôi cố gắng đề cập đến mọi thứ ở đây, chương này sẽ nhanh chóng trở thành một cuốn sách trong một cuốn sách về một chủ đề đã được đề cập trong nhiều cuốn sách khác Nhưng vì bạn đã ở đây, tôi đã tạo một bài toán nhỏ cộng với tổng quan về giải pháp cho các phần mở rộng mô hình tuyến tính, bạn có thể tìm thấy ở cuối chương Tên của giải pháp có nghĩa là đóng vai trò là điểm khởi đầu cho một tìm kiếm.

5.3.1 Kết quả không theo chuẩn Gauss - GLM

Mô hình hồi quy tuyến tính giả định rằng kết quả cho các tính năng đầu vào tuân theo phân phối chuẩn Gauss Giả định này loại trừ nhiều trường hợp: Kết quả cũng có thể là một danh mục (ung thư so với khỏe mạnh), một số lượng (số trẻ em), thời gian xảy ra sự kiện (thời gian đến khi máy hỏng) hoặc một kết quả rất lệch với một vài giá trị rất cao (thu nhập hộ gia đình) Mô hình hồi quy tuyến tính có thể được mở rộng để mô hình hóa tất cả các loại kết quả này Phần mở rộng này được gọi là

Mô hình tuyến tính tổng quát hoặc viết tắt là GLM Trong suốt chương này, tôi sẽ sử dụng tên GLM cho cả khuôn khổ chung và cho các mô hình cụ thể từ khuôn khổ đó Khái niệm cốt lõi của bất kỳ GLM nào là: Giữ nguyên tổng trọng số của các tính năng, nhưng cho phép phân phối kết quả không theo chuẩn Gauss và kết nối giá trị trung bình kỳ vọng của phân phối này và tổng trọng số thông qua một hàm có thể là phi tuyến tính Ví dụ, mô hình hồi quy logistic giả định phân phối Bernoulli cho kết quả và liên kết giá trị trung bình kỳ vọng và tổng trọng số bằng hàm logistic.

Về mặt toán học, GLM liên kết tổng trọng số của các tính năng với giá trị trung bình của phân phối giả định bằng hàm liên kết g, có thể được chọn linh hoạt tùy thuộc vào loại kết quả.

GLM bao gồm ba thành phần: Hàm liên kết g, tổng có trọng số XT©

(đôi khi được gọi là dự báo tuyến tính) và phân phối xác suất từ họ hàm mũ xác định EY

Họ hàm mũ là một tập hợp các phân phối có thể được viết bằng cùng một công thức (tham số hóa) bao gồm số mũ, giá trị trung bình và phương sai của phân phối và một số tham số khác Tôi sẽ không đi sâu vào chi tiết toán học vì đây là một vũ trụ rất lớn mà tôi không muốn đề cập đến Wikipedia có một danh sách gọn gàng các phân phối từ họ hàm mũ Bất kỳ phân phối nào từ danh sách này đều có thể được chọn cho GLM của bạn Dựa trên loại kết quả mà bạn muốn dự đoán, hãy chọn một phân phối phù hợp Kết quả có phải là số lượng của một cái gì đó (ví dụ: số trẻ em sống trong một hộ gia đình) không? Khi đó, phân phối Poisson có thể là một lựa chọn tốt Kết quả có luôn luôn dương (ví dụ: thời gian giữa hai sự kiện) không? Khi đó, phân phối mũ có thể là một lựa chọn tốt.

Chúng ta hãy xem xét mô hình tuyến tính cổ điển như một trường hợp đặc biệt của GLM Hàm liên kết cho phân phối Gauss trong mô hình tuyến tính cổ điển chỉ đơn giản là hàm đồng nhất Phân phối Gauss được tham số hóa bởi các tham số trung bình và phương sai Trung bình mô tả giá trị mà chúng ta mong đợi trung bình và phương sai mô tả mức độ các giá trị thay đổi xung quanh giá trị trung bình này. Trong mô hình tuyến tính, hàm liên kết liên kết tổng có trọng số của các tính năng với giá trị trung bình của phân phối Gauss.

Theo khuôn khổ GLM, khái niệm này được khái quát hóa thành bất kỳ phân phối nào (từ họ hàm mũ) và các hàm liên kết tùy ý Nếu y là số lượng của một thứ gì đó, chẳng hạn như số lượng cà phê mà ai đó uống vào một ngày nào đó, chúng ta có thể mô hình hóa nó bằng GLM với phân phối Poisson và logarit tự nhiên làm hàm liên kết:

Cây quyết định

Các mô hình hồi quy tuyến tính và hồi quy logistic không hiệu quả trong các tình huống mà mối quan hệ giữa các tính năng và kết quả là phi tuyến tính hoặc khi các tính năng tương tác với nhau Đã đến lúc tỏa sáng cho cây quyết định! Các mô hình dựa trên cây chia dữ liệu nhiều lần theo các giá trị cắt nhất định trong các tính năng Thông qua việc chia, các tập hợp con khác nhau của tập dữ liệu được tạo ra, với mỗi trường hợp thuộc về một tập hợp con Các tập hợp con cuối cùng được gọi là các nút đầu cuối hoặc nút lá và các tập hợp con trung gian được gọi là các nút bên trong hoặc nút chia Để dự đoán kết quả trong mỗi nút lá, kết quả trung bình của dữ liệu đào tạo trong nút này được sử dụng Cây có thể được sử dụng để phân loại và hồi quy.

Có nhiều thuật toán khác nhau có thể phát triển một cây Chúng khác nhau về cấu trúc có thể có của cây (ví dụ: số lần chia trên mỗi nút), tiêu chí tìm các lần chia, thời điểm dừng chia và cách ước tính các mô hình đơn giản trong các nút lá Thuật toán cây phân loại và hồi quy (CART) có lẽ là thuật toán phổ biến nhất để tạo cây. Chúng ta sẽ tập trung vào CART, nhưng cách diễn giải tương tự đối với hầu hết các loại cây khác Tôi xin giới thiệu cuốn sách ‘The Elements of Statistical Learning’ (Friedman, Hastie và Tibshirani 2009)18 để có phần giới thiệu chi tiết hơn về CART.

Diễn giải rất đơn giản: Bắt đầu từ nút gốc, bạn chuyển đến các nút tiếp theo và các cạnh cho bạn biết bạn đang xem tập hợp con nào Khi bạn đến nút lá, nút sẽ cho bạn biết kết quả dự đoán Tất cả các cạnh được kết nối bằng 'AND'.

Mẫu: Nếu tính năng x [nhỏ hơn/lớn hơn] ngưỡng c AND … thì kết quả dự đoán là giá trị trung bình của y trong các trường hợp trong nút đó.

Tầm quan trọng của tính năng

Tầm quan trọng chung của một tính năng trong cây quyết định có thể được tính theo cách sau: Duyệt qua tất cả các phân chia mà tính năng được sử dụng và đo mức độ tính năng đó đã giảm phương sai hoặc chỉ số Gini so với nút cha như thế nào Tổng của tất cả các tầm quan trọng được chia tỷ lệ thành 100 Điều này có nghĩa là mỗi tầm quan trọng có thể được diễn giải là phần chia sẻ tầm quan trọng của mô hình tổng thể.

Có thể giải thích các dự đoán riêng lẻ của cây quyết định bằng cách phân tích đường dẫn quyết định thành một thành phần cho mỗi tính năng Chúng ta có thể theo dõi một quyết định thông qua cây và giải thích một dự đoán bằng các đóng góp được thêm vào tại mỗi nút quyết định.

Cấu trúc cây lý tưởng để nắm bắt các tương tác giữa các tính năng trong dữ liệu.

Dữ liệu kết thúc trong các nhóm riêng biệt thường dễ hiểu hơn các điểm trên siêu phẳng đa chiều như trong hồi quy tuyến tính Có thể nói rằng cách diễn giải khá đơn giản.

Cấu trúc cây cũng có hình ảnh trực quan tự nhiên, với các nút và cạnh của nó.

Cây tạo ra các giải thích tốt như được định nghĩa trong chương về "Giải thích thân thiện với con người" Cấu trúc cây tự động mời gọi suy nghĩ về các giá trị dự đoán cho các trường hợp riêng lẻ như các điều kiện trái ngược: "Nếu một tính năng lớn hơn/nhỏ hơn điểm phân chia, dự đoán sẽ là y1 thay vì y2" Các giải thích cây tương phản, vì bạn luôn có thể so sánh dự đoán của một trường hợp với các kịch bản "nếu như" có liên quan (như được định nghĩa bởi cây) chỉ đơn giản là các nút lá khác của cây Nếu cây ngắn, như sâu từ một đến ba lần phân chia, thì các giải thích kết quả là có chọn lọc Một cây có độ sâu là ba yêu cầu tối đa ba tính năng và điểm phân chia để tạo ra lời giải thích cho dự đoán của một trường hợp riêng lẻ. Tính trung thực của dự đoán phụ thuộc vào hiệu suất dự đoán của cây Giải thích cho cây ngắn rất đơn giản và chung chung, vì đối với mỗi lần chia, trường hợp rơi vào một trong hai lá và các quyết định nhị phân dễ hiểu.

Không cần phải biến đổi các tính năng Trong các mô hình tuyến tính, đôi khi cần phải lấy logarit của một tính năng Cây quyết định hoạt động tốt như nhau với bất kỳ phép biến đổi đơn điệu nào của một tính năng.

Cây không xử lý được các mối quan hệ tuyến tính Bất kỳ mối quan hệ tuyến tính nào giữa một tính năng đầu vào và kết quả đều phải được xấp xỉ bằng các phép chia, tạo ra một hàm bước Điều này không hiệu quả. Điều này đi đôi với việc thiếu sự mượt mà Những thay đổi nhỏ trong tính năng đầu vào có thể có tác động lớn đến kết quả dự đoán, thường là không mong muốn. Hãy tưởng tượng một cây dự đoán giá trị của một ngôi nhà và cây sử dụng kích thước của ngôi nhà làm một trong các tính năng chia Sự chia tách xảy ra ở 100,5 mét vuông Hãy tưởng tượng người dùng ước tính giá nhà sử dụng mô hình cây quyết định của bạn: Họ đo ngôi nhà của mình, đi đến kết luận rằng ngôi nhà có diện tích 99 mét vuông, nhập vào máy tính giá và nhận được dự đoán là 200.000 Euro Người dùng nhận thấy rằng họ đã quên đo một phòng chứa đồ nhỏ có diện tích 2 mét vuông Phòng chứa đồ có tường dốc, vì vậy họ không chắc liệu họ có thể đếm toàn bộ diện tích hay chỉ một nửa Vì vậy, họ quyết định thử cả 100,0 và 101,0 mét vuông Kết quả: Máy tính giá đưa ra kết quả là 200.000 Euro và 205.000 Euro, khá không trực quan, vì không có thay đổi nào từ 99 mét vuông thành 100.

Cây cũng khá không ổn định Một vài thay đổi trong tập dữ liệu đào tạo có thể tạo ra một cây hoàn toàn khác Điều này là do mỗi lần phân chia phụ thuộc vào lần phân chia cha Và nếu một tính năng khác được chọn làm tính năng phân chia đầu tiên, toàn bộ cấu trúc cây sẽ thay đổi Nó không tạo ra sự tin tưởng vào mô hình nếu cấu trúc thay đổi dễ dàng như vậy.

Cây quyết định rất dễ hiểu – miễn là chúng ngắn Số lượng nút đầu cuối tăng nhanh theo độ sâu Càng nhiều nút đầu cuối và cây càng sâu thì càng khó hiểu các quy tắc quyết định của cây Độ sâu 1 nghĩa là 2 nút đầu cuối Độ sâu 2 nghĩa là tối đa 4 nút Độ sâu 3 nghĩa là tối đa 8 nút Số lượng nút đầu cuối tối đa trong một cây là 2 mũ độ sâu.

5.4.5 Phần mềm Đối với các ví dụ trong chương này, tôi đã sử dụng gói R rpart triển khai CART (cây phân loại và hồi quy) CART được triển khai trong nhiều ngôn ngữ lập trình, bao gồm cả Python Có thể nói, CART là một thuật toán khá cũ và hơi lỗi thời và có một số thuật toán mới thú vị để lắp cây Bạn có thể tìm thấy tổng quan về một số gói R cho cây quyết định trong Machine Learning and Statistical LearningCRAN Task View dưới từ khóa “Recursive Partitioning” Trong Python, gói imodels cung cấp nhiều thuật toán khác nhau để phát triển cây quyết định (ví dụ:tham lam so với phù hợp tối ưu), cắt tỉa cây và điều chỉnh cây.

Các mô hình có thể diễn giải khác

Danh sách các mô hình có thể diễn giải liên tục tăng lên và không rõ quy mô Danh sách này bao gồm các mô hình đơn giản như mô hình tuyến tính, cây quyết định và Bayes ngây thơ, nhưng cũng có các mô hình phức tạp hơn kết hợp hoặc sửa đổi các mô hình học máy không thể diễn giải để làm cho chúng dễ diễn giải hơn Đặc biệt, các ấn phẩm về loại mô hình sau hiện đang được xuất bản với tần suất cao và rất khó để theo kịp sự phát triển Cuốn sách chỉ giới thiệu bộ phân loại Bayes ngây thơ và k-gần nhất trong chương này.

5.5.1 Bộ phân loại Bayes ngây thơ

Bộ phân loại Bayes ngây thơ sử dụng định lý Bayes về xác suất có điều kiện Đối với mỗi tính năng, nó tính toán xác suất cho một lớp tùy thuộc vào giá trị của tính năng Bộ phân loại Bayes ngây thơ tính toán xác suất lớp cho từng tính năng một cách độc lập, tương đương với giả định mạnh (= ngây thơ) về tính độc lập có điều kiện của các tính năng Bayes ngây thơ là một mô hình xác suất có điều kiện và mô hình hóa xác suất của một lớp Ck như sau:

Thuật ngữ Z là một tham số tỷ lệ đảm bảo rằng tổng xác suất cho tất cả các lớp là 1 (nếu không thì chúng sẽ không phải là xác suất) Xác suất có điều kiện của một lớp là xác suất lớp nhân với xác suất của từng tính năng cho lớp đó, được chuẩn hóa theo Z Công thức này có thể được suy ra bằng cách sử dụng định lý Bayes.

Naive Bayes là một mô hình có thể diễn giải được vì giả định độc lập Nó có thể được diễn giải ở cấp độ mô-đun Rất rõ ràng đối với mỗi tính năng, mức độ đóng góp của nó vào dự đoán lớp nhất định, vì chúng ta có thể diễn giải xác suất có điều kiện.

Phương pháp k-nearest neighbor có thể được sử dụng để hồi quy và phân loại và sử dụng các láng giềng gần nhất của một điểm dữ liệu để dự đoán Đối với phân loại, phương pháp k-nearest neighbor chỉ định lớp phổ biến nhất của các láng giềng gần nhất của một trường hợp Đối với hồi quy, nó lấy giá trị trung bình của kết quả của các láng giềng Phần khó là tìm đúng k và quyết định cách đo khoảng cách giữa các trường hợp, cuối cùng xác định được vùng lân cận.

Mô hình k-nearest neighbor khác với các mô hình có thể diễn giải khác được trình bày trong cuốn sách này vì nó là một thuật toán học dựa trên trường hợp Làm thế nào để diễn giải k-nearest neighbors? Trước hết, không có tham số nào để học, vì vậy không có khả năng diễn giải ở cấp độ mô-đun Hơn nữa, mô hình toàn cục thiếu khả năng diễn giải vì mô hình vốn có tính cục bộ và không có trọng số hoặc cấu trúc toàn cục nào được học một cách rõ ràng Có lẽ nó có thể diễn giải được ở cấp độ cục bộ? Để giải thích một dự đoán, bạn luôn có thể truy xuất k-nearest neighbors đã được sử dụng cho dự đoán đó Việc mô hình có thể diễn giải được hay không chỉ phụ thuộc vào câu hỏi liệu bạn có thể 'diễn giải' một trường hợp duy nhất trong tập dữ liệu hay không Tôi cho rằng nếu một trường hợp bao gồm hàng trăm hoặc hàng nghìn tính năng, thì nó không thể diễn giải được Nhưng nếu bạn có ít tính năng hoặc có cách để giảm trường hợp của mình xuống các tính năng quan trọng nhất, thì việc trình bày k-nearest neighbors có thể cung cấp cho bạn những lời giải thích tốt.

Phương pháp không phụ thuộc vào mô hình

Việc tách biệt các giải thích khỏi mô hình học máy (= phương pháp diễn giải không phụ thuộc vào mô hình) có một số lợi thế (Ribeiro, Singh và Guestrin

201627) Ưu điểm lớn nhất của các phương pháp diễn giải không phụ thuộc vào mô hình so với các phương pháp diễn giải dành riêng cho mô hình là tính linh hoạt của chúng Các nhà phát triển học máy có thể thoải mái sử dụng bất kỳ mô hình học máy nào họ thích khi các phương pháp diễn giải có thể được áp dụng cho bất kỳ mô hình nào Bất kỳ thứ gì dựa trên diễn giải của mô hình học máy, chẳng hạn như giao diện đồ họa hoặc giao diện người dùng, cũng trở nên độc lập với mô hình học máy cơ bản Thông thường, không chỉ một mà là nhiều loại mô hình học máy được đánh giá để giải quyết một nhiệm vụ và khi so sánh các mô hình về khả năng diễn giải, sẽ dễ dàng hơn khi làm việc với các giải thích không phụ thuộc vào mô hình, vì cùng một phương pháp có thể được sử dụng cho bất kỳ loại mô hình nào.

Một phương án thay thế cho các phương pháp diễn giải không phụ thuộc vào mô hình là chỉ sử dụng các mô hình có thể diễn giải, thường có nhược điểm lớn là hiệu suất dự đoán bị mất so với các mô hình học máy khác và bạn chỉ giới hạn mình ở một loại mô hình Một phương án thay thế khác là sử dụng các phương pháp diễn giải dành riêng cho mô hình Nhược điểm của điều này là nó cũng ràng buộc bạn với một kiểu mô hình và sẽ khó để chuyển sang kiểu khác.

Các khía cạnh mong muốn của hệ thống giải thích không phụ thuộc vào mô hình là(Ribeiro, Singh và Guestrin 2016):

Tính linh hoạt của mô hình: Phương pháp giải thích có thể hoạt động với bất kỳ mô hình học máy nào, chẳng hạn như rừng ngẫu nhiên và mạng nơ-ron sâu.

Tính linh hoạt của giải thích: Bạn không bị giới hạn ở một dạng giải thích nhất định Trong một số trường hợp, có thể hữu ích khi có công thức tuyến tính, trong những trường hợp khác, đồ họa có tầm quan trọng của tính năng.

Tính linh hoạt của biểu diễn: Hệ thống giải thích phải có thể sử dụng biểu diễn tính năng khác làm mô hình đang được giải thích Đối với trình phân loại văn bản sử dụng các vectơ nhúng từ trừu tượng, có thể tốt hơn khi sử dụng sự hiện diện của từng từ riêng lẻ để giải thích.

Chúng ta hãy xem xét ở cấp độ cao hơn về khả năng giải thích không phụ thuộc vào mô hình Chúng ta nắm bắt thế giới bằng cách thu thập dữ liệu và trừu tượng hóa nó hơn nữa bằng cách học cách dự đoán dữ liệu (cho nhiệm vụ) bằng mô hình học máy Khả năng giải thích chỉ là một lớp khác ở trên cùng giúp con người hiểu.

HÌNH 6.1: Bức tranh toàn cảnh về máy học có thể giải thích được Thế giới thực trải qua nhiều lớp trước khi đến được với con người dưới dạng giải thích.

Lớp thấp nhất là Thế giới Về cơ bản, đây có thể là chính bản chất, giống như sinh học của cơ thể con người và cách cơ thể phản ứng với thuốc, nhưng cũng có thể là những thứ trừu tượng hơn như thị trường bất động sản Lớp Thế giới chứa mọi thứ có thể quan sát được và gây hứng thú Cuối cùng, chúng ta muốn tìm hiểu điều gì đó về Thế giới và tương tác với nó.

Lớp thứ hai là lớp Dữ liệu Chúng ta phải số hóa Thế giới để máy tính có thể xử lý được và cũng để lưu trữ thông tin Lớp Dữ liệu chứa mọi thứ từ hình ảnh, văn bản, dữ liệu dạng bảng, v.v.

Bằng cách lắp các mô hình máy học dựa trên lớp Dữ liệu, chúng ta có được lớp Mô hình hộp đen Các thuật toán máy học bằng dữ liệu từ thế giới thực để đưa ra dự đoán hoặc tìm cấu trúc.

Phía trên lớp Mô hình hộp đen là lớp Phương pháp diễn giải, giúp chúng ta xử lý tính mờ đục của các mô hình máy học Các tính năng quan trọng nhất đối với một chẩn đoán cụ thể là gì? Tại sao một giao dịch tài chính được phân loại là gian lận?

Lớp cuối cùng do Con người đảm nhiệm Nhìn này! Lớp này vẫy tay chào bạn vì bạn đang đọc cuốn sách này và giúp cung cấp những lời giải thích tốt hơn cho các mô hình hộp đen! Con người cuối cùng là người tiêu thụ các lời giải thích.

Sự trừu tượng nhiều lớp này cũng giúp hiểu được sự khác biệt trong cách tiếp cận giữa các nhà thống kê và những người thực hành học máy Các nhà thống kê xử lý lớp Dữ liệu, chẳng hạn như lập kế hoạch thử nghiệm lâm sàng hoặc thiết kế khảo sát Họ bỏ qua lớp Mô hình hộp đen và chuyển thẳng đến lớp Phương pháp diễn giải Các chuyên gia học máy cũng xử lý lớp Dữ liệu, chẳng hạn như thu thập các mẫu hình ảnh ung thư da có nhãn hoặc thu thập dữ liệu trên Wikipedia Sau đó, họ đào tạo một mô hình học máy hộp đen Lớp Phương pháp diễn giải bị bỏ qua và con người trực tiếp xử lý các dự đoán của mô hình hộp đen Thật tuyệt khi học máy có thể diễn giải kết hợp công việc của các nhà thống kê và các chuyên gia học máy.

Tất nhiên đồ họa này không nắm bắt được mọi thứ: Dữ liệu có thể đến từ các mô phỏng Các mô hình hộp đen cũng đưa ra các dự đoán mà thậm chí con người có thể không nhận được, nhưng chỉ cung cấp cho các máy khác, v.v Nhưng nhìn chung, đây là một sự trừu tượng hữu ích để hiểu cách khả năng diễn giải trở thành lớp mới này trên các mô hình học máy.

Ngày đăng: 18/11/2024, 18:36

HÌNH ẢNH LIÊN QUAN

HÌNH 2.1: Người học học một mô hình từ dữ liệu đào tạo được gắn nhãn. Mô hình được sử dụng để đưa ra dự đoán. - Thực tập tốt nghiệp báo cáo thực tập tốt nghiệp xây dựng học liệu cho học phần ai giải thích Được
HÌNH 2.1 Người học học một mô hình từ dữ liệu đào tạo được gắn nhãn. Mô hình được sử dụng để đưa ra dự đoán (Trang 11)
HÌNH 3.2: Doge, máy hút bụi của chúng tôi, bị kẹt. Để giải thích cho vụ tai nạn, Doge nói với chúng tôi rằng nó cần phải ở trên một bề mặt bằng phẳng. - Thực tập tốt nghiệp báo cáo thực tập tốt nghiệp xây dựng học liệu cho học phần ai giải thích Được
HÌNH 3.2 Doge, máy hút bụi của chúng tôi, bị kẹt. Để giải thích cho vụ tai nạn, Doge nói với chúng tôi rằng nó cần phải ở trên một bề mặt bằng phẳng (Trang 18)
HÌNH 5.1: Trọng số được hiển thị dưới dạng điểm và khoảng tin cậy 95% dưới - Thực tập tốt nghiệp báo cáo thực tập tốt nghiệp xây dựng học liệu cho học phần ai giải thích Được
HÌNH 5.1 Trọng số được hiển thị dưới dạng điểm và khoảng tin cậy 95% dưới (Trang 49)
HÌNH 5.2: Biểu đồ đặc ứng ứng dụng cho thấy sự phân bố của các hiệu ứng (= giá - Thực tập tốt nghiệp báo cáo thực tập tốt nghiệp xây dựng học liệu cho học phần ai giải thích Được
HÌNH 5.2 Biểu đồ đặc ứng ứng dụng cho thấy sự phân bố của các hiệu ứng (= giá (Trang 51)
HÌNH 5.3: Biểu đồ hiệu ứng cho một trường hợp cho thấy sự phân bố hiệu ứng và - Thực tập tốt nghiệp báo cáo thực tập tốt nghiệp xây dựng học liệu cho học phần ai giải thích Được
HÌNH 5.3 Biểu đồ hiệu ứng cho một trường hợp cho thấy sự phân bố hiệu ứng và (Trang 53)
HÌNH 5.4: Khi hình phạt tăng dần của trọng số, ngày càng ít tính năng nhận được ước tính trọng số khác không - Thực tập tốt nghiệp báo cáo thực tập tốt nghiệp xây dựng học liệu cho học phần ai giải thích Được
HÌNH 5.4 Khi hình phạt tăng dần của trọng số, ngày càng ít tính năng nhận được ước tính trọng số khác không (Trang 58)
HÌNH 5.5: Một mô hình tuyến tính phân loại khối u thành ác tính (1) hoặc lành tính (0) dựa trên kích thước của chúng - Thực tập tốt nghiệp báo cáo thực tập tốt nghiệp xây dựng học liệu cho học phần ai giải thích Được
HÌNH 5.5 Một mô hình tuyến tính phân loại khối u thành ác tính (1) hoặc lành tính (0) dựa trên kích thước của chúng (Trang 64)
HÌNH 5.6: Hàm logistic. Nó đưa ra các số từ 0 đến 1. Ở đầu vào 0, nó đưa ra 0,5. - Thực tập tốt nghiệp báo cáo thực tập tốt nghiệp xây dựng học liệu cho học phần ai giải thích Được
HÌNH 5.6 Hàm logistic. Nó đưa ra các số từ 0 đến 1. Ở đầu vào 0, nó đưa ra 0,5 (Trang 65)
HÌNH 5.7: Mô hình hồi quy logistic tìm ra ranh giới quyết định đúng giữa ác tính - Thực tập tốt nghiệp báo cáo thực tập tốt nghiệp xây dựng học liệu cho học phần ai giải thích Được
HÌNH 5.7 Mô hình hồi quy logistic tìm ra ranh giới quyết định đúng giữa ác tính (Trang 66)
HÌNH 5.8: Ba giả định của mô hình tuyến tính (bên trái): Phân phối chuẩn Gauss của kết quả cho các tính năng, tính cộng (= không có tương tác) và mối quan hệ tuyến tính - Thực tập tốt nghiệp báo cáo thực tập tốt nghiệp xây dựng học liệu cho học phần ai giải thích Được
HÌNH 5.8 Ba giả định của mô hình tuyến tính (bên trái): Phân phối chuẩn Gauss của kết quả cho các tính năng, tính cộng (= không có tương tác) và mối quan hệ tuyến tính (Trang 73)
HÌNH 5.9: Phân phối mô phỏng số lượng cà phê uống hàng ngày trong 200 ngày. - Thực tập tốt nghiệp báo cáo thực tập tốt nghiệp xây dựng học liệu cho học phần ai giải thích Được
HÌNH 5.9 Phân phối mô phỏng số lượng cà phê uống hàng ngày trong 200 ngày (Trang 78)
HÌNH 5.10: Số lượng cà phê dự đoán phụ thuộc vào căng thẳng, giấc ngủ và công - Thực tập tốt nghiệp báo cáo thực tập tốt nghiệp xây dựng học liệu cho học phần ai giải thích Được
HÌNH 5.10 Số lượng cà phê dự đoán phụ thuộc vào căng thẳng, giấc ngủ và công (Trang 79)
HÌNH 5.11: Số lượng cà phê dự đoán phụ thuộc vào căng thẳng, giấc ngủ và công việc. GLM với giả định Poisson và liên kết logarit là mô hình phù hợp cho tập dữ - Thực tập tốt nghiệp báo cáo thực tập tốt nghiệp xây dựng học liệu cho học phần ai giải thích Được
HÌNH 5.11 Số lượng cà phê dự đoán phụ thuộc vào căng thẳng, giấc ngủ và công việc. GLM với giả định Poisson và liên kết logarit là mô hình phù hợp cho tập dữ (Trang 80)
HÌNH 6.1: Bức tranh toàn cảnh về máy học có thể giải thích được. Thế giới thực trải qua nhiều lớp trước khi đến được với con người dưới dạng giải thích. - Thực tập tốt nghiệp báo cáo thực tập tốt nghiệp xây dựng học liệu cho học phần ai giải thích Được
HÌNH 6.1 Bức tranh toàn cảnh về máy học có thể giải thích được. Thế giới thực trải qua nhiều lớp trước khi đến được với con người dưới dạng giải thích (Trang 93)

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w