Predictio n– dự đoán

Giả sử chúng ta muốn dự đoán (prediction) cho một quan sát mới x sau khi chúng ta có 𝛼𝑖 được giải nhờ gói CVXOPT [4], và 𝑏∗ được tính từ (2.1.36). Lúc này, hàm phân lớp một điểm x sẽ dựa trên hàm dấu:

𝑓(𝑥) = 𝑠𝑔𝑛{∑ 𝛼𝑖𝑦𝑖𝑘(𝑥𝑖, 𝑥) + 𝑏∗ 𝑚 𝑖=1 } Có nghĩa là: {𝑦 = +1 𝑛ế𝑢 𝑓(𝑥) > 0, 𝑦 = −1 𝑛ế𝑢 𝑓(𝑥) < 0. 2.1.5 Tổng kết về SVM

SVM là một thuật toán có giám sát (supervised) trong Máy học. Ý tưởng của thuật toán là coi mỗi quan sát là một điểm trong không gian n – chiều (n là số đặc trưng trong tập dữ liệu) cần được phân lớp, khi đó thuật toán sẽ tìm cách xây dựng một siêu phẳng (hyperplan nhiều chiều) sao cho khoảng cách giữa siêu phẳng đó tới điểm dữ liệu gần nhất của một phân lớp là lớn nhất (maximum-margin).

Có 2 dạng bài cho phương pháp SVM:

Dạng thứ nhất là phân tách tuyến tính (linearly separable). Khi đó tồn tại một siêu phẳng để phân tách tuyến tính các lớp trong tập dữ liệu.

Dạng thứ hai là phân tách phi tuyến. Khi không tồn tại một siêu phẳng để phân tách các lớp trong tập dữ liệu. Chúng ta cần phải ánh xạ tập dữ liệu trong không gian ban đầu vào không gian mới nhiều chiều hơn, nhằm tìm được một siêu phẳng tuyến tính phân tách trong không gian mới. Việc chuyển đổi không gian này cần hàm hạt nhân K(x, z).

Có 2 dạng siêu phẳng:

Lề cứng (hard – margin): Khi dữ liệu các lớp được phân tách rõ ràng; tức là không có điểm dữ liệu ngoại lệ (no outliers).

Lề mềm (soft – margin): Chọn một siêu phẳng phân tách các ví dụ luyện tập tốt nhất có thể, chấp nhận có điểm dữ liệu ngoại lệ (with outliers).

Ưu điểm của SVM:

Thể hiện được nhiều ưu điểm trong số đó có việc tính toán hiệu quả trên các tập dữ liệu lớn.

Xử lý trên không gian số chiều cao: SVM là một công cụ tính toán hiệu quả trong không gian chiều cao. SVM có thể hiệu quả khi số chiều lớn hơn số lượng quan sát.

Tiết kiệm bộ nhớ: Do chỉ có một tập hợp con của các điểm được sử dụng trong quá trình huấn luyện và ra quyết định thực tế cho các điểm dữ liệu mới nên chỉ có những điểm cần thiết mới được lưu trữ trong bộ nhớ khi ra quyết định.

Tính linh hoạt: Phân lớp thường là phi tuyến tính. Khả năng áp dụng kernel mới cho phép linh động giữa các phương pháp tuyến tính và phi tuyến tính từ đó khiến cho hiệu suất phân loại lớn hơn.

Nhược điểm của SVM:

Bài toán số chiều cao: Trong trường hợp số lượng thuộc tính (n) của tập dữ liệu lớn hơn rất nhiều so với số lượng dữ liệu (m) thì SVM cho kết quả khá tồi.

Chưa thể hiện rõ tính xác suất: Việc phân lớp của SVM chỉ là việc cố gắng tách các đối tượng vào hai lớp được phân tách bởi siêu phẳng SVM. Điều này chưa giải thích được xác suất xuất hiện của một thành viên trong một nhóm là như thế nào. Tuy nhiên hiệu quả của việc phân lớp có thể được xác định dựa vào khái niệm margin từ điểm dữ liệu mới đến siêu phẳng phân lớp mà chúng ta đã bàn luận ở trên.

Nếu việc chọn các kernel không phù hợp, thì hiệu quả của thuật toán sẽ giảm rất nhiều. Cái này đòi hỏi kiến thức của chuyên gia.

2.2. MÔ HÌNH HỒI QUY LOGISTIC REGRESSION

Trong các mô hình hồi quy, hồi quy tuyến tính được xem là đơn giản nhất nhưng có nhiều ứng dụng nhất. Mô hình này có thể xây dựng được cho hầu hết các mối quan hệ trong những lĩnh vực khác nhau của cuộc sống, đặc biệt trong dự báo. Mô hình hồi quy này cũng được xem là nền tảng, là cơ sở cho các mô hình hồi quy khác. Có rất nhiều mô hình hồi quy phi tuyến được chuyển đổi về dạng tuyến tính để xử lý bởi vì xét các vấn đề liên quan cho hồi quy tuyến tính thì đơn giản hơn nhiều so với hồi quy phi tuyến. Hồi quy logistic được xây dựng trên nền tảng các mô hình hồi quy phổ biến, đặc biệt là hồi quy tuyến tính.

Chúng ta sử dụng mô hình Linear Regression với giả định rằng biến phụ thuộc (đầu ra - dự đoán) phụ thuộc tuyến tính với một hay nhiều biến độc lập (đầu vào). Tuy nhiên có rất nhiều bài toán thực tế sẽ không đảm bảo việc giả định như vậy. Những bài toán mà mối quan hệ giữa biến phụ thuộc và các biến độc lập là phi tuyến tính (non-linear). Đây là lúc chúng ta cần nghĩ tới mô hình hồi quy Logistic.

Mô hình hồi quy Logistic sẽ dùng hàm biến đổi logarit cho biến đầu ra để biến mô hình từ quan hệ phi tuyến tính sang tuyến tính. Nói một cách khác, nó biểu diễn quan hệ hồi quy tuyến tính dưới dạng hàm logarit, nên đôi khi nó cũng được gọi là Logit Regression.

Mô hình Logistic có một giả định rằng biến phụ thuộc (dự đoán) có giá trị rời rạc. Nếu biến dự đoán chỉ lấy hai giá trị rời rạc, đó là mô hình Binary Logistic Regression. Nếu biến dự đoán lấy nhiều hơn hai giá trị, đó là mô hình Multinomial Logistic Regression.

Trong luận văn này, Tôi chỉ tập trung vào Binary Logistic Regression vì nó rất hay được sử dụng trong thực tế, ví dụ khi bài toán liên quan tới dự báo: có/không, thành công/thất bại, sống/chết, qua/trượt, bị bệnh/không bị, chấp nhận/từ chối, nam/nữ, v.v...

Binary Logistic Regression là một trong những thuật toán quan trọng bậc nhất trong Máy học.

2.2.1. Hàm Logistic

Trong luận văn này chúng ta bàn về bài toán phân lớp (Classification). Bài toán phân lớp là một trường hợp đặc biệt của bài toán hồi qui (Regression), với điều kiện biến dự đoán y chỉ nhận hai giá trị, 0 và 1 (chúng ta quan tâm tới bài toán binary logistic regression) (đọc thêm [5]). Có 2 nhận xét để tiếp cận bài toán này.

Thứ nhất: Dùng các hàm hồi qui tuyến tính (Linear Regression) để dự đoán biến

y, khi biết x. Ở đây chúng ta bỏ qua điều kiện giá trị của y là rời rạc (0 hoặc 1). Ở Linear Regression chúng ta chọn hàm dự đoán: ℎ𝜃(𝑥) = 𝜃𝑇𝑥.

Thứ hai: Vì giá trị 𝑦 ∈ {0, 1}, nên chúng ta giới hạn y trong đoạn [0, 1]. Do vậy, chúng ta chọn ℎ𝜃(𝑥) = 𝑔(𝜃𝑇𝑥), trong đó 𝑔(𝑧) = 1

1+𝑒−𝑧, với 𝑧 ∈ 𝑅. Tóm lại, chúng ta có hàm dự đoán với đầu vào x như sau:

ℎ𝜃(𝑥) = 1

1+𝑒−𝜃𝑇𝑥 (2.1.37) Đồ thị của hàm logistic có dạng như Hình 2.2.1:

Hình 2.2. 1: Đồ thị hàm Sigmoid

Chúng ta nhận thấy rằng giá trị hàm tiến dần tới 1 khi giá trị của biến tiến tới giá trị lớn dương; ngược lại, giá trị của hàm tiến dần tới 0 khi giá trị của biến tiến tới

giá trị nhỏ âm. Hàm sigmoid rất hữu dụng trong nhiều bài toán vì nó có thể cho đầu vào là một giá trị thực bất kì, và đầu ra là một giá trị năm trọng đoạn [0,1].

𝑔(𝑧) = 1 1+𝑒−𝑧 (2.1.38) Một tính chất thú vị của hàm là: 𝑔(𝑧) + 𝑔(−𝑧) = 1 1 + 𝑒−𝑧 + 1 1 + 𝑒𝑧 = 𝑒 𝑧 1 + 𝑒𝑧+ 1 1 + 𝑒𝑧 = 1

Chính vì vậy, nó cũng được dùng như một hàm xác suất. Logistic Regression là một thuật toán dùng để ước lượng xác suất p với sự kiện phân lớp 𝑦 ∈ {0,1}, với dữ liệu đã có x, được viết:

𝑝(𝑌 = 𝑦|𝑥) = 1 1 + 𝑒−𝑧.

2.2.2. Hồi quy Logistic đơn biến

Mô hình này nghiên cứu mối quan hệ giữa biến phụ thuộc (Y) với một biến độc lập (X). Trong đó, Y là biến nhị phân nhận giá trị 0 hoặc 1, X là biến định lượng hoặc định tính. Ở đây ta sẽ không phân tích mối quan hệ giữa giá trị của biến Y với X mà chúng ta quan tâm đến việc phân tích mối quan hệ giữa xác suất kết quả thành công (Y = 1) với biến X ảnh hưởng đến kết quả này.

Hàm Logistic sẽ tìm mối quan hệ giữa odds của sự thành công (Y = 1) với các giá trị của biến độc lập. Mối quan hệ này thông thường là quan hệ tuyến tính.

Gọi p (X) = p (Y = 1| X) là xác suất có điều kiện Y = 1 khi Xxảy ra.

Giả sử p (X) có mối quan hệ với biến X, nhưng ta không thể tìm trực tiếp mối quan hệ này vì p (X) chỉ nhận giá trị thuộc [0; 1] trong khi X nhận giá trị bất kỳ. Ta

thấy   ( ) ln ( ( )) ln 1 ( ) p X odds p X p X      

  có mối quan hệ với p(X) và có giá trị bất kì, vì thế ta có thể thay đổi mối quan hệ giữa p(X) và X bằng mối quan hệ giữa

( ) ln 1 ( ) p X p X     

  và X . Giả sử mối quan hệ này như sau:

0 1 ( ) ln 1 ( ) p X X p X            (2.1.39)

43 Hay 0 1 ( ) 1 ( ) X p X e p X     (2.1.40)

Công thức (2.1.39) và (2.1.40)cho ta hai hình thức của mô hình hồi quy Logistic đơn biến.

Trong đó: lnodds p X( ( )) hay ln ( ) 1 ( )

p X p X

 

  

  được gọi là logit[p(X)].

β0và β1 là hai hệ số hồi quy, với β0là điểm chắn và β1 là độ dốc.

2.2.3. Hồi quy Logistic đa biến

Xét biến phụ thuộc nhị phân Y và k biến độc lập X1, X2,..., Xk, trong đó Y chỉ nhận giá trị 0 và 1, còn Xj(j1, )k ảnh hưởng đến giá trị của Y.

Gọi X = (X1, X2,..., Xk),(j1, )k

Gọi p (X) = p (Y = 1| X) là xác suất có điều kiện của Y = 1 khi X xảyra.

Giả sử p( X ) và X có mối liên hệ tuyến tính với nhau. Ta có mô hình hồi quy Logistic đa biến sau.

0 1 ( ) ln 1 ( ) k j j j p X X p X              (2.1.41) Hay 0 1 ( ) 1 ( ) k j j j X p X e p X       (2.1.42)

2.2.4. Những lưu ý khi sử dụng mô hình Hồi quy Logistic

- Sai lệch xác định mô hình

- Mức độ phù hợp (Goodness-of-fit) - Đa cộng tuyến (Multicollinearity)

- Ảnh hưởng của đối tượng nghiên cứu (Influential observations) - Vấn đề với biến số định danh, thứ tự

- Hàm logistic là phù hợp với biến thiên xác suất của các biến số độc lập - Không bỏ mất biến số quan trọng khỏi mô hình

- Không thêm vào mô hình biến số không liên quan - Không có sai số đo lường trong các biến số độc lập - Các đối tượng nghiên cứu là độc lập với nhau

- Các biến số độc lập không có tương quan tuyến tính với nhau

2.3. OVERFITTING

Một thách thức trong các chương trình Máy học thường gặp phải đấy là vấn đề overfitting. Thách thức này xảy ra khi chúng ta xây dựng một mô hình “phức tạp hơn mức cần thiết”!

Hình 2.3. 1: Mô hình màu xanh nước biển (green) và xanh lá cây (green) cùng có sai số bằng 0 trên tập dữ liệu đã cho.

Tuy nhiên, mô hình màu xanh lá cây có khả năng dự báo với dữ liệu mới chính xác hơn mô hình màu xanh nước biển. Mô hình màu xanh nước biển phức tạp hơn mức cần thiết

Vấn đề Overfitting (phương sai quá lớn) xảy ra khi:

- Mô hình thực thi rất tốt (hàm chi phí rất nhỏ) trên tập huấn luyện, nhưng thực thi rất kém (hàm chi phí lớn) trên tập dữ liệu mới.

Vậy làm thế nào để vượt qua vấn đề overfitting? Một vài phương pháp có thể áp dụng:

- Đồ thị hóa dữ liệu và mô hình: Cách này không phù hợp với bài toán nhiều đặc trưng

- Cross – Validation: Dùng kĩ thuật lấy lại mẫu để ước lượng độ chính xác của mô hình. Kĩ thuật thường được dùng nhất là k-fold cross validation: Nó cho phép huấn luyện và kiểm tra mô hình k-lần trên các tập con dữ liệu khác nhau để rồi ước lượng độ chính xác của mô hình trên tập dữ liệu kiểm tra. Đây là kĩ thuật thường được áp dụng, bằng cách:

+ Tách dữ liệu thành 2 tập: Tập huấn luyện và tập kiểm tra; + Tính chi phí cho 2 tập dữ liệu trên;

+ So sánh sự khác nhau trên 2 tập để đưa ra nhận xét về mô hình (overfitting). - Giảm số đặc trưng, bằng cách:

+ Lựa chọn các đặc trưng để giữ lại, một số đặc trưng bị loại bỏ (bằng thủ công hay bằng thuật toán);

+ Tuy nhiên, việc lựa chọn đặc trưng nào để loại bỏ đôi khi không dễ dàng, và trong nhiều trường hợp thì đặc trưng quan trọng có thể bị mất.

- Dùng kĩ thuật Regularization:

+ Giữ tất cả các đặc trưng, nhưng giảm sự tác động của các tham số đi cùng (theta);

+ Kĩ thuật này rất tốt với mô hình có nhiều đặc trưng, và mỗi đặc trưng đều có ảnh hưởng tới kết quả đầu ra (y).

Như chúng ta thấy minh họa trên Hình 2.3.2, chúng ta muốn xây dựng một mô hình nhằm phân tách hai lớp đối tượng (x – màu đỏ và o – màu xanh). Với mô hình bên phải, nó đã thực hiện rất tốt với tập huấn luyện (chi phí rất nhỏ), nhưng nó lại yếu kém với việc dự đoán cho dữ liệu mới. Mô hình có quá phức tạp (quá nhiều thành phần: Đặc trưng và kết hợp của chúng với nhau). Kĩ thuật Regularization sẽ tìm cách giảm sự tác động của các tham số gây ra nguyên nhân đó.

2.4. PYTHON TRONG MÁY HỌC 2.4.1 Tại sao dùng Python 2.4.1 Tại sao dùng Python

Trong luận văn này, Tôi sử dụng ngôn ngữ Python. Có nhiều lý do. Đầu tiên và vô cùng quan trọng, Python là một ngôn ngữ rất dễ học cho người mới bắt đầu. Python có cú pháp, cấu trúc cực kì đơn giản và dễ đọc. Một học sinh phổ thông có tư duy logic khá cũng có thể tự học được Python. Thứ hai, Python là ngôn ngữ ngày càng phổ dụng (rất nhiều sản phẩm được phát triển ở Google sử dụng Python); nó có thể xây dựng bất kì ứng dụng nào khi ngôn ngữ khác nào làm được. Thứ ba, Python có rất nhiều thư viện cho Máy học (scikit-learn, pandas, theano, tensorflow). Python là sự lựa chọn hàng đầu cho người mới học có thể dễ dàng hơn trong việc phát triển ứng dụng cho Máy học, khoa học dữ liệu (data science), và nhiều lĩnh vực khác trong khoa học máy tính.

2.4.2 Thư viện trong Python [11,12,13,14]

Python là ngôn ngữ thông dịch (interpreted language). Mỗi câu lệnh được dịch trực tiếp, thay vì dịch cả chương trình. Trong Python, chúng ta không cần khai báo kiểu cho biến, tham số, hàm và các phương thức. Điều này làm cho Python ngắn gọn và linh hoạt, và không tốn thời gian kiểm tra kiểu trong thời gian biên dịch. Python sẽ kiểm tra kiểu giá trị tại thời gian chạy.

Không giống với C++ và Java, Python không yêu cầu dấu kết thúc mỗi câu lệnh ở cuối câu lệnh. Tuy nhiên, nó cũng phân biệt chữ cái hoa, thường khi đặt tên biến. Python được lưu trữ trong tệp có phần mở rộng “.py”.

Python được xem là ngôn ngữ dễ học, dễ đọc và dễ bảo trì. Là ngôn ngữ hỗ trợ phương thức lập trình có cấu trúc, lập trình hướng đối tượng, và có bộ thu gom rác tự động. Python cũng dễ dàng tích hợp với nhiều ngôn ngữ khác (C, C++, Java).

Vì Python là ngôn ngữ chưa thực sự phổ dụng ở Việt Nam nên Tôi lược dịch ra đây những kiến thức cơ bản và quan trọng nhằm giúp người đọc có thể hiểu được ở phần cài đặt (Chương 3).

2.4.2.1. Pandas

Cùng với Numpy, Pandas là một trong những thư viện được dùng rộng rãi trong chương trình Python. Pandas cung cấp nhiều đối tượng và phương thức cho các cấu trúc dữ liệu. Pandas là thư viện không thể thiếu cho chúng ta trong suốt quá trình xử lý dữ liệu (data munging): Từ chuyển đổi hay ánh xạ dữ liệu thô sang dạng dữ liệu mà chúng ta mong muốn, nhằm có thể phân tích dễ dàng hơn.

Chúng ta sẽ sử dụng hai cấu trúc dữ liệu hiệu quả được dùng trong Python:

Series và DataFrame; cả hai cấu trúc này được xây trên thư viện Numpy.

2.4.2.2. Nympy

Numpy (viết tắt của Nummerical Python) là một thư viện không thể thiếu khi chúng ta xây dựng các ứng dụng Máy học trên Python. Numpy cung cấp các đối tượng và phương thức để làm việc với mảng nhiều chiều và các phép toán đại số tuyến tính. Trong numpy, chiều của mảng gọi là axes; trong khi số chiều gọi là rank.

Thư viện chính trong numpy là các đối tượng mảng (array). Mảng (array) tương tự như list ở Python với điều kiện là mọi phần tử trong array phải có cùng kiểu dữ liệu. Array có thể thao tác với số lượng lớn dữ liệu số, thường là float hay int, và hiệu

ỨNG DỤNG CỦA MÁY HỌC

MÔ HÌNH SUPPORT VECTOR MACHINE