24 Khơng gian vào

Một phần của tài liệu XÂY DỰNG MÔ HÌNH DỰ ĐOÁN GIÁ CỔ PHIẾU Ở THỊ TRƯỜNG VIỆT NAM DỰA VÀO THUẬT TOÁN SVM (Trang 46 - 50)

Hãy xem xét các phương pháp để áp dụng thuật tốn phân loại SVM trong một thử thách khoa học dữ liệu.

Làm thế nào để triển khai SVM trong Python và R?

Trong Python, scikit-learning là một thư viện được sử dụng rộng rãi để triển khai các thuật tốn học máy . SVM cũng cĩ sẵn trong thư viện scikit-learning và tuân theo cấu trúc tương tự để sử dụng nĩ (Thư viện nhập, tạo đối tượng, mơ hình phù hợp và dự đốn).

Hãy xem xét một tuyên bố vấn đề thực tế và tập dữ liệu để hiểu cách áp dụng SVM để phân loại.

CHƯƠNG 3: BÀI TỐN

#K MEAN: phân cụm theo bài tốn sau

VD ta cĩ bài tốn cụ thể như sau:

Cho dữ liệu {2,4,10,12,3,20,30,11,25} và k=2.

Dùng thuật tốn K-means để xác định các cụm.

B1: chọn ngẫu nhiên trung tâm cụm m1=3; m2=4 B2: gán các đối tượng vào 2 cụm

K1 = {2,3} ◦ K2 = {4,10,12,20,30,11,25}

Chất lượng nhĩm tính theo tổng bình phương sai SSE=12+0+0+62+82+162+262+72+212 = 1523

B3: Tính lại trung tâm cụm bằng cơng thức trung bình cộng: m1=(2+3)/2=2.5

m2=(4+10+12+20+30+11+25)/7=16

B4: Quay lại bước 2, gán các đối tượng vào 2 cụm thu được: K1={2,3,4}

K2={10,12,20,30,11,25}

Hai cụm mới nên tiếp tục tính lại K1={2,3,4}

K2={10,12,20,30,11,25}

B5: Tính lại trung tâm cụm m1=3; m2 =18 gán lại các cụm

K1 {2,3,4,10}

K2 {12,20,30,11,25}

B6: Thu được trung tâm cụm cuối cùng 7 và 25 tương ứng 2 cụm thu được là:

K1={2,3,4,10,11,12} và k2 ={20,30,25}.

Thuật tốn dừng vì trung tâm cụm khơng thay đổi nữa. SSE = 52+42+32+32+42+52+52+52+0 =150.

#SVM: được thực hiện theo cơng thức và bài tốn sau

Phương trình khơng gian 2 chiều (phương trình mặt phẳng): { a,b,c là các hằng số } ax+by+c=0

Khoảng cách từ một điểm cĩ toạ độ (a, b) tới đường thẳng ax+by+c=0 cĩ phương trình được xác định bởi:

Phương trình khơng gian 3 chiều: { a,b,c,d là các hằng số } ax+by+cz+d=0

Khoảng cách từ một điểm cĩ toạ độ (a, b, c) tới đường thẳng ax+by+c=0 cĩ phương trình được xác định bởi:

Từ đĩ ta suy ra phương trình tổng quát

được xác định bởi:

Vì (được chấp nhận)

VD: Xét các điểm toạ độ trong khơng gian : M(-1; 2; 0.5), N(4; 6; 0), O(2; -3; 5) Ta sẽ luơn luơn cĩ khoảng cách đến các đường thằng trong khơng gian:

<=> (d): + y - = 0 thì khoảng cách được tính:

 (d) => M(-1; 2; 0.5)= =

 (d) => N(4; 6; 0)= =

 (d) => O(2; -3; 5)= =

Để tìm đường thẳng đi qua 2 điểm toạ độ hay khoản cách giữa các điểm đến đường thẳng trong một mặt phẳng bằng 0

(1): Thay toạ độ của điểm ban đầu vào phương trình tổng quát (2): Thay toạ độ của điểm đi qua thứ 2 vào phương trình tổng quát

CHƯƠNG 4: DEMO

- Chuẩn bị data trên Jupyter notebook gồm các bước thực hiện như sau:

Bước 1: Cài đặt yfinance: là thành phần API tham gia truy cập vào Yahoo Finance để được cung cấp quyền thơng tin về các hoạt động cổ phiếu.

Một phần của tài liệu XÂY DỰNG MÔ HÌNH DỰ ĐOÁN GIÁ CỔ PHIẾU Ở THỊ TRƯỜNG VIỆT NAM DỰA VÀO THUẬT TOÁN SVM (Trang 46 - 50)