Bài toán về mô hình hồi quy

e-Sử dụng giải thuật SigmoidGán nhãn 0 Bad,Non e 1 Good Threshold =0.5 Evualation Result Độ chính xác là :Accuracy = Kết luận về accuracy: Chuyên gia nhận định chính xác là 100% về tình

Trang 1

Gợi ý

Dạng 1: Bài toán về mô hình hồi quy

Bài 1:

a) Xử lý dữ liệu

a=

d=

b=

c=

e=

b) Xây dựng mô hình hồi quy training 80% và testing 20% sau khi xử lý dữ liệu đủ

-Số dòng cần sử dụng để xây dựng mô hình là: 7.80%=6 (dòng)

Month Electricity(kW) Water(m3) Total

($) Evualation

Input: Electricity,Water

Output:Total

Trang 2

X1: Electricity

X2: Water

Y : Total

Y=B1+B2.X1+B3.X2

= 202.2 =26.9 = 54.3

=7724.84 =125.61 = 511.49

= 866.18 = 1883.7 = 244.2

B=X’ Y

X’X==

=

(X’ Y)==

B=X’ Y=

=>Mô hình hồi quy : 1.2358+0,1022.X1+0,9744.X2

*Chi phí điện với số kW điện sử dụng 45kW và số mét khối(m3)

nước sử dụng 7m3 là 12,6556 $

c)

Total

($)

A

Total

Pre

($)

B

Error (Delta-d) A-B

MAE (AE Error)

|A-B|

=|

Relu

Max(0 ,A-B)

12 10,9112 1,0888 1,0888 1,1855 1,1855 0,0907 1,0888

8 9,1976 -1,1976 1,1976 1,4342 1,4342 0,1497 0

Trang 3

6 8,814 -2,814 2,814 7,9186 7,9186 0,469 0 9,3 8,6152 0,6848 0,6848 0,469 0,469 0,074 0,6848

0,0015 1,3387 2,3067 1,5188 0,1708 0,6701

Sigmoid

0,675

0,7482

0,2319

0,8199

0,0566

0,6648

0,5327

d)

Ứng dụng

0

0%

Trang 4

e)-Sử dụng giải thuật Sigmoid

Gán nhãn

0 Bad,Non

e

1 Good

Threshold

=0.5

Evualation Result

Độ chính xác là :Accuracy =

Kết luận về accuracy: Chuyên gia nhận định chính xác là 100%

về tình trạng chi phí điện sau khi sử dụng mô hình hồi quy tuyến tính bằng giải thuật Sigmoid với %training=80 và %testing=20

Confusion matrix: A(Signal,Expert)

TP(1,1)

2

FP(0,1)

4

Trang 5

0

TN(0,0)

0

Kết quả precision: P= = = = 33,3%

Kết luận về precision: Mô hình này với giải thuật Sigmoid có độ

chính xác là 33,3% khi dự đoán chi phí phải trả dựa trên số kW điện và khối nước đã sử dụng.

Kết quả recall: R= = = = 100%

Kết luận về recall: Mô hình này với giải thuật Sigmoid có mức

Recall là 100% — nói cách khác, nó xác định chính xác 100% chi phí phải trả.

Kết quả F1-score: F1-Score = = = = 50%

Kết luận về F1-score: Từ kết quả trên, chúng ta có thể thấy rằng phân loại tốt khi sử dụng mô hình với giải thuật Sigmoid có điểm F1-Score là 50% nếu lấy chỉ giải thuật này (nếu lấy nhiều giải thuật khác để tính được điểm F1 như Relu,… và điểm F1 tính theo thứ tự ưu tiên tốt từ cao xuống thấp với cái cao nhất là tốt nhất thì kết luận sẽ khác)

Bài 2:

a) Hiệu suất công việc khi ngủ 7,5 giờ là:

Y=31,4981+7,1362.7,5=85,0196

b) Tìm ngưỡng thời gian để thực hiện tốt công việc bằng cách tính CV

c) -Số dòng cần lấy là 70%.10=7(dòng)

*Gán nhãn:

Effective

(%)

Effective

(%)

Pre

Error Relu Signal

Threshold

=1.5

Ev

1 Good

2 Excellent

Trang 6

A B

TP(1,(1,2))

2

FP(0,(1,2))

3

FN((1,2),0)

2

TN(0,0)

0

Kết luận về accuracy: Chuyên gia nhận định chính xác là 28,57% về hiệu suất công việc theo thời gian ngủ sau khi sử dụng mô hình hồi quy tuyến tính bằng giải thuật Relu với

%training=70 và %testing=30

Trang 7

Kết quả precision: P= = = = 40%

Kết luận về precision: Mô hình này với giải thuật Relu có độ

chính xác là 40% khi dự đoán hiệu suất công việc dựa theo thời ngủ.

Kết luận về recall: Mô hình này với giải thuật Relu có mức

Recall là 50% — nói cách khác, nó xác định chính xác 50%

hiệu suất công việc.

Kết quả F1-score: F1-Score = = = = 44,44%

Kết luận về F1-score: Từ kết quả trên, chúng ta có thể thấy rằng phân loại tốt khi sử dụng mô hình với giải thuật Relu có điểm

F1-Score là 44,4% nếu lấy chỉ giải thuật này (nếu lấy nhiều giải thuật khác để tính được điểm F1 như Relu,… và điểm F1 tính

theo thứ tự ưu tiên tốt từ cao xuống thấp với cái cao nhất là tốt nhất thì kết luận sẽ khác)

Dạng 2: Bài toán về phân lớp

*Âm thanh

-Sử dụng vecto để tính khoảng cách âm chính là độ cao của âm

*A();B()

*=( )

*d()=

a)

High Sound(DB)

Range Low Sound(DB)

h(Volumn) Instrument

Trang 8

b) Dự đoán tên nhạc cụ với Range High Sound=[18;25] và Low High Sound=[3;9]

h(volumn)=d()=

=

=21,9317

=>Dương cầm

c)Không có mô hình hồi quy ta sẽ giả sử ngưỡng nào đó

*Giả sử từ 15 trở là nhạc cụ có độ cao âm cao và ngược lại có

độ cao âm thấp

Gán nhãn

Lập ma trận hỗn loạn (Confusion Matrix)

TP(1,1)

4

FP(0,1)

1

0 Guitar

1 Piano,Dương Cầm

Instrument Evualation

Trang 9

1

TN(0,0)

0

Kết luận về accuracy: Chuyên gia nhận định chính xác là 66,67% về tên nhạc cụ

Kết quả precision: P= = =80%

Kết luận về precision: Kết quả có độ chính xác là 80% khi dự

đoán tên nhạc cụ dựa theo tọa độ âm.

Kết luận về recall: Kết quả có mức Recall là 80% — nói cách

khác, nó xác định chính xác 80% tên nhạc cụ.

Kết quả F1-score: F1-Score = = = 80%

Kết luận về F1-score: Từ kết quả trên, chúng ta có thể thấy rằng phân loại tốt khi dự đoán tên nhạc cụ theo tọa độ âm có điểm F1-Score là 80%

d) -Số dòng cần lấy: 6.60%=4(dòng)

High

Sound(DB

)

Range Low Sound(DB)

Instrument

Input: Range High Sound,Range Low Sound

Output: Instrument

X1: Range High Sound

Trang 10

X2: Range Low Sound

Y : Instrument

Y=B1+B2.X1+B3.X2

= 108,5 = 42 = 95,79

= 3354,75 = 504,5 = 2765,235

= 1265,5 = 3016,109 = 1099,684

B=X’ Y

X’X==

=

(X’ Y)==

B=X’ Y=

=>Mô hình hồi quy : -0,5667+1,4385.X1-1,3814.X2

Nhạc cụ với Range High Sound=[18;25] và Low High Sound=[3;9]

=>Độ trung : Range High Sound=43 và Low High Sound=12

Ta có: -0,5667+1,4385.43-1,3814.12=44,712

=>Dương Cầm

Trang 11

Instrument

A

Instrument

(Pre)

B

Error A-B

Sigmoid Relu

max(0,x)

Signal Threshold

=0.3(Sigmoid)

Signal Threshold

=0.3(Relu)

Evualation

*Lập ma trận hỗn loạn Sigmoid

TP(1,1)

0

FP(0,1)

3

FN(1,0)

0

TN(0,0)

1

Trang 12

về loại nhạc cụ theo độ trung của âm sau khi sử dụng mô hình hồi quy tuyến tính bằng giải thuật Sigmoid với %training=60 và

%testing=40

Kết quả precision: P= = = 0= 0%

Kết luận về precision: Mô hình này với giải thuật Sigmoid

không có độ chính xác với ngưỡng tín hiệu 0,3 khi dự đoán nhạc

cụ theo độ trung của âm.

Kết quả recall: R= = 0 = 0%

Kết luận về recall: Mô hình này với giải thuật Sigmoid có mức

Recall là 0% — nói cách khác, nó xác không xác định chính xác loại nhac cụ với ngưỡng tín hiệu trên.

Kết luận về F1-score: Từ kết quả trên, chúng ta có thể thấy rằng phân loại khi sử dụng mô hình với giải thuật Sigmoid với ngưỡng tín hiệu trên có điểm F1-Score là 0% và không có ý nghĩa

*Lập ma trận hỗn loạn Relu

TP(1,1)

3

FP(0,1)

0

FN(1,0)

1

TN(0,0)

0

Trang 13

về loại nhạc cụ theo độ trung của âm sau khi sử dụng mô hình hồi quy tuyến tính bằng giải thuật Relu với %training=60 và

%testing=40

Kết quả precision: P= = = 100%

Kết luận về precision: Mô hình này với giải thuật Relu có độ

chính xác là 100% với ngưỡng tín hiệu 0,3 khi dự đoán nhạc cụ theo độ trung của âm.

Kết quả recall: R= = = 75%

Kết luận về recall: Mô hình này với giải thuật Relu có mức

Recall là 75% — nói cách khác, nó xác định chính xác 75% loại nhạc cụ với ngưỡng tín hiệu 0,3

Kết quả F1-score: F1-Score = = = 85,7%

Kết luận về F1-score: Từ kết quả trên, chúng ta có thể thấy rằng phân loại khi sử dụng mô hình với giải thuật Sigmoid với ngưỡng tín hiệu trên có điểm F1-Score là 87,5%

=>Từ 2 giải thuật trên ta có thể thấy trình phân loại phân loại tốt với giải thuật Relu với ngưỡng tín hiệu là 0.3

e) Việc sử dụng mô hình hồi quy với giải thuật Relu có điểm F1-Score là 87,5% có khả quan và tốt hơn so với không sử dụng giải thuật khi F1-Score chỉ là 80%

*Hình ảnh

a)

-Ta tính diện tích tam giác theo vecto

*A();B();C()

*=( )

=> = |].]-x[].[]|

= |().()-().()|

Trang 14

1 Petal 2 Petal 3 Petal S Type

a) Dự báo chủng loại hoa lan tọa độ các cánh hoa 1,2 và 3 lần lượt là:(3;5),(5;8),(9;4)

= |].]-x[].[]|

= |().()-().()|

= 10

=> Chủng loại Cymbidium

b) Không có mô hình hồi quy ta sẽ giả sử ngưỡng nào đó

*Chủng loại lan có diện tích mặt lớn từ 3 trở lên là chủng loại tốt có thể kinh doanh lâu dài hơn so với chủng loại nhỏ hơn 3

Gán nhãn

0 Orchid

1 Jelly Orchid,Cymbidium

Trang 15

1 0

Lập ma trận hỗn loạn (Confusion Matrix)

TP(1,1)

3

FP(0,1)

1

FN(1,0)

3

TN(0,0)

0

Kết luận về accuracy: Chuyên gia nhận định chính xác là 42,86% về chủng loại lan

Kết quả precision: P= = = = 75%

Kết luận về precision: Kết quả có độ chính xác là 75% khi dự

đoán chủng loại lan dựa theo tọa độ cánh hoa.

Kết luận về recall: Kết quả có mức Recall là 50% — nói cách

khác, nó xác định chính xác 50% chủng loại lan.

Kết luận về F1-score: Từ kết quả trên, chúng ta có thể thấy rằng phân loại tốt khi dự đoán chủng loại lan theo tọa độ cánh có điểm F1-Score là 60%

Dạng 3:Bài toán về luật kết hợp

-Xem lại BI để tìm các luật kết hợp,cách lập ma trận Confusion Matrix,tính Precision,F1-Score,… tương tự bài toán hồi quy và

Trang 16

phân lớp ở trên

*Lý thuyết câu hỏi hiểu

1 Tại sao khi triển khai ML cần phải lấy %training làm tập huấn luyện và %testing làm tập kiểm thử mà không lấy hết

để phân tích?

-Vì tập dữ liệu rất lớn,lấy %training làm tập huấn luyện như là tập mẫu để đánh giá trên tổng thể ở kết quả với mức chấp nhận được về mặt ý nghĩa thống kê

2 Cho tập dữ liệu/đoạn code sau hãy xác định Input và Output trên tập Training 75% và Testing 25%

TID Petal Size 1 Petal Size 2 Petal Size 3 Type

Training 75% tức là 75%.5=4 (dòng)

Petal Size 1 Petal Size 2 Petal Size 3 Type

Trang 17

Testing 25% tức là 25%.5=1 (dòng)

Petal Size 1 Petal Size 2 Petal Size 3 Type

3 Để có thể xác định được Output đầu ra ở bảng trên nên sử dụng phương pháp nào để có thể biết được chính xác là Type thuộc loại nào?

-Sử dụng Vecto để tìm kích thước thông qua khoảng cách,hình dạng,diện tích mặt,… từ đó suy dẫn được Output thông qua phân lớp bằng cách đối chiếu với dữ liệu thực để dự đoán các dữ liệu Input đầu vào khác.Được biểu diễn Input->Output

(5,7,5)->1

(6,8,4)->3

…

(4,7,3)->1

=>Dự đoán được (5,4,3)->?

4 Học có giám sát Surpervise trong phân lớp là gì?

Supervised Learning (Học có giám sát) Supervised learning là

thuật toán dự đoán đầu ra (outcome) của một dữ liệu mới (new input) dựa trên các cặp (input, outcome) đã biết từ trước Cặp dữ liệu này còn được gọi là (data, label), tức (dữ

liệu, nhãn).

Trang 18

5 Làm cách nào mà máy có thể nhận biết được hình ảnh,âm thanh đó là gì khi được đưa vào?

-Đầu tiên,máy sẽ chuyển đổi về dạng số học,trải qua ML máy học được thông qua các mô hình,biểu đồ,… từ đó kết luận

Định dạng
Số trang	18
Dung lượng	656,05 KB