Báo cáo cuối kì Đề tài trí tuệ nhân tạo

Vai trò của AI trong Học máy AI cung cấp các thuật toán và phương pháp học đề máy tính có thẻ: » _ Phân loại: Phân loại cmail thành spam hay không.. Phần cứng + Ngôn ngữ | Dữ liệu + Mô h

Trang 1

BAO CAO CUOI KI

Đề tài: Trí Tuệ Nhân Tao

Giảng viên hướng dẫn : Nguyễn Thị Ngọc Anh Sinh viên thực hiện : Dương Minh Thụy Miễn

Trang 2

PHÂN 1: TRÍ TUỆ NHÂN TẠO - 2-52 SE E2E1EE12EtE C1 ga, 2

3 Các quan điểm hình thành - 5 S1 SE E215212112111211 211 11111101 1 tt dàn 3

6 Vi tri và vai trị của trí tuệ nhân tạo trong nền cơng nghiệp 4.0 ccccs¿ 7

PHAN ID: HOC MAY uo.coccccccccccccccscsscsscesecsvsssesessscsvssresscsussecsuesseseessesevsesevssevasevsveeeeetes 9 I9 ae - 4 9

3 Mối liên hệ giữa học máy và trí tuệ nhân tao (AD) cecccccescsccscesessesseseeeenseeeeeeees 9

PHẦN II : HỌC CĨ GIÁM SÁTT - 2 SE 211211 11212 1x HE H1 go 10

1 Học cĩ giám sát (Supervised Learning): c 22112112 tr He 10

PHAN IV : PHÂN LỚP 55: 2222 122111122211122221110.211110211211 re ll

1 Khái niệm Phân lớp (Classification) c1 121112111 122212211 121112111 II

2 Quy trình tổng quan cho việc phân lớp, - 5 ST EE E1EE12211 E1 Ekrrtke II

3 Giải thích các thuật ngữ liên quan - 2 2 221122122112 121 111122 111 vey 13

4 Các phương pháp đánh giá độ chính xác của mơ hình 272222252 cc+y 14 PHAN IV: TRINH BAY CAC PHUONG PHAP CHO BAI TOAN PHAN LOP 18

1 Phuong phap KNN (k-Nearest Neighbor) 0.0000000cccccccccccecceeeceseeeesssseeeeseeenees 18

3 Thuật tốn ANN (Artifcral Neural Network§) cà cnnn nhe re 24 PHÂN V: ỨNG DỤỰNG Ác TT HH HH HH HH Hung yo 32 9= 32

B Nạve Bayes - Q nnnnnnnnnn ng H111 1n TK k kg 21x ku 40

C Artificral Neural Network (ANN) c2 nh nhe HH ra 43

Trang 3

PHAN 1: TRI TUE NHAN TẠO

1.Trí tuệ nhân tạo (AD)

là lĩnh vực phát triển các hệ thống có khả năng thực hiện những nhiệm vụ đòi hỏi

trí thông minh con người, như học hỏi, suy luận, và ra quyết định tự động.mô phỏng hành vi tương tự con người.[ Artificial Intelligence: A Modern Approach]

Strong AI (Trí tuệ nhân tạo mạnh):

- - Định nghĩa: Strong AI là đạng trí tuệ nhân tạo có khả năng suy nghĩ, hiểu và hành động giông như con người, với ý thức thực sự và khả năng tự nhận thức [Artificial Intelligence: A Modern Approach]

Weak AI (Trí tuệ nhân tạo yếu):

nhiệm vụ cụ thê, nhưng không có ý thức hay hiệu biết thyc su [Artificial Intelligence: A Modern Approach]

2.Lịch sử hình thành của trí tuệ nhân tao

a Giai đoạn khởi đầu và các mốc thời gian noi bật

"Artificial Intelligence" do John McCarthy, Marvin Minsky va Claude Shannon dan dau

¢ 1958: Phat trién thuat toan Perceptron (m6 hinh mạng nơ-ron đầu tiên) bởi Frank Rosenblatt

¢ 1961: Robot Unimate, robot công nghiệp đầu tiên, được đưa vào sử dụng tại dây chuyền sản xuất cla General Motors

¢ 1966: ELIZA, một chương trình xử lý ngôn ngữ tự nhiên (NLP) mô phỏng hội thoại đơn giản, ra đời

b Lý do và thời kỳ AI "ngủ đồng" (AI Winter)

Lần thứ nhất (1974 - 1980):

«ồ Nguyên nhân:

o Ky vong qua cao: Ban đầu, các nhà khoa học tin rằng AI có thê đạt được trí thông minh như con người trong thời gian ngăn Tuy nhiên, kết quả thực tế không đáp ứng được kỷ vọng

o_ Hạn chế công nghệ: Phần cứng không đủ mạnh, thiếu bộ nhớ và tốc độ xử

ly

Trang 4

o_ Hệ quả: Chính phủ Mỹ và Anh cắt giảm tài trợ cho các dự án AI

Lần thứ hai (1987 - 1993):

«ồ Nguyên nhân:

ø_ Hệ chuyên gia không thành công: Các hệ thống chuyên gia (Expert

Systems) phô biến vào thập niên 1980 như Mycin, XCON không bên vững

do chi phí phát triển và bảo trì quá cao

o_ Cạnh tranh công nghệ khác: Máy tính cá nhân (PC) trở nên phố biến, làm

lu mờ nghiên cứu AI do PC không đủ mạnh đề chạy các chương trình AI phức tạp

o_ Lý do bố sung: AI lúc này không tạo ra lợi ích kinh tế tức thì, dẫn đến sự mat niềm tin từ các nha dau tư

o Hé qua: Nhiều đự án AI bị hủy bỏ, các công ty và viện nghiên cứu ngừng dau tu

c Giai đoạn phục hồi va bing no

¢ Phuc hoi (1990s):

o Sw xuat hién cua Machine Learning (ML): Cac nha khoa hoc chuyén tt lập trình logic cứng nhắc sang học máy (ML), giúp AI học từ đữ liệu thực

tê

o_ 1997: Máy tính Deep Blue của IBM đánh bại ky thi Garry Kasparov trong

CỜ VUA, khăng định tiềm năng của AI

‹ - Bùng nỗ AI (2010 - nay):

o_ 2012: Thuật toán mạng nơ-ron sâu (Deep Learnng) bắt đầu phổ biến nhờ vào công trình AlexNet trong nhận dạng hình ảnh

o 2020s: AI dét pha trong xử lý ngôn ngữ (GPT-3), tạo hình ảnh (DALL-E),

va tăng cường học sâu (Reinforcement Learning)

3 Các quan điểm hình thành

Nguồn gốc của 4 quan điểm hình thành AI

1 Hệ thống hành động như con người: Đề cập đến khả năng tương tác và thực hiện nhiệm vụ giông con người

2 Hệ thống suy nghĩ như con người: Liên quan đến khả năng tư duy, học hỏi và ra quyết định

3 Hệ thống suy nghĩ hợp lý: Tập trung vào việc áp dụng logic và lý luận trong quá trình xử lý thông tin

Trang 5

4 Hệ thống hành động hợp lý: Đề cập đến việc thực hiện hành động dựa trên lý luận

và phân tích hợp lý

Mỗi quan hệ của AI : AI có mối liên quan mật thiết với nhiều lĩnh vực, trong đó học máy, xử lý ngôn ngữ tự nhiên, tầm nhìn máy tính, robot học, và dữ liệu lớn là những yếu tố quan trọng hỗ trợ sự phát triển của AI Mỗi lĩnh vực này giúp AI mở rộng khả năng và ứng dụng trong nhiều ngành nghẻ, từ y tế, giao thông, an ninh mạng đến giải trí và kinh doanh

4 Các lĩnh vực liên quan đến trí tuệ nhân tạo

a Hoc may (Machine Learning):

Học máy là một nhánh của A[, tập trung vào việc tự động hóa quá trình học từ dữ

liệu mà không cân lập trình cụ thê cho mối nhiệm vụ Máy tính sử dụng thuật toán đê tìm ra mô hình từ đữ liệu và cải thiện hiệu suât qua thời gian

Vai trò của AI trong Học máy

AI cung cấp các thuật toán và phương pháp học đề máy tính có thẻ:

» _ Phân loại: Phân loại cmail thành spam hay không

¢ Dw doan: Dy bao giá cô phiêu hoặc nhu câu khách hàng

«Ö - Cụm đữ liệu: Phân nhóm khách hàng hoặc sản phâm

Ứng dụng thực tế:

1 Dự đoán bệnh lý: Dự đoán nguy cơ mắc bệnh dựa trên hồ sơ bệnh án

2 Khám phá dữ liệu: Phân tích hành vi khách hàng trong thương mại điện tử

3 Phân loại văn bản: Phân loại bài viết hoặc tin nhắn (spam, không spam)

b Thị giác máy tính (Computer Vision): Nhận đạng hình ảnh, xử lý ảnh số đề nhận

biết đôi tượng, nhận dạng khuôn mặt, phân tích video, vv

Thị giác máy tính là một nhánh của AI, tập trung vào việc giúp máy tính nhìn và hiểu hình ảnh hoặc video như con người AI đóng vai trò cốt lõi băng cách cung cấp các thuật toán như:

Học sâu (Deep Learning): Sử dụng mạng CNN để nhận đạng vật thê, khuôn mặt,

hoặc phân đoạn hình ảnh

Học máy (Machine Learning): Phân loại hình ảnh, nhận dạng mẫu

Ví dụ:

Trang 6

H Phân tích hình anh y té (X-quang, MRI)

c Xử lý ngôn ngữ tự nhiên (Natural Language Processing): Hiểu và tạo ra ngôn ngữ

tự nhiên băng máy tính, bao gôm dịch thuật máy, phân tích cảm xúc, và tom tat văn bản

NLP là một nhánh của AI, tập trung vào việc giúp máy tính biểu, phân tích, và tạo

ra ngôn ngữ con người AI cung cap các thuật toán và mô hình đê xử ly văn bản hoặc giọng nói

Vai tro cua AI trong NLP

Vi du:

Hoc may (Machine Learning): St dung cac m6 hinh nhu Naive Bayes, SVM dé phan loai van ban, phan tich cam xuc

Hoc sau (Deep Learning): St dung mang RNN, LSTM, Transformer (vi dụ:

BERT, GPT) dé xu ly ngữ cảnh, địch tự động, hoặc tạo văn bản

Trg ly ao: Siri, Google Assistant

Dịch ngôn ngữ: Google Translate

Phân tích cảm xúc: Xác định ý kiến tích cực/tiêu cực trong đánh giá sản phẩm Mắi liên quan: NLP dựa vào AI đề hiểu và xử ‘ly đữ liệu ngôn ngữ tự nhiên, giúp tao

ra các hệ thông thông minh có khả năng giao tiếp như con người

d Robotics (Robot hoc):

Robot học là lĩnh vực nghiên cứu và phát triển các robot có khả năng thực hiện nhiệm vụ tự động AI đóng vai trò quan trọng trong việc g1úp robot trở nên thông minh hơn, có khả năng nhận thức môi trường, quyết định hành động và học từ trải nghiệm

Vai trò của AI trong Robot học

AI cung cấp các thuật toán và mô hình giúp robot:

Nhận diện môi trường: Sử dụng thị giác máy tính để nhận diện vật thẻ, người, và các đôi tượng xung quanh

Trang 7

‹ồ Ra quyết định tự động: Dựa trên học máy và học sâu, robot có thể tự đưa ra

._ Robot tự hành: Xe tự lái, robot giao hàng

._ Robot trong y tế: Robot hỗ trợ phẫu thuật, robot điều dưỡng

._ Robot công nghiệp: Robot hàn, lắp ráp trong sản xuất

._ Robot dịch vụ: Robot phục vụ trong khách sạn, nhà hàng

a Các ứng dụng thực tế của trí tuệ nhân tạo

Trg ly ao (Virtual Assistants):

¢ WVidu: Sin, Google Assistant

¢ Giai thích: Giúp người dùng thực hiện tác vụ hàng ngày thông qua giọng nói Gợi ý sản phẩm (Recommendation Systems):

¢ WVidu: Netflix, Amazon

¢ Gidai thích: Đề xuât nội dung hoặc sản phâm dựa trên sở thích người dùng Nhan dién hinh anh (Image Recognition):

¢ Vidu: Facebook ty d6ng gan thẻ bạn bè -

« - Giải thích: Giúp người dùng quản lý và chia sé anh dé dàng hơn

Y tế và chân đoán (Healthcare and Diagnosis):

¢ Vidu: IBM Watson ; a

« - Giải thích: Phân tích dữ liệu y tê đê đưa ra chân đoán và phác đô điều trị chính xác

Dich may (Machine Translation):

¢ WVidu: Google Translate

Trang 8

« - Giải thích: Dịch văn bản giữa các ngôn ngữ, hỗ trợ giao tiếp toàn cầu

Hệ thống học tập cá nhân hóa (Personalized Learning Systems)

« - Ví dụ: Khan Academy, Duolingo

« - Giải thích: AI phân tích đữ liệu học tập của học sinh đề cá nhân hóa quá trình học,

đề xuất bài học phù hợp với mức độ kiến thức Học sinh nhận được hỗ trợ phù hợp, học theo tộc độ cá nhân, cải thiện khả năng học

6 Vị trí và vai trò của trí tuệ nhân tạo trong nền công nghiệp 4.0

Khái niệm :

Nền công nghiệp 4.0 là sự chuyển đổi ngành công nghiệp nhờ vào công nghệ số tiên tiễn như AL, loT, robot tự động và đữ liệu lớn, tạo ra hệ thông sản xuất thông minh, tự động hóa và kết nội, giúp tôi ưu hóa quy trình va nâng cao hiệu quả

Vị trí của AI trong nền công nghiệp 4.0

‹ - Công nghệ trụ cột: AI là một trong những yếu tố cốt lõi của công nghiệp 4.0 Nó

được ví như "bộ não" điều khiến toàn bộ hệ thống thông minh

‹ - Động lực đổi mới: AI thúc đây sự đôi mới trong các ngành công nghiệp thông qua việc tự động hóa quy trình, phân tích dữ liệu và ra quyết định dựa trên máy học

‹ - Cầu nối công nghệ: AI giúp tích hợp, kết nối và tôi ưu hóa các hệ thống sản xuất,

chuỗi cung ứng và dịch vụ dựa trên đữ liệu lớn

Vai trò của AI trong công nghiệp 4.0

- _ Tự động hóa quy trình: Giảm thiều sai sót và tăng hiệu suất sản xuất

- _ Phân tích dữ liệu lớn: Cung cấp thông tin quan trọng cho quyết định chiến lược

« - Cải thiện chất lượng sản phẩm: Theo dõi chất lượng trong thời gian thực

- - Tùy chỉnh sản phẩm: Đáp ứng nhu cầu cá nhân hóa của khách hàng

- - Dự đoán và bảo trì: Giảm thời gian ngừng hoạt động và tiết kiệm chi phí

* Quan ly chuỗi cung ứng: Tối ưu hóa logistics và phản ú ứng với thị trường + Phat triển sản phẩm mới: Hỗ trợ nghiên cứu và đối moi

* Tang cwong bảo mật: Phát hiện và ngăn chặn mối đe dọa an ninh mạng Đạo đức AI hiện nay :

° Quyền riêng tư: AI có thê thu thập và phân tích lượng lớn đữ liệu cá nhân, dẫn đến nguy cơ xâm phạm quyền riêng tư

¢« Án toàn kỹ thuật: AI cân hoạt động an toàn, tránh sai sót nghiêm trọng như tai

nạn xe tự lái, với trách nhiệm đạo đức thuộc về nhà sản xuất

Trang 9

dẫn đến thất nghiệp, gia tăng chênh lệch giàu nghèo

Sai lầm gây hại: AI dé gặp lỗi trong tình huồng không được huấn luyện, cần đảm bảo không bị thao túng

Khả năng tương tác: AI mô phỏng con người, có thể gây nhằm lẫn và ảnh hưởng đến các mỗi quan hệ xã hội

So sánh Lập trình hệ thông Lập trình trí tuệ nhân tạo

Quản lý phân cứng, tôiưu | Tạo ra hệ thông tự Mục tiêu hệ thống, và đảm bảo hoạt | học, phân tích và

động chính xác đưa ra quyết định

Phần cứng + Ngôn ngữ | Dữ liệu + Mô hình học máy

Công thức lập trình + Hệ điều hành | + Thuật toán huấn luyện +

+ Thuật toán —> Chương Đánh giá —> Chương trình

, Sai số không được chap Sai số được chấp

, Hoạt động ôn định, hiệu Dựa trên xác suất, Đặc điểm chính | suất cao, yêu cầu tuân dự đoán gần đúng và

Trang 10

Hoc may (Machine Learning) hay hoc ty déng 1a kha nang cua hé thong may tinh

tự cải thiện mình nhờ sử dụng đữ liệu và kinh nghiệm thu thập được

2 Các cơ chế học máy

đổ ga tuấn thh ier Regression) resion)

Hala ohn istic Regression)

—————————— | Ridee La nh su Regression (Hoi quy (Regression)

rs Nearest Neighbors (KNN) live Bayes

2 ss set — Machine (SVM)

Price Prediction

Na Pras ne een email oene Classification)

f 7 K-Means Phai (Cluster BSCAN (Density-Based Spatial Clust

— 1 —— HNG- (Density Based Spatial Chstrng)

as : ‘Prin sis

\ Gm chiu (Dimensionality Reduction) =—§ ———* THẾ Dnlaond to nsïc Magláet Embedding)

Phân nhóm khách hàng (Custom my ta 4i tay le Sư tui) —

5 vi

vier Bị {tins | fi di ligu i Ot ori

thudng (Anomaly Detection)

tun Graph-Based Methods

Generative Models (e.g., Variational Autoencoders)

‘h Recognition)

Ví dụ ứng dụng: Nà Là ng án rạn)

tự động (Machine Translation}

3 Mi liên hệ giữa học máy và trí tuệ nhân tạo (AI)

Hoc may 1a mét nhánh của trí tuê nhân tao Trong khi AI bao gồm mọi kỹ thuật giúp máy tính thực hiện các nhiệm vụ thông minh, học máy tâp trung vào việc phát triển các mô hình và thuật toán cho phép máy tính học từ đữ liệu Học máy giúp AI phát triển khả năng

tự động hóa và đưa ra quyết định

Trang 11

Artifical Intelligence

Ÿá Machine lara `

SO)

4 Các ứng dụng thực tiễn của học máy

- - Hệ thống gợi ý phim trén Netflix

5 - Trợ lý ao nhu Siri và Google Assistant

» - Nhận điện khuôn mặt trên điện thoại

¢« Xe tu lai cua Tesla

* AI phat hién ung thu tt anh chup y té

¢ Phat hién giao dịch gian lận qua thẻ tín dụng

PHAN III : HQC CO GIAM SAT

1 Hoc c6 giam sat (Supervised Learning):

¢ Phat biéu: la phương pháp học máy trong đó mô hình được huấn luyện trên tập đữ liệu đã gán nhãn Mỗi mẫu dữ liệu có một đầu ra tương ứng, cho phép mô hình học cách liên kết đầu vào với đầu ra

‹ - Toán học: là quá trình tìm kiếm tham số 0 của một hàm f(x:0) sao cho hàm này có thê dự đoán chính xác nhãn y từ đầu vào x bang cách tối thiêu hóa hàm mất mát L

trên tập dữ liệu huấn luyện ƒ(xi,yi)}

min Ly f(x)

¢ Llaham mat mat

Trang 12

- _ Nhận diện hình ảnh: Học từ dữ liệu hình ảnh có nhãn đề phân loại đối tượng trong ảnh, như phân biệt giữa mèo và chó

đoán bệnh dựa trên hình ảnh chụp X-quang hoặc MRI

- - Dự đoán kết quả bọc tập: Học từ điểm số trước đó của học sinh để dự đoán kết quả tương lai

PHAN IV : PHAN LOP

1 Khai niém Phan Iép (Classification)

Phan lớp là một phương pháp trong học máy có giám sát, giúp dự đoán nhãn (label) của

các đôi tượng mới dựa trên việc học từ dữ liệu đã được gán nhãn Mục tiêu là phân loại

đôi tượng vào một trong các nhóm hay lớp đã được xác định trước

2 Quy trình tổng quan cho việc phân lớp

Bước 1: Xác định vấn đề

« - Xác định mục tiêu của phân lớp và các biến cần phân tích

Bước 2: Thu thập dữ liệu

Tập hợp đữ liệu liên quan đến bài toán phân lớp, có thể từ các nguồn khác nhau Bước 3: Tiền xử lý dữ liệu

+ Lam sạch và xử lý dữ liệu để loại bỏ dữ liệu bị thiếu hoặc lỗi, chuyên đôi dữ liệu

Bước 6: Huấn luyện mô hình

« Ap dung thuat toán phân lớp (như SVM, Decision Tree, KNN) đề huấn luyện mô

hình dựa trên tập huân luyện

Trang 13

Bước 7: Đánh giá mô hình

« - Sử dụng tập kiểm tra để đánh giá độ chính xác của mô hình

Bước 8: Tối ưu hóa mô hình

hinh

Bước 9: Triển khai mô hình

Bước 10: Giám sát và bảo trì

* Theo déi hiệu suất của mô hình theo thời gian và cập nhật nếu cần

Mô hình quy trình phân lớp

3 Giải thích các thuật ngữ liên quan

Trang 14

1 Instance/Sample/Object: Mỗi đơn vị dữ liệu cần phân loại (ví dụ: một bức ảnh, một emaI])

Feature: Dac trung của đữ liệu, là các thuộc tính quan trọng giúp mô hình đưa ra

quyết định phân loại

._ Label/Class: Nhãn (kết quả) của đữ liệu, cho biết mẫu thuộc về lớp nào Training dataset: Tap dir héu duge str dung đề huấn luyện mô hình

._Testing dataset: Tập đữ liệu dùng để kiểm tra độ chính xác của mô hình Feature extraction: Qua trinh trích xuất các đặc trưng quan trọng từ đữ liệu thô

Feature selection: Chon ra cac dac trưng quan trọng nhất để cải thiện độ chính xác và hiệu suất

§ Feature reduction: Giảm số lượng đặc trưng nhưng vẫn giữ nguyên thông tin

o True Positive (TP): Dy doan dung va thuc tế đúng

o True Negative (TN): Dy doan sai nhung thu té cting sai

o False Positive (FP): Dy doan sai nhung thu té dung (loai 1)

o False Negative (FN): Dw doan ding nhung thy té sai (loai 2)

¢ Cach thue hién: Tao bang 2x2 hoac lén hon néu cé nhiéu lớp

¢ Vidu: M6 hinh phan loai ung thu voi két qua TP, TN, FP, FN dé danh giá

¢ Gia tri ding:

o Nhitng gia tri nhan diện đúng nam trén đường chéo chính của ma trận

o Vidu: TP (True Positives) trong bài toán nhị phân nằm ở [0.0]

Accuracy: Tý lệ đự đoán đúng trên tổng số dự đoán

Trang 15

TP+TN + FP+ FN Accuracy

¢ Vidu: Néu co 90 du doan ding trong 100 trường hợp, độ chính xác là 90%

Precision: Ty 1é dy doan đúng trong số tất ca đự đoán của một lớp

Recall: Tỷ lệ phát hiện đúng trong số các trường hợp thực tế đúng

« - Ví dụ: Precision và recall được dùng trong bài toán phát hiện bệnh khi cần cân

nhắc giữa dự đoán sai loại l và loại 2

Độ đặc hiệu (Specificity) : Khả năng phát hiện chính xác các mẫu âm

Bước 1: Thu thập dữ liệu

Chuan bi tap dữ liệu kiểm tra với các nhãn thực tế

Bước 2: Xây dựng mô hình và đưa ra dự đoán

Chạy mô hình trên tập dữ liệu kiểm tra và lưu lại các giá trị dự đoán

Bước 3: Xây dựng ma trận nhằm lẫn

So sánh dự đoán với nhãn thực tế đề tính các giá trị TP, TN, FP, EN

Trang 16

Bước 4: Tính các chỉ số hiệu suất

Sử dụng công thức đề tính các chỉ sô đánh giá mô hình

Vi du minh hoa

thực tế của 10 mẫu như sau:

Ma trận nhâm lân là công cụ hữu ích giúp xác định ro hiéu sudt va các lôi cụ thê

của mô hình, từ đó đưa ra các cải tiên phù hợp Thông qua các chỉ số như

Trang 17

cách toàn điện

b.Precision

Precision là một trong những chỉ số quan trọng đề đánh giá độ chính xác của

các mô hình AI, đặc biệt là trong bài toán phân loại nhị phân hoặc đa lớp

Precision đo lường tỷ lệ các dự đoán dương đúng (True Positives) trên tổng số các mẫu được mô hình đự đoán là đương (bao gồm cả đúng và sai)

Công thức tính Precision:

TP TP+FP

Precision =

TP (True Positives): Số lượng các mẫu dương được dự đoán đúng

FP (False Positives): 86 lwong cac mau âm nhưng bị đự đoán nhằm thành dương

Cách thực hiện

Bước 1: Thu thập đữ liệu thực tế (ground truth) và dự đoán của mô hình

Bước 2: Xây dựng ma trận nhằm lẫn (Confusion Matrix), chứa các giá trị

TP, FP, TN (True Negative), FN (False Negative)

Bước 3: Tính Precision bằng cách thay TP và FP vào công thức trên

Ví dụ minh họa

Giả sử bạn xây dựng mô hình phân loại email thành Spam (Positive) và Not Spam (Negative) Voi 100 email:

TP = 40: 40 email la Spam va duge du doan dung

FP = 10: 10 email không phải Spam nhưng bị dự đoán nhằm là Spam

TN =45: 45 email khong phai Spam va duoc du doan dung

FN = 5: 5 email là Spam nhưng bị dự đoán nham 1a Not Spam

® Tăng hiệu quả ứng dụng

c Recall

Recall, hay còn gọi la Sensitivity, True Positive Rate (TPR), do luong

khả năng mô hình nhận diện đúng các mâu thuộc lép Positive No cho biệt

Trang 18

đúng bao nhiều mâu

Công thức tính:

TP

Recall = TP+EN

Trong đó:

True Positive (TP): Sé lượng mẫu được đự đoán dung 1a Positive

False Negative (FN): S6 long mẫu thực sự là Positive nhưng bị dự đoán sai la Negative

Cách thực hiện

Bước 1: Thu thập đữ liệu thực tế và dự đoán của mô hình

Bước 2: Xây dựng ma trận nhằm lẫn (Confsion Matrix) đề xác định TP,

TP = 40: 40 email la Spam va được dự đoán đúng

FP = 10: 10 email không phải Spam nhưng bị đự đoán nhằm là Spam

TN = 45: 45 email không phải Spam và được dự đoán đúng

FN = 5: 5 email la Spam nhưng bị dự đoán nhằm là Not Spam

Tinh Recall:

40

PHAN IV: TRÌNH BÀY CÁC PHƯƠNG PHÁP CHO BÀI TOÁN PHÂN LỚP

1 Phuong phap KNN (k-Nearest Neighbor)

a Trinh bay khai niém

KNN (k-Nearest Neighbor) là một thuật toán phân lớp không tham số trong học máy, dựa trên nguyên tắc rằng các đối tượng tương tự thường có cùng nhãn KNN xác định lớp của một đối tượng mới bằng cách xem xét các nhãn của k đối tượng gần nhất trong không gian đặc trưng

b Giải thích các tham số

k: Số lượng láng giềng gần nhất được xem xét Kích thước của k ảnh hưởng lớn

đến độ chính xác của mô hình

Trang 19

‹ - Khoảng cách: Thông thường sử dụng khoảng cách Euclidean để đo độ gần giữa các điểm

« - Lớp dự đoán: Lớp của đối tượng mới được xác định bằng cách lấy lớp phổ biến nhất trong số k láng giềng gần nhất

c Quy trình thực hiện

1 Xác định giá trị k: Chọn số lượng láng giêng gần nhất mà bạn muốn xem xét

2 Tính khoảng cách: Tính khoảng cách từ đối tượng cần phân loại đến tất cả các đối tượng trong tập huấn luyện

Feng) = J.P: - g,)°

Trong đó: đ„„; : khoảng cách giữa 2 điêm p và q

¡ _ : là thuộc tính tương ứng với dữ liệu đã cho của 2

điêm p và q

3 Chọn k láng giềng gần nhất: Lấy k đối tượng gần nhất dựa trên khoảng cách đã tính

Đếm số lớp: Đếm số lượng mỗi lớp trong k láng giéng

Dy doan lép: Gan lop cho đối tượng mới là lớp xuất hiện nhiều nhất trong số k lang giéng

d Mã giả

Input: Tập huấn luyện, điểm đữ liệu mới, k

Output: Lop của điểm đữ liệu mới

1 For mỗi điểm dữ liệu trong tập huấn luyện:

Tính khoảng cách giữa điểm dữ liệu mới và điểm dữ liệu trong tập huấn luyện

2 Sắp xếp các khoảng cách theo thứ tự tăng dần

3 Chọn k điểm dữ liệu có khoảng cách nhỏ nhất

4 Đếm số lượng lớp của k điểm dữ liệu

5 Trả về lớp có số lượng lớn nhất

e Ví dụ minh họa

L Mô tả bài toán

Phân loại một điểm dữ liệu mới dựa trên tập dữ liệu về chiêu cao và cân nặng của một

nhóm người, với các lớp là “Nam” và “Nữ”

Trang 20

Nữ Điểm đữ liệu mới: Chiều cao = 175 em, Cân nặng = 65 kg

II Thực hiện tính tay từng bước

1 Tính khoảng cách Euclidcan giữa điểm mới và các điểm trong tập huấn luyện:

4 Quyét dinh lớp của điểm mới: “Nữ”

ø Ưu/nhược điểm thuật toán KNN

Trang 21

Ưu điểm:

+ Don gian va dé hiểu

° Không cần giả định gì về phân phối của dữ liệu

« - Có thể áp dụng cho cả bài toán phân loại và hồi quy

Nhược điểm:

« Chậm trong quá trình dự đoán, đặc biệt với tập dữ liệu lớn

« Nhạy cảm với dữ liệu không đồng nhật và nhiễu

¢ Can chon gia trị k một cách hợp lý, nêu không sẽ ảnh hưởng đến độ chính xác

2 Thuật toán Naive Bayes

1 Tap dit liéu (Dataset)

¢ Tap dit ligu bao gồm các mau (instances) voi cac dic trung (features) va nhan (labels) M61 mau là một vector của các đặc trưng, trong đó nhãn là lớp mà mâu đó

thuộc về

2 Nhãn (Label)

phân loại nhị phân, nhãn có thê là 0 hoặc 1 Trong phân loại đa lớp, nhãn có thê là nhiều giá trị khác nhau

3 Dae trung (Feature)

sự tôn tại của các đặc trưng khác

4 Xác suất tiên nghiệm (Prior Probability)

Trang 22

e - Xác suất của mỗi lớp trước khi xem xét bất kỳ đặc trưng nào Được tính bằng tý lệ

số lượng mâu thuộc lớp đó trong tập dữ liệu

5 Xác suất điều kiện (Conditional Probability)

của từ xuât hiện trong một lớp văn bản cy thé

6 Xác suất hậu nghiệm (Posterior Probability)

° Xác suất của một lớp nhãn given các đặc trưng Đây là giá trị mà thuật toán cô găng tôi đa hóa để dự đoán nhãn cho mẫu mới Được tính theo công thức:

— P(X|Y) P(Y)

P(Y|X) P(X)

e P(Y|X): Xác xuất hậu nghiệm cho lớp Y given đặc trưng X

® P(X|Y): Xac suat dieu kiện của đặc trưng X given lớp Ÿ

® P(Y): Xác suật tiên nghiệm của lop Y

e P(X): Xac suat cua đặc trưng X

7 Gia dinh doc lap (Independence Assumption)

¢ Gia dinh nay cho rang tat ca cac dic trung la độc lập với nhau trong mỗi lớp nhãn, điều này giúp đơn giản hóa tính toán xác suất điều kiện

8 Quy tắc phân loại (Classification Rule)

e - Đề phân loại một mẫu mới, thuật toán tính xác suất hậu nghiệm cho từng lớp và chọn lớp có xác suât cao nhật

é Quy trình thực hiện

+ Thu Thập Dữ Liệu > Tiền Xử Lý Dữ Liệu => Tính Xác Suất Tiên Nghiệm

— Tínhxác suất có điều kiện + Ap Dung Dinh Ly Bayes > Phân Lớp Dự Đoán => Đánh

Trang 23

Output: Mô hình Narve Bayes

1.1 Tính số lượng mẫu trong Dataset

1.2 Cho mỗi lớp trong nhãn:

a Tính xác suất tiên nghiệm P(Class)

b Cho mỗi đặc trưng:

¡ Tính xác suất P(Feature|Class) bằng cách sử dụng công thức xác suất (điều kiện) 1.3 Trả về mô hình với các xác suất đã tín

2 Hàm NaiveBayesPredict(Mô hình, D):

Input: Mô hình, D (mẫu đề dự đoán)

Output: Nhan dy doan cho D

2.1 Khởi tạo một đanh sách đẻ lưu xác suất cho từng lớp

2.2 Cho mỗi lớp trong mô hình:

a Tính xác suất P(Class|D) bằng công thức Bayes:

P(Class|D) œ P(Class) * P(D|Class)

b Cập nhật xác suất vào danh sách

2.3 Chọn lớp có xác suất cao nhất và trả về lớp đó

e Vidu minh hoa

i.M6 ta bai toan

- Ví dụ ex 4: bài toán gồm 10 đối tướng, 3 thuộc tính và 2 lớp

ii M6 ta dit liéu

Trang 24

Từ kết quả tính toán trong ảnh trên Ta két ludn Test (A = 0, B= 1, C =0) thudc lép (+)

g Uu / nhuoc diém thuat toan Naive Bayes

Uu diém:

23

Trang 25

tài nguyên tính toán, phù hợp cho các bài toán với tập dữ liệu lớn

Đơn giản: Dễ hiểu và đễ triên khai

Xử lý tốt với dữ liệu nhỏ: Với lượng đữ liệu vừa phải, Naive Bayes vẫn cho kết quả tốt

Xử lý tốt với dữ liệu rời rạc: Rất phù hợp cho các dữ liệu phân loại rời rạc như van ban, email (spam hoặc không spam), phân loại tài liệu, v M

Không đòi hỏi nhiều dữ liệu huấn luyện: Có thê đạt hiệu suất tốt với ít dữ liệu

hơn so với các thuật toán khác

Nhược điểm:

Giá định độc lập: Giả định rang các đặc trưng là độc lập với nhau là không thực

tế trong nhiều trường hợp, điều này có thê dẫn đến kết quả sai lệch

Xử lý không tốt với dữ liệu liên tục: Naive Bayes gặp khó khăn trong việc xử lý

đỡ liệu có đặc trưng liên tục hoặc khi các thuộc tính có mỗi quan hệ mạnh với

nhau

Không tính đến tương tác giữa các thuộc tính: Các thuộc tính có thẻ phụ thuộc vào nhau, nhưng giả định "naive" bỏ qua các mối quan hệ này

3 Thuật toán ANN (Artificial Neural Networks)

a Khải niện ANN

Artificial neuron network (mạng nơ-ron) là một mô hình tính toán bắt chước cách thức hoạt động của các tế bào thần kinh trong não người Mạng nơ-ron nhân tạo (ANN) sử

dụng các thuật toán learning có thể thực hiện các điều chỉnh một cách độc lập — hoặc học

theo một nghĩa nào đó — khi chúng nhận được gia tn input mdi

b Cấu trúc tông quan mô hình ANN

+ Kiến trúc của ANN thường bao gồm ba loại lớp chính:

1 Lớp Đầu Vào (Input Layer): Là công đầu vào của mạng, nơi dữ liệu được cung cấp vào mô hình Mỗi neuron trong lớp này tương ứng với một thuộc tính/đặc

trưng của đữ liệu đầu vào

Lớp An (Hidden Layers): Nam giữa lớp đầu vào và lớp đầu ra, lớp an có thể có một hoặc nhiều lớp Các neuron trong các lớp ân thực hiện phần lớn xử lý thông

qua việc kết hợp và biến đôi dữ liệu đâu vào, thực hiện các phép tính toán học đề

học các đặc điệm và môi quan hệ phức tạp từ dữ liệu

Lép Dau Ra (Output Layer): Chứa thông tin đầu ra của mạng, dựa trên việc học

từ đữ liệu đầu vào và các lớp â ân Số lượng neuron trong lớp này tương ứng với số lượng đầu ra mong muốn, ví dụ như các lớp trong bài toán phân loại

Trang 26

+ Mạng nơ-ron nhân tạo (Artificial Neural Network - ANN) là một mô hình tính toan

được lây cảm hứng từ cách hoạt động của não người Dưới đây là các thành phân chính của ANN:

1 No-ron (Neuron)

® - Là đơn vị cơ bản của mạng nơ-ron Mỗi nơ-ron nhận đầu vào, thực hiện tính toán

và sản sinh đầu ra

tổng trọng số của các đầu vào

Trang 27

3 Hàm kích hoạt (Activation Function)

o Sigmoid: Dua dau ra vé khoang (0, 1)

o ReLU (Rectified Linear Unit): Dau ra bang 0 néu dau vao am, va bang chinh dau vao néu dau vao duong

o Tanh: Dua dau ra vé khoang (-1, 1)

4 Lop (Layer)

¢ Mạng nơ-ron thường được cầu trúc thành các lớp:

6 Lớp đầu vào (Input Layer): Nhận dữ liệu đầu vào

o_ Lớp ấn (Hidden Layer): Thực hiện các phép toán đề trích xuất đặc trưng

6 Thuật toán huấn luyện (Training Algorithm)

7 Ham mat mat (Loss Function)

thực tê Một sô hàm mật mát phô biến là:

8 Dữ liệu hudn luyén (Training Data)

¢ Tap dit liu duge str dung dé huan luyén mé hinh Chat luong va s6 luong đữ liệu

ảnh hưởng lớn đên hiệu suât của ANN

Trang 28

d M6 hinh Perceptron (Single-Layer Neural Network)

¡ Mô hình tông quái, giải thích các tham số

Mô hình Perceptron là một loại mạng nơ-ron đơn giản nhất, thuộc dạng mạng nơ-ron một lớp (Single-Layer Neural Network) Nó được sử dụng chủ yêu cho các bài toán phân loại nhị phân Dưới đây là mô hình tông quát và giải thích các tham sô của nó

1 Cấu trúc của Perceptron

Mô hình Perceptron gồm các thành phân sau:

° Pau vao (InpuÐ: Gồm một tập hợp các giá trị đầu vào xI ;X2 xn

se Trọng số (Weigh(s): Mỗi đầu vào xix ixi có một trọng số tương wg Wi, phan ánh mức độ quan trọng của đầu vào này

¢ Ham kich hoat (Activation Function): Thuong la ham bước (step function) trong trường hợp của Perceptron, quyết định đầu ra dựa trên tổng trọng số của các đầu vào

» - Đầu ra (Output): Kết quả phân loại, thường là 0 hoặc 1

® _ b là độ chệch (bias), giúp điều chỉnh hàm kích hoạt

3 Giải thích các tham số

» - Đầu vào (Xi): Các đặc trưng của đữ liệu mà bạn muốn phân loại Ví dụ, trong bài toán phân loại hoa, các đặc trưng có thể là chiều cao, chiều rộng, màu sắc, v.v

27

Trang 29

e Trong so (Wi): Các giá trị số thực được tối ưu hóa trong quá trình huấn luyện Trọng số xác định mức độ ảnh hưởng của từng đầu vào đến đầu ra Một trọng số lớn cho thấy đầu vào đó có vai trò quan trọng trong quyết định phân loại

se Độ chệch (b): Là một tham số giúp điều chỉnh ngưỡng của hàm kích hoạt Độ chệch có thê giúp mô hình cải thiện khả năng phân loại bằng cách dịch chuyển

hàm kích hoạt lên hoặc xuống

® Hàm kích hoạt (f): Trong Perceptron, hàm kích hoạt thường là một hàm bước Nếu tổng trọng số vượt qua một ngưỡng nhất định, đầu ra sẽ là 1, ngược lại sẽ là 0 Các dạng hàm kích hoạt khác như ReLU hay sigmoid không được sử dụng trong Perceptron đơn giản

4 Quá trình huấn luyện

Trong quá trình huấn luyện, trọng số và độ chệch được cập nhật dựa trên sai số giữa đầu

ra dự đoán va dau ra thực tê Công thức cập nhật trọng sô có thể được mô tả như sau:

® Y(true)la dau ra thực tê

® Y(pred) la dau ra dy đoán

ii Luat hoc

1 Khoi tao trong số w và hệ số thiên b ngẫu nhiên

2 Đặt tốc độ học ơ

- Trong mỗi vòng lặp cho đến khi hội tụ:

- Đối với mỗi mẫu đữ liệu (x, y) trong tập huấn luyện:

- Dự đoán dau ra: y_pred = f(w * x +b)

28

Tiêu đề	Trí Tuệ Nhân Tạo
Tác giả	Dương Minh Thụy Miễn
Người hướng dẫn	Nguyễn Thị Ngọc Anh
Trường học	Đại Học Sư Phạm Đà Nẵng
Chuyên ngành	Tin Học
Thể loại	báo cáo

Định dạng
Số trang	59
Dung lượng	4,79 MB