1. Trang chủ
  2. » Luận Văn - Báo Cáo

Sử dụng một số thuật toán học máy Để dự Đoán thành tích học tập của học sinh

62 0 0
Tài liệu được quét OCR, nội dung có thể không chính xác
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Sử Dụng Một Số Thuật Toán Học Máy Để Dự Đoán Thành Tích Học Tập Của Học Sinh
Tác giả Nguyễn Bích Quỳnh
Người hướng dẫn TS. Đàm Thanh Phương
Trường học Trường Đại học Công nghệ Thông tin và Truyền thông - Đại học Thái Nguyên
Thể loại luận văn thạc sĩ
Năm xuất bản 2021
Thành phố Thái Nguyên
Định dạng
Số trang 62
Dung lượng 5,01 MB

Nội dung

Thuật toán thường có dữ liệu đầu vào đã có nhãn và d kèm với một cấu trúc đã bi nhiệm vụ tạo ra một mô hình có thể dự đoán một số thuộc tính từ các thuộc tính đã biết.. Sau khi mô hình

Trang 1

LOI CAM DOAN

‘Toi xin cam doan: Lun van thac sf chuyén ngành Khoa học máy tính, tên đề tài “Sit dung mot số thuật toán học máy để dự đoán thành

Kết quả tim hiểu, nghiên cứu trong luận văn là hoàn toàn trung thực,

không vi phạm bắt cứ diều gì trong luật sở hữu trí tuệ và pháp luật Viet

êm trước pháp luật

„ bài báo, khóa luận, công cụ phần mềm của ¢ giả khác được sử dụng lại trong luận văn này đều được chỉ dẫn tường minh vé tac gid va đều có trong danh mục tài liệu tham khảo

“Thái Nguyên, ngày 18 tháng 10 năm 2021

“Tác giả luận văn Nguyễn Bích Quỳnh

Trang 2

LOI CAM ON

“Tác giả xin chân thành cảm ơn TS Đàm Thanh Phương, trường Dại học Công nghệ thông tin và truyền thông - Dại học 'Thái Nguyên, là giáo viên hướng dẫn khoa học đã hướng dẫn tác giả hoàn thành luận

văn này, xin được cảm ơn các thầy, cô giáo trường Dại học công nghệ thông tin và truyền thông nơi tác giả theo học và hoàn thành chương,

trình cao học đã nhỉ

nh giảng dạy và giúp đỡ

Xin cảm ơn trường THIPT Lương Thế Vinh - Cẩm Phả - Quảng Ninh

nơi tác giả công tác đã tạo mọi diều kiện thuận lợi để tác giả thu thập

dữ liệu, hoàn thành nghiên cứu và chương trình học tập

'Và cuối cùng xin cảm ơn gia đình, bạn bè, đồng nghiệp đã động viên, giúp đỡ tác giả trong suốt thời gian học tập, nghiên cứu và hoàn thành

luận văn này

Xin chân thành cảm ơn

Thái Nguyên, ngày 18 tháng 9 năm 2020

“Tác giả luận văn Nguyễn Bích Quỳnh

Trang 3

lọc sinh theo trung bình các môn

Feature Selection vai Lasso

Accuracy explode cic model khi sit dung all features

Accuracy explode cic model khi sit dung features selection

Kết quả dự đoán điểm của một số họ e sinh khi sử dụng

Trang 5

RY Không gian Buclide n chiều

co Không gian các hàm có đạo hàm cấp liên tue

SVM Support Vector Machine- May vée tơ hỗ trợ

LR Linear Regression - Hồi quy tuyển tính

NB Navie Bayes-Dinh Luật xác suất Navie Bayes

KNN K Nearest Neighbor- K lần cận gần nhất,

TBCM Điểm trung bình các môn học của học sinh

MLE Phương pháp ước lượng hợp lý cực đại

MAP Phương pháp ước lượng hậu nghiệm cực đại

NBC Phan loai Navie Bayes

RE Random Forest - Rừng ngẫu nhiên

Trang 6

Danh mục ký hiệu, từ viết tắt

1.8 Các bài toán cơ bin trong machine learning ° 1.4 Phân nhóm các thuật toan machine learning 12

Chương 2 'THU THẬP VÀ XỬ LÝ DỮ LIỆU 19

30 3.1 Một số thuật toán lựa chọn training mô hình 30

Lựa chọn và tối ưu hóa tham số mô hình 40

Trang 7

A Két qua va danh gid

Trang 8

MG ĐẦU

Ngày nay, khi xã hội ngày càng phát triển, việc đưa máy tinh vào s dụng, phục vụ cho công việc đời sống của con người đã sẵn sinh ra một khối lượng dữ liệ lớn và phức tap (big data), được số hóa và lưu trữ

trên máy tính Những tập dữ liệu lớn này có thể bao gồm các dữ liệu có

cấu trúc, không có cầu trúc và bán cầu trúc Dó có thể là dữ liệu thông tin bán hàng trực tuyến, lưu lượng truy cập trang web, thông tin cá

đó hình thành Ý tưởng cơ bản của học máy là máy tính có thể họ hồi,

học tự động theo kinh nghiệm [I| Máy tính phan tic

ti n thầy các mẫu, quy tắc ẩn trong dữ li vử dụng các quy tắ lượng lớn dữ liệu, đó để

mô tả dữ liệu mới một cách tự động và liên tục cải thiện

trọng nhất trong việc xác định một trang web nhất định và họ có thể s

Trang 9

dụng cụm từ này để trả thông tin kết quả phù hợp cho cụm từ tìm kiếm

ra học máy có thể được sử dụng để hiểu loại sản phẩm mà khách hàng,

quan tâm, bằng cách phân tích các sản phẩm trong quá khứ mà người dùng đã mua Máy tính có thể đưa ra đề xuất các sản phẩm khách hang

có thể mua với xác suất cao [1| Tắt cả những ví dụ trên đều có nguyên

tắc cơ bản giống nhau: Máy tính xử lý và học cách xác định dữ liệu, sau

Dữ liệu đầu vào được gọi là dữ liệu huần luyện Thuật toán thường có

dữ liệu đầu vào đã có nhãn và d kèm với một cấu trúc đã bi

nhiệm vụ tạo ra một mô hình có thể dự đoán một số thuộc tính từ các thuộc tính đã biết Sau khi mô hình được tạo, nó được sử dụng để xử

toán là xác định một cầu trúc trong dữ liệu.|?|

Được sự gợi ý của giáo viên hướng dẫn, em bước dầu tìm hiểu nghiên

u ting dung hoc may trong giáo dục nhằm thực hiện một nhiệm vụ:

ảnh dựa trí

Dự đoán kết quả học tập của h những dữ liệu thu thập

được của học sinh Dây là một hướng nghiên cứu đang thu hút sự quan tâm của nhiều nhà khoa học trên thế giới [6|, (7), [8] Trong (7), các tác

Trang 10

giả sử dụng một số phương pháp phân lớp như mạng nơ ron, NB, Cay quyết định kết hợp với Bagging Boosting và Random Forest để nâng cao

độ chính x: e dự đoán Kết quả dự đoán đánh giá trên 80% Trong |8],

phẩy trung bình môn học của học sinh Quá trình phân tích các dữ liệu

ảnh cung cấp cũng hi vọng tim ra được sự tương quan, ảnh hưởng,

của một số yếu tố thể hiện trong véc tơ đặc trưng của dữ liệu dén đầu

ra là kết quả học tập được thể hiện bằng điểm trung bình của học sinh

“Từ đó, mong muốn dưa ra những khuyến nghĩ để học ảnh phát huy ưu điểm, hạn chế khuyết điểm và nâng cao h tụ quả học tập

Nội dung của luận văn gồm 3 chương:

Chương 1 Tổng quan về học máy

Chương này trình bày các kiến tổng quan về học máy, các khái niệm liên quan đến ứng dụng mô hình học máy và các thuật ngữ liên quan Nội dung bao gồm

Trang 11

1.5 Hầm mất mát và tham số mô hình

Chương 2 'Thu thập và xử lý dữ liệu

Nội dung chương 2 tập trung vào vấn đề thu thập và tiền xử lý dữ liệu Qu

xô hình huần luyện No giúp cho chúng ta có thể giữ lại các đặc trưng,

trình trích chọn đặc trưng rất quan trọng trước khi đưa vào

3.1 Phát biểu bài toán

3.2 Thu thập dữ liệu

2.3 Feature Engineering

Chương 3 Training mô hình và đánh giá kết quả

Sau khi dữ li đã được tiền xử lý trong chương 3, chương 3 trình bày

kết quả training một s mô hình học máy với dữ liệu này Các thuật toán được nhắc lại để hiểu bản chất trong một phần Tùy nhiên, để thực hiện chúng ta có các thư vĩ

trong Seikit learn của Python để gọi hàm

và xử lý Cũng có nhiều thành phần, nhiều hàm phải tư viết để thực

hiện những nhiệm vụ cụ thể, Sau đó, tiến hành dánh giá độ chính xác, phân tích kết quả và đưa ra những dự báo, khuyến nghị Chỉ tiết triển khai gồm có:

3.1 Một số thuật toán lựa chọn training mồ hình

3.1 Training mo hình

3.2 Lata chon va tối ưu hóa tham số mồ hình

3.3 Dánh giá kết quả

Trang 12

Dé quá trình chạy không quá rồi với người dùng, em cũng có xây dựng

một giao điện web demo để những phần lập trình và gọi hàm sẽ được

xử lý trong blackbox, người dùng chỉ việc chọn tập test và nhìn kết quả

thiểu sót do năng lực và thời gian hạn chế Em chân thành mong muốn

lắng nghe những đóng góp, góp ý của thầy cô bạn bè đồng nghiệp để luận văn được cải thiện tốt hơn

Em xin chân thành cảm ơn,

Trang 13

CHƯƠNG 1

TONG QUAN VE HOC MAY

“Trong chương này, trình bày một số kiến thức tổng quan về học máy,

các khái niệm liên quan đến ứng dụng mô có thể có cơ

sở nghiên ôi dụng san

1.1 Thuật toán học máy

Một thuật toán machine learning là một thuật toán có khả năng học tập từ dữ liệu Theo Mitchell [3], “A computer program is said to learn from experience E with respect to some tasks T and performance measure P, if its performance at tasks in T, as measured by P, improves with experience E”

Dinh nghĩa 1.1.1 Một chương trình máu tính được gọi là “học tập” từ kinh nghiệm I7 để hoàn thành nhiệm vu T tới hiệu quả dược do bằng phép đánh giá P, nếu hiệu quả của nó khi thực hiện nhiệm tụ T, khi được đánh giá bởi P, cải thiện theo kink nghiệm Ï

Lay ví dụ về một chương trình máy tính có khả năng tut choi cờ vây Chương trình này tự học từ các ván cỡ đã chơi trước đó của con người

để tinh toán ra các é thuật hợp lý nhất Mục dích của việc học này

là tạo ra một chương trình

có khả năng giành phần thắng cao Chương trình này cũng có thể tự cải thiện khả năng của mình bằng cách chơi hàng triệu vấn cờ với chính nó Trong vi dụ này, chương trình máy tính

có nh

vụ chơi cỡ vây thông qua kinh nghiệm là các ván cờ đã chơi với chính nó và của con người Phép đánh giá ở đây chính là khả năng, giành chiến thắng của chương trình

Để xây dựng một chương trình máy tính có khả năng học, ta cần

th rõ ba yếu tố: nh em vu, phép đánh giá, và nguồn dữ liệu huấn

6

Trang 14

luyện

Tay một chương trình học máy có khả năng dự đoán thành tích học

tập

tủa học sinh như mục tiêu của đề tài luận văn đang giải quyết Máy

tính dựa vào các dữ liệu của các học sinh đã biết thành tích, phân tích

rừng ảnh hưởng đến đầu ra, thực hiện training mo hinh dé có được mồ hình dự đoán trên một mô hình học máy nào đấy để đưa ra kết quả dự đoán Nhiệm vụ ở đây là đưa ra kết quả học tập dư đoán, tù

dữ liệu), kết quả dự đoán được kiểm nghiệm so sánh với kết quả thực

tế của học sinh trên tập dữ liệu test Rồi đánh giá, cải thiên mồ hình 1⁄2 Dữliệu

ác nhiệm vu trong machine learning được mồ tả thông qua vi

hệ thống xử lý một diễm dữ liệu đầu vào như thế nào

Một điểm dữ liệu có thể là một bức ảnh, một đoạn âm thanh, một

văn bản, hoặc một tập các hành vi của người dùng trên Internet Dễ

chương trình máy tính có thể học được, các điểm dữ liệu thường được đưa về dạng tập hợp các con số mà mỗi số được gọi là một đặc trưng (feature)

Có những loại dữ liệu được biểu diễn dưới dang ma trận hoặc mảng

u chiều Một bức ảnh xám có thể được coi là một ma trận mà mỗi

nhỉ

phần tử là giá trị độ sáng của điểm ảnh tương ứng Một bức ảnh màu ba

kênh đỏ, lục, và lam có thể được biểu diễn bởi một mảng ba chiều Trong

Trang 15

Tap huấn luyện (training set) bao gồm các điểm dữ liệu đượ

c sit dung trực tiếp trong việc xây dựng mô hình Tap kiém tra (test set) gồm các

dữ liệu được dùng để đánh giá hiệu quả của mô hình Để đảm bảo tính

phổ quát, dữ liệu kiểm tra không được sử dụng trong quá trình xây

dựng mồ hình Diều kiện cần để một mô hình hiệu quả là kết quả đánh giá trên cả tập huấn luyện và tập kiểm tra đều cao Tập kiểm tra đại

dign cho dữ liệu mà mô hình chưa từng thấy, có thể xuất hiện trong quá

trình vận hành mô hình trên thực tế

Một mô hình hoạt động hiệu quả trên tập huấn luyện chưa chắc đã

tập kiểm tra Dễ tăng hiệu quả của mô hình

hoạt động hiệu qua t

ti

nữa được

õn dữ liệu kiểm tra, người ta thường sử dụng một tập ¢

goi là tập zác thực (validation set) Tập xác thực này được sử dụng trong việc lựa chọn các siêu tham số mô hình

Một điểm dữ liệu mà đề tài luận văn đang nghiên cứu là thong tin đầu vào của một học sinh Đó có thể là rất nhiều những thông tin chúng,

ta thu thập được như họ tên, bố mẹ, nghề nghiệp bồ mne, số giờ học tập trong tuần, số giờ đọc sách trung bình Lượng thông tin này cần được

chuẩn hóa thành một véc tơ đặc trưng cho dữ liệu Cá phương pháp

Trang 16

1.3 Các bài toán cơ bản trong machine learning

Nhiều bài toán phức tạp có thể được giải quyết bằng machine learning

Dưới day là một số bài toán phổ biến [1|

1.8.1 Phân loại

Phân loại (classification) là một trong những bài toán được nghiên

u nhiều nhất trong machine learning Trong bài toán này, chương trình được yêu cầu xác định /ớp//nhãn (class/label) của một điểm dữ

liệu trong số Ở nhãn khác nhau Cặp (dữ li u, nhãn) được ký hiệu là

(x,y) vai nhận một trong C gid tri trong tập đích 3 Trong bài toán

này, ví xây dựng mô hình tương đương với việc dĩ tìm hàm số ƒ ánh

xạ một điểm dữ liệu x vào một phần tử + € 3: = f(x) [1], [2

Ví đụ 1: Bài toán phân loại ảnh chữ số viết tay có mười nhãn là các chữ số từ không đế: chín Trong bài toán này:

« Nhiệm vụ: xác định nhãn của một ảnh chữ số viết tay

® Phép đánh giá: số lượng ảnh được gán nhãn đúng

« Kinh nghiệm: dữ liệu gồm các cặp (ảnh chữ số, nhãn) biết trước

Ví dụ 2: Bài toán phân loại email rác Trong bài toán này:

® Nhiệm vụ: xác một email mới trong hộp thư đến là email rác hay không

® Phép đánh giá: tỉ lệ email rác tìm thấy email thường được xác dink

ding

« Kinh nghiệm: cặp các (email, nhãn) thu thập được

Vi du 3: Bài toán dự đoán thành tích học tập của học sinh cũng có thể nhìn đưới góc độ một bài toán phân loại Dữ liệu (học sinh) được phân về, chẳng hạn một trong 4 loại: Xuất sắc, Giỏi, Khá, Trung bình

9

Trang 17

© Nhigm vu: Phan loai một học sinh về một trong các nhóm học tập:

Xuất sắc, gii, khá, trung bình

« Kinh nghiệm: Dữ liệu của hàng ngàn học ảnh đã được phân loại

trước đó Chẳng hạn học sinh hay đọc sách, học nl không nghiện game thi két quả học tập thường tốt Học sinh có bố mẹ bỏ nhan,

ở với Ong ba, choi game nhiều thường học không tét.v.v

® Phép đánh giá: Tỉ lệ phân lớp đúng trên dữ liệu text

Tài toán hồi quy có thể mở rộng ra việc dự doán nhiều đầu ra cùng

moth khi đó, hàm cần tim s8 laf: RR" Mot vi du là bài toán

tạo ảnh độ phân giải cao từ một ảnh có độ phân giải thấp hơn Khi đó, việc dự doán giá trị các điểm trong ảnh dầu ra là một bài toán hồi quy nhiều dau ra (1), (2)

Ví dụ 3: Bai toán dự đoán thành tích họ tập của học sinh cũng là

một bài toán hồi quy Với mỗi dữ liệu đầu vào chưa biết kết quả học

10

Trang 18

tập (là một số thực từ 0.0 dén 10.0 theo thang phẩy học sinh phổ thong Việt Nam, làm tròn đến 2 chữ số sau dấu phẩy.) chúng ta mong muốn xây dựng một mô hình hồi quy để dưa ra điểm phẩy dự đoán của học

Điều này giống với việc yêu cầu một đứa trễ phân cụm các mảnh ghép

với nhiều hình thù và màu sắc khác nhau Mặc dù không cho trẻ biết

minh nao tương ứng với hình nào hoặc màu nào, nhiều khả năng chúng,

vẫn có thể phân loại các mảnh ghép theo màu hoặc hình dạng

Ví dụ 1: Phan cum khách hàng dựa trên hành vi mua hàng Dựa trên việc mua bắn và theo dõi của người dùng trên một trang web thương,

um theo sở thích

xmại điện tử, mô hình có thể phân người dùng vào cí

mua hàng Từ đó, mô hành có thể quảng cáo c mặt hàng mà người

"

Trang 19

1.3.5 Hoàn thiện dữ liệu - data completion

Một bộ dữ liệu có thể có nh u đặc trưng nhưng việc thu thập đặc

trưng cho từng điểm dữ liệu đôi khi không khả thi Chẳng hạn, một bức

ảnh có thể bị xước khiến nhiều điểm ảnh bị mất hay thông tin về tuổi

của một số khách hàng không thu thập được Hoan thiện đỡ liệu (data

on thiếu đó Nhi

completion) là bài toán dự đoán các trường dữ liệu

vụ của bài toán này là dựa trên mối tương quan giữa các điểm dữ liệu

để dự doán những giá trị còn thiếu Các hệ thống khuyến nghị là một

1.4 Phân nhóm các thuật toán machine learning

Dựa trên tính chất của tập dữ huật toán machine learning

có thể được phân thành hai nhóm chính là học có giám sát và hoc không giám sát Ngoài ra, có hai nhóm thuật toán khác gây nhiều chú ý trong,

Trang 20

thời gian gin day là học bán giám sát và học củng cố ||

LAA Học có giám sit

Một thuật toán machine learning được gọi là học có giám sát (super- vised learning) nếu việc xây dựng mô hình dự đoán mối quan hệ giữa đầu vào và đầu ra được thực hiện dựa trên các cặp (đầu vào, đầu ra) đã biết trong tập huần luyện Dây là nhóm thuật toán phổ biến nhất trong

dịch Anh - Việt được thự

hiện dựa trên hàng triệu cặp văn bản Anh

ng nói thuật toán này là họ

Cách huấn luyện mô hình học máy như trên tương tư với cách dạy học sau đây của con người Ban đầu, cô giáo đưa các bức ảnh chứa c

số cho một đứa trẻ và chỉ ra đâu là chữ số không, đầu là chữ số một,

Diễn giải theo toán học, học có giám sắt xảy ra khi việc dự đoán quan

hệ giữa đầu ra y và dữ liệu đầu vào x được thực hiện dựa trên các cặp

{(Xi,y), (Xa, Y2), ., (Xx, V)} trong tap huấn luyện Việc huấn luyện

là việc xây dựng một hàm số ƒ sao cho với mọi ¿ = 1,3, , N, ƒ(X) gần với y; nhất có thể Ilơn thế nữa, khi có một điểm dữ liệu x nằm

ry

Trang 21

Các thuật toán giải quyết bài toán phân cụm và giảm chiều dữ liệ

là các ví dụ điển hình của nhóm này Trong bài toán phân cụm, có thể

xô hình không trực tiếp dự doán được dầu ra của dữ liệu nhưng vẫn có

của một bức ảnh mới Dứa trẻ có thể tự thực

Ranh giới giữa học có giám sát và học không giám sát đối khi không

ö ràng Có những thuật toán mà tập huấn luyện bao gồm các cặp (đầu vào, dầu ra) và dữ liệu khác chỉ có đầu vào Những thuật toán này được

goi là học bán giám sát (semi-supervised learning)

Trang 22

Xét mot bai toán phân loại mà tập huấn luyện bao gồm các bức ảnh được gán nhãn 'chó' hoặc mèo" và rất nhiều bức ảnh thú cưng tải từ Tnternet chưa có nhãn Thực tế cho thấy ngày càng nhiều thuật toán

rơi vào nhóm này vì việc thu thập nhãn cho dữ liệ có chỉ phí cao và tồn thời gian Chẳng hạn, chỉ một phần nhỏ trong các bức ảnh y học

hành vi Nhóm các thuật toán này có tên học củng cố (reinforcement learning)

Ví du 1: Gần đây, AlphaGo trở nên

ï tiếng với việc chơi cờ vậy

'Về cơ bản, AlphaQo bao gồm các thuật toán thuộc cả học có giảm sát

và học cũng có Trong phần học có giám sát, dữ liệu từ các ván cờ do

con người chơi với nhau được đưa vào để huấn luyện Tùy nhiền, mục

đích cuối ng của AlphaGo không dừng lại ở việc chơi như con người

15

Trang 23

ma tham chi phải thắng cả con người Vì vậy, sau khi học xong,

cờ của con người, AlphaGo tư chơi với chính nó qua hàng triệu van cờ

để tìm ra các mide di tối ưu hơn 'Thuật toán trong phần tư chơi

được xếp vào loại học cũng cổ

Gan day, Google DeepMind đã tiền thêm một bước đáng kể với Al-

phaGo Zero Hệ thống này thậm chí không cần học từ các vấn cờ

con người Nó có thể tự chơi với chính mình để tìm ra các chiến thuật

tối ưu Sau 40 ngày được huấn luyện, nó đã thắng tất cả con người

có định) Đầu vào của là sơ đồ của màn

h tại thời điểm hiệ

tại, nhiệm vụ ịa thuật toán là tìm tổ hợp phím

được bấm với mỗi đầu vào

Việc ấn luyện một thuật toán học củng cố thông thường dựa trên

một đại lượng được gọi là điểm thưởng (reward) Mô hình cần tìm ra

mot thnat toán tối đa điểm thưởng đó qua rất nhiều lần chơi khác nhan

“Trong trò chơi cờ vây, điểm thưởng có thể là số lượng ván thắng Trong trò chơi Mario, diém thưởng được xác định dựa trên quãng đường nhân vat Mario đĩ được và thời gian hoàn thành quãng đường đó Diễm thưởng,

này không phải là điểm của trò chơi mà là điểm do chính người lập trình

tao ra

6

Trang 24

1.5 Hàm mất mát và tham số mô hình

Mỗi mô hình machine learning được mô tả bởi bộ các tham số mmô hành

(model parameter) Công việc của một thuật toán machine learning là

di tâm các tham số mô hình tối ưu cho mỗi bài toán Việc di tim các tham số mô hình có liên quan mật thiết đến các phép đánh giá Mục đích chính là đi c tham s

tả thông qua một hàm số goi JA ham mét mét (loss function hoặc cost fanetion) Hàm số này thường có giá trị nhỏ khi phép đánh giá cho kết

‘Tap hợp các tham số mô hình được ký hiệu bằng Ø, hàm mất mát

của mô hình được ký hiệu là £(0) hoặc J(0) Bài toán di tìm tham số

mô hình tương đương với bài toán tối thiểu hàm mắt mat:

được tối ưu Biến số này cần được chỉ rõ, trừ khi hàm mất mát chỉ phụ thuộc vào một biển duy nhất Ký hiệu argmax cũng được sử dụng một cách tương tự khi cần tìm giá trị của các biến số để hàm số đạt giá trị

Trang 25

số này doi khi không khả thỉ Trong các bài toán tối ưu thực chỉ

cần tầm ra một bộ tham số Ø khiến hàm mắt mát đạt giá trị nhỏ nhất

Trang 26

thuật toán vào xử lý d

2.1 Phát biểu bài toán

Dựa trên những dữ liệu dã được thu thập về sự ảnh hưởng của nhiều

yến tổ đến kết quả học tập, ủa học sinh, xây dựng mô hình họ ¿ mấy có

thể đưa ra dự đoán về một học sinh có véc tơ dữ liệu cho trước sẽ có kết

quả học tập như thế nào? Từ đó có thể tư vấn cho học sinh sinh viên

Phép đánh giá P: O day là các phép đánh giá về độ chính xác của các

mô hình học máy, độ liên quan của các thuộc tính với đầu ra, các kỹ thuật đánh giá mồ hi th học máy

Một số kỹ thuật Feature Engineering duge sử dụng dễ trí

trưng của dữ liệu [1]

1 Trực tiếp lầy dữ liệu th

2 Lita chọn đặc trưng

19

Trang 27

2.2 Thu thập dữ liệu

“Thu thập dữ liệu là công việc rất quan trong, vì không có dữ liệu

thi không thể xây dựng được mô hình Thông qua tìm hiểu cá nhãn và

trực tiếp được thực hiện với hơn 500 học sinh các khóa 19 (

2017-2020), 20 (niên khóa 2018-2021) và 21 (niên khóa 2019-2022) tại trường THIPT Lương Thế Vinh - Cẩm Phả - Quảng Ninh để đưa ra mối liên hệ và dự đoán Phiếu khảo sát được thực hiện theo mẫu như hình

4 Bí quan - Thái độ sống, lạc quan tích cực hay tiêu cực, bi quan

5 Học thêm - Có học thêm hay không

6 Người yêu - Có người yên, bạn khác giới hay không

Trang 28

Minh 2.1: Phi Kio st thing tin

‘Minh 22: Phi Kho sit sing tn (8p)

a

Trang 29

10 Thời gian ở trường

11 Hút thuốc - Có

t thuốc hay không

12, Uống rượu - Lượng mÌ rượu uồng trong tuần

13 Uống chè - Có thói quen uống chè không

14 Thời gian rảnh- Thời gian tính giờ trên tuần

18 Thời gian chơi game - Giờ trên tuẫn

16 Thời gian thể thao- Giờ trên tuần

ch - Giờ trên tuần,

biểu diễn bằng một vector được gọi là vector date trưng (feature vector)

|| Trong cùng một mô hình, các vector đặc trưng của các điểm thường

Trang 30

‘Minh 3⁄4: Một số thuộc tính (b)

phép toán với ma trận và vector, các phép toán này yêu cầu dữ liệu

có chiều phù hợp Tuy nhiê thực tế thu thập được ở dạng thô với kích thước khác nhau, một số trường dữ liệu thiếu, một số dư thừa

nh 36: Một số thuộc tính (Q.

Trang 31

Tước này nằm trong quan hệ tổng thể của một mồ hình học máy cơ

bản được ninh hoạc như hình 2.6 [1]

a] metic dm |_| eon | pins,

1 tric to dig aca) nhên bại,

bài), có thể ngắn có thể dài (nhiều bạn khai đủ, một số

Ngày đăng: 24/12/2024, 14:33

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w