Thuật toán thường có dữ liệu đầu vào đã có nhãn và d kèm với một cấu trúc đã bi nhiệm vụ tạo ra một mô hình có thể dự đoán một số thuộc tính từ các thuộc tính đã biết.. Sau khi mô hình
Trang 1LOI CAM DOAN
‘Toi xin cam doan: Lun van thac sf chuyén ngành Khoa học máy tính, tên đề tài “Sit dung mot số thuật toán học máy để dự đoán thành
Kết quả tim hiểu, nghiên cứu trong luận văn là hoàn toàn trung thực,
không vi phạm bắt cứ diều gì trong luật sở hữu trí tuệ và pháp luật Viet
êm trước pháp luật
„ bài báo, khóa luận, công cụ phần mềm của ¢ giả khác được sử dụng lại trong luận văn này đều được chỉ dẫn tường minh vé tac gid va đều có trong danh mục tài liệu tham khảo
“Thái Nguyên, ngày 18 tháng 10 năm 2021
“Tác giả luận văn Nguyễn Bích Quỳnh
Trang 2LOI CAM ON
“Tác giả xin chân thành cảm ơn TS Đàm Thanh Phương, trường Dại học Công nghệ thông tin và truyền thông - Dại học 'Thái Nguyên, là giáo viên hướng dẫn khoa học đã hướng dẫn tác giả hoàn thành luận
văn này, xin được cảm ơn các thầy, cô giáo trường Dại học công nghệ thông tin và truyền thông nơi tác giả theo học và hoàn thành chương,
trình cao học đã nhỉ
nh giảng dạy và giúp đỡ
Xin cảm ơn trường THIPT Lương Thế Vinh - Cẩm Phả - Quảng Ninh
nơi tác giả công tác đã tạo mọi diều kiện thuận lợi để tác giả thu thập
dữ liệu, hoàn thành nghiên cứu và chương trình học tập
'Và cuối cùng xin cảm ơn gia đình, bạn bè, đồng nghiệp đã động viên, giúp đỡ tác giả trong suốt thời gian học tập, nghiên cứu và hoàn thành
luận văn này
Xin chân thành cảm ơn
Thái Nguyên, ngày 18 tháng 9 năm 2020
“Tác giả luận văn Nguyễn Bích Quỳnh
Trang 3lọc sinh theo trung bình các môn
Feature Selection vai Lasso
Accuracy explode cic model khi sit dung all features
Accuracy explode cic model khi sit dung features selection
Kết quả dự đoán điểm của một số họ e sinh khi sử dụng
Trang 5RY Không gian Buclide n chiều
co Không gian các hàm có đạo hàm cấp liên tue
SVM Support Vector Machine- May vée tơ hỗ trợ
LR Linear Regression - Hồi quy tuyển tính
NB Navie Bayes-Dinh Luật xác suất Navie Bayes
KNN K Nearest Neighbor- K lần cận gần nhất,
TBCM Điểm trung bình các môn học của học sinh
MLE Phương pháp ước lượng hợp lý cực đại
MAP Phương pháp ước lượng hậu nghiệm cực đại
NBC Phan loai Navie Bayes
RE Random Forest - Rừng ngẫu nhiên
Trang 6Danh mục ký hiệu, từ viết tắt
1.8 Các bài toán cơ bin trong machine learning ° 1.4 Phân nhóm các thuật toan machine learning 12
Chương 2 'THU THẬP VÀ XỬ LÝ DỮ LIỆU 19
30 3.1 Một số thuật toán lựa chọn training mô hình 30
Lựa chọn và tối ưu hóa tham số mô hình 40
Trang 7
A Két qua va danh gid
Trang 8MG ĐẦU
Ngày nay, khi xã hội ngày càng phát triển, việc đưa máy tinh vào s dụng, phục vụ cho công việc đời sống của con người đã sẵn sinh ra một khối lượng dữ liệ lớn và phức tap (big data), được số hóa và lưu trữ
trên máy tính Những tập dữ liệu lớn này có thể bao gồm các dữ liệu có
cấu trúc, không có cầu trúc và bán cầu trúc Dó có thể là dữ liệu thông tin bán hàng trực tuyến, lưu lượng truy cập trang web, thông tin cá
đó hình thành Ý tưởng cơ bản của học máy là máy tính có thể họ hồi,
học tự động theo kinh nghiệm [I| Máy tính phan tic
ti n thầy các mẫu, quy tắc ẩn trong dữ li vử dụng các quy tắ lượng lớn dữ liệu, đó để
mô tả dữ liệu mới một cách tự động và liên tục cải thiện
trọng nhất trong việc xác định một trang web nhất định và họ có thể s
Trang 9dụng cụm từ này để trả thông tin kết quả phù hợp cho cụm từ tìm kiếm
ra học máy có thể được sử dụng để hiểu loại sản phẩm mà khách hàng,
quan tâm, bằng cách phân tích các sản phẩm trong quá khứ mà người dùng đã mua Máy tính có thể đưa ra đề xuất các sản phẩm khách hang
có thể mua với xác suất cao [1| Tắt cả những ví dụ trên đều có nguyên
tắc cơ bản giống nhau: Máy tính xử lý và học cách xác định dữ liệu, sau
Dữ liệu đầu vào được gọi là dữ liệu huần luyện Thuật toán thường có
dữ liệu đầu vào đã có nhãn và d kèm với một cấu trúc đã bi
nhiệm vụ tạo ra một mô hình có thể dự đoán một số thuộc tính từ các thuộc tính đã biết Sau khi mô hình được tạo, nó được sử dụng để xử
toán là xác định một cầu trúc trong dữ liệu.|?|
Được sự gợi ý của giáo viên hướng dẫn, em bước dầu tìm hiểu nghiên
u ting dung hoc may trong giáo dục nhằm thực hiện một nhiệm vụ:
ảnh dựa trí
Dự đoán kết quả học tập của h những dữ liệu thu thập
được của học sinh Dây là một hướng nghiên cứu đang thu hút sự quan tâm của nhiều nhà khoa học trên thế giới [6|, (7), [8] Trong (7), các tác
Trang 10giả sử dụng một số phương pháp phân lớp như mạng nơ ron, NB, Cay quyết định kết hợp với Bagging Boosting và Random Forest để nâng cao
độ chính x: e dự đoán Kết quả dự đoán đánh giá trên 80% Trong |8],
phẩy trung bình môn học của học sinh Quá trình phân tích các dữ liệu
ảnh cung cấp cũng hi vọng tim ra được sự tương quan, ảnh hưởng,
của một số yếu tố thể hiện trong véc tơ đặc trưng của dữ liệu dén đầu
ra là kết quả học tập được thể hiện bằng điểm trung bình của học sinh
“Từ đó, mong muốn dưa ra những khuyến nghĩ để học ảnh phát huy ưu điểm, hạn chế khuyết điểm và nâng cao h tụ quả học tập
Nội dung của luận văn gồm 3 chương:
Chương 1 Tổng quan về học máy
Chương này trình bày các kiến tổng quan về học máy, các khái niệm liên quan đến ứng dụng mô hình học máy và các thuật ngữ liên quan Nội dung bao gồm
Trang 111.5 Hầm mất mát và tham số mô hình
Chương 2 'Thu thập và xử lý dữ liệu
Nội dung chương 2 tập trung vào vấn đề thu thập và tiền xử lý dữ liệu Qu
xô hình huần luyện No giúp cho chúng ta có thể giữ lại các đặc trưng,
trình trích chọn đặc trưng rất quan trọng trước khi đưa vào
3.1 Phát biểu bài toán
3.2 Thu thập dữ liệu
2.3 Feature Engineering
Chương 3 Training mô hình và đánh giá kết quả
Sau khi dữ li đã được tiền xử lý trong chương 3, chương 3 trình bày
kết quả training một s mô hình học máy với dữ liệu này Các thuật toán được nhắc lại để hiểu bản chất trong một phần Tùy nhiên, để thực hiện chúng ta có các thư vĩ
trong Seikit learn của Python để gọi hàm
và xử lý Cũng có nhiều thành phần, nhiều hàm phải tư viết để thực
hiện những nhiệm vụ cụ thể, Sau đó, tiến hành dánh giá độ chính xác, phân tích kết quả và đưa ra những dự báo, khuyến nghị Chỉ tiết triển khai gồm có:
3.1 Một số thuật toán lựa chọn training mồ hình
3.1 Training mo hình
3.2 Lata chon va tối ưu hóa tham số mồ hình
3.3 Dánh giá kết quả
Trang 12Dé quá trình chạy không quá rồi với người dùng, em cũng có xây dựng
một giao điện web demo để những phần lập trình và gọi hàm sẽ được
xử lý trong blackbox, người dùng chỉ việc chọn tập test và nhìn kết quả
thiểu sót do năng lực và thời gian hạn chế Em chân thành mong muốn
lắng nghe những đóng góp, góp ý của thầy cô bạn bè đồng nghiệp để luận văn được cải thiện tốt hơn
Em xin chân thành cảm ơn,
Trang 13CHƯƠNG 1
TONG QUAN VE HOC MAY
“Trong chương này, trình bày một số kiến thức tổng quan về học máy,
các khái niệm liên quan đến ứng dụng mô có thể có cơ
sở nghiên ôi dụng san
1.1 Thuật toán học máy
Một thuật toán machine learning là một thuật toán có khả năng học tập từ dữ liệu Theo Mitchell [3], “A computer program is said to learn from experience E with respect to some tasks T and performance measure P, if its performance at tasks in T, as measured by P, improves with experience E”
Dinh nghĩa 1.1.1 Một chương trình máu tính được gọi là “học tập” từ kinh nghiệm I7 để hoàn thành nhiệm vu T tới hiệu quả dược do bằng phép đánh giá P, nếu hiệu quả của nó khi thực hiện nhiệm tụ T, khi được đánh giá bởi P, cải thiện theo kink nghiệm Ï
Lay ví dụ về một chương trình máy tính có khả năng tut choi cờ vây Chương trình này tự học từ các ván cỡ đã chơi trước đó của con người
để tinh toán ra các é thuật hợp lý nhất Mục dích của việc học này
là tạo ra một chương trình
có khả năng giành phần thắng cao Chương trình này cũng có thể tự cải thiện khả năng của mình bằng cách chơi hàng triệu vấn cờ với chính nó Trong vi dụ này, chương trình máy tính
có nh
vụ chơi cỡ vây thông qua kinh nghiệm là các ván cờ đã chơi với chính nó và của con người Phép đánh giá ở đây chính là khả năng, giành chiến thắng của chương trình
Để xây dựng một chương trình máy tính có khả năng học, ta cần
th rõ ba yếu tố: nh em vu, phép đánh giá, và nguồn dữ liệu huấn
6
Trang 14luyện
Tay một chương trình học máy có khả năng dự đoán thành tích học
tập
tủa học sinh như mục tiêu của đề tài luận văn đang giải quyết Máy
tính dựa vào các dữ liệu của các học sinh đã biết thành tích, phân tích
rừng ảnh hưởng đến đầu ra, thực hiện training mo hinh dé có được mồ hình dự đoán trên một mô hình học máy nào đấy để đưa ra kết quả dự đoán Nhiệm vụ ở đây là đưa ra kết quả học tập dư đoán, tù
dữ liệu), kết quả dự đoán được kiểm nghiệm so sánh với kết quả thực
tế của học sinh trên tập dữ liệu test Rồi đánh giá, cải thiên mồ hình 1⁄2 Dữliệu
ác nhiệm vu trong machine learning được mồ tả thông qua vi
hệ thống xử lý một diễm dữ liệu đầu vào như thế nào
Một điểm dữ liệu có thể là một bức ảnh, một đoạn âm thanh, một
văn bản, hoặc một tập các hành vi của người dùng trên Internet Dễ
chương trình máy tính có thể học được, các điểm dữ liệu thường được đưa về dạng tập hợp các con số mà mỗi số được gọi là một đặc trưng (feature)
Có những loại dữ liệu được biểu diễn dưới dang ma trận hoặc mảng
u chiều Một bức ảnh xám có thể được coi là một ma trận mà mỗi
nhỉ
phần tử là giá trị độ sáng của điểm ảnh tương ứng Một bức ảnh màu ba
kênh đỏ, lục, và lam có thể được biểu diễn bởi một mảng ba chiều Trong
Trang 15Tap huấn luyện (training set) bao gồm các điểm dữ liệu đượ
c sit dung trực tiếp trong việc xây dựng mô hình Tap kiém tra (test set) gồm các
dữ liệu được dùng để đánh giá hiệu quả của mô hình Để đảm bảo tính
phổ quát, dữ liệu kiểm tra không được sử dụng trong quá trình xây
dựng mồ hình Diều kiện cần để một mô hình hiệu quả là kết quả đánh giá trên cả tập huấn luyện và tập kiểm tra đều cao Tập kiểm tra đại
dign cho dữ liệu mà mô hình chưa từng thấy, có thể xuất hiện trong quá
trình vận hành mô hình trên thực tế
Một mô hình hoạt động hiệu quả trên tập huấn luyện chưa chắc đã
tập kiểm tra Dễ tăng hiệu quả của mô hình
hoạt động hiệu qua t
ti
nữa được
õn dữ liệu kiểm tra, người ta thường sử dụng một tập ¢
goi là tập zác thực (validation set) Tập xác thực này được sử dụng trong việc lựa chọn các siêu tham số mô hình
Một điểm dữ liệu mà đề tài luận văn đang nghiên cứu là thong tin đầu vào của một học sinh Đó có thể là rất nhiều những thông tin chúng,
ta thu thập được như họ tên, bố mẹ, nghề nghiệp bồ mne, số giờ học tập trong tuần, số giờ đọc sách trung bình Lượng thông tin này cần được
chuẩn hóa thành một véc tơ đặc trưng cho dữ liệu Cá phương pháp
Trang 161.3 Các bài toán cơ bản trong machine learning
Nhiều bài toán phức tạp có thể được giải quyết bằng machine learning
Dưới day là một số bài toán phổ biến [1|
1.8.1 Phân loại
Phân loại (classification) là một trong những bài toán được nghiên
u nhiều nhất trong machine learning Trong bài toán này, chương trình được yêu cầu xác định /ớp//nhãn (class/label) của một điểm dữ
liệu trong số Ở nhãn khác nhau Cặp (dữ li u, nhãn) được ký hiệu là
(x,y) vai nhận một trong C gid tri trong tập đích 3 Trong bài toán
này, ví xây dựng mô hình tương đương với việc dĩ tìm hàm số ƒ ánh
xạ một điểm dữ liệu x vào một phần tử + € 3: = f(x) [1], [2
Ví đụ 1: Bài toán phân loại ảnh chữ số viết tay có mười nhãn là các chữ số từ không đế: chín Trong bài toán này:
« Nhiệm vụ: xác định nhãn của một ảnh chữ số viết tay
® Phép đánh giá: số lượng ảnh được gán nhãn đúng
« Kinh nghiệm: dữ liệu gồm các cặp (ảnh chữ số, nhãn) biết trước
Ví dụ 2: Bài toán phân loại email rác Trong bài toán này:
® Nhiệm vụ: xác một email mới trong hộp thư đến là email rác hay không
® Phép đánh giá: tỉ lệ email rác tìm thấy email thường được xác dink
ding
« Kinh nghiệm: cặp các (email, nhãn) thu thập được
Vi du 3: Bài toán dự đoán thành tích học tập của học sinh cũng có thể nhìn đưới góc độ một bài toán phân loại Dữ liệu (học sinh) được phân về, chẳng hạn một trong 4 loại: Xuất sắc, Giỏi, Khá, Trung bình
9
Trang 17© Nhigm vu: Phan loai một học sinh về một trong các nhóm học tập:
Xuất sắc, gii, khá, trung bình
« Kinh nghiệm: Dữ liệu của hàng ngàn học ảnh đã được phân loại
trước đó Chẳng hạn học sinh hay đọc sách, học nl không nghiện game thi két quả học tập thường tốt Học sinh có bố mẹ bỏ nhan,
ở với Ong ba, choi game nhiều thường học không tét.v.v
® Phép đánh giá: Tỉ lệ phân lớp đúng trên dữ liệu text
Tài toán hồi quy có thể mở rộng ra việc dự doán nhiều đầu ra cùng
moth khi đó, hàm cần tim s8 laf: RR" Mot vi du là bài toán
tạo ảnh độ phân giải cao từ một ảnh có độ phân giải thấp hơn Khi đó, việc dự doán giá trị các điểm trong ảnh dầu ra là một bài toán hồi quy nhiều dau ra (1), (2)
Ví dụ 3: Bai toán dự đoán thành tích họ tập của học sinh cũng là
một bài toán hồi quy Với mỗi dữ liệu đầu vào chưa biết kết quả học
10
Trang 18
tập (là một số thực từ 0.0 dén 10.0 theo thang phẩy học sinh phổ thong Việt Nam, làm tròn đến 2 chữ số sau dấu phẩy.) chúng ta mong muốn xây dựng một mô hình hồi quy để dưa ra điểm phẩy dự đoán của học
Điều này giống với việc yêu cầu một đứa trễ phân cụm các mảnh ghép
với nhiều hình thù và màu sắc khác nhau Mặc dù không cho trẻ biết
minh nao tương ứng với hình nào hoặc màu nào, nhiều khả năng chúng,
vẫn có thể phân loại các mảnh ghép theo màu hoặc hình dạng
Ví dụ 1: Phan cum khách hàng dựa trên hành vi mua hàng Dựa trên việc mua bắn và theo dõi của người dùng trên một trang web thương,
um theo sở thích
xmại điện tử, mô hình có thể phân người dùng vào cí
mua hàng Từ đó, mô hành có thể quảng cáo c mặt hàng mà người
"
Trang 191.3.5 Hoàn thiện dữ liệu - data completion
Một bộ dữ liệu có thể có nh u đặc trưng nhưng việc thu thập đặc
trưng cho từng điểm dữ liệu đôi khi không khả thi Chẳng hạn, một bức
ảnh có thể bị xước khiến nhiều điểm ảnh bị mất hay thông tin về tuổi
của một số khách hàng không thu thập được Hoan thiện đỡ liệu (data
on thiếu đó Nhi
completion) là bài toán dự đoán các trường dữ liệu
vụ của bài toán này là dựa trên mối tương quan giữa các điểm dữ liệu
để dự doán những giá trị còn thiếu Các hệ thống khuyến nghị là một
1.4 Phân nhóm các thuật toán machine learning
Dựa trên tính chất của tập dữ huật toán machine learning
có thể được phân thành hai nhóm chính là học có giám sát và hoc không giám sát Ngoài ra, có hai nhóm thuật toán khác gây nhiều chú ý trong,
“
Trang 20thời gian gin day là học bán giám sát và học củng cố ||
LAA Học có giám sit
Một thuật toán machine learning được gọi là học có giám sát (super- vised learning) nếu việc xây dựng mô hình dự đoán mối quan hệ giữa đầu vào và đầu ra được thực hiện dựa trên các cặp (đầu vào, đầu ra) đã biết trong tập huần luyện Dây là nhóm thuật toán phổ biến nhất trong
dịch Anh - Việt được thự
hiện dựa trên hàng triệu cặp văn bản Anh
ng nói thuật toán này là họ
Cách huấn luyện mô hình học máy như trên tương tư với cách dạy học sau đây của con người Ban đầu, cô giáo đưa các bức ảnh chứa c
số cho một đứa trẻ và chỉ ra đâu là chữ số không, đầu là chữ số một,
Diễn giải theo toán học, học có giám sắt xảy ra khi việc dự đoán quan
hệ giữa đầu ra y và dữ liệu đầu vào x được thực hiện dựa trên các cặp
{(Xi,y), (Xa, Y2), ., (Xx, V)} trong tap huấn luyện Việc huấn luyện
là việc xây dựng một hàm số ƒ sao cho với mọi ¿ = 1,3, , N, ƒ(X) gần với y; nhất có thể Ilơn thế nữa, khi có một điểm dữ liệu x nằm
ry
Trang 21
Các thuật toán giải quyết bài toán phân cụm và giảm chiều dữ liệ
là các ví dụ điển hình của nhóm này Trong bài toán phân cụm, có thể
xô hình không trực tiếp dự doán được dầu ra của dữ liệu nhưng vẫn có
của một bức ảnh mới Dứa trẻ có thể tự thực
Ranh giới giữa học có giám sát và học không giám sát đối khi không
ö ràng Có những thuật toán mà tập huấn luyện bao gồm các cặp (đầu vào, dầu ra) và dữ liệu khác chỉ có đầu vào Những thuật toán này được
goi là học bán giám sát (semi-supervised learning)
“
Trang 22Xét mot bai toán phân loại mà tập huấn luyện bao gồm các bức ảnh được gán nhãn 'chó' hoặc mèo" và rất nhiều bức ảnh thú cưng tải từ Tnternet chưa có nhãn Thực tế cho thấy ngày càng nhiều thuật toán
rơi vào nhóm này vì việc thu thập nhãn cho dữ liệ có chỉ phí cao và tồn thời gian Chẳng hạn, chỉ một phần nhỏ trong các bức ảnh y học
hành vi Nhóm các thuật toán này có tên học củng cố (reinforcement learning)
Ví du 1: Gần đây, AlphaGo trở nên
ï tiếng với việc chơi cờ vậy
'Về cơ bản, AlphaQo bao gồm các thuật toán thuộc cả học có giảm sát
và học cũng có Trong phần học có giám sát, dữ liệu từ các ván cờ do
con người chơi với nhau được đưa vào để huấn luyện Tùy nhiền, mục
đích cuối ng của AlphaGo không dừng lại ở việc chơi như con người
15
Trang 23
ma tham chi phải thắng cả con người Vì vậy, sau khi học xong,
cờ của con người, AlphaGo tư chơi với chính nó qua hàng triệu van cờ
để tìm ra các mide di tối ưu hơn 'Thuật toán trong phần tư chơi
được xếp vào loại học cũng cổ
Gan day, Google DeepMind đã tiền thêm một bước đáng kể với Al-
phaGo Zero Hệ thống này thậm chí không cần học từ các vấn cờ
con người Nó có thể tự chơi với chính mình để tìm ra các chiến thuật
tối ưu Sau 40 ngày được huấn luyện, nó đã thắng tất cả con người
có định) Đầu vào của là sơ đồ của màn
h tại thời điểm hiệ
tại, nhiệm vụ ịa thuật toán là tìm tổ hợp phím
được bấm với mỗi đầu vào
Việc ấn luyện một thuật toán học củng cố thông thường dựa trên
một đại lượng được gọi là điểm thưởng (reward) Mô hình cần tìm ra
mot thnat toán tối đa điểm thưởng đó qua rất nhiều lần chơi khác nhan
“Trong trò chơi cờ vây, điểm thưởng có thể là số lượng ván thắng Trong trò chơi Mario, diém thưởng được xác định dựa trên quãng đường nhân vat Mario đĩ được và thời gian hoàn thành quãng đường đó Diễm thưởng,
này không phải là điểm của trò chơi mà là điểm do chính người lập trình
tao ra
6
Trang 241.5 Hàm mất mát và tham số mô hình
Mỗi mô hình machine learning được mô tả bởi bộ các tham số mmô hành
(model parameter) Công việc của một thuật toán machine learning là
di tâm các tham số mô hình tối ưu cho mỗi bài toán Việc di tim các tham số mô hình có liên quan mật thiết đến các phép đánh giá Mục đích chính là đi c tham s
tả thông qua một hàm số goi JA ham mét mét (loss function hoặc cost fanetion) Hàm số này thường có giá trị nhỏ khi phép đánh giá cho kết
‘Tap hợp các tham số mô hình được ký hiệu bằng Ø, hàm mất mát
của mô hình được ký hiệu là £(0) hoặc J(0) Bài toán di tìm tham số
mô hình tương đương với bài toán tối thiểu hàm mắt mat:
được tối ưu Biến số này cần được chỉ rõ, trừ khi hàm mất mát chỉ phụ thuộc vào một biển duy nhất Ký hiệu argmax cũng được sử dụng một cách tương tự khi cần tìm giá trị của các biến số để hàm số đạt giá trị
ữ
Trang 25số này doi khi không khả thỉ Trong các bài toán tối ưu thực chỉ
cần tầm ra một bộ tham số Ø khiến hàm mắt mát đạt giá trị nhỏ nhất
Trang 26thuật toán vào xử lý d
2.1 Phát biểu bài toán
Dựa trên những dữ liệu dã được thu thập về sự ảnh hưởng của nhiều
yến tổ đến kết quả học tập, ủa học sinh, xây dựng mô hình họ ¿ mấy có
thể đưa ra dự đoán về một học sinh có véc tơ dữ liệu cho trước sẽ có kết
quả học tập như thế nào? Từ đó có thể tư vấn cho học sinh sinh viên
Phép đánh giá P: O day là các phép đánh giá về độ chính xác của các
mô hình học máy, độ liên quan của các thuộc tính với đầu ra, các kỹ thuật đánh giá mồ hi th học máy
Một số kỹ thuật Feature Engineering duge sử dụng dễ trí
trưng của dữ liệu [1]
1 Trực tiếp lầy dữ liệu th
2 Lita chọn đặc trưng
19
Trang 272.2 Thu thập dữ liệu
“Thu thập dữ liệu là công việc rất quan trong, vì không có dữ liệu
thi không thể xây dựng được mô hình Thông qua tìm hiểu cá nhãn và
trực tiếp được thực hiện với hơn 500 học sinh các khóa 19 (
2017-2020), 20 (niên khóa 2018-2021) và 21 (niên khóa 2019-2022) tại trường THIPT Lương Thế Vinh - Cẩm Phả - Quảng Ninh để đưa ra mối liên hệ và dự đoán Phiếu khảo sát được thực hiện theo mẫu như hình
4 Bí quan - Thái độ sống, lạc quan tích cực hay tiêu cực, bi quan
5 Học thêm - Có học thêm hay không
6 Người yêu - Có người yên, bạn khác giới hay không
Trang 28
Minh 2.1: Phi Kio st thing tin
‘Minh 22: Phi Kho sit sing tn (8p)
a
Trang 2910 Thời gian ở trường
11 Hút thuốc - Có
t thuốc hay không
12, Uống rượu - Lượng mÌ rượu uồng trong tuần
13 Uống chè - Có thói quen uống chè không
14 Thời gian rảnh- Thời gian tính giờ trên tuần
18 Thời gian chơi game - Giờ trên tuẫn
16 Thời gian thể thao- Giờ trên tuần
ch - Giờ trên tuần,
biểu diễn bằng một vector được gọi là vector date trưng (feature vector)
|| Trong cùng một mô hình, các vector đặc trưng của các điểm thường
Trang 30
‘Minh 3⁄4: Một số thuộc tính (b)
phép toán với ma trận và vector, các phép toán này yêu cầu dữ liệu
có chiều phù hợp Tuy nhiê thực tế thu thập được ở dạng thô với kích thước khác nhau, một số trường dữ liệu thiếu, một số dư thừa
nh 36: Một số thuộc tính (Q.
Trang 31
Tước này nằm trong quan hệ tổng thể của một mồ hình học máy cơ
bản được ninh hoạc như hình 2.6 [1]
a] metic dm |_| eon | pins,
1 tric to dig aca) nhên bại,
bài), có thể ngắn có thể dài (nhiều bạn khai đủ, một số