ĐỒ ÁN PHÂN TÍCH VÀ CẢNH BÁO XU HƯỚNG HỌC TẬP CỦA SINH VIÊN

Giới thiệu chung

Trong bài toán phân lớp với nhiều lớp C khác nhau, thay vì xác định chính xác nhãn của mỗi điểm dữ liệu x ∈ X, chúng ta có thể tìm kiếm xác suất mà đầu ra thuộc về mỗi lớp: p(y = c|x), hay viết gọn là p(c|x) Biểu thức này thể hiện xác suất để đầu ra là lớp c, với điều kiện đầu vào là vector x Nếu xác suất này được tính toán, chúng ta có thể xác định lớp của mỗi điểm dữ liệu bằng cách chọn lớp có xác suất cao nhất.

Biểu thức trong dấu argmax ở = (3.1.1) nhìn chung khó có cách tính trực tiếp Thay vào đó, quy tắc Bayes thường được sử dụng:

Dấu bằng thứ hai trong quy tắc Bayes thể hiện rằng p(x) trong mẫu số không phụ thuộc vào c Xác suất p(c) được hiểu là khả năng một điểm bất kỳ thuộc về class c Đối với tập huấn luyện lớn, p(c) có thể được xác định qua maximum likelihood estimation (MLE), tức là tỷ lệ giữa số điểm thuộc class c và tổng số điểm trong tập huấn luyện Ngược lại, với tập huấn luyện nhỏ, giá trị này thường được ước lượng bằng maximum a posteriori (MAP), tuy nhiên MLE thường được ưa chuộng hơn trong thực tiễn.

Phân phối của các điểm dữ liệu trong lớp c, ký hiệu là p(x|c), thường khó tính toán do x là biến ngẫu nhiên nhiều chiều Để ước lượng phân phối này, cần có một tập huấn luyện lớn Để đơn giản hóa tính toán, người ta thường giả định rằng các thành phần của biến ngẫu nhiên x là độc lập với nhau khi đã biết lớp c.

Giả thiết rằng các chiều dữ liệu độc lập với nhau thường quá chặt chẽ và hiếm khi tìm thấy dữ liệu với các thành phần hoàn toàn độc lập Tuy nhiên, giả thiết ngây thơ này, được gọi là naive Bayes, đôi khi mang lại kết quả tốt bất ngờ Phương pháp xác định nhãn cho dữ liệu dựa trên giả thiết này được gọi là naive Bayes classifier (NBC).

NBC, với sự đơn giản và hiệu quả, có tốc độ huấn luyện và kiểm thử nhanh chóng, giúp nó đạt hiệu quả cao trong các bài toán quy mô lớn Trong quá trình huấn luyện, các phân phối p(c) và p(xi|c), với i = 1, , d, được xác định dựa trên dữ liệu huấn luyện, có thể thông qua MLE hoặc MAP Khi kiểm thử, nhãn của một điểm dữ liệu mới x sẽ được xác định.

Khi d lớn và các xác suất nhỏ, biểu thức bên phải của (3.1.4) trở thành một số rất nhỏ, dẫn đến khả năng gặp sai số trong tính toán Để khắc phục vấn đề này, (3.1.4) thường được diễn đạt lại dưới dạng tương đương bằng cách sử dụng log của vế phải.

Việc này không ảnh hưởng tới kết quả vì log là một hàm đồng biến trên tập các số dương

Sự đơn giản của Naive Bayes Classifier (NBC) mang lại hiệu quả cao trong các bài toán phân loại văn bản, như lọc tin nhắn và email rác Trong phần tiếp theo, chúng ta sẽ xây dựng một bộ lọc email rác tiếng Anh đơn giản Quá trình huấn luyện và kiểm thử của NBC diễn ra nhanh chóng hơn so với các phương pháp phân loại phức tạp khác Giả định rằng các thành phần trong dữ liệu là độc lập giúp giảm thiểu thời gian tính toán cho mỗi phân phối p(xi|c).

Việc tính toán p(xi|c) phụ thuộc vào loại dữ liệu, và có ba loại phân bố xác suất phổ biến là Gaussian naive Bayes, multinomial naive Bayes và Bernoulli Naive Hãy cùng tìm hiểu chi tiết về từng loại phân bố này.

Các phân phối thường dùng trong NBC

Mô hình này chủ yếu áp dụng cho dữ liệu có các biến liên tục Đối với mỗi chiều dữ liệu i và một lớp c, các biến này tuân theo phân phối chuẩn với kỳ vọng μc và phương sai σc².

Trong đó, bộ tham số θ = { ��, �� 2}được xác định bằng MLE dựa trên các điểm trong training set thuộc class c

Mô hình phân loại văn bản này dựa trên phương pháp bag of words (BoW), trong đó mỗi văn bản được biểu diễn bằng một vector có độ dài tương ứng với số từ trong từ điển Giá trị của mỗi thành phần trong vector phản ánh số lần xuất hiện của từ đó trong văn bản Do đó, xác suất p(xi|c) tỉ lệ với tần suất xuất hiện của từ thứ i trong các văn bản thuộc lớp c.

Giá trị này có thể được tính bằng

Tổng số lần từ thứ i xuất hiện trong các văn bản của lớp c, ký hiệu là ��, chính là tổng của tất cả các đặc trưng thứ i của các vector đặc trưng ứng với lớp c Trong khi đó, tổng số từ (bao gồm cả lặp) xuất hiện trong lớp c, ký hiệu là ��, được tính bằng tổng độ dài của toàn bộ các văn bản thuộc lớp c Do đó, có thể suy ra rằng �� = ∑.

�� =1 = 1 Ở đây d là số từ trong từ điển

Cách tính này có hạn chế khi gặp từ mới chưa xuất hiện trong class c, khiến biểu thức (3.1.7) bằng không và làm cho vế phải của (3.1.4) cũng bằng không, bất kể giá trị còn lại Để khắc phục vấn đề này, kỹ thuật Laplace smoothing được áp dụng.

(công thức 3.1.8) với α là một số dương, thường bằng 1, để tránh trường hợp tử số bằng không Mẫu số được cộng với dα để đảm bảo tổng xác suất ∑ �� ̂ ��

�� =1 = 1 Như vậy, mỗi class c sẽ được mô tả bởi một bộ các số dương có tổng bằng 1: ��̂ �� = { �� ̂ ��1,

Mô hình này áp dụng cho dữ liệu nhị phân, trong đó mỗi thành phần chỉ có giá trị 0 hoặc 1 Ví dụ, trong văn bản, thay vì đếm tổng số lần xuất hiện của một từ, ta chỉ cần xác định xem từ đó có xuất hiện hay không Trong trường hợp này, p(xi |c) được tính dựa trên sự hiện diện của từ trong văn bản.

(công thức 3.1.9) với p(i|c) có thể được hiểu là xác suất từ thứ i xuất hiện trong các văn bản của class c.

Ví dụ

Trong tập huấn luyện, các văn bản d1, d2, d3, d4 được phân loại thành hai lớp: B (Bắc) và N (Nam) Dựa vào thông tin từ các văn bản này, cần xác định lớp cho văn bản d5.

Ví dụ về nội dung của các văn bản trong bài toán Bắc hay Nam

Ta có thể dự đoán rằng d5 thuộc class Bắc

Bài toán này có thể được giải quyết bằng cách sử dụng mô hình Naive Bayes, bao gồm multinomial Naive Bayes và Bernoulli Naive Bayes Chúng ta sẽ thực hiện ví dụ với mô hình multinomial và triển khai mã cho cả hai loại mô hình Hiệu quả của mỗi mô hình phụ thuộc vào từng bài toán cụ thể, vì vậy chúng ta nên thử nghiệm cả hai để xác định mô hình nào hoạt động tốt hơn.

Nhận thấy rằng ở đây có hai lớp B và N, ta cần đi tìm p(B) và p(N) dựa trên tần số xuất hiện của mỗi class trong tập training Ta sẽ có

Tổng cộng số phần tử trong từ điển là |V | = 9

Hình 3.1.1 minh họa quy trình huấn luyện và kiểm thử cho bài toán sử dụng Multinomial Naive Bayes, trong đó áp dụng Laplace smoothing với α Cần lưu ý rằng hai giá trị 1.5 × 10^−4 và 1.75 × 10^−5 không phải là xác suất cần tìm, mà chỉ là hai đại lượng tỷ lệ thuận với xác suất đó Để tính toán cụ thể, chúng ta có thể thực hiện các bước sau.

Xác suất để d5 thuộc vào class B là 89.55%, trong khi xác suất thuộc class N là 10.45% Độc giả có thể tự tính toán với ví dụ khác như d6 = pho hutiu banhbo Nếu thực hiện đúng các phép tính, chúng ta sẽ kết luận rằng d6 thuộc về class N.

Hình 3.1.1: Minh hoạ NBC với Multinomial naive Bayes cho bài toán Bắc hay

Nhận xét thêm

➢ Naive Bayes classifiers có thời gian huấn luyện và kiểm thử rất nhanh Điều này có được là do giả sử về tính độc lập giữa các thành phần

If the assumption of independence is satisfied based on the nature of the data, Naive Bayes classifiers are believed to outperform support vector machines and logistic regression when there is a limited amount of training data.

Các bộ phân loại Naive Bayes có khả năng xử lý các vector đặc trưng bao gồm cả phần liên tục (thông qua Gaussian Naive Bayes) và phần rời rạc (sử dụng Multinomial hoặc Bernoulli) Sự độc lập giữa các đặc trưng là yếu tố chính giúp Naive Bayes hoạt động hiệu quả trong các tình huống này.

➢ Naive Bayes classifiers thường được sử dụng trong các bài toán phân loại văn bản.

➢ Khi sử dụng Multinomial Naive Bayes, Laplace smoothing thường được sử dụng để tránh trường hợp một từ trong dữ liệu kiểm thử chưa xuất hiện trong training set.

Bayesian Network

Mạng Bayes (tiếng Anh: Bayesian network hoặc Bayesian belief network hoặc belief network) là một mô hình xác suất dạng đồ thị

Mạng Bayes được biểu diễn bằng đồ thị, trong đó các nút tượng trưng cho các biến và các cung thể hiện các phụ thuộc có điều kiện Cấu trúc đồ thị xác định phân phối xác suất có điều kiện của các biến, dẫn đến các mô hình dễ hiểu và các thuật toán học tập cũng như suy luận hiệu quả Các nút trong mạng có thể đại diện cho nhiều loại biến khác nhau, bao gồm tham số đo được, biến ẩn hoặc giả thuyết, không chỉ giới hạn ở các biến ngẫu nhiên.

Một mạng Bayes là một đồ thị có hướng phi chu trình mà trong đó:

• Các nút biểu diễn các biến

Các cung trong mô hình biểu diễn các mối quan hệ phụ thuộc thống kê giữa các biến, đồng thời cung cấp phân phối xác suất địa phương cho mỗi giá trị khi biết giá trị của các biến cha.

Trong một mạng đồ thị, nếu tồn tại một cung từ nút A tới nút B, thì biến B sẽ phụ thuộc trực tiếp vào biến A, với A được gọi là cha của B Đối với mỗi biến Xi, i ∈ {1, ,N}, tập hợp các biến cha được ký hiệu là parents(Xi) Do đó, phân phối có điều kiện của các biến sẽ được xác định bằng tích của các phân phối địa phương.

Nếu Xi không có cha, phân phối xác suất địa phương của nó được coi là không có điều kiện; ngược lại, nếu có cha, nó sẽ là có điều kiện Khi biến được biểu diễn bởi một nút quan sát, nút đó được gọi là nút hiển nhiên (evidence node).

Các câu hỏi về sự phụ thuộc không tương đẳng giữa các biến có thể được giải quyết thông qua việc nghiên cứu đồ thị Tính độc lập có điều kiện trong đồ thị được thể hiện qua tính chất d-separation: hai nút X và Y được coi là d-separated khi và chỉ khi chúng độc lập, với điều kiện là biết trước các biến hiển nhiên tương ứng Markov blanket của X xác định tập hợp tất cả các nút khác mà X có thể phụ thuộc trực tiếp.

Một trong những lợi ích nổi bật của mạng Bayes là khả năng trực quan hóa, giúp con người dễ dàng hiểu các mối quan hệ phụ thuộc trực tiếp và các phân phối địa phương, thay vì phải đối mặt với các phân phối có điều kiện phụ thuộc hoàn chỉnh phức tạp.

Cỏ ướt có thể do hai nguyên nhân chính: tưới nước từ vòi phun hoặc mưa Tình huống này có thể được mô hình hóa bằng mạng Bayes, trong đó các biến có hai trạng thái: đúng (T) và sai (F) Hàm xác suất phụ thuộc có điều kiện sẽ giúp phân tích mối quan hệ giữa các yếu tố này.

Pr(GRASSWET,SPRINKLER,RAIN) = Pr(GRASSWET |

SPRINKLER,RAIN).Pr(SPRINKLER | RAIN).Pr(RAIN)

Mô hình này có khả năng trả lời các câu hỏi như "Nếu cỏ ướt thì khả năng trời mưa là bao nhiêu?" bằng cách áp dụng các công thức xác suất có điều kiện và tổng hợp tất cả các biến trở ngại.

Thay thế các giá trị số, ta được Pr(RAIN=T | GRASSWET=T) = 891/2491 ≈ 35.77%

Mạng Bayes nhân quả là một loại mạng Bayes, trong đó các cung có hướng được hiểu là các quan hệ nhân quả trong một miền xác định Mặc dù các cung có hướng không nhất thiết phải phản ánh quan hệ nhân quả, nhưng kiến thức về các mối quan hệ này thường được sử dụng để hướng dẫn việc xây dựng đồ thị mạng Bayes, dẫn đến việc hình thành các mạng Bayes nhân quả.

Trong trường hợp đơn giản, một mạng Bayes được tạo ra bởi chuyên gia để thực hiện suy luận Tuy nhiên, trong nhiều ứng dụng, việc xây dựng mạng trở nên quá phức tạp cho con người Do đó, cấu trúc và các tham số của mạng cần được học từ dữ liệu để đảm bảo tính chính xác và hiệu quả.

Học cấu trúc mạng Bayes là một phần quan trọng trong học máy, với giả thiết rằng dữ liệu được sinh ra từ mạng Bayes và tất cả các biến đều thấy được trong mọi lần lặp Để tối ưu hóa cấu trúc mạng, phương pháp tìm kiếm cần được áp dụng, yêu cầu một hàm tính điểm và chiến lược tìm kiếm Xác suất hậu nghiệm của cấu trúc khi có dữ liệu huấn luyện là một hàm tính điểm phổ biến Tuy nhiên, quá trình tìm kiếm toàn bộ để tìm cấu trúc tối ưu có thể tốn thời gian siêu lũy thừa theo số lượng biến Do đó, chiến lược tìm kiếm địa phương thường được sử dụng để thực hiện các thay đổi dần dần nhằm nâng cao điểm số của cấu trúc.

Thuật toán tìm kiếm toàn cục, chẳng hạn như Phương pháp Monte Carlo xích Markov, có khả năng vượt qua các bẫy trong những cực tiểu địa phương.

3.3.6 Học tham số Để cụ thể hóa mạng Bayes và biểu diễn đầy đủ các phân bố xác suất phụ thuộc có điều kiện, đối với mỗi biến X, cần phải chỉ ra phân bố xác suất X theo các cha của X Phân bố của X theo các cha của nó có thể có hình thức bất kỳ Người ta thường dùng các phân bố rời rạc hay phân bố Gauss, do các phân bố này làm đơn giản việc tính toán. Đôi khi, khi chỉ biết được các ràng buộc của các phân số; người ta có thể dùng nguyên lý entropy cực đại để xác định một phân bố đơn, phân bố với entropy cực đại thỏa mãn các ràng buộc đó (Tương tự, trong ngữ cảnh cụ thẻ của một mạng Bayes động, người

Trong nghiên cứu về sự phát triển theo thời gian của trạng thái ẩn, việc sử dụng phân bố có điều kiện là rất quan trọng để tối ưu hóa hệ số entropy (tốc độ entropy) của quá trình ngẫu nhiên.

Các phân bố có điều kiện thường chứa các tham số chưa biết cần ước lượng từ dữ liệu, thường thông qua phương pháp cực đại hóa khả năng Việc này trở nên phức tạp khi có các biến không quan sát, và thuật toán cực đại hóa kỳ vọng là một giải pháp truyền thống, luân phiên giữa việc tính toán giá trị mong đợi của các biến này và cực đại hóa khả năng hoàn chỉnh Dưới các điều kiện quy định, quá trình này sẽ hội tụ về các giá trị khả năng cực đại cho các tham số Một phương pháp Bayes đầy đủ hơn coi các tham số là biến không quan sát và tính phân bố hậu nghiệm trên toàn bộ các nút, nhưng phương pháp này có thể tốn kém và dẫn đến mô hình phức tạp, do đó các phương pháp truyền thống thường được ưu tiên sử dụng trong thực tế.

Decision tree

Khi kỳ thi sắp đến, một sinh viên đã tự đặt ra quy tắc cho việc học và chơi Nếu còn hơn hai ngày đến ngày thi, cậu sẽ đi chơi Nếu còn không quá hai ngày và có trận bóng đá vào đêm hôm đó, cậu sẽ sang nhà bạn để xem bóng Trong các trường hợp còn lại, cậu sẽ chọn học Quyết định của cậu được thể hiện qua sơ đồ trong Hình 1, trong đó hình ellipse nền vàng biểu thị quyết định cần đưa ra, phụ thuộc vào câu trả lời của các câu hỏi trong ô hình chữ nhật màu xám Dựa trên những câu trả lời này, quyết định cuối cùng sẽ là chơi (hình tròn màu lục) hoặc học (hình tròn màu đỏ) Sơ đồ này được gọi là cây quyết định.

Hình 3.3.1 Ví dụ về việc ra quyết định dựa trên các câu hỏi.

Quan sát, suy nghĩ và ra quyết định của con người thường bắt đầu từ các câu hỏi, tương tự như mô hình ra quyết định trong machine learning Mô hình này được gọi là cây quyết định (decision tree).

Hình 3.3.2 Ví dụ về bài toán phân lớp sử dụng decision tree

Trong ví dụ trên Hình 3.3.2 a, chúng ta có hai lớp màu lục và đỏ trong không gian hai chiều và nhiệm vụ là tìm ranh giới phân chia hai lớp này Đây là một bài toán phân loại (classification) yêu cầu xây dựng bộ phân lớp để xác định lớp của một điểm dữ liệu mới Quan sát hình, ranh giới cho hai lớp là các đường song song với các trục tọa độ Nếu thành phần thứ nhất x1 nhỏ hơn ngưỡng t1, điểm đó thuộc lớp lục; nếu thành phần thứ hai x2 lớn hơn ngưỡng t2, điểm cũng thuộc lớp lục Ngược lại, nếu x1 lớn hơn ngưỡng t3, điểm vẫn thuộc lớp lục Các điểm không thỏa mãn các điều kiện trên sẽ được xếp vào lớp đỏ Quy trình ra quyết định về lớp của một điểm được mô tả trên cây quyết định trong Hình 3.3.2 b.

Trong cây quyết định, các ô màu xám, lục và đỏ được gọi là các node, trong đó node lá (leaf node) thể hiện đầu ra và node không lá (non-leaf node) thể hiện câu hỏi Node không lá trên cùng, hay còn gọi là node gốc (root node), thường có hai hoặc nhiều node con (child node), có thể là leaf node hoặc non-leaf node khác Các child node có cùng một bố mẹ được gọi là sibling node Nếu tất cả các non-leaf node chỉ có hai child node, cây quyết định được gọi là cây quyết định nhị phân (binary decision tree), trong đó các câu hỏi đều có thể được diễn đạt dưới dạng đúng hoặc sai Các cây quyết định với một leaf node có nhiều child node cũng có thể chuyển đổi thành cây quyết định nhị phân, vì hầu hết các câu hỏi đều có thể được cấu trúc thành câu hỏi đúng sai.

Chúng ta có thể xác định tuổi của một người thông qua các câu hỏi đúng sai, chẳng hạn như: "Tuổi của bạn lớn hơn xx, đúng không?" Phương pháp này tương tự như thuật toán tìm kiếm nhị phân (binary search).

Decision tree là mô hình học có giám sát, được sử dụng cho cả bài toán phân loại và hồi quy Quá trình xây dựng decision tree từ dữ liệu huấn luyện bao gồm việc xác định các câu hỏi và thứ tự của chúng Mô hình này có khả năng làm việc với các thuộc tính dạng phân loại (categorical), thường là rời rạc và không có thứ tự như mưa, nắng hay xanh, đỏ Ngoài ra, decision tree cũng xử lý tốt dữ liệu có vector đặc trưng bao gồm cả thuộc tính phân loại và liên tục (numeric), và đặc biệt ít yêu cầu việc chuẩn hóa dữ liệu.

Quay trở lại với nhiệm vụ chính của việc xây dựng cây quyết định, việc thiết kế các câu hỏi là rất quan trọng Các câu hỏi này cần được xây dựng một cách logic và có thứ tự hợp lý, thường áp dụng cho từng thuộc tính hoặc một tổ hợp tuyến tính của các thuộc tính.

Có hai cách để áp dụng các thuộc tính trong phân tích dữ liệu Cách thứ nhất, thường được sử dụng hơn do tính đơn giản, là áp dụng lên từng thuộc tính riêng lẻ Đối với các thuộc tính phân loại (categorical), câu hỏi thường gặp là "Nó thuộc về danh mục nào?" hoặc "Nó có thuộc về danh mục nào không?" trong trường hợp nhị phân Còn đối với các thuộc tính liên tục, câu hỏi có thể là "Nó nằm trong khoảng giá trị nào?" hoặc "Nó có lớn hơn một ngưỡng nhất định không?"

ID3 is a decision tree algorithm used for classification tasks where all attributes are categorical In the next article, we will explore another algorithm called Classification and Regression Tree (CART), which can be applied to both classification and regression problems, handling both categorical and continuous attributes.

3.3.2 Minh họa ới các bài toán có nhiều thuộc tính và mỗi thuộc tính có nhiều giá trị khác nhau, việc tìm được nghiệm tối ưu thường là không khả thi Thay vào đó, một phương pháp đơn giản thường được sử dụng là tại mỗi bước, một thuộc tính tốt nhất sẽ được chọn ra dựa trên một tiêu chuẩn nào đó (chúng ta sẽ bàn sớm) Với mỗi thuộc tính được chọn, ta chia dữ liệu vào các child node tương ứng với các giá trị của thuộc tính đó rồi tiếp tục áp dụng phương pháp này cho mỗi child node Việc chọn ra thuộc tính tốt nhất ở mỗi bước như thế này được gọi là cách chọn greedy (tham lam) Cách chọn này có thể không phải là tối ưu, nhưng trực giác cho chúng ta thấy rằng cách làm này sẽ gần với cách làm tối ưu Ngoài ra, cách làm này khiến cho bài toán cần giải quyết trở nên đơn giản hơn

Sau mỗi câu hỏi, dữ liệu được phân chia thành các child node tương ứng với các câu trả lời Câu hỏi đóng vai trò là thuộc tính, trong khi câu trả lời là giá trị của thuộc tính đó Để đánh giá chất lượng của việc phân chia này, cần xác định một phép đo thích hợp.

Một phép phân chia tốt là khi dữ liệu trong mỗi nút con hoàn toàn thuộc về một lớp cụ thể.

Child node được xem là leaf node khi không cần phân chia thêm Nếu dữ liệu trong các child node vẫn còn lẫn lộn, điều đó cho thấy phép phân chia chưa đạt hiệu quả Do đó, cần có một hàm đo độ tinh khiết (purity) hoặc độ vẩn đục (impurity) để đánh giá chất lượng phân chia Hàm này sẽ cho giá trị thấp nhất khi dữ liệu trong mỗi child node thuộc cùng một lớp, và giá trị cao khi các child node chứa dữ liệu từ nhiều lớp khác nhau.

Một hàm số có các đặc điểm này và được dùng nhiều trong lý thuyết thông tin là hàm entropy

Chọn một phân phối xác suất cho biến rời rạc xx có n giá trị khác nhau x1, x2, …, xn Xác suất để xx nhận các giá trị này được biểu diễn bằng pi = p(x = xi).

0 ≤ �� ≤ 1, ∑ �� = 1 �� =1 Ký hiệu phân phối này là p=(p1,p2,…,pn) Entropy của phân phối này được định nghĩa là

Công thức 3.3.1 sử dụng logarit tự nhiên (loglog), mặc dù một số tài liệu có thể sử dụng logarit cơ số 2 Tuy nhiên, giá trị của H(p) chỉ khác biệt bằng cách nhân với một hằng số.

Bagging With Random Forest

Random Forest is one of the most popular and powerful machine learning algorithms It falls under the category of ensemble machine learning techniques, specifically known as Bootstrap Aggregation (Bagging).

Trước khi tìm hiểu về thuật toán chính, chúng ta cần xem xét thuật toán cơ bản quan trọng là Bootstrap Bootstrap là một phương pháp thống kê mạnh mẽ giúp ước lượng số lượng từ trong một mẫu dữ liệu.

Giả sử chúng ta có một mẫu dữ liệu gồm 100 giá trị và mục tiêu là tính giá trị trung bình của mẫu đó Để thực hiện việc này, chúng ta có thể áp dụng công thức tính trung bình trực tiếp từ các giá trị trong mẫu.

Chúng ta nhận thức rằng kích thước mẫu của chúng ta còn nhỏ và ước tính giá trị trung bình có thể không chính xác Để cải thiện độ chính xác của ước tính này, chúng ta có thể áp dụng các phương pháp thống kê phù hợp.

▪ Tạo nhiều mẫu phụ ngẫu nhiên (vd: 1000 mẫu) của tập dữ liệu (có thể chọn cùng một giá trị nhiều lần)

▪ Tính giá trị trung bình của từng mẫu phụ

▪ Tính trung bình tất cả các giá trị trung bình thu thập được và lấy làm ước tính trung bình cho dữ liệu

Giả sử có ba mẫu với các giá trị trung bình lần lượt là 2.3, 4.5 và 3.3 Khi tính trung bình của các giá trị này, chúng ta nhận được giá trị trung bình mới là 3.367.

Bootstrap Aggregation (Bagging), là một phương pháp kết hợp (ensemble) được thiết kế để tăng độ ổn định và chính xác cho thuật toán học máy Đây là

Kỹ thuật kết hợp dự đoán từ nhiều mô hình học máy giúp tăng độ chính xác so với từng mô hình riêng lẻ, giảm phương sai cho các thuật toán có độ biến thiên cao và ngăn ngừa tình trạng quá khớp (overfitting) Cây quyết định là một ví dụ điển hình thường được áp dụng trong phân loại và hồi quy.

Random forest là một phương pháp học máy tiên tiến, cải tiến từ kỹ thuật bagging Nó sử dụng hàng trăm cây quyết định, mỗi cây được xây dựng ngẫu nhiên bằng cách tái chọn mẫu từ dữ liệu và ngẫu nhiên hóa các đặc trưng Phương pháp này giúp nâng cao độ chính xác và khả năng tổng quát của mô hình.

Khi Huyên quyết định đi phẫu thuật thẩm mỹ, cô cần cân nhắc lựa chọn giữa việc thực hiện tại spa hay trung tâm thẩm mỹ nào phù hợp nhất với nhu cầu và mong muốn của mình.

Để trả lời 40 câu hỏi, Huyên cần tham khảo nhiều nguồn thông tin khác nhau như bạn bè, bộ phận tư vấn CSKH, internet và các đánh giá Mỗi ý kiến sẽ đóng vai trò như một Cây quyết định, giúp Huyên giải đáp các thắc mắc về uy tín, chi phí và chất lượng dịch vụ khách hàng Sau khi thu thập được các câu trả lời, Huyên sẽ lựa chọn phương án tốt nhất Random Forest hoạt động bằng cách đánh giá các Cây quyết định thông qua phương pháp bỏ phiếu để đưa ra kết quả cuối cùng.

Random Forest is a supervised learning method that effectively addresses classification and regression problems.

Thuật toán này được áp dụng rộng rãi trong nhiều lĩnh vực như ngân hàng, dược phẩm, chứng khoán và thương mại điện tử, nhằm tìm kiếm khách hàng tiềm năng cũng như phát hiện khách hàng lừa đảo.

Giả sử ta có một tập huấn luyện X=x1,x2, ,x_n Ta bagging nhiều lần (B cây quyết định) Mỗi lần ta sẽ chọn ngẫu nhiên m mẫu dữ liệu từ tập huấn luyện X.

Và xây dựng các cây quyết định dựa trên m mẫu dữ liệu này

Sau khi hoàn thành quá trình đào tạo, các dự đoán cho các mẫu chưa thấy x_i có thể được thực hiện thông qua phương pháp bỏ phiếu đa số Quy trình bootstrapping giúp cải thiện hiệu suất của mô hình bằng cách giảm phương sai mà không làm tăng độ sai lệch Điều này có nghĩa là trong khi dự đoán của một cây có thể nhạy cảm với nhiễu trong tập huấn luyện, thì trung bình của nhiều cây sẽ ổn định hơn, miễn là các cây này không phụ thuộc lẫn nhau.

Số lượng mẫu m trong các tập huấn luyện cho mỗi cây quyết định b và số lượng cây B là các hyperparameter quan trọng Thông thường, số cây được sử dụng dao động từ vài trăm đến vài nghìn, tùy thuộc vào kích thước và tính chất của tập huấn luyện Để xác định số lượng cây B tối ưu, có thể áp dụng phương pháp cross-validation hoặc theo dõi lỗi out-of-bag dự đoán trung bình trên từng mẫu đào tạo x_i.

• Đây là thuật toán rất dễ để sử dụng, vô cùng mạnh mẽ, và linh hoạt

• Giảm phương sai và tránh bị Overfitting

• Random Forest có thể sử dụng cho cả bài toán Classification và

• Random Forest làm việc được với dữ liệu thiếu giá trị

• Mất khả năng diễn giải của mô hình

Mặc dù phương pháp Bagging mang lại độ chính xác cao, nhưng nó đòi hỏi nhiều tài nguyên tính toán và có thể không đạt yêu cầu trong một số trường hợp sử dụng cụ thể.

Giới thiệu

Trong chương này, tôi áp dụng hai phương pháp để thực hiện năm thí nghiệm cho năm mô hình máy học Phương pháp đầu tiên là chia dữ liệu với tỷ lệ 66% cho tập huấn luyện và 44% cho tập kiểm tra Phương pháp thứ hai là kiểm tra chéo (cross-validation).

➢ Với phương pháp kiểm tra chéo (cross-validation) tôi xin giới thiệu thêm như sau:

Cross validation là một kỹ thuật lấy mẫu để đánh giá mô hình học máy trong trường hợp dữ liệu không được dồi dào cho lắm

K-tham số là yếu tố quan trọng trong k-fold cross-validation, đại diện cho số nhóm mà dữ liệu được chia ra Khi xác định giá trị của k, tên phương pháp đánh giá sẽ được đặt theo giá trị đó, ví dụ như 10-fold cross-validation khi k bằng 10.

Kỹ thuật này thường bao gồm các bước như sau:

1 Xáo trộn dataset một cách ngẫu nhiên

1 Sử dụng nhóm hiện tại để đánh giá hiệu quả mô hình

2 Các nhóm còn lại được sử dụng để huấn luyện mô hình

4 Đánh giá và sau đó hủy mô hình

4 Tổng hợp hiệu quả của mô hình dựa từ các số liệu đánh giá

Mỗi mẫu dữ liệu chỉ được phân vào một nhóm duy nhất và phải giữ nguyên trong nhóm đó trong suốt quá trình Các bước tiền xử lý dữ liệu, như xây dựng từ vựng, chỉ nên thực hiện trên tập huấn luyện đã được chia, không áp dụng cho toàn bộ tập dữ liệu Việc hủy mô hình sau mỗi lần đánh giá là cần thiết để ngăn chặn việc mô hình ghi nhớ nhãn của tập test từ các lần đánh giá trước Những lỗi thiết lập này thường xảy ra và có thể dẫn đến kết quả đánh giá không chính xác, thường là lạc quan hơn so với thực tế.

Kết quả tổng hợp thường được tính bằng cách lấy trung bình của các lần đánh giá Thực tế, việc bổ sung thông tin về phương sai và độ lệch chuẩn vào kết quả tổng hợp cũng rất phổ biến.

➢ Trong các độ đo kết quả thí nghiệm các phần sau tôi xin khái lược:

TP rate, hay còn gọi là tỷ lệ dương tính thực, được tính bằng công thức: True Positive/(True Positive + False Negative) Nói một cách đơn giản, TP rate thể hiện tỷ lệ phần trăm các nhãn dự đoán đúng trong tổng số nhãn thực sự đúng.

Tỷ lệ dương tính giả (FP rate) được tính bằng công thức: Tỷ lệ dương tính giả = Dương tính giả / (Dương tính giả + Âm tính thật) Nói một cách đơn giản, FP rate phản ánh tỷ lệ phần trăm các nhãn dự đoán sai vào các lớp khác so với tổng số nhãn thực sự đúng của các lớp đó.

Precision: độ chính xác của 1 lớp Thể hiện tỷ lệ giữa số instance đoán đúng của

1 lớp so với tất cả các instance mà bộ dự đoán dự đoán cho lớp đó

Recall là một chỉ số đo lường độ chính xác của mô hình trong việc dự đoán nhãn đúng của một lớp, thể hiện tỷ lệ phần trăm nhãn được dự đoán đúng so với tổng số nhãn thực sự đúng của lớp đó.

Thí nghiệm Nạve Bayes

❖ Mục tiêu của thí nghiệm:

Bài viết này đánh giá hiệu quả của phương pháp Nạve Bayes trong việc dự đoán tình trạng học tập của sinh viên, phân loại thành các nhóm như study (còn học tập), other (chuyển trường), và fail (đã thôi học) Đặc biệt, những trường hợp tốt nghiệp sớm được xem là thuộc lớp study, vì họ đã hoàn thành chương trình học và không cần phải cảnh báo về học vụ.

Phương pháp thiết kế và dữ liệu sử dụng:

Phương pháp đánh giá được sử dụng trong nghiên cứu này là kiểm tra chéo 10-fold và phương pháp chia dữ liệu với tỷ lệ 66% cho dữ liệu huấn luyện và 44% cho dữ liệu kiểm tra Cả hai phương pháp đều được áp dụng trên bộ dữ liệu gồm 5250 instance Dữ liệu đầu vào bao gồm các thuộc tính như giá trị ngành, số tín chỉ, điểm trung bình, phương thức trúng tuyển, điểm trúng tuyển, mã tỉnh và mã trường THPT.

Kết quả dự đoán cho thấy trạng thái học tập của sinh viên được phân loại thành ba nhóm: nhóm "còn theo học/có thể tốt nghiệp", nhóm "có khả năng sẽ bỏ học" và nhóm "có thể chuyển trường hoặc lý do khác".

Phần cứng tôi dùng để thực nghiệm gồm chip vi xử lý Intel(R) Core (TM) i7- 4600u CPU @ 2.10Ghz 2.70Ghz , RAM 8.0 GB, hệ điều hành 64 bit, x64-based processor

Bộ dữ liệu như tôi đã giới thiệu ở chương 1, sau đó hiện thực hóa các bước làm trong chương 2 bằng ngôn ngữ lập trình Python

Tôi đã tiến hành khai thác dữ liệu bằng các kỹ thuật đã trình bày trong chương 3 thông qua phần mềm Weka Bên cạnh đó, tôi cũng sử dụng Weka để hiển thị và đánh giá kết quả thực nghiệm.

Với phương pháp cross-validation 10-fold:

Một phần của kết quả dự đoán:

Phương pháp Nạve Bayes đạt tỷ lệ chính xác 89.95% trong việc phân loại kết quả Mặc dù lớp study có chỉ số cao, nhưng tỷ lệ sai sót (FP Rate) vẫn đáng kể, cho thấy nhiều trường hợp bị phân loại sai vào lớp khác.

Nạve Bayes là một phương pháp học máy dựa trên việc xây dựng bảng xác suất để huấn luyện mô hình Khi nhận một trường hợp test mới, mô hình sử dụng các thuộc tính của input và bảng xác suất đã được tạo ra để đưa ra dự đoán Tuy nhiên, Nạve Bayes giả định rằng các thuộc tính độc lập với nhau, trong khi thực tế, các thành phần trong bộ dữ liệu lại có mối liên hệ chặt chẽ Điều này dẫn đến việc dự đoán không chính xác, khiến Nạve Bayes trở thành phương pháp kém chính xác nhất trong số năm mô hình đã được thử nghiệm.

Với phương pháp percentage split train 66% ,test 44%

Kết quả từ phương pháp thử nghiệm này cho thấy sự tương đồng với kết quả khi sử dụng Nạve Bayes Tuy nhiên, do Nạve Bayes giả định tính độc lập giữa các thành phần, điều này dẫn đến dự đoán không chính xác nhất trong cả 5 mô hình đã được thử nghiệm.

Thí nghiệm Bayesian Network

Thí nghiệm này đánh giá hiệu quả của phương pháp Bayesian Network trong việc dự đoán tình trạng học tập của sinh viên, phân loại thành các nhóm như study (còn học tập), other (chuyển trường) và fail (đã thôi học) Những trường hợp tốt nghiệp sớm được xem là thuộc nhóm study, vì họ đã hoàn thành chương trình học và không cần cảnh cáo học vụ.

Phương pháp đánh giá được sử dụng trong nghiên cứu này là kiểm tra chéo 10-fold và chia dữ liệu theo tỷ lệ 66% cho dữ liệu huấn luyện và 44% cho dữ liệu kiểm tra Cả hai phương pháp đều được thực hiện trên bộ dữ liệu gồm 5250 instance, với các thuộc tính đầu vào bao gồm giá trị ngành, số tín chỉ, điểm trung bình, phương thức trúng tuyển, điểm trúng tuyển, mã tỉnh và mã trường THPT.

Kết quả dự đoán phản ánh trạng thái học tập của sinh viên, bao gồm ba lớp: "còn theo học/có thể tốt nghiệp" (lớp study), "có khả năng sẽ bỏ học" (lớp fail), và "có thể chuyển trường hoặc lý do khác" (lớp other).

Tôi đã tiến hành khai thác dữ liệu sử dụng các kỹ thuật được mô tả trong chương 3 thông qua phần mềm Weka Đồng thời, quá trình hiển thị và đánh giá kết quả thực nghiệm cũng được thực hiện bằng Weka.

Phương pháp Bayesian Network đạt được tỷ lệ chính xác cao trong việc phân loại, với 93.94% số kết quả được phân loại đúng, vượt trội hơn so với phương pháp Nạve Bayes.

Còn khi tính theo các độ đo chi tiết ta thấy rõ lớp study chính xác khá cao, tuy nhiên

FP Rate lại không nhỏ chứng tỏ có nhiều trường hợp bị chỉ định sai vào lớp khác vẫn chiếm tỷ lệ không nhỏ

Mô hình này vượt trội hơn Nạve Bayes nhờ vào khả năng suy diễn nhân quả, không còn phụ thuộc vào giả định về sự độc lập của các thuộc tính.

Mà dựa vào xác suất thuộc tính này sẽ dẫn đến thuộc tính kia

Tuy nhiên lớp fail vẫn dự đoán không chính xác cho lắm, tôi đã quan sát lại bộ dữ liệu và thấy có các trường hợp

Sinh viên này đã tham gia khóa học gần nhất và hoàn thành 12 tín chỉ với điểm trung bình 7.4, cho thấy khả năng học tập tốt và điểm tuyển đầu vào cũng khá cao Tuy nhiên, sinh viên này đã quyết định thôi học.

Mô hình đã nhận định sai trường hợp này và các trường hợp tương tự

Các trường hợp này là khóa đầu tiên

Mặc dù số tín chỉ đã học và điểm trung bình không tệ, nhưng vẫn có quyết định thôi học Nguyên nhân có thể do thiếu nhiều thuộc tính cần thiết, dẫn đến việc mạng nhân quả được xây dựng khá đơn giản Hệ thống máy móc đã rập khuôn theo đó mà suy luận, gây ra sai sót Mỗi trường hợp cụ thể cần có các chi tiết khác biệt và cụ thể hơn để minh họa rõ ràng cho quá trình xây dựng mạng suy luận.

Với phương pháp percentage split train 66%, test 44%

Kết quả từ phương pháp thử nghiệm cho thấy sự tương đồng với phương pháp Bayesian Network Tôi kết luận rằng Bayesian Network không giả định tính độc lập giữa các thành phần, giúp cải thiện độ chính xác trong dự đoán so với Nạve Bayes Tuy nhiên, do cấu trúc mạng còn đơn giản và máy học theo đó, dẫn đến sai sót và độ chính xác trong việc dự đoán lớp fail vẫn chưa đạt yêu cầu.

Thí nghiệm Decision tree(J48)

Thí nghiệm này nhằm đánh giá hiệu quả của phương pháp Decision tree (J48) trong việc dự đoán tình trạng học tập của sinh viên, phân loại thành các nhóm như study (còn học tập), other (chuyển trường) và fail (đã thôi học) Đặc biệt, những trường hợp tốt nghiệp sớm được xem là thuộc nhóm study vì họ đã hoàn thành chương trình học và không cần phải cảnh cáo học vụ.

Phương pháp đánh giá được sử dụng trong nghiên cứu này là kiểm tra chéo 10-fold và phương pháp chia dữ liệu với tỷ lệ 66% cho dữ liệu huấn luyện và 44% cho dữ liệu kiểm tra, áp dụng trên bộ dữ liệu gồm 5250 instance Dữ liệu đầu vào bao gồm các thuộc tính như ngành học, số tín chỉ, điểm trung bình, phương thức trúng tuyển, điểm trúng tuyển, mã tỉnh và mã trường THPT Kết quả dự đoán xác định lớp trạng thái học tập của sinh viên, bao gồm các lớp: còn theo học/có thể tốt nghiệp (lớp study), có khả năng sẽ bỏ học (lớp fail) và có thể chuyển trường hoặc lý do khác (lớp other).

Tôi đã tiến hành khai thác dữ liệu bằng các kỹ thuật được mô tả trong chương 3 thông qua phần mềm Weka Đồng thời, quá trình hiển thị và đánh giá kết quả thực nghiệm cũng được thực hiện bằng Weka.

The Decision Tree method achieves a high accuracy rate of 94.55% in correctly classified instances, surpassing both Naive Bayes and Bayesian Network techniques.

Khi so sánh các chỉ số chi tiết, lớp study cho thấy độ chính xác cao, trong khi tỷ lệ FP thấp hơn Bayesian Network nhưng vẫn còn đáng kể Điều này cho thấy mô hình cây của Decision Tree xác định tốt hơn các thuộc tính quan trọng cho việc phân lớp chính xác Theo nhận định của tôi, Decision Tree đã vượt trội hơn so với Bayesian Network, có thể do Bayesian Network cần một mạng lưới suy luận nhân quả phức tạp để phát huy hiệu quả Trong bối cảnh bài toán và dữ liệu hiện tại, Decision Tree đang hoạt động tốt nhất trong ba mô hình: Naive Bayes, Bayesian Network và Decision Tree.

Kết quả từ phương pháp thử nghiệm cho thấy sự tương đồng với phương pháp Decision Tree Do đó, tôi kết luận rằng Decision Tree là mô hình hoạt động tốt nhất trong ba mô hình Nạve Bayes, Bayesian Network và Decision Tree đối với bài toán và dữ liệu hiện tại.

Thí nghiệm Bagging With Random Forest

Thí nghiệm này đánh giá phương pháp Bagging với Random Forest, trong đó lấy mẫu mười lần từ bộ dữ liệu gốc để tạo ra 10 mô hình Random Forest cho việc phân lớp tình trạng học tập của sinh viên Các lớp được phân loại bao gồm: "study" (còn học tập), "other" (chuyển trường) và "fail" (đã thôi học) Những trường hợp tốt nghiệp sớm được xem là thuộc lớp "study" vì họ đã hoàn thành chương trình học và không cần cảnh cáo học vụ.

Phương pháp đánh giá được áp dụng là kiểm tra chéo 10-fold và phương pháp chia dữ liệu với tỷ lệ 66% cho dữ liệu huấn luyện và 44% cho dữ liệu kiểm tra Cả hai phương pháp này được thực hiện trên bộ dữ liệu gồm 5250 instance, sử dụng các thuộc tính đầu vào như giá trị ngành, số tín chỉ, điểm trung bình, phương thức trúng tuyển, điểm trúng tuyển, mã tỉnh và mã trường THPT.

Kết quả dự đoán cho biết trạng thái học tập của sinh viên, phân loại thành ba nhóm: nhóm "còn theo học/có thể tốt nghiệp", nhóm "có khả năng sẽ bỏ học" và nhóm "có thể chuyển trường hoặc lý do khác".

Tôi đã sử dụng Weka để khai thác dữ liệu theo các kỹ thuật đã trình bày trong chương 3 Đồng thời, quá trình hiển thị và đánh giá kết quả thực nghiệm cũng được thực hiện thông qua Weka.

The Bagging With Random Forest method achieves an impressive overall accuracy of 94.84% for correctly classified instances, which is comparable to the performance of Decision Trees.

Còn khi tính theo các độ đo chi tiết ta thấy rõ lớp study chính xác khá cao, còn FP Rate thì vẫn còn lớn đáng kể

Bagging là phương pháp lấy mẫu dữ liệu 10 lần với kích thước tương tự như dữ liệu gốc, sau đó huấn luyện các mô hình Random Forest Khi dự đoán, phương pháp này chọn nhãn được nhiều mô hình Random Forest dự đoán nhất từ 10 mô hình đã huấn luyện Mặc dù cách thức này có vẻ phức tạp, nhưng nó giúp thu thập ý kiến từ số đông, từ đó cải thiện độ chính xác của dự đoán.

72 chọn ra chính là biểu quyết của nhiều trường hợp lấy mẫu khác nhau dẫn đến kết quả tương đối chính xác

Phương pháp thử nghiệm này cho thấy kết quả tương đồng với phương pháp thử nghiệm sử dụng Bagging With Random Forest Do đó, tôi kết luận rằng Bagging With Random Forest hoạt động hiệu quả nhưng vẫn không vượt trội hơn Decision Tree.

Thí nghiệm Multilayer neural network

Thí nghiệm này đánh giá hiệu quả của mạng nơ-ron đa lớp với tốc độ học 0.3 và động lượng 0.2 trong việc dự đoán tình trạng học tập của sinh viên Các lớp phân loại bao gồm study (còn học tập), other (chuyển trường) và fail (đã thôi học) Đặc biệt, những sinh viên tốt nghiệp sớm được xem là thuộc lớp study, vì họ đã hoàn thành chương trình học và không cần cảnh cáo học vụ.

Phương pháp đánh giá được áp dụng trong nghiên cứu này là kiểm tra chéo 10-fold và phương pháp chia dữ liệu với tỷ lệ 66% cho dữ liệu huấn luyện và 44% cho dữ liệu kiểm tra Cả hai phương pháp đều được thực hiện trên bộ dữ liệu gồm 5250 instance, với các thuộc tính đầu vào bao gồm giá trị ngành, số tín chỉ, điểm trung bình, phương thức trúng tuyển, điểm trúng tuyển, mã tỉnh, và mã trường THPT.

Kết quả dự đoán thể hiện trạng thái học tập của sinh viên, bao gồm các lớp: "còn theo học/có thể tốt nghiệp" (lớp study), "có khả năng sẽ bỏ học" (lớp fail), và "có thể chuyển trường hoặc lý do khác" (lớp other).

Tiêu đề	Phân Tích Và Cảnh Báo Xu Hướng Học Tập Của Sinh Viên
Tác giả	Đặng Khắc Lộc
Người hướng dẫn	TS Nguyễn Lưu Thùy Ngân
Trường học	Đại Học Quốc Gia Thành Phố Hồ Chí Minh
Chuyên ngành	Đồ án 1
Thể loại	báo cáo đồ án
Năm xuất bản	2021
Thành phố	Thành Phố Hồ Chí Minh

Định dạng
Số trang	72
Dung lượng	1,35 MB