Báo cáo tiểu luận môn học nhập môn học máy Đề tài mô hình phát hiện tin tức giả

Đề tài này tập trung vào việc sử dụng các kỹ thuật học máy để nhận diện tín tức giả dựa trên nội dung văn bản, nguồn gốc, hoặc các đặc điểm khác có thê ảnh hướng đến tính xác thực của t

Trang 1

TRUONG DAI HQC CONG NGHE THONG TIN VA TRUYEN THONG

KHOA CONG NGHE THONG TIN

BAO CAO TIEU LUAN MÔN HỌC: Nhập Môn Học Máy

DE TAI: Mo hinh phat hiện tin tức giả

Giang vién phu trach: Nguyén Tuan Anh

Sinh viên thực hiện: Định Duy Thượng

Nguyễn Văn Tú

Lớp: CNTT K20E

Trang 2

TOM TAT DE TAI

Dự đoán tin giả là một ứng dụng quan trọng của học máy, nhằm phát hiện và phân loại các bài viết không chính xác hoặc sai lệch Đề tài này tập trung vào

việc sử dụng các kỹ thuật học máy để nhận diện tín tức giả dựa trên nội dung văn bản, nguồn gốc, hoặc các đặc điểm khác có thê ảnh hướng đến tính xác thực

của thông tin Sự gia tăng của tin tức giả mạo trên 1nternet đã đặt ra một thách thức lớn cho người tiêu dùng thông tin, dẫn đến nhu câu cấp thiết về các công

cụ giúp họ có thể kiểm chứng thông tin một cách nhanh chóng và chính xác Mục tiêu chính của dự án là phát triển một mô hình học máy có khả năng phân loại tin tức thành thật hoặc giả, từ đó cung cấp cho người đùng một cách tiếp cận hiệu quả trong việc đánh giá độ tin cậy của thông tin Qua trinh thực hiện bao gồm nhiều bước quan trọng: đầu tiên là thu thập dữ liệu từ các nguồn tin tức

trực tuyến, mạng xã hội, và các cơ sở dữ liệu hiện có; tiếp theo là tiền xử ly dit

liệu để đảm bảo chất lượng, sau đó áp dụng các mô hình học máy như hồi quy logistic hoặc mạng nơ-ron để phân loại tin tức Cuối cùng, mô hình sẽ được triển khai vào môi trường thực tế, cho phép người dùng để dàng tiếp cận và sử dụng để kiểm tra tính xác thực của các bài viết, từ đó nâng cao nhận thức cộng đồng về tính xác thực của thông tin trong thời đại số Đề tài này không chỉ đóng góp vào việc cải thiện tính xác thực của thông tin trong xã hội mà còn mở ra

hướng nghiên cứu mới cho trí tuệ nhân tạo trong việc xử lý đữ liệu ngôn ngữ tự

nhiên

CÁC MỤC TIỂU CHÍNH

e _ Mục tiêu l: Tìm hiểu bài toán dự đoán giá tin giả

e© - Mục tiêu 2: Tìm hiểu, nghiên cứu một số kỹ thuật học máy

e - Mục tiêu 3: Áp dụng các kỹ thuật học máy dự đoán giá tin giả

® Mục tiêu 4: Đánh giá mô hình, xem xét tính hiệu quả của thuật toán

e© - Mục tiêu 5: Kết luận

KET QUA DU KIEN

e Hoan thanh cac muc tiéu dé ra

e Hiéu được bài toán phân tích được bộ dữ liệu và ý nghĩa thực tê của các tham so

® - Dự đoán được tin giả và đưa ra đánh giá kết quả dự đoán

Trang 3

Chương 1 Tổng Quan

1.1 Dat van dé

Trong thời đại thông tin số hiện nay, việc phát hiện và ngăn chặn tin giả trở thành một trong những thách thức lớn nhất đối với các nền tảng truyền thông và xã hội Sy gia tang của các tài khoản p1ả mao va thong tin không chính xác đã gay ra những tác động nghiêm trọng đến nhận thức cộng đồng, làm xáo trộn thông tin và ảnh hưởng đến đời sống xã hội Đặc biệt, trong bối cảnh dịch bệnh, thiên tai hay các van

đề chính trị, thông tin sai lệch có thế dẫn đến những quyết định sai lầm và nguy hiểm

Do đó, việc áp đụng các kỹ thuật học máy đề dự đoán và phát hiện tin giả trở nên cần thiết hơn bao giờ hết, không chỉ để bảo vệ người tiêu dùng mà còn để duy trì sự minh

bạch trong thông tin

Với sự phát triển nhanh chóng của công nghệ học máy, việc áp dụng các kỹ thuật này trong việc phát hiện tin giả đã trở thành khả thí và mang lại nhiều lợi ích thiết thực Dự đoán tin giả dựa trên các đặc điểm ngôn ngữ, phong cách viết, và các yếu tố khác không chỉ giúp các tổ chức và cơ quan chức năng phát hiện thông tin sai lệch mà còn cung cấp công cụ hỗ trợ cho người tiêu dùng trong việc nhận diện và tránh xa thông tin không chính xác Đối với các nhà quản lý và nghiên cứu, học máy cung cấp một phương pháp tiếp cận khoa học và dựa trên dữ liệu để xác định và xử lý tin giả, từ đó nâng cao tính chính xác và hiệu quả trong công tác truyền thông

Nghiên cứu này không chỉ mang lại nhiều lợi ích cho lĩnh vực truyền thông mả còn mớ ra nhiều hướng nghiên cứu mới và tiềm năng ứng dụng trong các lĩnh vực

khác như an ninh mạng và bảo mật thông tin Với sự phát triên không ngừng của công

nghệ học máy, việc áp dụng các kỹ thuật này trong việc phát hiện tin giả sẽ ngày càng, trở nên phổ biến và mang lại nhiều 1á trị thiết thực cho xã hội Có thể kỷ vọng vào một tương lai mà các quyết định về thông tin được hỗ trợ bởi các công nehệ tiên tiến, giúp giảm thiêu sự lan truyền của tin giả và tăng cường sự tin cậy trong môi trường thông tin

1.2 Mục tiêu nghiên cứu

Trang 4

Tìm hiểu bài toán phát hiện tin giả: Tin giả thường có các đặc điểm ngôn ngữ

và phong cách viết khác biệt so với tin chính xác

Nghiên cứu một số kỹ thuật học máy: Lựa chọn các mô hình học máy phù hợp

để tăng cường độ chính xác của mô hình phát hiện

Áp dụng các kỹ thuật học máy để phát hiện tin giả: Thu thập dữ liệu, tiền xử lý

đữ liệu, và xây dựng mô hình học máy

Đánh giá mô hình: Xem xét hiệu quả của thuật toán thông qua các chỉ số đánh giá như độ chính xác, độ lỗi, và hệ số xác định (R?)

1.3 Đối tượng nghiên cứu và phạm vi nghiên cứu

1.3.1 Đối tượng nghiên cứu

Nghiên cứu mô hình dự đoán va phát hiện tin piả dựa trên các thông tin thụ thập được từ mạng xã hội và các nguồn tin khác

gôm:

1.3.2 Phạm vi nghiên cứu

Pham vi nghiên cứu của đề tài "Dự đoán tín giả bằng kỹ thuật học máy" bao

Loại đữ liệu: Dữ liệu thu thập bao g6m các yêu tô liên quan đên tin ø1ả như nội dung bài việt, phong cách việt, và các đặc điêm ngôn ngữ

Phương pháp học máy: Sử dụng các mô hình như RandomForestClassifier, Support Vector Machines (SVM), va Neural Networks

Trang 5

‹ - Đánh giá mô hình: Phạm vi nghiên cứu cũng bao gồm việc đánh giá hiệu suất của các mô hình học máy thông qua các chỉ số như độ chính xác (accuracy), độ lỗi (mean squared error), và các kỹ thuật đánh giá như cross-validation đê đảm bảo mô hình có thể tông quát hóa tốt trên đữ liệu mới

Trang 6

Chương 2: Các Kỹ Thuật Sử Dụng Trong

phương pháp học máy khác Học máy có liên quan lớn đến thống kê,

Trang 7

vì cả hai lĩnh vực đều nghiên cứu việc phân tích dữ liệu, nhưng khác với thống kê, học máy tập trung vào sự phức tạp của các giải thuật trong việc thực thi tính toán Nhiều bài toán suy luận được xếp vào loại bài toán NP-khó, vì thế một phần của học máy là nghiên cứu sự phát triển các giải thuật suy luận xấp xỉ mà có thể xử lý được

Học máy có hiện nay được áp dụng rộng rãi bao gồm máy truy tìm

dữ liệu, chẩn đoán y khoa, phát hiện thẻ tín dụng giả, phân tích thị trường chứng khoán, phân loại các chuỗi DNA, nhận dạng tiếng nói

và chữ viết, dịch tự động, chơi trò chơi và cử động rô-bốt

3.1.2 Ứng dụng học máy

Hoc máy là lĩnh vực của trí tuệ nhân tạo mà ngày nay đã lan rộng và

áp dụng rộng rãi trong nhiều lĩnh vực khác nhau Dưới đây là một số ứng dụng chính của học máy:

- Xử lý hình ảnh và video: Học máy được sử dụng để nhận diện đối tượng, nhận dạng khuôn mặt, phát hiện và phân tích hành vi trong video

- Xử lý ngôn ngữ tự nhiên: Áp dụng để tổng hợp và phân tích

ngôn ngữ, dịch thuật tự động, xây dựng các hệ thống trợ lý ảo như chatbot

- Dự đoán và phân tích dữ liệu: Học máy giúp dự đoán xu hướng thị trường, phân tích dữ liệu tài chính, tối ưu hóa quy trình kinh doanh và dự báo rủi ro

- _Y tế và chăm sóc sức khỏe: Áp dụng để dự đoán bệnh lý, phân tích hình ảnh y khoa, hỗ trợ trong chẩn đoán và quản lý dữ liệu

lâm sàng

- Tự động hóa và điều khiển: Học máy được sử dụng trong các

hệ thống tự động hóa công nghiệp, điều khiển robot và xe tự lái

Trang 8

FinTech: Áp dụng để đánh giá rủi ro tín dụng, giao dịch chứng khoán, quản lý tài chính cá nhân và dự đoán thị trường

Marketing và quảng cáo: Học máy giúp phân tích hành vi người tiêu dùng, tối ưu hóa chiến lược quảng cáo và cá nhân hóa trải nghiệm người dùng

Giáo dục: Sử dụng để cá nhân hóa học tập, cải tiến các phương pháp giảng dạy và phân tích dữ liệu học tập

Dự đoán giá cả: Học máy được áp dụng để dự đoán giá cả của các sản phẩm và dịch vụ trong nhiều lĩnh vực, bao gồm bất động sản, chứng khoán, hàng hóa, và các sản phẩm tiêu dùng Các mô hình học máy như hồi quy, mạng nơ-ron, và phương pháp học sâu được sử dụng để phân tích dữ liệu lịch sử và các yếu tố tác động

để đưa ra các dự đoán chính xác về giá cả trong tương lai

Các thuật toán học máy được phân loại theo kết quả mong muốn của thuật toán Các loại thuật toán thường dùng bao gồm:

Học máy có giám sát (Supervised Learning)

Học máy không giám sát (Unsupervised Learning)

Học máy bán giám sát (Semi-supervised Learning)

Học máy tăng cường (Reinforcement Learning)

Trang 9

J Supervised uperVìse Unsupervised pervi Supervised | =e | Reinfo: einrorcemen t

Predict next value) Cdentify clusters) mistakes

có thể là một giá trị liên tục, hay có thể là dự đoán một nhãn phân loại cho một đối tượng đầu vào Nhiệm vụ của chương trình học có giám sát là dự đoán giá trị của hàm cho một đối tượng bất kì là đầu vào hợp lệ, sau khi đã xem xét một số ví dụ huấn luyện Để đạt được

điều này, chương trình học phải tổng quát hóa từ các dữ liệu sẵn có

để dự đoán được những tình huống chưa gặp phải theo một cách

"hợp lý",

Trong Học máy có giám sát (Supervised Learning) có 2 phân loại:

Phân loại (Classification) và Hồi quy (Regression)

% Phân loại (Classirication)

Trang 10

Phân loại (Classification) là quá trình dự đoán lớp hoặc nhẫn của một điểm dữ liệu dựa trên các đặc trưng mô tả của nó Mục tiêu của phân loại là phân tách các điểm dữ liệu vào các nhóm (lớp) khác

nhau sao cho mỗi nhóm có các đặc tính riêng biệt

Đặc điểm:

- Đầu vào: Dữ liệu đầu vào cho mô hình phân loại bao gồm các điểm dữ liệu với các đặc trưng mô tả (hoặc vector đặc trưng)

- Đầu ra: Đầu ra của mô hình phân loại là lớp hoặc nhãn được dự

đoán cho mỗi điểm dữ liệu

Các thuật toán phổ biến:

- Cây quyết định (Decision Trees): Xây dựng một cây quyết định

dựa trên các câu hỏi về các đặc trưng để phân loại các điểm dữ

liệu

- Hồi quy Logistic (Logistic Regression): Sử dụng hàm logistic để phân loại dữ liệu thành hai lớp

- May vector hỗ trợ (Support Vector Machines): Tìm ranh giới phân

chia tối ưu giữa các lớp để phân loại dữ liệu

- Cây quyết định, mô hình này xây dựng một cây quyết định dựa

trên các câu hỏi về các đặc trưng của dữ liệu để đưa ra dự đoán

Độ đo hiệu suất:

Trang 11

Độ chính xác (Accuracy): Tỷ lệ các dự đoán chính xác so với tổng

số dự đoán

Độ phủ (Recall) và Độ chính xác trung bình (Precision): Được sử dụng để đánh giá hiệu suất của mô hình đối với các lớp cụ thể

Hồi quy (Regression)

Hồi quy (Regression) là quá trình dự đoán giá trị số của một biến mục tiêu dựa trên các đặc trưng mô tả của dữ liệu Mục tiêu của hồi quy là xác định mối quan hệ toán học giữa các đặc trưng và giá trị mục tiêu để dự đoán giá trị mục tiêu cho các điểm dữ liệu mới

Đặc điểm:

- Đầu vào: Dữ liệu đầu vào cho mô hình hồi quy bao gồm các điểm

dữ liệu với các đặc trưng liên tục

- _ Đầu ra: Đầu ra của mô hình hồi quy là giá trị số liên tục

Hồi quy tuyến tính (Linear Regression): Dự đoán giá trị mục tiêu

bằng một hàm tuyến tính của các đặc trưng

Hồi quy Ridge và Lasso (Ridge và Lasso Regression): Mở rộng của

hồi quy tuyến tính để giảm thiểu overfitting và cải thiện độ chính

xác

Máy vector hỗ trợ hồi quy (Support Vector Regression): Áp dụng

SVM cho bài toán hồi quy để tìm ranh giới phân chia tối ưu

Độ đo hiệu suất:

Sai số trung bình bình phương (Mean Squared Error): Đo lường sai

số trung bình của các dự đoán so với giá trị thực tế

Sai số tuyệt đối trung bình (Mean Absolute Error): Đo lường sai số trung bình tuyệt đối của các dự đoán

Trang 12

3.1.3.2 Học máy không giám sát (Unsupervised Learning) Học không có giám sát (unsupervised learning) là một phương pháp của ngành học máy nhằm tìm ra một mô hình mà phù hợp với các quan sát Nó khác biệt với học có giám sát ở chỗ là đầu ra đúng tương ứng cho mỗi đầu vào là không biết trước Trong học không có giám sát, một tập dữ liệu đầu vào được thu thập Học không có giám sát thường đối xử với các đối tượng đầu vào như là một tập các biến ngẫu nhiên Sau đó, một mô hình mật độ kết hợp sẽ được xây dựng cho tập dữ liệu đó

Học không có giám sát có thể được dùng kết hợp với suy luận Bayes

để cho ra xác suất có điều kiện cho bất kì biến ngẫu nhiên nào khi biết trước các biến khác

Học không có giám sát cũng hữu ích cho việc nén dữ liệu: về cơ bản, mọi giải thuật nén dữ liệu hoặc là dựa vào một phân bố xác suất trên một tập đầu vào một cách tường minh hay không tường minh Một dạng khác của học không có giám sát là phân nhóm dữ liệu, nó đôi khi không mang tính xác suất

% Phân cụm (Clustering)

Phân cụm là quá trình nhóm các điểm dữ liệu có đặc tính tương tự vào các nhóm (cụm) sao cho các điểm trong cùng một cụm có tính chất gần nhau hơn so với các điểm ở các cụm khác Mục tiêu của

phân cụm là tìm cách nhóm các điểm dữ liệu mà không cần sự chỉ

định rõ ràng của nhãn lớp

Đặc điểm chính:

- Đầu vào: Dữ liệu đầu vào cho mô hình phân cụm là các điểm dữ

liệu mô tả bằng các đặc trưng

- Đầu ra: Đầu ra của mô hình phân cụm là các nhóm hoặc cụm, mỗi

Trang 13

cụm có các điểm dữ liệu có tính chất tương tự nhau

- K-means: Phan cụm các điểm dữ liệu bằng cách tìm các trung

tâm cụm sao cho tổng bình phương khoảng cách từ các điểm đến

trung tâm cụm là nhỏ nhất

- Phan cum phan cap (Hierarchical Clustering): Xây dựng một cây phân cụm của các điểm dữ liệu để tìm các cụm con và cụm cha dựa trên độ tương đồng

- Phan cum dựa trên mô hình (Model-based Clustering): Sử dụng

các mô hình thống kê để phân tích phân phối của các cụm trong

không gian dữ liệu

Ứng dụng: Phân cụm được sử dụng rộng rãi trong nhiều lĩnh vực như

marketing để nhóm khách hàng, xử lý dữ liệu để nhóm tin nhắn, và

phân tích hành vi người dùng trên mạng xã hội

+» Phát hiện ngoại lệ (Anomaly Detection)

Phát hiện ngoại lệ là quá trình nhận diện các điểm dữ liệu không giống như phần còn lại của dữ liệu, thường được gọi là ngoại lệ hoặc

sự cố Mục tiêu của phát hiện ngoại lệ là xác định những điểm dữ liệu có tính chất khác biệt so với các điểm dữ liệu bình thường

Đặc điểm:

- _ Đầu vào: Dữ liệu đầu vào cho mô hình phát hiện ngoại lệ là các

điểm dữ liệu mô tả bằng các đặc trưng

- Đầu ra: Đầu ra của mô hình phát hiện ngoại lệ là các điểm dữ liệu được xác định là ngoại lệ hoặc không phải ngoại lệ

Trang 14

- _ Ngưỡng (Threshold): Thiết lập một ngưỡng để xác định các điểm

dữ liệu ngoại lệ dựa trên các giới hạn định sẵn

- _ Phân phối (Statistical Methods): Sử dụng các phân phối thống kê

như phân phối Gaussian để xác định các điểm dữ liệu có xác suất thấp

Ứng dụng: Phát hiện ngoại lệ được áp dụng trong các lĩnh vực như

an ninh mạng để phát hiện các hành vi độc hại, trong công nghiệp

để phát hiện lỗi sản xuất, và trong tài chính để phát hiện gian lận

3.1.3.3 Học máy bán giám sát (Semi-supervised Learning) Trong khoa học máy tính, học bán giám sát là một lớp của kỹ thuật học máy, sử dụng cả dữ liệu đã gán nhãn và chưa gán nhãn để huấn luyện - điển hình là một lượng nhỏ dữ liệu có gán nhãn cùng với lượng lớn dữ liệu chưa gán nhẫn Học bán giám sát đứng giữa học không giám sát (không có bất kì dữ liệu có nhãn nào) và có giám sát (toàn bộ dữ liệu đều được gán nhãn) Nhiều nhà nghiên cứu nhận thấy dữ liệu không gán nhãn, khi được sử dụng kết hợp với một chút

dữ liệu có gán nhãn, có thể cải thiện đáng kể độ chính xác Để gán nhẫn dữ liệu cho một bài toán học máy thường đòi hỏi một chuyên viên có kĩ năng để phân loại bằng tay các ví dụ huấn luyện Chi phí cho quy trình này khiến tập dữ liệu được gán nhãn hoàn toàn trở nên không khả thi, trong khi dữ liệu không gán nhãn thường tương đối rẻ tiền Trong tình huống đó, học nửa giám sát có giá trị thực tiễn lớn lao

Một ví dụ cho kỹ thuật học máy bán giám sát là đồng huấn luyện (co-training), trong đó một hay nhiều bộ học được huấn luyện cùng một tập ví dụ nhưng mỗi bộ sử dụng một tập đặc trưng khác nhau, lý tưởng nhất là độc lập với nhau

Một cách tiếp cận khác là mô hình hoá phân phối xác suất đồng thời

Trang 15

của các đặc trưng và nhãn Với dữ liệu chưa gán nhãn, có thể coi nhãn là "dữ liệu còn thiếu" Các kỹ thuật xử lý dữ liệu còn thiếu như

là lấy mẫu Gibbs và tối ưu kỳ vọng có thể được sử dụng để ước lượng tham số

3.1.3.4 Học máy tăng cường (Reinforcement Learning)

Trong ngành khoa học máy tính, học tăng cường (reinforcement learning) là một lĩnh vực con của học máy, nghiên cứu cách thức một agent trong một môi trường nên chọn thực hiện các hành động nào để cực đại hóa một khoản thưởng nào đó về lâu dài Các thuật toán học tăng cường cố gắng tìm một chiến lược ánh xạ các trạng thái của thế giới tới các hành động mà agent nên chọn trong các trạng thái đó

Môi trường thường được biểu diễn dưới dạng một quá trình quyết

định Markov trạng thái hữu hạn và các thuật toán học tăng cường cho ngữ cảnh này có liên quan nhiều đến các kỹ thuật quy hoạch động Các xác suất chuyển trạng thái và các xác suất thu lợi trong MDP thường là ngẫu nhiên nhưng lại tĩnh trong quá trình của bài toán (stationary over the course of the problem)

Khác với học có giám sát, trong học tăng cường không có các cặp dữ liệu vào/kết quả đúng, các hành động gần tối ưu cũng không được đánh giá đúng sai một cách tường minh Hơn nữa, ở đây hoạt động trực tuyến được quan tâm, trong đó có việc tìm kiếm một sự cân bằng giữa khám phá và khai thác Trong học tăng cường, sự được và mất giữa khám phá và khai thác đã được nghiên cứu chủ yếu qua bài toán multi-armed bandit

3.1.4 Các mô hình hồi quy

3.1.4.1 Linear Regression

Linear Regression là một thuật toán học có giám sát trong Machine Learning, nó là một phương pháp thống kê dùng để ước lượng mối

Trang 16

quan hệ giữa các biến độc lập và biến phụ thuộc Linear Regression

giả định rằng sự tương quan giữa các biến là tuyến tính, từ đó tìm ra

hàm tuyến tính tốt nhất để biểu diễn mối quan hệ này Thuật toán

này dự báo giá trị của biến output từ các giá trị của các biến đầu vào

% Các loại Linear Regression

Có hai loại chính của Linear Regression:

- Simple Linear Regression: M6 hình này chỉ có một biến độc lập (input feature) mô tả mối quan hệ tuyến tính giữa biến phụ thuộc (output target) và biến độc lập

- Multiple Linear Regression: M6 hinh nay cé nhiều hơn một biến

độc lập, biểu diễn mối quan hệ tuyến tính giữa các biến độc lập

và biến phụ thuộc

% Mục tiêu của Linear Regression

Mục tiêu của Linear Regression là tìm ra hệ số góc và điểm giao với trục tung sao cho hàm dự đoán tuyến tính đạt được sai số nhỏ nhất

Một trong những cách phổ biến để ước lượng các hệ số là sử dụng

phương pháp Ordinary Least Squares (OLS), trong đó chúng ta cần

tối thiểu hóa tổng bình phương sai số (sum of squared error)

¢ Ung dung cua Linear Regression

Linear Regression duoc Ung dung réng rai trong nhiều lĩnh vực, như:

- Dự báo giá cả: dự đoán giá nhà, giá cổ phiếu, giá nhiên liệu dựa trên các yếu tố như vị trí, kích thước, chất lượng, lượng cung cầu,

- Dự báo điểm số: dự đoán điểm số của học sinh dựa trên thời gian học, nỗ lực, kỹ năng, trình độ giáo viên,

- Dự báo sản phẩm: dự đoán đầu ra sản xuất dựa trên thời gian,

công suất, nguyên liệu, lao động,

- Phân tích chuỗi thời gian: dự đoán xu hướng và chu kỳ của các chuỗi dữ liệu, như bất động sản, thời tiết, xu hướng sản xuất,

Trang 17

3.1.4.2 DecisionT reeClassifier

Cây quyết định (Decision Tree) là một cây phân cấp có cấu trúc được

dùng để phân lớp các đối tượng dựa vào dãy các luật Các thuộc tính

của đối tượngncó thể thuộc các kiểu dữ liệu khác nhau như Nhị phân

(Binary) , Định danh (Nominal), Thu tu (Ordinal), Số lượng (Quantitative) trong khi đó thuộc tính phân lớp phải có kiểu dữ liệu

la Binary hoac Ordinal

% Nguyên lý hoạt động

- Chọn đặc trưng tốt nhất để phân chia: Tại mỗi nút, thuật toán chọn đặc trưng và giá trị ngưỡng tốt nhất để phân chia dữ liệu thành các tập con nhỏ hơn Đặc trưng và giá trị ngưỡng được

chọn nhằm tối đa hóa độ tinh khiết của các tập con

- Lap lai quá trình: Thuật toán tiếp tục chia nhỏ dữ liệu ở các nút con, lặp lại quá trình cho đến khi đạt được một điều kiện dừng (như độ sâu tối đa của cây hoặc số lượng mẫu tối thiểu tại mỗi lá)

- Gán nhãn cho các lá: Khi không thể chia nhỏ dữ liệu thêm nữa, mỗi lá được gán nhãn dựa trên nhãn phổ biến nhất trong tập dữ liệu tại lá đó

+» Ưu điểm

Cây quyết định là một thuật toán đơn giản và phổ biến Thuật toán

này được sử dụng rộng rãi bới những lợi ích của nó:

- Mô hình sinh ra các quy tắc dễ hiểu cho người đọc, tạo ra bộ luật

với mỗi nhánh lá là một luật của cây

- Dữ liệu đầu vào có thể là là dữ liệu missing, không cần chuẩn

hóa hoặc tạo biến giả

- C6 thé lam việc với cả dữ liệu số và dữ liệu phân loại

- Có thể xác thực mô hình bằng cách sử dụng các kiểm tra thống

kê

- Có khả năng là việc với dữ liệu lớn

Trang 18

3.1.4.3 RandomForestRegressor

RandomForestRegressor là một phiên bản của thuật toán Random Forest được áp dụng cho các bài toán hồi quy Nó sử dụng một tập hợp các cây quyết định (decision trees) để dự đoán giá trị liên tục

Mô hình cuối cùng là sự trung bình của dự đoán từ tất cả các cây trong rừng

Tạo các mẫu dữ liệu con: Random Forest lấy ngẫu nhiên các mẫu

từ tập dữ liệu gốc với phép thay thế (bootstrap sampling)

Xây dựng các cây quyết định: Với mỗi mẫu, một cây quyết định

được xây dựng Mỗi nút trong cây chỉ xem xét một tập hợp con

ngẫu nhiên của các đặc trưng để tìm ra đặc trưng phân chia tốt

nhất Điều này giúp giảm sự tương quan giữa các cây

Dự đoán: Để dự đoán giá trị mới, RandomForestRegressor tính

toán trung bình của các dự đoán từ tất cả các cây quyết định Đặc điểm

Bootstrap Aggregation (Bagging): Sử dụng kỹ thuật bagging để tạo nhiều mẫu dữ liệu con từ tập dữ liệu gốc

Random Subspace Method: Tại mỗi nút của cây quyết định, chỉ một tập hợp con ngẫu nhiên của các đặc trưng được xem xét để

tìm ra phân chia tốt nhất

Trung bình dự đoán: Dự đoán cuối cùng là trung bình của các dự

đoán từ tất cả các cây trong rừng

Ưu điểm

Giảm overfitting: Bằng cách trung bình hóa kết quả từ nhiều cây, Random Forest giúp giảm thiểu overfitting so với các cây quyết

Trang 19

định đơn lẻ

- - Xử lý dữ liệu lớn: RandomForestRegressor có thể xử lý các tập dữ liệu lớn và phức tạp một cách hiệu quả

- Không yêu cầu chuẩn hóa dữ liệu: Không cần chuẩn hóa hay chuyển đổi đặc trưng vì các cây quyết định không bị ảnh hưởng

bởi tỷ lệ hoặc độ lệch của dữ liệu

- Đánh giá quan trọng của đặc trưng: Random Forest cung cấp các thước đo để đánh giá tầm quan trọng của các đặc trưng

Tiêu đề	Mô hình phát hiện tin tức giả
Tác giả	Định Duy Thượng, Nguyễn Văn Tỳ
Người hướng dẫn	Nguyễn Tuấn Anh
Trường học	Trường Đại học Công nghệ Thông tin và Truyền thông
Chuyên ngành	Công nghệ thông tin
Thể loại	Báo cáo tiểu luận
Năm xuất bản	2023
Thành phố	Thái Nguyên

Định dạng
Số trang	39
Dung lượng	4,77 MB