Đề tài này tập trung vào việc sử dụng các kỹ thuật học máy để nhận diện tín tức giả dựa trên nội dung văn bản, nguồn gốc, hoặc các đặc điểm khác có thê ảnh hướng đến tính xác thực của t
Trang 1
TRUONG DAI HQC CONG NGHE THONG TIN VA TRUYEN THONG
KHOA CONG NGHE THONG TIN
BAO CAO TIEU LUAN MÔN HỌC: Nhập Môn Học Máy
DE TAI: Mo hinh phat hiện tin tức giả
Giang vién phu trach: Nguyén Tuan Anh
Sinh viên thực hiện: Định Duy Thượng
Nguyễn Văn Tú
Lớp: CNTT K20E
Trang 2
TOM TAT DE TAI
Dự đoán tin giả là một ứng dụng quan trọng của học máy, nhằm phát hiện và phân loại các bài viết không chính xác hoặc sai lệch Đề tài này tập trung vào
việc sử dụng các kỹ thuật học máy để nhận diện tín tức giả dựa trên nội dung văn bản, nguồn gốc, hoặc các đặc điểm khác có thê ảnh hướng đến tính xác thực
của thông tin Sự gia tăng của tin tức giả mạo trên 1nternet đã đặt ra một thách thức lớn cho người tiêu dùng thông tin, dẫn đến nhu câu cấp thiết về các công
cụ giúp họ có thể kiểm chứng thông tin một cách nhanh chóng và chính xác Mục tiêu chính của dự án là phát triển một mô hình học máy có khả năng phân loại tin tức thành thật hoặc giả, từ đó cung cấp cho người đùng một cách tiếp cận hiệu quả trong việc đánh giá độ tin cậy của thông tin Qua trinh thực hiện bao gồm nhiều bước quan trọng: đầu tiên là thu thập dữ liệu từ các nguồn tin tức
trực tuyến, mạng xã hội, và các cơ sở dữ liệu hiện có; tiếp theo là tiền xử ly dit
liệu để đảm bảo chất lượng, sau đó áp dụng các mô hình học máy như hồi quy logistic hoặc mạng nơ-ron để phân loại tin tức Cuối cùng, mô hình sẽ được triển khai vào môi trường thực tế, cho phép người dùng để dàng tiếp cận và sử dụng để kiểm tra tính xác thực của các bài viết, từ đó nâng cao nhận thức cộng đồng về tính xác thực của thông tin trong thời đại số Đề tài này không chỉ đóng góp vào việc cải thiện tính xác thực của thông tin trong xã hội mà còn mở ra
hướng nghiên cứu mới cho trí tuệ nhân tạo trong việc xử lý đữ liệu ngôn ngữ tự
nhiên
CÁC MỤC TIỂU CHÍNH
e _ Mục tiêu l: Tìm hiểu bài toán dự đoán giá tin giả
e© - Mục tiêu 2: Tìm hiểu, nghiên cứu một số kỹ thuật học máy
e - Mục tiêu 3: Áp dụng các kỹ thuật học máy dự đoán giá tin giả
® Mục tiêu 4: Đánh giá mô hình, xem xét tính hiệu quả của thuật toán
e© - Mục tiêu 5: Kết luận
KET QUA DU KIEN
e Hoan thanh cac muc tiéu dé ra
e Hiéu được bài toán phân tích được bộ dữ liệu và ý nghĩa thực tê của các tham so
® - Dự đoán được tin giả và đưa ra đánh giá kết quả dự đoán
Trang 3Chương 1 Tổng Quan
1.1 Dat van dé
Trong thời đại thông tin số hiện nay, việc phát hiện và ngăn chặn tin giả trở thành một trong những thách thức lớn nhất đối với các nền tảng truyền thông và xã hội Sy gia tang của các tài khoản p1ả mao va thong tin không chính xác đã gay ra những tác động nghiêm trọng đến nhận thức cộng đồng, làm xáo trộn thông tin và ảnh hưởng đến đời sống xã hội Đặc biệt, trong bối cảnh dịch bệnh, thiên tai hay các van
đề chính trị, thông tin sai lệch có thế dẫn đến những quyết định sai lầm và nguy hiểm
Do đó, việc áp đụng các kỹ thuật học máy đề dự đoán và phát hiện tin giả trở nên cần thiết hơn bao giờ hết, không chỉ để bảo vệ người tiêu dùng mà còn để duy trì sự minh
bạch trong thông tin
Với sự phát triển nhanh chóng của công nghệ học máy, việc áp dụng các kỹ thuật này trong việc phát hiện tin giả đã trở thành khả thí và mang lại nhiều lợi ích thiết thực Dự đoán tin giả dựa trên các đặc điểm ngôn ngữ, phong cách viết, và các yếu tố khác không chỉ giúp các tổ chức và cơ quan chức năng phát hiện thông tin sai lệch mà còn cung cấp công cụ hỗ trợ cho người tiêu dùng trong việc nhận diện và tránh xa thông tin không chính xác Đối với các nhà quản lý và nghiên cứu, học máy cung cấp một phương pháp tiếp cận khoa học và dựa trên dữ liệu để xác định và xử lý tin giả, từ đó nâng cao tính chính xác và hiệu quả trong công tác truyền thông
Nghiên cứu này không chỉ mang lại nhiều lợi ích cho lĩnh vực truyền thông mả còn mớ ra nhiều hướng nghiên cứu mới và tiềm năng ứng dụng trong các lĩnh vực
khác như an ninh mạng và bảo mật thông tin Với sự phát triên không ngừng của công
nghệ học máy, việc áp dụng các kỹ thuật này trong việc phát hiện tin giả sẽ ngày càng, trở nên phổ biến và mang lại nhiều 1á trị thiết thực cho xã hội Có thể kỷ vọng vào một tương lai mà các quyết định về thông tin được hỗ trợ bởi các công nehệ tiên tiến, giúp giảm thiêu sự lan truyền của tin giả và tăng cường sự tin cậy trong môi trường thông tin
1.2 Mục tiêu nghiên cứu
Trang 4Tìm hiểu bài toán phát hiện tin giả: Tin giả thường có các đặc điểm ngôn ngữ
và phong cách viết khác biệt so với tin chính xác
Nghiên cứu một số kỹ thuật học máy: Lựa chọn các mô hình học máy phù hợp
để tăng cường độ chính xác của mô hình phát hiện
Áp dụng các kỹ thuật học máy để phát hiện tin giả: Thu thập dữ liệu, tiền xử lý
đữ liệu, và xây dựng mô hình học máy
Đánh giá mô hình: Xem xét hiệu quả của thuật toán thông qua các chỉ số đánh giá như độ chính xác, độ lỗi, và hệ số xác định (R?)
1.3 Đối tượng nghiên cứu và phạm vi nghiên cứu
1.3.1 Đối tượng nghiên cứu
Nghiên cứu mô hình dự đoán va phát hiện tin piả dựa trên các thông tin thụ thập được từ mạng xã hội và các nguồn tin khác
gôm:
1.3.2 Phạm vi nghiên cứu
Pham vi nghiên cứu của đề tài "Dự đoán tín giả bằng kỹ thuật học máy" bao
Loại đữ liệu: Dữ liệu thu thập bao g6m các yêu tô liên quan đên tin ø1ả như nội dung bài việt, phong cách việt, và các đặc điêm ngôn ngữ
Phương pháp học máy: Sử dụng các mô hình như RandomForestClassifier, Support Vector Machines (SVM), va Neural Networks
Trang 5‹ - Đánh giá mô hình: Phạm vi nghiên cứu cũng bao gồm việc đánh giá hiệu suất của các mô hình học máy thông qua các chỉ số như độ chính xác (accuracy), độ lỗi (mean squared error), và các kỹ thuật đánh giá như cross-validation đê đảm bảo mô hình có thể tông quát hóa tốt trên đữ liệu mới
Trang 6Chương 2: Các Kỹ Thuật Sử Dụng Trong
phương pháp học máy khác Học máy có liên quan lớn đến thống kê,
Trang 7vì cả hai lĩnh vực đều nghiên cứu việc phân tích dữ liệu, nhưng khác với thống kê, học máy tập trung vào sự phức tạp của các giải thuật trong việc thực thi tính toán Nhiều bài toán suy luận được xếp vào loại bài toán NP-khó, vì thế một phần của học máy là nghiên cứu sự phát triển các giải thuật suy luận xấp xỉ mà có thể xử lý được
Học máy có hiện nay được áp dụng rộng rãi bao gồm máy truy tìm
dữ liệu, chẩn đoán y khoa, phát hiện thẻ tín dụng giả, phân tích thị trường chứng khoán, phân loại các chuỗi DNA, nhận dạng tiếng nói
và chữ viết, dịch tự động, chơi trò chơi và cử động rô-bốt
3.1.2 Ứng dụng học máy
Hoc máy là lĩnh vực của trí tuệ nhân tạo mà ngày nay đã lan rộng và
áp dụng rộng rãi trong nhiều lĩnh vực khác nhau Dưới đây là một số ứng dụng chính của học máy:
- Xử lý hình ảnh và video: Học máy được sử dụng để nhận diện đối tượng, nhận dạng khuôn mặt, phát hiện và phân tích hành vi trong video
- Xử lý ngôn ngữ tự nhiên: Áp dụng để tổng hợp và phân tích
ngôn ngữ, dịch thuật tự động, xây dựng các hệ thống trợ lý ảo như chatbot
- Dự đoán và phân tích dữ liệu: Học máy giúp dự đoán xu hướng thị trường, phân tích dữ liệu tài chính, tối ưu hóa quy trình kinh doanh và dự báo rủi ro
- _Y tế và chăm sóc sức khỏe: Áp dụng để dự đoán bệnh lý, phân tích hình ảnh y khoa, hỗ trợ trong chẩn đoán và quản lý dữ liệu
lâm sàng
- Tự động hóa và điều khiển: Học máy được sử dụng trong các
hệ thống tự động hóa công nghiệp, điều khiển robot và xe tự lái
Trang 8FinTech: Áp dụng để đánh giá rủi ro tín dụng, giao dịch chứng khoán, quản lý tài chính cá nhân và dự đoán thị trường
Marketing và quảng cáo: Học máy giúp phân tích hành vi người tiêu dùng, tối ưu hóa chiến lược quảng cáo và cá nhân hóa trải nghiệm người dùng
Giáo dục: Sử dụng để cá nhân hóa học tập, cải tiến các phương pháp giảng dạy và phân tích dữ liệu học tập
Dự đoán giá cả: Học máy được áp dụng để dự đoán giá cả của các sản phẩm và dịch vụ trong nhiều lĩnh vực, bao gồm bất động sản, chứng khoán, hàng hóa, và các sản phẩm tiêu dùng Các mô hình học máy như hồi quy, mạng nơ-ron, và phương pháp học sâu được sử dụng để phân tích dữ liệu lịch sử và các yếu tố tác động
để đưa ra các dự đoán chính xác về giá cả trong tương lai
Các thuật toán học máy được phân loại theo kết quả mong muốn của thuật toán Các loại thuật toán thường dùng bao gồm:
Học máy có giám sát (Supervised Learning)
Học máy không giám sát (Unsupervised Learning)
Học máy bán giám sát (Semi-supervised Learning)
Học máy tăng cường (Reinforcement Learning)
Trang 9J Supervised uperVìse Unsupervised pervi Supervised | =e | Reinfo: einrorcemen t
Predict next value) Cdentify clusters) mistakes
có thể là một giá trị liên tục, hay có thể là dự đoán một nhãn phân loại cho một đối tượng đầu vào Nhiệm vụ của chương trình học có giám sát là dự đoán giá trị của hàm cho một đối tượng bất kì là đầu vào hợp lệ, sau khi đã xem xét một số ví dụ huấn luyện Để đạt được
điều này, chương trình học phải tổng quát hóa từ các dữ liệu sẵn có
để dự đoán được những tình huống chưa gặp phải theo một cách
"hợp lý",
Trong Học máy có giám sát (Supervised Learning) có 2 phân loại:
Phân loại (Classification) và Hồi quy (Regression)
% Phân loại (Classirication)
Trang 10Phân loại (Classification) là quá trình dự đoán lớp hoặc nhẫn của một điểm dữ liệu dựa trên các đặc trưng mô tả của nó Mục tiêu của phân loại là phân tách các điểm dữ liệu vào các nhóm (lớp) khác
nhau sao cho mỗi nhóm có các đặc tính riêng biệt
Đặc điểm:
- Đầu vào: Dữ liệu đầu vào cho mô hình phân loại bao gồm các điểm dữ liệu với các đặc trưng mô tả (hoặc vector đặc trưng)
- Đầu ra: Đầu ra của mô hình phân loại là lớp hoặc nhãn được dự
đoán cho mỗi điểm dữ liệu
Các thuật toán phổ biến:
- Cây quyết định (Decision Trees): Xây dựng một cây quyết định
dựa trên các câu hỏi về các đặc trưng để phân loại các điểm dữ
liệu
- Hồi quy Logistic (Logistic Regression): Sử dụng hàm logistic để phân loại dữ liệu thành hai lớp
- May vector hỗ trợ (Support Vector Machines): Tìm ranh giới phân
chia tối ưu giữa các lớp để phân loại dữ liệu
- Cây quyết định, mô hình này xây dựng một cây quyết định dựa
trên các câu hỏi về các đặc trưng của dữ liệu để đưa ra dự đoán
Độ đo hiệu suất:
Trang 11Độ chính xác (Accuracy): Tỷ lệ các dự đoán chính xác so với tổng
số dự đoán
Độ phủ (Recall) và Độ chính xác trung bình (Precision): Được sử dụng để đánh giá hiệu suất của mô hình đối với các lớp cụ thể
Hồi quy (Regression)
Hồi quy (Regression) là quá trình dự đoán giá trị số của một biến mục tiêu dựa trên các đặc trưng mô tả của dữ liệu Mục tiêu của hồi quy là xác định mối quan hệ toán học giữa các đặc trưng và giá trị mục tiêu để dự đoán giá trị mục tiêu cho các điểm dữ liệu mới
Đặc điểm:
- Đầu vào: Dữ liệu đầu vào cho mô hình hồi quy bao gồm các điểm
dữ liệu với các đặc trưng liên tục
- _ Đầu ra: Đầu ra của mô hình hồi quy là giá trị số liên tục
Các thuật toán phổ biến:
Hồi quy tuyến tính (Linear Regression): Dự đoán giá trị mục tiêu
bằng một hàm tuyến tính của các đặc trưng
Hồi quy Ridge và Lasso (Ridge và Lasso Regression): Mở rộng của
hồi quy tuyến tính để giảm thiểu overfitting và cải thiện độ chính
xác
Máy vector hỗ trợ hồi quy (Support Vector Regression): Áp dụng
SVM cho bài toán hồi quy để tìm ranh giới phân chia tối ưu
Độ đo hiệu suất:
Sai số trung bình bình phương (Mean Squared Error): Đo lường sai
số trung bình của các dự đoán so với giá trị thực tế
Sai số tuyệt đối trung bình (Mean Absolute Error): Đo lường sai số trung bình tuyệt đối của các dự đoán
Trang 123.1.3.2 Học máy không giám sát (Unsupervised Learning) Học không có giám sát (unsupervised learning) là một phương pháp của ngành học máy nhằm tìm ra một mô hình mà phù hợp với các quan sát Nó khác biệt với học có giám sát ở chỗ là đầu ra đúng tương ứng cho mỗi đầu vào là không biết trước Trong học không có giám sát, một tập dữ liệu đầu vào được thu thập Học không có giám sát thường đối xử với các đối tượng đầu vào như là một tập các biến ngẫu nhiên Sau đó, một mô hình mật độ kết hợp sẽ được xây dựng cho tập dữ liệu đó
Học không có giám sát có thể được dùng kết hợp với suy luận Bayes
để cho ra xác suất có điều kiện cho bất kì biến ngẫu nhiên nào khi biết trước các biến khác
Học không có giám sát cũng hữu ích cho việc nén dữ liệu: về cơ bản, mọi giải thuật nén dữ liệu hoặc là dựa vào một phân bố xác suất trên một tập đầu vào một cách tường minh hay không tường minh Một dạng khác của học không có giám sát là phân nhóm dữ liệu, nó đôi khi không mang tính xác suất
% Phân cụm (Clustering)
Phân cụm là quá trình nhóm các điểm dữ liệu có đặc tính tương tự vào các nhóm (cụm) sao cho các điểm trong cùng một cụm có tính chất gần nhau hơn so với các điểm ở các cụm khác Mục tiêu của
phân cụm là tìm cách nhóm các điểm dữ liệu mà không cần sự chỉ
định rõ ràng của nhãn lớp
Đặc điểm chính:
- Đầu vào: Dữ liệu đầu vào cho mô hình phân cụm là các điểm dữ
liệu mô tả bằng các đặc trưng
- Đầu ra: Đầu ra của mô hình phân cụm là các nhóm hoặc cụm, mỗi
Trang 13cụm có các điểm dữ liệu có tính chất tương tự nhau
Các thuật toán phổ biến:
- K-means: Phan cụm các điểm dữ liệu bằng cách tìm các trung
tâm cụm sao cho tổng bình phương khoảng cách từ các điểm đến
trung tâm cụm là nhỏ nhất
- Phan cum phan cap (Hierarchical Clustering): Xây dựng một cây phân cụm của các điểm dữ liệu để tìm các cụm con và cụm cha dựa trên độ tương đồng
- Phan cum dựa trên mô hình (Model-based Clustering): Sử dụng
các mô hình thống kê để phân tích phân phối của các cụm trong
không gian dữ liệu
Ứng dụng: Phân cụm được sử dụng rộng rãi trong nhiều lĩnh vực như
marketing để nhóm khách hàng, xử lý dữ liệu để nhóm tin nhắn, và
phân tích hành vi người dùng trên mạng xã hội
+» Phát hiện ngoại lệ (Anomaly Detection)
Phát hiện ngoại lệ là quá trình nhận diện các điểm dữ liệu không giống như phần còn lại của dữ liệu, thường được gọi là ngoại lệ hoặc
sự cố Mục tiêu của phát hiện ngoại lệ là xác định những điểm dữ liệu có tính chất khác biệt so với các điểm dữ liệu bình thường
Đặc điểm:
- _ Đầu vào: Dữ liệu đầu vào cho mô hình phát hiện ngoại lệ là các
điểm dữ liệu mô tả bằng các đặc trưng
- Đầu ra: Đầu ra của mô hình phát hiện ngoại lệ là các điểm dữ liệu được xác định là ngoại lệ hoặc không phải ngoại lệ
Các thuật toán phổ biến:
Trang 14- _ Ngưỡng (Threshold): Thiết lập một ngưỡng để xác định các điểm
dữ liệu ngoại lệ dựa trên các giới hạn định sẵn
- _ Phân phối (Statistical Methods): Sử dụng các phân phối thống kê
như phân phối Gaussian để xác định các điểm dữ liệu có xác suất thấp
Ứng dụng: Phát hiện ngoại lệ được áp dụng trong các lĩnh vực như
an ninh mạng để phát hiện các hành vi độc hại, trong công nghiệp
để phát hiện lỗi sản xuất, và trong tài chính để phát hiện gian lận
3.1.3.3 Học máy bán giám sát (Semi-supervised Learning) Trong khoa học máy tính, học bán giám sát là một lớp của kỹ thuật học máy, sử dụng cả dữ liệu đã gán nhãn và chưa gán nhãn để huấn luyện - điển hình là một lượng nhỏ dữ liệu có gán nhãn cùng với lượng lớn dữ liệu chưa gán nhẫn Học bán giám sát đứng giữa học không giám sát (không có bất kì dữ liệu có nhãn nào) và có giám sát (toàn bộ dữ liệu đều được gán nhãn) Nhiều nhà nghiên cứu nhận thấy dữ liệu không gán nhãn, khi được sử dụng kết hợp với một chút
dữ liệu có gán nhãn, có thể cải thiện đáng kể độ chính xác Để gán nhẫn dữ liệu cho một bài toán học máy thường đòi hỏi một chuyên viên có kĩ năng để phân loại bằng tay các ví dụ huấn luyện Chi phí cho quy trình này khiến tập dữ liệu được gán nhãn hoàn toàn trở nên không khả thi, trong khi dữ liệu không gán nhãn thường tương đối rẻ tiền Trong tình huống đó, học nửa giám sát có giá trị thực tiễn lớn lao
Một ví dụ cho kỹ thuật học máy bán giám sát là đồng huấn luyện (co-training), trong đó một hay nhiều bộ học được huấn luyện cùng một tập ví dụ nhưng mỗi bộ sử dụng một tập đặc trưng khác nhau, lý tưởng nhất là độc lập với nhau
Một cách tiếp cận khác là mô hình hoá phân phối xác suất đồng thời
Trang 15của các đặc trưng và nhãn Với dữ liệu chưa gán nhãn, có thể coi nhãn là "dữ liệu còn thiếu" Các kỹ thuật xử lý dữ liệu còn thiếu như
là lấy mẫu Gibbs và tối ưu kỳ vọng có thể được sử dụng để ước lượng tham số
3.1.3.4 Học máy tăng cường (Reinforcement Learning)
Trong ngành khoa học máy tính, học tăng cường (reinforcement learning) là một lĩnh vực con của học máy, nghiên cứu cách thức một agent trong một môi trường nên chọn thực hiện các hành động nào để cực đại hóa một khoản thưởng nào đó về lâu dài Các thuật toán học tăng cường cố gắng tìm một chiến lược ánh xạ các trạng thái của thế giới tới các hành động mà agent nên chọn trong các trạng thái đó
Môi trường thường được biểu diễn dưới dạng một quá trình quyết
định Markov trạng thái hữu hạn và các thuật toán học tăng cường cho ngữ cảnh này có liên quan nhiều đến các kỹ thuật quy hoạch động Các xác suất chuyển trạng thái và các xác suất thu lợi trong MDP thường là ngẫu nhiên nhưng lại tĩnh trong quá trình của bài toán (stationary over the course of the problem)
Khác với học có giám sát, trong học tăng cường không có các cặp dữ liệu vào/kết quả đúng, các hành động gần tối ưu cũng không được đánh giá đúng sai một cách tường minh Hơn nữa, ở đây hoạt động trực tuyến được quan tâm, trong đó có việc tìm kiếm một sự cân bằng giữa khám phá và khai thác Trong học tăng cường, sự được và mất giữa khám phá và khai thác đã được nghiên cứu chủ yếu qua bài toán multi-armed bandit
3.1.4 Các mô hình hồi quy
3.1.4.1 Linear Regression
Linear Regression là một thuật toán học có giám sát trong Machine Learning, nó là một phương pháp thống kê dùng để ước lượng mối
Trang 16quan hệ giữa các biến độc lập và biến phụ thuộc Linear Regression
giả định rằng sự tương quan giữa các biến là tuyến tính, từ đó tìm ra
hàm tuyến tính tốt nhất để biểu diễn mối quan hệ này Thuật toán
này dự báo giá trị của biến output từ các giá trị của các biến đầu vào
% Các loại Linear Regression
Có hai loại chính của Linear Regression:
- Simple Linear Regression: M6 hình này chỉ có một biến độc lập (input feature) mô tả mối quan hệ tuyến tính giữa biến phụ thuộc (output target) và biến độc lập
- Multiple Linear Regression: M6 hinh nay cé nhiều hơn một biến
độc lập, biểu diễn mối quan hệ tuyến tính giữa các biến độc lập
và biến phụ thuộc
% Mục tiêu của Linear Regression
Mục tiêu của Linear Regression là tìm ra hệ số góc và điểm giao với trục tung sao cho hàm dự đoán tuyến tính đạt được sai số nhỏ nhất
Một trong những cách phổ biến để ước lượng các hệ số là sử dụng
phương pháp Ordinary Least Squares (OLS), trong đó chúng ta cần
tối thiểu hóa tổng bình phương sai số (sum of squared error)
¢ Ung dung cua Linear Regression
Linear Regression duoc Ung dung réng rai trong nhiều lĩnh vực, như:
- Dự báo giá cả: dự đoán giá nhà, giá cổ phiếu, giá nhiên liệu dựa trên các yếu tố như vị trí, kích thước, chất lượng, lượng cung cầu,
- Dự báo điểm số: dự đoán điểm số của học sinh dựa trên thời gian học, nỗ lực, kỹ năng, trình độ giáo viên,
- Dự báo sản phẩm: dự đoán đầu ra sản xuất dựa trên thời gian,
công suất, nguyên liệu, lao động,
- Phân tích chuỗi thời gian: dự đoán xu hướng và chu kỳ của các chuỗi dữ liệu, như bất động sản, thời tiết, xu hướng sản xuất,
Trang 173.1.4.2 DecisionT reeClassifier
Cây quyết định (Decision Tree) là một cây phân cấp có cấu trúc được
dùng để phân lớp các đối tượng dựa vào dãy các luật Các thuộc tính
của đối tượngncó thể thuộc các kiểu dữ liệu khác nhau như Nhị phân
(Binary) , Định danh (Nominal), Thu tu (Ordinal), Số lượng (Quantitative) trong khi đó thuộc tính phân lớp phải có kiểu dữ liệu
la Binary hoac Ordinal
% Nguyên lý hoạt động
- Chọn đặc trưng tốt nhất để phân chia: Tại mỗi nút, thuật toán chọn đặc trưng và giá trị ngưỡng tốt nhất để phân chia dữ liệu thành các tập con nhỏ hơn Đặc trưng và giá trị ngưỡng được
chọn nhằm tối đa hóa độ tinh khiết của các tập con
- Lap lai quá trình: Thuật toán tiếp tục chia nhỏ dữ liệu ở các nút con, lặp lại quá trình cho đến khi đạt được một điều kiện dừng (như độ sâu tối đa của cây hoặc số lượng mẫu tối thiểu tại mỗi lá)
- Gán nhãn cho các lá: Khi không thể chia nhỏ dữ liệu thêm nữa, mỗi lá được gán nhãn dựa trên nhãn phổ biến nhất trong tập dữ liệu tại lá đó
+» Ưu điểm
Cây quyết định là một thuật toán đơn giản và phổ biến Thuật toán
này được sử dụng rộng rãi bới những lợi ích của nó:
- Mô hình sinh ra các quy tắc dễ hiểu cho người đọc, tạo ra bộ luật
với mỗi nhánh lá là một luật của cây
- Dữ liệu đầu vào có thể là là dữ liệu missing, không cần chuẩn
hóa hoặc tạo biến giả
- C6 thé lam việc với cả dữ liệu số và dữ liệu phân loại
- Có thể xác thực mô hình bằng cách sử dụng các kiểm tra thống
kê
- Có khả năng là việc với dữ liệu lớn
Trang 183.1.4.3 RandomForestRegressor
RandomForestRegressor là một phiên bản của thuật toán Random Forest được áp dụng cho các bài toán hồi quy Nó sử dụng một tập hợp các cây quyết định (decision trees) để dự đoán giá trị liên tục
Mô hình cuối cùng là sự trung bình của dự đoán từ tất cả các cây trong rừng
Tạo các mẫu dữ liệu con: Random Forest lấy ngẫu nhiên các mẫu
từ tập dữ liệu gốc với phép thay thế (bootstrap sampling)
Xây dựng các cây quyết định: Với mỗi mẫu, một cây quyết định
được xây dựng Mỗi nút trong cây chỉ xem xét một tập hợp con
ngẫu nhiên của các đặc trưng để tìm ra đặc trưng phân chia tốt
nhất Điều này giúp giảm sự tương quan giữa các cây
Dự đoán: Để dự đoán giá trị mới, RandomForestRegressor tính
toán trung bình của các dự đoán từ tất cả các cây quyết định Đặc điểm
Bootstrap Aggregation (Bagging): Sử dụng kỹ thuật bagging để tạo nhiều mẫu dữ liệu con từ tập dữ liệu gốc
Random Subspace Method: Tại mỗi nút của cây quyết định, chỉ một tập hợp con ngẫu nhiên của các đặc trưng được xem xét để
tìm ra phân chia tốt nhất
Trung bình dự đoán: Dự đoán cuối cùng là trung bình của các dự
đoán từ tất cả các cây trong rừng
Ưu điểm
Giảm overfitting: Bằng cách trung bình hóa kết quả từ nhiều cây, Random Forest giúp giảm thiểu overfitting so với các cây quyết
Trang 19định đơn lẻ
- - Xử lý dữ liệu lớn: RandomForestRegressor có thể xử lý các tập dữ liệu lớn và phức tạp một cách hiệu quả
- Không yêu cầu chuẩn hóa dữ liệu: Không cần chuẩn hóa hay chuyển đổi đặc trưng vì các cây quyết định không bị ảnh hưởng
bởi tỷ lệ hoặc độ lệch của dữ liệu
- Đánh giá quan trọng của đặc trưng: Random Forest cung cấp các thước đo để đánh giá tầm quan trọng của các đặc trưng