Thời đại internet phát triển, cũng là thời đại tin tức bùm nổ, số lượng thông tin ngày càng nhiều, vì thế gây ra việc khó khăn trong việc chọn lọc thông tin, việc tiếp nhận thông tin sai lệch có thể gây ra các hậu quả nghiêm trọng, ví dụ như các cuộc biểu tình, hoặc các hành vi sai lệch của giới trẻ. Mục tiêu cuối cùng của project: Tạo ra hệ thống có thể phân loại lập trường giữa tiêu đề và nội dung bài báo: + Đồng ý + Không đồng ý + Liên quan với nhau + Không liên quan với nhau
TRƯỜNG ĐẠI HỌC SƯ PHẠM KỸ THUẬT THÀNH PHỐ HỒ CHÍ MINH KHOA ĐÀO TẠO CHẤT LƯỢNG CAO BÁO CÁO CUỐI KÌ ĐỀ TÀI: Phân Loại Lập Trường Giữa Tiêu Đề Và Nội Dung Bài Báo MÔN: MÁY HỌC 1.Bảng phân công công việc: 2.Mục tiêu, lý chọn project: Hình 1.internet phát triển - Thời đại internet phát triển, thời đại tin tức bùm nổ, số lượng thơng tin ngày nhiều, gây việc khó khăn việc chọn lọc thơng tin, việc tiếp nhận thơng tin sai lệch gây hậu nghiêm trọng, ví dụ biểu tình, hành vi sai lệch giới trẻ Mục tiêu cuối project: - Tạo hệ thống phân loại lập trường tiêu đề nội dung báo: + Đồng ý + Không đồng ý + Liên quan với + Không liên quan với 3.Thách thức: Hình 2.Câu, từ đa nghĩa - Câu từ đa nghĩa: Các câu từ tiếng anh có nhiều nghĩa hồn tồn khác tùy vào ngữ cảnh, việc hiểu xác câu nói vấn đề thách thức đề tài Hình 3.Đa dạng cách viết - Đa dạng cách viết: Mỗi người, tác giả viết có cách viết, hành ngôn khác nhau, việc xử lý ngôn ngữ tự nhiên gặp thách thức lớn để giải vấn đề 4.Phương pháp giải quyết: Sử dụng phương pháp FNC-I với TF-IDF vectorizer Hình 4.FNC-I - Đầu vào nội dung headline body, sau qua phân loại trích xuất bốn đặc trưng: +Agrees ( đồng ý) +Disagrees ( không đồng ý) +Discusses ( liên quan với nhau) +Unrelated ( không liên quan với nhau) Hình 5.Sơ đồ hoạt động FNC-I - Phương pháp trước tiên xem xét headline body xem có liên quan với khơng (Related ?), từ xem xét đặc trưng cịn lại Hình 6.Cách thức FNC-I hoạt động - FNC-I sử dụng phương pháp tf idf, đánh giá mức độ quan trọng từ sử dụng - Từ liệu train đầu vào ta trích xuất 5000 từ vựng dùng nhiều tiêu đề phần nội dung - Đầu vào bao gồm: +vector TF tiêu đề +vector TF phần thân -Từ đầu vào tính TF-IDF tương đồng cosin hai vector tiêu đề phần thân -Tổng (vector TF tiêu đề, vector TF phần thân, TF-IDF tương đồng ) gộp lại thành vector đặc trưng kích thước 10000 từ -Qua lớp layer, cuối trích xuất đặc trưng output 5.Tập liệu sử dụng: - 5000 báo khác nhau, thuộc nhiều lĩnh vực - Gồm cột: + Số thứ tự + Tiêu đề + Nội dung + Lập trường xếp loại Hình 7.Ví dụ liệu - Dữ liệu chia thành loại: + 2500 báo : data train (50%) + 2500 báo : data test (50%) 6.Phương pháp đánh giá: Sử dụng Cross validation - Cross validation kỹ thuật lấy mẫu để đánh giá mơ hình học máy trường hợp liệu không dồi cho Kỹ thuật thường bao gồm bước sau: + Xáo trộn dataset cách ngẫu nhiên + Chia dataset thành k nhóm + Với nhóm: *Sử dụng nhóm để đánh giá hiệu mơ hình *Các nhóm cịn lại sử dụng để huấn luyện mơ hình *Huấn luyện mơ hình *Đánh giá sau hủy mơ hình + Tổng hợp hiệu mơ hình dựa từ số liệu đánh giá Hình 8.K-Fold Cross validation 7.Kết đạt được, phương hướng phát triển: - Kết thực tế : Hình 9.Kết Kết đạt được: -Tạo hệ thống phân loại lập trường tiêu đề nội dung báo: +Đồng ý +Không đồng ý +Liên quan với +Không liên quan với Hạn chế: -Chưa chuyên sâu vào phương thức hoạt động -Độ xác chưa cao Phương hướng phát triển: -Cải thiện độ xác: nhóm em hy vọng cải thiện độ xác phương pháp -Phát tin giả: từ phát lập trường, mối quan hệ tiêu đề nội dung báo, nhóm em hy vọng phát triển thêm phát tin tức giả mạo Hình 10.Phát tin giả ... train đầu vào ta trích xuất 5000 từ vựng dùng nhiều tiêu đề phần nội dung - Đầu vào bao gồm: +vector TF tiêu đề +vector TF phần thân -Từ đầu vào tính TF-IDF tương đồng cosin hai vector tiêu đề phần... nghiêm trọng, ví dụ biểu tình, hành vi sai lệch giới trẻ Mục tiêu cuối project: - Tạo hệ thống phân loại lập trường tiêu đề nội dung báo: + Đồng ý + Không đồng ý + Liên quan với + Không liên quan... lĩnh vực - Gồm cột: + Số thứ tự + Tiêu đề + Nội dung + Lập trường xếp loại Hình 7.Ví dụ liệu - Dữ liệu chia thành loại: + 2500 báo : data train (50%) + 2500 báo : data test (50%) 6.Phương pháp