1. Trang chủ
  2. » Giáo Dục - Đào Tạo

(TIỂU LUẬN) học máy đề tài PHÁT HIỆN TIN GIẢ với SVM

31 198 1

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 31
Dung lượng 3,44 MB

Nội dung

BỘ CÔNG THƯƠNG TRƯỜNG ĐẠI HỌC CÔNG NGHIỆP HÀ NỘI KHOA CNTT -♣♣♣ - HỌC MÁY ĐỀ TÀI PHÁT HIỆN TIN GIẢ VỚI SVM Giảng viên hướng dẫn : ThS Lê Thị Thủy Sinh viên thực : Bùi Công Tùng - 2020608603 Nguyễn Thị Hường - 2019607824 Vũ Chí Trung - 2020608748 Hà Nội – 2022 PHÂN CÔNG CÔNG VIỆC VIẾT BÁO CÁO Đề tài: Phát tin giả với SVM Tuần Người thực Bùi Cơng Tùng Nguyễn Thị Hường Vũ Chí Trung Vũ Chí Trung Nguyễn Thị Hường Bùi Cơng Tùng |Nhóm – Học Máy Bùi Cơng Tùng MỤC LỤC PHÂN CƠNG CƠNG VIỆC VIẾT BÁO CÁO LỜI CẢM ƠN LỜI NÓI ĐẦU DANH MỤC HÌNH ẢNH SỬ DỤNG .6 CHƯƠNG 1: TỔNG QUAN VỀ ĐỀ TÀI PHÁT HIỆN TIN ĐỒN I Tổng quan phát tin đồn II Các mơ hình cho tốn phát tin giả Định nghĩa, khái niệm mơ hình  Mơ hình Navie Bayes  Mơ hình KNN  Mơ hình SVM 10 CHƯƠNG 2: XÂY DỰNG PHẦN MỀM PHÁT HIỆN TIN ĐỒN 13 I Khái niệm .13 II Xây dựng phần mềm phát tin giả 14 CHƯƠNG 3: NỘI DUNG VÀ KẾT QUẢ THỰC NGHIỆM .16 I Nội dung .16 1.1 Chuẩn bị liệu 16 1.2 Xử lý liệu 17 II Chương trình kết thực nghiệm 18 2.1 Khởi tạo mơi trường chạy chương trình 18 2.2 Kết thực nghiệm .24 KẾT LUẬN 26 TÀI LIỆU THAM KHẢO 27 |Nhóm – Học Máy LỜI CẢM ƠN Lời cho phép em gửi lời cảm ơn sâu sắc tới thầy cô khoa Công nghệ thông tin - Trường Đại học Cơng Nghiệp Hà Nội, người truyền đạt dẫn cho em kiến thức, học quý báu bổ ích Đặc biệt em xin bày tỏ tri ân xin chân thành cảm ơn giảng viên ThS Lê Thị Thủy người trực tiếp hướng dẫn, bảo em suốt q trình học tập, nghiên cứu hồn thành đồ án Sau nữa, em xin gửi tình cảm sâu sắc tới gia đình bạn bè ln bên cạnh khuyến khích, động viên, giúp đỡ vật chất linh tinh thần cho chúng em suốt qui trình học tập để em hồn thành tốt việc học tập thân Trong thời đại bùng nổ thông tin, phát triển mạng xã hội thời đại 4.0 nay, người tiếp cận nhanh với cơng nghệ, hình ảnh, thứ xung quanh, văn bản, thơ ca, tin tức… việc gặp phải tin giả, nguồn tin xuyên tạc, khơng đúng, tin khơng thống, khơng đáng tin cậy "Fake News" điều khơng thể tránh khỏi Thậm chí tin giả nhìn nhận mối đe dọa lớn đến tiếp cận, tri thức, tranh luận tự do, ảnh hưởng nhiều đến mặt đời sống xã hội Chính em lựa chọn đề tài: “Phát tin giả với SVM“ làm đề tài kết thúc môn học Trong trình nghiên cứu làm đề tài, lực, kiến thức, trình độ thân em cịn hạn hẹp nên khơng tránh khỏi thiếu sót em mong mỏi nhận thơng cảm góp ý từ q thầy bạn lớp Em xin chân thành cảm ơn! Hà nội, ngày 05 tháng 02 năm 2022 Nhóm |Nhóm – Học Máy LỜI NĨI ĐẦU Những năm gần đây, AI lên chứng cách mạng cơng nghiệp lần thứ tư Trí tuệ nhân tạo định nghĩa ngành khoa học máy tính liên quan đến việc tự động hóa hành vi thơng minh Trí tuệ nhân tạo phận khoa học máy tính phải đặt nguyên lý lý thuyết vững chắc, có khả ứng dụng ca lĩnh vực Ở thời điểm tại, thuật ngữ thường dùng để nói đến máy tính có mục đích khơng định ngành khoa học nghiên cứu lý thuyết ứng dụng trí tuệ nhân tạo Theo đà phát triển cơng nghệ, ứng dụng trí tuệ nhân tạo xu hướng công nghệ tương lai mà hãng cơng nghệ tồn giới đua sáng tạo, tảng cốt lõi cách mạng công nghệ 4.0 ML (Machine Learning) lĩnh vực trí tuệ nhân tạo, sinh từ khả nhận diện mẫu vả từ lý thuyết máy tính học mà khơng cần phải lập trình để xử lý nhiệm vụ cụ thể Hầu hết Doanh nghiệp làm việc với lượng lớn liệu nhận tầm quan trọng công nghệ AI, đặc biệt phát tin giả, tin đồn khơng có cứ, khơng xác thực khơng thống Những nhìn sáng st từ nguồn liệu chủ yếu dong thời gian thực giúp tổ chức, doanh nghiệp vận hành hiệu tạo lợi cạnh tranh với đối thủ Các ứng dụng AI quen thuộc với người: xe tự hành Google Tesla, hệ thống tự tag khuôn mặt Facebook, hệ thống gợi ý sản phẩm Amazon, hệ thống gợi ý phim ứng dụng Netflix… vài ứng dụng muôn vàn ứng dụng trí tuệ nhân tạo Machine Learning Trong báo cáo thực tập, em nghiên cứu mơ hình học máy Machine Learning để ứng dụng vào xây dựng phần mềm phát tin đồn mạng xã hội ngôn ngữ Python Trong phạm vi báo cáo đồ án, em trình bày chương sau: Chương 1: Tổng quan đề tài - Phát tin giả Trong phần em trình bày khái niệm tin đồn, sơ lược toán đặt gì, input output cho đề tài phát tin đồn mạng xã hội |Nhóm – Học Máy Giới thiệu tóm tắt ưu nhược điểm mơ hình dùng cho phân loại liệu mà em biết mơ hình Navie Bayes, mơ hình SVM, mơ hình Random Forest, mơ hình KNN(K-Nearest Neighbors) từ lựa chọn mơ hình phù hợp với mơi trường làm việc Sau tìm hiểu, nghiên cứu xây dựng chương trình phát tin giả Chương 2: Phát tin giả Với toán phân loại liệu văn bản, tin tức đặt đây, em khái quát bước để thầy cô bạn hình dung cách xử lý toán Với đầu vào(input) liệu văn bản, tin tức đắn xác thực tin giả không thật, bịa đặt từ nguồn tin không xác thực mà biết nhiên máy chưa biết, chưa đọc hiểu được, qua trình xử lý văn bản, số hóa văn bản, qua mơ hình xử lý nhằm phân loại liệu văn bản, tin tức văn bản, tin tức hay sai - phát tin giả – tin không thật, bịa đặt từ nguồn tin khơng xác thực, khơng thống Dữ liệu văn bản, tin tức… mặt xã hội Chương 3: Nội dung kết thực nghiệm Với kiến thức tìm tịi, chuẩn bị nghiên cứu, em tiến hành cài đặt mơi trường chạy thử nghiệm mơ hình Thu thập kết chạy chương trình đánh giá trường hợp dựa kết đầu ra, tốc độ xử lý mức độ chuẩn xác Cuối phần kết luận đánh giá kết đề tài nói chung, đưa điểm đạt chưa đạt đề tài này, đưa định hướng phát triển cho mơ hồn thiện tốt sản phẩm phần mềm sau |Nhóm – Học Máy DANH MỤC HÌNH ẢNH SỬ DỤNG Hình Ví dụ mơ hình KNN Hình Ví dụ mơ hình KNN Hình Mơ hình SVM (nguồn wikipedia) 10 Hình Ví dụ siêu phẳng phân tách liệu (nguồn wikipedia) 11 Hình Các mẩu tin tức, văn chưa xác thực( Dữ liệu thơ) Hình Cài đặt thư viện hàm xử lý Hình Xử lý liệu Hình Cài đặt mơ hình NavieBays Hình Cài đặt mơ hình KNN Hình 10 Cài đặt mơ hình SVM Hình 11 Dự đốn mơ hình SVM Hình 12 Độ xác dự đốn mơ hình |Nhóm – Học Máy CHƯƠNG 1: TỔNG QUAN VỀ ĐỀ TÀI PHÁT HIỆN TIN ĐỒN I Tổng quan phát tin đồn Phân loại văn (Text classification) toán phổ biến xử lý ngôn ngữ tự nhiên (Nature Language Processing) Phân loại văn toán thuộc nhóm học có giám sát (Supervised Learning) Học máy Bài tốn u cầu liệu cần có nhãn (label) Mơ hình học từ liệu có nhãn đó, sau dùng để dự đốn nhãn cho liệu mà mơ hình chưa gặp Bài tốn đặt với mẫu liệu văn đầu vào bất kỳ, ngẫu nhiên, từ thao tác đánh máy, chép coppy từ trang web online có chứa nội dung sau qua máy học ta có mẫu liệu đầu văn dự đoán phân loại Trong tốn, bước xây dựng mơ hình SVM - Support Vector Machine để phân loại tin thật tin giả Với toán phân loại văn phổ biến dùng nhiều mơ hình khác mơ hình SVM, Navie Bayes, Logistic, Random Forest, K Nearest Neighbors… để giải toán đặt Chúng ta tìm hiểu qua mơ hình, ưu nhược điểm mơ hình nêu II Các mơ hình cho tốn phát tin giả Định nghĩa, khái niệm mơ hình Hiện với tốn phát tin đồn ta sử dụng nhiều mơ hình khác tùy thuộc vào u cầu tốn liệu để đạt kết mong muốn  Mô hình Navie Bayes Naive Bayes Classification (NBC) mơ hình thuộc vào nhóm học máy có giám sát, dựa định lý Bayes lý thuyết xác suất để đưa phán đoán phân loại liệu dựa liệu quan sát thống kê, ứng dụng nhiều lĩnh vực Machine learning dùng để đưa dự đốn có độ xác cao, dựa tập liệu thu thập |Nhóm – Học Máy Định lý Bayes phát biểu mặt toán học dạng phương trình sau: A B kiện P (B) #  Về bản, ta cố gắng tìm xác suất kiện A, với điều kiện kiện B Sự kiện B gọi chứng  P (A) tiên nghiệm A (xác suất trước, tức xác suất kiện trước chứng nhìn thấy) Bằng chứng giá trị thuộc tính cá thể khơng xác định (ở kiện B)  P (A | B) xác suất hậu kỳ B, tức xác suất kiện sau chứng nhìn thấy Ưu điểm:  Hoạt động tốt cho nhiều toán/miền sữ liệu ứng dụng  Đơn giản đủ tốt để giải nhiều toán phân lớp văn bản, lọc spam,  Cho phép kết hợp tri thức tiền nghiệm (prior knowledge) liệu quan sát (obserwed data)  Tốt có chệnh lệch số lượng lớp phân loại  Huấn luyện mơ hình (ước lượng tham số) dễ nhanh Nhược điểm: Các thuộc tính đối tượng thường phụ thuộc lẫn Vấn đề Zero phân lớp, có đối tượng X (trong liệu huấn luyện) khơng có thuộc tính lớp Ck, có thuộc tính Fi nhận giá trị cụ thể vij, xác suất điều kiện P(Fi = xij | Ck) 0) Không huấn luyện phượng pháp tối ưu mạnh chặt chẽ Tham số mủa mơ hình ước lượng xác suất điều kiện đơn lẻ Khơng tính đến tương tác ước lượng Phát tin đồn giúp tìm kiếm thơng tin cách nhanh chóng hơn, nắm bắt thơng tin xác thay phải tìm lần lượt, cần xác thực lại nguồn tin, tin tức xem có xác hay khơng, mà số lượng tin tức gia tăng cách nhanh chóng thao tác tìm kiếm hay phân biệt tin tức nhiều thời gian, công sức, nhàm chán khơng khả thi Chính nhu cầu phát tin đồn, tin tức giả mạo, khơng xác thực cần thiết II Xây dựng phần mềm phát tin giả Chúng ta xây dựng phần mềm phát tin đồn với ngôn ngữ lập trình Python – ngơn ngữ lập trình phổ biến ứng dụng đa dạng, code Python dễ đọc, ngắn gọn, nhanh, mạnh phù hợp với hệ điều hành Để mơ hình Mechine Learning dự đoán phát hiện, phân loại tin tức cách xác trước tiên cần huấn luyện cho máy học liệu Train ban đầu Chúng ta hình dung việc huấn luyện cho máy giống việc em bé muốn đọc chữ cần dạy cho em bé nhận thức bảng chữ Với toán em chuẩn bị liệu file Fake.csv chứa ~23500 dòng mẫu liệu cột Cột xác định tiêu đề tin tức, cột thứ nội dung tin tức, cột thứ thể loại tin tức, cột cuối ngày tháng đưa tin tức Tương tự file True.csv chứa ~21400 dòng mẫu liệu tin tức cột Cột xác định tiêu đề tin tức, cột thứ nội dung tin tức, cột thứ thể loại tin tức, cột cuối ngày tháng đưa tin tức Tất mẩu tin tức, văn từ file csv chưa xác thực, liệu đầu vào thô chưa xử lý Phần mềm xây dựng với mục đích phát tin tức giả mạo, bằng cách sử dụng sklearn xây dựng TfidfVectorizer tập liệu Sau đó, khởi tạo phân loại thụ động cho phù hợp với mơ hình training Cuối cùng, để kiểm tra tính hiệu mơ hình ta sử dụng accuracy score để đánh giá độ xác hiệu mơ hình Để hiểu trình phần mềm phát tin đồn hoạt động ta cần tìm hiều thuật ngữ TfidfVectorizer TF: Term Frequency (Tần suất xuất từ) số lần từ xuất văn Vì văn có độ dài ngắn khác nên số từ có 14 |Nhóm – Học Máy thể xuất nhiều lần văn dài văn ngắn Cụm từ có giá trị TF cao cụm từ khác có nghĩa cụm từ xuất thường xuyên cụm từ khác IDF: Inverse Document Frequency tính tốn độ quan trọng từ Khi tính tốn TF, từ quan trọng nhau, có số từ tiếng Anh "is", "of", "that", xuất nhiều lại quan trọng Vì vậy, cần phương thức bù trừ từ xuất nhiều lần tăng độ quan trọng từ xuất có ý nghĩa đặc biệt cho số đoạn văn TfidfVectorizer chuyển đổi tập hợp tài liệu thô thành ma trận đặc trưng TF-IDF Tiếp đến cài đặt mơ hình Mechine Learning để giải toán phát tin đồn nhằm đánh giá độ xác hiệu mơ hình, so sánh mơ hình với nhau, cho thấy đầu ra(output) liệu xử lý từ phán đốn xác nguồn liệu, phát tin thật tin giả - Fake news Qua kết nhận từ việc đánh giá độ xác mơ hình xác định mơ hình hiệu dùng cho phát triển, xây dựng phần mềm phát tin đồn xã hội 15 |Nhóm – Học Máy CHƯƠNG 3: NỘI DUNG VÀ KẾT QUẢ THỰC NGHIỆM I Nội dung Đề giải toán phát tin đồn cách tối ưu hiệu quả, em cài đặt phần mềm với mơ hình Mechine Learning khác nhằm đưa nhận định, so sánh độ hiệu mơ hình, tăng tính đắn xác thực cho tin tức, mẫu liệu, tin…với ngơn ngữ lập trình Python 1.1 Chuẩn bị liệu Để xây dựng phần mềm phát tin đồn xã hội, chuẩn bị mẫu liệu mẩu tin tức, văn chưa xác thực, liệu đầu vào thô chưa xử lý Hình Các mẩu tin tức, văn chưa xác thực( Dữ liệu thô) Với liệu ban đầu file Fake.csv chứa ~23500 dòng mẫu liệu cột Cột xác định tiêu đề tin tức, cột thứ nội dung tin tức, cột thứ thể loại tin tức, cột cuối ngày tháng đưa tin tức Tương tự file True.csv chứa ~21400 dòng mẫu liệu tin tức cột Cột xác định tiêu đề tin tức, cột thứ nội dung tin tức, cột thứ thể loại tin tức, cột cuối 16 |Nhóm – Học Máy ngày tháng đưa tin tức Tất mẩu tin tức, văn từ file csv chưa xác thực, liệu đầu vào thơ cịn chưa xử lý Bước tiếp theo, tiến hành tiền xử lý liệu thô trước đưa vào huấn luyện với mơ hình cho phân loại tin tức Việc tiền xử lý liệu quan trọng để đảm bảo mơ hình đạt kết tốt 1.2 Xử lý liệu Xử lý liệu q trình chuẩn hóa liệu loại bỏ thành phần khơng có ý nghĩa cho việc phân loại liệu Ở khởi tạo vector TfidfVectorizer với stop word tiếng Anh Stop word từ phổ biến ngôn ngữ lọc trước xử lý liệu ngôn ngữ TfidfVectorizer biến liệu thô thành ma trận đặc trưng TF-IDF Hình Cài đặt thư viện hàm xử lý 17 |Nhóm – Học Máy II Chương trình kết thực nghiệm 2.1 Khởi tạo mơi trường chạy chương trình * Xây dựng phần mềm phát tin đồn – Fake news - Bước 1: Import thư viện cần thiết - Bước 2: Đọc liệu - Bước 3: Xử lý liệu 18 |Nhóm – Học Máy 19 |Nhóm – Học Máy Hình Xử lý liệu Xử lý liệu cách bỏ khoảng cách trống, liệu không cần thiếu phần ngày tháng tin tức, thể loại tin tức, trọng vào nội dung tiêu đề tin tức Dữ liệu sau xử lý xếp lại thành cột gồm tiêu đề(title) nội dung(text) Dữ liệu real(tin thật) đặt vào class dạng danh sách, liệu fake(tin giả, tin đồn) đặt vào class dạng danh sách Tiếp theo cài đặt mơ hình sử dụng TfidfVectorizer biến liệu thô thành ma trận đặc trưng TF-IDF Sau máy học tiến hành chuẩn hóa liệu, đưa dự đốn theo mơ hình Mechine Learning Chúng ta đánh giá hiệu mơ hình qua kết dự đốn liệu mơ hình 20 |Nhóm – Học Máy Hình Cài đặt mơ hình NavieBays 21 |Nhóm – Học Máy Hình Cài đặt mơ hình KNN 22 |Nhóm – Học Máy Hình 10 Cài đặt mơ hình SVM 23 |Nhóm – Học Máy Hình 11 Dự đốn mơ hình SVM 24 |Nhóm – Học Máy 2.2 Kết thực nghiệm Sau cài đặt chạy thành công mơ hình, dựa liệu(output) thu tiến hành đánh giá độ xác so sánh mơ hình Hình 12 Độ xác dự đốn mơ hình 25 |Nhóm – Học Máy Chúng ta so sánh kết Output dựa biểu đồ, ta thấy độ xác mơ hình thể biểu đồ Với tốn đặt ban đầu mơ hình SVM đạt hiệu phân loại xác cao ~93% so với mơ hình Machine Learning Trong tương lai với nhiều toán khác phân loại liệu… cân nhắc sử dụng mơ hình Machine Learning phù hợp giúp giải vấn đề cách hiệu nhất, vừa rút ngắn thời gian, giảm nhớ liệu… tối ưu để đạt kết mong đợi Trong trình thực đề tài, chúng em đa cố gắng để tìm hiểu học hỏi khả cịn giới han khơng tránh khỏi sai sót, chưa giải đươc hết tất vấn đề đặt Chúng em mong nhận đươc thông cảm thây cô ban 26 |Nhóm – Học Máy KẾT LUẬN Trong thời đại bùng nổ thông tin, đặc biệt thời đại công nghệ 4.0 phát triển mạng xã hội việc gặp phải "Fake News" điều tránh khỏi Thậm chí tin giả tin tặc nhìn nhận mối đe dọa lớn đến tiếp cận tri thức, văn hóa tranh luận tự Vì cần phải biết lọc phát tin tức fake news hay không để theo dõi tránh bị nguồn tin sai lệch, tin giả tin tặc làm ảnh hưởng đến sống Qua đề tài học cách xây dựng mơ hình phát fake news, triển khai TfidfVectorizer, khởi chạy mơ hình Mechine Learning để làm tiền đề xây dựng thành công ứng dụng phát tin đồn mong muốn đặt có hiệu cao phù hợp với trạng sống Hi vọng thời gian tới thành công xây dựng phần mềm phát tin đồn xã hội 27 |Nhóm – Học Máy TÀI LIỆU THAM KHẢO * Link tham khảo mẫu liệu tài liệu liên quan: - Data Fake news : [https://raw.githubusercontent.com/laxmimerit/fake-real-news-dataset/ main/data/Fake.csv] [https://raw.githubusercontent.com/laxmimerit/fake-real-news-dataset/ main/data/True.csv] Tìm hiểu ngơn ngữ lập trình Python: [ https://www.w3schools.com/python/ ] Tìm hiểu mơ hình Mechine Learning [ https://machinelearningcoban.com] Sách tham khảo: >> Ebook Python - Python tiếng Việt siêu Võ Tuấn Duy xuất 30-08-2018 Với 15 chương, chương trình bày khía cạnh Python thông qua trải nghiệm thực tế tác giả Tài liệu miễn phí giúp tiếp cận tự học ngôn ngữ lập trình Python ========== ***** =========== 28 |Nhóm – Học Máy ... hưởng nhiều đến mặt đời sống xã hội Chính em lựa chọn đề tài: ? ?Phát tin giả với SVM? ?? làm đề tài kết thúc môn học Trong trình nghiên cứu làm đề tài, lực, kiến thức, trình độ thân em cịn hạn hẹp nên... Hình 10 Cài đặt mơ hình SVM Hình 11 Dự đốn mơ hình SVM Hình 12 Độ xác dự đốn mơ hình |Nhóm – Học Máy CHƯƠNG 1: TỔNG QUAN VỀ ĐỀ TÀI PHÁT HIỆN TIN ĐỒN I Tổng quan phát tin đồn Phân loại văn (Text... lưu trữ tất liệu Và với toán đặt cho đề tài Phát tin giả chúng em chọn mơ hình SVM để giải cách tối ưu cho tốn  Mơ hình SVM Mơ hình SVM - Support Vector Machine mơ hình học có giám sát, sử dụng

Ngày đăng: 11/12/2022, 04:35

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w