1. Trang chủ
  2. » Luận Văn - Báo Cáo

Nghiên cứu xây dựng hệ thống hỗ trợ xác định một số luồng dư luận về trường đại học trên mạng xã hội

62 1 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 62
Dung lượng 2,51 MB

Nội dung

Liên hệ ZALO 0353764719 hoặc GMAIL: 123docntcgmail.com để mua tài liệu với giá ưu đãi, GIẢM GIÁ 20 60% giá tài liệu Liên hệ ZALO 0353764719 hoặc GMAIL: 123docntcgmail.com để mua tài liệu với giá ưu đãi, GIẢM GIÁ 20 60% giá tài liệu

HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THƠNG KHOA CƠNG NGHỆ THÔNG TIN - ĐỒ ÁN TỐT NGHIỆP ĐỀ TÀI NGHIÊN CỨU XÂY DỰNG HỆ THỐNG HỖ TRỢ XÁC ĐỊNH MỘT SỐ LUỒNG DƯ LUẬN VỀ TRƯỜNG ĐẠI HỌC TRÊN MẠNG XÃ HỘI Sinh viên thực hiện: Mã sinh viên: Lớp: Khóa: Hệ: Giảng viên hướng dẫn: LÊ VĂN SANG B17DCCN530 D17HTTT1 2017-2021 ĐẠI HỌC CHÍNH QUY PGS.TS NGUYỄN MẠNH HÙNG Hà Nội, 2022 HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THÔNG KHOA CÔNG NGHỆ THÔNG TIN - ĐỒ ÁN TỐT NGHIỆP ĐỀ TÀI NGHIÊN CỨU XÂY DỰNG HỆ THỐNG HỖ TRỢ XÁC ĐỊNH MỘT SỐ LUỒNG DƯ LUẬN VỀ TRƯỜNG ĐẠI HỌC TRÊN MẠNG XÃ HỘI Sinh viên thực hiện: Mã sinh viên: Lớp: Khóa: Hệ: Giảng viên hướng dẫn: LÊ VĂN SANG B17DCCN530 D17HTTT1 2017-2021 ĐẠI HỌC CHÍNH QUY PGS.TS NGUYỄN MẠNH HÙNG Hà Nội, 2022 ĐỒ ÁN TỐT NGHIỆP LỜI CẢM ƠN Để hoàn thành đồ án tốt nghiệp này, nỗ lực cố gắng thân, em nhận nhiều giúp đỡ hỗ trợ từ nhiều người Lời cảm ơn đầu tiên, em xin gửi tới người Thầy hướng dẫn em, Thầy Nguyễn Mạnh Hùng Nhờ có tận tình Thầy trình làm đồ án, em có hiểu biết sâu sắc hơn, đặc biệt lĩnh vực liên quan đến trí tuệ nhân tạo, xây dựng hệ thống Bên cạnh đó, Thầy người hướng dẫn, góp ý định hướng giải vấn đề em gặp khó khăn Tồn q trình làm việc với Thầy giúp em trau dồi tích lũy thêm nhiều kiến thức kinh nghiệm quý báu lĩnh vực mà em theo đuổi Em xin gửi lời cảm ơn tới quý thầy cô Học viện Khoa Công nghệ thông tin truyền tải nhiều kiến thức bổ ích với ngành học mà em lựa chọn năm làm sinh viên Trường Em chúc thầy ln có sức khỏe, hạnh phúc có thêm nhiều lớp sinh viên truyền lửa từ nhiệt huyết thầy cô cập bến bờ thành công Đồng thời em muốn gửi lời cảm ơn tới gia đình, người ln u thương, động viên em suốt thời gian học tập Học viện Con cảm ơn bố mẹ tin tưởng, quan tâm để hồn thành q trình học tập Lời cảm ơn cuối cùng, em xin gửi tới người bạn tốt đồng hành em suốt trình học tập Quãng thời gian có người thời gian tươi đẹp quãng đời sinh viên em Em xin chúc tất người thật nhiều sức khỏe, thành công! Hà Nội, tháng 01 năm 2022 Sinh viên Lê Văn Sang LÊ VĂN SANG – D17HTTT1 i ĐỒ ÁN TỐT NGHIỆP NHẬN XÉT, ĐÁNH GIÁ, CHO ĐIỂM (Của giảng viên hướng dẫn) Điểm: (bằng chữ: ) Đồng ý/Không đồng ý cho sinh viên bảo vệ trước hội đồng chấm tốt nghiệp Hà Nội, tháng 01 năm 2022 CÁN BỘ - GIẢNG VIÊN HƯỚNG DẪN PGS.TS NGUYỄN MẠNH HÙNG LÊ VĂN SANG – D17HTTT1 ii ĐỒ ÁN TỐT NGHIỆP NHẬN XÉT, ĐÁNH GIÁ, CHO ĐIỂM (Của giảng viên phản biện) Điểm: (bằng chữ: ) Đồng ý/Không đồng ý cho sinh viên bảo vệ trước hội đồng chấm tốt nghiệp Hà Nội, tháng 01 năm 2022 CÁN BỘ - GIẢNG VIÊN PHẢN BIỆN LÊ VĂN SANG – D17HTTT1 iii ĐỒ ÁN TỐT NGHIỆP MỤC LỤC LỜI CẢM ƠN i DANH MỤC KÍ HIỆU VÀ CHỮ VIẾT TĂT vi DANH MỤC CÁC BẢNG vii DANH MỤC CÁC HÌNH VẼ viii MỞ ĐẦU CHƯƠNG 1: GIỚI THIỆU CHUNG 1.1 Giới thiệu toán 1.2 Phân loại văn 1.3 Các hướng nghiên cứu giải toán 1.3.1 Một số kĩ thuật trích xuất đặc trưng 1.3.2 Một số thuật toán phân loại văn 1.4 Đề xuất hướng tiếp cận đồ án 10 1.5 Kết luận 12 CHƯƠNG 2: THUẬT TOÁN PHÂN LỚP LOGISTIC REGRESSION 13 2.1 Tổng quan bước xây dựng mơ hình phân loại đăng theo chủ đề 13 2.2 Phương pháp phân loại toán multi-label classification 14 2.2.1 Phương pháp Binary Relevance 16 2.2.2 Phương pháp OneVsRest 17 2.2.3 Phương pháp Classifier Chains 17 2.3 Trích xuất đặc trưng TF-IDF 18 2.4 Thuật toán phân lớp Logistic Regression 20 2.5 Kết luận 26 CHƯƠNG 3: THỰC NGHIỆM VÀ ĐÁNH GIÁ 27 3.1 Thu thập gán nhãn liệu 27 3.1.1 Thu thập đăng từ mạng xã hội Facebook 27 3.1.2 Gán nhãn liệu 28 3.2 Tiền xử lý liệu 30 3.2.1 Chuẩn hóa unicode Tiếng Việt 31 3.2.2 Chuẩn hóa cách gõ dấu từ 31 LÊ VĂN SANG – D17HTTT1 iv ĐỒ ÁN TỐT NGHIỆP 3.2.3 Tách từ tiếng việt 33 3.2.4 Loại bỏ stopword 34 3.3 Phương pháp đánh giá thuật toán 35 3.4 Kết thử nghiệm phân tích đánh giá 36 3.5 Kết luận 37 CHƯƠNG 4: HỆ THỐNG HỖ TRỢ XÁC ĐỊNH LUỒNG DƯ LUẬN 38 4.1 Hệ thống hỗ trợ xác định số luồng dư luận trường đại học mạng xã hội 38 4.1.1 Mơ hình hệ thống 38 4.1.2 Các công nghệ công cụ 40 4.1.3 Các chức hệ thống 41 4.2 Kết cài đặt 41 4.3 Một số vấn đề giải pháp 46 4.4 Kết luận 47 KẾT LUẬN 48 TÀI LIỆU THAM KHẢO 50 LÊ VĂN SANG – D17HTTT1 v ĐỒ ÁN TỐT NGHIỆP DANH MỤC KÍ HIỆU VÀ CHỮ VIẾT TĂT AI: Artificial Intelligence Trí tuệ nhân tạo CM: Confusion Matrix Ma trận nhầm lẫn/ Ma trận lỗi CNN: Convolutional Neural Network Mạng nơ-ron tích chập CRUD: Create, Read, Update, Delete Tạo mới, Đọc, Cập nhật, Xóa IDF: Inverse Document Frequency Tần suất nghịch đảo văn IDE: Integrated Development Environment Mơi trường phát triển tích hợp ML: Machine Learning Học máy NLP: Natural Language Processing Xử lý ngôn ngữ tự nhiên NER: Named-entity recognition Nhận dạng thực thể có tên POST: Part-of-speech tagging Gán nhãn từ loại SGD: Stochastic gradient descent Thuật tốn tối ưu hóa theo họ gradient TF: Term Frequency Tần suất xuất từ LÊ VĂN SANG – D17HTTT1 vi ĐỒ ÁN TỐT NGHIỆP DANH MỤC CÁC BẢNG Bảng 3.1 Danh sách thuộc tính từ tập liệu ban đầu 28 Bảng 3.2 Danh sách số lượng ghi theo chủ đề 29 Bảng 3.3 Danh sách số lượng đăng theo số lượng nhãn 30 Bảng 3.4: Kết bước chuẩn hóa cách gõ dấu từ 32 Bảng 3.5 Kết sau hoàn thành tiền xử lý 34 Bảng 3.6 Kết thử nghiệm 36 Bảng 4.1 Danh sách công cụ sử dụng 40 Bảng 4.2 Các vấn đề hệ thống giải pháp đề xuất 46 LÊ VĂN SANG – D17HTTT1 vii ĐỒ ÁN TỐT NGHIỆP DANH MỤC CÁC HÌNH VẼ Hình 1.1 Huấn luyện mơ hình [25] Hình 1.2 Quá trình phân loại tự động [25] Hình 1.3 Minh họa kĩ thuật Bag-of-Words [13] Hình 1.4 Minh họa Gradient Descent Stochastic Gradient Descent [18] Hình 1.5 Minh họa thuật tốn Support Vector Machines [32] Hình 1.6 Minh họa kiến trúc mơ hình mạng CNN [33] 10 Hình 2.1: Sơ đồ bước xây dựng mơ hình phân loại 13 Hình 2.2: Minh họa toán Multi-class Classification [15] 14 Hình 2.3: Minh họa tốn Multi-label Classification [15] 15 Hình 2.4: Biểu diễn tập đầu mong muốn [16] 16 Hình 2.5: Mơ tả phương pháp Binary Relevance [16] 16 Hình 2.6: Tập đầu phương pháp Classifier Chains [16] 18 Hình 2.7: Mơ tả phương pháp Classifier Chains [16] 18 Hình 2.8: Biểu đồ hàm sigmoid [4] 21 Hình 3.1: Ma trận nhầm lẫn [28] 35 Hình 4.1: Mơ hình hệ thống 38 Hình 4.2 Giao diện chức visualize luồng dư luận 41 Hình 4.3 Giao diện biểu đồ đường theo tổng tích lũy 42 Hình 4.4 Giao diện chi tiết biểu đồ đường theo ngày 42 Hình 4.5: Giao diện chức visualize luồng dư luận theo liệu tuần 43 Hình 4.6 Xem danh sách đăng Visualize 43 Hình 4.7 Xem chi tiết đăng Visualize 44 Hình 4.8: Giao diện xem danh sách đăng 44 Hình 4.9: Giao diện xem chi tiết đăng 45 Hình 4.10 Giao diện chức tìm kiếm từ khóa 45 Hình 4.11: Giao diện chức thu thập liệu 46 LÊ VĂN SANG – D17HTTT1 viii ĐỒ ÁN TỐT NGHIỆP CHƯƠNG CHƯƠNG 4: HỆ THỐNG HỖ TRỢ XÁC ĐỊNH LUỒNG DƯ LUẬN Trong chương 4, đồ án trình bày mơ hình hệ thống, đồng thời đưa tính ứng dụng mơ hình phân loại xây dựng chương trước hệ thống 4.1 Hệ thống hỗ trợ xác định số luồng dư luận trường đại học mạng xã hội Gần đây, với phát triển công nghệ AI, việc ứng dựng thuật toán học máy, học sâu vào phân tích liệu ngày trở nên phổ biến Với lượng liệu khổng lồ đến từ trang mạng xã hội, ngày có đến hàng trăm triệu người dùng truy cập đã, tạo nhiều giá trị cho khai thác điều Ở trường đại học, việc xác định luồng dư luận nội sinh viên trường đóng vai trị quan trọng việc quản lý, nắm bắt ý kiến sinh viên Từ đó, ban quản lý nhà trường đưa định đắn nhằm cải thiện chất lượng giáo dục chất lượng sở vật chất cho sinh viên Ngoài ra, vấn đề cộm đời sống, tin tức giải trí, xu hướng cộng đồng sinh viên nắm bắt xác định luồng dư luận 4.1.1 Mơ hình hệ thống Hình 4.1: Mơ hình hệ thống LÊ VĂN SANG – D17HTTT1 38 ĐỒ ÁN TỐT NGHIỆP CHƯƠNG Mơ hình hoạt động dạn Client-Server đó:  Client gửi yêu cầu đến Server  Server tiếp nhận, xử lý yêu cầu trả kết tương ứng Tùy vào yêu cầu tiếp nhận Server truy cập đến cụm Database để lấy liệu  Cụm Database bao gồm node Elasticsearch node Mysql Do nhu cầu visualize liệu cần tối ưu thời gian ngắn đáp ứng nhu cầu thực tế sử dụng, việc truy vấn trực tiếp liệu từ Mysql để thực visualize tốn nhiều thời gian nên node Elasticsearch dựng lên để đáp ứng nhu cầu  Elasticsearch là cơng cụ tìm kiếm dựa tảng Apache Lucene Nó cung cấp máy tìm kiếm dạng phân tán, có đầy đủ cơng cụ với giao diện web HTTP có hỗ trợ liệu JSON Elasticsearch phát triển Java phát hành dạng nguồn mở theo giấy phép Apache [21] Elasticsearch thiết kế dành cho cơng việc tìm kiếm, với tác vụ khác ngồi tìm kiếm CRUD Elasticsearch mang lại hiệu so với CSDL khác Mongodb, Mysql Ở Elasticsearch khơng có định nghĩa database transaction nên khơng đảm bảo toàn vẹn liệu tác vụ Write, Update, Delete Vì vậy, đồ án dùng Mysql làm database kết hợp với Elasticsearch đóng vai trị Search Engine Khi tích hợp mơ hình phân loại văn tự động vào hệ thống, với yêu cầu thu thập liệu từ người dùng Server gọi đến khối Crawler có chức truy cập vào Facebook để thu thập liệu Dữ liệu từ khối Crawler đổ vào khối tiền xử lý liệu, sau tiền xử lý liệu tiếp tục đưa vào Classifier Model để thực dự đoán nhãn Ở giai đoạn này, mơ hình mà đồ án xây dựng chương trước với thuật toán Logistic Regression sử dụng để gán nhãn tự động cho đăng thu thập từ Facebook Nếu khơng có mơ hình phân loại tự động này, để tổng hợp thơng tin hữu ích từ lượng liệu thu thập được, việc gán nhãn phải thực tay tốn nhiều thời gian công sức Việc sử dụng mơ hình đem lại hiệu xử lý cao, giúp tiết kiệm thời gian, chi phí LÊ VĂN SANG – D17HTTT1 39 ĐỒ ÁN TỐT NGHIỆP CHƯƠNG 4.1.2 Các công nghệ công cụ Bảng 4.1 Danh sách công cụ sử dụng Công cụ Python Flask Mô tả Phiên Là micro web framework viết 3.7.8 Python Visual Code Là IDE (Integrated Development 1.62.3 Studio Environment) để lập trình python Selenium Là kiểm thử tự động miễn phí dành cho 4.0.1 ứng dụng web trình duyệt Trong đồ án sử dụng để lấy liệu từ facebook BeautifulSoup Là thư viện Python để phân tích cú 4.9.0 pháp HTML Elasticsearch Là cơng cụ tìm kiếm phân tích phân tán, 7.13.4 sử dụng rộng rãi cho trường hợp sử dụng liên quan đến phân tích nhật ký, tìm kiếm tồn văn Mysql Là hệ quản trị sở liệu hỗ trợ việc xử 8.0.18 lý, truy vấn, lưu thông tin đối tượng scikit-learn Là thư viện mạnh mẽ dành cho thuật 1.0.2 toán học máy viết ngôn ngữ Python Underthesea Là thư viện mã nguồn mở phố biến Python 1.3.3 có hỗ trợ nghiên cứu phát triển Xử lý ngôn ngữ tự nhiên tiếng Việt, xây dựng nhóm tác giá người Việt Nam mắt lần năm 2017 Vietnamese- Bộ stopword dành cho Tiếng Việt xây 0.0.2 stopwords dựng tác giả Le Van Duyet [27] LÊ VĂN SANG – D17HTTT1 40 ĐỒ ÁN TỐT NGHIỆP CHƯƠNG 4.1.3 Các chức hệ thống Đồ án xây dựng chức hệ thống xác định số luồng dư luận trường đại học mạng xã hội, đối tượng sử dụng mà hệ thống hướng đến ban quản lý nhà trường Các chức chính, là:  Visualize luồng dư luận: Chức cho phép người dùng người dùng visualize luồng dư luận theo khoảng thời gian dựa theo số lượng đăng chủ đề khoảng thời gian chọn, người dùng chọn dạng biểu đồ dạng có sẵn để phù hợp với nhu cầu sử dụng  Xem danh sách đăng theo chủ đề: Chức cho phép người dùng xem danh sách đăng theo chủ đề, chọn khoảng thời gian muốn xem  Cập nhật đăng mới: Chức cho phép người dùng cập nhật đăng từ mạng xã hội Facebook (với lượng trang, nhóm xác định sẵn) cập nhật lại số lượng tương tác cảm xúc, bình luận lượt chia sẻ đăng có ngày đăng nằm khoảng 30 ngày gần 4.2 Kết cài đặt  Chức cho phép người dùng chọn khoảng thời gian để visualize biểu đồ đường danh sách chủ đề Trong hình bên biểu đồ dạng Bar, thể tổng số đăng chủ đề khoảng thời gian chọn Hình 4.2 Giao diện chức visualize luồng dư luận LÊ VĂN SANG – D17HTTT1 41 ĐỒ ÁN TỐT NGHIỆP CHƯƠNG  Ngoài người dùng chọn dạng biểu đồ để phù hợp với mục đích sử dụng, có loại biểu đồ biểu đồ dạng bar hình 4.2, biểu đồ dạng đường theo ngày, biểu đồ đường tổng tích lũy hai hình Hình 4.3 Giao diện biểu đồ đường theo tổng tích lũy  Khi di chuyển chuột không gian đường, biểu đồ hiển thị thông tin số lượng đăng thuộc chủ đề điểm liệu trỏ tới Hình 4.4 Giao diện chi tiết biểu đồ đường theo ngày LÊ VĂN SANG – D17HTTT1 42 ĐỒ ÁN TỐT NGHIỆP CHƯƠNG  Ngoài muốn có nhìn tổng quan hơn, người dùng chọn interval time, tức khoảng thời gian để xét điểm liệu Có lựa chọn cho interval time mặc định hệ thống bao gồm: ngày, hai ngày, tuần, hai tuần tháng Hình 4.5 mơ tả chức visualize giống với hình 4.3 khoảng thời gian với interval time tuần Hình 4.5: Giao diện chức visualize luồng dư luận theo liệu tuần  Khi bấm vào nút bấm có chứa tên chủ đề bên dưới, người dùng xem danh sách đăng thuộc chủ đề khoảng thời gian xét Danh sách đăng xếp theo thứ tự giảm dần từ: số lượt thả cảm xúc, bình luận, chia sẻ, ngày đăng tải Hình 4.6 Xem danh sách đăng Visualize LÊ VĂN SANG – D17HTTT1 43 ĐỒ ÁN TỐT NGHIỆP CHƯƠNG  Khi bấm vào đăng, thông tin chi tiết đăng phía đăng Hình 4.7 Xem chi tiết đăng Visualize  Ở Discover, chức cho phép người dùng chọn chủ đề, chọn khoảng thời gian, có thời gian bắt đầu thời gian kết thúc Kết hiển thị bao gồm: số ghi tìm được, trường thơng tin đăng: ngày đăng, tên tác giả, nội dung, số lượt thả cảm xúc, lượt bình luận, lượt chia sẻ Hình 4.8: Giao diện xem danh sách đăng LÊ VĂN SANG – D17HTTT1 44 ĐỒ ÁN TỐT NGHIỆP CHƯƠNG  Chức cho phép người dùng xem nội dung chi tiết đăng, sau thực chức xem danh sách đăng Hình 4.9: Giao diện xem chi tiết đăng  Chức search cho phép người dùng tìm kiếm đăng mà nội dung có chứa từ khóa Hình 4.10 Giao diện chức tìm kiếm từ khóa LÊ VĂN SANG – D17HTTT1 45 ĐỒ ÁN TỐT NGHIỆP CHƯƠNG  Chức cập nhật liệu cho phép người dùng kiểm tra ngày cập nhật cuối cùng, ngày cập nhật chưa phù hợp cập nhật Dữ liệu thu thập từ ngày cuối cập nhật tới thời điểm nhấn cập nhật, dạng raw thực tiền xử lý, sau qua mơ hình phân loại nhãn để chuẩn bị cho chức khác Hình 4.11: Giao diện chức thu thập liệu 4.3 Một số vấn đề giải pháp Bảng 4.2 Các vấn đề hệ thống giải pháp đề xuất Vấn đề Thu thập liệu Mô tả  Việc thu thập liệu Giải pháp đề xuất  Thực cập nhật tích hợp hệ thống đơi version thường xuyên khigặp phải vấn đề tương tránh trường hợp gây lỗi tích version với ứng dụng phần core Tuy nhiên, Google Chrome làm thủ công phần  Việc phân tích thẻ tag nhiều thời gian HTML khơng cịn sử  Tìm hiểu thêm cách dụng theo thời gian phân tích HTML khác việc thay đổi thuật tốn ngồi việc sử dụng tên tên thẻ từ Facebook thẻ tag, để tránh phụ LÊ VĂN SANG – D17HTTT1 46 ĐỒ ÁN TỐT NGHIỆP CHƯƠNG thuộc vào lần thay đổi Facebook Phân loại đăng  Chức phân loại đăng  Cần thu thập nhiều loại trình đồ án xây liệu chủ đề hơn, dựng thực tế đạt mức độ việc yêu cầu phải xác chưa cao làm thời gian dài, đăng có nhiều có kiên trì nhãn khó khăn  Thử nghiệm với nhiều kĩ q trình phân tích thuật, cơng nghệ khác ngơn ngữ, đặc biệt q trình tìm Tiếng Việt hiểu, xây dựng mơ hình  Hệ thống chưa có chế cho  Tìm hiểu áp dụng phép học lại, retraining mô chế, công nghệ hình bổ sung liệu giúp mơ hình để thích ứng với nguồn retraining, cập nhật thích liệu nghi với lượng liệu liên tục thêm 4.4 Kết luận Chương trình bày khái qt việc ứng dụng mơ hình phân loại phân tích chương 2, chương vào việc xây dựng hệ thống hỗ trợ xác định luồng dư luận Từ đó, ta thấy tính ứng dụng cao, lợi ích việc kết hợp trí tuệ nhân tạo mang lại q trình phân tích luồng dư luận Nhưng bên cạnh cịn số vấn đề cần xử lý trước triển khai thức vào thực tế LÊ VĂN SANG – D17HTTT1 47 ĐỒ ÁN TỐT NGHIỆP KẾT LUẬN Đồ án tích hợp mơ hình phân loại đăng tự động vào hệ thống hỗ trợ xác định luồng dư luận trường đại học để giải toán đặt Chương 1, số kết thu là:  Đồ án thực thu thập liệu đầu vào cho mơ hình với 18000 đăng từ trang nhóm cơng khai Học Viện Cơng Nghệ Bưu Chính Viễn Thơng mạng xã hội Facebook, sau thực bước gán nhãn liệu cho tập liệu thô thu thập  Xây dựng mơ hình phân loại văn tự động dựa tập liệu thu được, đồ án thực trình tiền xử lý liệu, sử dụng kỹ thuật trích xuất đặc trưng TF-IDF thuật tốn phân lớp Logistic Regression cho mơ hình có độ xác Accuracy khả quan xấp xỉ 70% F1-score tương đối tốt 72,1%  Xây dựng hệ thống hỗ trợ xác định luồng dư luận có tích hợp mơ hình phân loại văn tự động xây dựng đạt hiệu đáng kể giúp tiết kiệm thời gian, chi phí cho công việc gắn nhãn chủ đề cho đăng Điều thể chức thu thập liệu, sau thu thập liệu, thay cách gán nhãn truyền thống tay mơ hình phân loại đăng tự động đảm nhiệm cơng việc với tốc độ nhanh nhiều lần cách làm truyền thống Song song với đó, đồ án phát triển chức áp dụng kết từ trình phân loại văn visualize luồng dư luận với dạng biểu đồ khác phù hợp với mục đích sử dụng người dùng, cho phép xem danh sách đăng thuộc chủ đề xem nội dung chi tiết đăng, tìm kiếm đăng dựa theo từ khóa Tuy nhiên, đồ án cịn số thiếu sót sau:  Q trình thử nghiệm, đánh giá thuật tốn thực liệu với 18 nghìn ghi Cần thực liệu với nhiều ghi để đảm bảo tính xác mơ hình phân loại, mang lại tính ổn định cho hệ thống LÊ VĂN SANG – D17HTTT1 48 ĐỒ ÁN TỐT NGHIỆP  Kết đánh giả thử nghiệm cho thấy độ xác mà mơ hình đạt với thuật tốn Logistic Regression 70% Kết chấp nhận chưa cao, làm ảnh hưởng đến tính xác hệ thống Một số phương pháp để cải thiện độ xác mơ hình đề cập đến Chương Sau khắc phục xong vấn đề kể trên, định hướng là: Triển khai máy chủ Docker với tảng ảo hóa, việc đem lại hiệu giúp rút ngắn thời gian cài đặt, công tác triển khai đồng hóa nhiều mơi trường vật lý khác Ngồi ra, ta mở rộng phạm vi đồ án sang phân loại nhãn cảm xúc đăng, bình luận Các đăng phân loại vào nhãn cảm xúc nhãn tích cực, nhãn tiêu cực, nhãn trung lập Từ đó, áp dụng mơ hình vào xây dựng nhiều chức cho hệ thống Khi này, ta quan sát đăng có nhãn tiêu cực với số lượng tương tác để kịp thời đưa cách xử lý chuẩn bị cho tình tương tự xảy Các bình luận đăng xem trực tiếp hệ thống mà không cần phải truy cập trực tiếp vào đăng thơng qua đường dẫn thu thập trước LÊ VĂN SANG – D17HTTT1 49 ĐỒ ÁN TỐT NGHIỆP TÀI LIỆU THAM KHẢO Tài liệu Tiếng Việt Nguyễn Quỳnh Chi, Kho liệu khai phá liệu, Hà Nội, 2018 Tài liệu Tiếng Anh Charu C Aggarwal, Data Classification: Algorithms and Applications, 2015 Christopher M Bishop, Pattern recognition and Machine Learning, Springer, 2006 J.S Cramer, The origins of logistic regression, 2002 Przemyslaw Dymarski, Hidden Markov Models: Theory and Applications, 2011 Francisco Herrera, Francisco Charte, Antonio J Rivera, Multilabel Classification: Problem Analysis, Metrics and Techniques, 2016 Sparck Jones K., A Statistical Interpretation of Term Specificity and Its Application in Retrieval Journal of Documentation, 1972 Yoon Kim, Convolutional Neural Networks for Sentence Classification, 2014 James H Martin and Daniel Jurafsky, Speech and Language Processing: An Introduction to Natural Language Processing, Stanford, California, 2000 10 Andrew Ng., CS229 Lecture notes Supervised learning, 2012 11 Luhn Hans Peter, A Statistical Approach to Mechanized Encoding and Searching of Literary Information, 1957 12 Thomas Roelleke, Information Retrieval Models: Foundations and Relationships, 2013 13 Alice Zheng & Amanda Casari, Feature Engineering for Machine Learning and Data Analytics, 2018 Tài liệu web 14 Beautiful Soup Documentation, , xem ngày 4/11/2021 15 Deep dive into multi-label classification, , xem ngày 14/11/2021 16 Demystifying the Difference Between Multi-Class and Multi-Label Classification Problem Statements in Deep Learning, , xem ngày 3/11/2021 17 Elasticsearch Introduction, , xem ngày 21/11/2021 18 Hiểu sâu thuật toán tối ưu, , xem ngày 14/11/2021 19 Logistic Regression, < https://machinelearningcoban.com/2017/01/27/logisticregre ssion/>, xem ngày 15/11/2021 20 One-vs-Rest and One-vs-One for Multi-Class Classification, , xem ngày 3/11/2021 21 Phương pháp xử lý truyền thống với liệu dạng văn bản, https://viblo.asia/p/feature -engineering-phan-4-phuong-phap-xu-ly-truyen-thong-voi-du-lieu-dang-van-ban-textdata-1Je5EvWYKnL#_tai-lieu-tham-khao-13>, xem ngày 12/11/2021 22 Scikit-learn, < https://scikit-learn.org/stable/ >, xem ngày 15/11/2021 23 Selenium, < https://www.selenium.dev/about/ >, xem ngày 4/11/2021 24 Solving Muilti-Label Classification problems, < https://www.analyticsvidhya.com/ blog/2017/08/introduction-to-multi-label-classification/ >, xem ngày 14/11/2021 25 Text Classification with Machine Learning & NLP, https://monkeylearn.com/textclassification/, xem ngày 16/11/2021 26 Under The Sea - Vietnamese NLP Toolkit, < https://underthesea.readthedocs.io/en/ v1.1.5/readme.html >, xem ngày 15/11/2021 27 Vietnamese-stopwords, , xem ngày 12/11/2021 28 Machine Learning Accuracy, , xem ngày 17/11/2021 29 Logistic regression, , xem ngày 15/11/2021 30 Facebook - Statistics & Facts, https://www.statista.com/topics/751/facebook/#doss ierKeyfigures>, xem ngày 2/1/2022 LÊ VĂN SANG – D17HTTT1 51 ĐỒ ÁN TỐT NGHIỆP 31 Bảng xếp hạng 50 tờ báo, trang điện tử nhiều người xem Việt Nam năm 2021, , xem ngày 2/1/2021 32 Support Vector Machines (SVM) Algorithm, < https://monkeylearn.com/blog/intro duction-to-support-vector-machines-svm/>, xem ngày 1/1/2021 33 https://nttuan8.com/bai-6-convolutional-neural-network/, xem ngày 2/1/2021 LÊ VĂN SANG – D17HTTT1 52

Ngày đăng: 28/09/2023, 15:26

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w