Báo cáo thực tập tốt nghiệp Truyền thông và mạng máy tính: Phân tích dữ liệu tuyển sinh cho Trường đại học Giao thông Vận tải TP. Hồ Chí Minh

74 1 0
Báo cáo thực tập tốt nghiệp Truyền thông và mạng máy tính: Phân tích dữ liệu tuyển sinh cho Trường đại học Giao thông Vận tải TP. Hồ Chí Minh

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Thông qua các trang mạng xã hội lớn như: Facebook, Youtube và Website tuyển sinh trường Đại học Giao thông vận tải TP. Hồ Chí Minh. Đề tài Phân tích dữ liệu tuyển sinh cho Trường đại học Giao thông Vận tải TP. Hồ Chí Minh tiến hành lấy các thông tin liên quan đến tuyển sinh sau đó thực hiện xử lý và phân tích dữ liệu. Từ đó tiến hành phân tích dữ... Đề tài Hoàn thiện công tác quản trị nhân sự tại Công ty TNHH Mộc Khải Tuyên được nghiên cứu nhằm giúp công ty TNHH Mộc Khải Tuyên làm rõ được thực trạng công tác quản trị nhân sự trong công ty như thế nào từ đó đề ra các giải pháp giúp công ty hoàn thiện công tác quản trị nhân sự tốt hơn trong thời gian tới.

ĐẠI HỌC GIAO THÔNG VẬN TẢI TP HỒ CHÍ MINH KHOA CƠNG NGHỆ THƠNG TIN THỰC TẬP TỐT NGHIỆP PHÂN TÍCH DỮ LIỆU TUYỂN SINH CHO TRƯỜNG ĐẠI HỌC GIAO THÔNG VẬN TẢI TP HỒ CHÍ MINH Giảng viên hướng dẫn: ThS Đặng Nhân Cách Sinh viên thực hiện: Trần Thị Thu Trang – 1751150069 – KM17 Tiếu Thị Thanh Ngân – 1751120034 – CN17A Nguyễn Thanh Trúc – 1751150071 – KM17 Nguyễn Thị Bích Ngọc – 1751150039 – KM17 Ngành: Cơng Nghệ Thơng Tin Chun ngành: Truyền thơng mạng máy tính Cơng Nghệ Thơng Tin Khóa: 2017 – 2021 TP HỒ CHÍ MINH NĂM 2020 NHẬN XÉT CỦA GIẢNG VIÊN HƯỚNG DẪN TP Hồ Chí Minh, ngày tháng Giảng viên hướng dẫn (Kí ghi rõ họ tên) năm 2020 NHẬN XÉT CỦA GIẢNG VIÊN PHẢN BIỆN TP Hồ Chí Minh, ngày tháng Giảng viên phản biện (Kí ghi rõ họ tên) năm 2020 MỤC LỤC MỤC LỤC i DANH MỤC HÌNH ẢNH iv DANH MỤC BẢNG BIỂU viii DANH MỤC VIẾT TẮT ix LỜI MỞ ĐẦU LỜI CẢM ƠN LỜI CAM ĐOAN CHƯƠNG 1: CƠ SỞ LÝ THUYẾT VÀ CÔNG CỤ NGHIÊN CỨU 1.1 Cơ sở lý thuyết Khái niệm khai phá liệu Các phương pháp khai phá liệu Quy trình khai phá liệu Lợi ích khai phá liệu 1.2 Ngơn ngữ lập trình Python Khái niệm Tính Tại nên sử dụng Python? 1.3 Thư viện Python 10 Thư viện BeautifulSoup4 10 Thư viện Request 11 Thư viện FeedPaser 12 Trang i Xử lý ngôn ngữ tự nhiên (Natural Language Processing) 13 Thư viện NLTK 14 1.4 Thu thập liệu từ Website 14 1.5 Thế StopWords? 16 Khái niệm 16 Cách loại bỏ StopWords 16 1.6 Phần mềm Export Comments 17 1.7 Google Colaboratory 18 1.8 WordCloud 19 1.9 Youtube API v3 19 Khái niệm 19 Cách thức hoạt động 20 1.10 Google Analytics 21 Giới thiệu Analytics 21 Công dụng Google Analytics 21 Cách thức hoạt động Google Analytics 22 CHƯƠNG 2: KHAI PHÁ VÀ XỬ LÝ DỮ LIỆU 23 2.1 Dữ liệu Website tuyensinh.ut.edu.vn 23 2.1.1 Khai phá liệu Website 24 2.1.2 Xử lý liệu 26 2.2 Dữ liệu Youtube 27 2.2.1 Khai phá liệu 28 Trang ii 2.2.2 Xử lý liệu 32 2.3 Dữ liệu Facebook 34 2.3.1 Khai phá liệu 35 2.3.2 Xử lý liệu 38 CHƯƠNG 3: PHÂN TÍCH DỮ LIỆU 42 3.1 Dữ liệu Website 42 3.2 Dữ liệu Youtube 45 3.3 Dữ liệu Facebook 48 CHƯƠNG 4: KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 54 4.1 Kết đạt hạn chế 54 4.2 Hướng phát triển đề tài kiến nghị 55 TÀI LIỆU THAM KHẢO 56 PHỤ LỤC 58 Trang iii DANH MỤC HÌNH ẢNH Hình 1.1 Làm để xử lý liệu? Hình 1.2 Quy trình khai phá tri thức KDD Hình 1.3 Python Hình 1.4 Sử dụng BeautifulSoup4 11 Hình 1.5 Kết BeautifulSoup4 11 Hình 1.6 Code sử dụng feedparser 13 Hình 1.7 Kết feedparser 13 Hình 1.8 Ví dụ Stopwords 16 Hình 1.9 StopWords theo tần suất 17 Hình 1.10 Phần mềm Export Comments 17 Hình 1.11 Google Colaboratory 18 Hình 1.12 WordCloud theo word list 19 Hình 1.13 Youtube API v3 20 Hình 1.14 Google Analytics 21 Hình 2.1 Giao diện Website 23 Hình 2.2 Giao diện Website (2) 24 Hình 2.3 Form liên hệ 24 Hình 2.4 File content987.txt 25 Hình 2.5 File content10.txt 25 Hình 2.6 File locweb.txt 25 Trang iv Hình 2.7 Kết nối Google Drive 26 Hình 2.8 Lấy liệu từ file 26 Hình 2.9 Xử lý Stopwords 26 Hình 2.10 Wordcloud liệu Website (1) 27 Hình 2.11 Wordcloud liệu Website (2) 27 Hình 2.12 Lấy Key API Youtube (1) 28 Hình 2.13 Lấy Key API Youtube (2) 28 Hình 2.14 Lấy Key API Youtube (3) 29 Hình 2.15 Lấy Key API Youtube (4) 29 Hình 2.16 Lấy Key API Youtube (5) 29 Hình 2.17 Lấy Key API Youtube (6) 30 Hình 2.18 Lấy Key API Youtube (7) 30 Hình 2.19 File json youtube_credentials.json 30 Hình 2.20 File youtube_credentials.py.ipynb 30 Hình 2.21 Cài đặt thư viện liên kết với Drive 31 Hình 2.22 Tạo đối tượng liên kết với API 31 Hình 2.23 Import file 31 Hình 2.24 Lấy comments từ Youtube 32 Hình 2.25 Lấy ID video Youtube 32 Hình 2.26 Lấy liệu từ comments Youtube 33 Hình 2.27 Lấy comments từ Youtube 33 Hình 2.28 File chuanhoa_youtube.txt 33 Trang v Hình 2.29 Wordcloud comment từ Youtube 34 Hình 2.30 Giao diện trang Tuyển sinh Facebook 34 Hình 2.31 Tổng hợp viết 35 Hình 2.32 Phần mềm Export Comments 35 Hình 2.33 Dữ liệu comments Facebook 36 Hình 2.34 Kết nối Google Drive 36 Hình 2.35 Tách comments 36 Hình 2.36 File content789.txt 36 Hình 2.37 File content10.txt 37 Hình 2.38 File locfb.txt 37 Hình 2.39 File truocchuanhoa.txt 37 Hình 2.40 File sauchuanhoa.txt 38 Hình 2.41 Kết nối Google Drive 38 Hình 2.42 Lấy liệu từ Google Drive 38 Hình 2.43 Loại bỏ URL 39 Hình 2.44 Loại bỏ biểu tượng cảm xúc 39 Hình 2.45 Chuẩn hóa từ 39 Hình 2.46 Chuẩn hóa từ 40 Hình 2.47 Vẽ Wordcloud 40 Hình 2.48 Wordcloud liệu Facebook (1) 41 Hình 2.49 Wordcloud liệu Facebook (2) 41 Hình 3.1 Wordcloud liệu Website (1) 42 Trang vi Hình 3.2 Wordcloud liệu Website (2) 42 Hình 3.3 Keyword Website tháng 7,8,9 43 Hình 3.4 Keywords Website tháng 10 43 Hình 3.5 Biểu đồ liệu thu 44 Hình 3.6 Dữ liệu thống kê từ Google Analytics 45 Hình 3.7 Số người truy cập theo độ tuổi 45 Hình 3.9 Wordcloud liệu Facebook (1) 48 Hình 3.10 Wordcloud liệu Facebook (2) 48 Hình 3.11 Keywords Facebook tháng 7,8,9 49 Hình 3.12 Keywords Facebook tháng 10 49 Hình 3.13 Số người tiếp cận viết từ 1/7-30/9 50 Hình 3.14 Số người tiếp cận viết từ 1/10-30/10 50 Hình 3.15 Số lượt tương tác từ 1/7-30/9 51 Hình 3.16 Số lượt tương tác từ 2/10-7/10 51 Hình 3.17 Biểu đồ thể tổng lượt truy cập theo tỉnh thành 52 Hình 3.18 Biểu đồ thể lượt truy cập theo giới tính độ tuổi 53 Trang vii NGÀNH LOGISTICS LÀ GÌ HỌC NHỮNG GÌ Tuyển sinh Trường Đại 4:58 19,241 20,163 187/5 11 3:45 7,680 8,447 44/5 5:42 250 258 0/0 học Giao thông vận tải TP HCM Ngành Ra Trường 100% Có Việc Làm Ngay ??? Tuyển sinh Trường Đại học Giao thông vận tải TP HCM ĐỊNH HƯỚNG NGHỀ NGHIỆP TƯƠNG LAI? Tuyển sinh Trường Đại học Giao thông vận tải TP HCM Bảng Thống kê video sau tuyển sinh Youtube Thống kê cho thấy video “NGÀNH LOGISTICS LÀ GÌ HỌC NHỮNG GÌ Tuyển sinh Trường Đại học Giao thơng vận tải TP HCM” có lượt xem cao Các video liên quan đến ngành Kỹ thuật điện, Điện tử viễn thông, Điều khiển Tự động hóa, Kinh tế vận tải, Kinh tế xây dựng, Khai thác vận tải, Logictics quản lý chuỗi cung ứng, Cơng nghệ thơng tin có lượt xem tăng mạnh video liên quan đến ngành khác Mối quan tâm trường việc làm tâm điểm thí sinh Ngồi vấn đề học phí quan tâm kết tương tác khơng đáng kể Hình 3.8 Bình luận Youtube Trang 47 3.3 Dữ liệu Facebook Keywords từ 01/07/2020 đến 30/09/2020 Hình 3.9 Wordcloud liệu Facebook (1) Keywords từ 01/10/2020 đến 30/10/2020 Hình 3.10 Wordcloud liệu Facebook (2) Trang 48 44 36 22 16 12 3 7 16 18 1 1 13 KEYWORDS Kỹ thuật Giao thơng Đăng kí Khai thác Chất lượng Vận tải biển Điểm chuẩn Xây dựng Tàu thủy Nguyện vọng Đại học Điện tử viễn thơng Cơ khí Hàng hải logistics Tuyển sinh Tự động hóa Kinh tế Đại trà Tốt nghiệp Điểm chuẩn Tuyển chọn Công nghệ Chuyên ngành Xây dựng Logistics Kết Trường Đại học Chính xác Kí túc xá Vận tải biến Tốt nghiệp Vận tải Giấy báo 42 7 5 4 3 2 1 1 1 18 45 55 Hình 3.11 Keywords Facebook tháng 7,8,9 19 46 97 250 Thống kê keyword xuất wordcloud: KEYWORDS Quản trị Tự động hóa Đăng kí Học phí Cơ khí Sinh viên Nhập học Kinh doanh Công nghệ thông tin Học bạ Khai thác Tra cứu Trúng tuyển Điểm Hình 3.12 Keywords Facebook tháng 10 Trang 49 Thơng qua hình 3.11 hình 3.12 thống kê keywords liên quan đến ngành đào tạo xuất nhiều chứng tỏ Fanpage quan tâm người ngành đào tạo trường thể rõ Một số thống kê thể chiến dịch quảng cáo Facebook Hình 3.13 Số người tiếp cận viết từ 1/7-30/9 Hình 3.14 Số người tiếp cận viết từ 1/10-30/10 Trang 50 Qua hình, có khác biệt rõ ràng lượng người tiếp cận viết Đối với giai đoạn từ 1/7-30/9, trường tiến hành chiến dịch chạy quảng cáo cho viết dẫn tới kết số lượng người tiếp cận tăng cao, điều đồng nghĩa với việc thông tin từ viết nhiều người biết đến Hình 3.15 Số lượt tương tác từ 1/7-30/9 Hình 3.16 Số lượt tương tác từ 2/10-7/10 Trang 51 Không lượng người tiếp viết tăng mà cịn có quan tâm qua bình luận, cảm xúc, lượt chia sẻ giao đoạn 1/7-30/9 biến động khơng ngừng Nhưng đến giai đoạn 1/10-30/10 biểu đồ khơng cịn biến động nhiều giai đoạn trước có ngày có biến động từ ngày 2/10-7/10 có giao động lớn thời gian trường tiến hành công tác nhập học cho sinh viên khóa 20 Về vùng miền, tỉnh thành thuộc khu vực Trung bộ, Nam có tỉ lệ người quan tâm cao Biểu đồ thể tổng lượt truy cập theo tỉnh thành 50000 40000 30000 20000 10000 Tỉnh thành Điện Biên Lâm Đồng Đà Nẵng Bình Định Bạc Liêu Bắc Giang Bắc Ninh Bến Tre Đồng Nai Đắk Lắk Cà Mau Cần Thơ Tiền Giang Đồng Tháp Gia Lai Hà Nội Hà Tĩnh Hịa Bình Hải Dương Hải Phòng Huế Hưng Yên Lào Cai Lạng Sơn An Giang Tiền Giang2 Nam Định Khánh Hịa Ninh Bình Ninh Thuận Bình Thuận Phú Thọ Gia Lai2 Quảng Ngãi Quảng Nam Quy Nhơn, Bình Định Kiên Giang Sóc Trăng Sơn La Long An Tây Ninh Thành phố Hồ Chí Minh Thái Bình Thái Ngun Thanh Hóa Trà Vinh Tun Quang Phú Yên Vĩnh Long Vũng Tàu Vinh, Nghệ An Yên Bái Hình 3.17 Biểu đồ thể tổng lượt truy cập theo tỉnh thành Trang 52 Biểu đồ thể số đặc điểm người truy cập giới tính, tuổi tác, vùng miền Qua đó, với 100 người truy cập quan tâm đến Fanpage có đến 59 người nam 41 người nữ, tỉ lệ tương đối độ tuổi từ 18 đến 24 Hình 3.18 Biểu đồ thể lượt truy cập theo giới tính độ tuổi Trang 53 CHƯƠNG 4: KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN Qua q trình nghiên cứu nhóm thực việc phân tích liệu tuyển sinh để từ lấy làm sở cho chương đưa kết đạt hạn chế đề tài Đồng thời nêu hướng phát triển đề tài số kiến nghị 4.1 Kết đạt hạn chế Việc thực đề tài “Phân Tích Dữ Liệu Tuyển Sinh Cho Trường Đại Học Giao Thơng Vận Tải TP Hồ Chí Minh” nhằm mục đích xây dựng kho thơng tin, liệu phục vụ cho công tác tuyển sinh Trường Đại Học Giao Thơng Vận Tải TP Hồ Chí Minh Báo cáo đạt số kết sau: − Tìm hiểu tổng quan khai phá liệu − Phân tích tần suất xuất Keywords có liên quan đến đề tài báo cáo − Làm liệu thô phương pháp: thủ công sử dụng ngơn ngữ lập trình Tạo tệp liệu keywords − Mơ hình hóa liệu thơng qua worldcloud dashboard Bên cạnh kết đạt mà nhóm nghiên cứu, nhiên cịn nhiều hạn chế kiến thức kỹ nên nhóm khơng khỏi thiếu sót báo cáo, mong ban hội đồng xem xét bỏ qua Trang 54 4.2 Hướng phát triển đề tài kiến nghị Với đề tài “Phân tích liệu tuyển sinh cho Trường Đại học Giao thơng vận tải TP Hồ Chí Minh” nhóm đưa kết keywords liên quan tới tuyển sinh từ nhóm chúng em có đề số hướng phát triển sau: − Tối ưu quy trình khai phá xử lý liệu ban đầu − Xây dựng dashboard có khả biến thiên theo liệu Để công tác tuyển sinh cho năm học 2021-2022 Trường Đại học Giao thông vận tải TP Hồ Chí Minh đạt kết tốt hơn, nhóm đưa số kiến nghị sau: − Đối với Facebook: Trả lời bình luận ngắn gọn, rõ ràng, vấn đề câu hỏi, cập nhật thông tin tuyển sinh lên đầu trang Fanpage tuyển sinh trường Tổ chức buổi phát sóng trực tiếp vấn đề tuyển sinh trường, thông qua tương tác, giải đáp thắc mắc muốn ứng tuyển vào trường người quan tâm tới vấn đề tuyển sinh trường − Đối với Website: Luôn cập nhật thông tin vấn đề tuyển sinh thêm nhiều thông tin giải thưởng, thi hoạt động trường lên trang Website − Đối với Youtube: Cần đầu tư vào chất lượng video, giới thiệu chuyên sâu ngành nghề Trang 55 TÀI LIỆU THAM KHẢO [1] Jiawei Han, Micheline Kamber, Jian Pei Data Mining Concepts and Techniques Third edition Elsevier BV Inc 2012 [2] Murgante, B., Misra, S., Rocha, A.M.A.C., Torre, C.M., Rocha, J.G., Falcão, M.I., Taniar, D., Apduhan, B.O., Gervasi, O (Eds.) Computational Science and Its Applications - ICCSA 2014.14th International Conference Guimarães, Portugal, 2014 Part IV [3] Matthew A Russell, Mikhail Klassen Mining the Social Web: Data Mining Facebook, Twitter, Linkedln, Instagram, GitHub, and More Third edition O’Reilly Media January 14, 2019 [4] Sebastian Raschka, Vahid Mirjalili Python Machine Learning: Machine Learning and Deep Learning with Python, scikit-learn, and TensorFlow 2, 3rd Edition Packt Publishing December 12, 2019 Trang 56 PHỤ LỤC A Phân công nhiệm vụ thực STT Họ tên Lớp Mã số sinh viên Cơng việc cụ thể phân cơng Tìm hiểu ngơn ngữ lập trình Python mơi trường làm việc Tìm hiểu kết nối API Facebook, xây dựng kết nối Tiến hành tìm hiểu cách thức thực hiện, sử dụng Python Google Colab Đọc tài liệu Tiếu Thị Làm ví dụ: Thanh CN17A 1751120034 - Làm hiểu code ví dụ Ngân - Hiểu ví dụ phục vụ cho chức - Báo cáo làm cho nhóm Lưu liệu: Dữ liệu lấy lưu vào File txt xlxs Phân tích liệu (Facebook Website): - Cài đặt môi trường cần thiết Trang 57 - Tiến hành phân tích - Tìm hiểu cách xuất lưu liệu vào File json - Tìm hiểu cách làm liệu Stopword, tạo biểu đồ mapplotlib Phân chia cơng việc cho thành viên nhóm Kiểm tra lại sai sót Tìm hiểu ngơn ngữ lập trình Python mơi trường làm việc Tiến hành tìm hiểu cách thức thực hiện, sử dụng Python Google Colab Đọc tài liệu Nguyễn Thanh Trúc KM17 1751150071 Lưu liệu: Dữ liệu lấy lưu vào File txt xlxs Phân tích liệu (Facebook Website): - Tiến hành phân tích - Tìm hiểu cách tạo biểu đồ mapplotlib Trang 58 Tìm hiểu tài liệu liên quan tới báo cáo Tìm hiểu ngơn ngữ lập trình Python mơi trường làm việc Tiến hành tìm hiểu cách thức thực Nguyễn Thị Bích hiện, sử dụng Python Google KM17 Ngọc 1751150039 Colab Đọc tài liệu Lưu liệu: Dữ liệu lấy lưu vào File txt xlxs Đưa kết quả, phương hướng phát triển kiến nghị Tập hợp tài liệu có liên quan đến báo cáo Đọc tài liệu Từ tài liệu tìm hiểu tiến hành tạo liên kết API v3 Youtube Trần Thị Thu Trang KM17 1751150069 Tiến hành tìm hiểu cách thức thực hiện, sử dụng Python Google Colab Lưu liệu: Dữ liệu lấy lưu vào File txt Phân tích liệu (Youtube): Trang 59 - Cài đặt môi trường cần thiết - Tiến hành phân tích - Tìm hiểu cách xuất lưu liệu vào File json - Tìm hiểu cách tạo biểu đồ mapplotlib Bảng Phân công thực công việc Trang 60 B Quá trình thực Kế hoạch công việc tháng Từ ngày 06/09/2020 - 20/11/2020 Chuẩn bị ngày 06/09/2020 - 09/09/2020 Lên kế hoạch ngày 09/09/2020 - 16/09/2020 Phân công công việc ngày 16/09/2020 - 20/09/2020 ngày 20/09/2020 - 27/09/2020 ngày 27/09/2020 - 04/10/2020 ngày 04/10/2020 - 11/10/2020 ngày 11/10/2020 - 18/10/2020 14 ngày 18/10/2020 - 25/10/2020 Họp nhóm ngày 25/10/2020 - 01/11/2020 Kết luận ngày 01/11/2020 - 08/11/2020 Đánh giá ngày 08/11/2020 - 15/11/2020 Hoàn thiện báo cáo ngày 15/11/2020 - 20/11/2020 Mục đích việc phân tích liệu Tìm hiểu liệu Tìm hiểu Python, Google Coloab, API Thu thập tiền xử lý liệu thu Phân tích nội dung sau khai phá liệu Bảng Kế hoạch công việc Trang 61

Ngày đăng: 11/07/2023, 12:08

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan