Báo cáo thực tập tốt nghiệp truyền thông và mạng máy tính phân tích dữ liệu tuyển sinh cho trường đại học giao thông vận tải tp hồ chí minh

74 7 0
Báo cáo thực tập tốt nghiệp truyền thông và mạng máy tính phân tích dữ liệu tuyển sinh cho trường đại học giao thông vận tải tp  hồ chí minh

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

ĐẠI HỌC GIAO THƠNG VẬN TẢI TP HỒ CHÍ MINH KHOA CÔNG NGHỆ THÔNG TIN Đ H G O IA Ô TH THỰC TẬP TỐT NGHIỆP G N PHÂN TÍCH DỮ LIỆU TUYỂN SINH CHO TRƯỜNG ĐẠI HỌC GIAO THÔNG VẬN TẢI TP HỒ CHÍ MINH N VẬ Giảng viên hướng dẫn: ThS Đặng Nhân Cách TẢ Sinh viên thực hiện: Trần Thị Thu Trang – 1751150069 – KM17 IT Tiếu Thị Thanh Ngân – 1751120034 – CN17A PH Nguyễn Thanh Trúc – 1751150071 – KM17 Ngành: Công Nghệ Thông Tin Chun ngành: Truyền thơng mạng máy tính Cơng Nghệ Thơng Tin Khóa: 2017 – 2021 TP HỒ CHÍ MINH NĂM 2020 CM Nguyễn Thị Bích Ngọc – 1751150039 – KM17 NHẬN XÉT CỦA GIẢNG VIÊN HƯỚNG DẪN Đ H IA G O TH Ô G N VẬ N TẢ IT PH CM TP Hồ Chí Minh, ngày tháng Giảng viên hướng dẫn (Kí ghi rõ họ tên) năm 2020 NHẬN XÉT CỦA GIẢNG VIÊN PHẢN BIỆN Đ H IA G O TH Ô G N VẬ N TẢ IT PH CM TP Hồ Chí Minh, ngày tháng Giảng viên phản biện (Kí ghi rõ họ tên) năm 2020 MỤC LỤC MỤC LỤC i DANH MỤC HÌNH ẢNH iv DANH MỤC BẢNG BIỂU viii DANH MỤC VIẾT TẮT ix Đ LỜI MỞ ĐẦU H IA G LỜI CẢM ƠN LỜI CAM ĐOAN O CHƯƠNG 1: CƠ SỞ LÝ THUYẾT VÀ CÔNG CỤ NGHIÊN CỨU TH 1.1 Cơ sở lý thuyết Ô G N Khái niệm khai phá liệu VẬ Các phương pháp khai phá liệu N Quy trình khai phá liệu TẢ Lợi ích khai phá liệu PH IT 1.2 Ngôn ngữ lập trình Python Khái niệm CM Tính Tại nên sử dụng Python? 1.3 Thư viện Python 10 Thư viện BeautifulSoup4 10 Thư viện Request 11 Thư viện FeedPaser 12 Trang i Xử lý ngôn ngữ tự nhiên (Natural Language Processing) 13 Thư viện NLTK 14 1.4 Thu thập liệu từ Website 14 1.5 Thế StopWords? 16 Khái niệm 16 Đ Cách loại bỏ StopWords 16 H IA G 1.6 Phần mềm Export Comments 17 1.7 Google Colaboratory 18 O TH 1.8 WordCloud 19 N Ô 1.9 Youtube API v3 19 Khái niệm 19 G VẬ Cách thức hoạt động 20 N 1.10 Google Analytics 21 IT TẢ Giới thiệu Analytics 21 Công dụng Google Analytics 21 PH Cách thức hoạt động Google Analytics 22 CM CHƯƠNG 2: KHAI PHÁ VÀ XỬ LÝ DỮ LIỆU 23 2.1 Dữ liệu Website tuyensinh.ut.edu.vn 23 2.1.1 Khai phá liệu Website 24 2.1.2 Xử lý liệu 26 2.2 Dữ liệu Youtube 27 2.2.1 Khai phá liệu 28 Trang ii 2.2.2 Xử lý liệu 32 2.3 Dữ liệu Facebook 34 2.3.1 Khai phá liệu 35 2.3.2 Xử lý liệu 38 CHƯƠNG 3: PHÂN TÍCH DỮ LIỆU 42 Đ 3.1 Dữ liệu Website 42 H IA G 3.2 Dữ liệu Youtube 45 3.3 Dữ liệu Facebook 48 O TH CHƯƠNG 4: KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 54 Ô 4.1 Kết đạt hạn chế 54 G N 4.2 Hướng phát triển đề tài kiến nghị 55 VẬ TÀI LIỆU THAM KHẢO 56 N PHỤ LỤC 58 CM PH IT TẢ Trang iii DANH MỤC HÌNH ẢNH Hình 1.1 Làm để xử lý liệu? Hình 1.2 Quy trình khai phá tri thức KDD Hình 1.3 Python Đ Hình 1.4 Sử dụng BeautifulSoup4 11 H IA G Hình 1.5 Kết BeautifulSoup4 11 Hình 1.6 Code sử dụng feedparser 13 O Hình 1.7 Kết feedparser 13 TH Hình 1.8 Ví dụ Stopwords 16 Ơ G N Hình 1.9 StopWords theo tần suất 17 VẬ Hình 1.10 Phần mềm Export Comments 17 N Hình 1.11 Google Colaboratory 18 TẢ Hình 1.12 WordCloud theo word list 19 PH IT Hình 1.13 Youtube API v3 20 Hình 1.14 Google Analytics 21 CM Hình 2.1 Giao diện Website 23 Hình 2.2 Giao diện Website (2) 24 Hình 2.3 Form liên hệ 24 Hình 2.4 File content987.txt 25 Hình 2.5 File content10.txt 25 Hình 2.6 File locweb.txt 25 Trang iv Hình 2.7 Kết nối Google Drive 26 Hình 2.8 Lấy liệu từ file 26 Hình 2.9 Xử lý Stopwords 26 Hình 2.10 Wordcloud liệu Website (1) 27 Hình 2.11 Wordcloud liệu Website (2) 27 Đ Hình 2.12 Lấy Key API Youtube (1) 28 H IA G Hình 2.13 Lấy Key API Youtube (2) 28 Hình 2.14 Lấy Key API Youtube (3) 29 O TH Hình 2.15 Lấy Key API Youtube (4) 29 N Ơ Hình 2.16 Lấy Key API Youtube (5) 29 Hình 2.17 Lấy Key API Youtube (6) 30 G VẬ Hình 2.18 Lấy Key API Youtube (7) 30 N Hình 2.19 File json youtube_credentials.json 30 TẢ Hình 2.20 File youtube_credentials.py.ipynb 30 PH IT Hình 2.21 Cài đặt thư viện liên kết với Drive 31 Hình 2.22 Tạo đối tượng liên kết với API 31 CM Hình 2.23 Import file 31 Hình 2.24 Lấy comments từ Youtube 32 Hình 2.25 Lấy ID video Youtube 32 Hình 2.26 Lấy liệu từ comments Youtube 33 Hình 2.27 Lấy comments từ Youtube 33 Hình 2.28 File chuanhoa_youtube.txt 33 Trang v Hình 2.29 Wordcloud comment từ Youtube 34 Hình 2.30 Giao diện trang Tuyển sinh Facebook 34 Hình 2.31 Tổng hợp viết 35 Hình 2.32 Phần mềm Export Comments 35 Hình 2.33 Dữ liệu comments Facebook 36 Đ Hình 2.34 Kết nối Google Drive 36 H IA G Hình 2.35 Tách comments 36 Hình 2.36 File content789.txt 36 O TH Hình 2.37 File content10.txt 37 N Ô Hình 2.38 File locfb.txt 37 Hình 2.39 File truocchuanhoa.txt 37 G VẬ Hình 2.40 File sauchuanhoa.txt 38 N Hình 2.41 Kết nối Google Drive 38 IT TẢ Hình 2.42 Lấy liệu từ Google Drive 38 Hình 2.43 Loại bỏ URL 39 PH Hình 2.44 Loại bỏ biểu tượng cảm xúc 39 CM Hình 2.45 Chuẩn hóa từ 39 Hình 2.46 Chuẩn hóa từ 40 Hình 2.47 Vẽ Wordcloud 40 Hình 2.48 Wordcloud liệu Facebook (1) 41 Hình 2.49 Wordcloud liệu Facebook (2) 41 Hình 3.1 Wordcloud liệu Website (1) 42 Trang vi Hình 3.2 Wordcloud liệu Website (2) 42 Hình 3.3 Keyword Website tháng 7,8,9 43 Hình 3.4 Keywords Website tháng 10 43 Hình 3.5 Biểu đồ liệu thu 44 Hình 3.6 Dữ liệu thống kê từ Google Analytics 45 Đ Hình 3.7 Số người truy cập theo độ tuổi 45 H IA G Hình 3.9 Wordcloud liệu Facebook (1) 48 Hình 3.10 Wordcloud liệu Facebook (2) 48 O TH Hình 3.11 Keywords Facebook tháng 7,8,9 49 Ô Hình 3.12 Keywords Facebook tháng 10 49 G N Hình 3.13 Số người tiếp cận viết từ 1/7-30/9 50 VẬ Hình 3.14 Số người tiếp cận viết từ 1/10-30/10 50 N Hình 3.15 Số lượt tương tác từ 1/7-30/9 51 TẢ Hình 3.16 Số lượt tương tác từ 2/10-7/10 51 PH IT Hình 3.17 Biểu đồ thể tổng lượt truy cập theo tỉnh thành 52 Hình 3.18 Biểu đồ thể lượt truy cập theo giới tính độ tuổi 53 CM Trang vii NGÀNH LOGISTICS LÀ GÌ HỌC NHỮNG GÌ Tuyển sinh Trường Đại 4:58 19,241 20,163 187/5 11 3:45 7,680 8,447 44/5 5:42 250 258 0/0 học Giao thông vận tải TP HCM Ngành Ra Trường 100% Có Việc Làm Ngay ??? Tuyển sinh Trường Đại học Giao thông vận tải TP HCM Đ ĐỊNH HƯỚNG NGHỀ NGHIỆP H G TƯƠNG LAI? Tuyển sinh Trường Đại O IA học Giao thông vận tải TP HCM Bảng Thống kê video sau tuyển sinh Youtube TH Thống kê cho thấy video “NGÀNH LOGISTICS LÀ GÌ HỌC NHỮNG GÌ Tuyển N Ô sinh Trường Đại học Giao thông vận tải TP HCM” có lượt xem cao G Các video liên quan đến ngành Kỹ thuật điện, Điện tử viễn thông, Điều khiển VẬ Tự động hóa, Kinh tế vận tải, Kinh tế xây dựng, Khai thác vận tải, Logictics quản lý TẢ đến ngành khác N chuỗi cung ứng, Cơng nghệ thơng tin có lượt xem tăng mạnh video liên quan Mối quan tâm trường việc làm tâm điểm thí sinh Ngồi vấn IT đề học phí quan tâm kết tương tác không đáng kể CM PH Hình 3.8 Bình luận Youtube Trang 47 3.3 Dữ liệu Facebook Keywords từ 01/07/2020 đến 30/09/2020 Đ H O IA G TH Ơ Hình 3.9 Wordcloud liệu Facebook (1) G N Keywords từ 01/10/2020 đến 30/10/2020 N VẬ CM PH IT TẢ Hình 3.10 Wordcloud liệu Facebook (2) Trang 48 250 Thống kê keyword xuất wordcloud: Đ 97 H 44 22 16 12 36 46 3 7 16 18 1 1 13 O TH KEYWORDS Đại học Điện tử viễn thông Cơ khí Hàng hải logistics G N Ơ Vận tải biển Điểm chuẩn Xây dựng Tàu thủy Nguyện vọng Tuyển sinh Tự động hóa Kinh tế Đại trà Tốt nghiệp VẬ Hình 3.11 Keywords Facebook tháng 7,8,9 45 TẢ 42 55 N Đại học Chính xác Kí túc xá Vận tải biến Tốt nghiệp Vận tải Giấy báo 7 5 4 3 2 1 1 1 CM Điểm chuẩn Tuyển chọn Công nghệ Chuyên ngành Xây dựng Logistics Kết Trường 18 PH IT 19 IA G Kỹ thuật Giao thơng Đăng kí Khai thác Chất lượng KEYWORDS Quản trị Tự động hóa Đăng kí Học phí Cơ khí Sinh viên Nhập học Kinh doanh Công nghệ thông tin Học bạ Khai thác Tra cứu Trúng tuyển Điểm Hình 3.12 Keywords Facebook tháng 10 Trang 49 Thơng qua hình 3.11 hình 3.12 thống kê keywords liên quan đến ngành đào tạo xuất nhiều chứng tỏ Fanpage quan tâm người ngành đào tạo trường thể rõ Một số thống kê thể chiến dịch quảng cáo Facebook Đ H O IA G G N Ơ TH VẬ N Hình 3.13 Số người tiếp cận viết từ 1/7-30/9 CM PH IT TẢ Hình 3.14 Số người tiếp cận viết từ 1/10-30/10 Trang 50 Qua hình, có khác biệt rõ ràng lượng người tiếp cận viết Đối với giai đoạn từ 1/7-30/9, trường tiến hành chiến dịch chạy quảng cáo cho viết dẫn tới kết số lượng người tiếp cận tăng cao, điều đồng nghĩa với việc thông tin từ viết nhiều người biết đến Đ H O IA G G N Ơ TH N VẬ Hình 3.15 Số lượt tương tác từ 1/7-30/9 CM PH IT TẢ Hình 3.16 Số lượt tương tác từ 2/10-7/10 Trang 51 Không lượng người tiếp viết tăng mà cịn có quan tâm qua bình luận, cảm xúc, lượt chia sẻ giao đoạn 1/7-30/9 biến động khơng ngừng Nhưng đến giai đoạn 1/10-30/10 biểu đồ khơng cịn biến động nhiều giai đoạn trước có ngày có biến động từ ngày 2/10-7/10 có giao động lớn thời gian trường tiến hành công tác nhập học cho sinh viên khóa 20 Về vùng miền, tỉnh thành thuộc khu vực Trung bộ, Nam có tỉ lệ người quan Đ tâm cao H O 40000 Biểu đồ thể tổng lượt truy cập theo tỉnh thành IA G 50000 TH 30000 Ô G N 20000 10000 VẬ Bạc Liêu Bắc Giang Đồng Nai Đắk Lắk Tiền Giang Hà Tĩnh Tỉnh thành Điện Biên Bình Định TẢ Đà Nẵng N Lâm Đồng Bến Tre Cà Mau Cần Thơ Đồng Tháp Gia Lai Hà Nội Hịa Bình Hải Dương Hải Phòng Huế Hưng Yên Lào Cai Lạng Sơn An Giang Tiền Giang2 Nam Định Khánh Hịa Ninh Bình Ninh Thuận Bình Thuận Gia Lai2 Quảng Ngãi Quảng Nam Kiên Giang Sóc Trăng Sơn La Long An Tây Ninh Thành phố Hồ Chí Minh Thái Bình Thái Ngun Thanh Hóa Trà Vinh Tuyên Quang Phú Yên Vĩnh Long Vũng Tàu Vinh, Nghệ An Yên Bái CM PH IT Bắc Ninh Phú Thọ Quy Nhơn, Bình Định Hình 3.17 Biểu đồ thể tổng lượt truy cập theo tỉnh thành Trang 52 Biểu đồ thể số đặc điểm người truy cập giới tính, tuổi tác, vùng miền Qua đó, với 100 người truy cập quan tâm đến Fanpage có đến 59 người nam 41 người nữ, tỉ lệ tương đối độ tuổi từ 18 đến 24 Đ H IA G O Hình 3.18 Biểu đồ thể lượt truy cập theo giới tính độ tuổi G N Ơ TH N VẬ CM PH IT TẢ Trang 53 CHƯƠNG 4: KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN Qua trình nghiên cứu nhóm thực việc phân tích liệu tuyển sinh để từ lấy làm sở cho chương đưa kết đạt hạn chế đề tài Đồng thời nêu hướng phát triển đề tài số kiến nghị 4.1 Kết đạt hạn chế Việc thực đề tài “Phân Tích Dữ Liệu Tuyển Sinh Cho Trường Đại Học Giao Đ Thông Vận Tải TP Hồ Chí Minh” nhằm mục đích xây dựng kho thông tin, liệu phục H G vụ cho công tác tuyển sinh Trường Đại Học Giao Thơng Vận Tải TP Hồ Chí Minh IA Báo cáo đạt số kết sau: O − Tìm hiểu tổng quan khai phá liệu Ơ cáo TH − Phân tích tần suất xuất Keywords có liên quan đến đề tài báo G N − Làm liệu thô phương pháp: thủ công sử dụng ngôn ngữ lập trình Tạo tệp liệu keywords VẬ − Mơ hình hóa liệu thơng qua worldcloud dashboard N Bên cạnh kết đạt mà nhóm nghiên cứu, nhiên cịn nhiều TẢ hạn chế kiến thức kỹ nên nhóm khơng khỏi thiếu sót báo cáo, CM PH IT mong ban hội đồng xem xét bỏ qua Trang 54 4.2 Hướng phát triển đề tài kiến nghị Với đề tài “Phân tích liệu tuyển sinh cho Trường Đại học Giao thông vận tải TP Hồ Chí Minh” nhóm đưa kết keywords liên quan tới tuyển sinh từ nhóm chúng em có đề số hướng phát triển sau: − Tối ưu quy trình khai phá xử lý liệu ban đầu − Xây dựng dashboard có khả biến thiên theo liệu Đ Để công tác tuyển sinh cho năm học 2021-2022 Trường Đại học Giao thông H G vận tải TP Hồ Chí Minh đạt kết tốt hơn, nhóm đưa số kiến nghị sau: IA − Đối với Facebook: Trả lời bình luận ngắn gọn, rõ ràng, vấn đề câu hỏi, O cập nhật thông tin tuyển sinh lên đầu trang Fanpage tuyển sinh TH trường Tổ chức buổi phát sóng trực tiếp vấn đề tuyển sinh trường, Ơ thơng qua tương tác, giải đáp thắc mắc muốn ứng tuyển G N vào trường người quan tâm tới vấn đề tuyển sinh trường − Đối với Website: Luôn cập nhật thông tin vấn đề tuyển VẬ sinh thêm nhiều thông tin giải thưởng, thi hoạt động N trường lên trang Website TẢ − Đối với Youtube: Cần đầu tư vào chất lượng video, giới thiệu chuyên sâu CM PH IT ngành nghề Trang 55 TÀI LIỆU THAM KHẢO [1] Jiawei Han, Micheline Kamber, Jian Pei Data Mining Concepts and Techniques Third edition Elsevier BV Inc 2012 [2] Murgante, B., Misra, S., Rocha, A.M.A.C., Torre, C.M., Rocha, J.G., Falcão, M.I., Taniar, D., Apduhan, B.O., Gervasi, O (Eds.) Computational Science and Its Applications - ICCSA 2014.14th International Conference Guimarães, Portugal, 2014 Đ Part IV H G [3] Matthew A Russell, Mikhail Klassen Mining the Social Web: Data Mining IA Facebook, Twitter, Linkedln, Instagram, GitHub, and More Third edition O’Reilly O Media January 14, 2019 TH [4] Sebastian Raschka, Vahid Mirjalili Python Machine Learning: Machine Learning Ô and Deep Learning with Python, scikit-learn, and TensorFlow 2, 3rd Edition Packt G N Publishing December 12, 2019 N VẬ CM PH IT TẢ Trang 56 PHỤ LỤC A Phân công nhiệm vụ thực STT Họ tên Mã số sinh Lớp Công việc cụ thể phân công viên Tìm hiểu ngơn ngữ lập trình Đ Python mơi trường làm việc H Tìm hiểu kết nối API Facebook, xây G O IA dựng kết nối Tiến hành tìm hiểu cách thức thực TH hiện, sử dụng Python Google G N Ô Colab Thanh CN17A 1751120034 - Làm hiểu code ví dụ Ngân TẢ N Làm ví dụ: VẬ Tiếu Thị Đọc tài liệu - Hiểu ví dụ phục vụ cho chức PH IT - Báo cáo làm cho CM nhóm Lưu liệu: Dữ liệu lấy lưu vào File txt xlxs Phân tích liệu (Facebook Website): - Cài đặt môi trường cần thiết Trang 57 - Tiến hành phân tích - Tìm hiểu cách xuất lưu liệu vào File json - Tìm hiểu cách làm liệu Stopword, tạo biểu đồ Đ mapplotlib H Phân chia công việc cho thành G viên nhóm IA O Kiểm tra lại sai sót TH Tìm hiểu ngơn ngữ lập trình G N Ơ Python mơi trường làm việc Tiến hành tìm hiểu cách thức thực VẬ hiện, sử dụng Python Google N Colab Thanh 1751150071 Lưu liệu: Dữ liệu lấy lưu vào File txt xlxs PH Trúc KM17 IT TẢ Đọc tài liệu Nguyễn Website): CM Phân tích liệu (Facebook - Tiến hành phân tích - Tìm hiểu cách tạo biểu đồ mapplotlib Trang 58 Tìm hiểu tài liệu liên quan tới báo cáo Tìm hiểu ngơn ngữ lập trình Python mơi trường làm việc Tiến hành tìm hiểu cách thức thực Nguyễn Đ Thị Bích H hiện, sử dụng Python Google KM17 1751150039 G Ngọc Colab IA Đọc tài liệu O Lưu liệu: Dữ liệu lấy lưu TH vào File txt xlxs G N Ô Đưa kết quả, phương hướng phát triển kiến nghị VẬ Tập hợp tài liệu có liên quan đến N báo cáo IT TẢ Đọc tài liệu Từ tài liệu tìm hiểu tiến hành PH tạo liên kết API v3 Youtube Thu Trang KM17 1751150069 Tiến hành tìm hiểu cách thức thực CM Trần Thị hiện, sử dụng Python Google Colab Lưu liệu: Dữ liệu lấy lưu vào File txt Phân tích liệu (Youtube): Trang 59 - Cài đặt môi trường cần thiết - Tiến hành phân tích - Tìm hiểu cách xuất lưu liệu vào File json - Tìm hiểu cách tạo biểu đồ Đ mapplotlib H O IA G Bảng Phân công thực cơng việc G N Ơ TH N VẬ CM PH IT TẢ Trang 60 B Quá trình thực Kế hoạch công việc tháng Từ ngày 06/09/2020 - 20/11/2020 Chuẩn bị ngày 06/09/2020 - 09/09/2020 Lên kế hoạch ngày 09/09/2020 - 16/09/2020 Phân công công việc ngày 16/09/2020 - 20/09/2020 ngày 20/09/2020 - 27/09/2020 ngày 27/09/2020 - 04/10/2020 ngày 04/10/2020 - 11/10/2020 ngày 11/10/2020 - 18/10/2020 Mục đích việc phân Đ H tích liệu G Tìm hiểu liệu O IA Tìm hiểu Python, Google Coloab, API TH Thu thập tiền xử lý N Ô liệu thu Phân tích nội dung sau 14 ngày 18/10/2020 - 25/10/2020 G khai phá liệu VẬ 25/10/2020 - 01/11/2020 Kết luận ngày 01/11/2020 - 08/11/2020 Đánh giá ngày Hồn thiện báo cáo ngày Họp nhóm ngày N TẢ 08/11/2020 - 15/11/2020 IT 15/11/2020 - 20/11/2020 CM PH Bảng Kế hoạch công việc Trang 61

Ngày đăng: 29/09/2023, 12:34

Tài liệu cùng người dùng

Tài liệu liên quan