1. Trang chủ
  2. » Giáo Dục - Đào Tạo

(Đồ án tốt nghiệp) tìm hiểu web scaping và topic analysis để phân tích các thông báo tuyển dụng

81 7 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 81
Dung lượng 2,26 MB

Nội dung

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC SƯ PHẠM KỸ THUẬT THÀNH PHỐ HỒ CHÍ MINH ĐỒ ÁN TỐT NGHIỆP NGÀNH CƠNG NGHỆ THƠNG TIN TÌM HIỂU WEB SCRAPING VÀ TOPIC ANALYSIS ĐỂ PHÂN TÍCH CÁC THƠNG BÁO TUYỂN DỤNG GVHD: QCH ĐÌNH HỒNG SVTT1: NGUYỄN QUỐC ĐẠT MSSV: 15110188 SVTT2: TRẦN THỊ TỐ UYÊN MSSV: 15110361 SVTT3:CAO XUÂN NHẪN MSSV: 15110266 SKL005876 Tp Hồ Chí Minh, tháng 07/2019 TRƯỜNG ĐẠI HỌC SƯ PHẠM KỸ THUẬT TP HỒ CHÍ MINH KHOA CƠNG NGHỆ THƠNG TIN BỘ MƠN HỆ THỐNG THÔNG TIN NGUYỄN QUỐC ĐẠT TRẦN THỊ TỐ UYÊN CAO XUÂN NHẪN ĐỀ TÀI: TÌM HIỂU WEB SCRAPING VÀ TOPIC ANALYSIS ĐỂ PHÂN TÍCH CÁC THƠNG BÁO TUYỂN DỤNG KHÓA LUẬN TỐT NGHIỆP KỸ SƯ CNTT GIÁO VIÊN HƯỚNG DẪN ThS QCH ĐÌNH HỒNG KHĨA 2015- 2019 TRƯỜNG ĐẠI HỌC SƯ PHẠM KỸ THUẬT TP HỒ CHÍ MINH KHOA CÔNG NGHỆ THÔNG TIN BỘ MÔN HỆ THỐNG THÔNG TIN NGUYỄN QUỐC ĐẠT TRẦN THỊ TỐ UYÊN CAO XUÂN NHẪN ĐỀ TÀI: TÌM HIỂU WEB SCRAPING VÀ TOPIC ANALYSIS ĐỂ PHÂN TÍCH CÁC THƠNG BÁO TUYỂN DỤNG KHĨA LUẬN TỐT NGHIỆP KỸ SƯ CNTT GIÁO VIÊN HƯỚNG DẪN ThS QUÁCH ĐÌNH HỒNG KHĨA 2015- 2019 PHIẾU NHẬN XÉT CỦA GIÁO VIÊN HƯỚNG DẪN Họ tên Sinh viên 1: Họ tên Sinh viên 2: Họ tên Sinh viên 3: Ngành: Cơng nghệ thơng tin Tên đề tài: Tìm hiểu web scraping topic analysis để phân tích thông báo tuyển dụng Họ tên Giáo viên hướng dẫn: ThS Qch Đình Hồng NHẬN XÉT 1.Về nội dung đề tài khối lượng thực hiện: 2.Ưu điểm: 3.Khuyết điểm: 4.Đề nghị cho bảo vệ hay không: 5.Đánh giá loại: 6.Điểm: Tp Hồ Chí Minh, Ngày tháng năm 2019 Giáo viên hướng dẫn (Ký ghi rõ họ tên) ĐẠI HỌC SƯ PHẠM KỸ THUẬT TP.HCM CỘNG HÒA XÃ HỘI CHỦ NGHIÃ VIỆT NAM Độc lập- Tự do- Hạnh phúc KHOA CÔNG NGHỆ THÔNG TIN PHIẾU NHẬN XÉT CỦA GIÁO VIÊN PHẢN BIỆN Họ tên Sinh viên 1: Nguyễn Quốc Đạt MSSV 1: 15110188 Họ tên Sinh viên 2: Trần Thị Tố Uyên MSSV 2: 15110361 Họ tên Sinh viên 3: Cao Xuân Nhẫn MSSV 3: 15110266 Ngành: Cơng nghệ thơng tin Tên đề tài: Tìm hiểu web scraping topic analysis để phân tích thông báo tuyển dụng Họ tên Giáo viên phản biện: NHẬN XÉT 1.Về nội dung đề tài khối lượng thực hiện: 2.Ưu điểm: 3.Khuyết điểm: 4.Đề nghị cho bảo vệ hay khơng: 5.Đánh giá loại: 6.Điểm: Tp Hồ Chí Minh, Ngày tháng năm 2019 Giáo viên phản biện (Ký ghi rõ họ tên) LỜI CẢM ƠN Một khóa luận ngắn ngủi trơi qua để lại nhiều cảm xúc Chúng xin gửi lời cảm ơn chân thành đến Thầy Qch Đình Hồng Thầy cung cấp cho chúng tơi tài liệu hướng dẫn tận tình cho chúng tơi Trong suốt q trình thực khóa luận, Thầy theo dõi tiến độ giải đáp, chia sẻ giúp chúng tơi vượt qua khó khăn Chúng trân quý tâm huyết trách nhiệm Thầy công việc giảng dạy truyền thụ kiến thức Chúng xin gửi lời cảm ơn sâu sắc đến Thầy Cô khoa Công nghệ thông tin-Đại học Sư phạm kỹ thuật TP.HCM truyền dạy kiến thức hỗ trợ suốt trình học tập thực khóa luận Chúng tơi xin cảm ơn mái trường Sư phạm kỹ thuật tạo nhiều điều kiện thuận lợi cho hoạt động học tập sinh viên chúng tôi, đặc biệt thư viện với nguồn tri thức vô tận Chúng gửi lời cảm ơn chân thành đến bạn mình, bạn khóa 15 ngành Cơng nghệ thơng tin, bạn khóa 15 chun ngành hệ thống thơng tin anh chị em ngành Công nghệ thông tin Chúng tơi cảm ơn góp ý chia sẻ quý giá từ tất bạn Cảm ơn động viên tinh thần từ bạn để nhóm chúng tơi giữ vững tinh thần thực khóa luận tiến độ Những điều mà nhà trường, Thầy Cô bạn bè mang đến cho chúng tôi, ghi nhớ thúc đẩy thân phát triển hồn thiện Cơng việc chắn có khó khăn khổ luyện thành nhân, rõ ràng thấy thân phát triển thêm nhiều kiến thức, tư duy, kỹ năng, cách làm việc mối quan hệ ứng xử với người Chúng nhận thấy thân có khuyết điểm thiếu sót cần cố gắng cải thiện để tốt hơn, hướng tới mục tiêu lớn tương lai NGUYỄN QUỐC ĐẠT TRẦN THỊ TỐ UYÊN CAO XUÂN NHẪN TRƯỜNG ĐẠI HỌC SƯ PHẠM KỸ THUẬT TPHCM KHOA CÔNG NGHỆ THÔNG TIN o ĐỀ CƯƠNG LUẬN VĂN TỐT NGHIỆP Họ tên SV thực 1: Họ tên SV thực 2: Họ tên SV thực 3: Thời gian làm luận văn: Chuyên ngành: Tên luận văn: Giáo viên hướng dẫn: NHIỆM VỤ CỦA LUẬN VĂN: Nhiệm vụ luận văn thu thập liệu cho loại việc làm cụ thể trang web tuyển dụng tiếng Sau tiến hành phân tích theo chủ đề để phát yêu cầu chung, mức lương phổ biến, sách đãi ngộ, tương ứng cho loại việc làm đó, đưa từ khóa phổ biến liên quan đến vị trí cơng việc tìm kiếm, phán đoán kỹ mới, xu hướng tương lai Để đạt điều đó, chúng tơi tập trung tìm hiểu số vấn đề sau: Tìm hiểu khái niệm web scarping cấu trúc HTML Tìm hiểu khái niệm topic analysis kỹ thuật phân tích theo chủ đề (PLSA, LDA) R Thực công việc thu thập liệu web tuyển dụng với thư viện Phân tích theo chủ đề liệu thu thập để đưa thông tin quan tâm Đánh giá giải thích kết ĐỀ CƯƠNG VIẾT LUẬN VĂN: MỤC LỤC LỜI CẢM ƠN KẾT LUẬN 1.Kết đạt 1.1 Về ý nghĩa khoa học Báo cáo trình bày khái niệm web scarping, trình thu thập liệu từ website giới thiệu cấu trúc HTML Nội dung đề tài trình bày thuật tốn để phân tích chủ đề PLSA, LDA áp dụng chúng để phân tích thông báo tuyển dụng Các thư viện liên quan, khảo sát trang web tuyển dụng giới thiệu sơ lược Thông qua đề tài, biết cách đánh giá biểu diễn kết tốn phân tích theo chủ đề toán khai phá liệu nói chung, nâng cao hiểu biết kỹ sử dụng R thư viện hỗ trợ để phân tích liệu Bên cạnh đó, chúng tơi cịn nâng cao khả đọc hiểu tài liệu, khả làm việc nhóm khả trình bày báo cáo khoa học 1.2 Về ý nghĩa thực tiễn Chúng biết nhiều trang web việc làm phổ biến Việt Nam giới Áp dụng kiến thức tìm hiểu để thu thập phân tích cho tốn phát mối quan tâm thông báo tuyển dụng Kết đạt chủ đề bật liên quan đến 15276 thơng báo, số chủ đề bật liên quan đến: data, developer, software, cho thấy mức độ quan tâm nhà tuyển dụng vào vị trí liên quan đến liệu phát triển phần mềm Thông qua việc thực đề tài, biết phân tích theo chủ đề trở thành hướng nghiên cứu phát triển, đặc biệt doanh nghiệp Chẳng hạn mạng xã hội Facebook, Youtube, trang bán hàng điện tử Amazon, thu thập phân tích bình luận, nội dung người dùng đăng tải để phát mối quan tâm nhằm đưa giải pháp kinh doanh hiệu Báo cáo cung cấp lý thuyết cách xử lý toán phân tích chủ đề, làm tài liệu để người dùng áp dụng cải tiến để giải nhiều toán doanh nghiệp trường học Hạn chế đề xuất cải thiện Do giới hạn nguồn lực và thời gian, thu thập cho website cấu trúc HTML tương đối đồng Việc xử lý loại bỏ liệu trùng lặp thực thủ cơng Phân tích dừng lại thuộc tính Nhóm đề xuất thực thu thập thông báo việc làm nhiều website khác cấu trúc khác nhau, sử dụng 61 công cụ thuật tốn để loại bỏ thơng báo trùng lặp mở rộng phân tích cho hai nhiều thuộc tính cho kết phản ánh xác mối quan tâm nhà tuyển dụng Hướng phát triển Lý thuyết trình bày báo cáo áp dụng để giải tốn phân tích doanh nghiệp trường học như: phân tích quan tâm sinh viên học phí trường Đại học Sư Phạm Kỹ Thuật TP.HCM giai đoạn bước sang tự chủ tài chính, phân tích phản hồi người dùng dịng sản phẩm SamsungGalaxy Note Thế Giới Di Động,… Đề tài cịn phát triển tiếp tục theo hướng nghiên cứu cải thiện chất lượng phân tích thơng qua: + Lựa chọn số k (số chủ đề) tối ưu với liệu Ý tưởng sử dụng phương pháp cross validation (hold out, k fold, leave one out) để đánh giá kết sinh lần lựa chọn k khác Từ giúp tìm số k phù hợp với liệu [7] + Giải vấn đề khác biệt chủ đề thay đổi thứ tự tập liệu đào tạo + Bổ sung mối quan hệ tương đồng quan hệ cú pháp từ câu để dự đoán chủ đề phù hợp Cụ thể từ có ngữ cảnh xuất có quan hệ cú pháp gần với thường xuất chủ đề + Quá trình tiền xử lí liệu đưa cụm từ thay từ đưa vào phân tích cho kết có ý nghĩa phù hợp với liệu 62 TÀI LIỆU THAM KHẢO Tiếng Việt [1] Nguyễn Trung Kiên, Lê Quang Minh, Xây dựng ứng dụng thu thập liệu tự động từ Website, Luận văn tốt nghiệp, Đại học Bách Khoa TP.HCM, 2009, trang 13-15 [2] Đào Minh Tùng, Phân cụm đa mức web k-means dựa chủ đề ẩn thực nghiệm đánh giá, Luận văn tốt nghiệp, Đại học Công nghệ- ĐHQGHN, 2011, trang 10-2021 Tiếng Anh [3] Simon Munzert, Automated Data Collection with R- A Practical Guide to Web Scraping and Text Mining, John Wiley & Sons Ltd, 2015, trang 292 [4] ChengXiang Zhai, Sean Massung, Text Data Management and Analysis - A Practical Introduction to Information Retrieval and Text Mining, ACM Books, 2016, trang 331 [5] Foster Provost, Tom Fawcett, Data Science For Business- What You Need To Know About Data Mining And Data-Analytic Thinking, O'Reilly Media, 2013, trang 252 [6] Bettina Grun, Kurt Hornik, An R package for fitting topic models, University of Wollongong, 2011, trang 9-10 Nguồn khác [7] Cross-validation of topic modelling, links http://freerangestats.info/blog/2017/01/05/topic-model-cv, 06/2019 [8] The Little Book of LDA, links https://ldabook.com/lda-inference.html#general-overview, 06/2019 63 PHỤ LỤC A Code thực thu thập liệu thông báo việc làm: library(tidyverse) library(rvest) library(wordcloud) full_df % rvest::html_nodes('.hidden-xs') %>% rvest::html_nodes('.compName') %>% rvest::html_text() %>% stringi::stri_trim_both() -> company.name #get job location job_location % rvest::html_nodes('.complete-serp-result-div') %>% rvest::html_nodes('.jobLoc') %>% rvest::html_text() %>% stringi::stri_trim_both() # get links links % rvest::html_nodes('.complete-serp-result-div') %>% rvest::html_nodes("h3") %>% rvest::html_nodes("a") %>% rvest::html_attr("href") 64 job_description % rvest::html_text() %>% stringi::stri_trim_both() for (k in 1:length(text)){ Job_Overview[j]

Ngày đăng: 21/12/2021, 09:07

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
[1] Nguyễn Trung Kiên, Lê Quang Minh, Xây dựng ứng dụng thu thập dữ liệu tự động từ các Website, Luận văn tốt nghiệp, Đại học Bách Khoa TP.HCM, 2009, trang 13-15 Sách, tạp chí
Tiêu đề: Xây dựng ứng dụng thu thập dữ liệu tự động từ các"Website
[2] Đào Minh Tùng, Phân cụm đa mức web bằng k-means dựa trên chủ đề ẩn và thực nghiệm đánh giá, Luận văn tốt nghiệp, Đại học Công nghệ- ĐHQGHN, 2011, trang 10-20- 21.Tiếng Anh Sách, tạp chí
Tiêu đề: Phân cụm đa mức web bằng k-means dựa trên chủ đề ẩn và thực "nghiệm đánh giá
[3] Simon Munzert, Automated Data Collection with R- A Practical Guide to Web Scraping and Text Mining, John Wiley & Sons Ltd, 2015, trang 292 Sách, tạp chí
Tiêu đề: Automated Data Collection with R- A Practical Guide to Web Scraping "and Text Mining
[4] ChengXiang Zhai, Sean Massung, Text Data Management and Analysis - A Practical Introduction to Information Retrieval and Text Mining, ACM Books, 2016, trang 331 Sách, tạp chí
Tiêu đề: Text Data Management and Analysis - A Practical "Introduction to Information Retrieval and Text Mining
[5] Foster Provost, Tom Fawcett, Data Science For Business- What You Need To Know About Data Mining And Data-Analytic Thinking, O'Reilly Media, 2013, trang 252 Sách, tạp chí
Tiêu đề: Data Science For Business- What You Need To Know About"Data Mining And Data-Analytic Thinking
[6] Bettina Grun, Kurt Hornik, An R package for fitting topic models, University of Wollongong, 2011, trang 9-10Nguồn khác Sách, tạp chí
Tiêu đề: An R package for fitting topic models
[7] Cross-validation of topic modelling, links http://freerangestats.info/blog/2017/01/05/topic- model-cv , 06/2019 Sách, tạp chí
Tiêu đề: Cross-validation of topic modelling, links "http://freerangestats.info/blog/2017/01/05/topic-" model-cv
[8] The Little Book of LDA, links https://ldabook.com/lda-inference.html#general-overview , 06/2019 Sách, tạp chí
Tiêu đề: The Little Book of LDA, links https://ldabook.com/lda-inference.html#general-overview

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w