1. Trang chủ
  2. » Luận Văn - Báo Cáo

Tìm hiểu web scaping và topic analysis để phân tích các thông báo tuyển dụng

67 7 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 67
Dung lượng 2,02 MB

Nội dung

Tìm hiểu web scaping và topic analysis để phân tích các thông báo tuyển dụng Tìm hiểu web scaping và topic analysis để phân tích các thông báo tuyển dụng Tìm hiểu web scaping và topic analysis để phân tích các thông báo tuyển dụng Tìm hiểu web scaping và topic analysis để phân tích các thông báo tuyển dụng Tìm hiểu web scaping và topic analysis để phân tích các thông báo tuyển dụng

TRƯỜNG ĐẠI HỌC SƯ PHẠM KỸ THUẬT TP HỒ CHÍ MINH KHOA CÔNG NGHỆ THÔNG TIN BỘ MÔN HỆ THỐNG THÔNG TIN NGUYỄN QUỐC ĐẠT 15110188 TRẦN THỊ TỐ UYÊN 15110361 CAO XUÂN NHẪN 15110266 ĐỀ TÀI: TÌM HIỂU WEB SCRAPING VÀ TOPIC ANALYSIS ĐỂ PHÂN TÍCH CÁC THƠNG BÁO TUYỂN DỤNG KHÓA LUẬN TỐT NGHIỆP KỸ SƯ CNTT GIÁO VIÊN HƯỚNG DẪN ThS QCH ĐÌNH HỒNG KHĨA 2015- 2019 LỜI CẢM ƠN Một khóa luận ngắn ngủi trôi qua để lại nhiều cảm xúc Chúng xin gửi lời cảm ơn chân thành đến Thầy Qch Đình Hồng Thầy cung cấp cho tài liệu hướng dẫn tận tình cho chúng tơi Trong suốt q trình thực khóa luận, Thầy ln theo dõi tiến độ giải đáp, chia sẻ giúp vượt qua khó khăn Chúng tơi trân q tâm huyết trách nhiệm Thầy công việc giảng dạy truyền thụ kiến thức Chúng xin gửi lời cảm ơn sâu sắc đến Thầy Cô khoa Công nghệ thông tinĐại học Sư phạm kỹ thuật TP.HCM truyền dạy kiến thức hỗ trợ suốt q trình học tập thực khóa luận Chúng xin cảm ơn mái trường Sư phạm kỹ thuật tạo nhiều điều kiện thuận lợi cho hoạt động học tập sinh viên chúng tôi, đặc biệt thư viện với nguồn tri thức vô tận Chúng gửi lời cảm ơn chân thành đến bạn mình, bạn khóa 15 ngành Cơng nghệ thơng tin, bạn khóa 15 chun ngành hệ thống thông tin anh chị em ngành Công nghệ thơng tin Chúng tơi cảm ơn góp ý chia sẻ quý giá từ tất bạn Cảm ơn động viên tinh thần từ bạn để nhóm chúng tơi giữ vững tinh thần thực khóa luận tiến độ Những điều mà nhà trường, Thầy Cô bạn bè mang đến cho chúng tôi, ghi nhớ thúc đẩy thân phát triển hoàn thiện Cơng việc chắn có khó khăn khổ luyện thành nhân, rõ ràng thấy thân phát triển thêm nhiều kiến thức, tư duy, kỹ năng, cách làm việc mối quan hệ ứng xử với người Chúng nhận thấy thân có khuyết điểm thiếu sót cần cố gắng cải thiện để tốt hơn, hướng tới mục tiêu lớn tương lai NGUYỄN QUỐC ĐẠT TRẦN THỊ TỐ UYÊN CAO XUÂN NHẪN TRƯỜNG ĐẠI HỌC SƯ PHẠM KỸ THUẬT TPHCM KHOA CÔNG NGHỆ THÔNG TIN o ĐỀ CƯƠNG LUẬN VĂN TỐT NGHIỆP Họ tên SV thực 1: Nguyễn Quốc Đạt MSSV: 15110188 Họ tên SV thực 2: Trần Thị Tố Uyên MSSV: 15110361 Họ tên SV thực 3: Cao Xuân Nhẫn MSSV: 15110266 Thời gian làm luận văn: Từ: 03/2019 Đến: 07/2019 Chuyên ngành: Hệ thống thơng tin Tên luận văn: Tìm hiểu web scraping topic analysis để phân tích thơng báo tuyển dụng Giáo viên hướng dẫn: Ths Qch Đình Hồng NHIỆM VỤ CỦA LUẬN VĂN: Nhiệm vụ luận văn thu thập liệu cho loại việc làm cụ thể trang web tuyển dụng tiếng Sau tiến hành phân tích theo chủ đề để phát yêu cầu chung, mức lương phổ biến, sách đãi ngộ, tương ứng cho loại việc làm đó, đưa từ khóa phổ biến liên quan đến vị trí cơng việc tìm kiếm, phán đốn kỹ mới, xu hướng tương lai Để đạt điều đó, chúng tơi tập trung tìm hiểu số vấn đề sau: Tìm hiểu khái niệm web scarping cấu trúc HTML Tìm hiểu khái niệm topic analysis kỹ thuật phân tích theo chủ đề (PLSA, LDA) Thực công việc thu thập liệu web tuyển dụng với thư viện R Phân tích theo chủ đề liệu thu thập để đưa thơng tin quan tâm Đánh giá giải thích kết ĐỀ CƯƠNG VIẾT LUẬN VĂN: MỤC LỤC LỜI CẢM ƠN ĐỀ CƯƠNG LUẬN VĂN TỐT NGHIỆP MỤC LỤC DANH MỤC BẢNG BIỂU DANH MỤC HÌNH VẼ, SƠ ĐỒ DANH MỤC TỪ VIẾT TẮT TÓM TẮT CHƯƠNG 1: TỔNG QUAN ĐỀ TÀI 1.1 GIỚI THIỆU BÀI TOÁN 1.2 MỤC TIÊU 1.3 BỐ CỤC CỦA BÁO CÁO CHƯƠNG 2: TỔNG QUAN WEB SCRAPING 2.1 KHÁI NIỆM WEB SCRAPING 2.2 CẤU TRÚC TÀI LIỆU HTML CHƯƠNG 3: TỔNG QUAN TOPIC ANALYSIS 3.1 CÁC KHÁI NIỆM 3.1.1 Khái niệm chủ đề 3.1.2 Khái niệm topic analysis topic model 3.2 BÀI TOÁN TOPIC ANALYSIS 3.2.1 Đối tượng liệu quan tâm 3.2.2 Các bước thực 3.3 CÁC THUẬT TOÁN PHÂN TÍCH CHỦ ĐỀ (TOPIC ANALYSIS) 3.3.1 Thuật tốn PLSA 3.3.2 Thuật toán LDA CHƯƠNG 4: THỰC HIỆN THU THẬP CÁC THÔNG BÁO TUYỂN DỤNG 4.1 ĐỐI TƯỢNG VÀ DỮ LIỆU QUAN TÂM 4.2 GIỚI THIỆU CÔNG CỤ R VÀ CÁC THƯ VIỆN 4.2.1 Giới thiệu ngôn ngữ R 4.2.2 Các gói thư viện hỗ trợ web scraping THỰC HIỆN TẢI XUỐNG DỮ LIỆU VỚI CÔNG CỤ R 4.3 CHƯƠNG 5: ỨNG DỤNG TOPIC MODEL PHÂN TÍCH THƠNG BÁO TUYỂN DỤNG 5.1 CÁC CÔNG CỤ VÀ THƯ VIỆN CẦN THIẾT 5.1.1 Thư viện Tm 5.1.2 Thư viện Quanteda 5.1.3 Thư viện Topicmodels 5.2 DỮ LIỆU VÀ TIỀN XỬ LÝ 5.2.1 Mô tả liệu 5.2.2 Tiền xử lý liệu 5.3 THỰC HIỆN TOPIC ANALYSIS CÁC THÔNG BÁO TUYỂN DỤNG CHƯƠNG 6: ĐÁNH GIÁ KẾT QUẢ PHÂN TÍCH 6.1 BIỂU DIỄN KẾT QUẢ 6.2 GIẢI THÍCH KẾT QUẢ KẾT LUẬN TÀI LIỆU THAM KHẢO PHỤ LỤC A PHỤ LỤC B PHỤ LỤC C PHỤ LỤC D KẾ HOẠCH THỰC HIỆN: STT Thời gian Cơng việc Tìm hiểu tài liệu tài liệu liên quan 01/03- 30/03 Tìm hiểu viết báo cáo phần cấu trúc HTML Tìm hiểu viết báo cáo phần web scraping (khái niệm, bước, vấn đề liên quan) Xác đinh cấu trúc lưu trữ liệu tải xuống 20/03- 30/04 Code thu thập liệu (web scraping) Viết báo cáo cho phần thực hành tải web scraping 10 Ghi (giới thiệu trang web, bước tiến hành, kết quả) Tìm hiểu tốn phân tích chủ đề viết báo cáo toán topic analysis (input, output, bước thực hiện) Tìm viết báo giới thiệu số trang web tuyển dụng phổ biến Tìm hiểu thư viện Rvest, Xlm2, Tidyverse, Tm, Topicmodels 15/04- 01/07 20/04- 20/06 Tìm hiểu viết báo cáo thuật toán PLSA, LDA (ý tưởng, giải thích, tính tốn, nhận xét, so sánh) Code phân tích topic analysis hàm thống kê keyword quan tâm Thiết kế Slide phần giới thiệu đề tài phần 10/05- 20/06 webscarping Thiết kế Slide phần lí thuyết topic analysis thuật toán Viết báo cáo cho phần tiền xử lý phân tích liệu (mơ tả liệu, tiền xử lý, áp dụng thuật toán LDA, 20/06-05/07 đưa nhận xét) Thực đánh giá, nhận xét giải thích kết Tổng kết đề tài viết kết luận (điểm đạt được, chưa đạt đề xuất cải thiện, hướng phát triển) TP.HCM, Ngày … tháng năm 2019 Ý kiến giáo viên hướng dẫn Người viết đề cương (ký ghi rõ họ tên) Nguyễn Quốc Đạt Trần Thị Tố Uyên Cao Xuân Nhẫn 11 MỤC LỤC LỜI CẢM ƠN ĐỀ CƯƠNG LUẬN VĂN TỐT NGHIỆP MỤC LỤC 12 DANH MỤC BẢNG BIỂU 14 DANH MỤC HÌNH VẼ, SƠ ĐỒ 15 DANH MỤC TỪ VIẾT TẮT 16 TÓM TẮT 17 CHƯƠNG 1: TỔNG QUAN ĐỀ TÀI 19 1.1 GIỚI THIỆU BÀI TOÁN 19 1.2 MỤC TIÊU 19 1.3 BỐ CỤC CỦA BÁO CÁO 20 CHƯƠNG 2: TỔNG QUAN WEB SCRAPING 21 2.1 KHÁI NIỆM WEB SCRAPING 21 2.2 CẤU TRÚC TÀI LIỆU HTML 22 CHƯƠNG 3: TỔNG QUAN TOPIC ANALYSIS 26 3.1 CÁC KHÁI NIỆM 26 3.1.1 Khái niệm chủ đề 26 3.1.2 Khái niệm topic analysis topic model 26 3.2 BÀI TOÁN TOPIC ANALYSIS 27 3.2.1 Đối tượng liệu quan tâm 27 3.2.2 Các bước thực 28 3.3 CÁC THUẬT TỐN PHÂN TÍCH CHỦ ĐỀ (TOPIC ANALYSIS) 29 3.3.1 Thuật toán PLSA 29 3.3.2 Thuật toán LDA 34 12 CHƯƠNG 4: THỰC HIỆN THU THẬP CÁC THÔNG BÁO TUYỂN DỤNG 42 4.1 ĐỐI TƯỢNG VÀ DỮ LIỆU QUAN TÂM 42 4.2 GIỚI THIỆU CÔNG CỤ R VÀ CÁC THƯ VIỆN 45 4.2.1 Giới thiệu ngôn ngữ R 45 4.2.2 Các gói thư viện hỗ trợ web scraping 47 4.3 THỰC HIỆN TẢI XUỐNG DỮ LIỆU VỚI CÔNG CỤ R 48 CHƯƠNG 5: ỨNG DỤNG TOPIC MODEL PHÂN TÍCH THƠNG BÁO TUYỂN DỤNG 50 5.1 CÁC CÔNG CỤ VÀ THƯ VIỆN CẦN THIẾT 50 5.1.1 Thư viện Tm 50 5.1.2 Thư viện Quanteda 51 5.1.3 Thư viện Topicmodels 51 5.2 DỮ LIỆU VÀ TIỀN XỬ LÝ 52 5.2.1 Mô tả liệu 52 5.2.2 Tiền xử lý liệu 52 5.3 THỰC HIỆN TOPIC ANALYSIS CÁC THÔNG BÁO TUYỂN DỤNG 53 CHƯƠNG 6: ĐÁNH GIÁ KẾT QUẢ PHÂN TÍCH 55 6.1 BIỂU DIỄN KẾT QUẢ 55 6.2 GIẢI THÍCH KẾT QUẢ 59 KẾT LUẬN 61 TÀI LIỆU THAM KHẢO 63 PHỤ LỤC A 64 PHỤ LỤC B 66 PHỤ LỤC C 71 PHỤ LỤC D 72 13 DANH MỤC BẢNG BIỂU Bảng 2.2.1: Các nhóm thẻ thơng dụng cấu trúc HTML 23 Bảng 2.2.2: Mô tả chi tiết số thẻ cấu trúc HTML 23 Bảng 2.2.3: Một số thuộc tính thẻ body 24 Bảng 3.3.1.2.1: Ma trận tài liệu – từ vựng (document-term matrix) 30 Bảng 3.3.1.2.2: Mỗi chủ đề phân bố xác suất tập từ vựng 30 Bảng 3.3.1.2.3: Mỗi tài liệu phân bố xác suất tập chủ đề 31 Bảng 3.3.2.1: Các điểm khác biệt quan trọng PLSA LDA 35 Bảng 3.3.2.2.1: Mỗi tài liệu phân phối Dirchlet tập chủ đề 37 Bảng 3.3.2.2.2: Mỗi chủ đề phân phối Dirchlet tập từ vựng 37 Bảng 3.3.2.2.3: Đại lượng mơ hình LDA 38 Bảng 3.3.2.3: Mô tả đại lượng công thức xác định tham số 𝝋 𝝅 41 Bảng 4.1: Một số trang web việc làm tiếng Việt Nam giới 42 Bảng 4.2.1.1: Một số thành phần R 45 Bảng 4.2.1.2: Một số hàm sẵn có thường dùng R 46 Bảng 4.2.2.1: Một số hàm phổ biến thư viện Rvest 47 Bảng 4.2.2.2: Một số hàm phổ biến thư viện Xlm2 47 Bảng 4.3.1: Các đối tượng lưu trữ thơng tin q trình web scraping 48 Bảng 4.3.2: Chi tiết cấu hình máy thực web scraping topic analysis 49 Bảng 5.1.1: Một số hàm phổ biến thư viện Tm 50 Bảng 5.1.2: Một số hàm phổ biến thư viện Quanteda 51 Bảng 5.1.3: Một số hàm phổ biến thư viện Topicmodels 52 Bảng 5.3: Các tham số giá trị tham số thực nghiệm với LDA 53 Bảng 6.1.1: Chi tiết tần suất 50 từ có tần suất xuất cao 55 Bảng 6.1.2: Thống kê số lần xuất số keyword chủ đề 56 Bảng 6.1.3: Kết 10 chủ đề của tập tài liệu phân tích với LDA 57 Bảng 6.1.4: Mức độ đóng góp 10 chủ đề vào tập tài liệu Bigdata.csv 59 Bảng 6.2.1: Kết dự đoán tên chủ đề số topic 60 14 DANH MỤC HÌNH VẼ, SƠ ĐỒ Hình 2.1: Xác định nguồn liệu liệu quan tâm 21 Hình 2.2: Khung cấu trúc chung tài liệu HTML 23 Hình 3.1.2: Xác định chủ đề văn dựa ý tưởng phân bố xác suất từ tập tài liệu 26 Hình 3.2.1: Input ouput mơ hình chủ đề 27 Hình 3.2.2: Lược đồ thống kê tần số từ theo định luật Zipf 29 Hình 3.3.1.2: Mối quan hệ sinh mơ hình PLSA 31 Hình 3.3.1.3: Sơ đồ thuật tốn EM 33 Hình 3.3.2.2.1: Đồ thị biểu diễn phân bố xác suất Dirichlet biến ngẫu nhiên x 15 lần tạo ngẫu nhiên 36 Hình 3.3.2.2.2: Mối quan hệ sinh mơ hình LDA 38 Hình 3.3.2.2.3: Minh họa phân phối Multinomial mơ hình LDA 39 Hình 4.1.1: Trang kết tìm kiếm cho từ khóa Big data trang dice.com 44 Hình 4.1.2: Thơng tin chi tiết vị trí Senior Big Data Architect trang dice.com 44 Hình 4.1.3: Cấu trúc lưu trữ cho thơng báo việc làm thu thập 45 Hình 6.1.1: Biểu đồ thể 50 từ có tần suất xuất cao phân tích 55 Hình 6.1.2: Biểu đồ thể thơng tin chi tiết chủ đề (topic 1) 58 Hình 6.1.3: Mức độ đóng góp chủ đề vào tài liệu 58 Hình 6.1.4: Biểu đồ thể mức độ đóng góp 10 chủ đề vào tập tài liệu Bigdata.csv 59 15 Hình 6.1.2: Biểu đồ thể thông tin chi tiết chủ đề (topic 1) Mỗi tài liệu phân bố xác suất chủ đề, tức tài liệu bao gồm tất chủ đề mức độ đóng góp chủ đề vào tài liệu khác Chi tiết xác suất xin tham khảo phụ lục D Hình 6.1.3 thể mức độ đóng góp 10 chủ đề vào 37 tài liệu tập tài liệu Hình 6.1.3: Mức độ đóng góp chủ đề vào tài liệu Mỗi đối tượng text hình 6.1.3 tương ứng với thông báo việc làm tập thông báo việc làm thu thập Tại dòng, tổng xác suất chủ đề đóng góp vào tài liệu Đối với tài liệu, xác suất chủ đề x (topic x) cao cho biết thông báo việc làm đề cập nhiều đến chủ đề Bảng 6.1.4 đề cập đến mức độ đóng góp chủ đề vào tập tài liệu Bigdata.csv 58 Bảng 6.1.4: Mức độ đóng góp 10 chủ đề vào tập tài liệu Bigdata.csv Topic1 Topic2 Topic3 Topic4 Topic5 0.108313 0.103153 0.098025 0.09566 0.112291 Topic6 Topic7 Topic8 Topic9 Topic10 0.107571 0.091626 0.096462 0.10284 0.084059 Từ bảng 6.1.4 ta suy kết xác suất 10 chủ đề tập tài liệu Bigdata.csv cách tính trung bình xác suất tất đối tượng text Xác suất cao, nội dung chủ đề tập tài liệu Bigdata nhắc tới nhiều lần Kết minh họa đồ thị hình 6.1.4 Hình 6.1.4: Biểu đồ thể mức độ đóng góp 10 chủ đề vào tập tài liệu Bigdata.csv 6.2 GIẢI THÍCH KẾT QUẢ Từ chủ đề (topic) tìm được, ta dự đốn tên chủ đề Chúng tơi trình bày số tên dự đốn cho chủ đề: topic 1, topic 3, topic 5, topic 6, topic 7, topic 8, topic Chi tiết thể bảng 6.2.1 Dòng tên dự đốn ứng với topic 59 Bảng 6.2.1: Kết dự đoán tên chủ đề số topic " Business manager" “Network security” TOPIC " Database “Developer” TOPIC administration" TOPIC TOPIC management security experience data business experience development experience experience network software sql project systems design database technology management web design projects system applications etl across infrastructure code oracle enterprise administration java development development monitoring programming server financial configuration developing databases management security experience data “Business design” “Business analytics” TOPIC “Cloud infrastructure” TOPIC TOPIC business data experience experience analysis data user experience cloud design analytics big systems business aws functional science architecture management tools python system research hadoop sap techniques tools technical analytical spark 60 KẾT LUẬN Kết đạt 1.1 Về ý nghĩa khoa học Báo cáo trình bày khái niệm web scarping, trình thu thập liệu từ website giới thiệu cấu trúc HTML Nội dung đề tài trình bày thuật tốn để phân tích chủ đề PLSA, LDA áp dụng chúng để phân tích thơng báo tuyển dụng Các thư viện liên quan, khảo sát trang web tuyển dụng giới thiệu sơ lược Thông qua đề tài, biết cách đánh giá biểu diễn kết tốn phân tích theo chủ đề tốn khai phá liệu nói chung, nâng cao hiểu biết kỹ sử dụng R thư viện hỗ trợ để phân tích liệu Bên cạnh đó, chúng tơi cịn nâng cao khả đọc hiểu tài liệu, khả làm việc nhóm khả trình bày báo cáo khoa học 1.2 Về ý nghĩa thực tiễn Chúng biết nhiều trang web việc làm phổ biến Việt Nam giới Áp dụng kiến thức tìm hiểu để thu thập phân tích cho toán phát mối quan tâm thông báo tuyển dụng Kết đạt chủ đề bật liên quan đến 15276 thông báo, số chủ đề bật liên quan đến: data, developer, software, cho thấy mức độ quan tâm nhà tuyển dụng vào vị trí liên quan đến liệu phát triển phần mềm Thông qua việc thực đề tài, biết phân tích theo chủ đề trở thành hướng nghiên cứu phát triển, đặc biệt doanh nghiệp Chẳng hạn mạng xã hội Facebook, Youtube, trang bán hàng điện tử Amazon, thu thập phân tích bình luận, nội dung người dùng đăng tải để phát mối quan tâm nhằm đưa giải pháp kinh doanh hiệu Báo cáo cung cấp lý thuyết cách xử lý tốn phân tích chủ đề, làm tài liệu để người dùng áp dụng cải tiến để giải nhiều toán doanh nghiệp trường học Hạn chế đề xuất cải thiện Do giới hạn nguồn lực và thời gian, thu thập cho website cấu trúc HTML tương đối đồng Việc xử lý loại bỏ liệu trùng lặp thực thủ cơng Phân tích dừng lại thuộc tính Nhóm đề xuất thực thu thập thơng báo việc làm nhiều website khác cấu trúc khác nhau, sử dụng 61 công cụ thuật tốn để loại bỏ thơng báo trùng lặp mở rộng phân tích cho hai nhiều thuộc tính cho kết phản ánh xác mối quan tâm nhà tuyển dụng Hướng phát triển Lý thuyết trình bày báo cáo áp dụng để giải toán phân tích doanh nghiệp trường học như: phân tích quan tâm sinh viên học phí trường Đại học Sư Phạm Kỹ Thuật TP.HCM giai đoạn bước sang tự chủ tài chính, phân tích phản hồi người dùng dòng sản phẩm SamsungGalaxy Note Thế Giới Di Động,… Đề tài cịn phát triển tiếp tục theo hướng nghiên cứu cải thiện chất lượng phân tích thơng qua: + Lựa chọn số k (số chủ đề) tối ưu với liệu Ý tưởng sử dụng phương pháp cross validation (hold out, k fold, leave one out) để đánh giá kết sinh lần lựa chọn k khác Từ giúp tìm số k phù hợp với liệu [7] + Giải vấn đề khác biệt chủ đề thay đổi thứ tự tập liệu đào tạo + Bổ sung mối quan hệ tương đồng quan hệ cú pháp từ câu để dự đoán chủ đề phù hợp Cụ thể từ có ngữ cảnh xuất có quan hệ cú pháp gần với thường xuất chủ đề + Q trình tiền xử lí liệu đưa cụm từ thay từ đưa vào phân tích cho kết có ý nghĩa phù hợp với liệu 62 TÀI LIỆU THAM KHẢO Tiếng Việt [1] Nguyễn Trung Kiên, Lê Quang Minh, Xây dựng ứng dụng thu thập liệu tự động từ Website, Luận văn tốt nghiệp, Đại học Bách Khoa TP.HCM, 2009, trang 13-15 [2] Đào Minh Tùng, Phân cụm đa mức web k-means dựa chủ đề ẩn thực nghiệm đánh giá, Luận văn tốt nghiệp, Đại học Công nghệ- ĐHQGHN, 2011, trang 10-20-21 Tiếng Anh [3] Simon Munzert, Automated Data Collection with R- A Practical Guide to Web Scraping and Text Mining, John Wiley & Sons Ltd, 2015, trang 292 [4] ChengXiang Zhai, Sean Massung, Text Data Management and Analysis - A Practical Introduction to Information Retrieval and Text Mining, ACM Books, 2016, trang 331 [5] Foster Provost, Tom Fawcett, Data Science For Business- What You Need To Know About Data Mining And Data-Analytic Thinking, O'Reilly Media, 2013, trang 252 [6] Bettina Grun, Kurt Hornik, An R package for fitting topic models, University of Wollongong, 2011, trang 9-10 Nguồn khác [7] Cross-validation of topic modelling, links http://freerangestats.info/blog/2017/01/05/topicmodel-cv, 06/2019 [8] The Little Book of LDA, links https://ldabook.com/lda-inference.html#general-overview, 06/2019 63 PHỤ LỤC A Code thực thu thập liệu thông báo việc làm: library(tidyverse) library(rvest) library(wordcloud) full_df % rvest::html_nodes('.hidden-xs') %>% rvest::html_nodes('.compName') %>% rvest::html_text() %>% stringi::stri_trim_both() -> company.name #get job location job_location % rvest::html_nodes('.complete-serp-result-div') %>% rvest::html_nodes('.jobLoc') %>% rvest::html_text() %>% stringi::stri_trim_both() # get links links % rvest::html_nodes('.complete-serp-result-div') %>% rvest::html_nodes("h3") %>% rvest::html_nodes("a") %>% rvest::html_attr("href") 64 job_description % rvest::html_text() %>% stringi::stri_trim_both() for (k in 1:length(text)){ Job_Overview[j]

Ngày đăng: 18/02/2022, 22:32

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w