Thu thập và lưu trữ thông tin tuyển dụng trên mạng internet Thu thập và lưu trữ thông tin tuyển dụng trên mạng internet Thu thập và lưu trữ thông tin tuyển dụng trên mạng internet luận văn tốt nghiệp,luận văn thạc sĩ, luận văn cao học, luận văn đại học, luận án tiến sĩ, đồ án tốt nghiệp luận văn tốt nghiệp,luận văn thạc sĩ, luận văn cao học, luận văn đại học, luận án tiến sĩ, đồ án tốt nghiệp
BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƢỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI - NGUYỄN THỊ HIỀN THU THẬP VÀ LƢU TRỮ THÔNG TIN TUYỂN DỤNG TRÊN MẠNG INTERNET LUẬN VĂN THẠC SĨ KHOA HỌC KHOA HỌC VÀ KỸ THUẬT TÍNH TOÁN Hà Nội –1 2019 BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƢỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI - NGUYỄN THỊ HIỀN THU THẬP VÀ LƢU TRỮ THÔNG TIN TUYỂN DỤNG TRÊN MẠNG INTERNET Chuyên ngành: CÔNG NGHỆ THÔNG TIN LUẬN VĂN THẠC SĨ KHOA HỌC KHOA HỌC VÀ KỸ THUẬT TÍNH TỐN NGƢỜI HƢỚNG DẪN KHOA HỌC: TS NGUYỄN HỮU ĐỨC ii Hà Nội – 2019 Luận văn Thạc sỹ Khoa học GVHD: Nguyễn Hữu Đức LỜI CAM ĐOAN Tôi, Nguyễn Thị Hiền, xin cam đoan luận án công trình nghiên cứu thân tơi dƣới hƣớng dẫn TS Nguyễn Hữu Đức Các kết nêu báo cáo luận án trung thực, không chép cơng trình khác Hà Nội, ngày tháng năm 2019 HỌC VIÊN NGUYỄN THỊ HIỀN Ngƣời thực hiện: Nguyễn Thị Hiền i Lớp: 2017AKHKTTT.KH Luận văn Thạc sỹ Khoa học GVHD: Nguyễn Hữu Đức LỜI CẢM ƠN Để hồn thành luận án này, trƣớc hết tơi xin bày tỏ lịng kính trọng biết ơn tới TS Nguyễn Hữu Đức, ngƣời thầy trực tiếp hƣớng dẫn, giúp đỡ tơi q trình học tập thực luận án Tôi xin chân thành cảm ơn thầy cô Viện Nghiên cứu quốc tế Khoa học Kỹ thuật tính tốn, đồng nghiệp khoa Cơ bản-Kỹ thuật sở, trƣờng Cao đẳng Công nghệ Kỹ thuật Ơ tơ giúp đỡ, tạo điều kiện để tơi hồn thành luận án Cuối tơi xin cảm ơn gia đình ngƣời bạn động viên suốt thời gian thực luận văn Ngƣời thực hiện: Nguyễn Thị Hiền ii Lớp: 2017AKHKTTT.KH Luận văn Thạc sỹ Khoa học GVHD: Nguyễn Hữu Đức MỤC LỤC LỜI CAM ĐOAN i LỜI CẢM ƠN ii DANH MỤC BẢNG v DANH MỤC HÌNH VẼ, BIỂU ĐỒ vi MỞ ĐẦU CHƢƠNG 1: SỬ DỤNG INTERNET ĐỂ THU THẬP VÀ LƢU TRỮ THÔNG TIN TUYỂN DỤNG 1.1 Thông tin thu thập thông tin .3 1.2 Thông tin tuyển dụng 1.3 Kiến trúc hệ thống Crawling thuật toán .6 1.3.1 Kỹ thuật tiếp cận liệu lớn 1.3.2 Kiến trúc tổng quát crawling system 1.3.3 Các yêu cầu hệ thống crawling 17 1.3.4 Các chiến lƣợc hệ thống Crawling .20 1.3.5 Các thuật toán crawling .25 1.4 Các công cụ crawling 33 1.4.1 Nutch Apache .33 1.4.2 Newspaper 34 1.4.3 Event Registry 34 1.4.4 SearchBlox 34 1.4.5 Scrapy 34 Kết luận chƣơng 1: .35 CHƢƠNG 2: XÂY DỰNG HỆ THỐNG THU THẬP VÀ LƢU TRỮ THÔNG TIN TUYỂN DỤNG TRÊN INTERNET 36 2.1 Xác định mục tiêu .36 Ngƣời thực hiện: Nguyễn Thị Hiền iii Lớp: 2017AKHKTTT.KH Luận văn Thạc sỹ Khoa học GVHD: Nguyễn Hữu Đức 2.2 Các công cụ giải yêu cầu mục tiêu 36 2.2.1 Công cụ scrapy [22] .37 2.2.2 XPATH [22] 43 2.2.3 D3.js .45 2.3 Phân tích yêu cầu 46 2.4 Thiết kế hệ thống .47 2.4.1 Kiến trúc hệ thống 47 2.4.2 Cơ sở liệu cho chứa tệp 48 2.4.3 Thiết kế chi tiết 49 Kết luận chƣơng 54 CHƢƠNG 3: MƠ PHỎNG THỰC NGHIỆM CHƢƠNG TRÌNH .55 3.1 Mơi trƣờng cài đặt cơng cụ lập trình 55 3.2 Demo chƣơng trình .57 3.3 Đánh giá với thay đổi tham số tùy chỉnh .60 3.3.1 Thay đổi với thay đổi tham số tùy chỉnh CONCURRENT_REQUEST 60 3.3.2 Thay đổi tham số Download_Delay 61 Kết luận chƣơng 62 CHƢƠNG 4: KẾT LUẬN VÀ PHƢƠNG HƢỚNG NGHIÊN CỨU, PHÁT TRIỂN 63 4.1 Kết luận .63 4.2 Các mục tiêu chƣa đạt đƣợc 63 4.3 Nghiên cứu tƣơng lai 64 TÀI LIỆU THAM KHẢO 65 Ngƣời thực hiện: Nguyễn Thị Hiền iv Lớp: 2017AKHKTTT.KH Luận văn Thạc sỹ Khoa học GVHD: Nguyễn Hữu Đức DANH MỤC BẢNG Bảng 1.1 Kết cấu tin tuyển dụng Bảng 1.2 So sánh cơng cụ crawling điển hình 33 Bảng 2.1 Thử nghiệm thay đổi tham số 42 Bảng 2.2 Thuộc tính Xpath selector 44 Bảng 2.3 Bảng cột liệu 48 Bảng 3.1 Thử nghiệm ảnh hƣởng tham số CONCURRENT_REQUEST 60 Bảng 3.2 Thử nghiệm ảnh hƣởng tham số DOWNLOAD-DELAY 61 Ngƣời thực hiện: Nguyễn Thị Hiền v Lớp: 2017AKHKTTT.KH Luận văn Thạc sỹ Khoa học GVHD: Nguyễn Hữu Đức DANH MỤC HÌNH VẼ, BIỂU ĐỒ Hình 1.1 Mơ hình khung liệu lớn [1] Hình 1.2 Các mơ hình điện tốn liệu lớn [1] .7 Hình 1.3 Biểu đồ Flowchart Crawler điển hình [7] Hình 1.4 Mơ hình Crawler Google thời kỳ đầu [23] Hình 1.5 Các luồng crawler kết nối với frontier [7] .10 Hình 1.6 Các Thẻ HTML thẻ tƣơng ứng [7] .15 Hình 1.7 Mơ hình Multi-threading Crawler [7] 16 Hình 1.8 Đặc điểm hệ thống thu thập liệu web [8] 18 Hình 1.9 Kiến trúc tuần hồn cho cơng cụ tìm kiếm [7] 19 Hình 1.10 Các số hiển thị đƣờng dẫn Breath -First Crawling [7] 20 Hình 1.11 Các số hiển thị đƣờng dẫn Thu thập thơng tin [7] 21 Hình 1.12 Thu thập liệu lặp lặp lại [7] 22 Hình 1.13 Nguyên mẫu mơ hình Hiwe [5] 24 Hình 1.14 Các liên kết ngồi trỏ đến trang web khác [3] .25 Hình 1.15 Crawler với chiến lƣợc ngữ cảnh tập trung [7] 31 Hình 2.1 Kiến trúc tổng thể scrapy [22] 37 Hình 2.2 Luật Little, hệ thống xếp hàng đƣờng ống [22] 39 Hình 2.3 Cấu hình thành phần ảnh hƣởng đến hiệu Scrapy [22] 40 Hình 2.4 Mơ hình hiệu tiêu chuẩn Scrapy [22] .41 Hình 2.5 Thành phần hệ thống D3.js [4] 46 Hình 2.6 Lƣợc đồ Use Case 47 Hình 2.7 Kiến trúc hệ thống 48 Hình 2.8 Các loại biểu đồ Module hiển thị 53 Hình 3.1 Các tệp dự án thử nghiệm .55 Hình 3.2 Dữ liệu thu đƣợc sau crawl 58 Hình 3.3 Giao diện ban đầu thử nghiệm 58 Hình 3.4 Dropdown-Box lựa chọn ngành lĩnh vực cần khảo sát 59 Ngƣời thực hiện: Nguyễn Thị Hiền vi Lớp: 2017AKHKTTT.KH Luận văn Thạc sỹ Khoa học GVHD: Nguyễn Hữu Đức Hình 3.5 Hiển thị phân tích khu vực đƣợc tuyển dụng (Đà Nẵng, Hà Nội…) lĩnh vực tuyển dụng (công ty sản phẩm hay dịch vụ) 59 Hình 3.6 Số năm kinh nghiệm cho yêu cầu tuyển dụng kỹ Linux .60 Biểu đồ 3.1 Kết Ảnh hƣởng tham số CONCURRENT_REQUEST hiệu Scrapy 61 Biểu đồ 3.2 Kết ảnh hƣởng tham số DOWNLOAD_DELAY 62 Ngƣời thực hiện: Nguyễn Thị Hiền vii Lớp: 2017AKHKTTT.KH Luận văn Thạc sỹ Khoa học GVHD: Nguyễn Hữu Đức MỞ ĐẦU Trong thời đại ngày nay, với hỗ trợ nhiều từ mạng Internet, ứng viên tìm hiểu thơng tin nhà tuyển dụng nhanh chóng, ngƣợc lại phía doanh nghiệp tƣơng tác gần với ứng viên thông qua website tuyển dụng, email, trang mạng xã hội, … qua giúp doanh nghiệp tuyển dụng nhân đƣợc nhanh chóng, tiết kiệm hiệu Theo khảo sát JobStreet.com [19], triển vọng thị trƣờng việc làm Việt Nam đƣợc nhìn nhận tích cực từ hai phía:Ứng viên (ngƣời lao động – 4.50) Nhà tuyển dụng (4.57), tín hiệu đầy lạc quan so với nƣớc khu vực Đông Nam Á với mức trung bình từ Ứng viên 3.46, Nhà tuyển dụng 3.16 Trong thị trƣờng lao động bùng nổ, ứng viên Việt Nam cho thấy họ chủ động nắm bắt hội việc làm thông qua nguồn việc làm trực tuyến Những kênh tìm việc đƣợc ƣa thích chiếm lĩnh internet nhƣ mạng việc làm, trang mạng tuyển dụng doanh nghiệp mạng xã hội với 47% Ứng viên sử dụng (tỷ lệ thấp khu vực, Malaysia đứng đầu với 54%) bên cạnh phƣơng pháp truyền thống nhƣ ngƣời quen giới thiệu công ty tuyển dụng Lƣợng thông tin tuyển dụng tìm kiếm việc làm mạng Internet ngày tăng sở để thu thập lƣu trữ thông tin tuyển dụng mạng Internet, từ làm sở để phân tích xu hƣớng nghề nghiệp dựa thông tin tuyển dụng Lƣợng thông tin tuyển dụng lớn, quý trích xuất thành cơng, giúp nhiều cho việc kinh doanh, nghiên cứu khoa học, dự đoán xác định xu tuyển dụng, xu việc làm, thực trạng mức lƣơng Chính thế, liệu phải đƣợc thu thập, tổ chức, lƣu trữ, tìm kiếm, chia sẻ theo cách khác so với bình thƣờng Xuất phát từ nhu cầu này, khuôn khổ luận văn thạc sỹ, học viên đề xuất thực đề tài "Thu thập lưu trữ thông tin tuyển dụng mạng Internet", với mục tiêu nghiên cứu thử nghiệm kỹ thuật thu thập thông tin tuyển Ngƣời thực hiện: Nguyễn Thị Hiền Lớp: 2017AKHKTTT.KH Luận văn Thạc sỹ Khoa học GVHD: Nguyễn Hữu Đức return item['TYPE'] = response.xpath( '//p[@class="gear-icon"]/text()' ).extract_first().replace('\n', ' ') if not item['TYPE']: return req = response.xpath( '//div[@class="experience"]/ul/li/text()').extract() if not req: return for text in req: year = re.findall( r"(\d.*) (?:years of experience|years of|năm kinh nghiệm|of experience)", text) if year: if year: item['EXP'] = year degree = re.findall( r'(?:Degree in|degree in|Tốt nghiệp) (.*)', text) 2.4.3.2 Tùy biến tham số cấu hình Scrapy Tùy biến Scrapy khơng nhiều chủ yếu thực tham số đƣợc quy định …job/settings.py spider nhƣ sau: a) UserAgent: Định nghĩa trình duyệt sử dụng Mặc định Scarpy sử dụng Chrome 68 Ngƣời thực hiện: Nguyễn Thị Hiền 52 Lớp: 2017AKHKTTT.KH Luận văn Thạc sỹ Khoa học GVHD: Nguyễn Hữu Đức USER_AGENT = "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.106 Safari/537.36" b) Tuân thủ Robot ROBOTSTXT_OBEY = False Tùy chọn tuân thủ không tuân thủ theo tệp Robots.txt ngƣời chủ website đƣa c) Số lƣợng yêu cầu đồng thời CONCURRENT_REQUESTS = 16 d) Cấu hình số lƣợng hỗn tải cho website: DOWNLOAD_DELAY = 0.5 e) Các cấu hình khác: DOWNLOAD_FAIL_ON_DATALOSS = False CONCURRENT_REQUESTS_PER_DOMAIN = 16 CONCURRENT_REQUESTS_PER_IP = 16 2.4.3.3 Thiết kế Module hiển thị Module hiển thị bao gồm loại biểu đồ đƣợc sử dụng bao gồm biểu đồ hình trịn (pie-chart) biểu đồ cột (bar chart) đƣợc thể hình 2.8 Số năm kinh nghiệm Biểu đồ cột Địa điểm Dữ liệu Biểu đồ trịn Loại hình cơng ty Hình 2.8 Các loại biểu đồ Module hiển thị Ngƣời thực hiện: Nguyễn Thị Hiền 53 Lớp: 2017AKHKTTT.KH Luận văn Thạc sỹ Khoa học GVHD: Nguyễn Hữu Đức Kết luận chƣơng Trong chƣơng nghiên cứu yêu cầu hệ thống thu thập thông tin liệu sử dụng khung Scrapy crawling chủ yếu chƣơng Trong Scrapy Engine có trách nhiệm kiểm soát luồng liệu tất thành phần hệ thống kích hoạt kiện số hành động xảy Tác giả nghiên cứu hiệu Scrapy yếu tố ảnh hƣởng đến hiệu Scrapy Cụ thể tác giả kết luận Spider Pipeline nút cổ chai tắc nghẽn Scrapy Để trình diễn liệu tác giả sử dụng máy Javascript chủ yếu D3.js để trình diễn liệu thu đƣợc từ sở liệu Ngƣời thực hiện: Nguyễn Thị Hiền 54 Lớp: 2017AKHKTTT.KH Luận văn Thạc sỹ Khoa học GVHD: Nguyễn Hữu Đức CHƢƠNG 3: MÔ PHỎNG THỰC NGHIỆM CHƢƠNG TRÌNH 3.1 Mơi trƣờng cài đặt cơng cụ lập trình Sử dụng Ubuntu, python3 Scrapy đƣợc cài đặt sẵn hệ thống Để bắt đầu dự án ta sử dụng tạo dự án JobCrawler đƣợc files folder Spiders Hình 3.1 Các tệp dự án thử nghiệm Hệ thống file tệp cấu trúc nhƣ sau: JobCrawler/ scrapy.cfg JobCrawler/ init .py items.py middlewares.py pipelines.py settings.py spiders/ init .py # Tệp cấu hình triển khai # # # # # Tệp Tệp Tệp Tệp Thư định nghĩa items middleware Piplines cấu hình mục chứa spider Trong số mã quan trọng class items đƣợc nhƣ sau: class JobItem(scrapy.Item): TITLE = scrapy.Field() SALARY = scrapy.Field() LINK = scrapy.Field() COMPANY = scrapy.Field() ADDRESS = scrapy.Field() SKILL = scrapy.Field() TYPE = scrapy.Field() DEGREE = scrapy.Field() EXP = scrapy.Field() Class spider đƣợc mã nhƣ sau: class ItviecSpider(scrapy.Spider): name = "itviec" Ngƣời thực hiện: Nguyễn Thị Hiền 55 Lớp: 2017AKHKTTT.KH Luận văn Thạc sỹ Khoa học GVHD: Nguyễn Hữu Đức allowed_domains = ["itviec.com"] pages = [str(i) for i in range(1, 62)] list_urls = [] for page in pages: link = "https://itviec.com/viec-lam-it?page={}".format(page) list_urls.append(link) start_urls = list_urls cookies = login() def parse(self, response): le = LinkExtractor() for link in le.extract_links(response): yield scrapy.Request(link.url, self.parse_job, cookies=self.cookies) def parse_job(self, response): item = JobItem() item['LINK'] = response.url item['TITLE'] = response.xpath( '//h1[@class="job_title"]/text()').extract_first() if not item['TITLE']: return item['TITLE'] = response.xpath( '//h1[@class="job_title"]/text()').extract_first().replace('\n', ' ') item['SALARY'] = response.xpath( '//div[@class="salary"]/span[@class="salarytext"]/text()').extract_first() item['COMPANY'] = response.xpath( '//h3[@class="name"]/a/text()' ).extract_first() if not item['COMPANY']: return item['ADDRESS'] = response.xpath( '//div[@class="address fulladdress"]/span/text()').extract_first().rsplit(',')[-1].strip() if not item['ADDRESS']: Ngƣời thực hiện: Nguyễn Thị Hiền 56 Lớp: 2017AKHKTTT.KH Luận văn Thạc sỹ Khoa học GVHD: Nguyễn Hữu Đức return skill = response.xpath( '//div[@class="tag-list"]/a[@class="big ilabel mkttrack"]/span/text()').extract() item['SKILL'] = ''.join(skill).replace('\n', ' ').split() if not item['SKILL']: return item['TYPE'] = response.xpath( '//p[@class="gear-icon"]/text()' ).extract_first().replace('\n', ' ') if not item['TYPE']: return req = response.xpath( '//div[@class="experience"]/ul/li/text()').extract() if not req: return for text in req: year = re.findall( r"(\d.*) (?:years of experience|years of|năm kinh nghiệm|of experience)", text) if year: if year: item['EXP'] = year degree = re.findall( r'(?:Degree in|degree in|Tốt nghiệp) (.*)', text) if degree: item['DEGREE'] = degree[0] yield item 3.2 Demo chƣơng trình Thu thập trang ITVIEC.com ta đƣợc kết nhƣ sau: Ngƣời thực hiện: Nguyễn Thị Hiền 57 Lớp: 2017AKHKTTT.KH Luận văn Thạc sỹ Khoa học GVHD: Nguyễn Hữu Đức Hình 3.2 Dữ liệu thu sau crawl Lựa chọn lĩnh vực lập trình để xem mức lƣơng mong muốn tin tuyển dụng từ NET, MySQL, PHP… Hình 3.3 Giao diện ban đầu thử nghiệm Ngƣời thực hiện: Nguyễn Thị Hiền 58 Lớp: 2017AKHKTTT.KH Luận văn Thạc sỹ Khoa học GVHD: Nguyễn Hữu Đức Hình 3.4 Dropdown-Box lựa chọn ngành lĩnh vực cần khảo sát Lựa chọn Linux xem mức lƣơng mong muốn Hình 3.5 Hiển thị phân tích khu vực tuyển dụng (Đà Nẵng, Hà Nội…) lĩnh vực tuyển dụng (công ty sản phẩm hay dịch vụ) Số năm kinh nghiệm cho kỹ hệ điều hành Linux đƣợc hiển thị Hình 3.6 Ngƣời thực hiện: Nguyễn Thị Hiền 59 Lớp: 2017AKHKTTT.KH Luận văn Thạc sỹ Khoa học GVHD: Nguyễn Hữu Đức Hình 3.6 Số năm kinh nghiệm cho yêu cầu tuyển dụng kỹ Linux 3.3 Đánh giá với thay đổi tham số tùy chỉnh 3.3.1 Thay đổi với thay đổi tham số tùy chỉnh CONCURRENT_REQUEST Tham số thể số lƣợng yêu cầu đồng thời tối đa đƣợc trình tải xuống Scrapy thực Mặc định 16 Số lƣợng yêu cầu đồng thời tối đa đƣợc thực cho IP Nếu cài đặt CONCURRENT_REQUESTS_PER_DOMAIN khác khơng bị bỏ qua thay vào đó, cài đặt CONCURRENT_REQUEST đƣợc sử dụng Nói cách khác, giới hạn đồng thời đƣợc áp dụng cho IP, cho tên miền Qua thử nghiệm với itviec.com thời gian 10 phút với chế độ tham số lần lƣợt 8; 16;32 để xem ảnh hƣởng nhƣ đến hiệu tải xuống ta đƣợc kết sau: (Với điều kiện tham số khác mặc định) Bảng 3.1 Thử nghiệm ảnh hưởng tham số CONCURRENT_REQUEST Tham số CONCURRENT_REQUEST Thời gian 10 Số lƣợng tải xuống 110 16 10 132 32 10 136 Biểu đồ dƣới dạng đƣờng nhƣ sau: Ngƣời thực hiện: Nguyễn Thị Hiền 60 Lớp: 2017AKHKTTT.KH Luận văn Thạc sỹ Khoa học GVHD: Nguyễn Hữu Đức 160 140 136 132 120 110 Tham số CONCURRENTREQUEST 100 80 Số lượng tải xuống 60 40 32 20 16 Biểu đồ 3.1 Kết Ảnh hưởng tham số CONCURRENT_REQUEST hiệu Scrapy 3.3.2 Thay đổi tham số Download_Delay Tham số thể tƣợng thời gian (tính giây) mà ngƣời tải xuống phải đợi trƣớc tải xuống trang liên tiếp từ trang web Điều đƣợc sử dụng để tránh việc Scrapy thu thập liệu nhanh, mạnh gây sập máy chủ DOWNLOAD_DELAY = 0,25 # Độ trễ 250 ms Cài đặt bị ảnh hƣởng cài đặt RANDOMIZE_DOWNLOAD_DELAY (đƣợc bật theo mặc định) Theo mặc định, Scrapy không đợi khoảng thời gian cố định yêu cầu, nhƣng sử dụng khoảng thời gian ngẫu nhiên khoảng 0,5 * DOWNLOAD_DELAY 1,5 * DOWNLOAD_DELAY Bảng 3.2 Thử nghiệm ảnh hưởng tham số DOWNLOAD-DELAY Thời gian thử nghiệm (phút) Tham số DELAY Số lƣợng tải xuống 10 0.25 90 10 0.5 81 10 56 Thể biểu đồ dạng đƣờng ta có nhƣ sau: Ngƣời thực hiện: Nguyễn Thị Hiền 61 Lớp: 2017AKHKTTT.KH Luận văn Thạc sỹ Khoa học GVHD: Nguyễn Hữu Đức 100 90 90 81 80 70 60 56 50 Tham số DELAY 40 Số lượng tải xuống 30 20 10 Biểu đồ 3.2 Kết ảnh hưởng tham số DOWNLOAD_DELAY Qua lƣợng tải xuống ta thấy thời gian delay cao số lƣợng tải xuống thấp Kết luận chƣơng Chƣơng trình diễn thử nghiệm thu thập liệu từ trang itviec.com để áp dụng nghiên cứu chƣơng hiển thị thông tin mà ngƣời ứng viên mong muốn tìm hiểu nhƣ: Lựa chọn theo kỹ xem mức lƣơng mà nhà tuyển dụng đăng tuyển Hiển thị phân tích khu vực đƣợc tuyển dụng (Đà Nẵng, Hà Nội., TPHCM, …) Lĩnh vực cơng ty tuyển dụng (cơng ty sản phẩm ví dụ nhƣ Facebook hay công ty dịch vụ IT) Số năm kinh nghiệm cho yêu cầu tuyển dụng kỹ đƣợc chọn Ngƣời thực hiện: Nguyễn Thị Hiền 62 Lớp: 2017AKHKTTT.KH Luận văn Thạc sỹ Khoa học GVHD: Nguyễn Hữu Đức CHƢƠNG 4: KẾT LUẬN VÀ PHƢƠNG HƢỚNG NGHIÊN CỨU, PHÁT TRIỂN 4.1 Kết luận Trong luận văn, tác giả tạo hệ thống thu thập thông tin tuyển dụng công việc IT sử dụng khung Scrapy Ngoài ra, tác giả xây dựng thử nghiệm website để trình diễn liệu đƣợc trích xuất với chức nhƣ sau: Lựa chọn theo kỹ xem mức lƣơng mà nhà tuyển dụng đăng tuyển Hiển thị phân tích khu vực đƣợc tuyển dụng theo tỉnh thành Lĩnh vực công ty tuyển dụng bao gồm dạng dịch vụ hay làm sản phẩm IT Số năm kinh nghiệm cho yêu cầu tuyển dụng kỹ đƣợc chọn Luận văn mở rộng phát triển tác giả phát triển theo kiến trúc phần mềm mô-đun khác Mô-đun Hệ thống thu thập trích xuất tin tuyển dụng sử dụng Scrapy chịu trách nhiệm lấy tất URL có sẵn Mơ-đun thứ hai Hệ thống hiển thị liệu trực quan tuyển dụng để ngƣời nghiên cứu sử dụng thơng tin đƣợc xử lý trƣớc 4.2 Các mục tiêu chƣa đạt đƣợc Các mục tiêu đạt đƣợc nhằm so sánh mục tiêu ban đầu kết cuối nhƣ đƣợc trình bày tài liệu Đã đạt đƣợc: Thiết kế thực hệ thống thu thập liệu tuyển dụng mà cụ thể lĩnh vực IT Trình diễn liệu thu thập đƣợc thƣ viện D3.js Chƣa đạt đƣợc: Thu thập liệu từ nhiều website tuyển dụng đƣợc thời gian hạn hẹp (chẳng hạn nhƣ xử lý liệu trang web tuyển dụng khác itviec, vietnamwork, mywork…) lĩnh vực IT Ngƣời thực hiện: Nguyễn Thị Hiền 63 Lớp: 2017AKHKTTT.KH Luận văn Thạc sỹ Khoa học GVHD: Nguyễn Hữu Đức 4.3 Nghiên cứu tƣơng lai Một số tính để thêm tƣơng lai đƣợc nghiên cứu phát triển nhƣ sau: Thêm website tuyển dụng mới: Hiện tác giả thu thập phân tích thơng tin từ website Bƣớc thêm nhiều website để tăng tính đa dạng từ nhiều nguồn thơng tin cách thêm nhiều website Tạo bảng điều khiển chủ đề khác nhau: Trong dự án tác giả, tác giả tập trung vào tin tuyển dụng IT Tuy nhiên nhƣng phát triển đƣợc ngoại suy sang chủ đề khác nhƣ Xây Dựng, Ngân hàng, Tài chí so sánh ngành nghề với Thêm tiện ích để tuỳ chỉnh tham số: Tác giả chƣa có bảng điều khiển với vài tiện ích tuỳ chỉnh, nhƣng có nhiều khả khác sử dụng D3.js để tạo Dashboard hoàn thiện để tuỳ chỉnh tham số Ngƣời thực hiện: Nguyễn Thị Hiền 64 Lớp: 2017AKHKTTT.KH Luận văn Thạc sỹ Khoa học GVHD: Nguyễn Hữu Đức TÀI LIỆU THAM KHẢO Aftab Ahmed Chandio (2015), "Big-Data Processing Techniques and Their Challenges in Transport Domain", DOI: 10.3969/j.issn.1673-5188.2015.01.007 A Arasu, J Cho, H Garcia-Molina, A Paepcke, and S Raghavan (2011), “Searching the Web”, ACM Transactions on Internet Technology, 1(1) Animesh Tripathy and Prashanta K Patra (2008), “A Web Mining Architectural Model of Distributed Crawler for Internet Searches Using PageRank Algorithm”, Asia-Pacific Services Computing Conference, 978-0-7695-34732/08 © 2008 IEEE, pp 513-518 B Fry (2008), Visualizing data, Beijing: O'Reilly Media, Inc., 2008 Dilip Kumar Sharma, A K Sharma (2011), “A novel architecture for deep web crawler”, The Dark Web: Breakthroughs in Research and Practice, pp 334358 Farha R Qureshi and Amer Ahmed Khan (2013), “URL Signature with body text normalization in a web crawler”, International Journal of Societal Applications of Computer Science (IJSACS), ISSN 2319 – 8443, vol 2, issue 3, pp 309-312 Gautam Pant, Padmini Srinivasan, Filippo Menczer (2004), “Crawling the web”, Web Dynamics, pp 153-178 Huang, Q., Li, Q., Li, H., and Yan, Z (2012), “An approach to incremental deep web crawling based on incremental harvest model”, Procedia Engineering, pp 1081– 1087 Jiang, L., Wu, Z., Feng, Q., Liu, J., and Zheng, Q (2010), “Efficient deep web crawling using reinforcement learning”, In Pacific-Asia Conference on Knowledge Discovery and Data Mining, pp 428–439 10 Khare, R., An, Y., and Song, I.-Y (2010), “Understanding deep web search interfaces: a survey”, ACM SIGMOD Record, 39(1), pp 33–40 11 Keerthi S Shetty, Swaraj Bhat and Sanjay Singh (2012), “Symbolic Verification of Web Crawler Functionality and Its Properties”, International Ngƣời thực hiện: Nguyễn Thị Hiền 65 Lớp: 2017AKHKTTT.KH Luận văn Thạc sỹ Khoa học GVHD: Nguyễn Hữu Đức Conference on Computer Communication and Informatics (ICCCI -2012), Coimbatore, INDIA, IEEE Conference Publications 12 Lay-Ki Soon, Yee-Ern Ku and Sang Ho Lee, “Web Crawler with URL Signature – A Performance Study”, 4th Conference on Data Mining and Optimization (DMO) 978-1-4673-2718- 3/12 ©2012 IEEE, pp 127-130 13 S.S Dhenakaran1 and K Thirugnana Sambanthan2 (2011), “WEB CRAWLER - AN OVERVIEW”, International Journal of Computer Science and Communication Vol 2, No 1, pp 265-267 14 Swati Mali, B.B.Meshram (2011), “Focused web crawler with page change detection policy”, International Journal of Computer Applications, pp 51-57 15 https://www.researchgate.net/publication/254047058_Prototyping_a_bidirectio nal_processor_design_based_on_reversible_principles 16 http://www.intelligence.tuc.gr/~petrakis/publications/BaPeMi09.pdf 17 http://carl.cs.indiana.edu/fil/IS/slides.html 18 http://ilpubs.stanford.edu:8090/725/1/2001-19.pdf 19 https://www.jobstreet.vn/career-resources/bao-cao-trien-vong-thi-truong-vieclam-nam-2017/ 20 http://www.robotstxt.org/wc/norobots.html 21 Http://dmoz.org 22 https://docs.scrapy.org/en/latest/ 23 http://ilpubs.stanford.edu:8090/361/1/1998-8.pdf Ngƣời thực hiện: Nguyễn Thị Hiền 66 Lớp: 2017AKHKTTT.KH ... CHƢƠNG 1: SỬ DỤNG INTERNET ĐỂ THU THẬP VÀ LƢU TRỮ THƠNG TIN TUYỂN DỤNG 1.1 Thơng tin thu thập thông tin Thu thập thông tin Internet việc sử dụng mạng Internet để thu thập thông tin Ngày nay,... CHƢƠNG 1: SỬ DỤNG INTERNET ĐỂ THU THẬP VÀ LƢU TRỮ THÔNG TIN TUYỂN DỤNG 1.1 Thông tin thu thập thông tin .3 1.2 Thông tin tuyển dụng 1.3 Kiến trúc hệ thống Crawling thu? ??t toán... nghệ thông tin – truyền thông, đặc biệt bùng nổ mạng Internet, tạo kho thông tin khổng lồ Thông tin Internet đa dạng phong phú Thu thập thông tin cách sử dụng mạng Internet giúp cho trình thu thập