Hình 2.13: Điểm số ROC-AUC

trong việc phân loại các lớp. Chỉ số AUC trên 0,5 thì chấp nhận được, dưới 0,5 thì mơ hình hồn tồn khơng chính xác.

Đường cong ROC biểu diễn các cặp chỉ số (TPR, FPR) tại mỗi ngưỡng với TPR là trục tục và FPR là trục hồnh.

Trong đĩ: TPR là tỷ lệ dương tính thật chính bằng chỉ số Recall: TP TPR= TP+FN FPR là tỷ lệ dương tính giả: FP FPR= FP+TN

CHƯƠNG 3: PHÂN TÍCH DỮ LIỆU VÀ ĐÁNH GIÁ KẾT QUẢ

3.1. Giới thiệu về bộ dữ liệu và cơng cụ thực hành

3.1.1.Bộ dữ liệu

Trong các phân tích tại chương 2, trên thế giới đã bắt đầu sử dụng trí tuệ nhân tạo (AI) cho cơng việc phát hiện tin tức giả, tập trung vào tin tức báo chí và mạng xã hội. Tuy nhiên, một loại tin tức là tin tuyển dụng chưa được chú ý tới. Do đĩ, trong luận văn này ta sẽ tập trung vào xử lý dữ liệu tin tuyển dụng bằng các mơ hình Học máy.

Dữ liệu là số liệu thứ cấp được thu thập trực tiếp tại trang chủ của Đại học Aegean – Hy Lạp tại đường dẫn: http://emscad.samos.aegean.gr/. Dữ liệu mơ tả về các tin tuyển dụng được đăng tải cơng khai trên mạng Internet tồn thế giới trong giai đoạn năm 2012-2014.

Bảng 3.4: Các biến của bộ dữ liệu ST

T Biến

Kiểu dữ

liệu Chi tiết

1 Quốc gia Phân loại Hoa Kỳ, Ấn Độ,… 2 Thành phố Phân loại Thành phố của quốc gia

3 Tiêu đề Chữ Đoạn ngắn giới thiệu về nhu cầu tuyển dụng 4 Miêu tả về cơng việc Chữ Miêu tả ngắn gọn về cơng ty, cơng việc và

phúc lợi 5 Làm việc từ xa Nhị phân Cĩ hoặc khơng 6 Cĩ Logo Cơng ty Nhị phân Cĩ hoặc khơng 7 Cĩ câu hỏi cho ứng viên Nhị phân Cĩ hoặc khơng

8 Hình thức làm việc Phân loại Tồn thời gian, bán thời gian, hợp đồng dài hạn…

9 Yêu cầu kinh nghiệm Phân loại Quản lý, ít kinh nghiệm, thực tập sinh… 10 Yêu cầu học vấn Phân loại Cử nhân, THPT, thạc sĩ, khơng yêu cầu… 11 Ngành nghề Phân loại Sức khỏe, IT, bất động sản…

12 Vị trí làm việc Phân loại Tư vấn, kỹ sư, nghiên cứu, bán hàng… 13 Tin giả Nhị phân Tin giả: 1 hoặc tin thật: 0

3.1.2.Cơng cụ thực hành

Bảng 3.5: Cơng cụ thực hành

1 Python 3.7 Ngơn ngữ phát triển https://www.python.org/ 2 Anaconda Mơi trường phát triển https://www.anaconda.com/ 3 Jupiter Notebook Mơi trường phát triển https://jupyter.org/

4 Sklearn Thư viện thực hành ML https://scikit-learn.org/stable/ 5 SeaBorn Thư viện vẽ đồ thị https://seaborn.pydata.org/ 6 Pandas Thư viện dữ liệu https://pandas.pydata.org/

3.2. Mơ tả quá trình phân tích dữ liệu

a. Tiền xử lý dữ liệu

Tiền xử lý dữ liệu là một bước quan trọng trong phân tích số liệu, nhằm cĩ được tập dữ liệu mạch lạc khi phân tích.

Các bước thực hiện tiền xử lý dữ liệu như sau:

Bước 1: Download bộ số liệu và dẫn nhập vào phần mềm xử lý.

Bước 2: Đánh giá sơ bộ số liệu bao gồm số biến, kiểu biến, số lượng quan sát.

Bước 3: Loại bỏ các biến khơng cĩ ý nghĩa trong phân tích.

Bước 4: Loại bỏ các quan sát thiếu giá trị biến.

Bước 5: Gộp các biến cĩ ý nghĩa phân tích giống nhau thành một biến hoặc tách biến để cĩ các biến cĩ ý nghĩa phân tích.

Bước 6: Sắp xếp các biến theo trình tự thành bộ số liệu cuối cùng. Thực hành với bộ số liệu hiện cĩ:

Bộ dữ liệu ban đầu bao gồm 18 biến và 17.880 quan sát. Các biến bao gồm: “Số thứ tự”, “Tiêu đề”, “Địa chỉ”, “Lĩnh vực”, “Mức lương”, “Thơng tin cơng ty”, “Mơ tả cơng việc”, “Yêu cầu cơng việc”, “Phúc lợi”, “Cĩ hay khơng làm việc từ xa”, “Cĩ hay khơng Logo Cơng ty”, “Cĩ hay khơng cĩ câu hỏi cho ứng viên”, “Hình thức làm việc”, “Yêu cầu kinh nghiệm”, “Yêu cầu học vấn”, “Ngành nghề”, “Vị trí làm việc”, “Cĩ phải tin giả hay khơng”.

Một số biến khơng cĩ ý nghĩa phân tích đã lược bỏ đi như: “Số thứ tự”, “Lĩnh vực” (do bị trùng biến “ngành”), “Mức lương” (do dữ liệu khơng đồng nhất). Biến “Địa chỉ” được tách thành 2 biến là “Quốc gia” và “Thành phố”. Các biến “Thơng tin Cơng ty”, “Mơ tả cơng việc”, “Yêu cầu cơng việc”, “Phúc lợi” được gộp thành một biến là “Mơ tả cơng việc”.

Trong 17.880 quan sát cĩ 5.648 quan sát thiếu giá trị và 12.232 quan sát cĩ đầy đủ các giá trị ở tất cả các biến nên ta giữ lại bộ dữ liệu cuối cùng gồm 15 biến và 12.232 quan sát.

b. Thống kê mơ tả

Thống kê mơ tả là kỹ thuật thống kê nhằm mơ tả các đặc điểm của các biến, từ đĩ đưa ra những đánh giá sơ bộ về bộ số liệu.

Trực quan hĩa dữ liệu (Data visualization) là việc tạo ra các biểu đồ, đồ thị, … để đưa những con số thống kê thành hình ảnh sinh động dễ tiếp cận, dễ quan sát để truyền đạt rõ ràng những hiểu biết đầy đủ từ dữ liệu đến người đọc. Trực quan hĩa dữ liệu giúp tìm hiểu trước đặc tính của các biến dữ liệu, mối liên hệ giữa chúng mới cĩ thể xây dựng các mơ hình dự báo.

Ví dụ: Thống kê các quốc gia cĩ số tin tuyển dụng cao nhất, lĩnh vực cĩ số tin tuyển dụng cao nhất, tỉ lệ tin giả/tổng số tin tuyển dụng…

c. Áp dụng các kỹ thuật mã hĩa

Áp dụng mơ hình BoW vào biến “Mơ tả cơng việc” và phương pháp One- hot-Encoding vào các biến “Hình thức làm việc”, “Yêu cầu kinh nghiệm”, “Yêu cầu học vấn”, “Ngành nghề”, “Vị trí làm việc”.

d. Áp dụng các thuật tốn ML và lựa chọn mơ hình

Phân tách bộ số liệu

Phân tách dữ liệu là một thao tác phân chia bộ dữ liệu ban đầu thành hai tập dữ liệu con độc lập là bộ dữ liệu huấn luyện (train dataset) và bộ dữ liệu kiểm tra (test dataset). Bộ dữ liệu huấn luyện dùng để thuật tốn huấn luyện dữ liệu và bộ dữ liệu kiểm tra để chấm điểm mơ hình trước khi áp dụng vào dữ liệu thực tế.

Việc lựa chọn tỉ lệ giữa bộ dữ liệu huấn luyện và kiểm tra là một thao tác quan trọng. Nếu ta sử dụng quá nhiều dữ liệu cho việc huấn luyện và ít dữ liệu cho việc kiểm tra, mơ hình cĩ thể dẫn tới tình trạng quá khớp (overfitting), điểm số mơ hình trên tập dữ liệu huấn luyện cao nhưng khi áp dụng vào thực tế khơng hiệu quả.

Ngược lại, nếu ta sử dụng số lượng dữ liệu huấn luyện quá ít và dành quá nhiều dữ liệu cho việc kiểm tra, mơ hình cĩ thể dẫn tới tình trạng khơng khớp (underfitting), điểm số mơ hình trên tập huấn luyện thấp và mơ hình khơng phù hợp với dữ liệu tổng thể.

Andrew Ng (2018) cho rằng tỉ lệ dữ liệu huấn luyện và dữ liệu kiểm tra phụ thuộc vào số lượng quan sát của tập dữ liệu ban đầu. Nếu số lượng quan sát tập dữ liệu nằm trong khoảng (1.000-10.000) thì nên sử dụng tỉ lệ phân chia là 80:20 (80% cho tập dữ liệu huấn luyện; 20% cho tập dữ liệu kiểm tra). Nếu số lượng quan sát tập dữ liệu lên đến 1.000.000 thì nên sử dụng tỉ lệ phân chia là 98:2 (98% cho tập dữ liệu huấn luyện; 2% cho tập dữ liệu kiểm tra), bởi vì chỉ cần 2% của 1.000.000 quan sát ta đã cĩ 20.000 quan sát, đủ để chấm điểm kiểm tra mơ hình.

Như vậy, số lượng quan sát ban đầu của tập dữ liệu là 12.232 quan sát, ta sẽ sử dụng tỉ lệ phân chia là 8:2. Như vậy số lượng quan sát của train dataset là 9.785 và của test dataset là 2.447.

Áp dụng các thuật tốn

Tác giả áp dụng 5 thuật tốn phân loại là Logistic, KNN, Rừng ngẫu nhiên, SVM và MLP để áp dụng vào bộ số liệu. Sau đĩ lựa chọn 5 điểm số là Precision, Recall, F1, Accuracy và ROC-AUC Score để đánh giá mơ hình.

3.3. Kết quả thống kê mơ tả

Bảng 3.6: Các Quốc gia cĩ nhu cầu tuyển dụng cao nhất STT Quốc Gia Số lượng

1 Hoa Kỳ 7183

2 Vương Quốc Anh 1805

3 Hy Lạp 725 4 Canada 325 5 Đức 302 6 New Zealand 267 7 Ấn Độ 180 8 Australia 117 9 Bỉ 102 10 Hà Lan 90

Quan sát bảng, ta thấy Hoa Kỳ là nước cĩ nhu cầu tuyển dụng cao nhất với 7.183 vị trí, chiếm 58,72% tổng nhu cầu tuyển dụng trong bộ số liệu. Tiếp theo là Vương Quốc Anh với 1.805 vị trí, chiếm 14,75%, đứng thứ 3 là Hy Lạp với 725 vị trí tương ứng với 5,93%. Các Quốc gia cịn lại cĩ số lượng tin tuyển dụng tương đối thấp, xếp thứ 10 là Hà Lan với 90 vị trí.

Biểu đồ 3.1: Các Quốc gia cĩ nhu cầu tuyển dụng cao nhất

Hình 2.1: Tĩm tắt mơ hình Học máy

Hình 2.4: Mơ hình thuật tốn Rừng ngẫu nhiên