Mô hình hoá véc tơ

Một phần của tài liệu Tìm kiếm CVs tương ứng với yêu cầu tuyển dụng (Trang 44 - 47)

5. Bố cục luận văn

4.2.2Mô hình hoá véc tơ

Trong bước này, bằng cách áp dụng 4 phương pháp mô hình hoá véc tơ đã trình bày trong chương 2 để thu được các véc tơ đặc trưng cho mỗi đơn xin việc. Với mỗi phương pháp trích chọn đặc trưng, kết quả thu được là 100 véc tơ đặc trừng cho 100 đơn xin việc đầu vào.

Ø Mô hình hoá theo sự xuất hiện của từ

Trọng số từ của véc tơ sẽ chi có hai giá trị là 1 hoặc 0. Giá trị 1 thể hiện từ đó có xuất hiện trong đơn xin việc đang kiểm tra và ngược lại sẽ nhận giá trị 0 tương ứng nếu từ đó không xuất hiện.

Với đơn xin việc trong hình 4.2 ở phía trên, véc tơ đặc trưng thu được sẽ gồm 522 chiều có giá trị là 1 trong tổng số 4848 chiều.

Ø Mô hình hoá theo tần suất xuất hiện của từ (TF):

Hình 4.5 Minh hoạ véc tơđặc trưng theo tần số xuất hiện của từ

Trong hình 4.5, trục hoành biểu diễn chiều véc tơ và trục tung biểu diễn giá trị trọng số khác không của mỗi chiều véc tơ. Bằng việc mô hình hoá véc tơ theo tuần suất xuất hiện, véc tơ được biểu diên trong hình 4.5 có phần lớn các chiều có giá trị trọng số nằm trong khoảng từ 1 đến 5. Ngoài ra cũng có một số các chiều có giá trị trọng số nằm trong khoảng từ 12 đến 27. Số lượng các chiều có giá trị trọng số trên 30 chiếm một tỷ lệ nhỏ.

Đơn xin việc có véc tơ đặc trưng được biểu diễn trong hình 4.5 gồm phần lớn các từ có số lần xuất hiện ít ( từ 2 đến 5 lần). Tuy nhiên, cũng có một số lượng từ xuất hiện với tần số lớn ( trên 30 lần) nhưng tỉ lệ của các từ đó trong đơn xin việc chiếm một phần nhỏ.

Ø Mô hình hoá theo TFIDF

Hình 4.6 Minh hoạ véc tơđặc trưng theo công thức TFIDF

Trong hình 4.6, véc tơ đặc trưng có 460 chiều với giá trị trọng số được biểu diễn từ 0.5 đến 13.8. Các từ có trọng số TFIDF[9] cao là các từ xuất hiện nhiều trong đơn xin việc này và xuất hiện ít trong các đơn xin việc khác.

Hình 4.7 Minh hoạ véc tơđặc trưng theo Okapi BM25

Trong hình 4.7, véc tơ đặc trưng được biểu diễn gồm 460 chiều và có giá trị trọng số Okapi BM25[11] từ -113 đến 12.5. Một số chiều của véc tơ có trọng số mang giá trị âm biểu thị các từ tương ứng với các chiều đó xuất hiện nhiều trong tập các đơn xin việc.

Một phần của tài liệu Tìm kiếm CVs tương ứng với yêu cầu tuyển dụng (Trang 44 - 47)