Kết quả phân loại

5. Bố cục luận văn

4.4 Kết quả phân loại

4.4.1 Kết quả thực nghiệm

Chương trình đã thực hiện phân loại theo 2 tỉ lệ số lượng đơn xin việc dùng cho huấn luyện và kiểm thử :

- Tỉ lệ thứ nhất: 75 đơn xin việc cho huấn luyện và 25 đơn xin việc cho kiểm thử

- Tỉ lệ thứ hai: 80 đơn xin việc cho huấn luyện và 20 đơn xin việc cho kiểm thử

Trong quá trình sử dụng thư viện LibSVM, tác giả đã chạy thử nghiệm chương trình với 4 loại nhân phân loại:

- Tuyến tính

- Đa thức

- RBF

- Sigmoid

Kết hợp với dữ liệu tiền xử lý được mô hình hoá theo 4 loại ở phần trước, tác giả đã thu được bảng kết quả chạy thử nghiệm sau đây:

Bảng 4.3 Kết quả phân loại

Theo bảng kết quả phân loại phía trên, việc phân loại sử dụng tỉ lệ đơn xin việc thứ hai (80 đơn xin việc cho quá trình huấn luyện và 20 đơn xin việc để kiểm thử) đều cho kết quả phân loại tốt hơn khi phân loại sử dụng tỉ lệ đơn xin việc thứ nhất.

Trong 4 phương pháp biểu diễn véc tơ không gian, phương pháp biểu diễn bằng công thức TFIDF cho kết quả tốt hơn 3 phương pháp còn lại.

Trong hình 4.2, ta thấy được kết quả phân loại sử dụng thư viện LibSVM với 4 nhân (tuyến tính, đa thức, RBF, Sigmoid) đều đạt trên 50% . Đặc biệt khi sử dụng nhân Sigmoid cùng với phương pháp biểu diễn véc tơ bằng TFIDF, kết quả thu được là 70%. Đây là một kết quả phân loại rất cao và tốt cho bài toán phân loại tự động

4.4.2 Đánh giá một trường hợp phân lớp sai

Tuy nhiên, kết quả phân loại cũng cho thấy rằng tại một số trường hợp, máy học sẽ cho kết quả phân lớp bị sai so với thực tế kiểm tra. Sau đây, chúng ta sẽ xét đến một trường hợp đơn xin việc bị phân lớp sai.

Sau quá trình tiền xử lý, đơn xin việc trong hình 4.8 sẽ được phân tách thành các từ đơn như hình sau đây

Hình 4.9 Dữ liệu sau tiền xử lý của đơn xin việc bị phân loại sai

Trong đơn xin việc bị phân loại sai tại hình 4.8, ta thấy được các thông tin của người tìm việc đó như sau:

- Trình độ học vấn : đại học

- Kinh nghiệm làm việc: chưa có kinh nghiệm, sinh viên mới ra trường Theo bảng 4.1 về quy định đánh nhãn và với các thông tin như trên, đơn xin việc trong hình 4.8 sẽ được đánh nhãn là 3. Tuy nhiên trong quá trình phân lớp, đơn xin việc này được xếp vào lớp mang nhãn là 6 ( trình độ học vấn là đại học và có kinh nghiệm làm việc).

Theo hình 4.9, chúng ta có thể thấy được các thông tin về trường mà người tìm việc đã học. Cụ thể ở đây là đại học Thuỷ lợi. Từ đó có thể phán định là người tìm việc có trình độ học vấn bậc đại học. Với kĩ năng chuyên môn, người tìm việc cũng có các thông tin về ngôn ngữ lập trình, các công nghệ sử dụng. Các thông tin này gần giống với các thông tin của một người tìm việc có kinh nghiệm làm việc thực tế. Vì thế, trong quá trình học máy, máy học sẽ có sự nhầm lẫn và xếp người tìm việc này vào lớp có trình độ kinh nghiệm làm việc.

Ngoài ra, sự phân lớp bị sai trong trường hợp này có thể do việc tạo siêu phẳng phân lớp không chính xác. Do trong số 100 đơn xin việc đầu vào chương trình, số lượng đơn xin việc được đánh nhãn là 6 chiếm một số lượng lớn, khoảng 60% trên tổng số lượng các đơn xin việc. Vì vậy, khi xây dựng các siêu phẳng để phân lớp,

Do đó, khi phân lớp, các đơn xin việc thường được xếp vào lớp có số lượng đơn xin việc chiếm đa số. Đây là hiện tượng mất cân bằng về tập mẫu của quá trình học máy sử dụng SVM để phân lớp.

KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN

A. Kết luận

Luận văn tốt nghiệp của tác giả với đề tài: “Tìm kiếm CVs tương ứng với yêu cầu tuyển dụng” đã cơ bản hoàn thành. Đề tài đã giải quyết được các vấn đề sau:

1. Tìm hiểu về định nghĩa bài toán phân lớp tự động đơn xin việc và xây dựng mô hình bài toán phân lớp áp dụng lý thuyết học máy

2. Tìm hiểu về các phương pháp tiền xử lý đơn xin việc và mô hình hoá đơn xin việc sang dạng không gian véc tơ số có chiều tương ứng với các từ. 3. Giải quyết bài toán phân lớp đa lớp các đơn xin việc bằng việc áp dụng

phương pháp phân lớp SVM và thư viện LibSVM Các kết quả chính đạt được trong luận văn:

1. Tác giả đã sưu tầm khoảng 100 đơn xin việc các đơn xin việc của các ứng cử viên trong lĩnh vực phần mềm thuộc nhiều định dạng, có nội dung và biểu mẫu đa dạng.

2. Tác giả đã sử dụng thư viện Apache Tika để lập trình tự động tách từ và tạo từ điển dựa trên tập các từ thuộc các đơn xin việc trên. Sau đó, tác giả đã mô hình hoá các đơn xin việc thành các véc tơ số có trọng số theo các công thức TF, TFIDF và Okapi.

3. Luận văn tiếp tục với phương pháp học máy thông kê SVM để phân lớp tự động các đơn xin việc trong không gian véc tơ số này.

4. Trong phần thực nghiệm, luận văn đưa ra bảng tỉ lệ phân lớp đúng theo các phương pháp tiền xử lý cũng như nhân SVM khác nhau. Ngoài ra, tác giả cũng giải thích được một phần lý do trong những trường hợp bị dự đoán sai.

Những khó khăn và hướng giải quyết

Những khó khăn gặp phải trong quá trình thực hiện đề tài:

- Các đơn xin có nhiều định dạng và biểu mẫu khác nhau nên gặp khó khăn trong việc trích rút thông tin chính xác, loại bỏ được các thông tin không cần thiết cho quá trình phân lớp

- Tỉ lệ số lượng các đơn xin việc giữa các lớp khác nhau không đồng đều. Vì thế kết quả phân lớp chưa đạt độ chính xác cao nhất.

Hướng giải quyết:

- Bổ sung thêm các thuật toán để có thể trích rút thông tin hiệu quả và chính xác hơn.

- Tăng số lượng đơn xin việc thực nghiệm và tỉ lệ số lượng các đơn xin việc theo các lớp khác nhau có sự tương đồng hơn. Từ đó giúp việc xây dựng các siêu phẳng để phân lớp có độ chính xác cao hơn.

Các kết quả nghiên cứu lí luận và thực tiễn đã cho thấy việc áp dụng phương pháp học máy để giải bài toán phân lớp tự động đơn xin việc đã bước đầu đạt được những tín hiệu tích cực. Kết quả phân lớp đạt độ chính xác cao nhất khoảng 70% với số lượng 100 đơn xin việc.

B. Hướng phát triển của đề tài.

Do điều kiện cá nhân còn những hạn chế, nên vấn đề nghiên cứu về bài toán phân lớp tự động đơn xin việc theo nhu cầu tuyển dụng trong khuôn khổ của luận văn này chỉ dừng lại ở những nghiên cứu ban đầu. Vì vậy, những nghiên cứu tiếp theo về vấn đề này có thể tập trung triển khai theo các hướng như sau:

- Nghiên cứu giải bài toán phân lớp tự động đơn xin việc có nội dung bao gồm cả hình ảnh.

- Nghiên cứu về các phương pháp để mô hình hoá dữ liệu sang không gian véc tơ số.

- Nghiên cứu về vấn đề mất cân bằng phân lớp khi sử dụng phương pháp phân lớp bằng SVM.

TÀI LIỆU THAM KHẢO

1. Phan Thị Thu Hồng, Đoàn Thị Thu Hà, Nguyễn Thị Thuỷ(2013), “Ứng dụng phân lớp ảnh chụp lá cây bằng phương pháp máy véc tơ hỗ trợ”, Tạp chí khoa học và Phát triển, 11(7), 1045-1052.

2. Trần Cao Đệ, Phạm Nguyên Khang(2012), “Phân loại văn bản với máy học véc tơ hỗ trợ và cây quyết định”, Tạp chí Khoa học, (21a), 52-63.

3. Alberto Tellaechea, Xavier P . Burgos-Artizzub, Gonzalo Pajaresa, Angela Ribeirob(2008), “Avision-basedmethod forweeds identification through the Bayesian decision theory”, Pattern Recognition, 41, 521-530.

4. Chang C, C-J.Lin(2011), “LIBSVM: A library for support vector machines”, ACM Transactions on Intelligent Systems and Technology, 2(27), 1-27.

5. Chris Mattmann, Jukka L. Zitting(2011), Tika in Action, Manning Publications, USA.

6. Christopher M.Bishop(2006), Pattern Recognition and Machine Learning, Springer-Verlag, New York, USA.

7. Cristianini Nello, Shawe-Taylor John(2000), An Introduction to Support Vector Machines and other nhân-based learning method,. Cambridge University Press. 8. John Shafer, Rakesh Agrawal, Manish Mehta(1996), SPRINT- A Scalable Paralllel Classifier for Data mining, In Predeeings of the 22nd International Conference on Very Large Database, India.

9. Gerard Salton, Michael J.McGill(1986), Introduction to Modern Information Retrieval, Mc Graw-Hill, Inc. New York, NY, USA.

10. Liao K., Paulsen M. R., Reid J. F., et al(1994), “Corn nhân breakage classification by machine vision using a neutral network classifier”, Transactions of the ASAE, 36(6), 1949-1953.

11. Stephen E. Robertson, Steve Walker, Susan Jones, Micheline Hancock- Beaulieu, and Mike Gatford(1994), Okapi at TREC-3, Proceedings of the Third Text REtrieval Conference, Gaithersburg, USA.

12. Vladimir N.Vapnik (1995) The nature of statistical learning theory, Springer- Verlag, New York, USA.

Bài toán phân lớp tổng quát

SVM cho bài toán phân lớp tuyến tính