Tuy nhiên cùng với sự bùng nỗ về số lượngngười dùng thì chúng ta cũng phải đối mặt với vấn đề tìm kiếm dữ liệu, cụ thể ởđây là tìm kiếm hỗ sơ ứng viên phù hợp với yêu cau của nhà tuyến d
Trang 1ĐẠI HỌC QUOC GIA TP HO CHÍ MINH
TRƯỜNG ĐẠI HỌC BÁCH KHOA
ÁP DUNG PHƯƠNG PHAP ĐO ĐỘ TƯƠNG DONG
TREN ONTOLOGY TRONG
TIM KIEM KY NANG UNG VIEN
Chuyén nganh:HE THONG THONG TIN QUAN LY (60 34 48)
LUAN VAN THAC SI
TP HO CHI MINH, tháng 09/2013
Trang 2ĐẠI HỌC QUOC GIA TP HO CHÍ MINH
TRƯỜNG ĐẠI HỌC BÁCH KHOA
ÁP DUNG PHƯƠNG PHAP ĐO ĐỘ TƯƠNG DONG
TREN ONTOLOGY TRONG
TIM KIEM KY NANG UNG VIEN
Chuyén nganh:HE THONG THONG TIN QUAN LY (60 34 48)
LUAN VAN THAC SI
Hướng dan khoa họcTS Bùi Hoài Thắng
TP HO CHI MINH, tháng 09/2013
Trang 3CÔNG TRÌNH ĐƯỢC HOÀN THÀNH TẠITRƯỜNG ĐẠI HỌC BÁCH KHOAĐẠI HỌC QUOC GIA TP HO CHI MINH
Cán bộ hướng dẫn khoa học : TS Bùi Hoài Thắng
Luận văn thạc sĩ được bảo vệ tai Trường Dai học Bach Khoa, ĐHQG Tp Hồ
Chi Minh ngày 19 tháng 07 năm 2013
Thanh phan Hội đồng đánh giá luận văn thạc sĩ gồm:(Ghi rõ họ, tên, học ham, học vi của Hội đồng cham bảo vệ luận văn thạc sĩ)
1 TS.Trần Văn Hoài (Chủ tịch)2 TS Nguyễn Chánh Thành (Phản biện 1)3 TS Nguyễn Mạnh Tuân (Phản biện 2)4 TS Bùi Hoài Thang (Ủy viên)
5 TS Phạm Quốc Trung (Thư ký)Xác nhận của Chủ tịch Hội đồng đánh giá luận văn và Trưởng Khoa quản lý
chuyên ngành sau khi luận văn đã được sửa chữa (nêu có).
CHỦ TỊCH HỘI ĐÔNG TRƯỞNG KHOA
TS.Trần Văn Hoài
Trang 4ĐẠI HỌC QUOC GIA TP.HCM CONG HOA XÃ HỘI CHỦ NGHĨA VIỆT NAM
TRƯỜNG ĐẠI HỌC BÁCH KHOA Độc lập - Tự do - Hạnh phúc
NHIEM VỤ LUẬN VĂN THẠC SĨ
Họ tên học viên: Trương Thanh Hải MSHV: 09320839Ngày, tháng, nam sinh: 10/09/1982 Noi sinh: Ca MauChuyén nganh: Hé thong thong tin Quan ly Mã so: 60 34 48
Trang 5LOI CAM ONTrước tiên, tôi xin được gửi lời cám ơn đến quý Thay Cô của trường Đại hoc BáchKhoa TP HCM đã trang bị cho tôi những kiến thức quý báu trong thời gian học caohọc ngành Hệ thống Thông tin Quản lý
Xin đặc biệt cảm ơn TS Bùi Hoài Thăng, Khoa KH&KTMT — Đại học Bách KhoaTP HCM, người hướng dẫn khoa học của dé tài Thầy đã rất tận tình và nhiệt tâmhướng dẫn tôi hoàn thành đề tài
Sau cùng tôi xin chân thành cảm ơn người bạn, đồng nghiệp và người thân đã tận
tình hỗ trợ, góp ý và giúp đỡ cho tôi.Xin gửi lời cảm ơn chân thành đên tât cả mọi ngườiTrương Thanh Hải
Trang 6TÓM TATSự phát triển ngày càng nhanh của internet đã cho ra đời nhiều dịch vụ trực tuyến,trong đó có tuyến dụng trực tuyến (e-Recruitment) Tuyến dụng trực tuyến ngàycàng trở nên phố biển ở Việt Nam Tuy nhiên cùng với sự bùng nỗ về số lượngngười dùng thì chúng ta cũng phải đối mặt với vấn đề tìm kiếm dữ liệu, cụ thể ởđây là tìm kiếm hỗ sơ ứng viên phù hợp với yêu cau của nhà tuyến dụng.
Nghiên cứu nay sẽ phân tích các yếu tố trong tìm kiếm hồ sơ ứng viên và áp dụngphương pháp đo độ tương đồng dựa trên việc xây dựng mô hình Ontology vào quátrình tìm kiếm ngữ nghĩa nhằm nâng cao hiệu quả tìm kiếm
Trang 7Nowaday, with the rapidly development of internet, has lauched a lot of onlineservice including e-recruitment E-recruitment has being became popular inVietnam However, with the explosion in the number of users, we also face withthe matching problem when searching.
This research will analyze the elements of resumes searching and proposedalgorithms applied to measure the simactic similarity base on Ontology to achievemore accurate results.
Trang 8LỜI CAM ĐOANTôi xin cam đoan kết quả nghiên cứu của dé tai “Ap dụng phương pháp do độtương đồng trên Ontology trong tìm kiếm kỹ năng ứng viên” là do quá trình học tập
và nghiên cứu của chính bản thân tôi
Trương Thanh Hải
Trang 9MỤC LỤC
NHIEM VỤ LUẬN VĂN THAC SĨ 5 << << se se se seseseseseses ivLOT CAM ON uuuscccsccscssscesecsscesecsscesessscesessscesessscesessscesecsssecsscesecsscesessscasecesseses VvTOM TAT 0117 — Ô vi
10/9000 ix
DANH SÁCH CAC TU VIET TAT - <s° se sesecsesseseesess xiiDANH SÁCH HINH 5-2-2 s2 s2 s9 s9 s9 SsSEeEssEssvsssssssee xiiiDANH SÁCH BÁNG << se 9s SssEssSssSssSseEssEeesetsersssssrsee xiv
010) 1810/0005) 00 :.' 11.1 Phát biểu vấn để -¿-¿- + %6 SE 1115 1 1 111515151111 111111151111 1101151101110 1y |1.1.1 Tuyển dụng trực tUyẾn ¿- 5+ 56s E2 2121212111211 2111 xe l1.1.2 Tuyến dụng trực tuyến ở Việt Nam + ¿52 cs+cccecxvrcrerrrrererree 21.1.3 Lý do chọn để tài ¿c2 2262121115 E1 111115151121 11 1111151111111 Ly 31.1.4 Mục tiêu nghiên cứu và ý nghĩa dé tài csesseeseeneen 31.1.5 Ý nghĩa nghiên €ỨU ¿-¿- - + 2 E+E+E£E+EEEEE£E£ESEEEEEEEEEE E2 Ekrrrreee 4Chương 2: CƠ SỞ LÝ THUYÉT VÀ PHƯƠNG PHÁP NGHIÊN CỨU52.1 Quy trình tuyển dụng ¿6-5-5 2E2E2S£ E232 E121 311121111111 52.2 Tìm kiếm, sàng lọc ứng viên (Pre-SCT€€T)) - - «S3 6
2.3 MatchMakKIng - - - << 000 nọ 82.3.1 Giải thuật MatchMaking của Paolucci [ Í ] «« «<< «««eeeeesss 8ZA FUZZY Search oo ố .3 92.4.1 Sound S€arC - 9990000 nọ 10
2.5 Độ tương đồng về ngữ nghĩa (Semantic Similarity) - 5 5 5c: 10
“h9 8 II2.5.2 WordNet::Similarity - cọ re 13
Trang 102.6 Mơ hình và phương pháp nghiÊn CỨU - 5S 111 vs veree 142.6.1 Mơ hình nghiÊn CỨU: - - - << <5 E301 11 E999 90 1n re 14
2.6.2 Quá trình nghiên cứu tơng quất: - + + 25525 s+x+x+cs+xvxereceee 14Chương 3: PHAN TÍCH YEU CÂU 2 < 2 s2 se Sssesseses 163.1 Các thành phan trong một hồ sơ ứng viên ¿2-5 +52 s+s+£z£s+x+zscs2 l6
3.1.1 Thơng tin cá nhân: - - << s00 re 16
3.1.2 Trinh d6 hoc van va nganh nghé (Education & Malor): 17
3.1.3 Kỹ năng chuyên mơn (Skills & EXpeTrfIS) - 55c + eess 183.1.4 Quá trình làm việc (HIS{OTY) 99g vớ 19
3.1.5 Tong kết yêu cau tìm kiếm từ các yếu tơ của một CV 193.2 Các yêu cầu cho một tuyển dụng thơng thường (Job Description) 193.3 YOU cầu đặt ra G1 TT 1111212111 1111101 1T TT TT HT ng ngu rke 213.3.1 Tìm kiếm dong nghia ccccccccseescessscssssesssssessssssessssssssesseseeesen 213.3.2 Tìm kiếm dựa trên mối “quan hệ” với nhau: 5-5-5555 +s+szszx2 214.1 Tìm kiếm tương đương ngữ nghĩa - ¿5-5-5 + S222 SE£E‡ESEEEErErErrerrsred 22
4.1.1 Mơ hình quan hệ ngữ nghĩa của WordNet -s<«c+s+2 22
4.1.2 Ứng dụng WordNet::Similarity vào tìm kiếm tương đương 244.2 Ứng dụng giải thuật MatchMaking vào tìm kiếm gan đúng 25
4.3 Các giả định - - cọ kh 28
4.4, So d6 tong QUat? an ng a 294.5 Giải thuật tìm kiếm ứng dung thư viện WordNet-Similarity 30
4.5.1 Cách cai đặt WordNet-Similarity (cho Windows 7): 30
4.5.2 Giải thuật tìm kiếm dựa trên WordNet-SimiÌarIty << <<« 304.6 Giải thuật tìm kiếm mối quan hệ dựa trên giải thuật MatchMaker với
Ontology tự xây Ựng - - - - cọ nọ re 314.6.1 Mơ hình OntỌÒYV Họ nh 314.6.2 Mơ hình cơ so dữ liệu lưu trữ ontỌÒY s s22 32
4.6.3 Giải thuật tìm kiếm trên mơ hình ontology -. - - s55: 34
Trang 11Chương 5: THỰC NGHIÍÌM 5-< 5< 5< 55s S5S955955565565585556556 41
5.1 Thử nghiệm trên ontology tự xây dựng: - ch ve ree 41
5.2 Kết qua thử nghiệm lần 1: ccccccccscsccssessesesessesesesscsesssscsesessesesessesesssecseseeeeees 435.3 Kết quả thử nghiệm lần 2: ¿- ¿+2 252 +E+E2EE+E£EEEEEEvEerkrerrerrrerree 44Chương 6: KET LUẬNN -5-5- <5 5 5< << << ssseseseEesesesesesssee 46TÀI LIEU THAM KHẢO Error! Bookmark not defined
PHU LLỤC 2-° 5 9 9 S9 9h 9u 99 30 9 9959 51
Trang 123 Curriculum Vitae CV So yếu lý lịch (hồ sơ
ứng viên)
5 UV Ứng viên
Trang 13Hình 2.6.3: Quá trình nghiên cứu tong quát Vaishnavi & Kuechler 14
Hình 3.1.1: CV - Thông tin cá nhân _ SG S SH ng 17
Hình 3.1.2: CV - Trình độ học vấn -.- sec kE S122 SE secgeeveo 17
Hình 3.1.3: CV - Cách thức ghi nhận kỹ năng chuyên môn cua trang LinkedIn 18
Hình 4.1.1.1 Mô hình phân cấp của WordNet -c-55cccccccccseece¿ 23
Hình 4.1.1.2 Ontology cho một nhánh trên WordNet_ 23Hình 4.1.1.3 Diagram của WordÌNet SH ng ke 24
Hình 4.1.2.1: Hàm tính toán mỗi liên hệ giữa 2 từ dựa trên WordNet-Similarity 25Hình 4.1.2.2: Kết quả trả về từ WordNet-Similarity 25Hình 4.4: Sơ đỗ tổng quát ¿-:- + 2S SESESEEEE2EEEEEEEEEEEErrkrkrrrrkrree 29Hình 4.6.1: Thể hiện một nhánh trên ontology -. ¿- - 2 2 2 25s+s+£s£z£szs2 32
Hình 4.6.2: Quan hệ cơ sở dữ liệu _ << << <3 33Hình 5.1: Mô hình ontology tự xây dựng _ SH he 42
Trang 14DANH SÁCH BANGBảng 2.3.1: Bốn kết quả của hàm matchQ theo định nghĩa của Paolueci 8
Bang 2.4: Fuzzy Se€arCh c0 re 9
Bang 3.1.5: Yêu cầu tìm kiếm theo các thành phân _ - 19Bang 3.2: Phân rã các yếu tố trong một miêu tả tuyển dụng 21Bang 5.2: Kết quả thử nghiệm lần l_ ¿55252 2+c+ce+e+esescscxee 43Bang 5.3: Kết quả thử nghiệm lần 2 _ ¿2-5 + 52+5+S+ce+xvecevrerererree 45
Trang 15Chương 1: MỞ ĐẦU1.1 Phát biểu van đề
1.1.1 Tuyền dụng trực tuyến
Tuyển dụng là quy trình tìm kiếm, sàng lọc và tuyển chọn những người có đủ nănglực đáp ứng một công việc trong một tổ chức, công ty, hoặc một chương trình tựnguyện hay nhóm cộng đồng [15]
Tuyền dụng trực tuyến là một hình thức sử dụng internet để tìm kiếm thông tin vềcông việc đối với người tìm việc và cung cấp thông tin tuyển dụng đối với nhà tuyểndụng thông qua các website chuyên về việc làm, tuyển dụng [15]
Tìm việc với sự trợ giúp của Internet đã được biết đến từ hơn 20 năm trước, nhưngkhi đó tuyển dụng trực tuyến vẫn còn bị bó hẹp trong phạm vi các bảng thông tin vàgan như là độc quyên của giới IT - những người thông thạo về mạng điện tử Tốc độphát triển của máy tính cá nhân cùng với sự phố biến của Internet vào những năm1990 đã trở thành cú hich cho việc ra đời những trang web tuyến dụng có tính daichúng và thương mại hơn, ma trong số đó phải kế đến Monster.com bat dau hoạt
động vào năm 1994 tại Mỹ.
Sự xuất hiện của các hệ thong điện tử và mối quan tâm của xã hội đến Internet dẫntới việc các website chuyên về việc làm đang trở thành công cụ đặc lực và hiệu quảcủa cả người lao động lẫn nhà tuyến dụng
Một nghiên cứu về người tiêu dùng do Mintel International Group Ltd (tổ chức quốctế chuyên nghiên cứu về thị trường và người tiêu dùng) tiến hành cho thay có đến30% số người sử dụng Internet đã tham khảo các website tuyển dụng trực tuyến détìm kiếm thông tin về việc làm [16]
Ông Paul Nguyễn (tổng giám đốc CareerBuilder tại VN) nhận định: “So với trướcđây, tuyến dụng trực tuyến ngày cảng được ưa chuộng Tại nhiều nước trên thé giới,hình thức tuyển dụng truyền thống gan như biến mat, hơn 90% công ty sử dụng hìnhthức tuyến dụng trực tuyến” [17]
Tính đến thời điểm 2012 [15]:e© Hơn 7 tỉ đô la được chi mỗi năm cho ngành công nghiệp tuyến dụng trực
tuyến (e-Recruitment).© 96% các công ty sử dung dich vụ dựa trên Internet cho các nhu cau tuyén dụng
của họ.
Trang 16e Nguôn cung cap doi dào đôi với cả nhà tuyên dụng và người tìm việc
1.1.2 Tuyển dụng trực tuyến ở Việt NamỞ Việt Nam, cùng với sự phát triển chung của xã hội, số lượng các doanh nghiệp giatăng nhanh chóng về số lượng Nhu cau về nguồn nhân lực cũng như công tác tuyểndụng cho các doanh nghiệp này cũng trở thành vấn dé quan trọng Các hình thứctuyển dụng và tìm việc truyền thống dan trở nên lạc hậu và không đáp ứng kịp nhucầu ở một số ngành nghề Thay vào đó, hình thức tuyển dung và tim việc trực tuyếnngày càng tỏ ra hiệu quả và có nhiều ưu điểm, đặc biệt trong thời đại bùng no
Internet.
Theo nghiên cứu của Công ty ACNielsen Việt Nam, số lượng người Việt Nam sởhữu một máy vi tính đang ngày càng gia tăng và tập trung vào hai thành phố lớn làHà Nội và TP.HCM với tỷ lệ tương ứng lần lượt 48% và 45% Trong đó, số ngườivào mạng internet thường xuyên chiếm 32% Điều này cho thay các ứng dụng trên
mạng internet đang ngày cảng có được số lượng lớn người sử dụng quan tâm, trongđó có những nhu câu tìm việc và tim người Cũng theo nghiên cứu này, số người từ18-30 tuổi chiếm 53% trong tổng số người sử dụng internet Đó chính là co sở vững
chắc cho sự ra đời của nhiều trang web tuyển dụng lao động hiện nay Những trang
web như: vietnamworks.com, hrvietnam.com, kiemviec.com, đã trở nên quen thuộc
với hàng nghìn công việc, vị trí tuyển dụng được đăng mỗi ngày Đây là những cầunoi tạo điều kiện cho người xin việc gặp gỡ nhà tuyến dụng [18]
Trang 17Theo thông tin tu trang VietNamWorks [19]:
e Có hon 400000 hồ so ứng viên đăng ký.e 200 việc làm mới mỗi ngày
e 80000 lượt truy cập mỗi ngày1.1.3 Lý do chọn đề tài
Tuy các trang web hỗ trợ tuyên dụng, tìm việc trực tuyến tại Việt Nam đã xuất hiệnkhá nhiều va cũng có được những thành công nhất định Nhưng hau hết trong số đó lànhững trang đăng tuyến và tìm kiếm cơ bản Nhà tuyển dụng đăng các thông tintuyên dụng, tìm kiếm các hỗ sơ ứng viên phù hợp với tiêu chí; và tương tự cho ngườitìm việc là cập nhập hỗ sơ và tìm kiếm công việc phù hợp
Đối với các nhà tuyển dung, thì với một số lượng ngày càng lớn các hồ sơ đăng kýtrong cơ sở dữ liệu, thì việc sàng lọc, tìm kiếm các ứng viên phù hợp với yêu cầucông việc càng trở nên phức tạp Việc tìm kiếm, nghiên cứu và áp dụng các giải thuậtvào quá trình tìm kiếm hỗ sơ để giúp cho việc tìm kiếm trở nên chính xác và nhanhchóng hơn trở thành một nhu câu tất yếu
Tuy nhiên, hầu hết các trang tuyển dụng trực tuyến tại Việt Nam hiện tại chỉ thựchiện việc tìm kiếm thông thường, dựa trên sự so trùng chính xác các thông tin Việctìm kiếm dựa trên ngữ nghĩa hầu như chưa được áp dụng, việc kết quả tim kiếm bịphụ thuộc vào thông tin khai báo; trong đó có nhiều thông tin là tương đương nhaunhưng được diễn đạt dưới các hình thức khác nhau dẫn đến không thể so trùng bằngcác phương pháp tìm kiếm thông thường Ví dụ chúng ta cần tìm ứng cử viên sở hữu
kỹ năng lập trình PHP, nhưng ứng viên khai báo sở hữu kỹ năng Drupal — là mộtnhánh của kỹ năng PHP thì ứng viên đó cũng phải được xem xét như một lựa chọn
thay thế dù răng nếu so trùng thì rõ ràng PHP và Drupal hoàn toàn khác nhau về từ
ngữ.
Cần có một giải pháp để có thé tìm kiếm dựa trên ngữ nghĩa Do là lý do của dé tài
này.
1.1.4 Mục tiêu nghiên cứu và ý nghĩa đề tài
1.1.4.1 Mục tiêu nghiên cứu
e Nghiên cứu, xác định các yếu tô can thiết cho quá trình tìm kiếm ngữ nghĩa.e Ứng dụng việc do độ tương đồng ngữ nghĩa dựa trên Ontology vào việc tim
kiếm tương đương ngữ nghĩa
Trang 18e_ Xây dựng mô hình Ontology và giải thuật đo độ tương đồng trong tìm kiếm kỹ
năng ứng viên.1.1.4.2 Pham vi nghiên cứu
Đổi tượng nghiên cứu:Nghiên cứu thực hiện trên các chương trình, hệ thống tuyển dụng trực tuyến nhămxác định các yếu tô trong tìm kiếm và nghiên cứu áp dụng các giải thuật phục vụ choviệc tìm kiếm đó
Không gian và thời gian thực hiện:
e Không gian: đề tài được thực hiện trong phạm vi nước Việt Nam.e Thời gian: dé tài sẽ thực hiện trong 4 tháng
1.1.5 Y nghĩa nghiên cứuTrên thế giới, các giải thuật trong tìm kiếm (ứng viên) đã được áp dụng trong nhiềulĩnh vực, bao gồm cả ứng dụng trong tuyên dụng trực tuyến Tuy nhiên tại Việt Nam,việc áp dụng khá hạn chế, đặc biệt trong tuyên dụng trực tuyến Đặc biệt với sự tăngtrưởng nhanh chóng internet và sự gia tăng sử dụng tuyển dụng trực tuyến của ngườilao động cũng như nhà tuyển dung; việc nghiên cứu áp dụng các giải thuật tìm kiémtrong tuyến dụng trực tuyến sé nâng cao hiệu xuất và độ chính xác, giúp nhà tuyêndụng nhanh chóng tìm ra ứng viên phù hợp với yêu cau
Trang 19Chương 2: CƠ SỞ LÝ THUYÉT VÀ PHƯƠNG PHÁP NGHIÊN CỨU2.1 Quy trình tuyển dụng
Là một chuôi các sự kiện phục vụ cho việc chiệu mộ nhân viên theo nhữngnhu câu công việc cụ thê của một tô chức Có nhiều định nghĩa khác nhau, mô tả từ 7
đến 10 bước cơ bản trong một qui trình tuyến dụng.Theo Walsall Council [23], có 8 bước co bản trong một quy trình tuyển dụng:
v
vv
Chiéu mo
Theo một định nghĩa cua SellCraft [24], (đặc biệt đối với công ty chuyên cho thuê,
bán lại nhân lực / off-shore) chúng ta có 10 bước cơ bản như sau:
Xác nhận
Kết thúc
Trang 20`» * * ì ì ì
On-Going coaching / Sourcing / Developing
Candidate PoolDevelopment of Employee
+
Hinh 2.1: Dinh nghia quy trinh tuyén dung cua SellCraft [24]
2.2 Tim kiêm, sang lọc ứng viên (Pre-screen)
Từ một danh sách hay ngân hàng dữ liệu các ứng viên, các nhà tuyến dụng phải tìmkiếm và sàng lọc dé lay ra những hồ sơ phù hợp nhất với yêu cầu tuyển dụng Đây làquá trình xem xét các hỗ sơ dựa trên các thành phan sau:
e Thư xin việc (cover letter)e Cac kỹ năng và kinh nghiệm của ứng viên (Résume)
e Mức lương mong muốn (salary expectations)
e Cac tính cách, sở thích cá nhân (personal attributes)
e Kỹ năng mém (soft skills)Việc tìm kiếm các ứng viên trong tuyến dụng trực tuyến là việc so trùng các yêu caucủa nhà tuyển dụng với miêu tả của ứng viên Dé làm được việc đó, các trang tuyếndụng trực tuyến sẽ chuẩn hóa các yếu tố cơ bản trong hồ sơ ứng viên, và đem các yếutố đó ra làm điều kiện tìm kiếm cho nhà tuyển dụng
Trang 21Tùy theo sự nhìn nhận và cách xây dựng của các trang tuyên dụng trực tuyên mà sô
thành phan chuẩn hóa sẽ khác nhau, nhưng cơ bản sẽ những thành phan sau:e Ngành nghề (ví dụ kế toán, công nghệ thông tin )
e Học vân và bang cape Thong tin các nhâne Kỹ năng, chuyên môn
e Cấp bậc
Kiểm hồ sơ
Nhập chức danh, kỹ năng,.Ngành nghề:
Cấp bậc:
Bằng cấp:
Kinh nghiệm:Ngoại ngữ:Hình thức:Loại hình:Mức lương:
Tuổi:
Giới tính:Tình trạnghôn nhân:
| Chọn
Nhân viên chính thứcToàn thời gianTất cảTất cả
[x| Từ
ĐếnNamĐộc thânä Rút gon tiêu chi tìm kiếm
v Nơi làm việc: | Chọn
II Cập nhật:II Đến
II Từ Đến năm
[w| Trình độ: [| @ Thêm ngôn ngữ
Tạm thời/Dự án Nghề tự do Làm theo caBán thời gian Thực tập khác
ĐếnNữĐã kết hôn
Nhập lại
tuyến (http://careerbuilder.vn)Hình 2.2: Các yếu tô chuẩn hóa trong tìm kiếm của một trang tuyến dụng trực
Uu điểm của việc chuân hóa này là giúp việc tìm kiêm chính xác và nhanh chóng.Tuy nhiên nó chỉ hữu dụng đối với các yếu tố tĩnh, không hoặc ít thay đối, hoặc cógiới hạn cố định, ví dụ như: thông tin cá nhân (giới tính, tình trạng hôn nhân), băng
cap, ngoại ngữ, mức lương mong muôn
Đối với các yếu tô động, như kỹ năng chuyên môn (Skills & Expertise) thì nó tỏ ra
không hiệu quả.
Trang 22Nhà tuyến dụng can tìm kiếm một lập trình viên có kỹ năng về Drupal, néu ứng viênmiêu tả trong hồ sơ là có kỹ năng về PHP thì câu hỏi đặt ra là liệu ứng viên đó cóthỏa điều kiện tìm kiếm hay không?
2.3 MatchMaking
MatchMaking theo định nghĩa trên wiki pedia [15] là một thuật ngữ chỉ sự mai mối,và quá trình kết hợp 2 người lại với nhau, thường dùng trong hôn nhân, dựa trên sựtương đồng về các đặc điểm mà cả hai cùng quan tâm
Ngày nay MatchMaking không còn bó hẹp trong nghĩa mai mối hôn nhân, mà nóđược hiểu như một phương thức tìm kiếm sự tương đồng giữa “yêu cầu” và “đápứng” (request and resource) và được sử dụng rộng rãi trong nhiều lĩnh vực, ví dụ nhưtìm kiếm khách sạn cho du khách, tìm kiếm trong web-service system
2.3.1 Giải thuật MatchMaking của Paolucci [1]
Giải thuật của Paolucci có đầu vào là các Query và kết quả trả về là tập các
Advertisements thỏa các điêu kiện dau vào Mot Advertisements va Query được gọilà Match khi cả input và output của nó thỏa kiện Match.
Vc€ Query.out, d€ Advt.out,s.t match(c, d) != Fail
Vc€ Advt.in, dd € Query.in,s.t match(c, d) != Fail
Trong đó, match(c,d) bao gồm 4 giá tri: Exact, Plugin, Subsume and Fail
Điều kiện match(outQ, outA)Out A bang với outQ Exact
Out A la SuperClass cua out Q ExactOut A la Subsumes cua out Q PluginOut Q la Subsumes cua out A Subsume
Không thỏa các điều kiện trên FailBang 2.3.1: Bốn kết qua của ham match() theo định nghĩa của Paolucci
Trang 23Và thứ tự đánh gia là Exact > Plugin > Subsume > FailMiêu tả hiện thực cho gia thuật:
Algorithm 1 PROCEDURE match(outA outQ)
if outA = outQ thenreturn Exact
else if outQ superclass of outA thenreturn Plugin
else if outQ subsumes outA thenreturn Plugin
else if outA subsumes outQ thenreturn Subsumes
®#n®
Hình 2.3.1: Giải thuật MatchMaking cua Paolucci2.4 Fuzzy Search
Fuzzy Search hay tìm kiếm chuỗi gần đúng là một kỹ thuật tìm kiếm chuỗi phù hợp
hay xâp xỉ (chứ không phải là chính xác) với một chuỗi cho trước.
Mức độ tương đồng của 2 chuỗi được đo băng số lượng các hoạt động cần thiết để
biên đôi chuôi đã cho thành giông nhau.
Các hoạt động biến đổi thường là:
Chèn (insertion) cot — coatXóa (deletion) coat — cot
Thay thé (substitution) coat — cost
Bang 2.4: Fuzzy Search
Các van dé cua khoảng phù hợp với chuôi thường được chia thành hai tiêu van đê:việc tim thay những chuỗi gan đúng trong một chuoi cho trước và tìm kiêm chuôi từđiên phù hợp với mô hình xâp xi.
Trang 24Đây là một phương pháp tìm kiếm có nhiều áp dụng khác nhau trong đó có việc ápdụng nhằm hỗ trợ chỉnh sửa những lỗi chính tả trong dữ liệu đầu vào (tìm kiếm chuỗitừ điển phù hợp).
2.4.1 Sound Search
Sound Search là một kỹ thuật nhăm tìm kiếm những từ có phát âm giống nhau (trongtiếng Anh) Nó xuất phát từ nhu cầu tìm kiếm một từ mà chúng ta chỉ biết cách đọcmà không biết cách viết chính xác, khi đó chúng ta sẽ tim kiếm dựa trên một từ cócách đọc gần giống với từ cần tìm
Ví dụ từ “Rucky” và “Rocky” trong tiếng Anh được xem là có phát âm gần giốngnhau Khi chúng ta can tìm từ “Rucky” và không biết cách viết chính xác của nó, thì
chúng ta sẽ nhập vào vào từ “Rocky” và nhờ các chương trình hỗ trợ Sound Search
để tìm kiểm.Có nhiều cách hiện thực cho giải thuật Sound Search, trong đó phổ biến là đưa ra mộttập định nghĩa các từ có phát âm gan giống nhau Hiện tại trong các hệ cơ sở dữ liệuđã có hỗ trợ san một tập dữ liệu cũng như hàm tìm kiếm dựa theo phát âm Một ví dụ
trong SQL Server:
Using SOUNDEXSELECT SOUNDEX ('Smith'), SOUNDEX (‘Smythe’);
Két quả trả vê:
$530 S530
(1 row(s) affected)
Điều này có nghĩa là khi chúng ta muốn tìm kiếm một người tên là “Smythe”, thì
chung ta có thê nhập dau vào tìm kiêm là “Smith”, với sự hô trợ của hàm Soundexthi kêt quả trả về sẽ tim ra được ca “Smith” lan “Smythe” (cùng mã S530).
2.5 Độ tương đồng về ngữ nghĩa (Semantie Similarity)Tương đồng ngữ nghĩa hoặc Quan hệ ngữ nghĩa (semantic similarity or semantic
relatedness) là một khái niệm mà theo đó một tập các tài liệu hay thuật ngữ được đưa
vào ma trận quan hệ dựa trên sự giống nhau về ngữ nghĩa của nó [15].Trong tiếng Anh, từ “coder” va “programmer” là những từ đồng nghĩa, độ tươngđồng về mặt ngữ nghĩa có thể xem như băng nhau Trong tìm kiếm, ta có thể xem haitừ đó là một, thay thế và tương đương nhau
Trong một trường hợp khác, “software engineer” và “web developer” đều là nhữngchức danh của những người hoạt động trong lĩnh vực công nghệ thông tin, cụ thể hơn
Trang 25là phát triển phần mềm, web Hai từ này không hoàn toàn đồng nghĩa với nhau khi“software engineer” mang một nghĩa rộng hơn và bao gồm luôn cả “web developer”.Tuy nhiên, trong lĩnh vực tìm kiếm thì ta phải xem xét nó là những từ có mối quan hệvới nhau và có thé phù hợp ở một mức độ nào đó với nhau.
Đề đo được sự tương đồng về ngữ nghĩa, ta phải xây dựng được một ontology về mối
quan hệ ngữ nghĩa của các từ trong một ngôn ngữ Tu ontology đó, chung ta sẽ do
lương độ tương đồng ngữ nghĩa dựa trên 2 phương pháp cơ bản:
° Dựa trên cạnh (Edge-based): tính toán dựa trên cạnh và các dạng của nó.
° Dựa trên nốt (Node-based): tính toán dựa trên nốt và các thuộc tính của nó
Hình 2.5: Semantic Similarity Ontology
2.5.1 WordNet
WordNet®[21] là một co sở dự liệu về mối liên hệ giữa các từ trong tiếng Anh
(lexical database), được phat trién từ giữa thập niên 1980 dưới sự chủ trì cua GeorgeA Miller.
Danh từ, động từ, tính tu và trang từ được nhóm lai thành bộ từ đồng nghĩa nhận thức(synsets), mỗi thé hiện một khái niệm khác nhau Synsets được liên kết với nhaubăng mối quan hệ khái niệm ngữ nghĩa và từ vựng Kết quả là mạng lưới các từ và
khái niệm liên quan có y nghĩa.
Trang 26File History Options Help
Search Word: |cat
Searches for cat: Noun | Verb | Senses: | |
computed axial tomography, CAT (a method of examining body organs by scanning them withX rays and using a computer to construct a series of cross-sectional scans along a single axis)The verb cat has 2 senses (no senses from tagged texts)
1 cat (beat with a cat-o'-nine-tails)2 vomit, vomit up, purge, cast, sick, cat, be sick, disgorge, regorge, retch, puke, barf, spew,
spue, chuck, upchuck, honk, regurgitate, throw up (eject the contents of the stomach throughthe mouth; "After drinking too much, the students vomited"; "He purged continuously": "Thepatient regurgitated the food we gave him last night")
Overview of cat
Hinh 2.5.1.2: WordNet Browser
Trang 272.5.2 WordNet::Similarity
WordNet::Similarity [9] là một Perl module được viét boi Ted Pedersen, Siddharth
Patwardhan, Jason Michelizzi và Satanjeev Banerjee từ năm 2005, nhăm tính toàn độtương đông vê ngữ nghĩa giữa các từ dựa trên WordNet.
Chúng ta có thể cài đặt sử dụng nó tại:
http://search.cpan.org/dist/WordNet-Similarity/lib/WordNet/Similarity.pm
Dựa vào các thông tin cung cấp từ WordNet và các giải thuật tính toán khác nhau, nó
sẽ cho ra kêt quả tính toán độ tương đông.
Ví dụ: để tìm độ tương đồng của 2 từ “car” và “bus” bằng phương pháp tính toán
khoảng cách (path), ta hiện thực như sau:
1: use WordNet::QueryData;2: use WordNet::Similarity::path;3: my Swn = WordNet: :QueryData->new;
5: my Svalue = Smeasure->getRelatedness ("car#n#1", "bus#n#2") ;6: my (Serror, SerrorString) = Smeasure->getError();
7: die SerrorString if Serror;8: print "car (sense 1) <-> bus (sense 2) = Svalue\n";
Bén canh phuong phap tinh toan dya trén giai thuat path, WordNet::Similarity concung cap nhiều phương pháp tính toán khác nhau.
Results:
> The relatedness of car#n#1 and bus#n#1 using hso is 5.
The relatedness of car#n#1 and bus#n#1 using jcn is 0.1396.The relatedness of car#n#1 and bus#n#4 using wup is 0.96.The relatedness of car#n#1 and bus#n#4 using path is 0.5.The relatedness of car#n#1 and bus#n#1 using lin is 0.6036.The relatedness of car#n#l and bus#n#1 using lesk is 233.The relatedness of car#n#1 and bus#n#4 using res is 7.0036.The relatedness of car#n#l and bus#n#4 using Ich is 2.9957.The relatedness of car#n#5 and bus#n#1 using vector_pairs is 0.3847.
VV VV V VY VY WV The relatedness of car#n#1 and bus#n#4 using vector is 0.4522.
Thông thường ta dùng thang do path dé dễ xác định kết quả Với kết quả trả về là 1
thi 2 từ khóa match chính xác, giá tri sẽ giảm dan về 0, giá tri càng nhỏ thì môi quanhệ càng xa
Trang 282.6 Mô hình và phương pháp nghiên cứu2.6.1 Mô hình nghiên cứu:
Mô hình nghiên cứu ở đây là phần rã các thành phân đầu vào cho quá trình tìm kiếm,
dựa vào đặc điểm của từng yêu tố đầu vào sẽ dé xuất các mô hình giải thuật tìm kiếmtương ứng áp dung cho yếu t6 đó.
2.6.2 Quá trình nghiên cứu tong quát:
Dòng tri thức Quy trình Đầu ra
Xác định vấn đề Sự đề xuất
mmĐề xuất Ý tương Dự kiến thiết kể
khảo các nguôn tài liệu và tông hợp các lý thuyét đã có ve MatchMakinge Giai đoạn 2: Dé xuât ý tưởng nhăm áp dụng các giải thuật vào việc tìm kiêm.
Việc đề xuât này dựa trên việc phân rã, nghiên cứu các yêu tô đầu vào cho tìmkiêm, giải thuật được áp dụng đê thực hiện việc tìm kiêm đó.
Trang 29e Giai đoạn 3: Xây dựng một hiện thực dựa trên các nghiên cứu dé xuất ở gian
Trang 30Chương 3: PHAN TÍCH YÊU CÂUDựa vào yêu cau tìm kiếm và kết quả mong muốn trả về của nhà tuyến dụng, các
thông tin dữ liệu từ ngân hàng hồ sơ, chúng tôi sẽ phân rã các yếu tô đầu vào đểnghiên cứu dé xuất các giải thuật áp dụng cho việc tìm kiếm.
3.1 Các thành phan trong một hỗ sơ ứng viênCac ứng viên sẽ miêu tả các thông tin về mình bằng một hồ sơ ứng viên (CV), dé qua
những thông tin đó có thê tìm kiêm được những công việc phù hợp với mình.
Ta có thể chia các thông tin trên một CV thành các thành phân sau:e Thông tin cơ bản về cá nhân: họ tên, ngày sinh, giới tinh, e Trình độ học van, băng cấp và nghành nghề (Education & Major)
e Qua trình làm việc (Experience)e Kỹ năng chuyên môn (Skills & Expertise)
e Thông tin bố sung khác (người tham khảo, tính cách, sở thích )
3.1.1 Thông tin cá nhân:
Đây là những thông tin cơ bản của một các nhân: họ tên, ngày sinh, giới tính, tìnhtrạng hôn nhân, dia chỉ liên hệ
Thông thường nó là đầu ra của mộtquá trình tim kiếm (thông tin trả về) Nó cũng có
thé là đầu vào của quá trình tìm kiếm, ví dụ một công việc chỉ tìm kiếm ứng viên lànữ chăng han, nhưng rat ít.
Việc tim kiếm dựa trên nhưng thông tin cá nhân thường ít được các nhà tuyển dụng
chú ý đên.
Những thong tin này là những thong tin có định nên ta cũng dé dàng tìm kiếm bình
thường trên cơ sở dữ liệu băng những câu lệnh thông thường
e Ví dụ, tìm kiếm ứng viên là nữ:
SELECT * FROM cv WHERE cv.gender = ƒemale”;e Hoac sinh năm 80 ~ 85
SELECT * FROM cv WHERE cv.dob > '1980' AND cv.dob < '1985';
e Hoặc hiện cư trú tại TP Hỗ Chí Minh và Bình Dương
SELECT * FROM cv WHERE cv.county IN (HCM, Binh Duong );
Nói chung, nếu có thực hiện tìm kiếm trên những thông tin này thì việc tìm kiếm đó
cũng đơn giản.
Trang 31Thông Tin Cá Nhân
Ho Tên | Trương Thanh Hail
I] Ấn thông tin này với nhà tuyển dung
Ngày sinh ' 10/09/1982 _.
(dd/mm/yyyy)
Giới tính | Nam |Tình Trạng Hôn Nhân | 53 kết hôn [~]
Quốc Tịch | Người Việt Nam |Địa chi | 26/7/7 đường số 20, Phường 05
I] Ấn thông tin này với nhà tuyển dụng
Quốc Gia | việt Nam SI
Tinh/Thanh Phổ ' Hồ Chi Minh lv
Quận/Huyện | cò vấp |Số Điện Thoại | 9919184444
Ấn thông tin này với nhà tuyển dụng
Địa chi email truongthanhhai@live.com
Hình 3.1.1: Thong tin cá nhân
3.1.2 Trinh d6 hoc van va nganh nghé (Education & Major):
School *Ho Chi Minh City Polytechnic University Change SchoolDates Attended
2000 y| — 2005 'x| Or expected graduation year
DegreeBEField of Study
Computer Science
Hình 3.1.2: Trinh độ học vanTrình độ hoc vấn có thé xem như một yếu tố tinh, dĩ nhiên là nhưng thông tin ghi trên
bang cap chung ta là cô định Tuy nhiên khi tìm kiêm thì đây không phải là yêu tô cô
Trang 32Nếu một CV A miêu tả có băng kỹ sư (B E) trong lĩnh vực Khoa học máy tính(Computer Science) và một CV B miêu tả vê học vân là cử nhân (Bachelor) tronglĩnh vực Công nghệ thông tin (Information Technology) thì 2 hồ sơ này được xemnhư tương đương nhau về hoc van trong tìm kiếm.
Chúng ta có thé chuẩn hóa băng cấp chuyên môn bang một danh sách lựa chọn cụ thénhưng không thể ràng buộc về lĩnh vực chuyên ngành Do đó một giải thuật tìm kiếm
gan đúng về ngữ nghĩa phải được áp dụng vào tìm kiếm lĩnh vực chuyên ngành (Fieldof Study or Major).
3.1.3 Kỹ năng chuyên mon (Skills & Expertis)Ky nang chuyên môn bao gồm 2 thành phan: kỹ năng hay tên gọi của kỹ năng vamức độ am hiểu về kỹ năng đó.
Các trang tuyển dung gan đây cố gang “chuẩn hóa” các kỹ năng thành các keyword
cụ thê và lưu trữ nó phục vụ cho tìm kiêm Họ cũng đưa ra các giải pháp nghiệp vụkhác nhăm cô gang đo lường được mức độ am hiệu về kỹ năng đó của ứng viên.
R Skills & Expertise
Most endorsed for
Apache š: | lauJavaScript RarPHP ° | geRuby slaPython aeRuby on Rails so aa
PostgreSQL is
CSSHai also Knows about
Gi Linux eal SQL ee) MVC ei Subversion | | Eclipse gi XML
Hình 4.1.2: Cách thức ghi nhận kỹ năng chuyên môn cua trang LinkedIn
Sau khi chuẩn hóa các kỹ năng chuyên môn thành các keywork cụ thể thì ta có thể dễ
dang truy van tìm kiêm.
Tuy nhiên một bài toán thực tế đặt ra khi một ứng viên miều tả rằng anh ta biết PHP
thì liệu kỹ năng đó có phù hợp với một công việc đòi hỏi biệt Joomla, khi Joomlathực chât là một nhánh của PHP Hoặc khi cân tìm Drupal, trong khi ứng viên khai
Trang 33báo PHP - là một tập cha cua Drupal Hoặc rộng hơn, ca Joomla và Drupal cũng đượcxem xét vì chúng déu là tập con của PHP, có môi tương đông với nhau.
Vấn để đòi hỏi ở đây không phải chúng ta chỉ tìm kiếm chính xác theo keyword màcòn phải tính toán tìm kiếm các kết quả có mối quan hệ tương đối.
3.1.4 Quá trình làm việc (History)
Quá trình làm việc bao gồm thông tin về các công ty hoặc tổ chức mà cá nhân đó
từng làm việc, tương ứng với nó là vi trí và công việc.
Thông thường đây là những thông tin mà người phỏng vấn sẽ xem xét và dựa vào đó
đề hỏi và biệt thêm vê ứng viên.
Việc sự dụng các thông tin về quá trình làm việc vào tìm kiếm hiện còn “mơ hồ” và
rat phức tạp Ví dụ nhà tuyên dụng cân tìm ứng viên có 5 năm kinh nghiệm về lĩnhvực nao đó, họ phải dựa vào quá trình làm việc; nhưng dé áp dụng một giải thuậtphân tách và tìm kiêm được thông tin này hiện rât phức tạp và không chính xác.
3.1.5 Tổng kết yêu cầu tìm kiếm từ các yếu tố của một CV
Nhóm thành phần Yêu cầu tìm kiếmThông tin cơ bản Tìm kiếm chính xácThông tin học vấn (chuyên Tìm kiếm tương đương ngữ nghĩa
ngành), chức danh (title)
Thông tin quá trình làm việc Chưa định nghĩa
Thông tin kỹ năng Tìm kiếm gan đúng độ phù hợpBảng 4.1.5: Yêu cầu tìm kiếm theo các thành phan
3.2 Các yêu cầu cho một tuyến dụng thông thường (Job Description)Một miêu tả các đặc điểm của công việc được hình thành trong quá trình tuyển dụng,
có thê được trình bày băng nhiêu cách khác nhau nhưng về cơ bản sẽ gôm các thànhphan chính sau:
e Miêu tả so lược về công việce Các đòi hỏi vê hoc van, lĩnh vực, trình độ hay cap bậce Các yêu câu vê kỹ năng chuyên môn dap ứng cho công việc
Trang 34e Các qui ước về điêu kiện làm việc: công việc, hợp đông, nơi làm việc,
Việc miêu tả rõ ràng và súc tích sẽ giúp ' “chuẩn hóa” tốt hơn các yếu tố đầu vào choquá trình tìm kiếm và giúp việc tìm kiếm tốt hơn Các trang tuyển dụng trực tuyến
hiện tại luôn có gắng chuẩn hóa tối đa các yếu tô tuy nhiên không phải yếu tố nàocũng có thé chuẩn hóa được hết.
Dưới day là một miêu tả các yêu câu cho tuyên dụng một Senior Software Engineer:* BS or MS in Computer Science or related engineering degree with equivalent workexperience (degrees from top universities a plus)
* 5-10 years of experience in software design, development and algorithm relatedsolutions
* Experience with data heavy algorithms and projects a plus* Strong Skills in Java programming, Java design patterns and server side java is aplus
* Strong experience with object-oriented analysis, design and programming(C/C++)
* Solid experience with relational databases and schema design* Experience with high volume and highly scalable application a plus* Skills in scripting languages (e.g., Perl, shell scripting, etc)
* Knowledge of web services and XML technologies a plus* Must be an independent, self-motivated team player that is meticulous andmethodical in creating solutions
Đây là một miêu tả không được rõ rang, tuy nhiên rất nhiều miêu tả tương tự như vayxuất hiện trên các trang tuyển dụng (job board) Một miêu tả như thé sẽ rất khó choviệc xử lý vì nó không rõ ràng và chỉ có thể là con người mới xử lý và đọc được Nócần phải được “chuẩn hóa” bởi các keyworks phục vụ cho tìm kiếm
Importance Preference Value
100 Education Bachelors, Masters
100 Field of Education Computer Science
100 Experience (in Years) 5 to 10
50 Java Expertise 3~5100 Perl Expertise 5