CHƯƠNG 2 : NỘI DUNG
3. Kiến trúc đề xuất của hệ thống khuyến nghị việc làm thông minh
3.1 Competency Construction (Xây dựng năng lực)
Định nghĩa về Năng lực (Competency) đã được nghiên cứu, áp dụng trong quản lý nhân sự ở cả lĩnh vực công và tư tại nhiều quốc gia. Theo Cục quản lý nhân sự (Office of Personnel Management) của Mỹ, Năng lực được hiểu là là đặc tính có thể đo lường được của kiến thức, kỹ năng, thái độ, các phẩm chất cần thiết để có thể đáp ứng được công việc và là yếu tố giúp một cá nhân làm việc hiệu quả hơn so với những người khác. Cụ thể:
• Kiến thức (Knowledge): Mơ tả những thông tin, sự kiện, quy luật thuộc lĩnh vực được học và nghiên cứu từ trường lớp hoặc được tích lũy từ thực tế, từ các nguồn tư liệu hoặc từ các chuyên gia có kinh nghiệm. Chúng thường là trình độ học vấn, kiến thức nghề nghiệp, chuyên mơn, khả năng phân tích, đánh giá, trình độ ngoại ngữ của ứng viên. Những kiến thức này phần lớn đều có thể đánh giá và định lượng thơng qua bằng cấp, chứng chỉ…
• Ví dụ về kiến thức liên quan đến năng lực nghề nghiệp của một sinh
viên mới ra trường ngành Hệ thống thông tin quản lý: Tốt nghiệp bằng giỏi chuyên ngành Hệ thống thông tin kinh doanh thuộc trường Đại học Kinh tế Thành phố Hồ Chí Minh, có chứng chỉ IELTS 6.5, có kiến thức nghề nghiệp về phân tích nghiệp vụ kinh doanh,..
• Kỹ năng (Skill): Mô tả những năng lực hay khả năng chuyên biệt của một cá nhân về một hoặc nhiều khía cạnh nào đó được sử dụng để giải quyết tình huống hay cơng việc phát sinh trong thực tế. Thơng thường ứng viên sẽ được địi hỏi về các kỹ năng nghề nghiệp quan trọng như kỹ năng giao tiếp chuyên nghiệp, kỹ năng quản lý, kỹ năng hiểu tâm lý khách hàng…
Tùy thuộc vàotừng vị trí mà yêu cầu về mức độ và kỹ năng nghề nghiệp sẽ
khơng giống nhau.
• Thái độ (Attitude): Mơ tả cách nhìn nhận về cơng việc, về nhiệm vụ, về đồng nghiệp và về cộng đồng. Thái độ chi phối cách ứng xử, hành vi và tinh thần trách nhiệm của đội ngũ nhân sự.
3.1.2 Xây dựng năng lực
Trong hệ thống, các năng lực được trình bày trong các đề nghị việc làm (job offers) và các năng lực được người dùng sử dụng trong quá trình tạo hồ sơ cho hệ thống khuyến nghị với mục đích có thể lựa chọn các đề nghị việc làm phù hợp. Từ đó, việc xây dựng năng lực được sử dụng để trích xuất danh sách các năng lực này. Thơng qua q trình trích xuất các năng lực, hệ thống có thể thu thập bộ kiến thức
cốt lõi cho các ngành nghề (body of knowledge) cùng với một mục các năng lực cá
nhân (list competencies) nhằm phục vụ cho việc xây dựng thương hiệu cá nhân (personal brand), và từ đó hệ thống khuyến nghị có thể lựa chọn cơng việc phù hợp với người dùng.
Một trong những giai đoạn chính của việc xây dựng năng lực là lựa chọn khối kiến thức, thơng tin phù hợp để trích xuất ra những năng lực chính xác và để hướng đến mục đích kết nối một cách tương thích nhất giữa những năng lực của sinh viên mới tốt nghiệp và những đề nghị việc làm phù hợp. Khối kiến thức được sử dụng cho mục đích này sẽ được tạo thành bởi bản mơ tả năng lực và kết quả của sinh viên, những động từ Bloom, các tên khóa học, các quảng cáo việc làm và các kỹ năng tương lai mà nhà tuyển dụng đang tìm kiếm.
b. Những thuật ngữ liên quan: N-gram:
N-gram là một chuỗi n mục liền nhau từ một mẫu văn bản hoặc bài phát biểu nhất định. Các mục có thể là âm vị, chữ cái, từ hoặc các cặp cơ sở tùy theo ứng dụng. Các n-gram thường được thu thập từ một văn bản hoặc ngữ liệu lời nói.
Trong xử lý ngơn ngữ tự nhiên, điều quan trọng không chỉ là hiểu từ ngữ mà
còn cả ngữ cảnh. N-gram là một trong những cách giúp hiểu ngôn ngữ theo ngữ cảnh
để máy móc, hệ thống hiểu rõ hơn ý nghĩa của các từ được viết hoặc nói.
Để cụ thể hơn, lấy ví dụ với hai câu “Tơi cần đặt vé đến Úc” và “Tôi muốn đọc một cuốn sách của Shakespeare.” Ở đây từ “sách” hồn tồn có những nghĩa khác nhau. Trong câu đầu tiên, nó được sử dụng như một động từ, là hành động trong khi ở câu thứ hai, nó đóng vai trị là một danh từ, một đối tượng.
Hình 3.2 Minh họa về sự khác nhau của từ trong các ngữ cảnh
Để hệ thống có thể hiểu được và phân biệt ngữ cảnh của một từ là gì thì chính là nhờ thơng qua n-gram. N-gram xác định số lượng từ mà người ta cần nhìn để xem ngữ cảnh. Máy móc hay hệ thống học điều này bằng cách xem các từ trước và sau từ cần được xác định để biết về ngữ cảnh của nó. Dưới đây là một số mơ hình n-gram nổi tiếng:
• Một mơ hình chỉ đơn giản dựa vào tần suất xuất hiện của một từ mà
khơng cần xem các từ trước hay sau đó được gọi là unigram (1-gram).
• Bigram (2-gram): tách câu thành từng cặp từ ghép 2 tiếng để xem ngữ cảnh và chỉ xem xét từ trước đó để dự đốn từ cần xác định.
Hình 3.3 Minh họa bigram
Trong trường hợp này, sử dụng bi-gram giúp hệ thống xác định được “to read” đang đóng vai trị là một động từ diễn tả hành động đọc và sau đó là “a book” thì trong câu này “book” đang được sử dụng với ý là một cuốn sách.
• Trigram (3-gram): là tách một cách thành từng nhóm một gồm 3 tiếng
để đánh giá ngữ cảnh.
Hình 3.4 Minh họa trigram
Danh sách các động từ Bloom (Bloom verbs list):
Danh sách những động từ Bloom nằm trong một công cụ nền tảng để phân loại các mục tiêu và kỹ năng khác nhau dành cho học sinh, sinh viên trong quá trình giáo dục - thang đo Bloom. Thang đo này được đề xuất vào năm 1956 bởi Benjamin Bloom, một nhà tâm lý học giáo dục tại Đại học Chicago (University of Chicago). Gần đây, thuật ngữ này đã được cập nhật để bao gồm 6 cấp độ học tập như dưới đây.
Sáu cấp độ được ứng dụng để tạo cấu trúc cho mục tiêu học tập và đánh giá các khóa học hay cụ thể hơn là những kỹ năng cụ thể người học đạt được sau khóa học.
Hình 3.5 Thang đo bloom
c. Cách xây dựng năng lực:
Nhiều năng lực / khả năng cá nhân của các sinh viên mới tốt nghiệp là từ ghép, trong việc xử lý ngơn ngữ tự nhiên thì được xác định là n-grams hay cụ thể hơn là bigram như đã được giải thích ở phần trên. Một số ví dụ cụ thể là: “critical thinking” (tư duy phản biện), “problem solving” (giải quyết vấn đề), “data mining” (khai thác dữ liệu), v.v.
Để xác định được n-grams thì danh sách các động từ Bloom được sử dụng và
trong trường hợp này thì những động từ Bloom được sử dụng thường xuyên trong mơ tả năng lực. Ví dụ, thuật ngữ “design software” (thiết kế phần mềm) có từ đầu tiên “design” (thiết kế) là một động từ Bloom. Thuật ngữ này vừa nằm trong thành tích học tập của sinh viên khoa học máy tính, trong phần mơ tả năng lực, trong một khóa học lập trình và trong các quảng cáo việc làm liên quan đến khoa học máy tính. Như đã đề cập, động từ Bloom là một phương thức tự nhiên để tìm ra năng lực. Nếu phần
mô tả năng lực hoặc kết quả của sinh viên bắt đầu bằng động từ Bloom, thì động từ này được tính như là 1 phần của n-gram. Ngồi ra, danh sách các khố học cũng được lựa chọn như là một năng lực, như trong hình 3.6 dưới đây.
Hình 3.6 Sự phù hợp giữa năng lực và quảng cáo việc làm
Như được mô tả trong giai đoạn hệ thống đề xuất (trong mục 2.3.2), việc trích xuất các từ khóa u cầu các bước xử lý ngôn ngữ tự nhiên. Trong phương pháp đề xuất, việc chuẩn hóa, loại bỏ dấu chấm câu, mã hóa và stemming (kỹ thuật dùng để biến đổi 1 từ về dạng gốc) được sử dụng.
Như đã được diễn tả, phương pháp luận cho việc xây dựng n-gram là dựa trên
những động từ Bloom và từ đó danh sách những “ứng viên” bigram và trigram sẽ
được thu thập. Ngoài ra, trigram và bigram cũng có thể được lọc ra từ khố học như “computer networking”. Trong giai đoạn lọc n-gram, những ứng viên “n-gram” sẽ được chọn ra thông qua việc dùng “threshold” (“threshold” trong ngôn ngữ tự nhiên giúp xác định mức độ mà thông tin người dùng được hiểu). Cuối cùng, danh sách n- grams sẽ được tìm kiếm trong các đề nghị việc làm và sau đó hệ thống sẽ thu được
danh sách cuối cùng. Giai đoạn loại bỏ “stop word” sẽ được diễn ra một khi đã n-
grams đã được loại bỏ (“stop words” xuất hiện nhiều trong ngôn ngữ tự nhiên, tuy nhiên lại không mang nhiều ý nghĩa; ví dụ trong tiếng Việt “stop words” là những từ như: để, này, kia, v.v. còn tiếng Anh là những từ như: is, that, this), và sau cùng một
danh sách những năng lực với các thuật ngữ thường hay sử dụng. Phương pháp luận sẽ được đưa ra cụ thể hơn ở Hình 3.7 dưới đây.
Hình 3.7 Phương pháp luận để xây dựng năng lực