thức
2.1 Đặt vấn đề
Dựa trên những phân tích về các hệ thống khuyến nghị truyền thống mà nhóm nghiên cứu đã tìm hiểu ở chương trước, độc giả có thể phân biệt được những đặc trưng riêng, hiểu rõ quy trình hoạt động, các ưu và nhược điểm cũng như là những ứng dụng thực tế của từng hệ thống khuyến nghị trên. Cụ thể, đối với hê L thống lọc cộng tác, những đánh giá của người dùng về các sản phẩm sẽ được hệ thống sử dụng để đưa ra các gợi ý phù hợp với sở thích của người dùng. Còn với hê L thống lọc dựa trên nội dung, ta phân tích những thuộc tính của các đối tượng sản phẩm với mục đích đưa ra các đề xuất phù hợp. Trong khi đó, hê L thống lọc dựa trên tri thức lại khai thác cơ sở tri thức của các đối tượng cần lọc. Mỗi hê“ thống trên đềuL có những thế mạnh và hạn chế nhất định, do vậy để phát huy điểm mạnh và khắc phục những điểm yếu của từng hê L thống khuyến nghị riêng lŽ, các hê L thống lọc kết hợp được đưa ra nhằm cải thiện hiệu quả trong việc đề xuất sản phẩm phù hợp cho người dùng. Thực tế, các hệ thống khuyến nghị kết hợp giữa lọc cộng tác và lọc theo nội dung hay hệ thống khuyến nghị kết hợp giữa lọc cộng tác với lọc dựa trên tri thức đã được nhắc đến nhiều trong các bài nghiên cứu cũng như được áp dụng thành công vào thực tiyn. Các kết quả so sánh đã chỉ ra rằng các hệ thống khuyến nghị kết hợp đưa ra những đề xuất hiệu quả hơn so với các hệ thống khuyến nghị riêng lŽ. Điều này đã chứng minh được độ phổ biến và tính hiệu quả của các hệ thống khuyến nghị kết hợp trong thực tế. Bài nghiên cứu này sẽ tập trung tìm hiểu về hệ thống khuyến nghị mới kết hợp hê L thống lọc dựa trên nội dung và lọc dựa trên tri thức.”
2.2 Các vấn đề được giải quyết trong hệ thống khuyến nghị kết hợp
Viê Lc kết hợp giữa hai hê L thống lọc dựa trên nô Li dung và lọc dựa trên tri thức giúp khắc phục những hạn chế còn tồn đọng đồng thời phát huy những ưu điểm của mỗi hê L thống. Thứ nhất, đối với hê L thống khuyến nghị dựa trên nô Li dung, điểm yếu lớn nhất của hê L thống này đó là việc sử dụng những dữ liê Lu trong quá khứ để đưa ra
các khuyến nghị. Nhược điểm này cũng chính là nguyên nhân gây ra vấn đề khởi đô Lng nguô Li (cold start) cũng như hạn chế sự đa dạng, mới lạ của các khuyến nghị được đề xuất. Cụ thể, khởi động nguội là tình trạng hê L thống không đưa ra được các đề xuất nào do không có đầy đủ thông tin và nó xảy ra đối với người dùng mới bởi vì họ không có những truy câ Lp, đánh giá trong quá khứ để hê L thống có thể phân tích và đưa ra khuyến nghị phù hợp. Ngoài ra, viê Lc sử dụng các dữ liê Lu lịch sử của người dùng khiến cho các sản phẩm được đề xuất khá tương đồng nhau và đôi khi bị lă Lp lại với những gì mà người dùng đã truy câ Lp, đánh giá trong quá khứ. Viê Lc này sẽ làm mất đi tính mới mŽ của các đề xuất làm cho người dùng không còn hứng thú và cảm thấy nhàm chán khi phải xem đi xem lại những sản phẩm tương đồng như vâ Ly.“Tuy nhiên, tất cả những vấn đề trên sẽ được giải quyết hoàn toàn với hê L thống khuyến nghị kết hợp giữa lọc theo nô Li dung và lọc dựa trên tri thức, hệ thống khuyến nghị dựa trên tri thức chỉ sử dụng cơ sở tri thức của các đối tượng cần lọc chứ không quan tâm đến các dữ liê Lu lịch sử của người dùng. Với sự kết hợp này, các đề xuất của hê L thống kết hợp sẽ phong phú hơn và mang tính hiệu quả cao hơn so với các hê L thống riêng lŽ. Bên cạnh đó, hê L thống này còn có khả năng thích nghi với những thay đổi trong sở thích của người dùng bởi hê L thống thường xuyên cập nhật tri thức mới từ đó đưa ra những đề xuất phù hợp với sở thích hiê Ln tại của người dùng. Thứ hai, đối với hê L thống khuyến nghị dựa trên tri thức, việc hạn chế trong việc thu thâ Lp cơ sở tri thức sẽ được hệ thống lọc dựa trên nội dung hỗ trợ một phần bởi hê L thống khuyến nghị dựa trên nô Li dung thông qua viê Lc sử dụng những kỹ thuâ Lt khác nhau để tạo cơ sở tri thức ban đầu cho các đối tượng. Tuy nhiên, để viê Lc đưa ra các đề xuất phù hợp và hiê Lu quả hơn, hê L thống khuyến nghị dựa trên tri thức sẽ phải hoạt đô Lng để làm phong phú hơn cho các cơ sở tri thức của các đối tượng.”
2.3 Tổng quan quy trình đề xuất trong hệ thống khuyến nghị kết hợp
Hệ thống khuyến nghị kết hợp giữa hệ thống lọc dựa trên nội dung và lọc dựa trên tri thức sẽ là một đề xuất mang tính khả thi bởi hệ thống kết hợp không chỉ giải quyết các vấn đề đặc trưng của từng hệ thống riêng lŽ mà nó còn làm nổi bật sự kết hợp giữa hai phương pháp nhằm hỗ trợ lẫn nhau phát huy các thế mạnh vốn có. Quy trình đề xuất của hệ thống khuyến nghị kết hợp sẽ bao gồm 2 giai đoạn đề xuất
chính. Giai đoạn 1, hệ thống khuyến nghị dựa trên nội dung sử dụng các kỹ thuật trích xuất đặc trưng, xây dựng hồ sơ sản phẩm, xây dựng hồ sơ người dùng và bằng cách tính độ tương tự giữa 2 hồ sơ này, từ đó đưa ra những đề xuất ban đầu cho người dùng. Hệ thống khuyến nghị kết hợp vẫn mang đặc trưng của hệ thống khuyến nghị dựa trên nội dung nên sẽ có trường hợp những đề xuất đưa ra không có tính mới, không phù hợp hoặc không làm thỏa mãn nhu cầu của người dùng thì hệ thống khuyến nghị dựa trên tri thức sẽ lập tức hỗ trợ và khắc phục tình trạng này. Giai đoạn 2, hệ thống khuyến nghị dựa trên tri thức lúc này đã có vốn cơ sở tri thức ban đầu từ giai đoạn 1. Với vốn tri thức sẵn có và luôn được cập nhật, hệ thống sẽ dựa trên những đặc tính mà người dùng yêu cầu để đưa ra những đề xuất mới mŽ, phù hợp hơn và có tính đa dạng cao hơn. Tuy nhiên, không hệ thống nào là hoàn hảo cả và hệ thống khuyến nghị kết hợp cũng vậy. Nó vẫn còn đó hạn chế về khả năng thu thập nguồn tri thức, để có thể đưa ra được những đề xuất phù hợp và hiệu quả thì những đặc tính và miền tri thức được tiếp nhận cũng phải mang tính chính xác cao.
Trong“thời đại công nghê L thông tin kỹ thuâ Lt số phát triển như hiê Ln nay, một khối lượng lớn dữ liệu và thông tin được cập nhật liên tục do đó con người hầu như không thể nắm bắt được hết các thông tin để tạo cơ sở cho việc đưa ra các quyết định. Vì thế, nhu cầu sử dụng các hê L thống khuyến nghị đưa ra các đề xuất ngày càng cao trong hầu hết các lĩnh vực. Nó được ứng dụng trong nhiều lĩnh vực như: kinh doanh, dịch vụ giải trí, du lịch và đặc biệt trong lĩnh vực tìm kiếm viê Lc làm. Hệ thống khuyến nghị kết hợp giữa hệ thống lọc dựa trên nội dung và lọc dựa trên tri thức sẽ chứng minh được sự hữu ích trong viê Lc hỗ trợ những người tìm viê Lc tìm được công viê Lc phù hợp đồng thời giúp các nhà tuyển dụng có được những nhân viên chất lượng. Và cụ thể, hê L thống khuyến nghị viê Lc làm thông minh này có kiến trúc như thế nào và được ứng dụng ra sau, nhóm nghiên cữu sẽ khai thác cụ thể hơn ở phần tiếp theo.”
Quá trình chuyển đổi đòi hỏi việc tận dụng công nghệ kỹ thuật số để tạo ra hoặc sửa đổi các loại trải nghiệm khác nhau nhằm giải quyết các nhu cầu ngày càng tăng trong xã hội, đặc biệt là vấn đề tìm kiếm việc làm của cử nhân. Trong phần này, sẽ trình bày về một kiến trúc đề xuất về một giải pháp khả thi để giải quyết vấn đề tìm kiếm công việc ở LATAM.
Kiến trúc đề xuất này nhắm đến việc xây dựng một thương hiệu cá nhân dựa trên năng lực và sở thích của sinh viên để lựa chọn được một công việc phù hợp. Để đạt được điều này thì các năng lực mà sinh viên có được từ chương trình học cử nhân được sử dụng để dựng nên thương hiệu cá nhân. Để chắc chắn rằng thương hiệu cá nhân chứa các năng lực phù hợp thì đòi hỏi giai đoạn trích xuất năng lực phải dựa trên bộ kiến thức cốt lõi đối với mỗi ngành nghề khác nhau của từng người dùng.
Việc xây dựng hồ sơ cá nhân dựa trên thương hiệu cá nhân sẽ giúp giải quyết vấn đề khởi động nguội của hệ thống khuyến nghị dựa trên nội dung. Sau khi có được hồ sơ người dùng thì thông qua hệ thống khuyến nghị thông minh kết hợp giữa hệ thống khuyến nghị dựa trên nội dung và hệ thống khuyến nghị dựa trên tri thức sẽ cho ra một sách danh các công việc phù hợp được đề xuất đến người dùng.
Các yếu tố chính của kiến trúc đề xuất này là xây dựng năng lực, xây dựng thương hiệu cá nhân và một hệ thống khuyến nghị việc làm thông minh. Các giai đoạn này sẽ được lần lượt trình bày cụ thể dưới đây.
3.1 Competency Construction (Xây dựng năng lực)3.1.1 Định nghĩa 3.1.1 Định nghĩa
Định nghĩa về Năng lực (Competency) đã được nghiên cứu, áp dụng trong quản lý nhân sự ở cả lĩnh vực công và tư tại nhiều quốc gia. Theo Cục quản lý nhân sự (Office of Personnel Management) của Mỹ, Năng lực được hiểu là là đặc tính có thể đo lường được của kiến thức, kỹ năng, thái độ, các phẩm chất cần thiết để có thể đáp ứng được công việc và là yếu tố giúp một cá nhân làm việc hiệu quả hơn so với những người khác. Cụ thể:
Kiến thức (Knowledge): Mô tả những thông tin, sự kiện, quy luật
thuộc lĩnh vực được học và nghiên cứu từ trường lớp hoặc được tích lũy từ thực tế, từ các nguồn tư liệu hoặc từ các chuyên gia có kinh nghiệm. Chúng thường là trình độ học vấn, kiến thức nghề nghiệp, chuyên môn, khả năng phân tích, đánh giá, trình độ ngoại ngữ của ứng viên. Những kiến thức này phần lớn đều có thể đánh giá và định lượng thông qua bằng cấp, chứng chỉ…
Ví dụ về kiến thức liên quan đến năng lực nghề nghiệp của một sinh viên mới ra trường ngành Hệ thống thông tin quản lý: Tốt nghiệp bằng giỏi chuyên ngành Hệ thống thông tin kinh doanh thuộc trường Đại học Kinh tế Thành phố Hồ Chí Minh, có chứng chỉ IELTS 6.5, có kiến thức nghề nghiệp về phân tích nghiệp vụ kinh doanh,..
Kỹ năng (Skill): Mô tả những năng lực hay khả năng chuyên biệt
của một cá nhân về một hoặc nhiều khía cạnh nào đó được sử dụng để giải quyết tình huống hay công việc phát sinh trong thực tế. Thông thường ứng viên sẽ được đòi hỏi về các kỹ năng nghề nghiệp quan trọng như kỹ năng giao tiếp chuyên nghiệp, kỹ năng quản lý, kỹ năng hiểu tâm lý khách hàng… Tùy thuộc vào từng vị trí mà yêu cầu về mức độ và kỹ năng nghề nghiệp sẽ không giống nhau.
Thái độ (Attitude): Mô tả cách nhìn nhận về công việc, về nhiệm
vụ, về đồng nghiệp và về cộng đồng. Thái độ chi phối cách ứng xử, hành vi và tinh thần trách nhiệm của đội ngũ nhân sự.
3.1.2 Xây dựng năng lực
a. Khái quát về xây dựng năng lực:
Trong hệ thống, các năng lực được trình bày trong các đề nghị việc làm (job offers) và các năng lực được người dùng sử dụng trong quá trình tạo hồ sơ cho hệ thống khuyến nghị với mục đích có thể lựa chọn các đề nghị việc làm phù hợp. Từ đó, việc xây dựng năng lực được sử dụng để trích xuất danh sách các năng lực này. Thông qua quá trình trích xuất các năng lực, hệ thống có thể thu thập bộ kiến thức cốt lõi cho các ngành nghề (body of knowledge) cùng với một mục các năng lực cá nhân (list competencies) nhằm phục vụ cho việc xây dựng thương hiệu cá nhân (personal brand), và từ đó hệ thống khuyến nghị có thể lựa chọn công việc phù hợp với người dùng.
Một trong những giai đoạn chính của việc xây dựng năng lực là lựa chọn khối kiến thức, thông tin phù hợp để trích xuất ra những năng lực chính xác và để hướng đến mục đích kết nối một cách tương thích nhất giữa những năng lực của sinh viên mới tốt nghiệp và những đề nghị việc làm phù hợp. Khối kiến thức được sử dụng cho mục đích này sẽ được tạo thành bởi bản mô tả năng lực và kết quả của sinh viên, những động từ Bloom, các tên khóa học, các quảng cáo việc làm và các kỹ năng tương lai mà nhà tuyển dụng đang tìm kiếm.
b. Những thuật ngữ liên quan: N-gram:
N-gram là một chuỗi n mục liền nhau từ một mẫu văn bản hoặc bài phát biểu nhất định. Các mục có thể là âm vị, chữ cái, từ hoặc các cặp cơ sở tùy theo ứng dụng. Các n-gram thường được thu thập từ một văn bản hoặc ngữ liệu lời nói.
Trong xử lý ngôn ngữ tự nhiên, điều quan trọng không chỉ là hiểu từ ngữ mà còn cả ngữ cảnh. N-gram là một trong những cách giúp hiểu ngôn ngữ theo ngữ cảnh để máy móc, hệ thống hiểu rõ hơn ý nghĩa của các từ được viết hoặc nói.
Để cụ thể hơn, lấy ví dụ với hai câu “Tôi cần đặt vé đến Úc” và “Tôi muốn đọc một cuốn sách của Shakespeare.” Ở đây từ “sách” hoàn toàn có những nghĩa khác nhau. Trong câu đầu tiên, nó được sử dụng như một động từ, là hành động trong khi ở câu thứ hai, nó đóng vai trò là một danh từ, một đối tượng.
Hình 3.2 Minh họa về sự khác nhau cNa tY trong các ngữ cảnh
Để hệ thống có thể hiểu được và phân biệt ngữ cảnh của một từ là gì thì chính là nhờ thông qua n-gram. N-gram xác định số lượng từ mà người ta cần nhìn để xem ngữ cảnh. Máy móc hay hệ thống học điều này bằng cách xem các từ trước và sau từ cần được xác định để biết về ngữ cảnh của nó. Dưới đây là một số mô hình n-gram nổi tiếng:
Một mô hình chỉ đơn giản dựa vào tần suất xuất hiện của một từ mà không cần xem các từ trước hay sau đó được gọi là unigram (1- gram).
Bigram (2-gram): tách câu thành từng cặp từ ghép 2 tiếng để xem ngữ cảnh và chỉ xem xét từ trước đó để dự đoán từ cần xác định.
Hình 3.3 Minh họa bigram
Trong trường hợp này, sử dụng bi-gram giúp hệ thống xác định được “to read” đang đóng vai trò là một động từ diyn tả hành động đọc và sau đó là “a book” thì trong câu này “book” đang được sử dụng với ý là một cuốn sách.
Trigram (3-gram): là tách một cách thành từng nhóm một gồm 3 tiếng để đánh giá ngữ cảnh.
Hình 3.4 Minh họa trigram
Danh sách các động tk Bloom (Bloom verbs list):
Danh sách những động từ Bloom nằm trong một công cụ nền tảng để phân loại các mục tiêu và kỹ năng khác nhau dành cho học sinh, sinh viên trong quá trình giáo dục - thang đo Bloom. Thang đo này được đề xuất vào năm 1956 bởi Benjamin Bloom, một nhà tâm lý học giáo dục tại Đại học Chicago (University of Chicago). Gần đây, thuật ngữ này đã được cập nhật để bao gồm 6 cấp độ học tập như dưới
đây. Sáu cấp độ được ứng dụng để tạo cấu trúc cho mục tiêu học tập và đánh giá các