CHƯƠNG 2 : NỘI DUNG
2. Hệ thống khuyến nghị kết hợp giữa lọc dựa trên nội dung và lọc dựa trên tri thức
thức
2.1 Đặt vấn đề
Dựa trên những phân tích về các hệ thống khuyến nghị truyền thống mà nhóm nghiên cứu đã tìm hiểu ở chương trước, độc giả có thể phân biệt được những đặc trưng riêng, hiểu rõ quy trình hoạt động, các ưu và nhược điểm cũng như là những ứng dụng thực tế của từng hệ thống khuyến nghị trên. Cụ thể, đối với hệ thống lọc cộng tác, những đánh giá của người dùng về các sản phẩm sẽ được hệ thống sử dụng
để đưa ra các gợi ý phù hợp với sở thích của người dùng. Cịn với hệ thống lọc dựa
trên nội dung, ta phân tích những thuộc tính của các đối tượng sản phẩm với mục đích đưa ra các đề xuất phù hợp. Trong khi đó, hệ thống lọc dựa trên tri thức lại khai thác cơ sở tri thức của các đối tượng cần lọc.“Mỗi hệ thống trên đều có những thế mạnh và hạn chế nhất định, do vậy để phát huy điểm mạnh và khắc phục những điểm yếu của từng hệ thống khuyến nghị riêng lẻ, các hệ thống lọc kết hợp được đưa ra nhằm cải thiện hiệu quả trong việc đề xuất sản phẩm phù hợp cho người dùng. Thực tế, các hệ thống khuyến nghị kết hợp giữa lọc cộng tác và lọc theo nội dung hay hệ thống khuyến nghị kết hợp giữa lọc cộng tác với lọc dựa trên tri thức đã được nhắc đến nhiều trong các bài nghiên cứu cũng như được áp dụng thành công vào thực tiễn. Các kết quả so sánh đã chỉ ra rằng các hệ thống khuyến nghị kết hợp đưa ra những đề xuất hiệu quả hơn so với các hệ thống khuyến nghị riêng lẻ. Điều này đã chứng minh được độ phổ biến và tính hiệu quả của các hệ thống khuyến nghị kết hợp trong thực tế. Bài nghiên cứu này sẽ tập trung tìm hiểu về hệ thống khuyến nghị mới kết hợp hệ thống lọc dựa trên nội dung và lọc dựa trên tri thức.”
2.2 Các vấn đề được giải quyết trong hệ thống khuyến nghị kết hợp
Việc kết hợp giữa hai hệ thống lọc dựa trên nội dung và lọc dựa trên tri thức giúp khắc phục những hạn chế còn tồn đọng đồng thời phát huy những ưu điểm của mỗi hệ thống. Thứ nhất, đối với hệ thống khuyến nghị dựa trên nội dung, điểm yếu lớn nhất của hệ thống này đó làviệc sử dụng những dữ liệu trong quá khứđểđưa ra các khuyến nghị. Nhược điểm này cũng chính là nguyên nhân gây ra vấn đề khởi
động nguội (cold start) cũng như hạn chế sự đa dạng, mới lạ của các khuyến nghị được đề xuất. Cụ thể, khởi động nguội là tình trạng hệ thống khơng đưa ra được các đề xuất nào do khơng có đầy đủ thơng tin và nó xảy ra đối với người dùng mới bởi vì họ khơng có những truy cập, đánh giá trong quá khứ để hệ thống có thể phân tích và đưa ra khuyến nghị phù hợp. Ngồi ra, việc sử dụng các dữ liệu lịch sử của người dùng khiến cho các sản phẩm được đề xuất khá tương đồng nhau vàđôi khi bị lặp lại với những gì mà người dùng đã truy cập, đánh giá trong quá khứ. Việc này sẽ làm mất đi tính mới mẻ của các đề xuất làm cho người dùng không còn hứng thú và cảm thấy nhàm chán khi phải xem đi xem lại những sản phẩm tương đồng như vậy.“Tuy nhiên, tất cả những vấn đề trên sẽ được giải quyết hoàn toàn với hệ thống khuyến nghị kết hợp giữa lọc theo nội dung và lọc dựa trên tri thức, hệ thống khuyến nghị dựa trên tri thức chỉ sử dụng cơ sở tri thức của các đối tượng cần lọc chứ không quan tâm đến các dữ liệu lịch sử của người dùng. Với sự kết hợp này, các đề xuất của hệ thống kết hợp sẽ phong phú hơn và mang tính hiệu quả cao hơn so với các hệ thống riêng lẻ. Bên cạnh đó, hệ thống này cịn có khả năng thích nghi với những thay đổi trong sở thích của người dùng bởi hệ thống thường xuyên cập nhật tri thức mới từ đó đưa ra những đề xuất phù hợp với sở thích hiện tại của người dùng. Thứ hai, đối với hệ thống khuyến nghị dựa trên tri thức, việc hạn chế trong việc thu thập cơ sở tri thức sẽ được hệ thống lọc dựa trên nội dung hỗ trợ một phần bởi hệ thống khuyến nghị dựa trên nội dung thông qua việc sử dụng những kỹ thuật khác nhau để tạo cơ sở tri thức ban đầu cho các đối tượng. Tuy nhiên, để việc đưa ra các đề xuất phù hợp và hiệu quả hơn, hệ thống khuyến nghị dựa trên tri thức sẽ phải hoạt động để làm phong phúhơn cho các cơ sở tri thức của các đối tượng.”
2.3 Tổng quan quy trình đề xuất trong hệ thống khuyến nghị kết hợp
Hệ thống khuyến nghị kết hợp giữa hệ thống lọc dựa trên nội dung và lọc dựa trên tri thức sẽ là một đề xuất mang tính khả thi bởi hệ thống kết hợp không chỉ giải quyết các vấn đề đặc trưng của từng hệ thống riêng lẻ mà nó cịn làm nổi bật sự kết hợp giữa hai phương pháp nhằm hỗ trợ lẫn nhau phát huy các thế mạnh vốn có. Quy trình đề xuất của hệ thống khuyến nghị kết hợp sẽ bao gồm 2 giai đoạn đề xuất chính. Giai đoạn 1, hệ thống khuyến nghị dựa trên nội dung sử dụng các kỹ thuật trích xuất
đặc trưng, xây dựng hồ sơ sản phẩm, xây dựng hồ sơ người dùng và bằng cách tính độ tương tự giữa 2 hồ sơ này, từ đó đưa ra những đề xuất ban đầu cho người dùng. Hệ thống khuyến nghị kết hợp vẫn mang đặc trưng của hệ thống khuyến nghị dựa trên nội dung nên sẽ có trường hợp những đề xuất đưa ra khơng có tính mới, khơng phù hợp hoặc khơng làm thỏa mãn nhu cầu của người dùng thì hệ thống khuyến nghị dựa trên tri thức sẽ lập tức hỗ trợ và khắc phục tình trạng này. Giai đoạn 2, hệ thống khuyến nghị dựa trên tri thức lúc này đã có vốn cơ sở tri thức ban đầu từ giai đoạn 1. Với vốn tri thức sẵn có và ln được cập nhật, hệ thống sẽ dựa trên những đặc tính mà người dùng yêu cầu để đưa ra những đề xuất mới mẻ, phù hợp hơn và có tính đa dạng cao hơn. Tuy nhiên, không hệ thống nào là hoàn hảo cả và hệ thống khuyến nghị kết hợp cũng vậy. Nó vẫn cịn đó hạn chế về khả năng thu thập nguồn tri thức, để có thể đưa ra được những đề xuất phù hợp và hiệu quả thì những đặc tính và miền tri thức được tiếp nhận cũng phải mang tính chính xác cao.
Trong“thời đại công nghệ thông tin kỹ thuật số phát triển như hiện nay, một khối lượng lớn dữ liệu và thơng tin được cập nhật liên tục do đó con người hầu như không thể nắm bắt được hết các thông tin để tạo cơ sở cho việc đưa ra các quyết định. Vì thế, nhu cầu sử dụng các hệ thống khuyến nghị đưa ra các đề xuất ngày càng cao trong hầu hết các lĩnh vực. Nó được ứng dụng trong nhiều lĩnh vực như: kinh doanh, dịch vụ giải trí, du lịch và đặc biệt trong lĩnh vực tìm kiếm việc làm. Hệ thống khuyến
nghị kết hợp giữa hệ thống lọc dựa trên nội dung và lọc dựa trên tri thức sẽ chứng
minh được sự hữu ích trong việc hỗ trợ những người tìm việc tìm được cơng việc phù hợp đồng thời giúp các nhà tuyển dụng có được những nhân viên chất lượng. Và cụ thể, hệ thống khuyến nghị việc làm thông minh này có kiến trúc như thế nào và được ứng dụng ra sau, nhóm nghiên cữu sẽ khai thác cụ thể hơn ở phần tiếp theo.”
3. Kiến trúc đề xuất của hệ thống khuyến nghị việc làm thông minh
Q trình chuyển đổi địi hỏi việc tận dụng cơng nghệ kỹ thuật số để tạo ra hoặc sửa đổi các loại trải nghiệm khác nhau nhằm giải quyết các nhu cầu ngày càng tăng trong xã hội, đặc biệt là vấn đề tìm kiếm việc làm của cử nhân. Trong phần này,
sẽ trình bày về một kiến trúc đề xuất về một giải pháp khả thi để giải quyết vấn đề tìm kiếm cơng việc ở LATAM.
Kiến trúc đề xuất này nhắm đến việc xây dựng một thương hiệu cá nhân dựa trên năng lực và sở thích của sinh viên để lựa chọn được một công việc phù hợp. Để đạt được điều này thì các năng lực mà sinh viên có được từ chương trình học cử nhân được sử dụng để dựng nên thương hiệu cá nhân. Để chắc chắn rằng thương hiệu cá nhân chứa các năng lực phù hợp thì địi hỏi giai đoạn trích xuất năng lực phải dựa trên bộ kiến thức cốt lõi đối với mỗi ngành nghề khác nhau của từng người dùng.
Việc xây dựng hồ sơ cá nhân dựa trên thương hiệu cá nhân sẽ giúp giải quyết vấn đề khởi động nguội của hệ thống khuyến nghị dựa trên nội dung. Sau khi có được hồ sơ người dùng thì thơng qua hệ thống khuyến nghị thơng minh kết hợp giữa hệ thống khuyến nghị dựa trên nội dung và hệ thống khuyến nghị dựa trên tri thức sẽ cho ra một sách danh các công việc phù hợp được đề xuất đến người dùng.
Các yếu tố chính của kiến trúc đề xuất này là xây dựng năng lực, xây dựng thương hiệu cá nhân và một hệ thống khuyến nghị việc làm thông minh. Các giai đoạn này sẽ được lần lượt trình bày cụ thể dưới đây.
Hình 3.1 Các yếu tố trong kiến trúc của hệ thống đề xuất
3.1 Competency Construction (Xây dựng năng lực) 3.1.1 Định nghĩa 3.1.1 Định nghĩa
Định nghĩa về Năng lực (Competency) đã được nghiên cứu, áp dụng trong quản lý nhân sự ở cả lĩnh vực công và tư tại nhiều quốc gia. Theo Cục quản lý nhân sự (Office of Personnel Management) của Mỹ, Năng lực được hiểu là là đặc tính có thể đo lường được của kiến thức, kỹ năng, thái độ, các phẩm chất cần thiết để có thể đáp ứng được cơng việc và là yếu tố giúp một cá nhân làm việc hiệu quả hơn so với những người khác. Cụ thể:
• Kiến thức (Knowledge): Mơ tả những thơng tin, sự kiện, quy luật thuộc lĩnh vực được học và nghiên cứu từ trường lớp hoặc được tích lũy từ thực tế, từ các nguồn tư liệu hoặc từ các chun gia có kinh nghiệm. Chúng thường là trình độ học vấn, kiến thức nghề nghiệp, chuyên môn, khả năng phân tích, đánh giá, trình độ ngoại ngữ của ứng viên. Những kiến thức này phần lớn đều có thể đánh giá và định lượng thông qua bằng cấp, chứng chỉ…
• Ví dụ về kiến thức liên quan đến năng lực nghề nghiệp của một sinh
viên mới ra trường ngành Hệ thống thông tin quản lý: Tốt nghiệp bằng giỏi chuyên ngành Hệ thống thông tin kinh doanh thuộc trường Đại học Kinh tế Thành phố Hồ Chí Minh, có chứng chỉ IELTS 6.5, có kiến thức nghề nghiệp về phân tích nghiệp vụ kinh doanh,..
• Kỹ năng (Skill): Mô tả những năng lực hay khả năng chuyên biệt của một cá nhân về một hoặc nhiều khía cạnh nào đó được sử dụng để giải quyết tình huống hay cơng việc phát sinh trong thực tế. Thông thường ứng viên sẽ được đòi hỏi về các kỹ năng nghề nghiệp quan trọng như kỹ năng giao tiếp chuyên nghiệp, kỹ năng quản lý, kỹ năng hiểu tâm lý khách hàng…
Tùy thuộc vàotừng vị trí mà yêu cầu về mức độ và kỹ năng nghề nghiệp sẽ
không giống nhau.
• Thái độ (Attitude): Mơ tả cách nhìn nhận về cơng việc, về nhiệm vụ, về đồng nghiệp và về cộng đồng. Thái độ chi phối cách ứng xử, hành vi và tinh thần trách nhiệm của đội ngũ nhân sự.
3.1.2 Xây dựng năng lực
Trong hệ thống, các năng lực được trình bày trong các đề nghị việc làm (job offers) và các năng lực được người dùng sử dụng trong quá trình tạo hồ sơ cho hệ thống khuyến nghị với mục đích có thể lựa chọn các đề nghị việc làm phù hợp. Từ đó, việc xây dựng năng lực được sử dụng để trích xuất danh sách các năng lực này. Thơng qua q trình trích xuất các năng lực, hệ thống có thể thu thập bộ kiến thức
cốt lõi cho các ngành nghề (body of knowledge) cùng với một mục các năng lực cá
nhân (list competencies) nhằm phục vụ cho việc xây dựng thương hiệu cá nhân (personal brand), và từ đó hệ thống khuyến nghị có thể lựa chọn cơng việc phù hợp với người dùng.
Một trong những giai đoạn chính của việc xây dựng năng lực là lựa chọn khối kiến thức, thơng tin phù hợp để trích xuất ra những năng lực chính xác và để hướng đến mục đích kết nối một cách tương thích nhất giữa những năng lực của sinh viên mới tốt nghiệp và những đề nghị việc làm phù hợp. Khối kiến thức được sử dụng cho mục đích này sẽ được tạo thành bởi bản mô tả năng lực và kết quả của sinh viên, những động từ Bloom, các tên khóa học, các quảng cáo việc làm và các kỹ năng tương lai mà nhà tuyển dụng đang tìm kiếm.
b. Những thuật ngữ liên quan: N-gram:
N-gram là một chuỗi n mục liền nhau từ một mẫu văn bản hoặc bài phát biểu nhất định. Các mục có thể là âm vị, chữ cái, từ hoặc các cặp cơ sở tùy theo ứng dụng. Các n-gram thường được thu thập từ một văn bản hoặc ngữ liệu lời nói.
Trong xử lý ngơn ngữ tự nhiên, điều quan trọng khơng chỉ là hiểu từ ngữ mà
cịn cả ngữ cảnh. N-gram là một trong những cách giúp hiểu ngơn ngữ theo ngữ cảnh
để máy móc, hệ thống hiểu rõ hơn ý nghĩa của các từ được viết hoặc nói.
Để cụ thể hơn, lấy ví dụ với hai câu “Tôi cần đặt vé đến Úc” và “Tôi muốn đọc một cuốn sách của Shakespeare.” Ở đây từ “sách” hồn tồn có những nghĩa khác nhau. Trong câu đầu tiên, nó được sử dụng như một động từ, là hành động trong khi ở câu thứ hai, nó đóng vai trị là một danh từ, một đối tượng.
Hình 3.2 Minh họa về sự khác nhau của từ trong các ngữ cảnh
Để hệ thống có thể hiểu được và phân biệt ngữ cảnh của một từ là gì thì chính là nhờ thơng qua n-gram. N-gram xác định số lượng từ mà người ta cần nhìn để xem ngữ cảnh. Máy móc hay hệ thống học điều này bằng cách xem các từ trước và sau từ cần được xác định để biết về ngữ cảnh của nó. Dưới đây là một số mơ hình n-gram nổi tiếng:
• Một mơ hình chỉ đơn giản dựa vào tần suất xuất hiện của một từ mà
khơng cần xem các từ trước hay sau đó được gọi là unigram (1-gram).
• Bigram (2-gram): tách câu thành từng cặp từ ghép 2 tiếng để xem ngữ cảnh và chỉ xem xét từ trước đó để dự đốn từ cần xác định.
Hình 3.3 Minh họa bigram
Trong trường hợp này, sử dụng bi-gram giúp hệ thống xác định được “to read” đang đóng vai trị là một động từ diễn tả hành động đọc và sau đó là “a book” thì trong câu này “book” đang được sử dụng với ý là một cuốn sách.
• Trigram (3-gram): là tách một cách thành từng nhóm một gồm 3 tiếng
để đánh giá ngữ cảnh.
Hình 3.4 Minh họa trigram
Danh sách các động từ Bloom (Bloom verbs list):
Danh sách những động từ Bloom nằm trong một công cụ nền tảng để phân loại các mục tiêu và kỹ năng khác nhau dành cho học sinh, sinh viên trong quá trình giáo dục - thang đo Bloom. Thang đo này được đề xuất vào năm 1956 bởi Benjamin Bloom, một nhà tâm lý học giáo dục tại Đại học Chicago (University of Chicago). Gần đây, thuật ngữ này đã được cập nhật để bao gồm 6 cấp độ học tập như dưới đây.
Sáu cấp độ được ứng dụng để tạo cấu trúc cho mục tiêu học tập và đánh giá các khóa học hay cụ thể hơn là những kỹ năng cụ thể người học đạt được sau khóa học.
Hình 3.5 Thang đo bloom
c. Cách xây dựng năng lực:
Nhiều năng lực / khả năng cá nhân của các sinh viên mới tốt nghiệp là từ ghép,