Ước lượng tham số

Một phần của tài liệu Tư vấn học tập trong giáo dục điện tử (Trang 37)

Giả sử rằng ta đã xác định được cấu trúc phụ thuộc S của mô hình quan hệ xác suất. Các tham số cần phải ước lượng là hàm tương tự. Hàm này sẽ dự đoán xác suất của dữ liệu với một mô hình cho trước. Hàm tương tự được sử dụng tương tự như trong ước lượng tham số của mạng Bayesian. Khác biệt duy nhất là các tham số ở các nút khác nhau trong mạng (tương ứng với các thuộc tính x.A của các đối tượng x khác nhau ) phải giống nhau. Mục tiêu của chúng ta là tìm ra tập các tham số θS cực đại độ tương tự (likelihood) L(θS| I,σ,S) cho một thể hiện I, σS:

LS|I,σ,S) = P(I|σ,SS) Áp dụng log cho hàm này ta thu được:

lS|I,σ,S) = log P(I|σ,SS) =            i i i X A (X) (X) ) Pa( x.A| ) P( log A x O x.A I I

Việc ước lượng này có thể được đơn giản hóa bằng cách phân rã hàm tính log – độ tương tự thành tổng giá trị của thuộc tính thuộc nhiều lớp khác nhau. Mỗi giá trị trong ngoặc vuông có thể được cực đại hóa độc lập với các phần khác.

3.3. Tƣ vấn dựa trên PRM

World Wide Web cho chúng ta cơ hội để thu thập nhiều loại thông tin thường được biểu diễn dưới các dạng quan hệ. Ở đây, chúng tôi đưa ra một ví dụ về cách thức triển khai mô hình quan hệ xác suất trong môi trường Web để cung cấp khả năng tư vấn và mô hình hóa sinh viên. Hãy xem xét một website học trực tuyến cung cấp các khóa học cho sinh viên. Khi sinh viên xem site này lần đầu, họ phải đăng ký bằng cách cung cấp các thông tin lý lịch như tuổi, giới tính, quê quán, năm học... Cơ sở dữ liệu của hệ thống có thể chứa các thông tin về các giáo viên, khoa, trường…Cho trước một lược đồ quan hệ, chúng ta có thể học một mô hình quan hệ xác suất giúp xác định các lớp sinh viên dựa trên các thông tin thu thập được, bao gồm cả xu hướng sinh viên học một khóa học nào đó do một giáo viên nào đó dạy…Bằng cách cố định một cấu trúc phụ thuộc giữa các thuộc tính trong mỗi quan hệ, chúng ta có thể học các lớp sinh viên bằng cách áp dụng các chiến lược học khác nhau.

Khi đã học được một mô hình như vậy, chúng ta có thể sử dụng nó để đưa ra tư vấn cho sinh viên vào website. Chúng ta có thể gợi ý cho họ các khóa học nên đăng ký, các giáo viên nên học…Ví dụ, nếu một sinh viên đã đăng ký đã từng vào website trước đó (và do đó ta thu tập được thông tin về hành vi của họ), sinh viên đó có thể được gán (theo xác suất) vào một nhóm. Đó là kết quả của việc tối ưu được điều khiển để học mô hình quan hệ xác suất. Khi một sinh viên như vậy trở lại website, chúng ta có thể tư vấn cho họ các khóa học khác để đăng ký dựa trên việc phân cụm. Trong những trường hợp đó, lợi ích của mô hình quan hệ xác suất so với các phương pháp lọc cộng tác hiện có là mô hình quan hệ xác suất có thể biểu diễn các mối quan hệ phức tạp hơn là các dữ liệu cặp đôi đơn giản và còn có thể để ý đến thông tin lý lịch ngoài lịch sử học hay sở thích của họ khi tiến hành quyết định lọc cộng tác.

3.3.1. Quá trình học

Một thử thách quan trọng đối với học mô hình quan hệ xác suất là có rất nhiều thuộc tính tiềm năng có thể được suy ra từ các chuỗi đường dẫn tham chiếu và các phép toán đa tập hợp mới được giới thiệu. Phương pháp chuẩn để giải quyết vấn đề này là thuật toán tìm kiếm có cấu trúc heuristic mở rộng lặp [5]. Theo phương pháp này, độ dài của chuỗi tham chiếu bị giới hạn khi tìm kiếm một mô hình quan hệ xác suất tối ưu. Độ dài cho phép của chuỗi đường dẫn tham chiếu quyết định độ phức tạp của mô hình.

Chúng tôi sử dụng phương pháp tìm kiếm và tính điểm chuẩn cho học mạng Bayesian để tìm kiếm cấu trúc phụ thuộc một phần tối ưu liên quan đến Dangky.Tontai

đã được đề cập trong phần trên. Khi đã xác định được cấu trúc phụ thuộc mô hình quan hệ xác suất cục bộ cho một độ dài chuỗi đường dẫn tham chiếu nhất định, các thủ tục ước lượng tham số chuẩn có thể được áp dụng để suy ra mô hình dự đoán của giá trị của Dangky.Tontai. Trong nghiên cứu hiện nay của chúng tôi, một thuật toán mạng Bayesian cho dự đoán nhị phân [2] được áp dụng để ước đoán xác suất xảy ra việc đăng ký P(Dangky.Tontai=1|các thuộc tính liên quan của Dangky.Tontai) cho các cặp

Sinhvien -Khoahoc chưa quan sát được. Nhiều loại tư vấn có thể được tạo ra dựa trên

những ước lượng xác suất như vậy.

3.3.2. Sinh tư vấn với mô hình quan hệ xác suất

Bây giờ chúng ta hãy xem xét các phương pháp tư vấn hiện có chiếu theo khung mô hình quan hệ xác suất hợp nhất. Chúng tôi vẫn sử dụng cơ sở dữ liệu đăng ký học để làm ví dụ. Trong hình 3.6, các thuộc tính trong hình tròn, bao gồm các thuộc tính đơn trị và đa trị kết hợp, là các thuộc tính tiềm năng của Dangky.Exist trong mô hình phụ thuộc. Mô hình bao gồm các thuộc tính được rút ra từ các chuỗi đường dẫn tham chiếu có độ dại tối đa là 3. Ví dụ, số sinh viên đăng ký khóa học đích là

cardinality{[Dangky.KHID][Dangky.KHID]-1.[Dangky.SVID])}. Một mô hình như

vậy phù hợp với mô hình dự đoán đăng ký bán điển hình liên quan tới các thuộc tính lý lịch của sinh viên, số đăng kí của sinh viên đã được quan sát và số lượng đăng ký học trong quá khứ.

Hình 3.6. Mô hình tƣ vấn mô hình quan hệ xác suất với chuỗi tham chiếu độ dài 3

Khi độ dài tối đa của chuỗi đường dẫn tham chiếu tăng lên, mô hình trở nên phức tạp hơn vì có thêm các sinh viên và khóa học lân cận gián tiếp cùng các thuộc tính gắn liền với chúng. Về nguyên tắc, điều này tương tự như trong thuật toán tư vấn dựa trên đồ thị, nó là các liên kết giữa sinh viên và khóa học làm cho việc tư vấn có chất lượng hơn (ví dụ [11]). Tuy nhiên, khi độ dài chuỗi đường dẫn tham chiếu lớn hơn, không gian tìm kiếm sẽ lớn lên rất nhiều làm cho quá trình dự đoán và ước lượng mô hình sẽ cần nhiều tính toán hơn.

Một ưu điểm thuyết phục nữa của mô hình quan hệ xác suất có thể thấy rõ trong trường hợp có người khách mới vào xem website. Ở đây, khi sinh viên mới bắt đầu bằng việc đăng ký vào website, họ phải cung cấp cho hệ thống các thông tin lý lịch. Các phương pháp chuẩn cho lọc cộng tác không thể đưa ra các tư vấn kiểu này vì sinh viên chưa có lịch sử đăng ký học và sở thích. Tuy nhiên, mô hình quan hệ xác suất có thể sử dụng trực tiếp thông tin lý lịch được cung cấp bởi sinh viên để suy ra phân bố

Khoahoc Sinhvien Giaovien Khoahoc KHName KHID Dokho Sinhvien SVID SVTen Xephang Dangky Tontai MucdoTM

trên lớp sinh viên. Sau khi quyết định, hệ thống có thể đưa ra ngay những tư vấn về khóa học nên đăng ký cho sinh viên. Khi sinh viên khám phá website nhiều hơn và bắt đầu đăng ký, hệ thống có thể được dùng để cập nhật phân bố xác suất trên lớp sinh viên, qua đó làm mịn mô hình và làm cho việc dự đoán lọc cộng tác tốt hơn cho sinh viên. Theo cách này, mô hình quan hệ xác suất có thể thành công khi đưa ra những tư vấn hữu ích cho sinh viên ngay trước khi thu thập số lượng lớn thông tin về sở thích và đăng ký.

3.4. Kết chƣơng

Trong chương này, chúng ta tập trung vào nhiệm vụ tư vấn, đặc biệt nhấn mạnh vào việc sử dụng mô hình xác suất cho công việc này. Chúng tôi cũng đưa ra một ví dụ về cách thức triển khai một mô hình quan hệ xác suất trên Web cho tư vấn dựa trên lọc cộng tác. Mô hình quan hệ xác suất cho chúng ta một cách biểu diễn ngắn gọn của các mối quan hệ thực thể phức tạp thường phải mô hình hóa trong lọc cộng tác. Với việc lọc cộng tác mô hình hóa lượng lớn thực thế, biểu diễn rõ ràng của mô hình quan hệ xác suất đặc biệt thuyết phục. Hơn nữa, mô hình quan hệ xác suất có thể thu nhập được các thông tin quan hệ phức tạp hơn. Lợi điểm này đặc biệt quan trọng trong ngữ cảnh WWW nơi có rất nhiều thông tin quan hệ chứ không chỉ là các mối quan hệ người-khóa học thông thường.

Chƣơng 4. Hệ tƣ vấn E-Recommender 4.1. Bài toán

4.1.1. Mô tả bài toán

Bài toán đặt ra là xây dựng một hệ tư vấn khóa học để có thể tích hợp vào một hệ thống e-learning có sẵn. Khi sinh viên lần đầu vào hệ thống, họ sẽ phải đăng ký người dùng. Việc đăng ký này sẽ cung cấp cho hệ thống tiểu sử sinh viên. Đồng thời, mọi khóa học mà sinh viên đăng ký cùng kết quả học tập, đánh giá của sinh viên về khóa học sẽ được lưu lại. Khi có một sinh viên mới vào hệ thống hoặc sinh viên cũ muốn đăng ký một khóa học khác, hệ thống sẽ căn cứ vào tiểu sử của sinh viên và dữ liệu học đã thu thập được từ trước của các sinh viên khác để đưa ra một số tư vấn như:

 Danh sách một số khóa học sinh viên nên đăng ký

 Dự đoán kết quả nếu sinh viên tham gia khóa học nào đó.

4.1.2. Mục tiêu hệ thống

Hệ thống được xây dựng nhằm đạt một số mục tiêu về mặt hiệu suất thực hiện cho các hệ thống e – learning: (adsbygoogle = window.adsbygoogle || []).push({});

Hạn chế việc quá tải thông tin: Khi có quá nh iều khóa học để lựa chọn, hê ̣ tư vấn có thể đoán những khóa học nào đáng quan tâm, có tầm quan tro ̣ng, và hấp dẫn và có khả năng được đăng ký cao nhất.

Cải tiến hiệu năng: Thậm chí trong những trường hợp mà sinh viên không có mô ̣t số lượng lớn các khóa học để lựa chọn, hê ̣ tư vấn có thể cải tiến hiệu năng của hệ thống bằng cách dự đoán các khóa học mà sinh viên quan tâm

Cải tiến tốc độ truy cập : Hệ tư vấn có thể đoán những khóa học nào mà sinh viên quan tâm nhất để tham gia vào khóa học đó, nó cho phép sinh viên tạo ra những khóa học có sẵn và có tính nổi bật này tới những sinh viên khác.

4.2. Thuâ ̣t toán tƣ vấn trong E-Recommender

E - Recommender sẽ đưa ra danh sách các khóa học mà một sinh viên có khả năng tham gia và tìm những mục đích thực tế trong khóa học đó. E- Recommender được

xây dựng dựa trên phần mềm mã nguồn mở CoFE (Collaborative Filtering Engine) [43]. Ở đây , chúng tôi cài đặt hai thuật toán, thuật toán lọc cộng tác đơn giản và lọc cộng tác dựa trên mô hình quan hệ xác suất.

4.2.1. Thuật toán lọc cộng tác đơn giản

4.2.1.1. Thuật toán tính toán độ tƣơng tự

Mô ̣t bước quan tro ̣ng trong các thuâ ̣t toán lo ̣c cô ̣ng tác dựa trên mô hình là tính toán độ tương tự giữa các khóa học và sau đó lựa chọn các khóa học có độ tương tự cao nhất. Ý tưởng chính trong việc tính toán độ tương tự giữa hai khóa học ij là phải tách đươ ̣c những sinh viên đã đánh giá cho cả hai khóa ho ̣c và sau đó áp du ̣ng kỹ thuâ ̣t tính đô ̣ tương tự để quyết đi ̣nh đô ̣ tương tự s ij. Cách thức tính độ tương tự chúng tôi lựa cho ̣n là đô ̣ tương tự dựa trên tương quan (correlation).

Độ tương tự giữa hai khóa ho ̣c ij được đo bằng cách tính tương quan Pearson-r corrij. Trướ c hết, chúng tôi phải cô lập những sinh viên đã đánh giá cả hai sản phẩm. Tâ ̣p những sinh viên đã đánh giá cả hai khóa ho ̣c ij kí hiệu là U , khi đó đô ̣ tương tự tương quan được cho bởi công thức:

            U u u j j U u ui i U u ui i u j j j i R R R R R R R R corr j i sim 2 , 2 , , , , ) ( ) ( ) )( ( ) , (

Trong đó, Ru,i là đánh giá của sinh viên u đối với khóa học i, Ri là đánh giá trung bình của khóa học i.

4.2.2. Thuật toán tính toán dự đoán

Bước quan tro ̣ng nhất trong các hê ̣ thống tư vấn dựa trên lo ̣c cô ̣ng tác là sinh ra các kết quả dưới dạng dự đoán . Sau khi, đã tách được tâ ̣p những khóa ho ̣c tương t ự nhất dựa trên đô ̣ đo tương quan, chúng ta sẽ tìm trong cá c đánh giá của sinh viên hiê ̣n tại và sử dụng kỹ thuâ ̣t sinh dự đoán dựa trên tro ̣ng số:

Kỹ thuật này sẽ tính toán dự đoán cho một khóa học i đối vớ i sinh viên u bằng cách tính tổng các đánh giá mà sinh viên đã đưa ra cho các khóa học tương tự với i . Mỗi đánh giá được gán cho tro ̣ng số chính bằng đô ̣ tương tự giữa s ij giữa hai khóa ho ̣c i và j. Mô ̣t cách hình thức, dự đoán được kí hiê ̣u Pu,i:

     N ngtu khoahoctuo iN N ngtu khoahoctuo iN uN i u S R S P , , , , , , ) ( ) * (

Về cơ bản , thuâ ̣t toán nà y cố gắng tìm ra cách thức sinh viên hiê ̣n ta ̣i đánh giá các khóa học tương tự . Tổng có tro ̣ng số chia cho tổng số các đô ̣ tương tự để thu được dự đoán trong khoảng cho trước.

4.2.3. Xác định đánh giá trong hệ tƣ vấn

Lọc cộng tác là môi trường trong đó một cộng đồng người tụ lại để cùng chia sẻ gánh nặng chọn lọc thông tin. Ví dụ, mô ̣t hê ̣ thống ho ̣c trực tuyến với 50 khóa học. Bất kỳ sinh viên nào cũng không thể có thời gian học hết 50 khóa học đó, nhưng có mô ̣t nhóm 50 sinh viên , mỗi sinh viên của nhóm có thể ho ̣c mô ̣t khóa học và thẩm định chất lươ ̣ng của khóa học đó. Chúng tôi cho rằng sinh viên đánh giá khóa học có nghĩa là họ đưa cho chúng ta một đánh giá - Rating. Nếu đánh giá của sinh viên cho khóa học đó đủ cao thì khóa học đó sẽ được tư vấn có các sinh viên còn lại. Nếu lần lượt học từng khóa học , sinh viên sẽ mất nhiều thời gian để ho ̣c 50 khóa học đó và tìm những thứ bổ ích trong các môn đ ó. Trong thực tế, không mô ̣t sinh viên nào có thể có cùng những sở thích hay sự quan tâm của mình cho sinh viên khác . Ví dụ, chúng tôi kiểm tra sự đánh giá của mô ̣t sinh viên là A, và tìm ra 10 sinh viên khác trong nhóm có những đáng giá tương tự như sinh viên A, là những người cũng học khoảng 3 khóa học như A và có cùng đánh giá với A. Ví dụ Sinh viên A có thể tham gia đăng ký vào Bộ môn Công nghê ̣ phần mềm và rất quan tâm đến các khóa học trong đó , do vâ ̣y sinh viên A sẽ ho ̣c và đánh giá tốt các khóa học khác liên quan đến bộ môn đó. Sinh viên A có thể có sự tương tự với 10 sinh viên khác có cùng quan tâm tới các khóa học và đánh giá có chất lượng tốt các khóa học đó. Và chúng tôi gọi những sinh viên đó là “láng giềng” của sinh viên A . Khi chúng tôi đã xác nhâ ̣n được “ láng giềng” của sinh viên A, chúng tôi có thể xem xét các khóa học đã được đánh giá có chất lượng đó qua “láng giềng” của sinh viên A , mà sinh viên A chưa tham gia vào . Sau đó chúng tôi sẽ tư vấn những khóa học đó cho sinh viên A để có thể tham gia vào khóa học đó. Mô ̣t danh sách các khóa học như vâ ̣y được biết như là mô ̣t tâ ̣p các tư vấn.

Một phần của tài liệu Tư vấn học tập trong giáo dục điện tử (Trang 37)