Ước lượng tham số

Giả sử rằng ta đã xác định được cấu trúc phụ thuộc S của mô hình quan hệ xác suất. Các tham số cần phải ước lượng là hàm tương tự. Hàm này sẽ dự đoán xác suất của dữ liệu với một mô hình cho trước. Hàm tương tự được sử dụng tương tự như trong ước lượng tham số của mạng Bayesian. Khác biệt duy nhất là các tham số ở các nút khác nhau trong mạng (tương ứng với các thuộc tính x.A của các đối tượng x khác nhau ) phải giống nhau. Mục tiêu của chúng ta là tìm ra tập các tham số θS cực đại độ tương tự (likelihood) L(θS| I,σ,S) cho một thể hiện I, σ và S:

L(θS|I,σ,S) = P(I|σ,S,θS) Áp dụng log cho hàm này ta thu được:

l(θS|I,σ,S) = log P(I|σ,S,θS) =            i i i X A (X) (X) ) Pa( x.A| ) P( log A x O x.A I I 

Việc ước lượng này có thể được đơn giản hóa bằng cách phân rã hàm tính log – độ tương tự thành tổng giá trị của thuộc tính thuộc nhiều lớp khác nhau. Mỗi giá trị trong ngoặc vuông có thể được cực đại hóa độc lập với các phần khác.

3.3. Tƣ vấn dựa trên PRM

World Wide Web cho chúng ta cơ hội để thu thập nhiều loại thông tin thường được biểu diễn dưới các dạng quan hệ. Ở đây, chúng tôi đưa ra một ví dụ về cách thức triển khai mô hình quan hệ xác suất trong môi trường Web để cung cấp khả năng tư vấn và mô hình hóa sinh viên. Hãy xem xét một website học trực tuyến cung cấp các khóa học cho sinh viên. Khi sinh viên xem site này lần đầu, họ phải đăng ký bằng cách cung cấp các thông tin lý lịch như tuổi, giới tính, quê quán, năm học... Cơ sở dữ liệu của hệ thống có thể chứa các thông tin về các giáo viên, khoa, trường…Cho trước một lược đồ quan hệ, chúng ta có thể học một mô hình quan hệ xác suất giúp xác định các lớp sinh viên dựa trên các thông tin thu thập được, bao gồm cả xu hướng sinh viên học một khóa học nào đó do một giáo viên nào đó dạy…Bằng cách cố định một cấu trúc phụ thuộc giữa các thuộc tính trong mỗi quan hệ, chúng ta có thể học các lớp sinh viên bằng cách áp dụng các chiến lược học khác nhau.

Khi đã học được một mô hình như vậy, chúng ta có thể sử dụng nó để đưa ra tư vấn cho sinh viên vào website. Chúng ta có thể gợi ý cho họ các khóa học nên đăng ký, các giáo viên nên học…Ví dụ, nếu một sinh viên đã đăng ký đã từng vào website trước đó (và do đó ta thu tập được thông tin về hành vi của họ), sinh viên đó có thể được gán (theo xác suất) vào một nhóm. Đó là kết quả của việc tối ưu được điều khiển để học mô hình quan hệ xác suất. Khi một sinh viên như vậy trở lại website, chúng ta có thể tư vấn cho họ các khóa học khác để đăng ký dựa trên việc phân cụm. Trong những trường hợp đó, lợi ích của mô hình quan hệ xác suất so với các phương pháp lọc cộng tác hiện có là mô hình quan hệ xác suất có thể biểu diễn các mối quan hệ phức tạp hơn là các dữ liệu cặp đôi đơn giản và còn có thể để ý đến thông tin lý lịch ngoài lịch sử học hay sở thích của họ khi tiến hành quyết định lọc cộng tác.

3.3.1. Quá trình học

Một thử thách quan trọng đối với học mô hình quan hệ xác suất là có rất nhiều thuộc tính tiềm năng có thể được suy ra từ các chuỗi đường dẫn tham chiếu và các phép toán đa tập hợp mới được giới thiệu. Phương pháp chuẩn để giải quyết vấn đề này là thuật toán tìm kiếm có cấu trúc heuristic mở rộng lặp [5]. Theo phương pháp này, độ dài của chuỗi tham chiếu bị giới hạn khi tìm kiếm một mô hình quan hệ xác suất tối ưu. Độ dài cho phép của chuỗi đường dẫn tham chiếu quyết định độ phức tạp của mô hình.

Chúng tôi sử dụng phương pháp tìm kiếm và tính điểm chuẩn cho học mạng Bayesian để tìm kiếm cấu trúc phụ thuộc một phần tối ưu liên quan đến Dangky.Tontai

đã được đề cập trong phần trên. Khi đã xác định được cấu trúc phụ thuộc mô hình quan hệ xác suất cục bộ cho một độ dài chuỗi đường dẫn tham chiếu nhất định, các thủ tục ước lượng tham số chuẩn có thể được áp dụng để suy ra mô hình dự đoán của giá trị của Dangky.Tontai. Trong nghiên cứu hiện nay của chúng tôi, một thuật toán mạng Bayesian cho dự đoán nhị phân [2] được áp dụng để ước đoán xác suất xảy ra việc đăng ký P(Dangky.Tontai=1|các thuộc tính liên quan của Dangky.Tontai) cho các cặp

Sinhvien -Khoahoc chưa quan sát được. Nhiều loại tư vấn có thể được tạo ra dựa trên

những ước lượng xác suất như vậy.

3.3.2. Sinh tư vấn với mô hình quan hệ xác suất

Bây giờ chúng ta hãy xem xét các phương pháp tư vấn hiện có chiếu theo khung mô hình quan hệ xác suất hợp nhất. Chúng tôi vẫn sử dụng cơ sở dữ liệu đăng ký học để làm ví dụ. Trong hình 3.6, các thuộc tính trong hình tròn, bao gồm các thuộc tính đơn trị và đa trị kết hợp, là các thuộc tính tiềm năng của Dangky.Exist trong mô hình phụ thuộc. Mô hình bao gồm các thuộc tính được rút ra từ các chuỗi đường dẫn tham chiếu có độ dại tối đa là 3. Ví dụ, số sinh viên đăng ký khóa học đích là

cardinality{[Dangky.KHID][Dangky.KHID]-1.[Dangky.SVID])}. Một mô hình như

vậy phù hợp với mô hình dự đoán đăng ký bán điển hình liên quan tới các thuộc tính lý lịch của sinh viên, số đăng kí của sinh viên đã được quan sát và số lượng đăng ký học trong quá khứ.

Hình 3.6. Mô hình tƣ vấn mô hình quan hệ xác suất với chuỗi tham chiếu độ dài 3

Khi độ dài tối đa của chuỗi đường dẫn tham chiếu tăng lên, mô hình trở nên phức tạp hơn vì có thêm các sinh viên và khóa học lân cận gián tiếp cùng các thuộc tính gắn liền với chúng. Về nguyên tắc, điều này tương tự như trong thuật toán tư vấn dựa trên đồ thị, nó là các liên kết giữa sinh viên và khóa học làm cho việc tư vấn có chất lượng hơn (ví dụ [11]). Tuy nhiên, khi độ dài chuỗi đường dẫn tham chiếu lớn hơn, không gian tìm kiếm sẽ lớn lên rất nhiều làm cho quá trình dự đoán và ước lượng mô hình sẽ cần nhiều tính toán hơn.

Một ưu điểm thuyết phục nữa của mô hình quan hệ xác suất có thể thấy rõ trong trường hợp có người khách mới vào xem website. Ở đây, khi sinh viên mới bắt đầu bằng việc đăng ký vào website, họ phải cung cấp cho hệ thống các thông tin lý lịch. Các phương pháp chuẩn cho lọc cộng tác không thể đưa ra các tư vấn kiểu này vì sinh viên chưa có lịch sử đăng ký học và sở thích. Tuy nhiên, mô hình quan hệ xác suất có thể sử dụng trực tiếp thông tin lý lịch được cung cấp bởi sinh viên để suy ra phân bố

Khoahoc Sinhvien Giaovien Khoahoc KHName KHID Dokho Sinhvien SVID SVTen Xephang Dangky Tontai MucdoTM

trên lớp sinh viên. Sau khi quyết định, hệ thống có thể đưa ra ngay những tư vấn về khóa học nên đăng ký cho sinh viên. Khi sinh viên khám phá website nhiều hơn và bắt đầu đăng ký, hệ thống có thể được dùng để cập nhật phân bố xác suất trên lớp sinh viên, qua đó làm mịn mô hình và làm cho việc dự đoán lọc cộng tác tốt hơn cho sinh viên. Theo cách này, mô hình quan hệ xác suất có thể thành công khi đưa ra những tư vấn hữu ích cho sinh viên ngay trước khi thu thập số lượng lớn thông tin về sở thích và đăng ký.

3.4. Kết chƣơng

Trong chương này, chúng ta tập trung vào nhiệm vụ tư vấn, đặc biệt nhấn mạnh vào việc sử dụng mô hình xác suất cho công việc này. Chúng tôi cũng đưa ra một ví dụ về cách thức triển khai một mô hình quan hệ xác suất trên Web cho tư vấn dựa trên lọc cộng tác. Mô hình quan hệ xác suất cho chúng ta một cách biểu diễn ngắn gọn của các mối quan hệ thực thể phức tạp thường phải mô hình hóa trong lọc cộng tác. Với việc lọc cộng tác mô hình hóa lượng lớn thực thế, biểu diễn rõ ràng của mô hình quan hệ xác suất đặc biệt thuyết phục. Hơn nữa, mô hình quan hệ xác suất có thể thu nhập được các thông tin quan hệ phức tạp hơn. Lợi điểm này đặc biệt quan trọng trong ngữ cảnh WWW nơi có rất nhiều thông tin quan hệ chứ không chỉ là các mối quan hệ người-khóa học thông thường.

Chƣơng 4. Hệ tƣ vấn E-Recommender 4.1. Bài toán

4.1.1. Mô tả bài toán

Bài toán đặt ra là xây dựng một hệ tư vấn khóa học để có thể tích hợp vào một hệ thống e-learning có sẵn. Khi sinh viên lần đầu vào hệ thống, họ sẽ phải đăng ký người dùng. Việc đăng ký này sẽ cung cấp cho hệ thống tiểu sử sinh viên. Đồng thời, mọi khóa học mà sinh viên đăng ký cùng kết quả học tập, đánh giá của sinh viên về khóa học sẽ được lưu lại. Khi có một sinh viên mới vào hệ thống hoặc sinh viên cũ muốn đăng ký một khóa học khác, hệ thống sẽ căn cứ vào tiểu sử của sinh viên và dữ liệu học đã thu thập được từ trước của các sinh viên khác để đưa ra một số tư vấn như:

 Danh sách một số khóa học sinh viên nên đăng ký

 Dự đoán kết quả nếu sinh viên tham gia khóa học nào đó.

4.1.2. Mục tiêu hệ thống

Hệ thống được xây dựng nhằm đạt một số mục tiêu về mặt hiệu suất thực hiện cho các hệ thống e – learning:

 Hạn chế việc quá tải thông tin: Khi có quá nh iều khóa học để lựa chọn, hê ̣ tư vấn có thể đoán những khóa học nào đáng quan tâm, có tầm quan tro ̣ng, và hấp dẫn và có khả năng được đăng ký cao nhất.

 Cải tiến hiệu năng: Thậm chí trong những trường hợp mà sinh viên không có mô ̣t số lượng lớn các khóa học để lựa chọn, hê ̣ tư vấn có thể cải tiến hiệu năng của hệ thống bằng cách dự đoán các khóa học mà sinh viên quan tâm

 Cải tiến tốc độ truy cập : Hệ tư vấn có thể đoán những khóa học nào mà sinh viên quan tâm nhất để tham gia vào khóa học đó, nó cho phép sinh viên tạo ra những khóa học có sẵn và có tính nổi bật này tới những sinh viên khác.

4.2. Thuâ ̣t toán tƣ vấn trong E-Recommender

E - Recommender sẽ đưa ra danh sách các khóa học mà một sinh viên có khả năng tham gia và tìm những mục đích thực tế trong khóa học đó. E- Recommender được

xây dựng dựa trên phần mềm mã nguồn mở CoFE (Collaborative Filtering Engine) [43]. Ở đây , chúng tôi cài đặt hai thuật toán, thuật toán lọc cộng tác đơn giản và lọc cộng tác dựa trên mô hình quan hệ xác suất.

4.2.1. Thuật toán lọc cộng tác đơn giản

4.2.1.1. Thuật toán tính toán độ tƣơng tự

Mô ̣t bước quan tro ̣ng trong các thuâ ̣t toán lo ̣c cô ̣ng tác dựa trên mô hình là tính toán độ tương tự giữa các khóa học và sau đó lựa chọn các khóa học có độ tương tự cao nhất. Ý tưởng chính trong việc tính toán độ tương tự giữa hai khóa học i và j là phải tách đươ ̣c những sinh viên đã đánh giá cho cả hai khóa ho ̣c và sau đó áp du ̣ng kỹ thuâ ̣t tính đô ̣ tương tự để quyết đi ̣nh đô ̣ tương tự s ij. Cách thức tính độ tương tự chúng tôi lựa cho ̣n là đô ̣ tương tự dựa trên tương quan (correlation).

Độ tương tự giữa hai khóa ho ̣c i và j được đo bằng cách tính tương quan Pearson-r corrij. Trướ c hết, chúng tôi phải cô lập những sinh viên đã đánh giá cả hai sản phẩm. Tâ ̣p những sinh viên đã đánh giá cả hai khóa ho ̣c i và j kí hiệu là U , khi đó đô ̣ tương tự tương quan được cho bởi công thức:

            U u u j j U u ui i U u ui i u j j j i R R R R R R R R corr j i sim 2 , 2 , , , , ) ( ) ( ) )( ( ) , (

Trong đó, Ru,i là đánh giá của sinh viên u đối với khóa học i, Ri là đánh giá trung bình của khóa học i.

4.2.2. Thuật toán tính toán dự đoán

Bước quan tro ̣ng nhất trong các hê ̣ thống tư vấn dựa trên lo ̣c cô ̣ng tác là sinh ra các kết quả dưới dạng dự đoán . Sau khi, đã tách được tâ ̣p những khóa ho ̣c tương t ự nhất dựa trên đô ̣ đo tương quan, chúng ta sẽ tìm trong cá c đánh giá của sinh viên hiê ̣n tại và sử dụng kỹ thuâ ̣t sinh dự đoán dựa trên tro ̣ng số:

Kỹ thuật này sẽ tính toán dự đoán cho một khóa học i đối vớ i sinh viên u bằng cách tính tổng các đánh giá mà sinh viên đã đưa ra cho các khóa học tương tự với i . Mỗi đánh giá được gán cho tro ̣ng số chính bằng đô ̣ tương tự giữa s ij giữa hai khóa ho ̣c i và j. Mô ̣t cách hình thức, dự đoán được kí hiê ̣u Pu,i:

     N ngtu khoahoctuo iN N ngtu khoahoctuo iN uN i u S R S P , , , , , , ) ( ) * (

Về cơ bản , thuâ ̣t toán nà y cố gắng tìm ra cách thức sinh viên hiê ̣n ta ̣i đánh giá các khóa học tương tự . Tổng có tro ̣ng số chia cho tổng số các đô ̣ tương tự để thu được dự đoán trong khoảng cho trước.

4.2.3. Xác định đánh giá trong hệ tƣ vấn

Lọc cộng tác là môi trường trong đó một cộng đồng người tụ lại để cùng chia sẻ gánh nặng chọn lọc thông tin. Ví dụ, mô ̣t hê ̣ thống ho ̣c trực tuyến với 50 khóa học. Bất kỳ sinh viên nào cũng không thể có thời gian học hết 50 khóa học đó, nhưng có mô ̣t nhóm 50 sinh viên , mỗi sinh viên của nhóm có thể ho ̣c mô ̣t khóa học và thẩm định chất lươ ̣ng của khóa học đó. Chúng tôi cho rằng sinh viên đánh giá khóa học có nghĩa là họ đưa cho chúng ta một đánh giá - Rating. Nếu đánh giá của sinh viên cho khóa học đó đủ cao thì khóa học đó sẽ được tư vấn có các sinh viên còn lại. Nếu lần lượt học từng khóa học , sinh viên sẽ mất nhiều thời gian để ho ̣c 50 khóa học đó và tìm những thứ bổ ích trong các môn đ ó. Trong thực tế, không mô ̣t sinh viên nào có thể có cùng những sở thích hay sự quan tâm của mình cho sinh viên khác . Ví dụ, chúng tôi kiểm tra sự đánh giá của mô ̣t sinh viên là A, và tìm ra 10 sinh viên khác trong nhóm có những đáng giá tương tự như sinh viên A, là những người cũng học khoảng 3 khóa học như A và có cùng đánh giá với A. Ví dụ Sinh viên A có thể tham gia đăng ký vào Bộ môn Công nghê ̣ phần mềm và rất quan tâm đến các khóa học trong đó , do vâ ̣y sinh viên A sẽ ho ̣c và đánh giá tốt các khóa học khác liên quan đến bộ môn đó. Sinh viên A có thể có sự tương tự với 10 sinh viên khác có cùng quan tâm tới các khóa học và đánh giá có chất lượng tốt các khóa học đó. Và chúng tôi gọi những sinh viên đó là “láng giềng” của sinh viên A . Khi chúng tôi đã xác nhâ ̣n được “ láng giềng” của sinh viên A, chúng tôi có thể xem xét các khóa học đã được đánh giá có chất lượng đó qua “láng giềng” của sinh viên A , mà sinh viên A chưa tham gia vào . Sau đó chúng tôi sẽ tư vấn những khóa học đó cho sinh viên A để có thể tham gia vào khóa học đó. Mô ̣t danh sách các khóa học như vâ ̣y được biết như là mô ̣t tâ ̣p các tư vấn.

Học cấu trúc phụ thuộc

Thuật toán lọc cộng tác đơn giản