Học cấu trúc phụ thuộc

Một phần của tài liệu Tư vấn học tập trong giáo dục điện tử (Trang 35)

Như đã trình bày ở trên, x.τ biểu diễn tập các đối tượng có quan hệ τ của x. Ngoại trừ một số trường hợp trong đó chuỗi tham chiếu là đơn trị, chúng ta đều phải xác định phụ thuộc xác suất của x.A trên đa tập {y.B:y x.τ}.

Kí hiệu giá trị tập hợp (aggregation) từ thuyết cơ sở dữ liệu cung cấp một công cụ để giải quyết vấn đề này, tức là x.a sẽ phụ thuộc có xác suất vào thuộc tính tập hợp nào đó của đa tập hợp này. Ví dụ, một số giá trị tập hợp như mode (giá trị xuất hiện nhiều nhất trong tập), giá trị trung bình (nếu giá trị ở dạng số), số trung bình, lớn nhất, nhỏ nhất (nếu giá trị trong tập hợp được sắp xếp), số phần tử của tập hợp…Một giá trị tập hợp thường nhận một tập giá trị thuộc kiểu nào đó và trả về giá trị mang tính tổng kết của tập hợp đó. Giá trị tập hợp có thể cùng kiểu với các tham số của nó hoặc kiểu bất kỳ. X.A có γ(X.τ.B) là cha, điều đó có nghĩa là với mọi x X, x.a sẽ phụ thuộc vào giá trị của γ(x.τ.b), V(γ(x.τ.b)).

Ví dụ, đối với mô hình phụ thuộc ở phần trên, giá trị Danhgia của một Khoahoc phụ thuộc vào mức độ Yeuthich trung bình của các sinh viên Sinhvien đã tham gia khóa học hoặc xếp hạng Xephang của sinh viên Sinhvien phụ thuộc vào điểm Diem trung bình của sinh viên đó với tất cả khóa học đã tham gia.

Hình 3.5. Cấu trúc phụ thuộc S với phép toán tập hợp

Để học tự động một cấu trúc phụ thuộc, chúng ta cần giải quyết vấn đề:

 Không gian giả thuyết (hypothesis space)

 Hàm tính điểm (scoring function)

 Thuật toán tìm kiếm.

a) Không gian giả thuyết: Chúng ta xác định không gian giả thuyết là tập các cha cho mỗi thuộc tính X.A. Không gian giả thuyết này là không xác định. Nó bị giới hạn bởi việc đảm bảo rằng cấu trúc mà chúng ta cần học sẽ sinh ra một mô hình xác suất thông nhất cho tất cả các khung.

b) Vấn đề quan trọng thứ hai là đánh giá cấu trúc để tìm ra cấu trúc phù hợp nhất với dữ liệu. Với một thể hiện hoàn chỉnh I, một mô hình quan hệ xác suất có thể được học bởi việc tìm ra một mô hình quan hệ xác suất  phù hợp nhất với I. Tương tự như học mạng Bayesian, một hàm tính điểm được sử dụng để đánh giá mỗi mô hình với tập dữ liệu huấn luyện. Một đơn vị tính điểm mạng Bayesian thường được sử dụng là log P(S|I) = log P(I|S) + log P(S) + C trong đó P(I|S) là độ tương tự được tính bằng công thức:

Giaovien Khanang Khoahoc Danhgia Dokho Dangky Yeuthich Diem Sinhvien MucdoTM Xephang M 1 M M M 1 AVG AVG

S S S P S d S I P S I

P( | ) ( | , ) ( | )  . Độ tương tự là một yếu tố hết sức quan trọng, chịu ảnh hưởng của các mô hình khi số lượng tham số lớn. Do đó, tham số này tự động cân bằng độ phức tạp của cấu trúc với dữ liệu. Việc tiếp theo là chúng ta cần đưa ra một thuật toán để tìm được giả thuyết có điểm cao nhất trong không gian giả thuyết.

c) Thuật toán tìm kiếm tham ăn leo đồi có thể được sử dụng để tìm kiếm mô hình có cấu trúc tối ưu S. Với cấu trúc phụ thuộc tối ưu, việc ước lượng tham số độ tương tự tối đa có thể được thực hiện để hoàn thiện đặc tả mô hình. Tại mỗi bước k, chúng ta có một tập cha tiềm năng của X.A là Potk(X.A). Áp dụng thuật toán tìm kiếm cấu trúc chuẩn giới hạn trong không gian cấu trúc với cha của

X.A nằm trong Potk(X.A). Quá trình tìm kiếm theo bước được cấu trúc sao cho bước đầu tiên tìm ra phụ thuộc giữa các đối tượng và sau đó là giữa các đối tượng có liên quan trực tiếp và cuối cùng là giữa các đối tượng có liên kết một phần với nhau…

Một phần của tài liệu Tư vấn học tập trong giáo dục điện tử (Trang 35)

Tải bản đầy đủ (PDF)

(64 trang)