Topic models MDA Topic model

1 558 0
Topic models  MDA Topic model

Đang tải... (xem toàn văn)

Thông tin tài liệu

*Topic models: mô hình xác suất cho việc phát cấu trúc ngữ nghĩa tiềm ẩn tài liệu dựa phân tích mạng Bayesian có thứ bậc văn gốc Bằng cách khám phá việc sử dụng mẫu từ kết nối tài liệu có chứa mẫu tương tự, topic models lên kỹ thuật mạnh mẽ cho việc tìm kiếm cấu trúc hữu ích sưu tập cấu trúc khác *LATENT DIRICHLET ALLOCATION (LDA) Tạm dịch Mô hình Dirichlet ẩn, dựa ý tưởng: tài liệu trộn lẫn nhiều chủ đề, chủ đề phân bố tập từ vựng Cụ thể là, ta có K chủ đề (topics) ứng với tập tài liệu (collection), tài liệu (document) liên quan đến chủ đề theo tỷ lệ khác Lấy ví dụ "Tập tài liệu khoa học JSTOR", trình bày loạt lĩnh vực document kết hợp chúng theo cách khác Một tài liệu thuộc di truyền học (genetics) khoa học thần kinh (neuroscience), khác vể di truyền học công nghệ (technology), khác thuộc thần kinh học công nghệ Thách thức chủ đề trước, mục tiêu cuả phải học chúng từ tập liệu LDA bố trí trực giác thành mô hình biến ẩn (hidden variable model) documents Mô hình biến ẩn phân phối có cấu trúc liệu quan sát tương tác với biến ẩn ngẫu nhiên Với mô hình biến ẩn, người chuyên môn đặt cấu trúc ẩn vào liệu quan sát, sau học cách cấu trúc sử dụng suy luận theo xác suất Trong LDA, liệu quan sát từ (words) document biến ẩn đại diện cho cấu trúc chủ để tiềm ẩn (latent topical structure), tức chủ để cách mà document biểu diễn chúng Với collection, biến ẩn sau dùng để document quan sát xác định suy luận chủ đề ẩn collection Sự tương tác tài liệu quan sát cấu trúc chủ đề ẩn biểu trình tạo chủ để theo xác suất kết hợp với LDA Các trình tạo ngẫu nhiên giả định có liệu quan sát Gọi K số chủ để xác định, V kích thước từ vựng, Vector a K-vector dương η vô hướng Chúng ta đặt Dir (vector a) biểu diễn V-chiều Dirichlet với vector tham số a Dir (η ) biểu diễn K-chiều dirichlet đối xứng với tham số vô hướng η v K

Ngày đăng: 12/04/2016, 11:12

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan