1. Trang chủ
  2. » Tất cả

Mô hình chủ đề gk lda

76 2 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 76
Dung lượng 2,84 MB

Nội dung

TỔNG QUAN Mơ hình chủ đề Tổng quan số mơ hình LDA LDA MDK-LDA GK-LDA Thực nghiệm MƠ HÌNH CHỦ ĐỀ Đặt vấn đề ● Có tập lớn viết (hàng chục, hàng trăm nghìn viết) => cần phân loại viết ● Phân loại chủ đề giúp đọc hiểu, lựa chọn tìm kiếm thơng tin có nội dung xác định nhanh xác Mơ hình chủ đề Kết Huấn luyện Tập văn Văn Túi đựng từ(BoW) Định nghĩa quy trình sinh Ước lượng tham số Ma trận N * K Biểu diễn văn bản-chủ đề Ma trận K * V Biểu diễn chủ đề-từ Ví dụ Ví dụ Tổng quan số mơ hình LDA GK-LDA ● Là mơ hình chủ đề ● Cải tiến từ LDA GK-LDA LDA (2003) +Sử dụng tri thức đa miền MDK-LDA (2010) +Sử dụng tri thức độc lập miền GK-LDA (2013) Cấu trúc ● LDA: Khái niệm, mơ hình ● MDK-LDA: Cải tiến mơ hình ● GK-LDA: Cải tiến liệu đầu vào Thực nghiệm Dữ liệu ● 2000 đánh giá (review) từ Amazon.com ● miền: Camera, Cell Phone, Food, Computer ● LR-sets: Danh từ - Tính từ ○ Ví dụ: Price - expensive, cheap Thực nghiệm - Giới thiệu phần mềm ● Mã nguồn công bố github tác giả: https://github.com/czyuan/GKLDA ● Ngơn ngữ lập trình: Java Thực nghiệm - Giới thiệu liệu ● Dữ liệu công bố trang chủ tác giả: https://www.cs.uic.edu/~zchen/ ● Dữ liệu chạy qua công cụ CoreNLP đại học Stanford: https://stanfordnlp.github.io/CoreNLP/ Thực nghiệm - Xử lý liệu ● Dữ liệu mẫu trình bày dạng XML, cần chuyển đổi dạng liệu mà chương trình xử lý Thực nghiệm - Quá trình Thực nghiệm - Quá trình ● Mục tiêu: Đưa liệu dạng XML file liệu Domain.vocab Domain.docs ○ Mỗi dòng Domain.docs đại diện cho văn bản, chứa danh sách id định danh cho từ ○ Domain.vocab chứa danh sách id định danh, phân cách dấu “:” Thực nghiệm - Quá trình Thực nghiệm - Quá trình ● Yêu cầu: Chỉ sử dụng danh từ tính từ để xây dựng cặp L-R đặc trưng topic động từ có mức độ nhiễu cao ● Loại bỏ dấu câu, từ dừng (stop words), số từ xuất lần tập văn (corpus) ● Tên domain loại bỏ số lần xuất nhiều, gây nên tương đồng topic Thực nghiệm - Quá trình Thực nghiệm - Quá trình ● Sau xử lý xong liệu đầu vào ta bắt đầu q trình thực nghiệm ● Mơ hình huấn luyện cách sử dụng 2000 vòng lặp với số lần burn-in ban đầu 200 ● Các tham số thiết lập: ○ α = 1, β = 0.1, κ = 15 ○ λ = 2000, σ = 0.2, τ = Thực nghiệm - Kết ● Output chương trình trả tệp liệu: ○ Domain.docs: ○ Domain.knowl ○ Domain.param ○ Domain.tassign: Chủ đề từ tập văn ○ Domain.twdist: Phân phối chủ đề tên tập từ ○ Domain.tword: Top từ liên quan đến chủ đề ○ Domain.vocab Thực nghiệm - Kết Thực nghiệm - Kết ● Script xử lý liệu viết ngôn ngữ Python tại: https://github.com/ngcaobaolong/GKLDA/blob/maste r/Data/Input/Dataset/datasets_extractor.py ● Script xử lý kết viết ngôn ngữ Python tại: https://github.com/ngcaobaolong/GKLDA/blob/maste r/Data/Output/LearningIteration1/DomainModels/creat e_table.py Cảm ơn thầy bạn lắng nghe ... mơ hình LDA GK- LDA ● Là mơ hình chủ đề ● Cải tiến từ LDA GK- LDA LDA (2003) +Sử dụng tri thức đa miền MDK -LDA (2010) +Sử dụng tri thức độc lập miền GK- LDA (2013) Cấu trúc ● LDA: Khái niệm, mơ hình. .. nhanh xác Mơ hình chủ đề Kết Huấn luyện Tập văn Văn Túi đựng từ(BoW) Định nghĩa quy trình sinh Ước lượng tham số Ma trận N * K Biểu diễn văn bản -chủ đề Ma trận K * V Biểu diễn chủ đề- từ Ví dụ... ○ Số lượng chủ đề K ○ Từ điển có V từ Bài toán ● Đầu ra: ○ Ma trận M * K: Biểu diễn tập văn dạng hỗn hợp chủ đề ○ Ma trận K * V: Biểu diễn chủ đề dạng hỗn hợp từ Các biểu diễn toán LDA Các biểu

Ngày đăng: 26/02/2023, 15:28

TỪ KHÓA LIÊN QUAN

w