1. Trang chủ
  2. » Luận Văn - Báo Cáo

Học biểu diễn ngữ nghĩa của từ

53 15 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 53
Dung lượng 737,06 KB

Nội dung

Học biểu diễn ngữ nghĩa của từ Học biểu diễn ngữ nghĩa của từ Học biểu diễn ngữ nghĩa của từ luận văn tốt nghiệp,luận văn thạc sĩ, luận văn cao học, luận văn đại học, luận án tiến sĩ, đồ án tốt nghiệp luận văn tốt nghiệp,luận văn thạc sĩ, luận văn cao học, luận văn đại học, luận án tiến sĩ, đồ án tốt nghiệp

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI ————————————— VŨ HOÀNG DIỆU HỌC BIỂU DIỄN NGỮ NGHĨA CỦA TỪ Chuyên ngành: Khoa học liệu LUẬN VĂN THẠC SĨ KHOA HỌC KHOA HỌC MÁY TÍNH NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS.TS Thân Quang Khoát HÀ NỘI - 2020 LỜI CAM ĐOAN Tôi cam kết luận văn cơng trình nghiên cứu thân tơi, hướng dẫn PGS.TS Thân Quang Khốt Các kết công bố báo cáo trung thực, chép cá nhân, tổ chức công bố khác Tất trích dẫn tham chiếu rõ ràng Ngày 30 tháng năm 2020 Tác giả luận văn Vũ Hoàng Diệu Xác nhận người hướng dẫn PGS.TS Thân Quang Khoát Lời Cảm Ơn Đầu tiên, em xin gửi lời cảm ơn chân thành đến thầy giáo, cô giáo thuộc Trường Đại Học Bách Khoa Hà Nội Trong trình học tập trường, em thầy cô trang bị kiến thức quý báu, đặc biệt thầy cô Viện Công nghệ thông tin Truyền thông Và may mắn em tham gia nghiên cứu thầy cô Data Science Lab từ năm học thứ hai để em có định hướng nghiên cứu chuyên sâu từ sớm Em xin cảm ơn giúp đỡ bảo tận tình, tâm huyết PGS.TS Thân Quang Khốt, ThS Ngơ Văn Linh Nhờ kiến thức trình làm việc với thầy, em có nhiều kinh nghiệm, kiến thức để hoàn thành luận văn cách tốt Em xin chân thành cảm ơn đồng hành anh Trương Giang Khang anh Nguyễn Bảo Khánh em hồn thiện cơng việc Em xin gửi lời cảm ơn chân thành tới thầy cô thuộc Data Science Lab thuộc Viện Công Nghệ Thông Tin Truyền Thông tạo điều kiện cho em thực hành thử nghiệm máy tính Lab Em xin gửi lời cảm ơn tới gia đình bạn bè Gia đình bạn bè ln chỗ dựa vững để em hồn thành cơng việc Học viên Vũ Hồng Diệu Tóm Tắt Luận Văn Học biểu diễn ngữ nghĩa cho từ có vai trò ngày quan trọng nhiều ứng dụng Tuy nhiên, hầu hết phương pháp học thường khơng trọng đến tính tách biệt tính diễn giải biểu diễn từ Trong nội dung luận văn này, đề xuất khảo sát cách tiếp cận hồn tồn có tên SWET Cách tiếp cận học biểu diễn ngữ nghĩa cho từ mà có sử dụng thơng tin nhãn lớp văn cách sử dụng mơ hình chủ đề với liệu gán nhãn SWET kế thừa tính diễn giải cách tự nhiên từ mơ hình chủ đề, tính tách biệt từ việc suy diễn có giám sát khả phi tham số (không cần lựa chọn trước số chiều vec-tơ biểu diễn từ) Một điểm quan trọng hơn, SWET cho phép khai khác trực tiếp lượng lớn mơ hình chủ đề bao gồm mơ hình khơng giám sát, có giám sát phi tham số để học biểu diễn có giám sát từ Đặc biệt, SWET có khả học đồng thời biểu diễn từ số chiều việc sử dụng mơ hình chủ đề phi tham số Điều vượt qua khả phương pháp Trong luận văn này, chúng tơi trình bày thực nghiệm để chứng minh SWET vượt trội nhiều phương pháp khơng giám sát cạnh tranh với phương pháp có giám sát tốt Kết nghiên cứu từ luận văn gửi đăng tạp chí Journal of Information Science and Engineering Abstract Word embeddings are playing a crucial role in a variety of applications However, most previous works focus on word embeddings which are either non-discriminative or hardly interpretable In this work, we investigate a novel approach, referred to as SWET, which learns supervised word embeddings using topic models from labeled corpora SWET inherits the interpretability of topic models, the discriminativeness of supervised inference from labels, and the non-parametricity More importantly, SWET enables us to directly exploit a large class of existing unsupervised, supervised, and non-parametric topic models to learn supervised word embeddings By employing non-parametric models, SWET is able to simultaneously learn both the embeddings and its dimensionality, thus overcomes a limitation of existing word embedding methods Extensive experiments show that SWET outperforms unsupervised approaches by a large margin, and are highly competitive with supervised baselines The result of this work was submitted to Journal of Information Science and Engineering Mục lục Giới Thiệu Đề Tài 12 Cơ sở lý thuyết 2.1 Mơ hình chủ đề 2.1.1 Học chủ đề ẩn liệu văn chữ 2.1.2 Mơ hình LDA 2.1.3 Bài toán suy diễn cho mơ hình LDA 2.2 Mơ hình phi tham số 2.3 Mơ hình chủ đề có giám sát 2.4 Biển diễn ngữ nghĩa từ 2.4.1 Tra cứu từ điển 2.4.2 Mã hóa từ one-hot 2.4.3 Bộ nhúng từ 15 15 15 16 21 24 26 28 28 28 29 32 32 32 32 33 33 35 35 35 36 37 38 38 40 41 41 43 43 44 44 46 Bộ nhúng từ có giám sát với mơ hình chủ đề (SWET) 3.1 Phương pháp 3.1.1 Cách tiếp cận có giám sát 3.1.2 Cách tiếp cận dựa SDR 3.1.3 Cách tiếp cận phi tham số 3.2 Tính khả thi SWET 3.3 Một số tính chất SWET 3.3.1 Tính diễn giải 3.3.2 Tính tách biệt 3.3.3 Tính chất phi tham số Thử nghiệm đánh giá 4.1 Phân tích tính tách biệt tính diễn giải 4.1.1 Tính diễn giải 4.1.2 Tính tách biệt: 4.2 Ứng dụng phân loại văn 4.2.1 Phương pháp đối sánh 4.2.2 Thiết lập thử nghiệm 4.2.3 Phương pháp đánh giá 4.2.4 Kết phân tích 4.2.5 Phân tích ảnh hưởng siêu tham số 4.3 Bộ nhúng từ có giám sát phi tham số Kết luận 48 6 Tài liệu tham khảo 49 Danh sách từ viết tắt thuật ngữ LDA Latent Dirichlet Allocation pLSI probabilistic Latent Semantic Analysis SDR Giảm chiều có giám sát SWE Bộ nhúng từ có giám sát SWET Bộ nhúng từ có giám sát học mơ hình chủ đề Multinominal Phân phối ngẫu nhiên đa thức Dir Phân phối Dirichlet VB Variational Bayesian FW Frank-Wolfe Minibatch Đoạn liệu Train Học - huyến luyện Test Kiểm tra Topic Chủ đề Prior Tri thức tiên nghiệm Variational Inference Suy diễn biến phân Variational distribution Phân phối biến phân Posterior distribution Phân phối hậu nghiệm Prior distribution Phân phối tiền nghiệm Predictive Probability Xác xuất tiên đoán HDP Hierarchical Dirichlet Processes DP Quá trình Dirichlet Origin Nguyên Danh sách kí hiệu dùng luận văn ψ Hàm Digamma Γ Hàm Gamma Kí hiệu cho "được định nghĩa là" K Số chủ đề sử dụng mơ hình LDA V Kích thước từ vựng tập văn β Ma trận (K,V) hàng xác suất từ chủ đề θ Vectơ tỷ lệ chủ đề văn wn Từ thứ n văn zn Chủ đề từ thứ n văn dj Số lượng từ thứ j văn d η Tham số phân phối tiên nghiệm cho β α Tham số phân phối tiên nghiệm cho θ γ Tham số phân phối biến phân ứng với θ φ Tham số phân phối biến phân ứng với z λ Tham số phân phối biến phân ứng với β Danh sách hình vẽ Biểu diễn đồ thị xác suất mơ hình LDA (Bên trái) Biểu diễn mơ hình trộn q trình Dirichlet dạng mơ hình đồ thị (Bên phải) Mơ hình trộn q trình Dirichlet phân cấp Trong mơ hình trên, node đồ thị liên kết với biến ngẫu nhiên, nốt màu ghi thể biến quan sát [29] Mơ hình Supervised LDA [29] Biểu diễn one-hot từ Hai mơ hình Word2vec [1] Minh họa tính diễn giải cho biểu diễn từ "advertisement" (a) thể liên quan chủ đề với từ "advertisement", học SWET-SDR (b) thể nhúng từ đại diện cho chủ đề 216 (đỏ), 96 (xanh lá), 294 (xanh dương), có liên quan nhiều với từ "advertisement" (c) and (d) minh họa biểu diễn từ học Word2Vec and LEAM tương ứng So sánh tính tách biệt SWET-SDR, Word2Vec, LEAM Các điểm có màu kiểu từ đặc trưng lớp Độ xác SWET-SDR SWET-FSLDA số lượng chủ đề tăng 10 17 25 26 29 30 39 41 45 (a) Tỉ lệ chủ đề từ "advertisement" (b) Bộ nhúng từ học SWET-SDR (c) Bộ nhúng từ học Word2Vec (d) Bộ nhúng từ học LEAM Hình 6: Minh họa tính diễn giải cho biểu diễn từ "advertisement" (a) thể liên quan chủ đề với từ "advertisement", học SWET-SDR (b) thể nhúng từ đại diện cho chủ đề 216 (đỏ), 96 (xanh lá), 294 (xanh dương), có liên quan nhiều với từ "advertisement" (c) and (d) minh họa biểu diễn từ học Word2Vec and LEAM tương ứng tách biệt chủ đề, điều có nghĩa chúng khơng thể giải thích cho từ dựa vào chiều vec-tơ biểu diễn Để đánh giá cách toàn diện hơn, chúng tơi đánh giá định lượng tính diễn giải chiều Chúng lựa chọn từ đại diện chiều cách lấy tập từ mà có giá trị lớn chiều Sau chúng tơi tính giá trị NPMI [8] từ chọn Với chiều t vec-tơ nhúng, chúng tơi chọn k từ có giá trị cao chiều w1 , w2 , , wk sau tính NPMI chiều công thức đây: P (w ,w ) i j log P (wi )P (wj ) N P M I(t) = i

Ngày đăng: 01/05/2021, 07:47

TỪ KHÓA LIÊN QUAN

w