1. Trang chủ
  2. » Luận Văn - Báo Cáo

Phân tích ngữ nghĩa ẩn trong dữ liệu với PLSA

62 21 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Phân tích ngữ nghĩa ẩn trong dữ liệu với PLSA Phân tích ngữ nghĩa ẩn trong dữ liệu với PLSA Phân tích ngữ nghĩa ẩn trong dữ liệu với PLSA luận văn tốt nghiệp,luận văn thạc sĩ, luận văn cao học, luận văn đại học, luận án tiến sĩ, đồ án tốt nghiệp luận văn tốt nghiệp,luận văn thạc sĩ, luận văn cao học, luận văn đại học, luận án tiến sĩ, đồ án tốt nghiệp

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI - LƯU TRỌNG ĐẠI PHÂN TÍCH NGỮ NGHĨA ẨN TRONG DỮ LIỆU VỚI PLSA LUẬN VĂN THẠC SĨ KỸ THUẬT KỸ THUẬT MÁY TÍNH VÀ TRUYỀN THƠNG Hà Nội - 2017 BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI - LƯU TRỌNG ĐẠI PHÂN TÍCH NGỮ NGHĨA ẨN TRONG DỮ LIỆU VỚI PLSA Chuyên ngành : Kỹ thuật máy tính truyền thơng LUẬN VĂN THẠC SĨ KỸ THUẬT KỸ THUẬT MÁY TÍNH VÀ TRUYỀN THÔNG NGƯỜI HƯỚNG DẪN KHOA HỌC TS Thân Quang Khốt Hà Nội - 2017 Phân tích ngữ nghĩa ẩn liệu với PLSA MỤC LỤC LỜI CÁM ƠN .3 LỜI CAM ĐOAN .4 DANH MỤC CÁC TỪ VIẾT TẮT VÀ THUẬT NGỮ .5 DANH MỤC CÁC HÌNH VẼ MỞ ĐẦU .9 CHƯƠNG GIỚI THIỆU ĐỀ TÀI 12 CHƯƠNG CƠ SỞ LÝ THUYẾT 14 2.1 Học máy (Machine Learning) 14 2.2 Ngữ nghĩa ẩn (Hidden semantics) 15 2.3 Mơ hình xác suất (Probabilistic models) 19 2.4 M h nh h 2.4.1 Nh ầ T i .20 a h n h an ản 20 h 2.4.2 Khái niẹ 2.4.3 M h nh h 2.4.4 ng ụng 21 T a i 22 h nh h 24 2.5 Một số thuật ngữ, kí hiệu 27 CHƯƠNG MƠ HÌNH PLSA PHÂN TÍCH NGỮ NGHĨA ẨN TRONG VĂN BẢN 29 3.1 Phân tích ngữ nghĩa ẩn (LSA) 29 3.2 Mơ hình PLSA 31 3.3 Học mô hình thuật tốn EM 35 3.4 Quá trình suy diễn c a mơ hình PLSA 38 CHƯƠNG THỰC NGHIỆM VÀ ĐÁNH GIÁ .39 Phân tích ngữ nghĩa ẩn liệu với PLSA 4.1 Dữ liệu thực nghiệm .39 4.2 Perplexity 40 4.2.1 Perplexity số ượng ch 4.2.2 P r ăng ên 41 xi y k h hước tập huấn luyện ăng ên 42 4.2.3 Khả quát hóa trình học 43 4.3 Độ mạch lạc phân tách c a ch 44 4.4 Thời gian huấn luyện 48 4.5 Likelihood convergence 50 4.5.1 Convergence 50 4.5.2 Likelihood 53 4.6 Số lần lặp trình huấn luyện 55 CHƯƠNG KẾT LUẬN .59 TÀI LIỆU THAM KHẢO 60 Phân tích ngữ nghĩa ẩn liệu với PLSA LỜI CÁM ƠN Đầ trực ti iên ốn g i ời i hướng dẫn ki n h Ti ự h h i ẫn ố hời gian h kh a H Nội hời gian ự gi i iệ n hầy khả ận nh r ng Viện C ng nghệ h ng in giảng ạy r y n ki n h Tr y n h r ng a ng xin ả n gia hời gian hự nghiên Tr ng kiện h nh hướng xin ả h ng – Đại họ T i n h n h nh ới TS Th n Q ang Kh người n y hắ ượ ời g nh ạn hia gi ậ i n y kh ng ránh kh i h h i r ng họ ả hầy ố h n hi h h n ng nhận i a nh Phân tích ngữ nghĩa ẩn liệu với PLSA LỜI CAM ĐOAN Luận ăn Thạ ĩ “Ph n h ngữ nghĩa ẩn liệ ” c a cá nhân Các nội dung nghiên c u k t trình bày luận ăn tài liệu tham khảo, nội dung trích dẫn r ng hực rõ ràng Các ghi rõ ng ồn gốc Ngày 28 tháng năm 2016 Tác giả luận văn Lƣu Trọng Đại Phân tích ngữ nghĩa ẩn liệu với PLSA DANH MỤC CÁC TỪ VIẾT TẮT VÀ THUẬT NGỮ Machine Learning Học máy mộ ĩnh ực trí tuệ nhân tạo Unsupervised learning Học khơng có giám sát Supervised learning Học có giám sát Probabilistic model Mơ hình xác suất LSA Latent semantic analysis: phân tích ngữ nghĩa ẩn PLSA Probabilistic latent semantic analysis: phân tích ngữ nghĩa ẩn có xác suất SVD Sing ar Va D i i n: kĩ h ật phân tích giá tr riêng Training phase Q trình huấn luyện (quá trình học) Inference phase Quá trình suy diễn Corpus Tậ Topic Ch Hidden symatics Ngữ nghĩa ẩn Topic model Mơ hình ch Topic mixture T lệ phân bố c a ch Co-occurrence Bảng liệ Parameters Các tham số c a mơ hình ăn ản r ng ăn ản ồng thời t - ăn ản Phân tích ngữ nghĩa ẩn liệu với PLSA EM Thuậ án Ex a i n Maxi iza i n ùng hóa kì vọng Likelihood Hàm khả Log-likelihood Lấy logarit hàm khả Convergence Hội tụ: ộ cải thiện c a hàm log-likelihood Perplexity Độ khả quát hóa c a mơ hình cự ại Phân tích ngữ nghĩa ẩn liệu với PLSA DANH MỤC CÁC HÌNH VẼ Hình Các ch tập ăn ản [4] 16 mối quan hệ ch Hình Nội dung ẩn ch a bên b c ảnh [4] 17 Hình Những h nh ộng video [4] 17 n người Hình Những cộng ồng mạng mối quan hệ cộng ồng mạng mạng xã hội [4] 18 H nh Cá giai ạn c a mơ hình xác suất [4] 19 Hình Top 10 t có xác suất cao ch họ ược t mơ hình LDA t 350.000 báo c a Nytimes [2] 21 Hình Phân tích ma trận t - ăn ản .22 Hình Mơ hình ch cho liệ Hình Dùng mơ hình ch ăn ản [4] 23 phát ch ẩn tậ ăn ản [4] .24 theo thời gian [4] 25 Hình 10 Dùng mơ hình ch theo dõi hay ổi c a ch Hình 11 Dùng mơ hình ch phát mối quan hệ ch [4] 25 Hình 12 Dùng mơ hình ch tìm hệ thống phân cấp c a ch Hình 13 Dùng mơ hình ch tìm y u tố ảnh hưởng bầu c [4] 26 [4] .26 Hình 14 Minh hoạ cho Bag of words .27 Hình 15 Mơ hình sinh c a PLSA [9] 32 Hình 16 Cấu trúc chung c a mơ hình PLSA [9] 34 Hình 17 Giá tr perplexity c a liệ AP ăng số topic 41 Hình 18 Giá tr perplexity c a liệ Vn x r Hình 19 Sự hay ổi c a r ăng ố topic 42 xi y ăng k h hước huấn luyện 42 Hình 20 Giá tr perplexity lần lặp EM c a AP .43 Hình 21 Giá tr perplexity lần lặp EM c a Vnexpress 44 Hình 22 Thời gian huấn luyện với tài liệu AP 48 Hình 23 Thời gian huấn luyện với tài liệu Vnexpress 49 Hình 24 Thời gian huấn luyện hay ổi kích c tập liệu học 49 Hình 25 So sánh hay ổi giá tr convergence huấn luyện với 10 topic tập liệu AP Vnexpress .50 Phân tích ngữ nghĩa ẩn liệu với PLSA Hình 26 So sánh hay ổi giá tr convergence huấn luyện với 50 topic tập liệu AP Vnexpress .51 Hình 27 So sánh hay ổi giá tr convergence số ượng i ăng ên rên ập liệu AP 52 Hình 28 So sánh hay ổi giá tr convergence số ượng i ăng ên rên ập liệu Vnexpress 52 Hình 29 Giá tr log- ik ih hay ổi số ượng topic c a tập tài liệu AP .53 Hình 30 Giá tr log- ik ih hay ổi số ượng topic c a tập tài liệu Vnexpress 54 Hình 31 So sánh giá tr log-likelihood huấn luyện với 10 topic với liệu AP Vnexpress .54 Hình 32 So sánh giá tr log-likelihood huấn luyện với 50 topic với liệu AP Vnexpress .55 Hình 33 Bi số lần lặp trình học c a tập tài liệu AP .56 Hình 34 Bi số lần lặp trình học c a tập tài liệu Vnexpress .56 Hình 35 Bi so sánh số lần lặ ối với liệu AP Vnexpress 57 Phân tích ngữ nghĩa ẩn liệu với PLSA topic year music actor actress award topic businesses members business prices companies topic attorney guilty case prison trial topic percent million year billion sales topic army military troops forces force topic 10 aid nicaragua president government house topic 11 states government united military human topic 12 0.013533 0.011312 0.010235 0.009150 0.008640 0.013071 0.010452 0.009573 0.008461 0.007613 0.012523 0.011111 0.010613 0.010256 0.009211 0.135081 0.052270 0.048381 0.038156 0.016810 0.023496 0.020424 0.015446 0.013073 0.012075 0.050306 0.010312 0.007329 0.007073 0.006856 0.016698 0.016317 0.013495 0.012802 0.009684 topic 17 water miles river people mph topic 18 accident police condition state officials topic 19 west german germany east berlin topic 20 stock market index points stocks topic 21 company president business corp industry topic 22 soviet republics gorbachev republic communist topic 23 party political government election elections topic 24 46 0.018356 0.016511 0.015094 0.013578 0.009859 0.015038 0.010366 0.010309 0.009386 0.009069 0.045641 0.035775 0.032467 0.032007 0.012115 0.033635 0.029142 0.022363 0.016829 0.016793 0.053760 0.020671 0.019847 0.014264 0.013641 0.028411 0.017687 0.016905 0.009280 0.008611 0.060296 0.020310 0.013866 0.013562 0.012505 Phân tích ngữ nghĩa ẩn liệu với PLSA students school student education schools 0.060755 0.043764 0.020565 0.016223 0.014904 soviet gorbachev union moscow soviets 0.098865 0.025919 0.022746 0.017751 0.016237 Bảng Thống kê từ xuất nhiều kèm theo xác suất từ suy diễn với 100 topic liệu AP topic quốc_gia chính_tr _gia sa_thải ồng_minh i u_khi n topic lo_ngại giải_thích ồng_minh s a_ ổi thời_hạn topic th _ ướng giả luật_pháp gi _người ời topic trao_giải quà_tặng may_mắn ồng_quê ời topic v _nhà_làm coi_trọng cuộ _ ời gặp_chồng cha_mẹ 0.069269 0.068039 0.039839 0.032374 0.024944 0.103460 0.102973 0.070061 0.067802 0.042034 0.060707 0.038458 0.033984 0.024137 0.023127 0.024815 0.024454 0.024284 0.023571 0.022965 0.101676 0.094812 0.023427 0.019592 0.019407 topic chi n_ ấu hệ_thống hịa_bình k _hoạch chống_lại topic ch u_trách_nhiệm ướp d ch_vụ món_hàng gạt topic chính_tr _gia học_viện quốc_gia viện_trợ t topic ướp giả luật_pháp gi _người buộc tội topic 10 ồng_ý ư_ ưởng mục_tiêu chuyên_gia quan_hệ 0.070877 0.035010 0.027023 0.022293 0.019998 0.244388 0.111953 0.035471 0.029955 0.028362 0.049933 0.035405 0.026317 0.023084 0.018945 0.061615 0.039645 0.034111 0.025864 0.025274 0.024228 0.017883 0.016963 0.016679 0.014681 Bảng Một số topic 100 topic suy diễn với liệu Vnexpress 47 Phân tích ngữ nghĩa ẩn liệu với PLSA Khi huấn luyện suy diễn với 100 topic tập liệu Vnexpress (bảng 2), nhìn vào top t có xác suất cao m i ch nha ch bi h hường t ng nha Đi ta có th thấy hai ch h tính phân tách h kh tốt Tuy nhiên n u ch nhìn vào t có xác suất cao nhấ ược ch ang n i vấn g Đi khác h mạch lạ h n với k t suy diễn ối với tập liệu AP 4.4 Thời gian huấn luyện  Thời gian huấn luyện hay ổi số ượng topic: Nhìn hình 22 hình 23 ta thấy k t th nghiệm hai liệu AP Vnexpress u cho thấy số ượng topic trình huấn luyện ăng ên h thời gian huấn luyện ng ăng ên theo V r nh ăng n y n tính 30 25.509306 23.171865 thời gian 25 18.64964 20 14.892448 15 10.930772 8.099804 10 6.166037 4.244319 2.602062 1.15226 10 20 30 40 50 60 70 số topic 80 90 Hình 22 Thời gian huấn luyện với tài liệu AP 48 100 Phân tích ngữ nghĩa ẩn liệu với PLSA 300 266.524384 250 224.411902 192.28268 thời gian 200 151.662475 150 114.83776 96.764091 100 65.377558 39.831694 50 21.500351 9.079403 10 20 30 40 50 60 số topic 70 80 90 100 Hình 23 Thời gian huấn luyện với tài liệu Vnexpress  Thời gian huấn luyện hay ổi kích c tập liệu học: 300 thời gian 250 200 150 Vnexpress 100 AP 50 10 20 30 40 50 60 số topic 70 80 90 100 Hình 24 Thời gian huấn luyện thay đổi kích cỡ tập liệu học Đ ánh giá hay ổi v thời gian trình huấn luyện với PLSA hay ổi k h hước tập liệu học ta có th nhìn hình 24 so sánh v thời gian huấn luyện tập liệu AP Vnexpress Nhìn hình ta thấy với tập liệu lớn h n h n Vn x r h rõ ràng cần nhi u thời gian ối với tập liệu nh h n thực trình học AP Như ậy qua thực nghiệm ta có th 49 Phân tích ngữ nghĩa ẩn liệu với PLSA thấy huấn luyện với tập liệu lớn thời gian huấn luyện ng nhi u 4.5 Likelihood convergence 4.5.1 Convergence ộ cải thiện c a hàm log-likelihood Giá tr Convergence giá tr cho bi trình lặ N i h y giá r xá nh hay ổi giá tr log- likelihood hai vòng lặp liên ti p Giá tr n y ượ ùng c a thuật toán EM Ta s xem xét hay ổi c a C n rg n i u kiện hội tụ hay ổi số ch ng hay ổi k h hước tập liệu trình huấn luyện 4.50E-03 4.00E-03 convergence 3.50E-03 3.00E-03 2.50E-03 2.00E-03 1.50E-03 1.00E-03 5.00E-04 0.00E+00 11 13 15 17 19 21 23 25 27 29 31 33 35 37 39 41 43 số lần lặp EM Vnexpress AP Hình 25 So sánh thay đổi giá trị convergence huấn luyện với 10 topic tập liệu AP Vnexpress 50 Phân tích ngữ nghĩa ẩn liệu với PLSA 9.00E-03 8.00E-03 convergence 7.00E-03 6.00E-03 5.00E-03 4.00E-03 3.00E-03 2.00E-03 1.00E-03 0.00E+00 11 13 15 17 19 21 23 25 27 29 31 33 35 37 39 41 43 45 số lần lặp EM Vnexpress AP Hình 26 So sánh thay đổi giá trị convergence huấn luyện với 50 topic tập liệu AP Vnexpress Thực nghiệm chạy mơ hình PLSA q trình huấn luyện 10 topic hay 50 topic u cho thấy vòng lặ tr convergence liệ Vn x r ầu tiên với hai liệu AP Vnexpress giá u ăng lên nhanh, nhiên giá tr convergence ối với dự ăng ạnh h n Q a h thấy chạy mơ hình PLSA với liệu lớn giá tr convergence vòng lặ ầ iên ng ăng ạnh Đi u th chênh lệch giá tr log-likelihood lớn huấn luyện với liệu lớn vịng lặ ầu tiên 51 Phân tích ngữ nghĩa ẩn liệu với PLSA 1.00E-02 9.00E-03 8.00E-03 convergence 7.00E-03 6.00E-03 5.00E-03 4.00E-03 3.00E-03 2.00E-03 1.00E-03 0.00E+00 11 13 15 17 19 21 23 25 27 29 31 33 35 37 39 41 43 45 47 49 số lần lặp EM 10 topic 30 topic 50 topic 90 topic Hình 27 So sánh thay đổi giá trị convergence số lượng topic tăng lên tập liệu AP 1.00E-02 9.00E-03 8.00E-03 convergence 7.00E-03 6.00E-03 5.00E-03 4.00E-03 3.00E-03 2.00E-03 1.00E-03 0.00E+00 11 13 15 17 19 21 23 25 27 29 31 33 35 37 39 41 43 45 số lần lặp EM 10 topic 30 topic 50 topic 70 topic Hình 28 So sánh thay đổi giá trị convergence số lượng topic tăng lên tập liệu Vnexpress 52 Phân tích ngữ nghĩa ẩn liệu với PLSA T thực nghiệm hai tập liệ AP hình 27 hình 28 a Vn x r ng hấy rõ ràng trình học với số ượng ch ăng ên h giá r convergence vòng lặ ộ a ược k t h ầ iên ng ăng a h n h ộng giá tr log-likelihood lần lặp mạnh h n Và giá tr convergence gần hay ổi số vòng lặ ăng ên Đi n i ên vòng lặp sau giá tr log-likelihood hầ kh ng hay ổi 4.5.2 Likelihood Giá tr Likelihood th m ộ học c a mơ hình khớp với liệu s dụng huấn Giá tr gần mơ hình học tốt Đ ánh giá Lik ih tập a ánh giá Log-likelihood  Khi hay ổi số ượng topic: Ti n hành thực nghiệm với hay ổi số ượng topic trình huấn luyện với m c 10, 40, 70, 100 hai tập liệ A Vn x r a h ược k t hình -5300000 -5400000 10 13 16 19 22 25 28 31 34 37 40 43 46 49 -5500000 log-likelihood -5600000 -5700000 10 topic -5800000 40 topic 70 topic -5900000 100 topic -6000000 -6100000 -6200000 -6300000 số lần lặp EM Hình 29 Giá trị log-likelihood thay đổi số lượng topic tập tài liệu AP 53 Phân tích ngữ nghĩa ẩn liệu với PLSA -55000000 -56000000 10 13 16 19 22 25 28 31 34 37 40 43 46 -57000000 log-likelihood -58000000 -59000000 10 topic -60000000 40 topic 70 topic -61000000 100 topic -62000000 -63000000 -64000000 -65000000 số lần lặp EM Hình 30 Giá trị log-likelihood thay đổi số lượng topic tập tài liệu Vnexpress Th nghiệm hai tập tài liệu AP Vnex r huấn luyện với số ượng u cho thấy trình i ăng ên h giá r log- ik ih ng ăng ên  Khi hay ổi kích c tập tài liệu huấn luyện: log-likelihood -10000000 11 13 15 17 19 21 23 25 27 29 31 33 35 37 39 41 43 45 -20000000 -30000000 -40000000 -50000000 -60000000 -70000000 số lần lặp EM Vnexpress AP Hình 31 So sánh giá trị log-likelihood huấn luyện với 10 topic với liệu AP Vnexpress 54 Phân tích ngữ nghĩa ẩn liệu với PLSA 11 13 15 17 19 21 23 25 27 29 31 33 35 37 39 41 43 45 47 log-likelihood -10000000 -20000000 -30000000 -40000000 -50000000 -60000000 -70000000 số lần lặp EM Vnexpress AP Hình 32 So sánh giá trị log-likelihood huấn luyện với 50 topic với liệu AP Vnexpress ta có th rút nhận xét sau: Nhìn bi Giá tr ik ih ăng ên nhanh vòng lặ vòng lặp cuối giá tr likelihood ổn ầu, gần nh Khi tập huấn với số ượng ch n nhi u lên giá tr likelihood cao Đi u ch ng t huấn luyện với số ượng ch lớn PLSA cho ta mơ hình phù hợp với liệ ược tập huấn Khi hay ổi kích c c a tập liệu ta có th thấy giá tr likelihood lớn h n ập huấn với tập liệu nh h n Tuy nhiên giá tr likelihood c ăng i t số ượng ch topic lên ti p giá tr ik ih nhấ nh n h ăng ố ượng ng kh ng hay ổi 4.6 Số lần lặp trình huấn luyện  Khi hay ổi số ượng topic: Đ ánh giá ự ảnh hưởng ượng i n số lần lặp c a thuật toán EM huấn luyện với số hay ổi, a hay ổi số ượng topic t 10 AP Vnexpress Khi ta có th thấy số ượng ch ựa vào hai bi n 100 hai liệu v số lần lặ a hay ổi số topic trình huấn luyện ăng ên ố lần lặp 55 Phân tích ngữ nghĩa ẩn liệu với PLSA ng kh ng ăng ên Như ậy ta có th thấy số ượng thuật tốn EM hội tụ ch q trình huấn luyện khơng có ảnh hưởng n số lần lặp thuật tốn hội tụ q trình huấn luyện 55 54 54 53 số lần lặp EM 53 54 53 52 52 51 51 48 51 50 50 49 52 48 47 46 45 10 20 30 40 50 60 số topic 70 80 90 100 Hình 33 Biểu đồ số lần lặp trình học tập tài liệu AP 60 số lần lặp EM 50 40 38 42 45 49 50 40 50 60 số topic 47 50 51 50 50 70 80 90 100 30 20 10 10 20 30 Hình 34 Biểu đồ số lần lặp trình học tập tài liệu Vnexpress  Khi hay ổi số ượng tập tài liệu huấn luyện: Nhìn bi so sánh v số lần lặp c a hai tài liệu AP Vnexpress ta có th thấy số lần lặp q trình huấn luyện với tài liệu lớn h n 56 Vn x r ại Phân tích ngữ nghĩa ẩn liệu với PLSA h n với số lần lặp trình huấn luyện với tài liệu AP tất m c học với số ượng i nha Như ậy có th rút nhận xét PLSA học với số topic tập liệu lớn, số lần lặ hội tụ ăng ên n giả i 100 90 80 70 60 50 40 30 20 10 10 20 AP 30 số lần lặp EM 40 50 60 Vnexpress Hình 35 Biểu đồ so sánh số lần lặp liệu AP Vnexpress 57 Phân tích ngữ nghĩa ẩn liệu với PLSA Như ậy, qua phần thực nghiệm mơ hình PLSA hai tập liệu AP Vnexpress ánh giá x xé nhi u khía cạnh ta có th r ược số  Giá tr perplexity c a mô hình t lệ thuận với số ượng ch k h hước nhận xét sau: liệu huấn luyện Khi số ượng ch ăng ên hay k h hước liệu huấn luyện ăng ên h khả khái h a khả ự h nh ng ăng ên Tuy nhiên số ượng ch liệu huấn luyện ăng kh ng hay ổi h hấy a hay k h hước nh giá tr perplexity gần n m c nhấ i án khả khái h a a mơ hình kh ng hay ổi  Thời gian trình huấn luyện c a mơ hình PLSA t lệ thuận, hay nói cách khác, thời gian s ăng ên ột cách n nh a ăng ố ượng ch tập liệu hoặ ăng k h hước c a tập liệu huấn luyện  Giá tr Convergence lần lặ ầu tiên ăng nhanh th thay ổi nhanh c a giá tr Log-likelihood Đi likelihood lần lặ ầ n y ng nghĩa iên ăng mạnh, giá tr log-likelihood cao th trình học tốt t lần lặ thực nghiệm cho thấy giá tr Convergence vòng lặ lệ thuận với số ượng ch tập liệu Đi ch n y ăng ên ik ih giá r log- ầu tiên K t ầ iên ng c a tập liệu huấn luyện hay k h hước c a nghĩa giá r log- ik ih n m c số ượng ch ăng ên ố ượng n h giá r log- kh ng hay ổi  Số lần lặ thuật toán hội tụ ng kh ng PLSA huấn luyện với dự liệ ảnh hưởng cho mơ hình k h hước khác Thậm chí k t thực nghiệm với hai liệu AP Vnexpress cho thấy liệu với k h hước lớn h n a hần ch cần số lần lặ tốn hội tụ 58 h n thuật Phân tích ngữ nghĩa ẩn liệu với PLSA CHƢƠNG KẾT LUẬN Tóm lại, luận ăn n y r nh y lý thuy t v mơ hình xác suất tìm hi u mơ hình học khơng có giám sát s dụng mơ hình ch h nh PLSA ược phát tri n dựa rên h nh LSA ược bổ xung thêm mơ hình ồng xuất xác suất PLSA mơ hình hố xác suất c a liệ phân phối a h i u kiện Ý ưởng h n hợp ch zk gọi PLSA Mô ản c a PLSA dựa việ ột i ăn ản dụng việc k t hợp lớp bi n ẩn PLSA s z1 , z2 , , zK với xuất c a t tài liệu cụ th Trong trình học, s dụng thuật tốn cự ại kì vọng EM ăn ản test, PLSA s dụng mơ hình tìm hình Trong trình suy diễn với tậ ượ ẩn tậ phát ch luận ăn x xé ánh giá qua việc tính giá tr perplexity tìm tham số phù hợp cho mơ ăn ản test Phần thực nghiệm h nh PLSA ưới nhi ch khả khái c a mơ hình PLSA phụ thuộc vào số ượng ch luyện C ng x g ộ h ng h a khả y iễn hay k h hước liệu huấn xé khả hù hợp c a mơ hình với tập liệu huấn luyện thơng qua việc tính tốn giá tr log-likelihood Khả quát hóa giá tr log- ik ih ăng ên cho số ượng luyện ăng ên T y nhiên ố ượng i hay k h hước liệu huấn i hay k h hước liệu m c nh khả qt hóa giá tr log-likelihood kh ng ăng ên nhấ hay nói cách khác hầ kh ng ổi số ượng liệu huấn luyện ăng ên Qua thực nghiệm ng cho thấy ăng gần n tính c a thời gian huấn luyện ăng ố ượng ch liệu lớn Tuy nhiên luận ăn hưa r nh với h nh nh hướng nghiên c t y 59 hay ối với việc so sánh mơ hình PLSA ưa cải ti n r ng ng i hay k h hước h nh PLSA Đ y ng Phân tích ngữ nghĩa ẩn liệu với PLSA TÀI LIỆU THAM KHẢO [1] Thomas Hofmann, Unsupervised learning by probabilistic latent semantic analysis Machine Learning, 42:177–196, 2001 ISSN 0885-6125 [2] David M Blei, Andrew Y Ng, and Michael I Jordan Latent dirichlet allocation the Journal of machine Learning research, 3:993–1022, 2003 [3] Kh a Than T fra w rk f r r i a H an i ni n r D y Kh ng Ng y n “An ff i i n” Neurocomputing, Springer, vol 139, pages 397-407, 2014 [4] David M Blei Probabilistic topic models, Machine Learning Summer School, Department of Computer Science Princeton University, August 22, 2011 [5] Deerwester, S., Dumais, G W., Furnas, S T., Landauer, T K., & Harshman, R (1990) Indexing by latent semantic analysis Journal of the American Society for Information Science, 41, 391–407 [6] Dumais, S T (1995) Latent semantic indexing (LSI): TREC-3 report In D.K 60 ... ăn ản th d 28 zk z k tài liệu d i Phân tích ngữ nghĩa ẩn liệu với PLSA CHƢƠNG MƠ HÌNH PLSA PHÂN TÍCH NGỮ NGHĨA ẨN TRONG VĂN BẢN Chư ng n y trình bày ki n th c v mơ hình PLSA, trình huấn luyện (training... Phân tích ngữ nghĩa ẩn liệu với PLSA Hình 12 Dùng mơ hình chủ đề để tìm hệ thống phân cấp chủ đề [4] Hình 13 Dùng mơ hình chủ đề để tìm yếu tố ảnh hưởng bầu cử [4] 26 Phân tích ngữ nghĩa ẩn liệu. .. xét qua số ví dụ v ngữ nghĩa ẩn 15 n h ần ngữ y a xem Phân tích ngữ nghĩa ẩn liệu với PLSA Hình Các chủ đề mối quan hệ chủ đề tập văn [4] Ví dụ ầu tiên ta xét ngữ nghĩa ẩn liệu dạng ăn ản Giả s

Ngày đăng: 12/02/2021, 22:06

Xem thêm:

TỪ KHÓA LIÊN QUAN

w