Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 89 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
89
Dung lượng
1,65 MB
Nội dung
1 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƢỜNG ĐẠI HỌC CÔNG NGHỆ - TRẦN THỊ HIỀN XỬ LÝ NHẬP NHẰNG NGHĨA CỦA TỪ SỬ DỤNG HỌC MÁY KHÔNG GIÁM SÁT LUẬN VĂN THẠC SỸ CÔNG NGHỆ THÔNG TIN Hà Nội – 2014 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƢỜNG ĐẠI HỌC CÔNG NGHỆ - TRẦN THỊ HIỀN XỬ LÝ NHẬP NHẰNG NGHĨA CỦA TỪ SỬ DỤNG HỌC MÁY KHƠNG GIÁM SÁT Ngành: Cơng nghệ thơng tin Chun ngành: Kỹ thuật phần mềm Mã số: 60480103 LUẬN VĂN THẠC SỸ CÔNG NGHỆ THÔNG TIN NGƢỜI HƢỚNG DẪN KHOA HỌC: TIẾN SĨ NGUYỄN PHƢƠNG THÁI Hà Nội – 2014 LỜI CẢM ƠN Để hoàn thành đƣợc luận văn thạc sỹ này, trƣớc hết xin gửi lời cảm ơn sâu sắc đến TS.Nguyễn Phƣơng Thái Thầy cung cấp cho kiến thức, tài liệu, phƣơng pháp nghiên cứu vấn đề mang tính khoa học Thầy thƣờng xun đƣa giúp tơi có ý tƣởng làm luận văn Tôi xin chân thành cảm ơn thầy hỗ trợ chân thành nhiệt tình suốt thời gian qua Tơi xin bày tỏ lịng biết ơn tới thầy, giáo Bộ môn Công nghệ phần mềm, Khoa Công nghệ thơng tin - Phịng Đào tạo sau đại học - Nghiên cứu Khoa học, Trƣờng Đại học Công nghệ - Đại học Quốc gia Hà Nội tạo điều kiện tốt để tơi hồn thành khóa học Đồng thời, tơi xin cảm ơn gia đình, bạn bè, ngƣời ln khuyến khích giúp đỡ tơi hồn cảnh khó khăn Tơi xin cảm ơn quan đồng nghiệp tạo điều kiện cho suốt thời gian học tập rèn luyện trƣờng Đại học Công nghệ - Đại học Quốc gia Hà Nội Tôi xin chân thành cảm ơn bạn Hoàng Thanh Tùng – K53 Trƣờng Đại học Công nghệ - Đại học Quốc gia Hà Nội có góp ý quý báu đề tài nghiên cứu Hà Nội, ngày 28 tháng 10 năm 2014 Học viên Trần Thị Hiền LỜI CAM ĐOAN Tơi xin cam đoan kiến thức trình bày luận văn tơi tìm hiểu, nghiên cứu trình bày theo cách hiểu thân dƣới hƣớng dẫn trực tiếp TS.Nguyễn Phƣơng Thái Trong q trình làm luận văn tơi có tham khảo tài liệu có liên quan ghi rõ nguồn gốc tham khảo tài liệu Mọi chép không hợp lệ, vi phạm quy chế đào tạo tơi xin chịu hồn tồn trách nhiệm Hà nội, ngày 28 tháng 10 năm 2014 Học viên Trần Thị Hiền MỤC LỤC LỜI CẢM ƠN LỜI CAM ĐOAN MỤC LỤC DANH MỤC CÁC KÍ HIỆU, TỪ VIẾT TẮT DANH MỤC CÁC HÌNH VẼ DANH MỤC CÁC BẢNG BIỂU MỞ ĐẦU CHƢƠNG I: GIỚI THIỆU 10 1.1 WSI WSD 10 1.2 Phƣơng pháp tiếp cận cho WSD 11 1.3 Phƣơng pháp tiếp cận cho WSI 12 1.3.1 Phƣơng pháp phân cụm 12 1.3.2 Đồ thị xuất đồng thời (Co-occurrence graphs ) 14 1.3.3 Mục tiêu đề tài 15 1.3.4 Ứng dụng đề tài 16 CHƢƠNG II: BÀI TỐN MƠ HÌNH CHỦ ĐỀ VÀ CÁC TIẾP CẬN ĐIỂN HÌNH 17 2.1 Tổng quan mơ hình chủ đề 17 2.2 LDA 18 2.3 CTM 20 2.4 HDP 22 2.5 Ứng dụng mơ hình chủ đề 24 2.6 Sử dụng mơ hình chủ đề WSI 26 2.6.1 Ngữ cảnh địa phƣơng ngữ cảnh toàn cục 26 2.6.2 Xem toán WSI nhƣ tốn mơ hình chủ đề 26 CHƢƠNG III: SỬ DỤNG PHƢƠNG PHÁP HDP CHO WSI 28 3.1 Tổng quan HDP 28 3.1.1 Thiết lập 30 3.1.2 Dirichlet Process 31 3.1.3 HDP 32 3.2 Sử dụng phƣơng pháp HDP cho WSI 38 3.2.1 Giới thiệu 38 3.2.2 WSI dựa vào phƣơng pháp Bayes 39 3.3 So sánh phƣơng pháp HDP với LDA CTM 41 CHƢƠNG IV: ĐÁNH GIÁ VÀ KẾT QUẢ THỰC NGHIỆM 46 4.1 Mô tả liệu 46 4.1.1 Tập liệu huấn luyện 47 4.1.2 Tập liệu thử nghiệm 48 4.2 Phƣơng pháp đánh giá 48 4.2.1 Đánh giá không giám sát 49 4.2.2 Đánh giá giám sát 52 4.3 Thực nghiệm 53 4.3.1 Tiền xử lý liệu 54 4.3.2 Phƣơng pháp huấn luyện thử nghiệm 55 4.3.3 Xử lý liệu đầu 56 4.4 Kết so sánh 58 4.4.1 Hiệu suất hệ thống 59 4.4.2 Kết đánh giá không giám sát 59 4.4.3 Kết đánh giá giám sát 62 KẾT LUẬN VÀ HƢỚNG PHÁT TRIỂN 65 TÀI LIỆU THAM KHẢO 66 PHỤ LỤC 68 DANH MỤC CÁC KÍ HIỆU, TỪ VIẾT TẮT Từ viêt tắt Từ tiếng Anh CBC Clustering By Committee CTM Correlated Topic Model DP Dirichlet Proceses GS Gold Sense HDP Hierarchical Dirichlet Proceses LDA Latent Dirichlet Allocation MFS Most Frequent Sense Plsi Probabilistic latent semantic indexing POS Part Of Speech WSD Word Sense Disambiguation WSI Word Sense Induction WSID Word Sense Induction and Discrimination DANH MỤC CÁC HÌNH VẼ Hình 1.1: Ví dụ mơ hình siêu đồ thị 14 Hình 2.1: Biểu diễn đồ họa LDA 19 Hình 2.2: Quá trình sinh CTM 22 Hình 2.3: Mơ hình hỗn hợp HDP 23 Hình 2.4: Các từ trực quan hình ảnh 25 Hình 3.1: Mơ hình hỗn hợp HDP 33 Hình 3.2: Mơ tả quyền kinh doanh nhà hàng Trung Hoa 35 Hình 3.3: Lantent Dirichlet Allocation cho WSI 39 Hình 3.4: Mơ hình HDP cho WSI 41 Hình 3.5: Hiệu suất mơ hình Brody Lapata với số lƣợng ngữ nghĩa khác 42 Hình 3.6: Kết F1 – Measure sử dụng phƣơng pháp LDA HDP cho WSI với tập liệu thi SemEval 2007 43 Hình 4.1: Các giai đoạn huấn luyện, thử nghiệm đánh giá SemEval-2010 task14 46 Hình 4.2: Các bƣớc trình làm thực nghiệm 53 Hình 4.3: Ví dụ kết tiền xử lý liệu 54 DANH MỤC CÁC BẢNG BIỂU Bảng 1.1: Precision, recall and F-measure thuật toán phân cụm 13 Bảng 1.2: Kết siêu đồ thị dựa hệ thống MFS 15 Bảng 2.1: Xác định nghĩa từ “accounting” 25 Bảng 3.1: Ví dụ phân cụm từ mục tiêu “deploy” sử dụng LDA 44 Bảng 3.2: Ví dụ phân cụm từ mục tiêu “deploy” sử dụng CTM 44 Bảng 3.3: Ví dụ phân cụm từ mục tiêu “deploy” sử dụng HDP 44 Bảng 4.1: Chi tiết tập huấn luyện tập thử nghiệm 47 Bảng 4.2: Tạo tập huấn luyện: Các truy vấn cho từ mục tiêu failure 48 Bảng 4.3: Ma trận nghĩa phân cụm GS 52 Bảng 4.4: So sánh giống khác hai hệ thống 57 Bảng 4.5: Thời gian thực chƣơng trình .58 Bảng 4.6: Đánh giá không giám sát theo V-Measure 60 Bảng 4.7: Đánh giá không giám sát theo Paired F-Score 61 Bảng 4.8: Supervised recall (SR) (tập thử nghệm đƣợc chia :80% ánh xạ, 20% đánh giá) 62 Bảng 4.9: Supervised recall (SR) (tập thử nghệm đƣợc chia :60% ánh xạ, 40% đánh giá) 63 MỞ ĐẦU Xử lý nhập nhằng ngữ nghĩa từ vấn đề đƣợc nhiều nhà nghiên cứu lĩnh vực xử lý ngôn ngữ tự nhiên quan tâm đến Vì có nhiều cách tiếp cận khác để giải vấn đề xử lý nhập nhằng ngữ nghĩa chẳng hạn nhƣ phƣơng pháp dựa vào tri thức (knowledge-based methods) [1] phƣơng pháp dựa vào kho ngữ liệu (corpus-based methods) Đối với phƣơng pháp thứ hai, phƣơng pháp sử dụng học có giám sát, học khơng có giám sát kết hợp hai phƣơng pháp Nói chung, phƣơng pháp học có giám sát cho kết với độ xác cao nhƣng nhƣợc điểm phƣơng pháp địi hỏi tiêu tốn cơng sức việc xây dựng tập liệu gán nhãn, lại khơng nhận biết đƣợc nghĩa từ trƣờng hợp Trong phƣơng pháp khơng giám sát khắc phục đƣợc hai nhƣợc điểm Do đó, phƣơng pháp học không giám sát hƣớng đƣợc ý để giải vấn đề Nó phân cụm trƣờng hợp xuất từ văn bản, cụm thể nghĩa WSI (Word Sense Induction) hƣớng tiếp cận không giám sát cho vấn đề này, WSI cho thấy lợi cho việc xử lý nhập nhằng nghĩa từ số lĩnh vực mà liệu huấn luyện đƣợc thích khơng có sẵn số lƣợng nghĩa từ khác phụ thuộc vào mục đích khác Trong có nhiều phƣơng pháp cho WSI, phân cụm theo ngữ cảnh giải pháp hiệu đƣợc sử dụng rộng rãi Luận văn tập trung vào việc áp dụng mơ hình Bayes phi tham số (Nonparametric Bayesian model) Hierarchical Dirichlet Process ( HDP) cho toán WSI Kết đƣợc thể thông qua việc so sánh với phƣơng pháp Latent Dirichlet Allocation (LDA) - mơ hình Bayes có tham số Blei Jordan [3] cho vấn đề này, đƣợc so sánh với phƣơng pháp Blei Lafferty [2] Correlated Topic Model (CTM) với tập liệu toán số 14 thi SemEval - 2010 Ta thấy mơ hình HDP vƣợt trội chất lƣợng xác định nghĩa có ƣu điểm xác định cách tự động số lƣợng nghĩa biến đổi từ LDA, CTM lại cần số nghĩa cố định trƣớc đƣợc xây dựng tay Đó vƣợt trội cách tiếp cận WSI dựa HDP so với cách tiếp cận khác Ngồi phần kết luận, luận văn đƣợc trình bày thành chƣơng với nội dung đƣợc trình bày nhƣ sau: 73 their we'll you've v almost back theirs we're your x alone be them we've yours y along became themselv were yourself w already because es weren't z also become then what yourselv es mr although becomes there what's a mrs always becomin there's when b one am g these when's c two among been they where d three amongst before they'd where's e four they'll f beforeha nd which five amoungs t they're g six amount behind while they've h seven an being who this i eight and below who's those j nine another beside whom through k ten any besides why to l a anyhow between why's too m about anyone beyond with under n above anything bill won't until o across anyway both would up p after very you q anywher e bottom wouldn't was r are by you'd afterwar ds wasn't s again around call you'll we t against as can you're u all at cannot we'd but 74 cant even get in moreove off co ever give inc r often compute every go indeed most on r everyone had interest mostly once has into move one could everythi ng hasnt is much only couldnt everywh have it must onto cry ere he its my or de except hence itself myself other describe few her keep name others detail fifteen here last namely fify hereafter latter neither otherwis e done fill hereby latterly never our down find herein least neverthe ours due fire less less during first hereupo n next ourselve s each five hers nine out made eg for herself no over many eight former him nobody own may either formerly himself none part me eleven forty his noone per meanwhi else found how le nor perhaps elsewher e four however might not please from hundred mill nothing put empty front i mine now rather enough full ie more nowhere re etc further if of same ltd 75 see sometim thereby top wheneve will seem e therefore toward r with seemed sometim therein towards where within thereupo twelve whereaft without n twenty es seeming seems serious several she should show side since sincere six sixty so some somewh ere two they un such thick system you wherein under until third up ten yet whereby thin take would whereas these still your whereup on this upon whereve r those us whether though very which three via while through was whither througho ut we who well whoever were whole what whom whatever whose when why than that the their them themselv er es thru someho w someone somethin g then thus thence to there together thereafte r too whence yours yourself yourselv es bnc null amp ll 's 't ll 're re 76 Ví dụ kết định dạng liệu thơ sang liệu chƣơng trình Blei: 22 1355:4 445:1 1693:2 735:1 1980:1 855:1 1704:3 449:1 1146:2 2014:1 504:1 366:2 400:2 919:2 261:1 791:2 830:1 1933:2 1201:2 289:1 1230:2 1568:1 18 168:1 479:2 486:1 728:1 783:1 1639:2 365:1 456:1 1885:1 1566:1 1260:1 1729:1 1365:1 1428:2 398:1 124:1 1409:1 106:3 27 1341:1 1577:1 1508:2 1723:1 179:1 593:3 633:1 901:1 1924:2 693:1 1997:4 1667:1 530:1 1970:1 1127:1 376:1 359:2 1583:1 1706:1 1672:1 365:1 399:1 132:2 1247:1 653:1 563:3 1974:1 Ví dụ định dạng file kết chƣơng trình C.Wang: d w z t 13 650 13 13 32 13 1367 13 13 541 13 1394 13 13 1220 13 13 1763 13 13 236 13 717 13 13 527 13 13 1590 13 13 1487 13 150 13 1413 13 13 717 13 1192 44 1160 13 44 365 44 1820 13 44 1221 44 1683 44 1974 17 44 1180 13 44 1343 44 182 13 44 1872 13 Ví dụ định dạng kết đầu từ access access.n access.n access.n access.n access.n access.n access.n access.n.1 access.n.2 access.n.3 access.n.4 access.n.5 access.n.6 access.n.7 access.n.3 access.n.29 access.n.21 access.n.16 access.n.16 access.n.30 access.n.4 77 Kết tính V-Measure HDP STT Lemma V-Measure Homogeneity Completeness access.n 0.298 0.432 0.227 accommodate.v 0.259 0.315 0.22 accounting.n 0.374 0.657 0.261 address.n 0.588 0.662 0.53 air.n 0.266 0.367 0.208 analyze.v 0.081 0.438 0.045 appeal.v 0.24 0.323 0.191 apply.v 0.223 0.307 0.175 assemble.v 0.147 0.289 0.099 10 assert.v 0.298 0.487 0.215 11 body.n 0.196 0.268 0.155 12 bow.v 0.341 0.365 0.32 13 camp.n 0.429 0.489 0.382 14 campaig.n 0.181 0.292 0.131 15 cell.n 0.436 0.725 0.311 16 challenge.n 0.333 0.558 0.237 17 cheat.v 0.305 0.641 0.2 18 chip.n 0.233 0.385 0.167 78 19 class.n 0.302 0.419 0.236 20 commission.n 0.307 0.496 0.222 21 commit.v 0.139 0.275 0.093 22 community.n 0.213 0.322 0.16 23 conclude.v 0.232 0.35 0.174 24 cultivate.v 0.383 0.628 0.276 25 dealer.n 0.306 0.514 0.218 26 defend.v 0.099 0.205 0.066 27 deny.v 0.109 0.314 0.066 28 deploy.v 0.319 0.472 0.241 29 display.n 0.381 0.525 0.299 30 divide.v 0.308 0.478 0.227 31 edge.n 0.424 0.466 0.39 32 entry.n 0.28 0.389 0.219 33 expose.v 0.133 0.226 0.094 34 failure.n 0.353 0.491 0.275 35 field.n 0.355 0.496 0.276 36 figure.v 0.245 0.352 0.188 37 flight.n 0.247 0.366 0.186 38 foundation.n 0.229 0.403 0.16 39 frame.v 0.565 0.768 0.447 79 40 function.n 0.264 0.341 0.215 41 gap.n 0.346 0.636 0.237 42 gas.n 0.195 0.398 0.129 43 guarantee.n 0.321 0.531 0.23 44 happen.v 0.024 0.108 0.014 45 haunt.v 0.176 0.355 0.117 46 house.n 0.24 0.413 0.169 47 idea.n 0.088 0.118 0.07 48 innovation.n 0.149 0.308 0.098 49 insist.v 0.091 0.218 0.057 50 introduce.v 0.157 0.364 0.1 51 lay.v 0.21 0.286 0.165 52 legislation.n 0.159 0.385 0.102 53 level.v 0.489 0.652 0.402 54 lie.v 0.086 0.25 0.052 55 margin.n 0.37 0.463 0.308 56 mark.n 0.67 0.747 0.607 57 market.n 0.147 0.294 0.098 58 mind.n 0.231 0.277 0.199 59 moment.n 0.054 0.112 0.035 60 mount.v 0.426 0.5 0.372 80 61 movement.n 0.237 0.44 0.162 62 note.n 0.515 0.577 0.465 63 observe.v 0.19 0.29 0.141 64 office.n 0.114 0.186 0.082 65 officer.n 0.364 0.582 0.265 66 operate.v 0.064 0.158 0.04 67 origin.n 0.297 0.455 0.22 68 owe.v 0.261 0.358 0.205 69 park.n 0.419 0.602 0.322 70 pour.v 0.312 0.445 0.241 71 presume.v 0.27 0.77 0.164 72 promotion.n 0.283 0.383 0.224 73 pursue.v 0.073 0.311 0.041 74 question.v 0.109 0.252 0.07 75 rally.n 0.629 0.94 0.472 76 reap.v 0.17 0.498 0.102 77 regain.v 0.198 0.347 0.129 78 relax.v 0.263 0.439 0.187 79 reputation.n 0.235 0.342 0.179 80 reveal.v 0.05 0.099 0.33 81 road.n 0.181 0.277 0.134 81 82 root.v 0.483 0.644 0.386 83 screen.n 0.392 0.485 0.329 84 separate.v 0.147 0.499 0.086 84 shape.n 0.325 0.412 0.269 86 shave.v 0.249 0.598 0.158 87 signal.v 0.159 0.282 0.11 88 slow.v 0.03 0.108 0.017 89 sniff.v 0.497 0.428 0.593 90 speed.n 0.343 0.591 0.242 91 stick.v 0.216 0.288 0.173 92 straighten.v 0.315 0.274 0.37 93 swear.v 0.277 0.326 0.241 94 swim.v 0.02 0.08 0.011 95 television.n 0.135 0.233 0.095 96 threat.n 0.114 0.216 0.077 97 tour.n 0.458 0.693 0.342 98 violate.v 0.029 0.251 0.015 99 wait.v 0.019 0.099 0.011 100 weigh.v 0.475 0.603 0.392 Clusters Number All: 14.93 Nouns: 15.82 Verbs: 12.96 Total V-Measure All: 0.197 Nouns:0.239 Verbs:0.137 82 Kết tính Paired F-Score HDP STT Lemma Fsore Precision Recall access.n 0.567 0.551 0.585 accommodate.v 0.672 0.545 0.875 accounting.n 0.648 0.764 0.562 address.n 0.968 0.999 0.939 air.n 0.628 0.604 0.654 analyze.v 0.655 0.901 0.515 appeal.v 0.598 0.817 0.472 apply.v 0.642 0.82 0.528 assemble.v 0.607 0.777 0.498 10 assert.v 0.74 0.715 0.766 11 body.n 0.562 0.632 0.506 12 bow.v 0.743 0.634 0.897 13 camp.n 0.752 0.719 0.788 14 campaig.n 0.526 0.719 0.415 15 cell.n 0.686 0.953 0.536 16 challenge.n 0.736 0.922 0.612 17 cheat.v 0.665 0,994 0.5 18 chip.n 0.772 0.818 0.731 83 19 class.n 0.532 0.624 0.464 20 commission.n 0.579 0.828 0.445 21 commit.v 0.707 0.874 0.594 22 community.n 0.58 0.644 0.527 23 conclude.v 0.755 0.876 0.663 24 cultivate.v 0.644 0.786 0.545 25 dealer.n 0.68 0.911 0.543 26 defend.v 0.726 0.81 0.657 27 deny.v 0.799 0.997 0.667 28 deploy.v 0.798 0.834 0.765 29 display.n 0.619 0.715 0.545 30 divide.v 0.729 0.853 0.636 31 edge.n 0.513 0.506 0.52 32 entry.n 0.591 0.746 0.49 33 expose.v 0.761 0.71 0.821 34 failure.n 0.662 0.723 0.611 35 field.n 0.62 0.848 0.489 36 figure.v 0.735 0.791 0.687 37 flight.n 0.646 0.639 0.605 38 foundation.n 0.664 0.81 0.562 39 frame.v 0.659 0.89 0.523 84 40 function.n 0.708 0.765 0.659 41 gap.n 0.764 0.934 0.647 42 gas.n 0.775 0.997 0.634 43 guarantee.n 0.672 0.703 0.644 44 happen.v 0.645 0.998 0.476 45 haunt.v 0.799 0.728 0.886 46 house.n 0.558 0.894 0.406 47 idea.n 0.518 0.649 0.431 48 innovation.n 0.596 0.776 0.484 49 insist.v 0.639 0.786 0.538 50 introduce.v 0.715 0.998 0.557 51 lay.v 0.679 0.631 0.735 52 legislation.n 0.549 0.828 0.411 53 level.v 0.718 0.834 0.631 54 lie.v 0.808 0.999 0.678 55 margin.n 0.517 0.61 0.448 56 mark.n 0.951 0.907 0.999 57 market.n 0.675 0.844 0.563 58 mind.n 0.539 0.492 0.597 59 moment.n 0.621 0.775 0.518 60 mount.v 0.759 0.867 0.675 85 61 movement.n 0.57 0.742 0.463 62 note.n 0.969 0.995 0.945 63 observe.v 0.83 0.797 0.866 64 office.n 0.538 0.655 0.457 65 officer.n 0.885 0.997 0.795 66 operate.v 0.822 0.787 0.86 67 origin.n 0.599 0.554 0.653 68 owe.v 0.679 0.546 0.897 69 park.n 0.535 0.712 0.454 70 pour.v 0.555 0.713 0.454 71 presume.v 0.595 0.999 0.424 72 promotion.n 0.462 0.54 0.403 73 pursue.v 0.723 0.998 0.567 74 question.v 0.804 0.758 0.856 75 rally.n 0.947 0.998 0.901 76 reap.v 0.834 0.996 0.717 77 regain.v 0.821 0.999 0.697 78 relax.v 0.719 0.647 0.808 79 reputation.n 0.611 0.627 0.595 80 reveal.v 0.786 0.72 0.865 81 road.n 0.679 0.658 0.701 86 82 root.v 0.611 0.809 0.491 83 screen.n 0.627 0.659 0.598 84 separate.v 0.605 0.997 0.434 85 shape.n 0.679 0.561 0.86 86 shave.v 0.578 0.981 0.41 87 signal.v 0.635 0.476 0.553 88 slow.v 0.68 0.995 0.571 89 sniff.v 0.852 0.743 0.999 90 speed.n 0.682 0.959 0.529 91 stick.v 0.601 0.534 0.687 92 straighten.v 0.787 0.654 0.987 93 swear.v 0.634 0.721 0.565 94 swim.v 0.854 0.996 0.747 95 television.n 0.585 0.702 0.502 96 threat.n 0.635 0.839 0.511 97 tour.n 0.675 0.681 0.669 98 violate.v 0.8 0.987 0.672 99 wait.v 0.987 0.975 0.999 100 weigh.v 0.689 0.695 0.684 Clusters Number All: 14.93 Nouns: 15.82 Verbs: 12.96 Total Paire F-Score All: 0.678 Nouns:0.652 Verbs:0.716 87