Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 63 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
63
Dung lượng
654,9 KB
Nội dung
Đại Học Quốc Gia Tp Hồ Chí Minh TRƯỜNG ĐẠI HỌC BÁCH KHOA HỒ THANH HẢI MSHV: 00704162 CLUSTERING DỰA TRÊN ĐỒ THỊ NGỮ NGHĨA VÀ ỨNG DỤNG Chuyên ngành : Công Nghệ Thông Tin LUẬN VĂN THẠC SĨ TP HỒ CHÍ MINH, tháng 10 năm 2006 CƠNG TRÌNH ĐƯỢC HOÀN THÀNH TẠI TRƯỜNG ĐẠI HỌC BÁCH KHOA ĐẠI HỌC QUỐC GIA TP HỒ CHÍ MINH Cán hướng dẫn khoa học : Phó giáo sư, tiến sĩ Phan Thị Tươi Cán chấm nhận xét : Tiến sĩ Quản Thành Thơ Cán chấm nhận xét : Tiến sĩ Nguyễn Xuân Dũng Luận văn thạc sĩ bảo vệ HỘI ĐỒNG CHẤM BẢO VỆ LUẬN VĂN THẠC SĨ TRƯỜNG ĐẠI HỌC BÁCH KHOA, ngày 08 tháng 12 năm 2006 TRƯỜNG ĐẠI HỌC BÁCH KHOA PHÒNG ĐÀO TẠO SĐH CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM ĐỘC LẬP – TỰ DO – HẠNH PHÚC Tp HCM, ngày tháng năm 200 NHIỆM VỤ LUẬN VĂN THẠC SĨ Họ tên học viên : HỒ THANH HẢI Phái : Nam Ngày, tháng, năm sinh: 9/12/1977 Nơi sinh: Tp Hồ Chí Minh Chun nghành : Cơng Nghệ Thông Tin MSHV: 00704162 I- TÊN ĐỀ TÀI Giải nhập nhằng sở mạng ngữ nghĩa II- NHIỆM VỤ VÀ NỘI DUNG Phân tích xác định vấn đề: Nghiên cứu giải thuật giải nhập nhằng ngữ nghĩa có sẵn lý thuyết giải thuật giải nhập nhằng ngữ nghĩa, kết hợp với đồ thị ngữ nghĩa, để từ xây dựng giải thuật giải nhập nhằng ngữ nghĩa sở đồ thị ngữ nghĩa Phương pháp luận: xây dựng giải thuật giải nhập nhằng ngữ nghĩa dựa lý thuyết giải thuật giải nhập nhằng ngữ nghĩa đồ thị ngữ nghĩa Hiện thực: Minh họa chương trình III- NGÀY GIAO NHIỆM VỤ: ngày 16 tháng năm 2006 IV- NGÀY HOÀN THÀNH NHIỆM VỤ: ngày tháng 10 năm 2006 V- CÁN BỘ HƯỚNG DẪN: Phó giáo sư, tiến sĩ Phan Thị Tươi CÁN BỘ HƯỚNG DẪN (Học hàm, học vị, họ tên chữ ký) PGS,TS Phan Thị Tươi CN BỘ MÔN QL CHUYÊN NGÀNH TS Cao Hoàng Trụ Nội dung đề cương luận văn thạc sĩ Hội đồng chun ngành thơng qua TRƯỞNG PHỊNG ĐT – SĐH Ngày tháng năm TRƯỞNG KHOA QL NGÀNH LỜI CẢM ƠN Qua tháng tìm tịi, nghiên cứu, bước phân tích thực giải thuật giải nhập nhằng ngữ nghĩa, cuối tơi hồn thành luận văn tốt nghiệp Tôi xin gửi lời cảm ơn chân thành đến tất thầy cô giảng dạy sau đại học trường Đại Học Bách Khoa thành phố Hồ Chí Minh dạy dỗ nhiệt tình tháng ngày học tập nghiên cứu Những kiến thức thầy cô cung cấp tảng cho tơi q trình nghiên cứu thực hiên luận văn Tôi xin gửi lời cảm ơn chân thành đến cô Phan Thị Tươi, hẳn luận văn khó hồn thành thiếu hướng dẫn nhiệt tình Và tơi xin gửi lời cảm ơn đến thầy Quản Thành Thơ tận tình dẫn cách trình bày luận văn Cuối cùng, gửi lời cảm ơn thương yêu đến tồn thể gia đình ơng bà, cha mẹ hi sinh, quan tâm, khuyến khích hỗ trợ mạnh mẽ suốt đời Hồ Thanh Hải Tóm tắt o0o Một vấn đề khó khăn lónh vực Xử Lý Ngôn Ngữ Tự Nhiên vấn đề xử lý nhập nhằng ngữ nghóa Cho đến nay, có nhiều phương pháp nhằm giải vấn đề này, nhiên phương pháp có ưu điểm nhược điểm định Trong luận văn này, xin trình bày giải thuật tránh nhập nhằng ngữ nghóa dựa đồ thị ngữ nghóa, sử dụng mối quan hệ, ý nghóa, ngữ cảnh khả xuất Sau tiến hành giải thuật WSD, đề tài sử dụng giải thuật clustering nhằm xây dựng khái niệm Giải thuật WSD đề tài thao tác corpus Wall Street Journal, thu thập hầu hết thông tin thuật ngữ tiếng Anh từ vựng, ngữ nghóa,… nhằm tạo tập đầy đủ từ vựng Trước tiên, giải thuật dựa thuật ngữ lấy từ corpus, để tạo thành từ vựng… Tiếp theo, giải thuật sử dụng đồ thị ngữ nghóa tạo cho nghóa từ nhằm tìm nghóa phù hợp Sau đó, với nghóa tìm đïc, giải thuật xây dựng khái niệm với giải thuật clustering Một ứng dụng giải thuật xây dựng công cụ mở rộng cho từ điển Wordnet Một vài ứng dụng khác trình bày luận văn Abstract o0o One of the most complex problems in Natural Processing Language is WSD (Word Sense Disambiguation) Up to now, there’s a lot of methods to solve this problem, each of them has advantage and disadvantage In this thesis, I would like to present a WSD algorithm that is used to built a semantic graph, using their relationship, meaning, distribution probability, and neighboring context After this WSD algorithm, it builts the concept tree base on clustering algorithms The clustering algorithm of this thesis processes Wall Street Journal corpus, collecting all of linguistic information of English terms such as lexicon, meaning and neighboring context in order to create the good set of clusters First, basing on terms getting from corpus, it builts a lexicon tree Next, it uses semantic graphes created for each word in terms to find the best sense Then, base on the matched sense, it built a concept tree using clustering algorithm An application of this algorithm is built an extension for Wordnet dictionary Some applications will be discussed for more detail in this thesis Đề tài: Clustering dựa đồ thị ngữ nghóa ứng dụng GVHD: PGS,TS Phan Thị Tươi MỤC LỤC CHƯƠNG PHÁT BIỂU VẤN ĐỀ 1.1 Đặt vấn đề 1.2 Giới thiệu giải thuật giải nhập nhằng ngữ nghóa 1.3 Giới thiệu đồ thị ngữ nghóa 1.4 Giới thiệu giải thuật clustering 1.5 Ứng dụng đồ thị ngữ nghóa để giải nhập nhằng ngữ nghóa 10 1.6 Lý thực đề tài 11 1.7 Những đóng góp đề tài 12 1.8 Sơ lược cấu trúc luận văn 13 1.9 Qui ước thuật ngữ ký hieäu 14 1.10 Kết luận 14 CHƯƠNG TỔNG QUAN VỀ CÁC CÔNG TRÌNH TRONG NƯỚC VÀ NƯỚC NGOÀI LIÊN QUAN ĐẾN ĐỀ TÀI .15 2.1 Đặt vấn ñeà 15 2.2 Các giải thuật giải nhập nhằng ngữ nghóa 16 2.2.1 Phân loại Bayesian 16 2.2.2 Giải nhập nhằng ngữ nghóa dựa định nghóa từ 18 2.2.3 Giải nhập nhằng ngữ nghóa dựa dịch corpus ngôn ngữ thứ hai 18 2.2.4 2.3 Một nghóa bài, nghóa thứ tự 19 Kết luận 21 CHƯƠNG CƠ SỞ LÝ THUYẾT VÀ PHƯƠNG PHÁP 22 HV: Hồ Thanh Hải Trang: PDF created with pdfFactory trial version www.pdffactory.com Đề tài: Clustering dựa đồ thị ngữ nghóa ứng dụng GVHD: PGS,TS Phan Thị Tươi 3.1 Đặt vấn đề 22 3.2 Corpus 22 3.3 Từ điển điện tử WordNet 26 3.3.1 3.4 Giới thiệu Wordnet 26 Đồ thị ngữ nghóa 29 3.4.1 Cơ đồ thị ngữ nghóa 29 3.4.2 Xây dựng đồ thị ngữ nghóa 29 3.5 Kết luận 31 CHƯƠNG THIẾT KẾ VÀ HIỆN THỰC ĐỀ TÀI 32 4.1 Ý tường tổng quát 32 4.2 Giải thuật chi tieát 34 4.2.1 Xây dựng đồ thị ngữ nghóa 34 4.2.2 Lấy từ ghép mẫu từ Wall Street Journal Corpus 38 4.2.3 Giải nhập nhằng ngữ nghóa 39 4.2.4 Gom nhóm khái niệm tìm (clustering): 41 4.3 Chương trình thực 43 4.3.1 Đặt vấn đề 43 4.3.2 Dữ liệu 44 4.3.3 Giao dieän 46 4.3.4 Một số kết thực thi giải thuật giải nhập nhằng ngữ nghóa: 48 4.4 Kết luaän 49 CHƯƠNG 5.1 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 50 Đánh giá luận văn 50 HV: Hồ Thanh Hải Trang: PDF created with pdfFactory trial version www.pdffactory.com Đề tài: Clustering dựa đồ thị ngữ nghóa ứng dụng GVHD: PGS,TS Phan Thị Tươi 5.2 Hướng phát triển đề tài 50 5.3 Kết luận 51 Tài liệu tham khảo……………………………………………………………………………………………………………………52 HV: Hồ Thanh Haûi Trang: PDF created with pdfFactory trial version www.pdffactory.com Đề tài: Clustering dựa đồ thị ngữ nghóa ứng dụng GVHD: PGS,TS Phan Thị Tươi CHƯƠNG PHÁT BIỂU VẤN ĐỀ 1.1 Đặt vấn đề Cho đến nay, giải qưyết nhập nhằng ngữ nghóa vấn đề khó khăn lónh vực xử lý ngôn ngữ tự nhiên Bên cạnh đó, vấn đề bổ sung làm giàu từ điển sẵn có vấn đề quan trọng Chính vậy, đề tài ”Clustering dựa đồ thị ngữ nghóa ứng dụng” có ý nghóa nghiên cứu ứng dụng cho lónh vực xử lý ngữ nghóa ngôn ngữ tự nhiên Mục tiêu đề tài nghiên cứu giải thuật giải nhập nhằng nghóa đồ thị ngữ nghóa, để từ xây dựng giải thuật giải nhập nhằng ngữ nghóa ứng dụng vào việc mở rộng từ điển Wordnet Giải thuật xây dựng đồ thị ngữ nghóa sử dụng mối quan hệ nghóa từ từ điển Wordnet Với thuật cụm từ lấy từ corpus đồ thị ngữ nghóa từ thuật ngữ, giải thuật phân tích chọn nghóa phù hợp từ cụm từ Trên sở đó, giải thuật xây dựng khái niệm nhằm bổ sung trở lại vào từ điển Wordnet 1.2 Giới thiệu giải thuật giải nhập nhằng ngữ nghóa Giải thuật giải nhập nhằng ngữ nghóa nhằm xác định nghóa xác từ nhập nhằng hòan cảnh cụ thể Điều thực xác định ngữ cảnh cụ thể mà từ dùng Giải thuật giải nhập nhằng ngữ nghóa thường gồm bước: bước (1) xác dịnh tất nghóa cho tất từ (nhiều đïc) đọan văn xác HV: Hồ Thanh Hải Trang: PDF created with pdfFactory trial version www.pdffactory.com Đề tài: Clustering dựa đồ thị ngữ nghóa ứng dụng GVHD: PGS,TS Phan Thị Tươi Việc gom nhóm thuật ngữ chủ yếu dựa quan hệ (kind of) thuật ngữ sau khử nhập nhằng bổ sung vào nút tương ứng Wordnet nhằm mở rộng từ điển Wordnet Các dạng quan hệ khác is – a, part – of … nằm phạm vi đề tài tính hạn chế giải thuật [4][15][20] 4.3 Chương trình thực 4.3.1 Đặt vấn đề Bản chất giải thuật giải nhập nhằng ngữ nghóa đòi hỏi xử lý chuỗi corpus, cung cấp cấu trúc lưu trữ thích hợp, thuận lợi cho việc tính toán truy xuất Do vậy, đề tài sử dụng ngôn ngữ Visual C++ Visual Studo Microsoft Nó ngôn ngữ có tính hướng đối tượng cao, có khả xử lý chuỗi tốt, có chương trình tiện ích giúp người dùng xây dựng giao diện nhanh chóng Để xây dựng nên cấu trúc lưu trữ khái niệm từ với thuộc tính nó, đề tài sử dụng ngôn ngữ XML (Extensible Markup Language) XML chuẩn ngôn ngữ tổ chức World Wide Web (www) sử dụng kể từ năm 1998 Nó ngôn ngữ cho phép lưu trữ hiệu cấu trúc cluster dễ sử dụng Ngoài ra, tập tin XML có chiều dài không hạn chế, đồng thời cho phép truy xuất dễ dàng thông qua kỹ thuật DOM (Document Object Model) hay SAX (Simple API for XML) HV: Hồ Thanh Hải Trang: 43 PDF created with pdfFactory trial version www.pdffactory.com Đề tài: Clustering dựa đồ thị ngữ nghóa ứng dụng GVHD: PGS,TS Phan Thị Tươi 4.3.2 Dữ liệu Đề tài sử dụng XML sở liệu Access để lưu trữ thông tin từ sau trình thực thi giải thuật 4.3.2.1 Các từ ghép Sau trình phân tích corpus để lấy thông tin từ ghép có được, ta lưu trữ cụm từ sở liệu với từ, từ loại từ ghép Term_id Word1 Word2 Word3 TV station advertising representation operation program production investor group representation operation production unit vice president retirement program computer equipment 10 defense contractor 11 hearth refining 12 refining system 13 extrusion process Word4 Comment unit system Bảng Một số từ ghép có từ Wall Street Journal corpus Theo dạng lưu trữ này, từ ghép lưu trữ với từ đơn chúng HV: Hồ Thanh Hải Trang: 44 PDF created with pdfFactory trial version www.pdffactory.com Đề tài: Clustering dựa đồ thị ngữ nghóa ứng dụng GVHD: PGS,TS Phan Thị Tươi 4.3.2.2 Đồ thị ngữ nghóa Đồ thị ngữ nghóa có từ Wordnet lưu trữ sở liệu Access Trên dòng, ta lưu trữ từ gốc, từ đích loại mối quan hệ: Ví dụ, ta có đồ thị ngữ nghóa từ agency: SenseN id Word umW SenseN Relation DesWord umD Ship_id Weight 1 0.01 1 0.01 0.01 administrative 66245 agency unit administrative 66246 agency body executive 66247 agency agency Food and DrugAdministra 66248 agency tion 0.01 66249 agency DA 0.01 Center for Disease Control 66250 agency and Prevention 0.01 66251 agency CDC 0.01 Counterterrorist 66252 agency Center 0.01 66253 agency CTC 0.01 66254 agency Nonproliferatio 0.01 HV: Hồ Thanh Hải Trang: 45 PDF created with pdfFactory trial version www.pdffactory.com Đề tài: Clustering dựa đồ thị ngữ nghóa ứng dụng GVHD: PGS,TS Phan Thị Tươi nCenter 66255 agency NPC 0.01 66315 agency USN 0.01 66316 agency Navy 0.01 0.01 United 66317 agency States Coast Guard U S Coast 66318 agency Guard 0.01 66319 agency US Coast Guard 0.01 Naval Air WarfareCenter Weapons 66320 agency Division 0.01 66321 agency NAWCWPNS 0.01 0.01 Naval 66322 agency Special Warfare Bảng Đồ thị ngữ nghóa từ agency#1 lưu trữ sở liệu Theo dạng lưu trữ này, từ lưu trữ với nghóa nó, bao gồm mối liên hệ chúng với từ khác Ở đây, ta biểu diễn trọng số mối quan hệ Ban đầu 0.1, điều chỉnh thông qua trình học hỏi 4.3.3 Giao diện Có phần chính: HV: Hồ Thanh Hải Trang: 46 PDF created with pdfFactory trial version www.pdffactory.com Đề tài: Clustering dựa đồ thị ngữ nghóa ứng dụng GVHD: PGS,TS Phan Thị Tươi Phần thứ cung cấp giao diện nhập corpus, trình bày corpus Phần xem Input chương trình Ta có hình vẽ minh họa: Hình 4.6: View trình bày Wall Street Journal corpus bắt đầu trình phân tích Phần thứ trình bày kết thực thi cho từ ghép riêng rẽ, từ với nghóa đïc nhập trực tiếp HV: Hồ Thanh Hải Trang: 47 PDF created with pdfFactory trial version www.pdffactory.com Đề tài: Clustering dựa đồ thị ngữ nghóa ứng dụng GVHD: PGS,TS Phan Thị Tươi Hình 4.7 View biểu diễn phần demo 4.3.4 Một số kết thực thi giải thuật giải nhập nhằng ngữ nghóa: Số lượng từ ghép mẫu lấy từ SemCor corpus: Số cụm Số lượng tag file cóđược 352 5124 Bảng Số từ ghép mẫu từ SemCor corpus HV: Hồ Thanh Hải Trang: 48 PDF created with pdfFactory trial version www.pdffactory.com từ mẫu Đề tài: Clustering dựa đồ thị ngữ nghóa ứng dụng GVHD: PGS,TS Phan Thị Tươi Đề tài thực Wall Street Journal corpus, kết thu được: thước Số lượng Kích Thời gian thực thi tập tin khái niệm Số từ ghép trung bình (phút) 512Kb 22 180’ 1Mb 51 315’ 2Mb 106 620 Baûng Kết thực thi giải nhập nhằng ngữ nghóa Do hạn chế mặt thời gian, đề tài chưa thể thực trình thống kê đánh giá độ xác giải thuật 4.4 Kết luận Chương trình thực ngôn ngữ Visual C++, dựa phương pháp lập trình hướng đối tượng sở liệu Access, liệu xuất lưu trữ dạng lưu trữ XML đơn giản, hiệu Tuy nhiên, trình huấn luyện thực thi giải thuật giải nhập nhằng phải thực việc tìm kiếm số lượng lớn cạnh đồ thị ngữ nghóa nên tránh bùng nổ tổ hợp tìm kiếm, từ dẫn đến việc thời gian thực thi giải thuật chưa thực tốt HV: Hồ Thanh Hải Trang: 49 PDF created with pdfFactory trial version www.pdffactory.com Đề tài: Clustering dựa đồ thị ngữ nghóa ứng dụng GVHD: PGS,TS Phan Thị Tươi CHƯƠNG KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 5.1 Đánh giá luận văn Đề tài xây dựng giải thuật giải nhập nhằng ngữ nghóa dựa tảng đồ thị ngữ nghóa nêu đïc ứng dụng giải thuật vấn đề mở rộng Wordnet Hơn nữa, giải thuật giải nhập nhằng ngữ nghóa đề tài có tính học hỏi, tích lũy kinh nghiệm Tức với số lượng corpus lớn tập kết có chất lượng tốt hiệu đồ thị ngữ nghóa nâng cao Việc giải thuật sử dụng từ điển WordNet để cung cấp thêm lượng lớn từ cho đồ thị ngữ nghóa với nghóa mối quan hệ chúng Tuy nhiên, hạn chế mặt thời gian không gian lưu trữ Các mối quan hệ đồ thị ngữ nghóa chưa thật hoàn chỉnh, cần phải bổ sung thêm loại quan hệ nhằm mở rộng đồ thị ngữ nghóa Điều tạo điều kiện tốt cho trình thực thi giải thuật Giải thuật giải nhập nhằng ngữ nghóa mà đề tài xây dựng dành cho Anh ngữ, dựa corpus tiếng Anh xác định cú pháp Và điều kiện khách quan không cho phép nên đề tài không thu thập số lượng corpus đủ lớn để thực trình thống kê đánh giá 5.2 Hướng phát triển đề tài Đề tài có hai hướng để phát triển Hướng thứ xây dựng hệ thống thể học (Ontolearn) Hệ thống có khả học hỏi tạo khái niệm theo miền liệu Hệ thống có khả học hỏi khái niệm từ tài liệu HV: Hồ Thanh Haûi Trang: 50 PDF created with pdfFactory trial version www.pdffactory.com Đề tài: Clustering dựa đồ thị ngữ nghóa ứng dụng GVHD: PGS,TS Phan Thị Tươi Hướng thứ hai phát triển giải thuật giải nhập nhằng ngữ nghóa đề tài để tiến hành xử lý corpus tiếng Việt Quá trình giải nhập nhằng ngữ nghóa tiếng Việt phức tạp nhiều so với giải nhập nhằng ngữ nghóa tiếng Anh, tiếng Việt ngôn ngữ phụ thuộc nhiều vào ngữ cảnh, nghóa từ thay đổi nhiều theo ngữ cảnh khác phân bố từ thường không tuân theo qui luật định Tuy nhiên, trình giải nhập nhằng ngữ nghóa tiếng Việt thành công có ý nghóa lớn việc xử lý ngôn ngữ tiếng Việt máy tính 5.3 Kết luận Chương xem xét, đánh giá lại đề tài, để nhận biết ưu khuyết điểm giải thuật giải nhập nhằng ngữ nghóa, đồng thời đưa hướng phát triển đề tài Với số ưu điểm giải thuật giải nhập nhằng ngữ nghóa đề tài khai thác tốt đặc điểm từ corpus Tuy nhiên, số điểm hạn chế cần khắc phục phát triển chưa giải độ phức tạp giải thuật kéo theo thời gian thực thi chưa thật chấp nhận HV: Hồ Thanh Hải Trang: 51 PDF created with pdfFactory trial version www.pdffactory.com TÀI LIỆU THAM KHẢO [1] Nancy Ide, Jean Veronis, Word Sense Disambiguation: The State of the Art [2 ] Jurij Leskovec, Natasa Milic-Frayling, Marko Grobelnik, Impact of Linguistic Analysis on the Semantic Graph Coverage and Learning of Document Extracts [3] Rajat Kumar Mohanty, Semantically Relatable Sets: Building Blocks for Representing Semantics [4]Christopher D Manning – Hinrich Schutze (2001) Foundations of Statistical Natural Language processing [5] Duda, Richard O., and Peter E Hart (1973) Pattern Classification and scene analysis [6]Gale, Church and Yarowsky (1992) Estimating upper and lower bounds on the performace of word-sense disambiguation programs [7] Lesk, Michael (1986) Automatic sense disambiguation: How to tell a pien cone from an ice cream cone [8] Yarowsky, David (1995) Unsupervised word sense disambiguation rivaling supervised methods [9] L G Alexander Longman English Grammar [10] Jurij Leskovec, Natasa Milic-Frayling, Marko Grobelnik (1/2005) Extracting Summary Sentences Based on the Document Semantic Graph [11] Mitchell P Marcus, Beatrice Santorini, Mary Ann Marcinkiewicz Building a large annotated corpus of English: the Penn Treebank [12] Xiaobin Li, Stan Szpakowicz, Stan Matwin A Wordnet-based Algorithm for Word Sense Disambiguation [13] Ann Bies, Mark Fegurson, Karen Katz, Robert MacIntyre Bracketing Guidelines for Treebank II Style Penn Treebank project [14] John Hankins (2003) Wordnet-Question answering system [15] George A Miller, Richard Beckwith, Christiane Fellbaum, Derek Gross, and Katherine Miller Introduction to WordNet: An On-line Lexical Database [16] Jure Leskovec, Marko Grobelnik, Natasa Milic-Frayling (2004) Learning Sub-structures of Document Semantic Graphs for Document Summarization [17] K Krishna, Raghu Krishnapuram A Clustering Algorithm for Asymmetrically Related Data with Applications to Text Mining [18] King-Ip Lin, Ravikumar Kondadadi A word-based soft clustering algorithm for documents [19] Yiling Yang, Xudong Guan, Jinyuan You CLOPE: A Fast and Effective Clustering Algorithm for Transactional Data [20] Roberto Navigli, Paola Velardi.(2003) An Analysis of Ontology-based Query Expansion Strategies [21] Nguyễn Hoàng Phúc Nguyên (2004) Clustering vấn đề cải tiến mô hình ngôn ngữ (Master thesis) [22] http://www.cs.unt.edu/~rada/downloads.html#semcor SemCor corpus and related documents [23] David M´arquez-Carreras, Carles Rovira2 and Samy Tindel (2004) Asymptotic behavior of the magnetization for the perceptron model DANH MỤC BẢNG Bảng 1: Tập ký hiệu tag Wall Street Journal corpus sử dụng đề tài Bảng Bảng biểu diễn ma trận từ vựng Wordnet Bảng Bảng biểu diễn 25 từ bắt đầu cho danh từ Wordnet Bảng Các từ ghép mẫu từ SemCor corpus Bảng Kết thực thi giải thuật cho từ ghép government agency Bảng Một số từ ghép có từ Wall Street Journal corpus Bảng Đồ thị ngữ nghóa từ agency#1 lưu trữ sở liệu Bảng Số từ ghép mẫu từ SemCor corpus Bảng Kết thực thi giải nhập nhằng ngữ nghóa DANH MỤC HÌNH Chương 1: Hình 1.1 Đồ thị ngữ nghóa minh họa câu “The man bought a new car in June.” Hình 1.2 Đồ thị ngữ nghóa minh họa cho đoạn văn (1) Hình 1.3 Đồ thị ngữ nghóa minh họa cho đoạn văn (2) Hình 1.4 Đồ thị ngữ nghóa minh họa cho đoạn văn (3) Hình 1.5 Đồ thị ngữ nghóa minh họa cho đoạn văn (4) Hình 1.6 Cây cluster minh họa Chương 2: Chương 3: Hình 3.1 Đồ thị ngữ nghóa mô tả mối quan hệ ngữ nghóa từ passenser, vehicle, transport coach Chương 4: Hình 4.1 Đồ thị ngữ nghóa minh họa cho giải thuật Hình 4.2 Cây khái niệm minh họa Hình 4.3 Đồ thị ngữ nghóa ứng với agency#1 Hình 4.4 Cây khái niệm ứng với từ agency Hình 4.5 Đồ thị ngữ nghóa agency#1 sau bổ sung khái niệm Hình 4.6: View trình bày Wall Street Journal corpus bắt đầu trình phân tích Hình 4.7 View biểu diễn phần demo Bảng đối chiếu thuật ngữ tiếng Anh sang tiếng Việt Từ tiếng Anh Clustering Cluster dendrogram corpus tagged corpus POS (part of speech) Data mining bottom-up clustering Top down clustering Từ dịch sang tiếng Việt Phân chia đối tượng liệu có đặc điểm thuộc tính gần giống vào nhóm Một nhóm thành phần tương tự giống nhau, chúng tập hợp xảy Một biểu diễn cluster Tập hợp báo luận dùng cho mục đích phân tích ngôn ngữ Corpus mà từ chúng kèm theo thẻ từ loại Các lớp từ có hành vi cú pháp tương tự, thường loại ngữ nghóa điển hình Là trình tìm kiếm tự động khối lượng lớn liệu cho mẫu dùng công cụ phân loại, quy tắc khai thác, clustering … Giải thuật clustering kết hợp cluster thành cluster Giải thuật clustering phân rã cluster thành cluster Proximity Thông số xác định quan hệ họ hàng Synset Tập hợp từ đồng nghóa gần nghóa K nearest neighbor k lân cận, gần giống Token Các đối tượng ngôn ngữ riêng biệt relative similarity, closeness Độ tương tự tương đối relative inter-connectivity Tính đồng tương đối Concept Clustering Đồ thị ngữ nghóa biểu diễn clustering khái niệm Knowledge Graphs (CCKGs) Extensible Markup Ngôn ngữ có cấu trúc thẻ HTML mở rộng Language Document Object Model Mô hình đối tượng tài liệu Simple API for XML Thư viện hàm để truy xuất XML Semantic Graph Đồ thị có hướng diễn tả ý nghóa từ Word Sense Disambiguation Giải nhập nhằng ngữ nghóa (WSD) Lý lịch trích ngang: Họ tên: Hồ Thanh Hải Ngày, tháng, năm sinh: 9/12/1977 Nơi sinh:Tp Hồ Chí Minh Địa liên lạc: 47/20 Trần Hưng Đạo, P8, Q5, Tp HCM QUÁ TRÌNH ĐÀO TẠO 9/1995 – 3/1997 : sinh viên đại học Đại Cương, thuộc đại học quốc gia Tp Hồ Chí Minh 9/1995 – 12/2000 : sinh viên khoa Điện – Điện Tử, trường đại học Bách Khoa, Tp Hồ Chí Minh Q TRÌNH CƠNG TÁC 10/2000 – nay: kỹ sư kiểm tra chất lượng phần mềm, công ty PSV ... thị ngữ nghĩa, để từ xây dựng giải thuật giải nhập nhằng ngữ nghĩa sở đồ thị ngữ nghĩa Phương pháp luận: xây dựng giải thuật giải nhập nhằng ngữ nghĩa dựa lý thuyết giải thuật giải nhập nhằng ngữ. .. TÀI Giải nhập nhằng sở mạng ngữ nghĩa II- NHIỆM VỤ VÀ NỘI DUNG Phân tích xác định vấn đề: Nghiên cứu giải thuật giải nhập nhằng ngữ nghĩa có sẵn lý thuyết giải thuật giải nhập nhằng ngữ nghĩa, ... nhập nhằng ngữ nghóa Giải thuật giải nhập nhằng ngữ nghóa nhằm xác định nghóa xác từ nhập nhằng hòan cảnh cụ thể Điều thực xác định ngữ cảnh cụ thể mà từ dùng Giải thuật giải nhập nhằng ngữ nghóa