Nghiên cứu giải pháp tinh lọc tri thức cộng đồng áp dụng kết quả nghiên cứu hoàn thiện cơ sở dữ liệu cho từ điển đa ngữ trực tuyến

88 1 0
Nghiên cứu giải pháp tinh lọc tri thức cộng đồng áp dụng kết quả nghiên cứu hoàn thiện cơ sở dữ liệu cho từ điển đa ngữ trực tuyến

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Nghiên cứu giải pháp tinh lọc tri thức cộng đồng PHIẾU GIAO NHIỆM VỤ ĐỒ ÁN TỐT NGHIỆP Mục đích nội dung ĐATN Mục đích đồ án: nghiên cứu giải pháp tinh lọc tri thức cộng đồng Áp dụng kết nghiên cứu, hoàn thiện sở liệu cho từ điển đa ngữ trực tuyến Các nhiệm vụ cụ thể ĐATN      Nghiên cứu giải pháp giải tốn tinh lọc tri thức Xây dựng chương trình thử nghiệm giải pháp đưa Đánh giá giải pháp dựa kết thử nghiệm, đưa giải pháp tối ưu Áp dụng tinh lọc tri thức cho từ điển đa ngữ trực tuyến Định hướng phát triển tương lai Lời cam đoan sinh viên Tơi – Đồn Thanh Tám – cam kết ĐATN cơng trình nghiên cứu thân tơi hướng dẫn Tiến sỹ Lê Khánh Hùng, Viện ứng dụng công nghệ, Bộ Khoa học Công nghệ Các kết nêu ĐATN trung thực, chép tồn văn cơng trình khác Hà Nội, ngày 21 tháng 05 năm 2008 Tác giả ĐATN Đoàn Thanh Tám Xác nhận GVHD mức độ hoàn thành ĐATN cho phép bảo vệ Hà Nội, ngày tháng năm Giáo viên hướng dẫn Tiến sỹ Lê Khánh Hùng Sinh viên thực hiện: Đồn Thanh Tám – Khóa 48 Lớp CNPM 1/88 Nghiên cứu giải pháp tinh lọc tri thức cộng đồng TÓM TẮT NỘI DUNG ĐỒ ÁN TỐT NGHIỆP Nội dung ĐATN nhằm nghiên cứu giải pháp tinh lọc tri thức cộng đồng Tri thức kết tinh hiểu biết, kiến thức có nhờ học tập kỹ thu trình làm việc Thế giới phát triển có nhiều vấn đề phức phức tạp cần giải đặt Các vấn đề phức tạp đến mức giải tri thức cá nhân đơn lẻ mà phải có kết hợp trí tuệ nhiều người Tri thức cộng đồng nguồn tri thức có thu thập, chắt lọc tri thức từ cá nhân đơn lẻ, thành trí tuệ tập thể Do đó, giúp giải vấn đề phức tạp cách đơn giản hiệu Tuy nhiên, tri thức cá nhân đúng, vấn đề đặt làm để lấy thơng tin đúng, loại bỏ thơng tin khơng xác Đây mục đích tốn tinh lọc tri thức Bài toán tinh lọc tri thức, giải tốt góp phần tìm lời giải cho nhiều toán lĩnh vực khác Nội dung ĐATN chia thành phần: phần trình bày tổng quan xử lý ngôn ngữ tự nhiên Các vấn đề NLP đặt yêu cầu làm nảy sinh toán tinh lọc tri thức cộng đồng, đồng thời NLP lĩnh vực ứng dụng nhiều kết có từ việc giải tốn tinh lọc tri thức Tuy nhiên, vượt lên yêu cầu ban đầu, toán tinh lọc tri thức cộng đồng dần mở rộng phạm vi ứng dụng, áp dụng để giải tốn cần có đóng góp trí tuệ tập thể Phần giới thiệu toán tinh lọc tri thức đề xuất giải pháp để giải toán Phần ĐATN ứng dụng cụ thể áp dụng giải pháp tinh lọc tri thức cộng đồng nghiên cứu phần Trong phần kết từ toán tinh lọc tri thức sử dụng để hoàn thiện CSDL cho từ điển đa ngữ trực tuyến Các kết quả, đánh giá hướng phát triển tương lai toán tinh lọc tri thức cộng đồng trình bày cụ thể phần cuối Sinh viên thực hiện: Đồn Thanh Tám – Khóa 48 Lớp CNPM 2/88 Nghiên cứu giải pháp tinh lọc tri thức cộng đồng ABSTRACT OF THESIS Content of thesis study solutions to fine collective knowledge Knowledge is defined variously as expertise, and skills acquired by a person through experience or education; the theoretical or practical understanding of a subject, what is known in a particular field or in total; facts and information or awareness or familiarity gained by experience of a fact or situation Development of science and technology give a lot of complicated questions need to find a solution for dealing with these proplems These proplems are very complicated, and they aren’t solved by individual knowledge They need contribution knowledge of community Collective knowledge is a form of intelligence that emerges from the collaboration and competition of many individuals Collective knowledge is an achievements of collective intelligence Thus, collective knowledge can solve a lot of complicated proplems more simply and effectually However individual knowledge isn’t always correct, requirement is exposed is how to gain right information, reject wrong information This is a major goal of fine collective knowledge If this probplem is solved well, it will contribute to find a solution for dealing with many proplems in many various fields Content of thesis is consist of sections: First section presents an overview of Natural Language Processing The proplems in Natural Language Processing required to have find a solutions for fining collective knowledge, but achievements of collective knowledge can solve a lot of complicated proplems more simply and effectually in many various fields The second section introduce fine collective knowledge proplem and propose to solve this proplem The third section of thesis presents a specific application, that use achievements of collective knowledge studies, which have been stated in previous section In this section, achievements of collective knowledge studies are used to improve multilingual dictionary’s database The last section shows the practical results that engine performs These results used to evaluate the solution given, to demonstrates the advantages and disavantages of the solution Besides, this section indicates the ability to develope of the solution in the future Sinh viên thực hiện: Đoàn Thanh Tám – Khóa 48 Lớp CNPM 3/88 Nghiên cứu giải pháp tinh lọc tri thức cộng đồng LỜI CẢM ƠN Trong suốt thời gian tháng thực ĐATN, nhận giúp đỡ nhiều người để hoàn thành ĐATN “Nghiên cứu giải pháp tinh lọc tri thức cộng đồng” Đầu tiên, xin gửi lời cảm ơn chân thành sâu sắc đến Tiến sỹ Lê Khánh Hùng (Viện ứng dụng công nghệ, Bộ Khoa học Công nghệ) thầy Trần Cảnh (Khoa Công nghệ thông tin trường Đại học Xây dựng Hà Nội) Trong suốt thời gian làm ĐATN thầy hướng dẫn bảo tận tình chuyên môn, tạo môi trường thuận lợi để tơi hồn thành ĐATN Đặc biệt, tơi chân thành cảm ơn hai thầy cho phép sử dụng cơng trình nghiên cứu thầy làm tài liệu nghiên cứu để hồn thành đồ án Tơi xin gửi lời cảm ơn đến anh chị Cơng ty cơng nghệ phần mềm máy tính, người tạo điều kiện làm việc tốt sẵn sàng giúp đỡ giải vướng mắc gặp phải q trình làm đồ án Tơi xin gửi lời cảm ơn đến thầy cô giáo Khoa Công nghệ tin Trường Đại học Bách Khoa Hà Nội, người tận tình bảo, giúp đỡ tơi nhiều suốt năm học Tôi xin chân thành cảm ơn người bạn sát cánh bên Xin cảm ơn bạn Trần Ngọc Việt, người thực đồ án với từ ngày đồ án hoàn thành Cuối cùng, xin gửi lời biết ơn sâu sắc đến bố mẹ người thân gia đình tơi, người luôn tạo điều kiện thuận lợi động viên nhiều tinh thần thời gian thực đồ án Đồ án “Nghiên cứu giải pháp tinh lọc tri thức cộng đồng” quà thay cho lời cảm ơn chân thành gửi đến tất người giúp đỡ tơi hồn thành đồ án Chúc người vui vẻ hạnh phúc! Hà Nội, ngày 21 tháng 05 năm 2008 Tác giả ĐATN Đoàn Thanh Tám Sinh viên thực hiện: Đồn Thanh Tám – Khóa 48 Lớp CNPM 4/88 Nghiên cứu giải pháp tinh lọc tri thức cộng đồng MỤC LỤC PHIẾU GIAO NHIỆM VỤ ĐỒ ÁN TỐT NGHIỆP TÓM TẮT NỘI DUNG ĐỒ ÁN TỐT NGHIỆP ABSTRACT OF THESIS LỜI CẢM ƠN MỤC LỤC TỔNG QUAN VỀ XỬ LÝ NGÔN NGỮ TỰ NHIÊN 12 1.1 TỔNG QUAN VỀ XỬ LÝ NGÔN NGỮ TỰ NHIÊN 12 1.1.1 Khái niệm xử lý ngôn ngữ tự nhiên .12 1.1.2 Các khó khăn xử lý ngơn ngữ tự nhiên 15 1.1.3 Các tốn xử lý ngơn ngữ tự nhiên 16 1.1.4 Đánh giá việc xử lý ngôn ngữ tự nhiên 17 1.2 TÓM TẮT LỊCH SỬ PHÁT TRIỂN CỦA NLP 18 1.3 CÁC MỨC TRONG XỬ LÝ NGÔN NGỮ TỰ NHIÊN 21 1.3.1 Mức âm vị 22 1.3.2 Mức hình thái học 22 1.3.3 Mức từ vựng .22 1.3.4 Mức cú pháp .23 1.3.5 Mức ngữ nghĩa 23 1.3.6 Mức văn cảnh 24 1.3.7 Mức ngữ dụng 24 1.4 CÁC HƯỚNG TIẾP CẬN TRONG NLP .25 1.4.1 Hướng tiếp cận biểu tượng .26 1.4.2 Hướng tiếp cận thống kê 26 1.4.3 Hướng tiếp cận kết nối .27 1.4.4 So sánh hướng tiếp cận 28 1.5 CÁC ỨNG DỤNG CỦA NLP 31 KẾT LUẬN 32 ĐỀ XUẤT GIẢI PHÁP TINH LỌC TRI THỨC CỘNG ĐỒNG 33 2.1 TRI THỨC CỘNG ĐỒNG .33 2.1.1 Khái niệm 33 2.1.2 Lịch sử 34 2.1.3 Các ví dụ tri thức cộng đồng .36 2.1.4 Các cơng nghệ tốn học 37 2.1.5 Xu hướng phát triển 37 2.2 GIỚI THIỆU BÀI TOÁN TINH LỌC TRI THỨC 38 2.2.1 Các ví dụ tinh lọc tri thức 38 2.2.2 Điều kiện để nhóm trở thành nhóm “thơng minh” 39 2.2.3 Giới thiệu toán tinh lọc tri thức 40 2.2.4 Phạm vi ứng dụng tầm quan trọng 42 2.3 GIẢI PHÁP TINH LỌC TRI THỨC 43 2.3.1 Giải pháp tinh lọc tri thức Công ty CNPMMT 43 Sinh viên thực hiện: Đồn Thanh Tám – Khóa 48 Lớp CNPM 5/88 Nghiên cứu giải pháp tinh lọc tri thức cộng đồng 2.3.2 Các định nghĩa giả thiết .44 2.3.3 Các mơ hình khảo sát .45 2.4 ĐÁNH GIÁ CÁC PHƯƠNG ÁN 49 KẾT LUẬN 51 TINH LỌC TRI THỨC CHO TỪ ĐIỂN ĐA NGỮ 53 3.1 GIỚI THIỆU TỪ ĐIỂN ĐA NGỮ 53 3.2 KIẾN TRÚC WORDNET CỦA PRINCETON UNIVERSITY .59 3.2.1 Tổng quan 59 3.2.2 Kiến trúc tri thức WordNet 61 3.2.3 Cấu trúc liệu WordNet 62 3.2.4 Xử lý liệu WordNet 70 3.2.5 Những hạn chế Wordnet 72 3.3 KIẾN TRÚC CỦA TỪ ĐIỂN ĐA NGỮ TRỰC TUYẾN 73 3.3.1 Tổng quan 73 3.3.2 Cấu trúc CSDL từ điển đa ngữ trực tuyến 73 3.3.3 Xử lý liệu từ diển đa ngữ trực tuyến 77 3.4 ÁP DỤNG TINH LỌC TRI THỨC CHO TĐĐNTT 80 KẾT LUẬN 82 CÁC KẾT QUẢ THỬ NGHIỆM VÀ HƯỚNG PHÁT TRIỂN 83 4.1 CÁC KẾT QUẢ THỬ NGHIỆM 83 4.2 HƯỚNG PHÁT TRIỂN 84 KẾT LUẬN 84 PHỤ LỤC A: MINH HỌA CÁC VÍ DỤ VỀ TTCĐ 85 PHỤ LỤC B: CÁC KHÁI NIỆM TRONG WORDNET 86 TÀI LIỆU THAM KHẢO 88 Sinh viên thực hiện: Đoàn Thanh Tám – Khóa 48 Lớp CNPM 6/88 Nghiên cứu giải pháp tinh lọc tri thức cộng đồng DANH MỤC CÁC HÌNH Hình 2.1 Mơ hình tốn tinh lọc tri thức dạng ma trận 46 Y Hình 3.1 Từ điển đa ngữ trực tuyến 58 Hình 3.2 Từ điển WordNet .60 Hình 3.3 Mối quan hệ bảng CSDL TĐĐNTT 77 Hình 3.4 Các bước tra cứu thông tin từ 79 Hình 3.5 Các bước bổ sung từ 79 Hình 3.6 Các bước bổ sung ngữ nghĩa 80 Hình 3.7 CSDL TĐĐNTT 82 Hình 4.1 Áp dụng tinh lọc tri thức cho TĐĐNTT 83 Phụ lục A - Hình Mơ tả trang web Wikipedia .85 Phụ lục A - Hình Mơ tả trang web Google 85 Sinh viên thực hiện: Đồn Thanh Tám – Khóa 48 Lớp CNPM 7/88 Nghiên cứu giải pháp tinh lọc tri thức cộng đồng DANH MỤC CÁC BẢ Bảng 2.1 Kết thử nghiệm số liệu 50 Bảng 2.2 Kết thử nghiệm số liệu 50 Bảng 2.3 Kết thử nghiệm số liệu 51 Bảng 2.4 Tổng hợp kết thử nghiệm 51 Y Bảng 3.1 Danh sách file lexicographer .65 Bảng 3.2 Danh sách pointer_symbol danh từ .67 Bảng 3.3 Danh sách pointer_symbol động từ .67 Bảng 3.4 Danh sách pointer_symbol tính từ .67 Bảng 3.5 Danh sách pointer_symbol trạng từ 67 Bảng 3.6 Mô tả trường bảng tblexplain 74 Bảng 3.7 Mô tả trường bảng tbllanguage .74 Bảng 3.8 Mô tả trường bảng tblpattern 75 Bảng 3.9 Mô tả trường bảng tblphrase 75 Bảng 3.10 Mô tả trường bảng tblpos 75 Bảng 3.11 Mô tả trường bảng tblredef 76 Bảng 3.12 Mô tả trường bảng tblrelation .76 Bảng 3.13 Mô tả trường bảng tbluser 76 Bảng 3.14 Mô tả trường bảng tbluserphrase 77 Bảng 3.15 Bảng tblphrase sau bổ sung .81 Bảng 3.16 Bảng tbluserphrase CSDL 81 Sinh viên thực hiện: Đoàn Thanh Tám – Khóa 48 Lớp CNPM 8/88 Nghiên cứu giải pháp tinh lọc tri thức cộng đồng DANH MỤC CÁC TỪ VIẾT TẮT VÀ THUẬT NGỮ CG Chuyên gia CNPMMT Công nghệ phần mềm máy tính CSDL Cơ sở liệu ĐATN Đồ án tốt nghiệp MĐ Mệnh đề PA Phương án TĐĐNTT Từ điển đa ngữ trực tuyến TTCĐ Tri thức cộng đồng AI Artificial intelligence CL Computational Linguistics MT Machine Translation NLP Natural Language Processing NLU Natural Language understanding Group mind Ý nghĩ theo nhóm Sinh viên thực hiện: Đồn Thanh Tám – Khóa 48 Lớp CNPM 9/88 Nghiên cứu giải pháp tinh lọc tri thức cộng đồng LỜI NĨI ĐẦU Lĩnh vực xử lý ngơn ngữ tự nhiên thu hút quan tâm nhiều nhà nghiên cứu Các ứng dụng sử dụng thành có từ xử lý ngơn ngữ tự nhiên ngày phát triển nhiều hơn, mục đích cuối hầu hết ứng dụng hướng tới giải vấn đề cách hiệu thân thiện với người “Khoảng cách” máy tính người ngày thu hẹp lại, máy tính phương tiện trao đổi thơng tin ngày trở lên “thông minh” hơn, tiến tới cách hành xử giống người nhờ hiểu dần ngôn ngữ người Tuy nhiên, vấn đề đặt xử lý ngôn ngữ tự nhiên phức tạp, có vấn đề gần khơng thể giải tri thức cá nhân đơn lẻ nữa, mà cần có đóng góp tri thức nhiều người, toán tinh lọc tri thức cộng đồng đời từ yêu cầu lĩnh vực xử lý ngôn ngữ tự nhiên Nhưng kết nghiên cứu mà mang lại vượt ngồi mục đích ban đầu Nếu giải tốt tốn này, khơng vấn đề xử lý ngôn ngữ tự nhiên giải quyết, mà nhiều tốn lĩnh vực khác tìm lời giải Mục đích luận văn nghiên cứu giải pháp tinh lọc tri thức cộng đồng Giải pháp phát triển Công ty cơng nghệ phần mềm máy tính Xây dựng thử nghiệm giải pháp khác nhau, nhằm đánh giá đưa giải pháp phù hợp Sử dụng kết nghiên cứu để hoàn thiện sở liệu cho ứng dụng từ điển đa ngữ trực tuyến Bố cục ĐATN gồm phần: phần 1, tổng quan xử lý ngôn ngữ tự nhiên; phần 2, đề xuất giải pháp tinh lọc tri thức cộng đồng; phần tinh lọc tri thức cho từ điển đa ngữ trực tuyến phần cuối trình bày kết thử nghiệm, đánh giá hướng phát triển tương lai Phần 1: Tổng quan xử lý ngôn ngữ tự nhiên Phần trình bày nhìn tổng quan xử lý ngôn ngữ tự nhiên: khái niệm lĩnh vực xử lý ngơn ngữ tự nhiên, tóm tắt lịch sử phát triển xử lý ngôn ngữ tự nhiên, tốn xử lý ngơn ngữ tự nhiên khó khăn nghiên cứu lĩnh vực Phần trình bày mức tiến trình xử lý ngơn ngữ tự nhiên, hướng tiếp cận khác NLP ứng dụng NLP Hiện ứng dụng sử dụng NLP ngày phát triển, hướng tới cách xử lý thân thiện với người Có nhiều tốn cần giải xử lý ngôn ngữ tự nhiên, hầu hết tốn cần có lượng liệu đầy đủ đắn muốn có kết xử lý tốt Do làm nảy sinh toán tinh lọc tri thức cộng đồng Bài toán xuất phát từ nhu cầu cần phải có kho liệu đủ lớn xác làm tảng cho xử lý NLP Kho liệu bổ sung hồn thiện dần nhờ đóng góp từ cộng đồng Phần 2: Đề xuất giải pháp tinh lọc tri thức cộng đồng Tri thức kết tinh hiều biết, làm thu tri thức từ cá nhân cộng đồng? Nội dung phần đưa khái niệm tri thức cộng đồng, lịch sử phát triển tri thức cộng đồng, vai trò tri thức cộng đồng việc giải vấn đề phức tạp Trong phần đưa Sinh viên thực hiện: Đoàn Thanh Tám – Khóa 48 Lớp CNPM 10/88

Ngày đăng: 04/08/2023, 12:33

Tài liệu cùng người dùng

Tài liệu liên quan