Xây dựng ontology phục vụ cho việc rút trích cụm danh từ đặc trưng ngữ nghĩa cho tiếng việt

67 20 0
Xây dựng ontology phục vụ cho việc rút trích cụm danh từ đặc trưng ngữ nghĩa cho tiếng việt

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

ĐẠI HỌC QUỐC GIA TP HCM TRƯỜNG ĐẠI HỌC BÁCH KHOA CỘNG HOÀ XÃ HỘI CHỦ NGHIÃ VIỆT NAM Độc Lập - Tự Do - Hạnh Phúc -oOo - Tp HCM, ngày 30 tháng 11 năm 2008 NHIỆM VỤ LUẬN VĂN THẠC SĨ Họ tên học viên : Vũ Chí Hiếu Giới tính : Nam Ngày, tháng, năm sinh : 06/02/1982 Nơi sinh :TP Hồ Chí Minh / Nữ Chun ngành : Khoa học Máy tính Khố : 2006 1- TÊN ĐỀ TÀI : Nghiên cứu xây dựng Ontology phục vụ cho việc rút trích cụm danh từ đặc trưng ngữ nghĩa 2- NHIỆM VỤ LUẬN VĂN : Nghiên cứu ontology có vể cấu trúc, phương pháp xây dựng rút trích thơng tin - Nghiên cứu văn phạm tiếng Việt mức từ cụm danh từ Xây dựng ontology thử nghiệm tiếng Việt phục vụ cho việc rút trích cụm danh từ đặc trưng chế bổ sung vào cấu trúc liệu ontology truy xuất thông tin từ ontology đề xuất 3- NGÀY GIAO NHIỆM VỤ : 15/01/2008 4- NGÀY HOÀN THÀNH NHIỆM VỤ : 30/11/2008 5- HỌ VÀ TÊN CÁN BỘ HƯỚNG DẪN : PGS.TS Phan Thị Tươi Nội dung đề cương Luận văn thạc sĩ Hội Đồng Chuyên Ngành thông qua CÁN BỘ HƯỚNG DẪN CHỦ NHIỆM BỘ MÔN (Họ tên chữ ký) QUẢN LÝ CHUYÊN NGÀNH (Họ tên chữ ký) PGS.TS Phan Thị Tươi CƠNG TRÌNH ĐƯỢC HỒN THÀNH TẠI TRƯỜNG ĐẠI HỌC BÁCH KHOA ĐẠI HỌC QUỐC GIA TP HỒ CHÍ MINH Cán hướng dẫn khoa học : PGS.TS Phan Thị Tươi Cán chấm nhận xét : PGS TS Đồng Thị Bích Thuỷ Cán chấm nhận xét : TS Quản Thành Thơ Luận văn thạc sĩ bảo vệ HỘI ĐỒNG CHẤM BẢO VỆ LUẬN VĂN THẠC SĨ TRƯỜNG ĐẠI HỌC BÁCH KHOA, ngày 26 tháng năm 2009 i Lời cảm ơn Tôi xin chân thành cảm ơn cô PGS TS Phan Thị Tươi Cơ tận tình hướng dẫn, bảo động viên tơi hồn thành luận văn Xin chân thành cảm ơn nghiên cứu sinh Nguyễn Quang Châu tận tình giúp đỡ, giúp tơi hồn thành luận văn Xin chân thành cảm ơn nghiên cứu sinh Nguyễn Chánh Thành ln nhiệt tình giúp đỡ, đóng góp ý kiến phản biện quý báu Xin chân thành cảm ơn bạn nhóm bạn lớp giúp đỡ tạo điều kiện cho tơi q trình thực luận văn ii Tóm tắt Các cụm từ đặc trưng cụm từ mơ tả nội dung văn Do việc rút trích xác chúng có ý nghĩa lớn trong việc xử lý ngôn ngữ tự nhiên Để rút trích xác cụm từ đặc trưng ngữ nghĩa, cần phải có sở tri thức chứa đối tượng giới thực Tuy nhiên, chưa có nghiên cứu dựa hướng tiếp cận để giải toán cho tiếng Việt Luận văn đề xuất phương pháp xây dựng ontology nhằm phục vụ cho việc rút trích cụm danh từ đặc trưng ngữ nghĩa văn Ontology xây dựng tự động phần Các từ, cụm danh từ rút trích ánh xạ cách bán tự động đến khái niệm tương ứng iii Abstract Key phrases are phrase that describe accurately the subject of a document Extraction of them has great meaning in natural language processing In order to extract key phrase correctly, it needs to have a knowledge base which contains objects in real world However, few of research based on this direction for the key phrase extraction in Vietnamese This thesis propose a method for building ontology used in key phrase extraction A part of the ontology is made automatically Nouns and noun phrases are extracted from document and mapped semiautomatically to coresponding concepts iv Mục Lục Lời cảm ơn……………………………………………………………………i Tóm tắt……………………………………………………………………….ii Abstract………………………………………………………………… …iii Danh mục hình…………………………………………………………… vi Danh mục bảng biểu……………………………………………………….vii Chương : Tổng quan………………………………………………………1 1.1 Phát biểu vấn đề…………………………………………………………… 1.2 Rút trích cụm danh từ đặc trưng ngữ nghĩa………………………………….4 1.2.1 Khái niệm cụm từ đặc trưng ngữ nghĩa………………………………4 1.2.2 Bài toán rút trích cụm danh từ đặc trưng ngữ nghĩa…………………… 1.3 Ontology…………………………………………………………………… 1.3.1 Định nghĩa ontology…………………………………………………… 1.3.2 Các chức ontology………………………………………7 1.3.3 Phân loại ontology……………………………………………………….8 1.3.4 Một số ngôn ngữ biểu diễn ontology…………………………………….9 1.3.4.1 Ngôn ngữ RDF………………………………………………………10 1.3.4.2 Ngôn ngữ RDFS…………………………………………………….11 1.3.4.3 Ngôn ngữ OWL…………………………………………………… 11 1.3.4.4 Ngôn ngữ CycL…………………………………………………… 12 1.3.4.5 Ngôn ngữ SWRL……………………………………………………13 Chương : Các nghiên cứu liên quan…………………………………….14 2.1 Ontology………………………………………………………………… 14 2.2 Xây dựng ontology từ tài liệu văn tự do…………………………… 21 2.2.1 Xây dựng ontology mới……………………………………………… 21 v 2.2.2 Mở rộng ontology tồn tại……………………………………………23 2.3 Chú thích ngữ nghĩa……………………………………………………….26 Chương : Mơ hình ontology đề nghị…………………………………….28 3.1 Phương pháp………………………………………………………………28 3.2 Nhận diện khái niệm từ vựng…………………………………………31 3.3 Chú thích ngữ nghĩa cho khái niệm từ vựng………………………….33 3.3.1 Chú thích ngữ nghĩa dựa từ điển………………………………… 34 3.3.2 Chú thích ngữ nghĩa dựa độ tương tự…………………………… 35 3.4 Chú thích ngữ nghĩa cho thực thể…………………………………… 38 3.4.1 Chú thích ngữ nghĩa dựa từ điển………………………………… 38 3.4.2 Chú thích ngữ nghĩa dựa khái niệm làm rõ………… 39 Chương : Hiện thực đánh giá……………………………………… 41 4.1 Hiện thực hệ thống……………………………………………………… 41 4.1.1 Ontology xây dựng tay…………………………………… 41 4.1.2 Khối truy vấn ontology…………………………………………………42 4.1.3 Khối thích ngữ nghĩa dựa từ điển…………………………… 43 4.1.4 Khối thích ngữ nghĩa dựa độ tương tự……………………… 44 4.1.5 Khối thích ngữ nghĩa dựa khái niệm làm rõ…… 46 4.2 Đánh giá………………………………………………………………… 47 4.2.1 Kết xây dựng ontology…………………………………………….47 4.2.2 Tính ứng dụng ontology……………………………………………49 Chương : Kết luận……………………………………………………… 51 5.1 Đóng góp luận văn……………………………………………………51 5.2 Hướng phát triển………………………………………………………… 52 Tài liệu tham khảo………………………………………………………….53 vi Danh Mục Hình Hình 1.1 Hệ phân cấp đối tượng giới thực……………………….6 Hình 1.2 Phân loại ontology……………………………………………………9 Hình 1.3 Mơ tả RDF tổng qt……………………………………………… 10 Hình 2.1 Cơ sở tri thức OpenCyc…………………………………………15 Hình 2.2 Ontology Proton…………………………………………………… 17 Hình 3.1 Cấu trúc ontology……………………………………………………30 Hình 3.2 Mơ hình rút trích thích khái niệm thực thể cho ontology…………………………………… 31 Hình 3.3 Mơ hình thích ngữ nghĩa cho từ, cụm danh từ………………….34 Hình 3.4 Mơ hình thích ngữ nghĩa cho thực thể…………………… 38 Hình 4.1 Cấu trúc ontology……………………………………………………42 Hình 4.2 Khối truy vấn ontology…………………………………………… 43 Hình 4.3 Module rút trích cụm danh từ đặc trưng…………………………….49 vii Danh mục bảng biểu Bảng 4.1 Kết rút trích ánh xạ từ, cụm danh từ khái niệm …….48 Bảng 4.2 Kết rút trích ánh xạ từ, cụm danh từ thực thể …….48 Bảng 4.2 Kết nhận diện cụm danh từ đặc trưng………………………… 50 Chương : Tổng quan 1.1 Phát biểu vấn đề Hiện nay, với phát triển mạnh mẽ World Wide Web (WWW), Internet trở thành nguồn tài nguyên thông tin khổng lồ nhân loại Nguồn tài nguyên mở rộng chia sẻ đến nơi giới Vấn đề đặt làm khai thác thông tin cách hiệu phục vụ nhu cầu người Các hệ thống truy hồi thơng tin (Information Retrieval), rút trích thơng tin (Information Extraction), tóm tắt văn (Text Summarization), … phát triển nhằm khai thác cách tự động nguồn thông tin Internet Một vấn đề cốt lõi hệ thống nói việc rút trích cụm từ đặc trưng ngữ nghĩa văn Cụm từ đặc trưng cụm từ mơ tả nội dung văn Do việc rút trích xác chúng có ý nghĩa lớn mối quan tâm nhà ngôn ngữ học, nhà khoa học lãnh vực xử lý ngơn ngữ tự nhiên máy tính Ta xem xét kỹ cụm từ đặc trưng ngữ nghĩa Xét ví dụ sau : Máy tính trang bị hình LCD Trong câu văn có hai cụm danh từ “máy tính” “màn hình LCD” Dễ thấy đối tượng nhắc đến câu hình cụm danh từ đặc trưng cụm “màn hình LCD” Vấn đề đặt làm chọn cụm danh từ đặc trưng ngữ nghĩa hai cụm danh từ Để giải vấn đề này, cần phải có sở tri thức lớn (như hệ phân cấp hay mạng ngữ nghĩa) chứa 44 relation mô tả quan hệ từ hay cụm từ với khái niệm tương ứng Các mối quan hệ lớp tương đương (equivalentClass) thể (instanceOf) Ví dụ mơ tả mối quan hệ thực thể Dell Inspiron E1505 khái niệm máy tính xách tay … Dell Inpiron E1505 máy_tính_xách_tay … 4.1.4 Khối thích ngữ nghĩa cho khái niệm dựa độ tương tự Ở phương pháp này, ngữ nghĩa từ hay cụm từ xác định dựa tương tự chúng với khái niệm ontology Sự tương tự tính toán dựa véc tơ ngữ cảnh khái niệm véc tơ ngữ cảnh từ, cụm từ tài liệu Véc tơ ngữ cảnh khái niệm tính cách thống kê lần xuất khái niệm tập ngữ liệu Mười từ với xác suất đồng xuất với khái niệm cao chọn làm mô tả ngữ cảnh cho khái niệm Tập véc tơ ngữ cảnh khái niệm lưu trữ dạng tập tin XML có cấu trúc : word1 word2 … 45 … Mỗi nút CONCEPT tương ứng với khái niệm ontology có thuộc tính value tên khái niệm, thuộc tính count số lần xuất khái niệm tập ngữ liệu Các nút WORD từ mơ tả ngữ cảnh khái niệm có giá trị count số lần đồng xuất chúng với khái niệm tập ngữ liệu Để xác định ngữ nghĩa từ hay cụm từ, ontology duyệt từ nút gốc để xác định khái niệm phù hợp Ở nút xét, độ tương tự từ, cụm từ với khái niệm tương ứng nút tính tốn theo công thức 3.2 phần 3.3.2 Giải thuật duyệt trình bày sau : Giải thuật duyệt curNode → r // r nút gốc ontology stop = false curMax = Sim (w, r) while not stop C = tập nút curNode if c # rỗng then tempMax = max(Sim(w, ci)) c = argmax(Sim(w, ci)) if tempMax < curMax stop = true; else ci Є C 46 curMax = tempMax curNode = c endif endif endwhile 4.1.5 Khối thích ngữ nghĩa cho thực thể dựa khái niệm làm rõ Như đề cập, thực thể có tên thường xuất tài liệu với tiền tố kèm mô tả thông tin ngữ nghĩa chúng Khi xuất tài liệu mà khơng có thơng tin thêm, người khó lịng nhận biết ngữ nghĩa thực thể Trong luận văn này, chúng tơi giải trường hợp thực thể có tên xuất kèm với thông tin mô tả ngữ nghĩa Trong nhiều trường hợp, thực thể có tên đề cập đến tài liệu, nhắc lại bên Khi gặp trường hợp này, hướng giải quay lui tìm kiếm thực thể câu, đoạn văn trước Tuy nhiên khơng phải lúc thực thể xuất với tên đầy đủ nhắc lại mà viết tắt rút gọn Do đó, q trình quay lui tìm kiếm, sử dụng lại luật đồng tham chiếu [22], đề cập phần 3.4.2 Giải thuật trình bày sau Giải thuật tìm kiếm đồng tham chiếu preInstanceList = tập thích cho thực thể trước while preInstanceList # rỗng 47 preAnnot = getPreInstanceAnnot() if preAnnot rõ nghĩa then if coreferenceMatch(preAnnot, curAnnot) then Cập nhật thông tin ngữ nghĩa cho curAnnot Dừng giải thuật endif endif endwhile 4.2 Đánh giá Ontology xây dựng cần đáp ứng yêu cầu tính xác tính ứng dụng việc giải toán thực tế Đánh giá kết xây dựng ontology trình bày 4.2.1 Tính ứng dụng ontology đánh giá 4.2.2 4.2.1 Kết xây dựng ontology Sự xác việc xây dựng ontology thể xác phương pháp nhận diện thích ngữ nghĩa cho cụm từ Để đánh giá hiệu phương pháp, sử dụng hai tham số độ xác (Precision) độ bao phủ (Recall), định nghĩa công thức 4.1 Precision = Ra Ra , Recall = R A (4.1) Trong R tập từ, cụm từ nhận diện ánh xạ hệ thống, A tập cụm từ nhận diện ánh xạ thủ công, Ra tập giao tập R A Chúng tiến hành đánh giá tài liệu chọn từ tạp chí Thế Giới Vi Tính Đầu vào chương trình từ cụm danh từ thích ngữ nghĩa hiệu chỉnh tay Tổng số cụm danh từ mô tả khái niệm thực thể 210 Kết thể bảng 4.1 4.2, cơng thức GO cơng thức tính độ 48 tương tự dựa từ chung định nghĩa tương tự [1], công thức cosine công thức độ tương tự dựa cosine hai véc tơ ngữ cảnh (công thức 3.2) : Công thức GO Công thức cosine R A Ra Precision Recall 105 105 76 76 39 34 37,1% 32,4% 51,3% 44,7% Bảng 4.1 : Kết rút trích ánh xạ từ, cụm danh từ khái niệm Công thức GO Công thức cosine R A Ra Precision Recall 21 21 41 41 16 16 76,2% 76,2% 39% 39% Bảng 4.2 : Kết rút trích ánh xạ từ, cụm danh từ thực thể Theo bảng 4.1 4.2, thấy kết đạt hai công thức gần thấp Đối với khái niệm bảng 4.1, trình nhận dạng sai hai nguyên nhân : i) khái niệm không nằm lĩnh vực quan tâm hệ thống phân biệt ii) nhận dạng sai khối thích ngữ nghĩa dựa độ tương tự Sự chênh lệch hai công thức tổng số 76 khái niệm Tuy nhiên số khái niệm nhận dạng dựa module từ điển 29 Chênh lệch hai công thức khái niệm Xem xét kỹ vấn đề này, nhận thấy công thức cosine có độ xác thấp phần lớn chênh lệch tần suất xuất khái niệm thống kê Một khái niệm xuất tập ngữ liệu có tần suất xuất cao thống kê Do đó, để phương pháp đạt độ xác cao hơn, cần sử dụng tập ngữ liệu có phân bố tương đối Đối với thực thể bảng 4.2 tương tự, thực thể nhận diện chủ yếu khối nhận diện dựa từ điển Các trường hợp bị sai phần lớn ảnh hưởng khối thích ngữ nghĩa cho khái niệm Tuy nhiên, độ xác hai cơng thức cao Lý phần thực thể không nhận diện khối nhận diện thực thể nhận diện lại khối nhận diện khái niệm lần cuối 49 Từ kết cho thấy, q trình thích ngữ nghĩa cho khái niệm tương đối khó khăn cần có nghiên cứu để cải thiện độ xác độ bao phủ Khối thích ngữ nghĩa dựa độ tương tự xây dựng luận văn chủ yếu dựa thông tin ngữ cảnh để xác định ngữ nghĩa từ, cụm danh từ Tuy nhiên, để xác định xác ngữ nghĩa chúng, thơng tin mang tính chất tảng đóng vai trị quan trọng 4.2.2 Tính ứng dụng ontology Để đánh giá hiệu phương pháp rút trích cụm danh từ đặc trưng ngữ nghĩa sử dụng ontology Chúng xây dựng module rút trích sau Đầu vào module tài liệu tiền xử lý, rút trích cụm danh từ Cơ sở tri thức sau truy vấn để rút ngữ nghĩa từ, cụm danh từ Nếu từ, cụm danh từ chưa tồn sở tri thức, khái niệm gần với từ, cụm danh từ trả dựa vào cơng thức độ tương tự trình bày phần 3.3.2 luận văn Với ngữ nghĩa thu sau truy vấn, cụm danh từ đặc trưng nhận diện dựa mức độ chi tiết khái niệm, theo nghĩa cụm danh từ mô tả chi tiết đặc trưng [20] Tài liệu (đã tiền xử lý) Nhận diện khái niệm (thông qua truy vấn ontology Nhận diện cụm danh từ đặc trưng Hình 4.3 : Module rút trích cụm danh từ đặc trưng Cơ sở tri thức 50 Chúng tiến hành đánh giá 20 câu từ tài liệu tạp chí Thế Giới Vi Tính Kết thể bảng 4.3 R A Ra Precision Recall 20 20 16 80% 80% Bảng 4.3 : Kết nhận diện cụm danh từ đặc trưng Từ bảng 4.3 thấy, kết đạt khả quan Tuy nhiên, đánh giá mang tính minh hoạ tập câu dùng để kiểm thử cịn Tất bốn câu nhận dạng sai thuộc vào trường hợp khái niệm chưa tồn ontology Do đó, việc xây dựng độ tương tự ngữ nghĩa tốt cần xem xét nghiên cứu sau 51 Chương : Kết luận Với mục tiêu xây dựng ontology phục vụ cho việc rút trích cụm danh từ đặc trưng ngữ nghĩa cho câu tiếng Việt, luận văn khảo sát số mơ hình phương pháp xây dựng ontology để từ áp dụng cho tiếng Việt Luận văn đề xuất mơ hình ontology kết hợp tri thức từ vựng tri thức khái niệm giới thực, phương pháp xây dựng (bán) tự động ontology cho tiếng Việt, sử dụng hướng tiếp cận từ điển hướng tiếp cận kết hợp thống kê tri thức ontology Tuy nhiên, luận văn bước đầu việc khảo sát xây dựng ontology cho tiếng Việt nên nhiều thiếu sót cần tiếp tục nghiên cứu phát triển 5.1 Đóng góp luận văn Trong luận văn này, xây dựng ontology kết hợp tri thức từ vựng tri thức khái niệm Ontology gồm có thành phần chứa tri thức từ vựng tương tự Wordnet thành phần chứa tri thức ngữ nghĩa giới Các từ vựng (từ, cụm danh từ) rút trích ánh xạ đến lớp mô tả ngữ nghĩa tương ứng cách (bán) tự động Hơn nữa, từ vựng ánh xạ đến lớp tương ứng tuỳ theo miền liệu cụ thể Các khái niệm ontology truy vấn gần thông qua công thức độ tương tự đề nghị luận văn Luận văn đề xuất phương pháp thích ngữ nghĩa cho từ, cụm từ kết hợp ontology thống kê Phương pháp áp dụng trình xây dựng ontology 52 5.2 Hướng phát triển Trong luận văn này, bước đầu khảo sát xây dựng ontology phục vụ cho việc rút trích cụm danh từ đặc trưng tiếng Việt, ontology phương pháp xây dựng ontology cịn nhiều thiếu sót cần có hướng phát triển thêm Ontology lưu trữ danh từ cụm danh từ khái niệm, thực thể tương ứng Trong đó, động từ đóng vai trò quan trọng ngữ nghĩa tài liệu Việc nắm bắt lưu trữ ngữ nghĩa động từ vấn đề cần khảo sát nghiên cứu Việc mở rộng miền liệu tri thức cần thiết để giải toán lĩnh vực rộng Tuy nhiên, việc mở rộng ontology dẫn đến nhập nhằng ngữ nghĩa từ mang nghĩa khác lĩnh vực khác Việc tổ chức lưu trữ ontology hữu ích cho việc giải nhập nhằng ngữ nghĩa hướng mở rộng cần quan tâm nghiên cứu Trong công thức độ tương tự, từ có xác suất đồng xuất cao khái niệm thống kê mơ tả ngữ cảnh khái niệm Tuy nhiên tài liệu, ngữ cảnh xuất với khái niệm tuỳ thuộc vào chủ đề tài liệu Đây vấn đề liệu thưa, có ảnh hưởng lớn đến kết tính tốn Việc giải vấn đề hướng nghiên cứu đáng quan tâm Luận văn không giải vấn đề khái niệm nhận diện chưa tồn ontology Vấn đề theo ý kiến thường xuyên xảy thực tế có ý nghĩa việc mở rộng ontology Do đó, vấn đề cần quan tâm nghiên cứu tương lai 53 Tài Liệu Tham Khảo [1] Banerjee S and Pederson T., 2003, Extended Gloss Overlaps as a Measure of Semantic Relatedness, In Proceedings of the Eighteenth International Joint Conference on Artificial Intelligence, IJCAI-03, pp 805–810 [2] Biemann C., 2005, Ontology learning from text: A survey of methods, LDV-Forum, Vol 20, Issue 2, pp 75-93 [3] Caraballo S A., 1999, Automatic Construction of a Hypernym-Labeled Noun Hierrachy from Text, In Proceedings of the 37th Annual Meeting of the Association for Computational Linguistics, ACL-99, pp 120–126 [4] Chinchor N and Robinson P., 1997, MUC-7 Named Entity Task Definition (version 3.5) , In Proceedings of the MUC-7, 1998 [5] Dill S., Gibson N., Gruhl D., Guha R., Jhingran A., Kanungo T., Rajagopalan S., Tomkins A., Tomlin J.A and Zien J.Y., 2003, SemTag and Seeker: Bootstrapping the semantic web via automated semantic annotation, In Proceedings of Twelfth International World Wide Web Conference, Budapest, Hungary, pp 178186 [6] Fensel D., 2000, The Semantic Web and its Languages, IEEE Intelligent Systems, Vol 15, No 6, November/December, pp 67-73 [7] Gruber, T R., 1993, A Translation Approach to Portable Ontology Specifications, Knowledge Acquisition,Volume 5, Issue 2, pp 199-220 [8] Guarino N., 1998, Formal Ontology and Information Systems, In Proceedings of FOIS’98, Trento, Italy, 6-8 June, Amsterdam, IOS Press, pp 3-15 [9] Harris Z S., 1968, Mathematical Structures of Language, Interscience Publishers John Wiley & Sons, New York 54 [10] Hearst, M A (1992) Automatic acquisition of hyponyms from large text corpora, In Proceedings of the Fourteenth International Conference on Computational Linguistics, COLING 1992, Nantes, France, pp 539–545 [11] Hindle D., 1990, Noun Classification from Predicate-Argument Structures, In Meeting of the Association for Computational Linguistics, pp 268–275 [12] Horrocks et al, 2004, SWRL : A Semantic Web Rule Language Combining OWL and RuleML, W3C Member Submission 21 May 2004, available at http://www.w3.org/Submission/SWRL/ [13] Huỳnh Tấn Đạt, 2004, So trùng mờ đồ thị tri thức, Luận văn thạc sĩ , Đại học Bách khoa Thành phố Hồ Chí Minh [14] Kogut P and Holmes W., 2001, AeroDAML : Applying Information Extraction to Generate DAML Annotations from Web Pages, In Proceedings of First International Conference on Knowledge Capture [15] Li J., Zhang L and Yu Y., 2001, Learning to Generate Semantic Annotation for Domain Specific Sentences, In the Workshop on Knowledge Markup and Semantic Annotation, the First International Conference on Knowledge Capture, K-CAP 2001, Victoria B.C., Canada [16] Marynard D., Tablan V., Cunningham K and Wilks Y., 2003, MUSE : a multisource entity recognition system, Computers and the Humanities, Website Reference : http://gate ac uk/sale/muse/muse.pdf [17] Matuszek C., Cabral J., Witbrock M and DeOliveira J., 2006, An Introduction to the Syntax and Content of Cyc, In Proceedings of the 2006 AAAI Spring Symposium on Formalizing and Compiling Background Knowledge and Its Applications to Knowledge Representation and Question Answering, Stanford, CA [18] Miller G A., Beckwith R., Fellbaum C., Gross D and Miller K., 1990, Introduction to WordNet : An Online Lexical Database, International Journal of Lexicography, Vol 3, No.4, pp 235-244 55 [19] Nguyen Q C., Phan T T C H T , 2006, Vietnamese Proper Noun Recognition, In Proceedings of the 4th International Conference on Research, Innovation and Vision for the Future, February 12-16, Ho Chi Minh City, Vietnam, pp.145-152 [20] Nguyễn Quang Châu Phan Thị Tươi, Nhận diện cụm từ đặc trưng ngữ nghĩa Tiếng Việt, Tạp chí Cơng nghệ thơng tin & truyền thông, số 19, trang 64-73 [21] Nguyễn Tài CNn, “Ngữ pháp tiếng Việt”, Nhà xuất Đại hoc Trung học chuyên nghiệp, 1981 [22] Nguyễn Thanh Hiên, 2005, Phân giải đồng tham chiếu thực thể có tên tiếng Việt, Luận văn thạc sĩ , Đại học Bách khoa Thành phố Hồ Chí Minh [23] Nieto M A M., 2003, An Overview of Ontologies, Center of Research in Information and Automation Technologies Technical Report, Puebla, Mexico [24] Niles I and Pease A., 2001, Towards A Standard Upper Ontology, In Proceedings of the international conference on Formal Ontology in Information Systems, Ogunquit, Maine, USA, pp – [25] Noy N.F and McGuinnes D L., 2001, Ontology Development 101: A Guide to Creating Your First Ontology, Stanford Knowledge Systems Laboratory Technical Report KSL−01−05 and Stanford Medical Informatics Technical Report SMI−2001−0880, March [26] Popov B., Kiryakov A., Kirilov A., Manov D., Ognyanoff D and Goranov, M., 2003, KIM – Semantic Annotation Platform, In Proceedings of 2nd International Semantic Web Conference (ISWC2003), Florida, USA, pp 834-849 [27] Pretorius A J., 2004, Ontologies – Introduction and Overview, Adapted from: PRETORIUS, A.J., Lexon Visualisation: Visualising Binary Fact Types in Ontology Bases, Chapter 2, Unpublished MSc Thesis, Vrije Universiteit Brussel 56 [28] Reeve L and Han H., 2005, Survey of Semantic Annotation Platforms, In Proceedings of the 2005 ACM Symposium on Applied Computing, Santa Fe, USA [29] Resource Description Frameword homepage, available at http://www.w3.org/RDF/ [30] Swartout B., Patil R., Knight K., Russ T., 1996, Toward distributed use of large−scale ontologies, In Proceedings of the Tenth Knowledge Acquisition for Knowledge−Based Systems Workshop, KAW ’96, November 9−14, Banff, Alberta, Canada [31] Terra E and Clarke C L A., 2003, Frequency estimates for statistical word similarity measures In Proceedings of the Human Language Technology and North Ameri-can Chapter of Association of Computational Linguis-tics Conference 2003, HLT/NAACL 2003, pp 244–251 [32] Terziev I., Kiryakov A and Manov D., 2003, Base Upper-level Ontology Guidance, OntotText Lab, available at http://proton.semanticweb.org/D1_8_1.pdf [33] The Syntax of CycL, Ontological Engineer ‘s Handbook version 0.7, available at http://www.cyc.com/doc/handbook/oe/02-the-syntax-of-cycl.html [34] Vargas-Vera M., Motta E., Domingue J., Lanzoni M., Stutt A and Ciravegna F., 2002, MnM: Ontology Driven Semi-Automatic and Automatic Support for Semantic Markup, In Proceedings of The 13th International Conference on Knowledge Engineering and Management, EKAW2002, Spain, pp 379-391 [35] Widdows D., 2003, Unsupervised methods for developing taxonomies by combining syntactic and statistical information, In Proceedings of HLT/NAACL 2003, Edmonton, Canada, pp 276–283 [36] Witschel H F., 2005, Using decision trees and text mining techniques for extending taxonomies In Proceedings of Learning and Extending Lexical Ontologies by using Machine Learning Methods, Workshop at ICML-05 57 LÝ LNCH TRÍCH NGANG Họ tên : Vũ Chí Hiếu Ngày, tháng, năm sinh : 06/02/1982 Nơi sinh : TP Hồ Chí Minh Địa liên lạc : 20/7 Lê Đức Thọ, Phường 16, Gị Vấp, TP Hồ Chí Minh Q TRÌNH ĐÀO TẠO - 2000 – 2004 : sinh viên khoa Toán – Tin học, Đại học Khoa học tự nhiên TP Hồ Chí Minh - 2006 – 2009 : học viên khoa Khoa học máy tính, Đại học Bách khoa TP Hồ Chí Minh Q TRÌNH CƠNG TÁC - 2004 – 2006 : công tác công ty Silicon Design Solutions, số 3E/15 Phổ Quang, quận Tân Bình, TP Hồ Chí Minh ... ontology 1.2 Rút trích cụm danh từ đặc trưng ngữ nghĩa 1.2.1 Khái niệm cụm từ đặc trưng ngữ nghĩa Trong [20], cụm từ đặc trưng ngữ nghĩa định nghĩa (định nghĩa Feather Sturges) sau : a.Định nghĩa. .. ontology cộng với thông tin cụ thể Mục tiêu luận văn xây dựng ontology phục vụ cho việc rút trích cụm danh từ đặc trưng ngữ nghĩa Ontology xây dựng phải biểu diễn ngữ nghĩa tài liệu, cụ thể ngữ. .. ontology tiếng Việt với hướng tiếp cận giống để phục vụ cho việc rút trích cụm danh từ đặc trưng ngữ nghĩa cho câu tiếng Việt Ontology bao gồm ontology mức (top-level), mà tạm gọi TO1, ontology từ

Ngày đăng: 15/02/2021, 18:24

Mục lục

  • Nhiemvu_Hieu.pdf

  • Luanvan_full_Hieu.pdf

Tài liệu cùng người dùng

Tài liệu liên quan