xây dựng một ontology
Tóm tắt Ngày nay, việc tìm kiếm thông tin phục vụ cho công việc, học tập cần thiết, đặc biệt lĩnh vực giáo dục. Một sinh viên du học muốn tìm kiếm thông tin người Việt Nam làm tiến sĩ nước đó, hay muốn tìm kiếm thông tin người có hướng nghiên cứu với mình… Chúng ta sử dụng công cụ tìm kiếm Google, Yahoo search, qua mối quan hệ, cho kết với độ xác không cao chưa đầy đủ thông tin. Vì việc đưa công cụ tìm kiếm thông tin người Việt Nam làm tiến sĩ nước hữu ích. Có nhiều cách tiếp cận khác để giải toán, báo cáo đồ án thực tập tốt nghiệp đề cập đến việc xây dựng Ontology – Cơ sở tri thức người Việt Nam làm tiến sĩ nước ngoài, sau biểu diễn sở tri thức mạng xã hội . Cách tiếp cận không mục đích tìm kiếm chia thông tin cách dễ dàng mà hướng tới công nghệ Web tương lai Web 3.0 hay gọi Web ngữ nghĩa. Lời cảm ơn Trước tiên em xin cảm ơn Tiến sĩ Lê Thanh Hương tận tình hướng dẫn em trình làm đồ án thực tập tốt nghiệp này. Em xin cảm ơn thầy cô giáo môn tạo điều kiện cho em thực tập phòng lab. Cảm ơn bạn làm đợt thực tập tốt nghiệp đóng góp ý kiến để hoàn thành đồ án tốt hơn. Mục lục 1. Giới thiệu toán .3 2. Tiếp cận để giải toán .3 3. Kiến trúc hệ thống .5 3.1 Kiến trúc Module tạo Ontology từ tập tài liệu Web 3.1.1 Phase 1: Trích rút term .7 3.1.2 Phase 2: Dịch ngữ nghĩa 3.1.3 Phase 3: Tích hợp Ontology .13 3.2 Thiết kế hệ thống cho phép truy cập liệu từ Ontology xây dựng .13 4. Các kĩ thuật công nghệ sử dụng .13 4.1 Giới thiệu Ontology 13 4.1.1 Cơ sở tri thức sở liệu 14 4.1.2 Ngôn ngữ xây dựng triển khai Ontology .14 4.2 Mạng xã hội .16 4.3 Ontology mạng xã hội 17 4.4 Ontology Learning từ loại văn .17 4.4.1 Định nghĩa Ontology Learning .17 4.4.2 Ontology Learning ‘Layer Cake’ .18 5. Tổng kết hướng làm việc tương lai 31 6. Tham khảo 31 1. Giới thiệu toán. Bài toán đặt tìm kiếm thông tin người Việt Nam làm tiến sĩ nước ngoài. Ta chia thành modun ứng với đề tài thực tập nhóm. Modun thứ nhất: Từ trang web tìm thấy nhờ việc tìm kiếm google hay yahoosearch, phải giải vấn đề để biết là trang web để ta trích rút thông tin. Sau giải toán xong có tập trang web liên quan đến người cần lấy thông tin. Modun thứ hai: Bài toán đặt có tập trang web làm để trích rút đủ thông tin người. Sau giải xong toán ta lại có tập thông tin người làm tiến sĩ. Nhưng đến chưa đủ, thông tin người viết theo cách khác nhau, xảy trường hợp hai người đề cập đến vấn đề cách viết lại khác để gộp thông tin làm một. Đây vấn đề ngữ nghĩa thông tin thu thập được. Giải vấn đề có sở tri thức( bao gồm sở liệu người mối quan hệ người đó). Modun thứ ba: Vấn đề biều diễn thông tin phục vụ cho việc truy vấn dễ dàng hơn. Có nhiều cách biểu diễn thông tin như: biểu diễn thành mạng xã hội người Việt Nam làm tiến sĩ nước ngoài, hay làm ứng dụng xử lí câu truy vấn ngôn ngữ tự nhiên, hay tạo web ngữ nghĩa. 2. Tiếp cận để giải toán. Với Modun thứ ta dùng kĩ thuật Textmining modun Tuấn Anh trình bày rõ báo cáo. Bài toán thứ hai toán trích rút thông tin, với đầu vào tập trang web chứa thông tin người làm tiến sĩ. Có nhiều cách tiếp cận để giải toán dùng cách so mẫu câu viết trang web tức việc phân tích cú pháp câu giống với mẫu câu có phân tích thành phần câu để đưa thông tin. Cách tiếp cận cách tiếp cận xác suất. Để giải toán này, báo cáo đưa kĩ thuật để trích rút thông tin, ứng với loại thông tin áp dụng phương pháp khác nhau. Kĩ thuật sử dụng Text To Ontology, báo cáo đưa mô hình kiến trúc ứng dụng xây dựng. Việc sử dụng Ontology phù hợp cho toán Ontology cho phép mô hình hóa đối tượng định nghĩa ràng buộc đối tượng. Mặt khác Ontology phân cấp đối tượng, điều tiện lợi cho việc gom nhóm đối tượng phục vụ cho việc truy vấn. Một điều thuận lợi sử dụng Ontology nói đến giải toán thứ ba sau. Bài toán thứ ba, biểu diễn thông tin phục vụ cho việc truy vấn sở tri thức dễ dàng hơn. Vì xây dựng nên Ontology với liệu ta có sở tri thức miền lĩnh vực, bao gồm thực thể, mối quan hệ thực thể đó, mạng xã hội tập chung vào việc khai thác mối quan hệ, chủ yếu mối quan hệ xã hội lợi điểm xây dựng ứng dụng Ontology. 3. Kiến trúc hệ thống. Trích rút term Trích rút Term Corpus .html, . htm, .txt Xử lí ngôn ngữ tự nhiên Lọc Term Dịch ngữ nghĩa Dịch ngữ nghĩa Term Máy học quy nạp WordNet Xác định quan hệ phân cấp tương tự Nguồn từ vựng khác Xác định mối quan hệ khác Rừng khái niệm Tích hợp Ontology Tích hợp cập nhật Ontology Ontology Hình 1: Kiến trúc Module tạo Ontology từ tập tài liệu Web. Database Ontologies RD RDQL Queries Convert to RDF RD Convert to Text User Query Interface Hình 2: Thiết kế hệ thống cho phép truy cập liệu từ Ontology xây dựng Mô tả kiến trúc hệ thống. 3.1 Kiến trúc Module tạo Ontology từ tập tài liệu Web. Hình kiến trúc Module tạo Ontology từ tập tài liệu web(OntoLearn). Có ba phases chính: Đầu tiên term lĩnh vực trích rút từ tài liệu, trang web, từ tài liệu liên quan. Những term lọc sử dụng xử lí ngôn ngữ tự nhiên kĩ thuật xác suất. Phase thứ hai: terms sau lọc dịch nghĩa xếp theo thứ tự vào phân cấp, từ tạo nên khái niệm lĩnh vực. Phase thứ ba: Cây phân cấp khái niệm dùng để cập nhật Ontology xây dựng. 3.1.1 Phase 1: Trích rút term Term tập từ hay cụm từ diễn đạt nghĩa đơn lĩnh vực. Những term trích rút nhờ xử lí ngôn ngữ tự nhiên, phân tích cú pháp cụm danh từ cách hợp lí, ví dụ tiếng anh thường có cấu trúc: từ ghép (Credit Cart), tính từ- cụm danh từ (Local Information Office), giới từ- cụm danh từ (Board of Director). Tiếp theo lọc term sử dụng phương thức thống kê. Đó liên quan lĩnh vực (Domain Relevance) tương ứng lĩnh vực (Domain Consensus) mô tả kĩ sau đây. Tần suất xuất term văn điều dễ nhận thấy phân tích. Đo lường tính cụ thể term lĩnh vực đích thông qua việc phân tích so sánh qua lĩnh vực khác. Chính xác hơn, ta có n lĩnh vực {D1, D2. … Dn} tập tài liệu liên quan, mối liên quan lĩnh vực term t lớp Dk tính bằng: Trong xác suất điều kiện P(t|Dk) tính: Với f –t, k tần suất term t lĩnh vực Dk. Chúng ta cần đánh giá độ phân tán sử dụng term, có term có tần suất xuất cao tài liệu lại hoàn thoàn không xuất tài liệu khác. Chỉ số DC đánh giá việc sử dụng phân tán từ lĩnh vực. Sự phân tán term t tài liệu d thuộc lĩnh vực Dk. Entropy thể bậc tương ứng t Dk với công thức: Trong đó: Những term lọc nhờ sử dụng hai số. Với term trọng số đánh giá số TW. Chỉ số α β cho khoảng (0, 1). Thường lấy α = 0.9 β khoảng 0.25 đến 0.35 số tài liệu thu thập lớn. 3.1.2 Phase 2: Dịch ngữ nghĩa Một tập terrms chấp nhận sau phase đưa vào gọi từ vựng. Giống như: Nếu việc phân tích ngữ nghĩa Transport Sevice liên quan đến Pubic Trasport Service. Dịch ngữ nghĩa việc xử lí xác định khái niệm cho thành phần term phức tạp. Sau xác định mối quan hệ ngữ nghĩa chúng để tạo nên nghĩa term phức tạp. Ví dụ Bus Service kết hợp hai khái niệm Bus Servie, hai khái niệm định nghĩa (sử dụng Wordnet ). Khi mối quan hệ ngữ nghĩa hai khái niệm xác định rằng: Có dịch vụ có kiểu công việc(service) thực thông qua (thiết bị) bus mà có kiểu với public transport. Từ có mối quan hệ bus service pubilc transport service. Phương thức dịch nghĩa thực nghĩa khái niệm thông qua nghĩa thành phần nó. Nhưng thực điều không thể, vài thành phần khái niệm không nằm Ontology ban đầu. Trong trường hợp phải thực cách khác. Thuật toán gọi là: structural semantic interconnection sử dụng để học luật gán nhán cho cặp khái niệm có mối quan hệ ngữ nghĩa. 3.1.2.1 Structural semantic interconnection OntoLearn công cụ để mở rộng cắt bớt Ontology sử dụng chung. WordNet sử dụng bảng kê term khái niệm. Để thêm khái niệm hyperonym Ontology tồn phải hiểu cấu trúc nó. Đưa cho term đa từ có nghĩa từ vựng T. w1 cú pháp đầu t. Quá trình suy diễn cấu trúc kết hợp với từ đơn nghĩa wk WordNet . Nghĩa t cấu tạo : Với Synsets(wk) tập nghĩa cung cấp WordNet cho từ wk. Ví dụ: Quan hệ cấu trúc ngữ nghĩa kiểu nhận dạng mẫu cấu trúc. Có hai cách biểu diễn cấu trúc dùng Vector dùng đồ thị ví dụ biểu diễn coach theo nghĩa thứ WordNet “a vehicle carrying many passengers; used for public transport” Đồ thị gọi đồ ngữ nghĩa (Semantic Graph) xây dựng nhờ WordNet. Thuật toán SSI. Thuật toán SSI cách tiếp cận lặp lại sở tri thức để ghép từ thành nghĩa. Các vấn đề chia sau: • t term • T( ngữ cảnh t) tập term chứa t • I biểu diễn cấu trúc T (the semantic context). • cụ thể cấu trúc nghĩa t (semantic graphs). • G is a văn phạm mô tả quan hệ cấu trúc (semantic interconnections) đối tượng phân tích. • Xác định tốt cấu trúc I giống với S • sử dụng G. Chọn kết tốt nhất. 10 Sẽ biểu diễn sau RDF : Pinar’s Ontology Presentation Pinar Oezden pinar.oezden@jrc.it Mặc dù RDF tích hợp khối lượng lớn liệu bị thiếu luật, cho phép suy kết luận từ liệu này. Do OWL – Ontology Web Language phát triển để cung cấp cho tầng logic. Nó cho phép viết thêm luật định nghĩa thuộc tính ngược nhau(Disjoin) 4.2 Mạng xã hội Social Network: mô hình có node người, tổ chức, thực thể… mối quan hệ chúng với nhau. 16 Social Network Analysis(SNA) : Sắp xếp đánh giá mối quan hệ người, tổ chức, thông tin, thực thể. Mối quan hệ mạng xã hội là: – Người với người: mẹ của, vợ của, xếp của, … – Người với tổ chức: người sáng lập của, kiểm sóat … Mối quan hệ thực thể, kiện, Trong mạng xã hội không rõ ràng nhìn vào mạng xã hội. Việc phân tích khám phá mối quan hệ ẩn. Tại phải mô hình hóa mạng xã hội? Giữa thực thể, kiện, nơi diễn có mối quan hệ với không mô hình hóa nhìn vào ta khó mà phát mối quan hệ đó. Ví dụ: Ngọc Đức roommateOf Minh Tú Minh Tú isMemberOf UniGroup Minh Tú meetingAt Café Xanh Ngọc Hương traveledTo Café Xanh Bởi việc mô hình hóa mạng xã hội cho ta thấy quan hệ mà nhìn vào ta không thấy Ngọc Đức isRelatedTo UniGroup, UniGroup isRelatedTo Café Xanh. 4.3 Ontology mạng xã hội Mô hình hóa mạng xã hội ontology lí do: Ontology phát triển để cụ thể hóa giải thích khái niệm hay mối quan hệ liên quan đến lĩnh vực. Mạng xã hội có mục đích tập chung vào quan hệ xã hội thực thể Ontology với chế suy diễn cho phép thu thông tin qua việc triển khai luật để đưa tri thức. Cơ chế suy diễn tiện lợi thông qua mạng xã hội dựa Ontology để đưa đươc mối quan hệ hay khái niệm vượt khỏi thứ tồn mạng. 4.4 Ontology Learning từ loại văn 4.4.1 Định nghĩa Ontology Learning Ontology Learning: Là ứng dụng bao gồm tập phương thức kĩ thuật để xây dựng nên Ontology từ trang hỗn tạp. 17 Sử dụng nguồn thông tin tri thức phân tán hỗn tạp. Cho phép giảm thời gian công sức phát triển Ontology. Có thể học Ontology từ: Nguồn cấu trúc: Bao gồm kĩ thuật xử lí ngôn ngữ tự nhiên, phân tích cú pháp hình thái… Nguồn bán cấu trúc: suy ontology từ nguồn có cấu trúc định nghĩa từ trước ví dụ XML Schema Dữ liệu có cấu trúc: Trích rút khái niệm mối quan hệ từ tri thức chứa liệu có cấu trúc Database. 4.4.2 Ontology Learning ‘Layer Cake’ Ontology Learning ‘Layer Cake’ Axioms & Rules ∀x, y (sufferFrom(x, y) → ill(x)) Relations cure (domain:Doctor, range:Disease) is_a (Doctor, Person) Disease:= Taxonomy (Concept hierarchies) Concepts {disease, illness} Synonyms disease, illness, hospital Terms 4.4.2.1 Trích rút Term Term tảng cho xử lí việc học để tạo nên Ontology. Trích rút term bao gồm: Xử lí ngôn ngữ ◊ gán nhãn từ loại, phân tích hình thái, vv . Xử lí thống kê ◊ so sánh độ phân tán thuật ngữ có tập văn bản. Gán nhãn từ loại tài liệu lĩnh vực. 18 Xác định Term việc xây dựng nên mẫu ví dụ: Tính từ- Danh từ, danh từ - danh từ, tính từ - danh từ - danh từ… Xác định từ liên quan đến Term bời việc áp dụng ma trận xác suất thuật ngữ. Huge Selection of Top Brand Computer Terminals Available for Immediate Delivery. Because Vecmar carries such a large inventory of high-quality computer terminals, including: ADDS terminals, Boundless terminals, DEC terminals, HP terminals, IBM terminals, LINK terminals, NCR terminals and Wyse terminals, your order can often ship same day. Every computer terminal shipped to you is protected with careful packing, including thick boxes. All of our shipping options - including international are available through major carriers. – Những từ hay cụm từ trích rút: computer terminal computer terminal ? high-quality computer terminal ? top brand computer terminal ? HP terminal, DEC terminal, … Các phương pháp trích rút cụm thuật ngữ: 1. Phương pháp ngôn ngữ: Xây dựng nên luật dựa phân tích ngôn ngữ Phân tích ngôn ngữ - gán nhãn từ loại, phân tích hình thái… Dùng mẫu: Tính từ - Danh từ, Danh từ - Danh từ, Tính từ - Danh từ - Danh từ Những tên lờ đi: DEC, HP … 2. Phương pháp thống kê: Phân tích đồng xuất từ cụm văn bản. So sánh tần suất lĩnh vực tài liệu chung. Ví dụ: Computer Terminal chắn lĩnh vực Computer, Rice xuất lĩnh vực Computer. 3. Sự kết hợp hai phương pháp: Những luật ngôn ngữ để tìm thuật ngữ Dùng thống kê để xếp lọc thuật ngữ 19 Ví dụ phân tích ngôn ngữ [[He SUBJ] [booked PRED] [[this] [table HEAD]NP:DOBJ:X1]…]… [[It SUBJ:X1] [was PRED] still available…] [[He SUBJ] [booked PRED] [[this] [table HEAD] NP:DOBJ]S] [[the SPEC] [large MOD] [table HEAD] NP] [[the] [large] [table] NP] [[in] [the] [corner] PP] [work~ing V] [table N:ARTIFACT] [table N:furniture] [table] [2005-06-01] [John Smith] Discourse Analysis Dependency Structure (S) Dependency Structure (Phrases) Phrase Recognition Morphological Analysis (stemming) Part of Speech & Semantic Tagging Tokenization (incl. Named-Entity Rec.) Phân tích xác suất: có số sau: MI (Mutual Information) – phân tích đồng xuất TFIDF – trọng số thuật ngữ tf(w): tần suất thuật ngữ, số từ xuất tài liệu. Chỉ số cao từ quan trọng. df(w): Số tài liệu chứa thuật ngữ, số bé từ quan trọng. N: Tổng số tài liệu sử dụng. tfIdf(w): Liên quan đến mức độ quan trọng từ tài liệu. χ2 (Chi-square) – phân tích đồng xuất trọng số thuật ngữ 20 4.4.2.2 Phát từ đồng nghĩa Bước Ontology learning xác định thuật ngữ có ngữ nghĩa, tới khái niệm. Đồng nghĩa ngôn ngữ: o terminal – video display – input device o graphics terminal - video display unit – screen Đồng nghĩa ngôn ngữ khác nhau: o input device (English) – Eingabegerät (German) o Back to English: input device, input unit, signal conditioning device o video display unit (English) – Videosichtgerät (German) Đối với từ đồng nghĩa ngôn ngữ ta sử dụng kỹ thuật: Phân loại: Phân loại từ vào lớp xác định, kế thừa từ WordNet. Gom nhóm: Gom nhóm theo xếp giống từ việc đánh giá đồng xuất từ. Đối với ngôn ngữ khác nhau; Sử dụng cặp đôi tài liệu song song với nhau, 4.4.2.3 Concepts: Intension, Extension, Lexicon Bộ ba kí hiệu: Dựa nghiên cứu cấu trúc ngôn ngữ: 21 Một thuật ngữ biểu diễn khái niệm ta định nghĩa nó. Intension: định nghĩa hình thức tập đối tượng mà khái niệm mô tả. Một bệnh sút sức khỏe dối loạn chức năng. Extension: Tập thể mà khái niệm mô tả. Cúm, ung thư phổi, đau tim… Lexical Realizations: Bản thân đồng nghĩa từ ngôn ngữ ngôn ngữ khác nhau. disease, illness, Krankheit, maladie, … Concepts: Intension Trích rút khái niệm từ văn bản. – Định nghĩa không trang trọng: • Chú thích khái niệm sử dụng WordNet. ‘Integration Strategy’ : “strategy for the integration of …” – Định nghĩa trang trọng: • Cấu trúc logíc xác định tất ràng buộc lớp thành viên. Concepts: Extension Trích rút thể khái niệm từ văn bản: – Thường trỏ tới mẫu Ontology. – Liên quan tới đánh dấu tri thức (Semantic Metadata) – Sử dụng Named-Entity Recognition Information Extraction – Một thể là: : • Tên đối tượng ví dụ: Person, Organization, Country, City, … • Thể kiện (Với thể người tham gia thuộc tính), ví dụ: Football Match (with Teams, Players, Officials, .) Disease (with Patient-Name, Symptoms, Date, …) Concepts: Lexicon Trích rút từ đồng nghĩa thông dịch cho khái niệm từ văn bản. 22 4.4.2.4 Taxonomy Taxonomy tập bảng từ vựng, thuật ngữ tổ chức phân cấp. 1. Các phương pháp cở bản: Sử dụng WordNet Mẫu ngôn ngữ Từ điển máy Phân tích đồng xuất Tiếp cận ngôn ngữ Sử dụng WordNet Đưa hai thuật ngữ t1 t2, kiểm tra xem hai từ có liên quan đến Wordnet không. Senses(t) số nghĩa t - Có từ liên kết từ từ đồng nghĩa ‘country’ ‘region’ - ‘country’ có senses Giá trị isa (country, region) = 0.8 23 Lexico-syntactic patterns – Hearst Mục đích: thu mối quan hệ hyponym từ văn Sử dụng tập mẫu định nghĩa trước: • Tần suất xảy nhiều loại văn • Xác định mối quan hệ • Hầu không nhận mẫu định nghĩa. Độ xác Wordnet: 55,45% NPo such as {NP1, NP2,…, (and | or)} NPn Vehicles such as cars, trucks and bikes….’ is-a truc k vehicle is-a is-a car bike such NP as {NP,} * { (or | and) } NP ‘Such fruits as oranges, nectarines or apples…’ is-a orang e fruit is-a is-a apple nectarin NP {, NP} * { , } { or | and } other NP Swimming, running, or/and other activities…’ is-a runnin activit swim NP { , } including {NP, } * { or | and } NP 24 ‘Injuries, including broken bones, wounds and bruises…’ injury is-a is-a broken bone wound is-a bruise NP { , } especially {NP, } * { or | and } NP ‘Publications, especially papers and books…’ publication is-a p aper is-a book Từ điển máy đọc Dùng phổ biến từ thập kỉ 80. Ý tưởng chính: Khai thác mục từ từ điển để tìm từ đồng nghĩa phù hợp cho từ định nghĩa. Ví dụ: spring “the season between winter and summer and in which leaves and flow is_a (spring, season) Phân tích đồng xuất Term x xếp gộp Term y P(x | y)≥ 1, n(x,y) ◊ số tài liệu x y xuất n(y) ◊ Số tài liệu chứa y Tốt nên đưa cách kết hợp phương pháp trên: 25 2. Cách tiếp cận khác để tạo phân cấp: Xây dựng phân cấp tự động bán tự động cho thuật ngữ có. Nút trung gian tạo không tùy theo phương thức học để tạo cây. Có nhiều nghiên cứu học phân cấp, đưa vài cách sau: Phương pháp Đầu vào đặc trưng Mẫu cú pháp Mẫu cú pháp từ vựng từ vựng cho tài liệu Mẫu cú pháp từ vựng để định nghĩa Phân tích Head matching thành phần heuristic từ Sự quan hệ Ontology (WordNet) Tham khảo Hearst 92 Nút trung gian O Richardson et al. O 98 Many references X … Moldovan et al.00 X Xếp gộp quan Đánh giá xuất Sanderson & X hệ ngữ từ tài liệu Croft 99 cảnh Verb-argument Cimiano et al.05 O (Distributional relation hypothesis) Quan hệ Tính từ-Yamamoto et X Thuật ngữ al.05 26 Những đặc trưng nêu sử dụng để học phân cấp. Câu hỏi đặt làm để kết hợp đặc trưng thành phương pháp tối ưu cho việc học phân cấp. Vì chia toán thành toán nhỏ toán sử dụng phương pháp với đặc trưng khác nhau. Đơn giản vấn đề tạo phân cấp đồ thị thuật ngữ trục tọa độ xy. Trong trường hợp này, vấn đề làm cách xác định tọa term. Tọa độ Y ánh xạ tới lĩnh vực cụ thể Term, tọa độ X ánh xạ tới giống term. Sự tương tự Term: biết đến nhiệm vụ xử lí ngôn ngữ tự nhiên nhiều nghiên cứu từ Ước lượng chồng chéo ngữ nghĩa Term Sim(t1,t2 |D) ≥ Từ kiểm tra số để tạo nên cây. Ví dụ lĩnh vực tài chính: • Sim(“current asset”, “cache”) > Sim(“fixed asset”, “cache”) 27 Với năm thuật ngữ Ta tính toán độ chi tiết độ tương tự term. Những term cụ thể đặt xuống cấp sâu term chung chung đặt trên. Những term gom nhóm dựa vào độ giống chúng. Hai term t1 t2 giống độ chi tiết term lớn term độ tương tự hai term lớn giới hạn xác định. Đặt liên tiếp term phân cấp. Thừa nhận đồng nghĩa Terms xếp tăng theo tăng độ chi tiết. Thêm term term. Thêm term vào Bước 1: Chọn term giống với tnew phân cấp Step 2: Chọn cho tnew từ tập term chọn bước 1. Tính spect term đó, lớn ngưỡng kết nạp. 28 4.4.2.5 Relations (non-taxonomic) Trích rút quan hệ thuộc tính. Quan hệ cụ thể o Part-of o Qualia (Formal, Constitutive, Telic, Agentive) 29 Quan hệ chung chung o Khai thác cấu trúc ngôn ngữ Thuộc tính 1. Phát thuộc tính Attributes ◊ Liên quan đến kiểu liệu. Sử dụng giới từ of, động từ have hay cấu trúc sở hữu, ví dụ. ‘the color of the car’, ‘the car’s color’, ‘every car has a color’ Giá trị thuộc tính mô tả sử dụng cấu trúc hệ từ , tính từ, hay mô tả cụ thể cho thuộc tính. • ‘the car is red’ (copula + value) • ‘the red car’ (adjective) • ‘the baby weights kgr’ (specific expressions) Phân lọai thuộc tính Một cách tiếp cận để phát Thuộc tính Thẻ gán nhãn từ loại. Sử dụng mẫu để trích rút cặp tính từ- danh từ (\w+{DET})? (\w+{NN}) + is{VBZ} \w + {JJ} (\w+{DET})? \w + {JJ} (\w+{NN}) + Cặp đánh trọng số sử dụng xác suất điều kiện. Với từ ta tìm tính từ tương ứng Wordnet JJ: adjective DET: determiner NN: noun VBZ: verb, 3rd person singular present 30 5. Tổng kết hướng làm việc tương lai. Đồ án thực tập tốt nghiệp đạt kết sau: Đưa kiến trúc hệ thống để giải toán một, thứ toán để tạo sở tri thức từ trang tài liệu web, toán thứ hai truy vấn vào sở tri thức xây dựng đó. Đồ án nêu vài cách tiếp cận để giải toán đó, nêu kĩ thuật tương ứng với cách tiếp cận đó. Khó khăn làm đồ án lĩnh vực mẻ Việt Nam, thực có nghiên cứu chưa đưa ứng dụng cụ thể nào. Ở nước lĩnh vực nhiều tổ chức W3C phát triển đưa chuẩn ví dụ RDF, OWL, SPARQL. Nhưng ứng dụng thật ít. Vì làm đồ án, tài liệu tìm kiếm nhiều tài liệu nói theo cách khác giải vấn đề khác nhau. Một khó khăn chưa liên lạc với chuyên lĩnh vực này, nước nghiên cứu gì, có đưa thành chuẩn, kiến trúc đề nghị sử dụng trình xây dựng hệ thống. Hướng làm việc tương lai xây dựng sở tri thức lớn người làm PhD, không người Việt Nam, việc đem lại lợi ích lớn cho lĩnh vực giáo dục. Tiếp theo xây dựng nên trang Semantic Web để tiện lợi cho việc truy vấn vào sở tri thức. Lúc việc tìm kiếm xác hơn, dễ dàng hơn, tri thức chia sẻ nhiều hơn. 6. Tham khảo. 1. Learning Domain Ontologies from Document Warehouses and Dedicated Web Sites - Roberto Navigli ∗ Paola Velardi Universit ` a di Roma “La Sapienza” Universit ` a di Roma “La Sapienza” 2. Ontology Based Knowledge Discovery in Social Networks Taxonomy Learning using Term Specificity and Similarity- Pum-Mo Ryu, Key-Sun Choi - Computer Science Division, KAIST Korea 3. Ontology Learning from Text - Paul Buitelaar, Philipp Cimiano, Marko Grobelnik, Michael Sintek 4. Ontology Learning and Its Application to Automated Terminology Translation 31 [...]... 4.1.2 Ngôn ngữ xây dựng và triển khai Ontology Ontology là giả định hình thức về một miền cụ thể -> cần một ngôn ngữ logic hình thức để mô tả nó – Logic vị từ trình tự đầu tiên(first-order predicate logic (FOL)) – XML- RDF ví dụ như RDFS( RDF Schemas) hoặc OWL (Ontology Web Language) 14 Ở đây ta sẽ dùng mô hình dữ liệu RDF là một đồ thị bao gồm các nút và các cạnh Nút tương ứng với một đối tượng và... chế suy diễn sẽ rất tiện lợi thông qua mạng xã hội dựa trên Ontology để đưa ra đươc những mối quan hệ mới hay những khái niệm vượt ra khỏi những thứ đã tồn tại trong mạng 4.4 Ontology Learning từ các loại văn bản 4.4.1 Định nghĩa Ontology Learning Ontology Learning: Là ứng dụng bao gồm một tập các phương thức và các kĩ thuật để xây dựng nên Ontology từ những trang hỗn tạp 17 Sử dụng những nguồn thông... tập chung vào phần này 3.1.3 Phase 3: Tích hợp Ontology Cập nhật vào những Ontology đã tồn tại như WordNet hay các nguồn từ vựng mà chúng ta đã sử dụng Phần này cũng chưa cần thiết và cho giai đoạn này nên không tập chung nghiên cứu 3.2 Thiết kế hệ thống cho phép truy cập dữ liệu từ Ontology đã xây dựng Ở giai đoạn thực tập này chỉ nghiên cứu cách tạo ra Ontology – Kết quả của Module thứ hai để giải... phát hiện ra luật – Cách tiếp cận mô tả tri thức: Việc đưa ra được một kết luận hay việc xử lí cho dữ liệu sẽ chính xác hơn Khái niệm: Ontology là một đặc tả khái niệm, ở đó bao gồm một tập các đối tượng, khái niệm và các thực thể tồn tại trong một vài miền ứng dụng và có mối quan hệ với nhau Mục đích: Cung cấp chia sẽ những hiểu biết về một lĩnh vực cho cả máy tính và con người Các thành phần: bao gồm... triển Ontology Có thể học Ontology từ: Nguồn không có cấu trúc: Bao gồm các kĩ thuật xử lí ngôn ngữ tự nhiên, phân tích cú pháp và hình thái… Nguồn bán cấu trúc: suy ra một ontology từ nguồn có cấu trúc được định nghĩa từ trước ví dụ XML Schema Dữ liệu có cấu trúc: Trích rút khái niệm và mối quan hệ từ tri thức chứa trong dữ liệu có cấu trúc như Database 4.4.2 Ontology Learning ‘Layer Cake’ Ontology. .. nhiều nhưng mỗi tài liệu nói theo một cách khác nhau và giải quyết những vấn đề khác nhau Một khó khăn nữa là chưa liên lạc được với ai là chuyên ra trong lĩnh vực này, do đó không biết ở các nước đã nghiên cứu được những gì, đã có những gì được đưa thành chuẩn, những kiến trúc được đề nghị sử dụng trong quá trình xây dựng hệ thống Hướng làm việc trong tương lai là xây dựng được cơ sở tri thức lớn về... cứu cấu trúc ngôn ngữ: 21 Một thuật ngữ có thể biểu diễn khái niệm nếu ta định nghĩa nó Intension: định nghĩa hình thức về một tập các đối tượng mà khái niệm đó mô tả Một bệnh là một sự sút kém về sức khỏe hoặc dối loạn chức năng Extension: Tập các thể hiện cái mà khái niệm này mô tả Cúm, ung thư phổi, đau tim… Lexical Realizations: Bản thân sự đồng nghĩa của từ đó trong một ngôn ngữ và các ngôn... Đức isRelatedTo UniGroup, UniGroup isRelatedTo Café Xanh 4.3 Ontology và mạng xã hội Mô hình hóa mạng xã hội bằng ontology vì những lí do: Ontology được phát triển để cụ thể hóa và giải thích những khái niệm hay những mối quan hệ liên quan đến một lĩnh vực Mạng xã hội có cùng mục đích nhưng tập chung vào quan hệ xã hội và thực thể Ontology với cơ chế suy diễn cho phép thu được thông tin qua việc... Concepts: Extension Trích rút thể hiện của khái niệm từ văn bản: – Thường trỏ tới một mẫu Ontology – Liên quan tới đánh dấu tri thức (Semantic Metadata) – Sử dụng Named-Entity Recognition và Information Extraction – Một thể hiện có thể là: : • Tên của đối tượng ví dụ: Person, Organization, Country, City, … • Thể hiện của một sự kiện (Với thể hiện của những người tham gia và thuộc tính), ví dụ: Football... xuất hiện n(y) ◊ Số tài liệu chứa y Tốt nhất nên đưa ra một cách kết hợp giữa các phương pháp trên: 25 2 Cách tiếp cận khác để tạo ra cây phân cấp: Xây dựng cây phân cấp tự động hoặc bán tự động cho những thuật ngữ đã có Nút trung gian có thể được tạo hoặc không tùy theo phương thức học để tạo cây Có nhiều nghiên cứu về học cây phân cấp, đưa ra một vài cách như sau: Phương pháp Đầu vào và những đặc . liệu từ Ontology đã xây dựng. 13 4. Các kĩ thuật và công nghệ sử dụng. 13 4.1 Giới thiệu về Ontology 13 4.1.1 Cơ sở tri thức và cơ sở dữ liệu 14 4.1.2 Ngôn ngữ xây dựng và triển khai Ontology. mạng. 4.4 Ontology Learning từ các loại văn bản 4.4.1 Định nghĩa Ontology Learning Ontology Learning: Là ứng dụng bao gồm một tập các phương thức và các kĩ thuật để xây dựng nên Ontology từ. từ vựng khác Ontology Rừng khái niệm Tích hợp Ontology Tích hợp và cập nhật Ontology Máy học quy nạp 5 Hình 2: Thiết kế hệ thống cho phép truy cập dữ liệu từ Ontology đã xây dựng Database Convert