Thiết kế và xây dựng Ontology

Một phần của tài liệu Nghiên cứu phát triển các kỹ thuật xây dựng và khai thác thông tin web có ngữ nghĩa (Trang 50 - 59)

Ontology của VN-KIM (VN-KIMO) được thiết kế sao cho chứa đựng được các thực thể ở cả Việt Nam và trên thế giới, vì các tin tức dù là bằng tiếng Việt vẫn có thể đề cập đến các thực thể ở nước ngoài. Do đó, chúng tôi lấy KIMO làm cơ sở, rồi điều chỉnh và bổ sung thêm để tạo nên VN-KIMO ([49]). Đầu tiên, chúng tôi thực hiện việc ánh xạ hợp lý giữa các khái niệm trong tiếng Anh với các khái niệm trong tiếng Việt. Vấn đề ở đây là một khái niệm trong tiếng Việt có thể được phân chia thành nhiều khái niệm con cụ thể hơn trong tiếng Anh và ngược lại. Ví dụ, khái niệm Vịnh (ví dụ “Vịnh Bắc Bộ”, “Vịnh Hạ Long”) trong tiếng Việt tương ứng với ba khái niệm trong tiếng Anh, tùy theo đặc điểm

địa lý của vịnh, là Gulf (ví dụ “Gulf of Tonkin”, “Gulf of Persian”), Bay (ví dụ “Halong Bay”), và Fjord (ví dụ “Norway Fjord”).

Kế đến, ở Việt Nam có một số khái niệm riêng, đặc thù về kinh tế, chính trị và xã hội, như Mặt trận Tổ quốc hay Thành phố cấp một, cần có những lớp thực thể thích hợp để xếp loại vào. Vì vậy, chúng tôi bổ sung thêm một số lớp thực thể cho VN-KIMO.

Ngoài ra, KIMO là một Ontology cấp trên đơn giản, chỉ tập trung vào sự phân cấp của các lớp thực thể để phục vụ quá trình rút trích thông tin. Do đó các thuộc tính và quan hệ trong KIMO còn sơ sài. Trong khi đó, chức năng của VN-KIM còn là cung cấp thông tin về các thực thể có tên phổ biến ở Việt Nam. Vì vậy, chúng tôi bổ sung thêm một số thuộc tính và quan hệ chi tiết hơn cho một số lớp thực thể trong VN-KIMO nhằm cung cấp thông tin về các thực thể chi tiết hơn.

Ba lớp thực thể chính trong miền tri thức của đề tài là Con_người, Tổ_chức, và Nơi_chốn. Tổ chức là một nhóm người được thành lập dựa trên mối quan hệ về quyền lợi và nghĩa vụ giữa các thành viên trong nhóm, giữa thành viên và tổ chức, giữa các tổ chức với nhau, như các tổ chính chính trị, giáo dục, thương mại ... Khái niệm nơi chốn bao gồm các đơn vị hành chính, vùng dân cư, núi non, sông ngòi, ... Sau đây là nội dung của các lớp này và các lớp con quan trọng của chúng.

Con người (Person)

Trong KIMO, lớp Con_người (Person) được định nghĩa là lớp con của lớp Chủ_thể (Agent), và bao gồm hai lớp con là Nam (Man) và Nữ (Woman). Sự phân cấp này là hợp lý về mặt tự nhiên nên chúng tôi giữ nguyên sự phân cấp này trong VN-KIMO. Về thuộc tính, thì KIMO đã định nghĩa một số thuộc tính phổ dụng về con người như họ_tên (hasAlias), nghề_nghiệp (hasProfession), chức_vụ (hasPosition), tiểu_sử (description), địa_chỉ_liên_hệ (hasContactInfo), … Tuy nhiên, nó vẫn còn thiếu một số thuộc tính phổ dụng khác là ngày_sinh, nơi_sinh, thuộc_dân_tộc, trình_độ_học_vấn. Do đó, chúng tôi bổ sung thêm các thuộc tính này vào VN-KIMO. Hai lớp con Nam và Nữ, mỗi lớp có thêm một thuộc tính mới tương ứng là có_vợ và có_chồng.

Tổ chức (Organization)

So với KIMO, VN-KIMO có thay đổi về định nghĩa của lớp Tổ_chức_nhà_nước và Tổ_chức_chính_trị. Trong KIMO, Tổ_chức_nhà_nước chỉ bao gồm các thực thể là các bộ và nội các mà không bao gồm quốc hội (được đặt trong lớp Tổ_chức_chính_trị). Trong VN-KIMO, lớp Tổ_chức_nhà_nước bao gồm các đối tượng là các tổ chức, cơ quan thuộc bộ máy nhà nước, có chức năng thực hiện các công việc lập pháp, hành pháp, và tư pháp như quốc hội, nội các, các bộ, các cơ quan nhà nước ở địa phương, ... Lớp Tổ_chức_chính_trị bao gồm các đảng chính trị, các tổ chức công đoàn, nghiệp đoàn lao động. Riêng ở Việt Nam các tổ chức chính trị còn bao gồm mặt trận tổ quốc, đoàn thanh niên, hội liên hiệp phụ nữ, ...

VN-KIM cũng thay đổi lớp Tổ_chức_từ_thiện (Charity) bằng lớp Tổ_chức_xã_hội (SocialOrganization), và đưa lớp Tổ_chức_từ_thiện xuống thành lớp con của lớp Tổ_chức_xã_hội. Thay đổi này dựa trên thực tế rằng có những tổ chức hoạt động xã hội nhưng mục tiêu hoạt động chính không phải là hoạt động từ thiện, ví dụ như các tổ chức bảo vệ môi trường, các tổ chức bảo vệ quyền lợi phụ nữ và trẻ em, ... Hình 3.2.1 trình bày các lớp con trực tiếp của lớp Tổ_chức trong VN-KIM.

Hình 3.2.1 Sơ đồ phân cấp các lớp thực thể về tổ chức

Lớp Tổ_chức_nhà_nước được phân chia thành ba lớp con tương ứng với ba loại hình tổ chức nhà nước là Cơ_quan_lập_pháp, Cơ_quan_hành_pháp, Cơ_quan_tư_pháp, như mô tả ở Hình 3.2.2. Cách phân chia này có thể bao quát tương đối đầy đủ các cơ

quan, tổ chức nhà nước trên thế giới. Ở Việt Nam, các cơ quan lập pháp bao gồm quốc hội, các ủy ban của quốc hội, và các hội đồng nhân dân địa phương. Do đó, lớp Cơ_quan_lập_pháp được phân chia thành hai lớp con là Quốc_hội và Hội_đồng_nhân_dân_địa_phương. Với các quốc gia có hạ viện và thượng viện thì các thực thể này được phân vào lớp Quốc_hội.

Trong khi đó, cơ quan hành pháp ở Việt Nam bao gồm các cơ quan ở cấp trung ương và cấp địa phương. Ở cấp trung ương, cơ quan hành pháp là chính phủ và các bộ. Ở cấp địa phương, cơ quan hành pháp là ủy ban nhân dân và các sở. Ở các nước các cơ quan hành pháp cũng được phân chia theo cấp bang và tỉnh. Cơ quan tư pháp cao nhất ở Việt Nam chính là viện kiểm sát nhân dân, còn ở các nước khác có thể là bộ tư pháp.

Hình 3.2.2 Sơ đồ phân cấp các lớp thực thể về tổ chức nhà nước

Tổ_ chức_giáo_dục _đạo_tạo là lớp thực thể ứng với những tổ chức trực tiếp tham gia vào hoạt động giáo dục và đào tạo, bao gồm các trường học và các trung tâm đào tạo, như minh họa ở Hình 3.2.3. Lưu ý là lớp Trường_đại_học là lớp con chung của cả lớp Tổ_

chức_giáo_dục _đạo_tạo và lớp Tổ_chức_nghiên_cứu.

Hình 3.2.3 Sơ đồ phân cấp các lớp thực thể về tổ chức giáo dục và đào tạo

Lớp Tổ_chức_thương_mại có một lớp con là lớp Công_ty. Công ty là tổ chức thương mại có tên riêng, có tài sản, có trụ sở giao dịch ổn định, được đăng ký kinh doanh theo quy định của pháp luật nhằm mục đích thực hiện các hoạt động kinh doanh. Lớp Công_ty được phân chia thành các lớp con cụ thể hơn dựa trên sự phân loại doanh nghiệp theo lĩnh vực hoạt động được đề nghị bởi Phòng thương mại và công nghiệp Việt Nam.

Với cách phân loại này thì các doanh nghiệp ở Việt Nam được chia thành sáu mươi ba loại doanh nghiệp khác nhau. Tuy nhiên, do số lớp con tương đối lớn, nên trong VN-KIMO chúng tôi tạo ra một số lớp trung gian để nhóm một số loại hình doanh nghiệp lại với nhau. Hình 3.2.4 cho thấy các lớp con của lớp Công_ty. So với KIMO, trong VN-KIMO, lớp Công_ty có thêm một thuộc tính mới là loại_hình_doanh_nghiệp.

Hình 3.2.4 Sơ đồ phân cấp các lớp thực thể về tổ chức thương mại

Nơi chốn (Location)

Một lớp con quan trọng của lớp Nơi_chốn là lớp Đơn_vị_hành_chính. Về cơ bản, sự phân chia các đơn vị hành chính ở Việt Nam giống các nước khác, tức là cũng được chia thành các cấp một, hai, ba, … như ở Hình 3.2.5. Tuy nhiên, điểm khác biệt là ở Việt Nam có thêm các khái niệm thành phố trực thuộc trung ương (thành phố cấp một), ví dụ như thành

phố Hồ Chí Minh, và thành phố trực thuộc tỉnh (thành phố cấp hai), ví dụ như thành phố Mỹ Tho. Về mặt phân cấp thì thành phố cấp một tương đương với tỉnh, còn thành phố cấp hai tương đương với thị xã, quận, huyện. Với các khái niệm mới này thì sự phân cấp đơn giản trong KIMO, chỉ phân thành các lớp Province, County, UrbanDistrict tương ứng với ba cấp đơn vị hành chính, không còn phù hợp nữa.

Hình 3.2.5 Sơ đồ phân cấp quản lý của các đơn vị hành chính ở Việt Nam

Hình 3.2.6 trình bày sự phân cấp lớp về đơn vị hành chính trong VN-KIM. Về thuộc tính và quan hệ, so với KIMO, chúng tôi bổ sung thêm một số thuộc tính và quan hệ phổ dụng của các đơn vị hành chính như diện_tích, dân_số, mật_độ_dân_cư, tiềm_năng_về_kinh_tế, GDP_bình_quân_đầu_người, có_thành_phần_dân_tộc. Lớp Quốc_gia có thêm các thuộc tính ngày_quốc_khánh và ngôn_ngữ_chính_thức.

Hình 3.2.6 Sơ đồ phân cấp các lớp thực thể về đơn vị hành chính

Quốc gia

Tỉnh Thành phố cấp một

Thành phố cấp hai Thị xã Huyện Quận

Phường Xã Thị trấn

Về các vùng địa lý, trong KIMO, lớp Sông (River) được định nghĩa là lớp con của lớp Dòng_nước (Stream). Lớp Dòng_nước có các lớp con khác là Suối (Spring) và Thác_nước (Waterfall). Chúng tôi giữ nguyên sự phân cấp này trong VN-KIMO. Về thuộc tính, chúng tôi bổ sung thêm một số thuộc tính phổ dụng về sông chưa có trong KIMO là chiều_dài, lưu_lượng_nước_trung_bình, và mực_nước_trung_bình. Sự phân chia của lớp Núi trong KIMO cũng được giữ nguyên, gồm các lớp con là Dãy_núi (Mountain Range), Núi_lửa (Volcano), Gò_chõm (Ridge), và Đỉnh_núi (Mountain Summit). Về thuộc tính, VN-KIMO có thêm thuộc tính độ_cao cho lớp Núi.

Ngoài ra, đường xá cũng thuộc về khái niệm nơi chốn. Trong KIMO, lớp Đường_phố (Street) được định nghĩa là lớp con của lớp Đường_giao_thông (Roadway).

Sự phân cấp này vẫn phù hợp với các thực thể ở Việt Nam. Do đó, trong VN-KIMO, chúng tôi vẫn giữ lại sự phân cấp này nhưng bổ sung thêm lớp Quốc_lộ (Highway) làm con của lớp Đường_giao_thông, và thêm các thuộc tính chiều_dài và chiều_rộng cho các con đường.

Cuối cùng, các thực thể thuộc về khái niệm nơi chốn thường được đề cập đến trong các tin tức về văn hoá và du lịch là các điểm đặc biệt. Đó là các địa danh nổi tiếng hay các điểm tham quan du lịch. Đây là lớp thực thể chưa được chú trọng đến trong KIM. Do phần lớn các điểm đặc biệt là các điểm tham quan du lịch, nên chúng tôi tập trung vào xây dựng cây phân cấp thực thể về điểm tham quan du lịch cho VN-KIM.

Theo sự phân loại của Tổng cục Du lịch Việt Nam thì các điểm tham quan du lịch bao gồm các di tích (ví dụ như Địa đạo Củ Chi, Đền Hùng, Phố cổ Hội An), các thắng cảnh (ví dụ như Vịnh Hạ Long, Đảo Phú Quốc, Động Phong Nha), các khu vui chơi (ví dụ như Công viên văn hóa Đầm Sen, Cung văn hóa Hữu nghị Việt-Xô), các bảo tàng (ví dụ như Bảo tàng Lịch sử Việt Nam), ... Sự phân loại này là khá tốt nên chúng tôi dựa trên nó để thiết kế cây phân cấp lớp thực thể cho miền này.

Đối chiếu các phân loại này với các lớp thực thể trong KIMO thì chúng tôi nhận thấy trong KIMO có một số lớp liên quan đến miền này ví dụ như Sông (River), Suối (Spring), Núi (Mountain), Vịnh (Bay), Hang động (Cave), ... Tuy nhiên, sự phân chia các lớp này trong KIMO là dưới góc nhìn địa lý, trong khi các điểm đặc biệt chỉ là một số ít các thực thể thuộc các lớp này. Để giải quyết vấn đề này, chúng tôi giữ nguyên các lớp tương ứng trong KIMO và tạo ra các lớp mới theo cơ chế đa thừa kế. Ví dụ, đối với trường

hợp vịnh thì chúng tôi tạo ra lớp Thắng_cảnh_vịnh, là con của cả lớp Vịnh và một lớp điểm đặc biệt là Thắng_cảnh. Ngoài ra, đối với các lớp thực thể mà KIMO chưa có như di tích hay bảo tàng, chúng tôi tạo các lớp mới hoàn toàn.

Về thuộc tính, các lớp điểm đặc biệt có thêm các thuộc tính như lịch_sử cho lớp Di_tích hay ngày_thành_lập cho lớp Bảo_tàng. Hình 3.2.7 liệt kê các lớp con của lớp Điểm_đặc_biệt trong VN-KIM.

Hình 3.2.7 Sơ đồ phân cấp các lớp thực thể về điểm đặc biệt

Ngữ liệu

Như đã đề cập ở trên, ngoài một cơ sở tri thức về các thực thể có tên, một hệ thống rút trích thông tin còn cần có ngữ liệu để nhận dạng mẫu. Ngữ liệu bao gồm các từ hoặc cụm

từ bổ nghĩa cho các tên thực thể xuất hiện trong tài liệu. Ví dụ, trong “thành phố Hà Nội”

hay “Tổng giám đốc Trần Ngọc Cảnh”, “thành phố” và “Tổng giám đốc” là ngữ liệu. Một hệ thống rút trích có thể lưu trữ ngữ liệu theo định dạng riêng hoặc mã hoá chúng trong chương trình nguồn.

Trong thành phần rút trích thông tin VN-KIM IE, các cụm từ làm ngữ liệu được xem như các thực thể thuộc lớp Ngữ_liệutrong cùng một Ontology với các lớp thực thể khác của cơ sở tri thức. Cũng như một lớp thực thể thông thường, lớp Ngữ_liệunày cũng được phân thành các lớp con tương ứng với các nhóm ngữ liệu dùng cho các lớp thực thể khác nhau. Việc biểu diễn ngữ liệu như là các thực thể như vậy cho phép sử dụng cùng các công cụ soạn thảo, phân tích, ... để quản lý cả ngữ liệu và các thực thể có tên.

Ngữ liệu cung cấp cho thành phần rút trích thông tin một số dấu hiệu để nhận diện thực thể. Các dấu hiệu này bao gồm các tiền tố, hậu tố và một số thành phần cấu thành nên tên các thực thể thuộc một lớp nhất định trong cơ sở tri thức. Vì vậy, các đặc điểm và cách thức viết tên riêng của từng lớp thực thể được nghiên cứu để rút ra các cấu trúc biểu diễn tên cho lớp thực thể đó.

Ví dụ như đối với thực thể “Công ty liên doanh Hòa Bình” bao gồm một tiền tố chỉ công ty “Công ty”, thành phần chỉ loại hình doanh nghiệp “liên doanh”, theo sau là cụm từ “Hòa Bình” chỉ tên của thực thể. Nhờ các thông tin này mà hiệu suất xác định lớp thực thể sẽ cao hơn các phương pháp truyền thống không dựa trên ngữ liệu và cơ sở tri thức.

Để xây dựng VN-KIM IE, cấu trúc và cách thức viết tên của thực thể được quan sát và rút ra từ các báo điện tử tiếng Việt, tập trung vào các thực thể thuộc các lớp Con_người, Tổ_chức, và Nơi_chốn. Phần lớn mỗi lớp trong Ontology của VN-KIM có một lớp ngữ liệu tương ứng . Ví dụ như lớp Thủ_đô tương ứng với lớp Ngữ_liệu_Thủ_đô.

Ngoài ra, để giúp việc xác định lớp dễ dàng và phù hợp với từng nhóm thực thể, một số lớp thực thể được chiếu sang các lớp ngữ liệu tương ứng có phân loại mịn và chi tiết hơn. Ví dụ như lớp Công_ty được chiếu tương ứng sang lớp Ngữ liệu_Công_ty có ba lớp con là Tiền_tố_Công_ty, Loại_hình_Công_ty, vàLoại_hình_Kinh_doanh. Trong đó, lớp Tiền_tố_Công_ty chỉ các tiếp đầu ngữ có thể có trong tên của một công ty như “Công ty”

hay “Tổng công ty”, lớp Loại_hình_Công_ty chỉ các loại hình doanh nghiệp của công ty như “TNHH” hay “Liên doanh”, còn lớp Loại_hình_Kinh_doanh chỉ các loại hình kinh doanh có thể có của một công ty như “Sữa”, “Bánh kẹo”, “Bao bì” hay “Phần mềm”.

Một phần của tài liệu Nghiên cứu phát triển các kỹ thuật xây dựng và khai thác thông tin web có ngữ nghĩa (Trang 50 - 59)

Tải bản đầy đủ (PDF)

(208 trang)