Vấn đề đặt ra là làm sao để xây dựng giải pháp tìm kiếm hỗ trợ chọn lọc,thông tin tài liệu văn bản hành chính phù hợp theo hướng ngữ nghĩa trên kho tài liệuvăn bản hành chính ngày càng n
Trang 1TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN
Mã số: 60.48.01.01
NGƯỜI HƯỚNG DẪN KHOA HỌC:
PGS TS ĐỖ VĂN NHƠN
TP HỒ CHÍ MINH – NĂM 2014
Trang 2Tôi xin cam đoan:
hướng dẫn trực tiếp của thầy PGS.TS Đỗ Văn Nhơn
trung thực tên tác giả, tên công trình, thời gian, địa điểm công bố
tôi xin chịu hoàn toàn trách nhiệm
NGƯỜI CAM ĐOAN
Hồ Hữu Hiếu
Trang 3Bằng tất cả lòng chân thành và sự kính phục, tôi xin trân trọng cảm ơn ThầyPGS.TS Đỗ Văn Nhơn Mặc dù rất bận rộn với công việc nghiên cứu, giảng dạy vàcông việc gia đình, tuy nhiên trong suốt thời gian hướng dẫn đề tài, bất kể thời giannào dù thời gian ngoài giờ làm việc hay trong các ngày nghỉ, lễ, Thầy vẫn luôn sẵnsàng nhiệt tình sắp xếp thời gian để định hướng, hướng dẫn, động viên và giúp đỡrất tận tình giúp tôi hoàn thành luận văn này
Tôi xin gửi lời chân thành cảm ơn đến Ban Chủ nhiệm trường Đại học Côngnghệ thông tin TP HCM, Quý thầy và cô thuộc phòng Đào tạo sau đại học đã tạođiều kiện tốt nhất để em hoàn thành chương trình cao học này Cám ơn Ban Giámđốc, lãnh đạo các phòng ban và cán bộ công chức, viên chức của Sở Thông tin vàTruyền thông tỉnh Đồng Nai đã tạo điều kiện cho tôi được tham gia học tập vànghiên cứu
Cảm ơn sâu sắc đến các bạn cùng khóa đã nhiệt tình đóng góp ý kiến, chia sẽcũng như động viên để tôi hoàn thiện hơn đề tài của mình
Xin cảm ơn gia đình, người thân đã luôn khích lệ, động viên, giúp đỡ trongsuốt quá trình học tập, nghiên cứu, đã tạo nên sức mạnh to lớn để tôi hoàn thành kếtquả học tập này
Mặc dù đã rất cố gắng nhưng Luận văn khó tránh khỏi những thiếu sót, tôikính mong Quý thầy, cô và bạn bè hướng dẫn, góp ý để nội dung nghiên cứu nàyngày càng hoàn thiện hơn và có ứng dụng thực tiễn
Một lần nữa, em xin chân thành cảm ơn!
Tp HCM, tháng 12 năm 2014
HỌC VIÊN
Hồ Hữu Hiếu
Trang 4Số trang Trang phụ bìa
Lời cam đoan
Mục lục 1
Danh mục các ký hiệu và chữ viết tắt 3
Danh mục các bảng 4
Danh mục các hình vẽ, đồ thị 5
MỞ ĐẦU 6
Trang 6SQL Structured Query Language
lý thông tin và tri thức Việt Nam
Trang 7
Trang 8
Trang 9MỞ ĐẦU
Trong những năm qua, cùng với quá trình đẩy mạnh cải cách hành chính, nhất
là việc ứng dụng công nghệ thông tin vào quản lý, công tác văn thư và quản lý vănbản (gọi tắt là hệ thống quản lý văn bản và điều hành), giấy tờ hành chính tronghoạt động của cơ quan hành chính nhà nước ở các cấp, các ngành đã từng bướcđược tin học hóa, có thêm nhiều công cụ và hình thức để giúp cho người lãnh đạochỉ đạo, điều hành, trao đổi thông tin với chất lượng, hiệu quả ngày càng được nângcao
Trong mỗi cơ quan - tổ chức, người quản lý là người quyết định và dẫn dắt cơquan - tổ chức đi lên Đồng thời, người lãnh đạo - quản lý là người đề ra những chủtrương, đường lối, nguyên lý, sách lược, người tham mưu và thực hiện là người tácđộng, trợ giúp đến quyết định của người lãnh đạo, quản lý Quyết định đúng manglại hiệu quả công việc, quyết định sai là gây thiếu trách nhiệm, dễ quan liêu thamnhũng, thiệt hại lớn đến tiền của nhà nước
Phần lớn quyết định của lãnh đạo cơ quan được tham vấn trên các cơ sở dữliệu các văn bản quy phạm (hiến pháp, luật, nghị định, thông tư, hướng dẫn) hoặcvăn bản hành chính thông thường trên hệ thống quản lý văn bản, điều hành hiện tại,giúp duy trì hoạt động và bảo đảm thực hiện những chương trình, mục tiêu và côngtác quản lý nhà nước của cơ quan, tổ chức
Sở Thông tin và Truyền thông là cơ quan chuyên môn thuộc Ủy ban nhân dântỉnh Đồng Nai, có chức năng quản lý nhà nước về ngành thông tin và truyền thônggồm 3 lĩnh vực chủ yếu: báo chí xuất bản, bưu chính viễn thông và công nghệ thôngtin Tổ chức bộ máy của Sở Thông tin và Truyền thông tỉnh Đồng Nai gồm BanGiám đốc Sở, 06 phòng ban chuyên môn và 02 đơn vị sự nghiệp, cụ thể bao gồm:Ban Giám đốc Sở, Văn phòng, Thanh tra Sở, Phòng Kế hoạch – Tài chính, PhòngCông nghệ thông tin, Phòng Bưu chính, Viễn thông, Phòng Báo chí - Xuất bản, Nhàxuất bản Tổng hợp Đồng Nai, Trung tâm CNTT và Truyền thông
Sau nhiều năm ứng dụng công nghệ thông tin tại Sở Thông tin và Truyềnthông tỉnh Đồng Nai, cơ sở dữ liệu tài liệu văn bản hành chính liên quan đến công
Trang 10tác chỉ đạo điều hành, quản lý và cơ sở dữ liệu pháp luật liên quan đến lĩnh vựcthông tin truyền thông ngày càng nhiều Theo thống kê sơ bộ từ năm 2008 đến nay,
cơ sở dữ liệu đã có trên 60.000 văn bản hành chính Mặc dù Sở Thông tin vàTruyền thông tỉnh Đồng Nai có triển khai các hệ thống thông tin phục vụ quản lývăn bản và điều hành, tuy nhiên các tính năng của hệ thống chưa đủ đáp ứng cácyêu cầu của cán bộ, công chức viên chức của cơ quan (gọi chung là người sử dụng),đặc biệt là việc tổ chức và xử lý tìm kiếm khai thác dữ liệu, thông tin văn bản hànhchính
Thực tế hiện nay, khi truy vấn, tìm kiếm văn bản hành chính, dữ liệu tìm kiếmthông tin theo kiểu từ khóa hoặc tìm kiếm trực tiếp theo chỉ dẫn trên các cơ sở dữliệu riêng lẽ, cho ra các kết quả không tốt như mong muốn Kết quả tìm kiếm chỉgiúp người dùng tìm được những tài liệu có chứa từ khóa, nhưng kết quả tra cứuthông tin cần thiết trở nên khó khăn hơn do người dùng phải tốn thời gian và côngsức vào từng tài liệu để tìm được đúng thông tin mình cần mà có khi không tìm thấyhoặc tìm thấy thông tin sai lệch, chưa đủ khả năng diễn giải, lựa chọn những kết quảphù hợp với mong muốn của mình để lưu chuyển, tổng hợp, đánh giá và phân phối
dễ dàng và nhanh chóng các thông tin có liên quan Lãnh đạo cơ quan khó chọn lọccác kết quả phù hợp với mong muốn phục vụ công tác ra quyết định, điều hành củalãnh đạo cơ quan Đây là một vấn đề được sự quan tâm không chỉ riêng của SởThông tin và Truyền thông tỉnh Đồng Nai mà còn là vấn đề cần thiết của nhiều cơquan nhà nước có ứng dụng công nghệ thông tin hiện nay trong quản lý tài liệu vănbản hành chính, đặc biệt Việt Nam ta đang hướng đến năm 2020 xây dựng đượcchính phủ điện tử
Vấn đề đặt ra là làm sao để xây dựng giải pháp tìm kiếm hỗ trợ chọn lọc,thông tin tài liệu văn bản hành chính phù hợp theo hướng ngữ nghĩa trên kho tài liệuvăn bản hành chính ngày càng nhiều để giúp cho Lãnh đạo cơ quan có thể truy vấnđược thông tin cần thiết, nhanh chóng, toàn vẹn dữ liệu để phục vụ công tác điềuhành, quản lý ra quyết định được chính xác, hiệu quả
Với mục đích cuối cùng của việc xây dựng công cụ này nhằm hỗ trợ lãnh đạotrong việc khai thác tìm kiếm thông tin, khắc phục các hạn chế của hiện trạng đang
có Vì vậy tôi quyết định thực hiện nghiên cứu việc này và đặt tên đề tài là: “Hệ
Trang 11thống hỗ trợ lãnh đạo quản lý, điều hành tại Sở Thông tin và Truyền thông tỉnh Đồng Nai” nhằm bám sát yêu cầu thực tiễn của cơ quan.
Trang 12Chương 1 - GIỚI THIỆU TỔNG QUAN VỀ ĐỀ TÀI
Chương 1 giới thiệu tổng quan về đề tài bao gồm các nghiên cứu khảo sát tìnhhình ứng dụng công nghệ thông tin trong cơ quan nhà nước hành chính nói chung vàtại Sở Thông tin và Truyền thông nói riêng; phân tích đánh giá thực trạng, hạn chế
và xác định các nhu cầu mà hệ thống ứng dụng chưa đáp ứng được, từ đó đề xuấtnghiên cứu phát triển giải pháp cải tiến ứng dụng hiện tại
1.1. ĐẶT VẤN ĐỀ
1.1.1. Tìm hiểu về văn bản hành chính
Văn bản là phương tiện lưu giữ và truyền đạt thông tin bằng ngôn ngữ hay kýhiệu nhất định Văn bản quản lý nhà nước là những quyết định và thông tin quản lýthành văn (được văn bản hóa) do các cơ quan quản lý Nhà nước ban hành theo thẩmquyền, trình tự, thủ tục, hình thức nhất định và được Nhà nước đảm bảo thi hànhbằng những biện pháp khác nhau nhằm điều chỉnh các mối quan hệ quản lý nội bộnhà nước hoặc giữa các cơ quan nhà nước với các tổ chức và công dân(căn cứ Luậtban hành văn bản [16] và Thông tư số 01/2011/TT-BNV của Bộ Nội vụ [21])
Văn bản là công cụ quan trọng và là thước đo trình độ văn minh, văn hoá quản
lý trong các cơ quan quản lý Nhà nước Khi nhắc đến văn bản quản lý nhà nước lànói đến loại văn bản của tổ chức đặc biệt trong xã hội, đó là Nhà nước
Tính đặc biệt của văn bản quản lý nhà nước thể hiện ở những đặc điểm sau:
Về chủ thể ban hành: văn bản quản lý nhà nước do các cơ quan Nhà nước, người cóthẩm quyền soạn thảo và ban hành Chỉ có những văn bản do người đúng thẩmquyền ban hành mới có ý nghĩa pháp lý
thực hiện các nhiệm vụ, chức năng của Nhà nước
hành để tác động đến mọi mặt của đời sống xã hội, là cơ sở pháp lý quan trọng chocác hoạt động cụ thể của các cơ quan, tổ chức, cá nhân
- Về trình tự ban hành, hình thức văn bản: Văn bản quản lý nhà nước đòi hỏi phảiđược xây dựng, ban hành theo thủ tục pháp luật quy định và được trình bày theo
Trang 13hình thức luật định Mỗi loại văn bản thường được sử dụng trong những trường hợpnhất định và có cách thức trình bày riêng Sử dụng đúng hình thức văn bản sẽ gópphần tạo ra sự thống nhất cả về nội dung và hình thức của hệ thống văn bản, tạođiều kiện thuận lợi cho việc nghiên cứu, sử dụng thực hiện văn bản.
- Về bảo đảm thi hành: Văn bản nhà nước mang tính quyền lực Nhà nước, bắt buộccác chủ thể khác phải thực hiện và được đảm bảo thực hiện bởi Nhà nước như hoạtđộng tổ chức trực tiếp hoặc cưỡng chế
mệnh lệnh từ chủ thể quản lý đến đối tượng quản lý một cách đầy đủ, chính xácnhất Nó không cần biểu cảm nên mang đặc trưng văn phong riêng, khác với vănphong nghệ thuật Văn bản quản lý nhà nước thường mang tính phổ quát, đại chúng
và không cần quá chi tiết như văn bản khoa học
Để mô tả thông tin tóm tắt, đảm bảo tính chất đặc biệt nêu trên, thông thườngmột văn bản gồm các thành phần chính: số, ký hiệu; ngày ký, người ký, cơ quan banhành, trích yếu Trong việc lưu trữ trên cơ sở dữ liệu, các mô tả nêu trên được tổchức thành các thuộc tính trong bảng thuộc cơ sở dữ liệu
1.1.2. Tìm hiểu hệ thống quản lý tài liệu văn bản hành chính
Căn cứ Nghị định 64/2007/NĐ-CP[17] , Quyết định số 1605/QĐ-TTg [18]vàQuyết định số 1755/QĐ-TTg[19], trong những năm qua, cùng với quá trình đẩymạnh cải cách hành chính, nhất là việc ứng dụng công nghệ thông tin vào quản lý,công tác văn thư và quản lý văn bản (gọi tắt là hệ thống quản lý văn bản và điềuhành), giấy tờ hành chính trong hoạt động của cơ quan hành chính nhà nước ở cáccấp, các ngành đã từng bước được tin học hóa, có thêm nhiều công cụ và hình thức
để giúp cho người lãnh đạo chỉ đạo, điều hành, trao đổi thông tin với chất lượng,hiệu quả ngày càng được nâng cao
Phần lớn quyết định triển khai hoặc điều hành công việc của lãnh đạo cấptrưởng, phó phòng và Ban Giám đốc Sở Thông tin và Truyền thông đều tham vấntrên các văn bản hành chính bằng cách truy xuất trên hệ thống ứng dụng quản lý tàiliệu văn bản đã được lưu trữ trong cơ sở dữ liệu Việc khai thác văn bản có thể dựatrên hai phương pháp tìm kiếm chủ yếu:
Trang 14+ Tìm theo từ khóa: Người dùng cần đưa ra chủ đề cần tìm tài liệu và các từ
khóa phù hợp Hệ thống tiến hành so khớp và trả về một danh mục các tài liệu cóchứa chính xác từ khóa đã được nhập vào trong tiêu đề và nội dung của tài liệu Cácgiải pháp tìm kiếm thông thường là so sánh từ khóa của người dùng với dữ liệu cósẵn trong CSDL, nên người dùng phải sử dụng chính xác từ khóa để có thể nhậnđược kết quả tìm kiếm mong muốn
+ Tìm theo thuộc tính dữ liệu: Nếu nhớ chính xác vị trí văn bản (cơ quan nào
ban hành?, loại văn bản là gì?, số văn bản là bao nhiêu?), người dùng có thể tìmkiếm theo nhiều tiêu chí khác nhau với theo giao diện được thể hiện dưới dạng mộtform mẫu định sẵn tương ứng với các thuộc tính được quy định và tổ chức trongtrong cơ sở dữ liệu
1.1.1 Một số vấn đề còn hạn chế
Hạn chế của kỹ thuật tìm kiếm so khớp dựa trên từ khóa đó là, nếu thông tinđược cung cấp bởi nhiều nguồn khác nhau, thì các thuật ngữ sẽ không được sử dụngmột cách thống nhất, cùng một thuật ngữ có thể được dùng với nhiều nghĩa khácnhau và cũng có khi nhiều thuật ngữ khác nhau lại dùng để chỉ các khái niệm cócùng nghĩa Cho nên hệ thống đã bộc lộ nhiều hạn chế, trong các trường hợp tìmkiếm tài liệu văn bản như sau:
- Không tìm thấy tài liệu văn bản nếu không có sự quy ước và thống nhất trong viết tắt các cụm từ (còn gọi là keyphrase):
Trong lĩnh vực hành chính nhà nước, người dùng có thói quen sử dụng cáccụm từ (keyphrase) viết tắt hoặc có ngữ nghĩa tương đương để mô tả thông tin vănbản khi lưu trữ trong hệ thống phần mềm
Ví dụ: Hai văn bản sau được mô tả trong cơ sở dữ liệu hoàn toàn tương đương
nhau về mặt ngữ nghĩa:
tình hình ứng dụng CNTT trong cơ quan nhà nước”
nghệ thông tin trong CQNN”
Trang 15Nhận xét: Doc1 sử dụng keyphrase viết tắt “CNTT” tương đương keyphrase
“công nghệ thông tin” trong Doc2 Tương tự Doc2 sử dụng keyphrase viết tắt
“CQNN” tương đương keyphrase “cơ quan nhà nước” trong Doc1…
- Không tìm thấy tài liệu văn bản nếu không có sự quy ước và thống nhất dùng các keyphrases khác nhau nhưng phản ánh ngữ nghĩa tương đương khi lưu trữ chúng trong cơ sở dữ liệu:
Ví dụ 1: Hai văn bản được mô tả trong cơ sở dữ liệu như sau:
thực hiện tuyên truyền biển đảo”
triển khai tuyên truyền về biển đảo”
Nhận xét: Trong ví dụ này, có hai văn bản hành chính trên đang đề cập đếnviệc chỉ đạo thủ trưởng các đơn vị thực hiện tuyên truyền về biển đảo Nếu ngườidùng tìm kiếm những văn bản “chỉ đạo thủ trưởng các đơn vị thực hiện tuyên truyền
về biển đảo”, phương pháp hiện tại của hệ thống sẽ không tìm thấy
Ví dụ 2: Các văn bản liên quan đến nhóm công việc: “Triển khai quyết định
1605/QĐ-TTg” bao gồm:
công nghệ thông tin trong cơ quan nhà nước giai đoạn 2011 – 2015;
Việt Nam sớm trở thành nước mạnh về CNTT;
Ví dụ 3: Những văn bản sau có liên quan đến lĩnh vực Bưu chính viễn thông:
phát sóng thông tin di động tại KCN Long Đức
tình hình quản lý trên lĩnh vực bưu chính viễn thông, CNTT và báo chí xuất bảntháng 11 năm 2013
1.1.2 Đặt vấn đề
Theo chủ trương của nhà nước tại Quyết định số 1605/QĐ-TTg [18] và Quyếtđịnh số 1755/QĐ-TTg [19], đến năm 2015, 60% các tài liệu văn bản chính thức traođổi giữa các cơ quan nhà nước được trao đổi hoàn toàn dưới dạng điện tử, theo đó
Trang 16tài liệu văn bản hành chính phải được số hóa, lưu trữ trên hệ thống quản lý điềuhành Điều này dẫn đến, cơ sở dữ liệu lưu trữ tài liệu văn bản hành chính sẽ tăngtheo thời gian và theo sự phát triển của xã hội, đất nước tại các cơ quan nhà nước.Tuy nhiên trước hạn chế của hệ thống đang ứng dụng tại Sở Thông tin vàTruyền thông tỉnh Đồng Nai (đây là hệ thống ứng dụng đang triển khai cho trên 40
cơ quan nhà nước trên địa bàn tỉnh), do đó cần có giải pháp kỹ thuật cải tiến xử lýtìm kiếm được tốt hơn để đảm bảo việc tìm kiếm các tài liệu văn bản trên hệ thốngtương đối đầy đủ, chấp nhận dư thừa thông tin, nhưng hạn chế tình trạng thất thoáttài liệu văn bản liên quan tồn tại trong hệ thống nhưng không tìm thấy, nhằm giúpcho người lãnh đạo, người quản lý có thể tham vấn đầy đủ thông tin trước khi raquyết định thực thi nhiệm vụ nhà nước được chính xác Quyết định thiếu chính xáccủa người cán bộ khi tham vấn trên thông tin không đầy đủ, có thể gây hậu quảnghiêm trọng cho người dân và xã hội
Ví dụ: Lãnh đạo cơ quan đã cấp phép xây dựng một công trình trạm viễn
thông di động BTS tại địa địa điểm X trên địa bàn huyện Tân Phú theo văn bản A, nếu một đơn vị khác tiếp tục xin cấp phép xây dựng một công trình trạm viễn thông
di động BTS cũng tại địa điểm trên Nếu khi tìm kiếm không thấy văn bản A nêu trên, người lãnh đạo sẽ tiếp tục cấp phép cho xây dựng Điều này sai quy định và gây hậu quả nghiêm trọng.
Tất cả các văn bản hành chính đã được số hóa và lưu trữ trên hệ cơ sở dữ liệu
có cấu trúc thuộc hệ thống phần mềm (sử dụng hệ quản trị SQL Server) Với những
hệ thống tìm kiếm truyền thống, độ chính xác của kết quả tìm kiếm không cao,người sử dụng cần phải tự mình chọn lọc tìm ra thông tin chính xác cần tìm hoặcphải qua rất nhiều bước tìm kiếm
Các phương pháp tìm kiếm phổ biến đều cho phép người sử dụng có thể tạocác câu truy vấn gồm các từ khóa tìm kiếm Tuy nhiên, phương pháp này gặp phảinhững vấn đề sau: mỗi từ khóa có thể có một hay nhiều nghĩa tùy theo từng ngữcảnh; bộ máy tìm kiếm không thể hiện mối quan hệ giữa các từ khóa với nhau;thông tin có cùng ý nghĩa với từ khóa nhưng không nằm trong kết quả trả về
Qua tìm hiểu các kỹ thuật hiện nay, phương pháp tìm kiếm ngữ nghĩa đangđược các nhà nghiên cứu quan tâm, đặc biệt là nghiên cứu ứng dụng Ontology Tìm
Trang 17kiếm ngữ nghĩa (semantic search) là tìm kiếm thông tin không dựa trên sự hiện diệncủa từ khóa hay cụm từ, mà dựa vào nghĩa của từ Động cơ tìm kiếm ngữ nghĩa cốgắng vượt qua lỗ hổng trên bằng cách sử dụng ngữ nghĩa học (semantics) và nhờ đócung cấp cho người dùng các kết quả chính xác, thích đáng Nó còn cho phép trả vềcác kết quả không liên quan một cách tường minh đến câu truy vấn nguyên mẫu,phân tích, xác định ngữ nghĩa nội dung của từng văn bản.
Từ những diễn giải đã nêu ở trên, ta tập trung nghiên cứu nhằm giải quyết 02vấn đề chính:
- Nghiên cứu phương pháp tổ chức biểu diễn tri thức lĩnh vực hành chính nhằm hỗ trợ cho việc tìm kiếm theo nhiều cách khác nhau và đặc biệt là theo hướng có ngữ nghĩa Trong phạm vi Luận văn này, ta tập trung nghiên cứu trong ngành thông tin
và truyền thông.
- Xây dựng kỹ thuật xử lý tìm kiếm các văn bản hành chính trên hệ thống theo hướng ngữ nghĩa, chọn lọc, thông tin phù hợp, khả năng giải quyết tìm kiếm thống kê theo ngữ nghĩa để giúp cho Lãnh đạo cơ quan có thể truy vấn được thông tin cần thiết
và tương đối đầy đủ, hạn chế việc tìm kiếm thiếu thông tin, văn bản hành chính, góp phần công tác điều hành, quản lý ra quyết định đúng đắn, kịp thời, chính xác.
1.1.3 Nhận xét và hướng giải quyết
Hiện có một số công trình nghiên cứu trên thế giới về tìm kiếm ngữ nghĩa như:Công cụ Teachingwithdata.org trợ giúp học tập; Công cụ tìm kiếm ABS của Đại
Alpha Tuy nhiên những công trình nghiên cứu này hầu như chỉ hỗ trợ cho nhữngngôn ngữ phổ biến như Tiếng Anh, Tiếng Pháp, chưa hỗ trợ Tiếng Việt
Tại Việt Nam, có một số công trình, đề tài nghiên cứu về vấn đề này như: Môhình biểu diễn văn bản thành đồ thị đăng trên Tạp chí phát triển KH&CN của nhómtác giả Nguyễn Hoàng Tú Anh, Nguyễn Trần Kim Chi, Nguyễn Hồng Phi [1]; Môhình tổ chức và kỹ thuật tìm kiếm có ngữ nghĩa trên kho tài nguyên học tập lĩnh vựcCNTT của Huỳnh Thị Thanh Thương[8]; Ứng dụng xử lý ngôn ngữ tự nhiên trong
hệ tìm kiếm thông tin trên văn bản tiếng Việt của Đồng Thị Bích Thủy, Hồ BảoQuốc[9]; Hệ thống quản lý tri thức và thông tin cho các thực thể có tên ở Việt Namcủa Cao Hoàng Trụ [11]…
Trang 18Riêng lĩnh vực hành chính, một số đề tài nghiên cứu như: Giải pháp tìm kiếmtài liệu dựa trên ngữ nghĩa, ứng dụng vào việc tìm kiếm văn bản nhà nước ngànhthông tin và truyền thông của Tăng Thị Ngọc Em [2]; Ứng dụng semantic web xâydựng hệ thống tìm kiếm văn bản trong ngành giáo dục của Phạm Hoàng Linh [6].Tuy nhiên, các nghiên cứu này chỉ dừng lại việc giới thiệu biểu diễn Ontology trongtìm kiếm ngữ nghĩa nhưng chưa đề cập đến mô hình tổ chức thông tin cụ thể, chưathấy phân tích kỹ thuật ứng dụng Ontology để vận dụng tìm kiếm theo hướng ngữnghĩa Qua tìm hiểu tại website http://hoptac.ict-hcm.gov.vn, UBND thành phố HồChí Minh đang triển khai dự án xây dựng chính quyền điện tử trong đó nghiên cứuứng dụng quản lý, tìm kiếm văn bản hành chính theo ngữ nghĩa, nhưng dự kiến đến
năm 2016 mới hoàn thành.
Các công trình nghiên cứu nêu trên hứa hẹn mang đến một giải pháp toàn diệncho bài toán biễu diễn tri thức và tìm kiếm theo ngữ nghĩa Dựa trên biểu diễnontology hứa hẹn mang lại sự chính xác cao hơn rất nhiều so với cơ chế tìm kiếmdựa trên từ khóa, bởi vì cả người dùng và máy tính đều hiểu được nội dung của truyvấn Hơn nữa, nhờ áp dụng các luật hay logic, không gian tìm kiếm sẽ được mởrộng ra, không chỉ còn là các dữ liệu thô được lưu trữ
Đặc biệt kết quả nghiên cứu của tác giả Huỳnh Thị Thanh Thương[8] vềCK_ONTO, rất phù hợp để vận dụng biểu diễn thông tin ngữ nghĩa trong lĩnh vựchành chính nhà nước và giải quyết các vấn đề đặt ra trong phạm vi luận văn này
Xuất phát từ nhu cầu thực tiễn rất lớn về việc tìm kiếm văn bản hành chínhtrên hệ thống ứng dụng quản lý và điều hành tại Sở Thông tin và Truyền thông vàkhắc phục các hạn chế của hệ thống hiện tại, mục tiêu của đề tài là:
1.2.1 Xây dựng mô hình tổ chức biểu diễn thông tin ngữ nghĩa và giải pháp lưu trữ
theo hướng ngữ nghĩa các tài liệu văn bản hành chính trong ngành thông tin và truyền thông (gồm: báo chí xuất bản, bưu chính viễn thông, công nghệ thông tin).
1.2.2 Dựa trên mô hình tổ chức biểu diễn thông tin ngữ nghĩa nêu trên, xây dựng giải
pháp tìm kiếm theo ngữ nghĩa: người dùng sẽ đưa ra yêu cầu câu truy vấn, hệ thống sẽ phân tích và so sánh sự tương đồng ngữ nghĩa câu truy vấn với các tài
Trang 19liệu văn bản trong cơ sở dữ liệu và trả về kết quả danh sách tài liệu văn bản khi tìm thấy.
Ví dụ: Tìm được các văn bản hành chính chứa các thông tin liên quan đến
tình hình ứng dụng công nghệ thông tin trong cơ quan nhà nước, hệ thống có thể trả về các văn bản như sau:
+ Doc1: “1/2307/SXD-VP của Sở Xây dựng về việc phiếu Điều tra thực trạng và nguồn nhân lực để triển khai ứng dụng CNTT trong CQNN”.
+ Doc2: “1558/STP-VP của Sở Tư pháp về báo cáo tình hình ứng dụng công nghệ thông tin năm 2013”.
1.3. ĐỐI TƯỢNG VÀ PHẠM VI NGHIÊN CỨU
1.3.1. Đối tượng nghiên cứu:
Các đối tượng nghiên cứu trong luận văn này là:
thông
Thông tin và Truyền thông tỉnh Đồng Nai nói riêng
lĩnh vực nghiên cứu
thuật toán xử lý để tổ chức, biễu diễn và lưu trữ thông tin
1.3.2. Phạm vi:
Phạm vi nghiên cứu tổ chức, biểu diễn thông tin ngữ nghĩa được giới hạntrong phạm vi quản lý, điều hành thuộc ngành thông tin và truyền thông tại SởThông tin và Truyền thông tỉnh Đồng Nai bao gồm 3 lĩnh vực: Báo chí xuất bản,Bưu chính viễn thông và Công nghệ thông tin
Phạm vi nghiên cứu của luận văn phục vụ trong đơn vị quản lý hành chính nhànước cấp tỉnh và trong lĩnh vực chuyên ngành quản lý cụ thể
Trang 20Phương pháp lý thuyết: tổ chức biểu diễn thông tin ngữ nghĩa; tìm hiểu về
ontology; tìm hiểu các kỹ thuật xử lý câu truy vấn; tìm hiểu các kỹ thuật tìm kiếm,tìm kiếm ngữ nghĩa; tổ chức biểu diễn dữ liệu
Phương pháp thực nghiệm: xây dựng ontology; xây dựng kỹ thuật tìm kiếm
ngữ nghĩa; triển khai thử nghiệm trên cơ sở dữ liệu thực tế đang ứng dụng tại SởThông tin và Truyền thông
Hướng tiếp cận giải quyết: Tìm hiểu hoạt động của hệ thống thông tin điều
hành có sẵn tại Sở Thông tin và Truyền thông tỉnh Đồng Nai; Nghiên cứu tổ chứccác cơ sở dữ liệu văn bản hành chính, văn bản quy phạm pháp luật liên quan ở cáccấp trung ương và địa phương; Thiết kế bổ sung cơ sở dữ liệu để tổ chức, lưu trữ tàiliệu văn bản mang tính ngữ nghĩa
Các phương pháp và kỹ thuật áp dụng: Phương pháp biểu diễn và xử lý ngữ
nghĩa các tài liệu văn bản; Phương pháp và kỹ thuật lập chỉ mục tự động cho các tàiliệu, rút trích các khái niệm từ tài liệu, phân loại tài liệu và một số kỹ thuật xử lýngôn ngữ tự nhiên; Xây dựng hệ tìm kiếm thông tin ngữ nghĩa
1.5. Ý NGHĨA KHOA HỌC VÀ THỰC TIỄN
Về mặt khoa học, luận văn đóng góp một phương pháp vận dụng ontology đểbiểu diễn tri thức trong lĩnh vực hành chính nhà nước cụ thể, dựa trên biểu diễn trithức để xây dựng kỹ thuật xử lý tìm kiếm ngữ nghĩa tài liệu văn bản
Về mặt thực tiễn, luận văn nghiên cứu kỹ thuật tìm kiếm cải tiến để khắc phụccác hạn chế kỹ thuật tìm kiếm theo từ khóa của hệ thống đang ứng dụng tại SởThông tin và Truyền thông tỉnh Đồng Nai Kết quả nghiên cứu có thể mở rộng pháttriển để áp dụng cho các ngành khác mà có thể áp dụng cho nhiều cơ quan hànhchính nhà nước thuộc hệ thống Nhà nước Việt Nam
Tính mới của luận văn này là phương pháp vận dụng ontology để biểu diễn trithức trong lĩnh vực hành chính và kỹ thuật xử lý tìm kiếm ngữ nghĩa dựa trênontology Phương pháp này chưa được áp dụng cụ thể trong các ứng dụng CNTTcủa cơ quan nhà nước trên địa bàn tỉnh Đồng Nai
Xây dựng giải pháp ứng dụng công nghệ thông tin giúp cho Lãnh đạo SởThông tin và Truyền thông có thể thu thập, xử lý nhanh các thông tin được nhanhchóng, thuận lợi, chính xác, hạn chế không dư thừa thông tin, kịp thời xử lý điều
Trang 21hành hoạt động của cơ quan trên hệ thống quản lý văn bản và điều hành của cơquan
Trang 22Chương 2 - CƠ SỞ LÝ THUYẾT
Chương 2 trình bày cơ sở lý thuyết của Luận văn liên quan đến vấn đề truy hồithông tin, lý thuyết về Ontology, CK_ONTO, các phương pháp và kỹ thuật tínhkhoảng cách ngữ nghĩa giữa các khái niệm và giới thiệu một số kỹ thuật xử lý ngônngữ tự nhiên để làm cơ sở vận dụng giải quyết các vấn đề mà Luận văn đang nghiêncứu (các cơ sở lý thuyết được trình bày tham khảo các tài liệu của tác giả Tăng ThịNgọc Em [2], Huỳnh Tấn Đạt [3] và Huỳnh Thị Thanh Thương [8])
2.1.1 Cấu trúc của một hệ thống truy tìm thông tin
Hầu hết các hệ thống tìm kiếm thông tin (gọi tắt là hệ thống IR) là hệ thốngtruy tìm tài liệu để truy tìm những tài liệu (trong số các tài liệu có trong cơ sở dữliệu lưu trữ) có nội dung liên quan, phù hợp, đáp ứng với nhu cầu thông tin củangười dùng, sau đó người dùng sẽ tìm kiếm thông tin họ cần trong các tài liệu liênquan đó Tài liệu là các mẫu văn bản, hình ảnh, âm thanh, video Có hai khái niệmquan trọng luôn đề cập đến đó là tài liệu và câu truy vấn
Một hệ thống tìm kiếm thông tin có hai chức năng chính là lập chỉ mục(indexing) và tra cứu (interrogation)
- Lập chỉ mục là giai đoạn phân tích tài liệu (document) để xác định các chỉmục (term/index term) biểu diễn nội dung của tài liệu Việc lập chỉ mục có thể dựavào một cấu trúc phân lớp có sẵn, các chỉ mục trong cách làm này tồn tại trước vàđộc lập với tài liệu Cách thứ hai, lập chỉ mục là rút trích các chỉ mục từ chính nộidung của tài liệu (free text) Cuối giai đoạn lập chỉ mục nội dung của các tài liệu cótrong kho tài liệu (corpus) được biểu diễn bên trong bằng tập các chỉ mục
- Trong giai đoạn tra cứu, nhu cầu thông tin của người sử dụng được đưa vào
hệ thống dưới dạng một câu hỏi (query) bằng ngôn ngữ tự nhiên hay một dạng thứcqui ước nào đó, cũng sẽ được phân tích và biểu diễn thành một dạng biểu diễntrong Hệ thống sẽ sử dụng một hàm so khớp (matching function) để so khớp biểudiễn của câu hỏi với các biểu diễn của các tài liệu để tìm ra các tài liệu có liên quan(relevance)
Trang 23Chỉ mục có thể là từ (word) hay là một cấu trúc phức tạp hơn như cụm danh từ(noun phrase), khái niệm (concept) Vấn đề xác định chỉ mục cho văn bản tiếngViệt phức tạp hơn đối với ngôn ngữ châu Âu Hơn nữa ngữ pháp tiếng Việt vẫn cònnhiều vấn đề tranh luận giữa các nhà ngôn ngữ học nên cũng còn nhiều khó khăntrong việc tự động hóa việc phân tích tiếng Việt.
Có hai hướng tiếp cận chính cho việc nguyên cứu các hệ thống IR bao gồm
phương pháp tiếp cận thống kê và phương pháp tiếp cận hướng ngữ nghĩa hay khái niệm:
- Trong phương pháp tiếp cận thống kê, các tài liệu kết quả được truy tìm về hoặc được xếp hạng cao là những tài liệu được xem là thích hợp với câu truy vấn nhất theo một số tiêu chí đo lường thống kê.
- Trong phương pháp tiếp cận hướng ngữ nghĩa hay khái niệm thực hiện phân tích cú pháp và ngữ nghĩa Nội dung của một đối tượng thông tin được mô tả bởi một tập các khái niệm hay một cấu trúc khái niệm, nói cách khác là cố gắng mô phỏng lại các cấp độ hiểu của máy tính về các văn bản theo ngôn ngữ tự nhiên của con người Để rút trích khái niệm, hệ thống cần sử dụng đến nguồn tri thức về lĩnh vực nhất định nào đó Hướng tiếp cận chính cho việc nguyên cứu các hệ thống này
là sử dụng các kỹ thuật trong xử lý ngôn ngữ tự nhiên và công nghệ ontology.
Hình 2.1 Các phương pháp truy hồi thông tin 2.1.2 Truy hồi thông tin theo hướng thống kê
Có một số mô hình nổi tiếng được nghiên cứu theo hướng tiếp cận thống kêthuần túy có thể kể đến là mô hình Boolean, Boolean mở rộng (extended Boolean),Không gian vector (Vector Space), các mô hình xác xuất (Probabilistic models) Ý
Trang 24tưởng chính theo hướng tiếp cận này là dùng một danh sách các term xuất hiện trongtài liệu hay câu truy vấn là dạng biểu diễn của nội dung tài liệu và câu truy vấn đó.Term - viết tắt của terminology, nghĩa là thuật ngữ, là một từ hay cụm từ(keyphrase) biểu thị một khái niệm khoa học
2.1.2.1 Mô hình Boolean
Định nghĩa mô hình truy hồi Boolean (Boolean retrieval model): là mô hìnhcho việc truy hồi thông tin Trong đó chúng ta có thể đặt ra bất kỳ truy vấn dướidạng một biểu thức Boolean của các term, các term kết hợp với các phép toán AND,
OR, và NOT Mô hình này xem mỗi tài liệu như là một tập các từ (words) Yếu tốchủ yếu cho truy hồi Boolean là thứ tự trong danh sách posting được truy xuất.Chúng ta cần đánh giá và lưu trữ tạm thời biểu thức trung gian trong một biểu thứcphức tạp Tuy nhiên trong nhiều trường hợp chỉ là sự liên kết thuần túy
Ví dụ: Để trả lời câu truy vấn Brutus AND Caesar AND NOT Calpurnia,chúng ta đi theo vector cho Brutus, Caesar và Calpurnia từ đầu đến cuối và có kếtquả so bit như sau: 110100 AND 110111 AND 101111 = 100100 Kết quả này chobiết cột 1 và cột 4 bật bit 1 Như thế tương ứng với kết quả trả về là quyển sáchAntony and Cleopatra và quyển Hamlet
Yếu tố chủ yếu cho truy hồi Boolean là thứ tự trong danh sách posting đượctruy xuất Chúng ta cần đánh giá và lưu trữ tạm thời biểu thức trung gian trong mộtbiểu thức phức tạp Tuy nhiên trong nhiều trường hợp chỉ là sự liên kết thuần túy
2.1.2.2 Mô hình Boolean cải tiến (Advanced Boolean Model )
Thậm chí nếu bổ sung thêm toán tử “proximity” thì điều kiện boolean vẫn làđúng hoặc sai, “tất cả hoặc không có gì” (all – or – nothing) dẫn tới trường hợp làtìm thấy một số lượng lớn tài liệu liên quan hoặc là không có tài liệu nào Hơn nữa,trong trường hợp câu truy vấn bao gồm nhiều term liên kết với nhau bởi toán tử OR,một tài liệu có chứa tất cả (hay nhiều) term truy vấn cũng không được xem là tốthơn so với một tài liệu chỉ chứa một term Tương tự, trong trường hợp với toán tửAND, một tài liệu chứa được gần hết các term vẫn được xem là không phù hợpgiống như một tài liệu không chứa term nào Từ những hạn chế nêu trên, nhiều mô
Trang 25hình Boolean mở rộng đã được nghiên cứu phát triển nhằm sắp hạng kết quả trả về.Những mô hình này sử dụng nhiều toán tử Boolean mở rộng khác Ví dụ, một toán
tử boolean mở rộng có thể trả về một giá trị cho đối số nằm trong khoảng từ 0 đến 1(thay vì chỉ là 2 số hoặc 0 hoặc 1) tương ứng với mức độ phù hợp khi so khớp giữabiểu thức logic và tài liệu đang xét (mô hình p – norm là một điển hình)
Ưu điểm của mô hình Boolean:
• Đơn giản, dễ hiểu, dễ cài đặt và sử dụng
đến
liệu và câu truy vấn
Boolean không đơn giản, người dùng sẽ gặp khó khăn trong việcxây dựng các biểu thức truy vấn Boolean
Nhằm khắc phục những hạn chế trong mô hình Boolean, một mô hình mới đãđược đề xuất với ý tưởng chính là xét đến độ tương đồng giữa tài liệu và câu truyvấn thay thế cho việc so khớp chính xác theo cách tiếp cận Boolean
2.1.2.3 Mô hình không gian Vector(Vector Space Model)
Trong mô hình không gian vector, văn bản được thể hiện là các vector của cácterm Term này tiêu biểu cho các từ (word) và các cụm từ (keyphrase) Khi một từđược chọn làm term, thì khi đó mỗi từ trong bộ từ vựng trở thành một chiều độc lập
Trang 26trong mô hình không gian vector Bất kỳ văn bản nào cũng có thể được thể hiệnbằng vector trong không gian với số chiều rất lớn Nếu một term thuộc một văn bảnthì nhận giá trị khác không trong vector văn bản, cùng với chiều tương ứng choterm đó Bởi vì bất kỳ văn bản nào cũng chứa một tập hợp các term trong hạn định(bộ từ vựng hàng triệu term) cho nên hầu hết các vector văn bản thì rất thưa thớt.
Để gán điểm số cho một tài liệu (document) từ câu truy vấn, thì mô hìnhvector sẽ đo độ tương đồng giữa vector truy vấn và vector tài liệu Cho nên ý tưởngthen chốt của giải pháp này là: xem các tài liệu và câu truy vấn là các vector trongkhông gian có số chiều cao Góc giữa 2 vector được dùng như một tiêu chuẩn đểđánh giá sự khác nhau giữa các vector
Với mô hình không gian vector: các tài liệu và câu truy vấn được thể hiện làcác vector có trọng số Sử dụng phép toán trên không gian vector để tính toán độ đotương tự giữa câu truy vấn và các văn bản hoặc các từ khóa biểu diễn, kết quả saukhi tính toán có thể được xếp hạng theo độ đo tương tự với vector truy vấn
Một cách hình thức, những tài liệu được biểu diễn trong một không gian tài
liệu D có chiều là các đặc trưng f Fi∈ Một tài liệu d được biểu diễn như một
w
là trọng số của đặc trưng fi trong tài liệu d
và n = |F| Tương tự, câu truy vấn cũng được biểu diễn trong cùng một không gian
Trang 27giá trị của idf sẽ bằng 0 Như vậy, với việc áp dụng idf × tf, trọng số được gán tương
ứng cho mỗi đặc trưng f của vector d r
được tính bởi công thức sau:
Trong đó: d r
là vector document, q r
là vector truy vấn, nlà số term chung của 2
vector d1và d2, n1 là số term khác 0 trong d1, n2 là số term khác 0 trong d2, N là tổng
số term trong không gian vector, z là số term không xuất hiện trong cả d1 và d2 (N –
z là số term có xuất hiện trong d1 hoặc d2 hoặc cả hai)
Trang 28 Nhận xét về ưu điểm và khuyết điểm của mô hình không gian vector
* Ưu điểm:
− Đơn giản, dễ hiểu, dễ cài đặt
kiếm
tương đồng giữa một truy vấn và mỗi tài liệu, đại lượng này có thểđược dùng để xếp hạng các tài liệu trả về
nhất, thỏa mãn với thông tin truy vấn của người dùng
bậc của việc xếp hạng cho biết tài liệu có thỏa mãn với thông tinngười dùng hay không
liệu, nhưng chỉ thực hiện một lần mà thôi nên không cho ra nhiềungữ nghĩa
* Khuyết điểm:
không gian lưu trữ, vì mỗi term là một chiều và tổng các term là từđiển mà đồng thời từ điển thì lưu trữ trên bộ nhớ nên tốn nhiềukhông gian lưu trữ
chỉ cho biết độ đo giữa vector tài liệu và vector truy vấn có liênquan với nhau hay không
− Số chiều biểu diễn cho tập văn bản có thể rất lớn nên tốn không gianlưu trữ
2.1.3 Hệ thống tìm kiếm thông tin dựa trên khái niệm
Hệ thống tìm kiếm thông tin dựa trên khái niệm sử dụng khái niệm để lập chỉmục và có hai nhiệm vụ chính đó là: rút trích toàn bộ các khái niệm hay ngữ nghĩa
Trang 29có trong cơ sở dữ liệu của các tài liệu và lập chỉ mục cho các tài liệu dựa trên cáckhái niệm này
Theo hướng tiếp cận này, một tài liệu thường được biểu diễn dưới dạng mộttập hợp các từ khóa độc lập nhau Đây được xem là một phương pháp phổ biến dùngcho việc biểu diễn các tài liệu mà không xét đến hình thái của từ, thứ tự của các từhay vị trí xuất hiện của từ trong tài liệu cũng như các mối quan hệ ngữ nghĩa giữachúng, do đó cách biểu diễn này mang mức độ thông tin thấp và nếu nhìn dưới gócnhìn của ngôn ngữ học không xử lý các biến thể về mặt ngôn ngữ học của các từ nhưbiến thể về hình thái học (morphological variation), biến thể về từ vựng học (lexicalvariation), biến thể về ngữ nghĩa học (semantical variation) và biến thể về cú pháphọc (syntax variation) Biến thể về hình thái học là các dạng khác nhau về mặt cấutrúc (hình dáng, thể hiện bên ngoài) của một từ, ví dụ như các từ computer,computerize, computers là các biến thể về hình thái học của từ computer
Các cấu trúc khái niệm có thể tổng quát hoặc cụ thể theo từng lĩnh vực, có thểđược tạo thủ công, bán tự động hoặc tự động, chúng có thể khác nhau ở các dạngbiểu diễn hoặc ở cách xây dựng mối liên hệ giữa các khái niệm Các kiểu cấu trúckhái niệm phổ biến: cây khái niệm phân cấp (conceptual taxonomy), nguốn tri thức
về lĩnh vực (domain ontology), mạng ngữ nghĩa (semantic linguistic network ofconcept), các đồ thị khái niệm (conceptual graphs), từ điển từ vựng (thesaurus), môhình tiên đoán (predictive model) và vector ngữ cảnh (context vector)
Hệ thống tìm kiếm thông tin dựa trên khái niệm có thể áp dụng cho văn bản vàứng dụng cho tìm kiếm hình ảnh và truy vấn thông tin đa ngôn ngữ Việc tìm kiếmhình ảnh dựa trên khái niệm rất có ý nghĩa Khi một người dùng tìm kiếm hình ảnh,
sẽ chú ý ý nghĩa (nội dung) của hình ảnh đó là gì hơn là hình ảnh đó có màu sắc, hay
độ lớn như thế nào Tuy nhiên, việc lập chỉ mục khái niệm cho hình ảnh khó khănhơn rất nhiều so với lập chỉ mục văn bản
Hệ thống dựa trên khái niệm rút trích khái niệm từ câu truy vấn và so trùng với
tập chỉ mục đã được lập của các tài liệu để tìm ra các tài liệu có liên quan Việc so
trùng câu truy vấn với tập chỉ mục của tài liệu thường được thực hiện qua 02 cách phổ biến, đó là:
Trang 30- So trùng khái niệm của các tài liệu đã được xây dựng trong quá trình lập chỉ mục với các khái niệm của câu truy vấn dựa trên từ khóa (theo phương pháp truyền thống)
- So trùng giữa cấu trúc khái niệm của cây truy vấn với cấu trúc khái niệm của các tài liệu đã được xây dựng trong quá trình lập chỉ mục.
Có nhiều công trình nghiên cứu xây dựng một hệ thống tìm kiếm thông tin dựatrên khái niệm nhưng chỉ hỗ trợ một lĩnh vực nhất định trong những ứng dụng cụthể, nhất định, cụ thể như: Công trình của nhóm tác giả Lê Thị Hoàng Diễm, Jean-Pierre Chevallet và Joo Hwee Lim về xây dựng hệ thống tìm kiếm dựa trên kháiniệm sử dụng mô hình mạng Bayes; Nhóm tác giả Hồ Bảo Quốc, Lê Thúy Ngọc vớicông trình nghiên cứu các vấn đề về tìm kiếm dựa trên khái niệm gồm các phươngpháp mở rộng khái niệm; Nhóm tác giả Đồng Thị Bích Thủy, Nguyễn Phạm BảoTrâm nghiên cứu mô hình tìm kiếm dựa trên khái niệm, hướng tới việc xây dựngmột hệ thống các dịch vụ hỗ trợ việc tìm kiếm thông tin trong thư viện…
Việc xây dựng một hệ thống tìm kiếm thông tin dựa trên khái niệm là vấn đềrất khó và chưa có lời giải tối ưu, đồng thời cần có sự can thiệp của của chuyên gia
về lĩnh vực và phụ thuộc nhiều vào ngôn ngữ khi xây dựng một cơ sở tri thức do đótốn nhiều chi phí để xây dựng và bảo trì Cho đến nay thì những kết quả đạt đượctheo cách tiếp cận này vẫn chưa có sự cải thiện đáng kể so với các phương phápthống kê kể trên Nguyên nhân chính là do những mô hình biểu diễn mới cũng chỉnắm bắt được một phần nhỏ thông tin hơn so với mô hình truyền thống Hơn nữa,những lỗi xuất hiện trong quá trình rút trích tự động các khái niệm hay trong quátrình xây dựng các mô hình biểu diễn có thể gây nhiễu và làm ảnh hưởng đến tiếntrình tìm kiếm
2.1.4 Đánh giá một hệ thống tìm kiếm thông tin
Hiệu quả của một hệ truy tìm thông tin có thể được đánh giá theo các tiêuchuẩn sau:
độ đo cơ bản là độ chính xác (precision) và độ bao phủ (recall) Những
độ đo này đo sự thỏa mãn của người dùng với các tài liệu mà hệ thốngtìm thấy Cho S là tập các tài liệu được tìm thấy (liên quan hệ thống)
Trang 31Cho U là tập các tài liệu liên quan đánh giá của người dùng Khi đó,
độ chính xác và độ bao phủ sẽ được định nghĩa như sau:
Độ chính xác: là sự tương ứng giữa số tài liệu mà hệ thống tìm thấy có liênquan đến câu truy vấn của người dùng trên tổng số các tài liệu tìm thấy của hệthống
Độ chính xác
S U S
∩
=
Độ chính xác 100% nghĩa là tất cả các tài liệu mà hệ thống tìm thấy điều liênquan đến câu truy vấn của người dùng
Độ bao phủ: là sự tương quan giữa số tài liệu hệ thống tìm thấy được đánh giá
là liên quan người dùng trên tổng số các tài liệu có liên quan theo người dùng
Độ bao phủ
S U U
∩
=
Độ bao phủ là 100% có nghĩa là hệ thống tìm thấy tất cả các tài liệu liên quan.Thông thường, khó đáp ứng được cả hai độ đo này cùng một lúc Một hệ thốngmuốn tăng độ chính xác thường sẽ phải giảm độ bao phủ và ngược lại
− Hiệu quả thực thi của hệ thống (Execution efficiency) được đo bởi thờigian thực hiện thủ tục tìm kiếm các văn bản liên quan đến câu truy vấnđược cho
dữ liệu (cả bộ nhớ ngoài lưu trữ dữ liệu chỉ mục và bộ nhớ RAM khi
hệ thống thực thi)
Công nghệ ontology là một công nghệ được nghiên cứu phát triển mạnh mẽtrong thời gian gần đây Ontology trở thành một lĩnh vực nghiên cứu phổ biến cómặt trong nhiều lĩnh vực từ xử lý ngôn ngữ tự nhiên, công nghệ tri thức, các hệthống trao đổi, tích hợp thông tin cho đến biểu diễn và quản lý tri thức
2.2.1 Định nghĩa
Trong ngành công nghệ thông tin, tồn tại một số định nghĩa khác nhau vềOntology Những định nghĩa phổ biến nhất của Ontology là:
Trang 321- Ontology là một đặc tả rõ ràng của nhận thức.
2- Ontology là lý thuyết quan tâm tới những khái niệm sử dụng để xây dựngnhững hệ thống nhân tạo
3- Ontology là biểu diễn của tri thức trong một lĩnh vực nào đó
4- Định nghĩa của Gruber vào năm 2008:
- Trong ngữ cảnh khoa học máy tính và thông tin: Ontology được định nghĩa
là một tập hợp các yếu tố (lớp, thuộc tính, mối quan hệ) cơ bản dùng để mô hìnhhóa một lĩnh vực tri thức
- Trong ngữ cảnh của các hệ thống cơ sở dữ liệu: Ontology có thể được xem
như là một mức trừu tượng của các mô hình dữ liệu, tương tự cho các mô hình phâncấp và quan hệ nhưng dùng để mô hình hóa tri thức về các cá thể, các thuộc tính vàcác mối quan hệ của chúng đến các cá thể khác
2.2.2 Các thành phần của ontology
Ontology được xây dựng thường có các thành phần cơ bản sau: Các lớp (class)(tương ứng với các concept – khái niệm), các thuộc tính (property hay role, slot), cácquan hệ (relation), các thực thể hay thể hiện (instance), các hàm (function), các tiền
đề (Axioms)
2.2.3 Phân loại ontology
Về cơ bản có các loại ontology sau: Ontology biểu diễn tri thức (Knowledgerepresentation Ontology), Ontology tổng quát (Generic Ontology), Metadataontology, Ontology lĩnh vực, Ontology tác vụ (Tast Ontology), Ontology lĩnh vực -tác vụ (Domain – Tast Ontology), Ontology ứng dụng (Application Ontology),Ontology chỉ mục (Index Ontology), Ontology hỏi và trả lời (Tell and AskOntology)
Các loại metadata ontology, ontology lĩnh vực, ontology ứng dụng nắm giữ trithức một cách tĩnh nghĩa là độc lập với cách giải quyết vấn đề, trong khi ontologytác vụ, ontology lĩnh vực – tác vụ liên quan đến tri thức giải quyết vấn đề Tất cả cácontology này có thể kết hợp với nhau để xây dựng lên một ontology mới
Ngoài ra, cộng đồng nghiên cứu phân biệt các ontology dựa trên độ phức tạpcủa mô hình biểu diễn ontology: Lightweight ontology chứa các khái niệm, phân cấpkhái niệm, mối quan hệ giữa các khái niệm và các thuộc tính mô tả khái niệm;
Trang 33Heavyweight ontology bổ sung vào lighweight ontology các tiền đề, hàm và ràngbuộc.
2.2.4 Vai trò của Ontology
trúc thông tin giữa con người và các tác tử
các ontology, nhóm khác có thể sử dụng lại cho ứng dụng của họ
− Làm rõ lĩnh vực quan tâm, đưa ra các giả thiết rõ ràng về miền: tạo điều kiệnthay đổi khi tri thức về lĩnh vực thay đổi, các đặc tả rõ ràng về miền tri thức
sẽ giúp cho người mới dễ tìm hiểu ngữ nghĩa của các từ trong lĩnh vực quantâm
− Phân tách hay tách rời tri thức lĩnh vực với tri thức xử lý: có thể hình dungmột tác vụ tạo một tài liệu học tập từ nhiều thành phần theo đặc tả thì độc lậpvới chương trình ứng dụng làm nhiệm vụ này
− Phân tích tri thức: Phân tích hình thức của các khái niệm, cần thiết cho việctái sử dụng và mở rộng ontology Muốn kế thừa hay sử dụng một ontology taphải phân tích và tìm hiểu các khái niệm và quan hệ giữa chúng trongontology đó
2.2.5 Các ứng dụng dựa trên Ontology
Hiện nay nhu cầu về ontology ngày càng tăng cao và ontology không nhữngphục vụ cho nhu cầu chia sẻ tri thức đơn thuần mà còn được áp dụng vào nhiều lĩnhvực khác nhau như các hệ thống quản lý tri thức, rút trích thông tin, thương mại điện
tử, web ngữ nghĩa, xử lý ngôn ngữ tự nhiên, cơ sở dữ liệu, quản lý thông tin đa ngônngữ, khai phá tri thức, học máy, trong công nghệ phần mềm, trong kiến trúc đa tác
tử hay trong các hệ thống bảo mật, … Ontology cung cấp nguồn thông tin giàu ngữnghĩa giúp cho các hệ thống thực hiện các tác vụ với kết quả tốt hơn
Trong thương mại điện tử, ontology được sử dụng để mô tả các sản phẩm khácnhau và được ứng dụng vào việc định vị và tìm kiếm sản phẩm tự động với cácthông tin có sẵn Ở đây ontology đóng vai trò chuẩn hóa các nhóm mặt hàng Ngoài
ra, ontology còn có công dụng giúp cho các hệ thống tự động giao tiếp với nhau dễdàng Các trang web hoạt động như là cổng thông tin chung, có nhiệm vụ thực hiện
Trang 34các biến đổi trên ontology giữa bên bán và bên mua
Hiện nay đã có nhiều hệ thống hỗ trợ giáo dục được xây dựng theo cách tiếpcận sử dụng ontology và các công nghệ Web có ngữ nghĩa Dựa trên các tính năngcủa hệ thống mà ta có thể phân loại chúng thành ba nhóm chủ yếu sau: Các hệ thốngchia sẻ tài nguyên giáo dục trực tuyến: GEM - Gateway to Educational Materials(thegateway.org), Connexions (cnx.rice.edu); Các mạng chia sẻ ngang hàng về tàinguyên giáo dục: POOL - Portal for Online Objects in Learning , Edutella(www.edutella.org); các hệ thống Elearning dựa trên ontology: PIP - PersonalizedInstruction Planner, TANGRAM
Trong các hệ thống hỗ trợ giáo dục, ontology được sử dụng chủ yếu cho 3 mụcđích: (i) biểu diễn và lưu trữ tri thức về các lĩnh vực cũng như các đối tượng cầnthiết trong ứng dụng; (ii) xây dựng các mô hình tổ chức lưu trữ, biểu diễn ngữ nghĩa,biểu diễn tài liệu, lập chỉ mục cho các tài liệu (iii) xây dựng các chiến lược tìm kiếmtheo ngữ nghĩa liên quan đến nội dung tài liệu
2.2.6 Một số nghiên cứu liên quan đến vấn đề ngữ nghĩa khác
2.2.6.1. Lucene:
Lucene là một thư viện mã nguồn mở, được phát triển bởi Dough Cutting Thưviện này cung cấp các hàm cơ bản hỗ trợ cho việc đánh chỉ mục và tìm kiếm Để cóthể sử dụng Lucene, ta cần phải có sẵn dữ liệu Dữ liệu có thể là tập hợp các tập tindạng PDF, Word hay là các trang web HTML; hoặc là dữ liệu lưu trong các hệ quảntrị CSDL như MS SQL Server hay MySQL Dùng Lucene, ta có thể tiến hành đánhchỉ mục trên dữ liệu hiện có để sau này có thể thực hiện thao tác tìm kiếm toàn văntrên dữ liệu đó
Lucene cho phép tạo chỉ mục và tìm kiếm trên ứng dụng của ta Các IRLibrary là các search engines chứ không phải các web search engine Lucene chỉcung cấp sẵn các API, không phải là một ứng dụng
Bảng 2.1: Bảng mô tả 02 thành phần cốt lõi của Lucene
Nhóm 1: Lập chỉ mục Nhóm 2: Tìm kiếm IndexWriter: là thành phần trung tâm
của tiến trình lập chỉ mục Lớp này tạo
IndexSearcher: tìm kiếm từ chỉ mục
đã được lập bởi IndexWriter (hay nói
Trang 35chỉ mục mới và thêm các tài liệu vào
chỉ mục đã có (IndexWriter như một
đối tượng cho ta cách truy cập đến chỉ
mục, nhưng không cho đọc và tìm
kiếm)
Directory: cho biết vị trí của Lucene
index
Analyzer: trích xuất các token từ văn
bản (dạng text), đồng thời nó loại bỏ
stopword (a, an, the, in, on)
Document: thể hiện một tập hợp các
Field (chunk of data) Ví dụ: trang web,
thông điệp email, tập tin văn bản
Field: là một mẩu dữ liệu (piece of
data) mà nó được dùng để truy vấn
trong suốt quá trình tìm kiếm từ chỉ
mục
cách khác là IndexSearcher mở index
đã được tạo IndexWriter để đọc)
Term: là một đơn vị (unit) cho tìm
kiếm Tương tự như Field, nó là mộtchuỗi tên trường và giá trị
Query: chứa các phương thức truy tìm,
nó bao gồm các lớp (TermQuery, BooleanQuery, PhraseQuery, PrefixQuery, PhrasePrefixQuery, RangeQuery, FilteredQuery, SpanQuery)
Hits: chứa các con trỏ đến các kết quả
tìm kiếm
Lucene cung cấp 2 cấu trúc chỉ mục: chỉ mục nhiều tập tin (multifile indexes)
và chỉ mục phức hợp (compound indexes) Cấu trúc chỉ mục nhiều tập tin (multifileindex): Mỗi chỉ mục Lucene có nhiều segment, mỗi segment được cấu thành từnhiều tập tin chỉ mục, các tập tin trong cùng một segment thì giống nhau về tiền tố,
ví dụ ta có một chỉ mục với 2 segment là _lfyc và _gabh như sau:Thay vì mở và đọc
10 file khi dùng với chỉ mục nhiều tập tin thì Lucene chỉ mở 2 file khi truy cập chỉmục phức hợp nhưng vẫn áp dụng khái niệm segment, document, field, term nhưtrong chỉ mục nhiều tập tin Sự khác biệt đó là chỉ mục phức hợp chứa file đơn là.cfs cho mỗi segment, còn trong khi mỗi segment trong chỉ mục nhiều tập tin gồm 7file khác nhau
2.2.6.2. VN-KIM
Đây là đề tài về phát triển một hệ thống quản lý tri thức và thông tin cho các
thực thể có tên ở Việt Nam (dựa theo KIM - Knowledge & Information
Trang 36Managementcủa Ontotext Lab, Bulgaria) được đặt tên là VN-KIM [11] Miền dữ
liệu mà KIM nhắm vào là các thực thể được đề cập đến trong các tin tức quốc tếhàng ngày, Ontology của KIM hiện có khoảng 250 lớp và 100 thuộc tính Cơ sở trithức của KIM hiện có khoảng 80,000 thực thể về các nhân vật, thành phố, công ty,
và tổ chức quan trọng và phổ biến trên thế giới
Tương tự KIM thì chức năng chính của VN-KIM là rút trích và chú thích tựđộng lớp và danh hiệu của các thực thể có tên xuất hiện trong các trang báo điện tửtiếng Việt VN-KIM bao gồm cơ sở tri thức về các nhân vật, tổ chức, núi non, sôngngòi, và địa điểm phổ biến ở Việt Nam, khối rút trích thông tin tự động từ các trangbáo điện tử tiếng Việt, khối truy hồi thông tin là các trang Web về các thực thể cótên ở Việt Nam
VN-KIM có các chức năng tương tựnhư KIM, nó có những điểm mới sau:Ontology và cơ sở tri thức là về các thực thể có tên ở Việt Nam với những điểmriêng về kinh tế và xã hội; Ứng dụng rút trích và chú thích ngữ nghĩa cho các thựcthể có tên xử lý tiếng Việt với những đặc thù về ngôn ngữ; Ứng dụng truy hồi thôngtin cho phép trả lời gần đúng và truy vấn bằng đồ thị khái niệm Hiện nay, VN-KIMOntology bao gồm 347 lớp thực thể và 114 quan hệ và thuộc tính
2.2.7 Các hướng tiếp cận xây dựng ontology
Một trong những hướng tiếp cận đáng quan tâm là rút trích ontology từ dữ liệuweb Các nguồn dữ liệu được dùng trong việc rút trích ontology khá đa dạng, từ dữliệu dạng văn bản, dữ liệu quan hệ trong các cơ sở dữ liệu quan hệ, cho đến dữ liệu
từ web Trong đó nguồn dữ liệu từ web có lợi thế là nguồn thông tin phong phú, đadạng và có sẵn trên internet
Các hệ thống xây dựng ontology có thể sử dụng dữ liệu từ nhiều nguồn khácnhau để xây dựng nên ontology, có thể được phân chia thành các loại sau đây: dữliệu có cấu trúc, dữ liệu bán cấu trúc, dữ liệu không có cấu trúc
Quy trình phát triển Ontology là một quy trình gồm nhiều bước, tuy nhiên vẫnchưa có một phương pháp chuẩn hóa nào để phát triển các ontologies Phương phápphổ biến hiện nay là áp dụng quy trình phát triển gồm 7 bước do Stanford Centerfor Biomedical Informatics Research đưa ra (đây là nhóm phát triển phần mềmProtégé để trình diễn và xoạn thảo Ontology), gồm: xác định lĩnh vực và phạm vi
Trang 37của Ontology; xem xét việc sử dụng lại các ontology có sẵn; liệt kê các thuật ngữquan trọng;xác định các lớp và phân cấp của các lớp; xác định các thuộc tính; Xácđịnh giới hạn của các thuộc tính (lực lượng, kiểu giá trị); tạo các thể hiện/thực thể.
Để giảm bớt các khó khăn trong quá trình xây dựng và quản trị các ontology
có kích thước lớn và cấu trúc phức tạp, các công cụ hỗ trợ đã ra đời và trở thànhmột thành phần không thể thiếu, quyết định đến chất lượng của một hệ thốngontology Hiện nay, có rất nhiều công cụ hỗ trợ, ta có thể kể một số như: Protégé,Chimaera, Neon Toolkit…
2.3.1 Mô hình ontology cho ngữ nghĩa của các tài liệu
Ta gọi một mô hình “Ontology cho các keyphrases được phân lớp”, viết tắt là
mô hình CK_ONTO (Classed Keyphrase based Ontology) là một hệ thống gồm cósáu thành phần:
Keyphrase là thành phần cơ bản và nền tảng của ontology Về mặt cấu trúc thì
có hai loại keyphrase là keyphrase đơn và keyphrase tổ hợp Keyphrase đơn lànhững keyphrase chỉ biểu thị cho một khái niệm, được hiểu là những keyphrase cấutạo bằng một đơn vị từ vựng đơn là từ hay một đơn vị tương đương từ như cụm từ
cố định (đơn vị do một số từ hợp lại, tồn tại với tư cách một đơn vị có sẵn như từ, cóthành tố cấu tạo và ngữ nghĩa cũng ổn định như từ) Ví dụ: computer, network,
Trang 38database, data structure, wireless, communication, algorithm Keyphrase tổ hợp gồmnhiều đơn vị từ vựng đơn kết hợp thành, được xây dựng theo phương thức ghép cáckeyphrases đơn (hay keyphrase tổ hợp khác) lại, mà giữa các keyphrases (thành tốcấu tạo) đó có quan hệ về nghĩa với nhau Dựa vào tính chất của mối quan hệ vềnghĩa giữa các thành tố cấu tạo, có thể phân loại keyphrase tổ hợp như sau:
Như vậy, gọi K = {k| k là keyphrase thuộc về lĩnh vực đang xét}, K = K1 ∪ K2,trong đó K1 là tập các keyphrases đơn và K2 là tập các keyphrases tổ hợp
2) Một tập hợp C các lớp keyphrase
Mỗi lớp keyphrase c ∈ C là một tập hợp các keyphrases có liên quan với nhautheo một tính chất hay ngữ nghĩa nào đó Chúng có thể chứa các keyphrases, các lớpkhác, hay là sự phối hợp của cả hai Như vậy, một lớp có thể bao gồm nhiều lớphoặc được gộp vào lớp khác hình thành mối quan hệ phân cấp giữa lớp cha và lớpcon Theo đó các lớp được cho phép có một số lượng lớp cha bất kỳ
Một keyphrase có thể thuộc nhiều lớp khác nhau Sự phân lớp trong K đượcphân thành nhiều cấp theo mức độ cụ thể của khái niệm tăng dần Xây dựng đượcmột tập hợp lớp tốt sẽ tạo nên một hệ thống tốt, tuy nhiên việc phân lớp cáckeyphrases khi phân tích và mô tả một miền tri thức không phải là việc đơn giản,không có một phương pháp hoàn chỉnh để tìm lớp
Dựa trên ngữ nghĩa của keyphrase, của các lớp chủ đề, việc gán keyphrase vàomột (hay một số) lớp chủ đề thích hợp được thực hiện thủ công với các kỹ thuật điềukhiển bằng tay dưới sự giám sát và ý kiến của một số chuyên gia tri thức về lĩnh vựckhảo sát
Ta gọi C = {c ∈ P (K) | c là lớp keyphrase mô tả các lĩnh vực hay chủ đề conthuộc về lĩnh vực đang xét}
Phần lớn sức mạnh của ontology nằm ở khả năng diễn đạt quan hệ Tập hợpcác quan hệ cùng nhau mô tả ngữ nghĩa của một lĩnh vực Các quan hệ trongontology được phân làm ba nhóm: quan hệ giữa keyphrase và lớp, quan hệ giữa cáclớp, quan hệ trực tiếp giữa các keyprase
3) Một tập hợp R KC các quan hệ giữa keyphrase và lớp
Trang 39K C × và RKC = { | r r K C ⊆ × } Trong phạm vi đề tài, ta chỉ xét RKC gồm một quan hệ
“thuộc về” giữa keyphrase và lớp (ký hiệu rBL) Ta nói một keyphrase a “thuộc về”lớp A khi và chỉ khi (a, A) ∈ rBL
4) Một tập hợp R CC các quan hệ giữa các lớp
Ta có tập C≠∅ , một quan hệ hai ngôi trên tập các lớp keyphrase C là tập con
của C C × và RCC = { | r r C C ⊆ × } Ta chỉ xét hai loại quan hệ trên lớp như sau:
- Quan hệ phân cấp trên lớp r HYP:
Một lớp có thể bao gồm nhiều lớp hoặc được gộp vào lớp khác hình thành mốiquan hệ phân cấp giữa lớp cha và lớp con Lớp con là một lớp thông thường nhưng
có thêm tính chất kế thừa một phần hay toàn bộ các đặc tính của một lớp khác Lớp
chia sẻ sự kế thừa gọi là lớp cha Cho hai lớp keyphrase A và B thuộc C, ta nói A có
quan hệ phân cấp với B khi và chỉ khi ( , ) A B r ∈ HYP và viết là A rHYP B, khi đó A là
một đặc biệt hóa của B, phản ánh một chủ đề hay lĩnh vực con của B và tập A ⊂ B,ngược lại B có quan hệ rHYP-1 so với A
- Quan hệ có liên quan giữa các lớp r RE :
Theo cách thức xây dựng lớp thì một keyphrase có thể thuộc nhiều lớp khácnhau hay một lớp con được cho phép có một số lượng lớp cha bất kỳ dẫn đến việcxuất hiện một loại quan hệ trên lớp mà theo đó các lớp được gọi là “có liên quan vớinhau” nhưng không hình thành quan hệ phân cấp theo nghĩa bao hàm chứa trong.Các lớp này có một số đặc điểm chung, ít nhiều liên quan với nhau bởi vì chúng cónhững keyphrase hay lớp con tương tự, giao nhau tại một số keyphrase hay thậm chí
là những lớp con thuộc về lớp đó Như vậy, cho hai lớp keyphrase A và B thuộc C,
ta nói lớp A có liên quan với lớp B khi và chỉ khi ( , ) A B r ∈ RE và viết là A rRE B, khi
đó tồn tại một tập các keyphrases hay lớp con X sao cho X chứa trong A và X chứatrong B, đặc biệt A không chứa trong B hoặc ngược lại
5) Một tập hợp R KK các quan hệ giữa các keyphrases
Trang 40Các keyphrases trong tập K không tồn tại một cách cô lập, tách biệt, rời nhau
mà luôn có những mối quan hệ nhất định Phân loại quan hệ ngữ nghĩa giữa cáckeyphrases là rất đa dạng và phức tạp, phụ thuộc vào những đặc trưng ngữ nghĩacũng như mục đích, lĩnh vực hay miền tri thức tiếp cận
Ta có tập K≠∅ , một quan hệ hai ngôi trên K là một tập con của K K × , nghĩa
là một tập hợp các cặp keyphrase thuộc K và RKK = {r | r K K ⊆ × } Tùy thuộc vào
miền tri thức, ta có nhiều quan hệ về ngữ nghĩa khác nhau trên keyphrase Nhìnchung, các quan hệ này có thể được chia thành ba nhóm chính: nhóm quan hệ tươngđương, nhóm quan hệ phân cấp, nhóm quan hệ không phân cấp Cho hai phần tử x
và y thuộc K, ta nói x có quan hệ ri với y khi và chỉ khi (x,y) ∈ ri và viết là x ri y,ngược lại y có quan hệ ri-1 so với x
Việc xác định quan hệ giữa các keyphrases là một vấn đề quan trọng trong tìmkiếm thông tin Điều này sẽ làm tăng tính ngữ nghĩa cho câu hay tập tài liệu Đồngthời, khi tìm kiếm một thông tin nào đó, ta có thể nhận được những thông tin về cácvấn đề khác liên quan tới nó Vì vậy, để tìm kiếm được những thông tin chính xác,chúng ta cần biết các loại quan hệ và tìm hiểu các phương pháp để xác định đượccác quan hệ đó
6) Hàm gán nhãn phân loại keyphrase
Nền tảng của biểu diễn ngữ nghĩa là hệ thống các keyphrases Theo cách tiếpcận trong đề tài, một keyphrase có thể chỉ đến một thuật ngữ thông thường hay mộtlớp khi tên keyphrase trùng lớp tên lớp mà keyphrase thuộc về Như vậy, ngữ nghĩacủa keyphrase xét ở một gốc độ nào đó sẽ có liên quan đến cấp độ của nó về nộidung Sự phân cấp này dựa trên sự phân cấp đi từ các phạm vi rộng như ngành,chuyên ngành đến các phạm vị hẹp hơn như môn học, nhóm chuyên đề, chủ đề controng lĩnh vực hình thành các cấp độ của keyphrase như cấp ngành, cấp chuyênngành, cấp chuyên đề… Để mô tả thông tin về một keyphrase biểu thị cho một lớp
và cấp độ của nó về nội dung, ta sử dụng một hàm gán nhãn ngữ nghĩa chokeyphrase như sau:
Cho Labels là tập các nhãn phân loại