THỐNG TÌM KIẾM VĂN BẢN
2.1 CÁC HỆ THỐNG TÌM KIẾM VĂN BẢN TRONG NGÀNH GIÁO DỤC
2.1.1 Giới thiệu chung
Hiện nay, lĩnh vực xử lý ngôn ngữ tự nhiên đã đạt được nhiều tnhành tựu to lớn to lớn phục vụ cho cuộc sống con người. Đã có các website, cơng cụ, phần mềm có khả năng phân tích câu hỏi và đưa ra được những câu trả lời hợp lý như : website Wolframalpha.com, phần mềm Siri của Apple, phần mềm Google Now của Google, phần mềm S-Voice của Samsung … nhưng tất cả chỉ xử lý tiếng anh và một số ngôn ngữ khác chứ chưa hỗ trợ tiếng Việt.
Đặc biệt đối với vấn đề xử lý ngôn ngữ tự nhiên tiếng việt , chúng ta đang gặp rất nhiều khó khăn vì nhiều lý do khách quan như : ngữ pháp tiếng việt quá phức tạp, từ ngữ vơ cùng phong phú và nhiều nghĩa v.v… Chính vì lẽ đó, mà các cơng trình nghiên cứu về xử lý ngơn ngữ tự nhiên của chúng ta vẫn cịn khá ít và rời rạc.
2.1.2 Phân loại
Trong quá trình nghiên cứu luận văn “ Ứng dụng semantic web xây dựng hệ
thống tìm kiếm văn bản hành chính cụ thể là trong lĩnh vực giáo dục ”. Chúng tôi đã
tạm phân loại thành 4 phong cách thiết kế website tìm kiếm văn bản phổ biến hiện nay. Dựa trên 4 phong cách được phân loại này, chúng ta sẽ dễ dàng đánh giá được 1 website hoặc hệ thống tìm kiếm văn bản.
Phong cách cổ điển : Phong cách này chỉ đơn thuần tìm theo đoạn văn bản
được nhập vào. Cơ chế làm việc sẽ là so sánh đoạn được nhập vào với cơ sở dữ liệu (CSDL) nếu khớp sẽ xuất ra toàn bộ văn bản chứa thơng tin cần tìm.
Phong cách bán cổ điển : CSDL trong phong cách bán cổ điển được tổ chức
một cách khoa học và rõ ràng theo từng chuyên đề, chun mục… Phần tìm kiếm ngồi đoạn văn bản được nhập vào còn cho phép người dùng chọn chuyên mục muốn tìm, tạo sự thuận tiện cho người dùng. Tuy nhiên, về cơ bản phong cách bán cổ điển vẫn sử dụng cơ chế tìm kiếm của phong cách cổ điển. Phong cách này hiện nay đang được sử dụng rất phổ biến tại các website trong nước và trên thế giới.
Phong cách hiện đại : Với phong cách thiết kế website này, khối lượng CSDL
rất lớn, được tổ chức khoa học và rõ ràng. Tuy nhiên, chính vì khối lượng CSDL q lớn nên cách quản lý và tổ chức gặp nhiều khó khăn. Vì vậy, những website này thường tổ chức theo dạng hệ thống lớn, với mỗi hệ thống sẽ có cách trình bày và quản lý thơng tin khác nhau.
Phong cách semantic web : Các website theo phong cách này có chức năng
tìm kiếm theo ngữ nghĩa của thơng tin cần tìm, rất tiện lợi cho người sử dụng. Website semantic có khả năng tổng hợp nội dung, phân tích đánh giá để đưa ra kết quả chính xác nhất. Tuy nhiên, những website semantic rất hiếm và CSDL được tích hợp cũng chưa được nhiều. Vì vậy việc ứng dụng semantic web vẫn còn là vấn đề của tương lai.
2.1.3 Các hệ thống phục vụ cho ngành giáo dục trên thế giới2.1.3.1 Cổng thông tin Teachingwithdata.org 2.1.3.1 Cổng thông tin Teachingwithdata.org
Website Teachingwithdata.org là cổng thông tin trợ giúp cho giáo viên và học sinh có thể trao đổi, thảo luận mọi vấn đề liên quan đến học tập. Cổng thông tin này giúp giáo viên có thể giảng thêm những phần mở rộng khơng có trong giờ học, đồng thời giáo viên có thể tìm kiếm lực lượng sinh viên để hoàn thành ý tưởng hoặc một dự án nào đấy.
Teachingwithdata.org mang phong cách thiết kế cổ điển với ưu điểm là ý tưởng hình thành rất tốt, việc tìm kiếm nhanh và chính xác. Tuy nhiên, việc chỉ tìm kiếm theo đoạn text và trả về đoạn văn bản có chứa nội dung cần tìm đang gây khó khăn cho người dùng khi họ muốn tìm kiếm 1 vấn đề cụ thể đó. Thêm vào đó, CSDL của website đã được phân loại nhưng chỉ là tổng hợp, không hỗ trợ nhiều cho việc tìm kiếm, việc này sẽ là trở ngại lớn cho Teachingwithdata.org trong tương lai, khi mà lượng CSDL đang gia tăng mạnh mẽ theo từng ngày.
2.1.3.2. Thư viện online của trường đại học British Columbia
Địa chỉ website thư viện của trường đại học British Columbia : http://search.library.ubc.ca . Thư viện này đang trong quá trình xây dựng, dự kiến năm 2015 sẽ hoàn thành.
Thư viện online của trường đại học British Columbia mang phong cách thiết kế hiện đại, kèm theo đó là tính thẩm mỹ và tính tiện lợi rất cao. Đặc biệt, khối lượng đầu sách vô cùng nhiều được tổ chức tốt và phân loại rõ ràng giúp cho người dùng dễ dàng tìm thấy chủ đề mong muốn. Nhưng nếu bạn muốn tìm chủ đề liên quan đến nhiều lĩnh vực thì website khơng đáp ứng được, đây cũng là hạn chế lớn nhất của http://search.library.ubc.ca.
2.1.3.3. Website của chương trình đào tạo và tài trợ để thúc đấy sự pháttriển trong nông nghiệp SARE triển trong nông nghiệp SARE
Địa chỉ website của chương trình SARE: http://www.sare.org/ . SARE là chương trình thúc đẩy nơng nghiệp của Mỹ, bao gồm các hoạt động đào tạo nâng cao nhận thức đối với nông nghiệp đồng thời tài trợ cho những dự án khả thi.
Website của chương trình cũng mang phong cách rất Mỹ, rất hiện đại với CSDL rất đa dạng được tổ chức tốt, điều này sẽ giúp cho việc tìm kiếm thuận lợi hơn. Người dùng có thể tìm kiếm thơng tin về nơng nghiệp theo chủ đề, theo từng bang hoặc từng vùng riêng biệt. Đặc biệt hơn nữa, website còn cho phép người dử dụng tìm theo các tốn tử AND hoặc OR hoặc là tìm tồn bộ các văn bản chứa nội
dung cần tìm. Tuy nhiên, hạn chế lớn nhất là website này vẫn chưa thực sự tìm kiếm theo ngữ nghĩa.
2.1.3.4. Website tìm kiếm theo ngữ nghĩa nổi tiếng Wolframalpha
Có thể nói Wolframalpha.com là website tìm kiếm theo ngữ nghĩa tốt nhất hiện nay, những tính năng của nó ngày càng được hồn thiện, đồng thời CSDL được cập nhật không ngừng. Hạn chế của Wolframalpha đó chính là CSDL về lĩnh vực giáo dục cịn q ít và hơn nữa là khơng hỗ trợ tiếng Việt. Hy vọng trong tương lai không xa Wolframalpha.com sẽ ngày càng hoàn thiện hơn đáp ứng được tất cả các nhu cầu của người dùng.
2.1.4 Nhận xét chung về các hệ thống phục vụ cho ngành giáo dục trên thế giới trên thế giới
Qua những ví dụ trên, chúng tơi nhận thấy rằng đa phần các website nước ngoài đều được thiết kế theo phong cách bán cổ điển và hiện đại. Về mặt thiết kế, các website nước ngoài sở hữu những thiết đơn giản, đẹp và hiệu quả. Về mặt tìm kiếm, CSDL được tổ chức tốt nên việc tìm kiếm nhanh chóng và dễ dàng hơn so với các website trong nước. Tuy nhiên, ngồi các hệ thống tiên tiến thì phần lớn vẫn chỉ tìm kiếm theo đoạn văn bản được nhập vào chứ chưa phân tích và tìm kiếm theo ngữ nghĩa. Người dùng cần phải tự mình chắt lọc các thơng tin cần thiết từ rất nhiều các kết quả trả về.
2.1.5 Các website và hệ thống phục vụ cho ngành giáo dục trong nước2.1.5.1. Hệ thống tìm kiếm Wada.vn 2.1.5.1. Hệ thống tìm kiếm Wada.vn
Wada.vn là hệ thống tìm kiếm phục vụ cho người Việt được thiết kế theo phong cách hiện đại. Hệ thống tập hợp danh bạ rất nhiều website được phân loại theo từng chuyên mục rõ ràng. Đặc biệt hệ thống có chức năng tổng hợp thơng tin nổi bật giúp người dùng dễ theo dõi.
Ưu điểm của Wada.vn đó chính là CSDL vơ cùng lớn, được tổ chức tốt, tập hợp rất nhiều các website khác nhau. Vì mỗi website đại diện cho 1 tổ chức, vì vậy việc tập hợp các website sẽ giải quyết được vấn đề không quá ôm đồm CSDL. Phân loại theo chuyên mục rõ ràng tạo sự thuận tiện tối đa cho người sử dụng. Cũng chính vì tập hợp các website nên Wada khơng thể can thiệp sâu vào CSDL, ví dụ như khơng thể rút trích và thu thập thơng tin tự động. Phương thức tìm kiếm chủ yếu dựa vào text và đưa ra lĩnh vực phù hợp, còn lại người dùng vẫn phải tự tìm
kiếm. Các nhược điểm sẽ trở thành khó khăn đáng kể cho Wada.vn về vấn đề hát triển lâu dài sau này.
2.1.5.2. Cổng thông tin tuyển sinh thidaihoc.org
Website Thidaihoc.org có chức năng chính là chun cung cấp thơng tin về tuyển sinh ĐH-CĐ. Thiết kế kiểu cổ điển có vẻ như khơng gây được ấn tượng đối với người dùng. Việc tìm kiếm cũng cịn khá sơ sài, chỉ là tìm kiếm tổng quan, dựa trên thông tin nhập vào, website sẽ cho ra cả đoạn dài văn bản và người dùng tự chắt lọc thông tin.Tuy nhiên, người dùng thật sự ấn tượng với kho dữ liệu về mảng tuyển sinh ĐH CĐ rất đầy đủ và phong phú, được tổ chức tốt. Nếu như được đầu tư về giao diện và phương thức tìm kiếm, chắc chắn Thidaihoc.org sẽ đạt được thành cơng cao hơn nữa.
2.1.5.3. Website của bộ giáo dục đào tạo Việt Nam
Địa chỉ website của bộ giáo dục đào tạo Việt Nam http:www.moet.gov.vn . Phong cách thiết kế hiện đại, CSDL lớn và tính bảo mật cao là những thế mạnh không thể chối cãi của website Moet.gov.vn. Tuy nhiên, vấn đề chỉ chứa văn bản cấp nhà nước và mỗi khi tìm kiếm website sẽ cho ra cả đoạn dài văn bản và người dùng phải tự chắt lọc thơng tin gây nên khó khăn cho người sử dụng khi họ muốn tìm kiếm trường hợp cụ thể đối với từng địa phương.
2.1.5.4. Các trường đại học lớn trên cả nước
Nước ta có nhiều trường đại học lớn và danh tiếng như đại học quốc gia Hà Nội, Đại Học Đà Nẵng, đại học Huế, Đại Học Quốc Gia Thành Phố Hồ Chí Minh, Đại học Duy Tân v.v... Mỗi trường đều xây dựng riêng cho mình hệ thống website với những đặc điểm riêng. Ưu điểm chung của website các trường đó là thơng tin được cập nhật thường xuyên, bám sát yêu cầu của sinh viên và phụ huynh, thiết kế đơn giản và hiệu quả. Mặc dù đã phân mục CSDL cụ thể nhưng website các trường này vẫn tồn tại nhược điểm lớn là việc tìm kiếm vẫn chỉ là tìm kiếm tổng quan, chưa có sự trợ giúp tối đa cho người sử dụng.
2.1.6 Nhận xét về các website, hệ thống phục vụ cho ngành giáo dục trongnước nước
Nhìn chung, các website trong nước có kho dữ liệu dồi dào và được tổ chức rất tốt. Tuy nhiên, giao diện còn rườm rà rắc rối, chứa q nhiều thơng tin. Các
website chưa có tính liên kết và chưa thống nhất với nhau, vì vậy làm cho việc tìm kiếm 1 thơng tin cụ thể nào đó rất khó khăn và mất thời gian.
2.1.7 Giới thiệu các cơng trình nghiên cứu semantic web trong nước2.1.7.1. Ontology xử lý ngôn ngữ tiếng Việt 2.1.7.1. Ontology xử lý ngôn ngữ tiếng Việt
Là một ontology tổng quát (universal ontology) được thực hiện bởi Nguyễn Tuấn Đăng, Võ Hồi An, Nguyễn Trí Phúc trường Đại học Cơng nghệ Thơng tin. Xây dựng trên phiên bản Protégé 3.4.3. Mục tiêu tác giả xây dựng ontology này là để đóng góp cho những nghiên cứu về xử lý ngôn ngữ tiếng Việt, xây dựng tri thức mở rộng trong nhiều lĩnh vực bằng tiếng Việt.
Dữ liệu của ontology là dữ liệu tổng quát về các lĩnh vực gồm 10 lĩnh vực chính theo các mục được lấy theo VNExpress như: Khoa học, Pháp luật, Chính trị, Kinh doanh, Thể thao, Văn hóa du lịch, Xã hội, Vi tính, Viễn thơng, Ơ tơ xe máy. Ngồi ra cịn lấy dữ liệu từ các nguồn như Wikipedia tiếng Việt, Yellow Page và nhiều website khác nhau liên quan đến các lĩnh vực trên.
Kết quả đã tạo ra được ontology gồm số lượng lớp là 2.543, số lượng cá thể là 10.024, với 312 ràng buộc và 87 thuộc tính thuộc nhiều lĩnh vực. Tuy nhiên, dữ liệu của ontology mang tính tổng qt, khơng tập trung vào một lĩnh vực (domain) cụ thể.
2.1.7.2. Ontology khoa học công nghệ
Được thực hiện bởi bộ môn hệ thống thông tin của trường đại học bách khoa Hà Nội. Hệ thống hỗ trợ tìm kiếm dựa trên từ khóa, cấu trúc dữ liệu lưu trữ, tìm kiếm mở rộng dựa trên ngữ nghĩa và tri thức phục vụ cho việc quản lý tài liệu và thông tin trong lĩnh vực khoa học công nghệ (KHCN). Nhằm giải quyết cho những yêu cầu đó tác giả đã đề xuất phương pháp xây dựng một ontology chuyên ngành khoa học công nghệ để khai thác các suy diễn ngữ nghĩa.
Những khái niệm được xây dựng dựa trên việc khảo sát nhu cầu quản lý thơng tin tại phịng KHCN thuộc Đại học Bách Khoa Hà Nội, phịng KHCN thuộc sở Khoa học Cơng nghệ Thành Phố Hà Nội, sở Bưu chính Viễn thơng. Người quản lý có thể là tác giả hoặc những người có quan tâm và có kiến thức về ontology sẽ nâng cấp cập nhật thơng tin khi có thay đổi.
Với việc sử dụng ontology này hệ thống ngoài việc dùng để tra cứu các đề tài, sản phẩm công nghệ, chuyên gia, tài liệu, giải pháp, cơng nghệ… thì cịn có thể trả lời được những câu hỏi tổng hơp phân tích như: Những đề tài nào thuộc lĩnh vực mà người dùng quan tâm?; Đề tài nào dành được sự quan tâm nhiều nhất cũng như nhận định về giá trị, khả năng ứng dụng vào thực tiễn?
Ontology này được xây dựng dùng phần mềm soạn thảo cơ sở tri thức được viết dựa trên các API của Protégé. Cơ sở dữ liệu này chứa dữ liệu về khoảng 3000 chuyên gia, 1500 đề tài cùng với hơn 150 lĩnh vực KHCN.
Tuy nhiên ontology này khơng rút trích được khái niệm hay cá thể từ nội dung tài liệu hay bài báo khoa học. Dữ liệu của ontology KHCN không đi sâu vào chuyên ngành công nghệ thông tin.
2.1.7.3. Ứng dụng web ngữ nghĩa xây dựng hệ thống trợ giúp học tập cho
học sinh bậc học phổ thông
Tác giả Nguyễn Trần Trọng đã bước đầu xây dựng được website hỗ trợ học tập. Tuy nhiên, việc ứng dụng và tính hiệu quả của cơng trình vẫn chưa được ghi nhận. Đây là cơng trình nghiên cứu giúp đỡ cho học sinh trong học tập. Tham khảo từ đề tài này cũng giúp ích nhiều trong việc nghiên cứu xây dựng ứng dụng tìm kiếm văn bản hành chính của chúng tơi.
2.1.8 Nhận xét chung về các công trình nghiên cứu semantic web trong nước
Nhìn chung, các cơng trình nghiên cứu về web ngữ nghĩa đã đạt được những thành công bước đầu như : xây dựng ontology, xây dựng ứng dụng... Tuy nhiên, những cơng trình này vẫn chưa được ứng dụng rộng rãi. Có rất ít các cơng trình web ngữ nghĩa được ứng dụng trong thực tiễn. Đa phần các lĩnh vực áp dụng web ngữ nghĩa đều là những lĩnh vực đang thu hút rất nhiều sự quan tâm và mang lại nhiều lợi nhuận. Vì vậy, hướng phát triển của web ngữ nghĩa trong tương lai chắc chắn sẽ hướng đến phục vụ cho đời sống chứ không mang nặng tính hàn lâm. Chúng tơi hy vọng trong tương lai sẽ có nhiều thêm các cơng trình hữu ích phục vụ cho xã hội.
2.2. Ý TƯỞNG VỀ HỆ THỐNG TÌM KIẾM VĂN BẢN
Qua những kết quả đã tìm hiểu được, chúng tơi nhận thấy các hệ thống vă bản phục vụ cho ngành giáo dục hiện nay hiện nay cịn rất nhiều hạn chế, có thể đơn cử như sau :
- Chưa hỗ trợ tìm kiếm theo ngữ nghĩa (đặc biệt là tiếng Việt) để phục vụ cho việc tìm kiếm chính xác nội dung.
- Các văn bản của từng cấp, từng trường vẫn còn rải rác, chưa được tổng hợp thống nhất nhằm tạo nên kho dữ liệu cho.
- Chưa cho phép người dùng tham gia đóng góp ý kiến và thảo luận về các vấn đề liên quan.
2.3. CÁC NGÔN NGỮ XÂY DỰNG CÁC ONTOLOGY HỖ TRỢ TÌM KIẾM VĂN BẢN
2.3.1 RDF (Resource Description Framework) 2.3.1.1 Tổng quan RDF
RDF là nền tảng cho việc biểu diễn dữ liệu trong lĩnh vực Web ngữ nghĩa. Thơng tin biểu diễn theo mơ hình RDF là một phát biểu (statement)ở dạng cấu trúc bộ ba gồm ba thành phần cơ bản là: subject, predicate, object. Trong đó:
• Subject chỉ đối tượng đang được mơ tả đóng vai trị là chủ thể.