Hệ thống hỏi-đáp tiếng Việt

Một phần của tài liệu Nghiên cứu Web ngữ nghĩa và ứng dụng trong trợ giúp tìm kiếm văn bản nghiệp vụ hành chính (Trang 36)

Lĩnh vực hỏi-đáp tiếng Việt còn khá mới mẻ và mới được quan tâm trong một vài năm gần đây.

Nhóm nghiên cứu Phan Huỳnh Cẩm Tú, Nguyễn Đức Thái, Đặng Bác Văn, Hồ Bảo Quốc (2008) thuộc trường đại học Khoa học tự nhiên Tp HCM đã nghiên cứu xây dựng hệ thống hỏi-đáp tiếng Việt “Hỏi đáp tiếng Việt dựa vào kĩ thuật rút trích quan hệ không giám sát”. Ý tưởng chính của nghiên cứu này là sử dụng phương pháp học mẫu rút trích không giám sát Snowball vào hệ thống hỏi-đáp tiếng Việt trả lời cho các câu hỏi hỏi về thủ đô của một quốc gia.

Đại học Quốc gia Hà Nội với đề tài “Hệ thống hỏi đáp tự động sử dụng trích rút quan hệ ngữ nghĩa trong kho văn bản tiếng Việt” cũng nghiên cứu xây dựng hệ thống hỏi-đáp tiếng Việt sử dụng kỹ thuật rút trích quan hệ hai ngôi bằng cách kết hợp giữa hai phương pháp rút trích mẫu Snowball và phương pháp sử dụng máy tìm kiếm của Ravichandran, Hovy.

Hai nghiên cứu này đều tập trung vào việc ứng dụng kỹ thuật rút trích quan hệ nhằm xây dựng hệ thống hỏi-đáp có thể áp dụng cho tiếng Việt.

1.4 TÌM HIỂU VỀ CÁC LOẠI VĂN BẢN

1.4.1 Những yếu tố chính của một văn bản trong ngành giáo dục

Với mục đích xây dựng một hệ thống tìm kiếm văn bản theo ngữ nghĩa dành riêng cho ngành giáo dục trên cả nước, chúng tôi đã phân loại và chọn lọc ra những yếu tố cơ bản nhất có trong một văn bản quản lý hành chính. Việc phân loại ra những yếu tố cơ bản này có tác dụng rất lớn trong việc tổ chức cơ sở dữ liệu làm nền tảng cho việc phát triển hệ thống tìm kiếm theo ngữ nghĩa.

Theo tìm hiểu của chúng tôi, những yếu tố cơ bản nhất đối với một văn bản quản lý hành chính đó là :lĩnh vực, loại văn bản, cơ quan, đơn vị, thời gian, cá nhân liên quan và nội dung.

1.4.1.1. Các lĩnh vực của văn bản trong ngành giáo dục

Với mỗi văn bản được ban hành chỉ có thể thuộc một lĩnh vực nhất định (mối quan hệ 1-1) được đề cập sau đây : thi và tuyển sinh, mầm non, quản lý hành chính tiểu học, quản lý hành chính trung học cơ sở, quản lý hành chính trung học phổ thông, quản lý hành chính thường xuyên, quản lý hành chính trung cấp, quản lý hành chính cao đẳng, quản lý hành chính đại học, quản lý hành chính sau đại học, quản lý hành chính quốc phòng, quản lý hành chính thể chất, quản lý hành chính đặc biệt, chương trình khung, hướng dẫn thủ tục, hướng dẫn thực hiện, chính sách xã hội, chương trình, dự án, đề án, qui chế, qui định...

1.4.1.2. Các loại văn bản quản lý hành chính

Một văn bản quản lý hành chính được ban hành chỉ có thể thuộc một trong các loại ( mối quan hệ 1-1 ) được liệt kê sau : hiến pháp, sắc lệnh, luật, nghị định, quyết định, thông tư, chỉ thị, nghị quyết, thông báo, hướng dẫn, văn kiện của Đảng hoặc loại khác.

1.4.1.3. Cơ quan, đơn vị

Khi một văn bản được đưa ra, luôn luôn phải có các yếu tố sau : cơ quan hoặc đơn vị ban hành, cơ quan hoặc đơn vị tiếp nhận, cơ quan hoặc đơn vị thực hiện. Ở đây sẽ là mối quan hệ 1- nhiều, có nghĩa là chỉ có 1 cơ quan, đơn vị được ban hành 1 văn bản nào đó nhưng có thể có nhiều cơ quan, đơn vị tiếp nhận.

Theo tìm hiểu của chúng tôi, các cơ quan, đơn vị có thể ban hành và tiếp nhận văn bản quản lý hành chính là : quốc hội, chính phủ, các bộ và ngang bộ, UBND tỉnh thành phố, đơn vị trường học, cơ quan khác.

1.4.1.4. Thời gian

Yếu tố thời gian là yếu tố không thể thiếu trong bất kỳ một loại văn bản nào, trong đó bao gồm : ngày giờ soạn thảo văn bản, ngày giờ thông qua văn bản, thời gian bắt đầu hiệu lực, thời gian hết hiệu lực, thời gian khác.

1.4.1.5. Cá nhân liên quan

Trong văn bản luôn luôn phải có những cá nhân liên quan đến văn bản, ví dụ như người ký, trưởng đơn vị ban hành, trưởng đơn vị tiếp nhận, các cá nhân có nhiệm vụ thi hành v.v...

Chính vì vậy nên những thông tin liên quan đến cá nhân là yếu tố không thể thiếu trong việc xây dựng hệ thống tìm kiếm theo ngữ nghĩa.

Các thông tin liên quan đến cá nhân bao gồm : họ tên, ngày sinh, số CMND, nơi cấp CMND, ngày cấp CMND, địa chỉ, số điện thoại, email, thông tin liên hệ, trình độ học vấn, đơn vị công tác, chức vụ, thông tin khác.

1.4.1.6 Nội dung văn bản

Cuối cùng, yếu tố quan trong nhất của một văn bản đó chính là nội dung. Sau khi đã lọc ra được những thành phần cơ bản kể trên thì nội dung văn bản dễ dàng được tóm lược và lưu trữ để phục vụ cho mục đích tìm kiếm theo ngữ nghĩa.

1.4.2 Nhận xét

Việc chọn lọc ra những yếu tố cơ bản cấu thành nên một văn bản quản lý giáo dục có tác dụng rất lớn trong việc tổ chức cơ sở dữ liệu, xây dựng nền tảng để phát triển hệ thống tìm kiếm theo ngữ nghĩa. Với một văn bản được tiếp nhận,

chúng ta sẽ dễ dàng phân loại được văn bản đó liên quan đến vấn đề gì, liên quan đến ai... để từ đó việc tiềm kiếm đạt kết quả tối ưu nhất.

1.5 KẾT LUẬN CHƯƠNG 1

Sự phát triển của Internet dẫn đến nhu cầu cho sự ra đời của thế hệ tiếp sau của Web hiện tại: Semantic Web. Semantic Web ra đời gắn liền với công nghệ XML và Ontology. XML là cơ sở cú pháp và Ontology là cơ sở ngữ nghĩa của Semantic Web.

CHƯƠNG 2: GIẢI PHÁP XÂY DỰNG HỆ THỐNG TÌM KIẾM VĂN BẢN

2.1 CÁC HỆ THỐNG TÌM KIẾM VĂN BẢN TRONG NGÀNH GIÁO DỤC

2.1.1 Giới thiệu chung

Hiện nay, lĩnh vực xử lý ngôn ngữ tự nhiên đã đạt được nhiều tnhành tựu to lớn to lớn phục vụ cho cuộc sống con người. Đã có các website, công cụ, phần mềm có khả năng phân tích câu hỏi và đưa ra được những câu trả lời hợp lý như : website Wolframalpha.com, phần mềm Siri của Apple, phần mềm Google Now của Google, phần mềm S-Voice của Samsung … nhưng tất cả chỉ xử lý tiếng anh và một số ngôn ngữ khác chứ chưa hỗ trợ tiếng Việt.

Đặc biệt đối với vấn đề xử lý ngôn ngữ tự nhiên tiếng việt , chúng ta đang gặp rất nhiều khó khăn vì nhiều lý do khách quan như : ngữ pháp tiếng việt quá phức tạp, từ ngữ vô cùng phong phú và nhiều nghĩa v.v… Chính vì lẽ đó, mà các công trình nghiên cứu về xử lý ngôn ngữ tự nhiên của chúng ta vẫn còn khá ít và rời rạc.

2.1.2 Phân loại

Trong quá trình nghiên cứu luận văn “ Ứng dụng semantic web xây dựng hệ thống tìm kiếm văn bản hành chính cụ thể là trong lĩnh vực giáo dục ”. Chúng tôi đã tạm phân loại thành 4 phong cách thiết kế website tìm kiếm văn bản phổ biến hiện nay. Dựa trên 4 phong cách được phân loại này, chúng ta sẽ dễ dàng đánh giá được 1 website hoặc hệ thống tìm kiếm văn bản.

Phong cách cổ điển : Phong cách này chỉ đơn thuần tìm theo đoạn văn bản được nhập vào. Cơ chế làm việc sẽ là so sánh đoạn được nhập vào với cơ sở dữ liệu (CSDL) nếu khớp sẽ xuất ra toàn bộ văn bản chứa thông tin cần tìm.

Phong cách bán cổ điển : CSDL trong phong cách bán cổ điển được tổ chức một cách khoa học và rõ ràng theo từng chuyên đề, chuyên mục… Phần tìm kiếm ngoài đoạn văn bản được nhập vào còn cho phép người dùng chọn chuyên mục muốn tìm, tạo sự thuận tiện cho người dùng. Tuy nhiên, về cơ bản phong cách bán cổ điển vẫn sử dụng cơ chế tìm kiếm của phong cách cổ điển. Phong cách này hiện nay đang được sử dụng rất phổ biến tại các website trong nước và trên thế giới.

Phong cách hiện đại : Với phong cách thiết kế website này, khối lượng CSDL rất lớn, được tổ chức khoa học và rõ ràng. Tuy nhiên, chính vì khối lượng CSDL quá lớn nên cách quản lý và tổ chức gặp nhiều khó khăn. Vì vậy, những website này thường tổ chức theo dạng hệ thống lớn, với mỗi hệ thống sẽ có cách trình bày và quản lý thông tin khác nhau.

Phong cách semantic web : Các website theo phong cách này có chức năng tìm kiếm theo ngữ nghĩa của thông tin cần tìm, rất tiện lợi cho người sử dụng. Website semantic có khả năng tổng hợp nội dung, phân tích đánh giá để đưa ra kết quả chính xác nhất. Tuy nhiên, những website semantic rất hiếm và CSDL được tích hợp cũng chưa được nhiều. Vì vậy việc ứng dụng semantic web vẫn còn là vấn đề của tương lai.

2.1.3 Các hệ thống phục vụ cho ngành giáo dục trên thế giới2.1.3.1 Cổng thông tin Teachingwithdata.org 2.1.3.1 Cổng thông tin Teachingwithdata.org

Website Teachingwithdata.org là cổng thông tin trợ giúp cho giáo viên và học sinh có thể trao đổi, thảo luận mọi vấn đề liên quan đến học tập. Cổng thông tin này giúp giáo viên có thể giảng thêm những phần mở rộng không có trong giờ học, đồng thời giáo viên có thể tìm kiếm lực lượng sinh viên để hoàn thành ý tưởng hoặc một dự án nào đấy.

Teachingwithdata.org mang phong cách thiết kế cổ điển với ưu điểm là ý tưởng hình thành rất tốt, việc tìm kiếm nhanh và chính xác. Tuy nhiên, việc chỉ tìm kiếm theo đoạn text và trả về đoạn văn bản có chứa nội dung cần tìm đang gây khó khăn cho người dùng khi họ muốn tìm kiếm 1 vấn đề cụ thể đó. Thêm vào đó, CSDL của website đã được phân loại nhưng chỉ là tổng hợp, không hỗ trợ nhiều cho việc tìm kiếm, việc này sẽ là trở ngại lớn cho Teachingwithdata.org trong tương lai, khi mà lượng CSDL đang gia tăng mạnh mẽ theo từng ngày.

2.1.3.2. Thư viện online của trường đại học British Columbia

Địa chỉ website thư viện của trường đại học British Columbia : http://search.library.ubc.ca . Thư viện này đang trong quá trình xây dựng, dự kiến năm 2015 sẽ hoàn thành.

Thư viện online của trường đại học British Columbia mang phong cách thiết kế hiện đại, kèm theo đó là tính thẩm mỹ và tính tiện lợi rất cao. Đặc biệt, khối lượng đầu sách vô cùng nhiều được tổ chức tốt và phân loại rõ ràng giúp cho người dùng dễ dàng tìm thấy chủ đề mong muốn. Nhưng nếu bạn muốn tìm chủ đề liên quan đến nhiều lĩnh vực thì website không đáp ứng được, đây cũng là hạn chế lớn nhất của http://search.library.ubc.ca.

2.1.3.3. Website của chương trình đào tạo và tài trợ để thúc đấy sự pháttriển trong nông nghiệp SARE triển trong nông nghiệp SARE

Địa chỉ website của chương trình SARE: http://www.sare.org/ . SARE là chương trình thúc đẩy nông nghiệp của Mỹ, bao gồm các hoạt động đào tạo nâng cao nhận thức đối với nông nghiệp đồng thời tài trợ cho những dự án khả thi.

Website của chương trình cũng mang phong cách rất Mỹ, rất hiện đại với CSDL rất đa dạng được tổ chức tốt, điều này sẽ giúp cho việc tìm kiếm thuận lợi hơn. Người dùng có thể tìm kiếm thông tin về nông nghiệp theo chủ đề, theo từng bang hoặc từng vùng riêng biệt. Đặc biệt hơn nữa, website còn cho phép người dử dụng tìm theo các toán tử AND hoặc OR hoặc là tìm toàn bộ các văn bản chứa nội

dung cần tìm. Tuy nhiên, hạn chế lớn nhất là website này vẫn chưa thực sự tìm kiếm theo ngữ nghĩa.

2.1.3.4. Website tìm kiếm theo ngữ nghĩa nổi tiếng Wolframalpha

Có thể nói Wolframalpha.com là website tìm kiếm theo ngữ nghĩa tốt nhất hiện nay, những tính năng của nó ngày càng được hoàn thiện, đồng thời CSDL được cập nhật không ngừng. Hạn chế của Wolframalpha đó chính là CSDL về lĩnh vực giáo dục còn quá ít và hơn nữa là không hỗ trợ tiếng Việt. Hy vọng trong tương lai không xa Wolframalpha.com sẽ ngày càng hoàn thiện hơn đáp ứng được tất cả các nhu cầu của người dùng.

2.1.4 Nhận xét chung về các hệ thống phục vụ cho ngành giáo dục trên thế giới trên thế giới

Qua những ví dụ trên, chúng tôi nhận thấy rằng đa phần các website nước ngoài đều được thiết kế theo phong cách bán cổ điển và hiện đại. Về mặt thiết kế, các website nước ngoài sở hữu những thiết đơn giản, đẹp và hiệu quả. Về mặt tìm kiếm, CSDL được tổ chức tốt nên việc tìm kiếm nhanh chóng và dễ dàng hơn so với các website trong nước. Tuy nhiên, ngoài các hệ thống tiên tiến thì phần lớn vẫn chỉ tìm kiếm theo đoạn văn bản được nhập vào chứ chưa phân tích và tìm kiếm theo ngữ nghĩa. Người dùng cần phải tự mình chắt lọc các thông tin cần thiết từ rất nhiều các kết quả trả về.

2.1.5 Các website và hệ thống phục vụ cho ngành giáo dục trong nước2.1.5.1. Hệ thống tìm kiếm Wada.vn 2.1.5.1. Hệ thống tìm kiếm Wada.vn

Wada.vn là hệ thống tìm kiếm phục vụ cho người Việt được thiết kế theo phong cách hiện đại. Hệ thống tập hợp danh bạ rất nhiều website được phân loại theo từng chuyên mục rõ ràng. Đặc biệt hệ thống có chức năng tổng hợp thông tin nổi bật giúp người dùng dễ theo dõi.

Ưu điểm của Wada.vn đó chính là CSDL vô cùng lớn, được tổ chức tốt, tập hợp rất nhiều các website khác nhau. Vì mỗi website đại diện cho 1 tổ chức, vì vậy việc tập hợp các website sẽ giải quyết được vấn đề không quá ôm đồm CSDL. Phân loại theo chuyên mục rõ ràng tạo sự thuận tiện tối đa cho người sử dụng. Cũng chính vì tập hợp các website nên Wada không thể can thiệp sâu vào CSDL, ví dụ như không thể rút trích và thu thập thông tin tự động. Phương thức tìm kiếm chủ yếu dựa vào text và đưa ra lĩnh vực phù hợp, còn lại người dùng vẫn phải tự tìm

kiếm. Các nhược điểm sẽ trở thành khó khăn đáng kể cho Wada.vn về vấn đề hát triển lâu dài sau này.

2.1.5.2. Cổng thông tin tuyển sinh thidaihoc.org

Website Thidaihoc.org có chức năng chính là chuyên cung cấp thông tin về tuyển sinh ĐH-CĐ. Thiết kế kiểu cổ điển có vẻ như không gây được ấn tượng đối với người dùng. Việc tìm kiếm cũng còn khá sơ sài, chỉ là tìm kiếm tổng quan, dựa trên thông tin nhập vào, website sẽ cho ra cả đoạn dài văn bản và người dùng tự chắt lọc thông tin.Tuy nhiên, người dùng thật sự ấn tượng với kho dữ liệu về mảng tuyển sinh ĐH CĐ rất đầy đủ và phong phú, được tổ chức tốt. Nếu như được đầu tư về giao diện và phương thức tìm kiếm, chắc chắn Thidaihoc.org sẽ đạt được thành công cao hơn nữa.

2.1.5.3. Website của bộ giáo dục đào tạo Việt Nam

Địa chỉ website của bộ giáo dục đào tạo Việt Nam http:www.moet.gov.vn . Phong cách thiết kế hiện đại, CSDL lớn và tính bảo mật cao là những thế mạnh không thể chối cãi của website Moet.gov.vn. Tuy nhiên, vấn đề chỉ chứa văn bản cấp nhà nước và mỗi khi tìm kiếm website sẽ cho ra cả đoạn dài văn bản và người dùng phải tự chắt lọc thông tin gây nên khó khăn cho người sử dụng khi họ muốn tìm kiếm trường hợp cụ thể đối với từng địa phương.

2.1.5.4. Các trường đại học lớn trên cả nước

Nước ta có nhiều trường đại học lớn và danh tiếng như đại học quốc gia Hà Nội, Đại Học Đà Nẵng, đại học Huế, Đại Học Quốc Gia Thành Phố Hồ Chí Minh, Đại học Duy Tân v.v... Mỗi trường đều xây dựng riêng cho mình hệ thống website với những đặc điểm riêng. Ưu điểm chung của website các trường đó là thông tin được cập nhật thường xuyên, bám sát yêu cầu của sinh viên và phụ huynh, thiết kế đơn giản và hiệu quả. Mặc dù đã phân mục CSDL cụ thể nhưng website các trường này vẫn tồn tại nhược điểm lớn là việc tìm kiếm vẫn chỉ là tìm kiếm tổng quan, chưa có sự trợ giúp tối đa cho người sử dụng.

2.1.6 Nhận xét về các website, hệ thống phục vụ cho ngành giáo dục trongnước

Một phần của tài liệu Nghiên cứu Web ngữ nghĩa và ứng dụng trong trợ giúp tìm kiếm văn bản nghiệp vụ hành chính (Trang 36)

Tải bản đầy đủ (DOC)

(92 trang)
w