2. Nội dung chớnh của bỏo cỏo
2.2 Những nội dung đó thực hiện
2.2.3.2 Mụ hỡnh từ điển điện tử
Một trong cỏc mục tiờu quan trọng của ngành Cụng nghệ thụng tin là làm cho mỏy tớnh cú khả năng giao tiếp với con người bằng ngụn ngữ của con người (ngụn ngữ tự nhiờn). Tương tự việc con người cần đến từ điển khi học và sử dụng một ngụn ngữ, mỏy tớnh cần cú từ điển của riờng mỡnh để cú thể hiểu và sử dụng cỏc từ trong một ngụn ngữ tự nhiờn. Từ điển điện tử cung cấp nguồn tri thức giỳp mỏy tớnh cú thể hiểu được ngụn ngữ con người và đúng vai trũ nền tảng cho cỏc nghiờn cứu về ngụn ngữ tự nhiờn.
Khỏc với cỏc từ điển trờn mỏy tớnh dành cho con người như Lạc Việt Từ điển, Click and See hay Kim từ điển… từ điển điện tử được thiết kế riờng cho cỏc ứng dụng xử lý ngụn ngữ tự nhiờn như dịch mỏy, trả lời tự động… Vỡ vậy hệ thống ngữ nghĩa (cỏch biểu diễn nghĩa của từ) trong từ điển điện tử khụng được lưu trữ dưới dạng ngụn ngữ tự nhiờn như trong từ điển thụng thường mà phải ở một số dạng đặc biệt để mỏy tớnh cú thể xử lý được như mạng ngữ nghĩa, frame…
Để cú thể thấy rừ hơn vai trũ của từ điển điện tử ta hóy xột một số vớ dụ sau đõy: Xõy dựng engine tỡm kiếm dựa trờn ngữ nghĩa: với cỏc engine tỡm kiếm thụng dụng như Google hay Yahoo, ta cú thể tỡm được những văn bản cú chứa một từ khúa nào đú. Tuy nhiờn, với cỏc từ khúa đa nghĩa như table (là “bàn” hoặc “bảng biểu”) và nếu người dựng chỉ muốn tỡm cỏc văn bản cú chứa từ “table” với nghĩa “bảng biểu” thỡ cỏc engine tỡm kiếm hiện nay sẽ trả về rất nhiều tài liệu khụng liờn quan. Trong trường hợp này nếu ta thực hiện việc chỉ mục cỏc văn bản khụng phải theo sự xuất hiện của từ khúa mà theo nghĩa của từ thỡ ta cú thể dễ dàng giải quyết vấn đề nờu trờn.
Xõy dựng hệ quản trị cơ sở dữ liệu cho phộp truy vấn dựa trờn ngữ nghĩa: Giả sử ta cú cõu truy vấn sau: “Hóy tỡm tất cả những người trớ thức đang sống trong khu phố X”. Với một hệ quản trị cơ sở dữ liệu thụng thường trong điều kiện ta chỉ cú trường mụ tả nghề nghiệp, ta khụng thể thực hiện được cõu truy vấn này bởi trong cơ sở dữ liệu khụng lưu trữ bản ghi nào cú giỏ trị trường nghề nghiệp là “trớ thức” cả. Tuy nhiờn, với sự hỗ trợ của từ điển điện tử, ta cú thể biết rằng “bỏc sỹ”, “kỹ sư”, “nhà văn”, “nhà thơ”… là những nghề nghiệp của giới trớ thức. Vỡ vậy ta cú thể tỡm ra tất cả cỏc bản ghi cú chứa những từ này.
Trờn thế giới, đó cú rất nhiều dự ỏn lớn kộo dài nhiều năm nghiờn cứu về từ điển điện tử như dự ỏn WORDNET tại Đại học Princeton, dự ỏn Cyc phỏt triển bởi cụng ty CYCORP, dự ỏn EDR của Viện nghiờn cứu về từ điển điện tử của Nhật bản. Tại Việt Nam, từ điển điện tử cũng đó bắt đầu được sử dụng trong một số ứng dụng xử lý ngụn ngữ tự nhiờn tiếng Việt. Mặc dự vậy, cỏc từ điển này được thiết
kế chuyờn biệt cho từng ứng dụng cụ thể nờn chỳng khú cú thể được ỏp dụng một cỏch rộng rói. Hơn nữa, việc thiếu những nghiờn cứu chuyờn sõu về từ điển điện tử đó phần nào ảnh hưởng đến chất lượng của cỏc từ điển này.
Trong khuụn khổ đề tài KC01-03, chỳng tụi đó thực hiện được những cụng việc sau:
− Nghiờn cứu đỏnh giỏ cỏc từ điển điện tử nổi tiếng trờn thế giới như Cyc, WordNet, EDR.
− Dựa trờn cỏc nghiờn cứu đú, xõy dựng được một mụ hỡnh chi tiết cho từ điển điện tử tiếng Việt, phự hợp với cỏc yờu cầu đa dạng của cỏc ứng dụng xử lý ngụn ngữ tự nhiờn tiếng Việt nhưng vẫn đảm bảo tớnh khả thi.
− Xỏc định cỏc bước cần thực hiện cũng như cỏc vấn đề cần giải quyết để xõy dựng nờn từ điển hoàn chỉnh.
Trả lời ý kiến nhận xột
− Đõy là một nhỏnh nhỏ của đề tài nhằm nghiờn cứu mụ hỡnh lý thuyết và đưa ra mụ hỡnh của từ điển điện tử (TĐĐT) cho tiếng Việt.
− TĐĐT cho tiếng Việt là cụng cụ cơ bản để hiểu ngụn ngữ trờn mỏy tớnh, ý nghĩa tương tự như con người cầ cú từ điển liờn quan đến cỏc đề tài khỏc với dịch tự động, tuy nhiờn do mục tiờu chỉ làm mụ hỡnh nờn chưa thể kết nối ngay được. Đõy là một vấn đề phức tạp (Nhật bản cú cả một Viện chuyờn ngành làm chuyện này) nờn mục tiờu chỉ giới hạn như vậy, làm cơ sở cho cỏc nghiờn cứu tiếp theo.
Nhận xột về tờn "Mụ hỡnh từ điển" hay "Từ điển mụ hỡnh" là chưa chớnh xỏc. Đó viết rừ từ đầu đõy là "Mụ hỡnh của từ điển điện tử".
Trong thời gian tới, chỳng tụi sẽ tiến hành xõy dựng một số chương trỡnh thử nghiệm dựng cho việc xõy dựng từ điển, nhập dữ liệu mẫu với một số lượng nhỏ cỏc từ, kết nối dữ liệu của từ điển mẫu với cỏc chương trỡnh ứng dụng, sử dụng từ điển mẫu cố gắng giải quyết một số vấn đề của xử lý ngụn ngữ tự nhiờn cho tiếng Việt.
Mụ hỡnh VMTD mới chỉ là bước đầu trong quỏ trỡnh xõy dựng một từ điển điện tử thực sự. Quỏ trỡnh này đũi hỏi phải cú sự đầu tư nghiờn cứu lõu dài của nhiều chuyờn gia về ngụn ngữ học cũng như về tin học để cú thể xõy dựng được một từ điển điện tử chất lượng cao.