KIẾN TRÚC VÀ GIẢI THUẬT Mễ TƠ TèM KIẾM BÁN NGỮ NGHĨA

Một phần của tài liệu Nghiên cứu xây dựng bản đồ số hóa công nghiệp Việt Nam (Trang 75 - 77)

4.1 K THUT TèM KIM THEO NG NGHĨA

Tỡm kiếm chớnh xỏc mặc dự rất hiệu quả nhưng khụng phải là một cụng cụ vạn năng, trong một số trường hợp tỡm kiếm chớnh xỏc khụng thực sự là nhu cầu của người sử dụng. Đơn cử khi người sử dụng biết khụng đầy đủ hoặc những gỡ cũn nhớ về tài liệu là khụng chớnh xỏc. Mục

đớch của tỡm kiếm ngữ nghĩa là hiểu được yờu cầu tỡm kiếm của người sử dụng khụng phải bằng cỏc con chữ mà là ý nghĩa bao hàm mà người sử dụng muốn truyền tải thụng qua cỏc từ

ngữ, để sau đú lọc ra những văn bản cú nội dung phự hợp với ý nghĩa đú. Như vậy, nếu tỡm kiếm toàn văn (cũn gọi là tỡm kiếm chớnh xỏc) độc lập với ngụn ngữ của tài liệu mà nú thực hiện tỡm kiếm thỡ tỡm kiếm ngữ nghĩa lại rất phụ thuộc vào ngụn ngữ của tài liệụ Chỳng tụi đó thành cụng trong việc xõy dựng kỹ thuật lượng hoỏ nội dung tài liệu bằng tiếng Anh và tiếng Việt. Nhờđú, khỏi niệm cỏc tài liệu cú nội dung giống nhau cú thể hoàn toàn thủ

tục hoỏ trờn mỏy tớnh mà ứng dụng của nú là:

ã Tỡm kiếm trở nờn mềm dẻo và linh hoạt: nhờ khả năng tỡm kiếm theo ngữ nghĩa của hệ

thống người sử dụng khụng phải bận tõm vào việc tài liệu cần tỡm chứa chớnh xỏc những từ gỡ mà chỉ cần mụ tả nội dung của tài liệụ Nhờ vậy, người sử dụng khụng chỉ cảm thấy dễ dàng hơn trong khai thỏc mà chất lượng tỡm kiếm cũng cao hơn do kết quảđầy

đủ hơn.

ã Cú thể sắp xếp được mức độ phự hợp của tài liệu với nhu cầu tỡm kiếm nờn người sử

dụng tập trung được ngay vào những văn bản quan trọng nhất.

ã Trớch ra nội dung cụ đọng hay cỏc vấn đềđược đề cập của tài liệụ Điều này rất cú ớch trờn thực tế, bởi nú cho phộp ta tựđộng hoỏ được quy trỡnh phõn loại thụng tin. Khi nhận

được những tài liệu mới, hệ thống sẽ tiến hành đối chiếu nội dung của nú với những mục phõn loại định nghĩa trước để chọn ra nơi đến thớch hợp.

ã Tỡm kiếm tương tự: hệ thống tựđộng nhận biết trọng tõm tỡm kiếm của bạn thụng qua việc bạn chỉđịnh một văn bản là phự hợp với nhu cầu, trờn cơ sởđú đưa ra cỏc văn bản cú nội dung tương tự với văn bản chỉđịnh.

4.2 K THUT PHÂN CM VĂN BN

Đi sõu vào bản chất khai thỏc thụng tin, người sử dụng khụng dừng lại ở nhu cầu tỡm kiếm mà quan trọng hơn là phõn tớch. Phõn tớch trong khai thỏc thụng tin được hỡnh dung như là quỏ trỡnh chiết tỏch, tạo ra thụng tin khụng được biết trước và cú thể hiểu được. Điều này cho thấy sự

khỏc biệt rất lớn giữa việc khai thỏc thụng tin hiện đại và cỏc cỏch tiếp cận truyền thống: phõn tớch phải lột tảđược bản chất bờn trong, tạo ra được những hiểu biết mới mà cỏc kỹ thuật bỏo cỏo xưa nay khụng thể cú được.

Theo quan điểm này, chỳng tụi đó xõy dựng kỹ thuật phõn cụm văn bản cho phộp liờn kết cỏc văn bản theo những chủđề mà chỳng cựng đề cập. Một ứng dụng của kỹ thuật này là khi kết quả tỡm kiếm bao gồm hàng ngàn tài liệu, rừ ràng người sử dụng khụng đủ thời gian và kiờn nhẫn đọc toàn bộ lượng tài liệu này để xỏc định cỏc văn bản cần thiết, phõn cụm văn bản sẽ

phõn nhúm cỏc tài liệu này và tạo ra mụ tả nội dung của mỗi nhúm. Như vậy, người sử dụng chỉ

cần quan sỏt túm tắt nội dung cỏc nhúm và dễ dàng định vịđược vựng văn bản mà mỡnh quan tõm.

5 KT LUN VÀ KIN NGH

5.1 KT LUN

5.1.1 Mc tiờu nghiờn cu

Đõy là một đề tài nghiờn cứu trong hai năm, và mục tiờu năm thứnhất, xin được nhắc lại như

sau:

- Nghiờn cứu, thiết kế khung cơ sở dữ liệu cho việc lưu cỏc tham số của cỏc ngành cụng nghiệp Việt Nam. Thiết kế này sẽ cú tớnh mởđể cú thể xõy dựng cơ sở dữ liệu theo lớp. Như vậy khi cỏc ngành, vựng, đặc điểm cụng nghiệp tăng lờn thỡ khung sẽ tự thay đổi một cỏch mềm dẻo đểđỏp ứng với dữ liệu thu thập được.

- Xõy dựng cỏc tớnh năng cơ bản của kỹ thuật bản đồ như pan, zoom, tỡm kiếm, hiển thị

kết quả bằng đồ họạ Đặc biệt trong tỡm kiếm thụng tin, đề tài sẽ tỡm kiếm theo tiếng Việt với nhiều tựy chọn và tiờu chớ khỏc nhau tựy theo nhu cầu của người dựng.

- Xõy dựng bộ cụng cụ cho phộp nhập dữ liệu từ cỏc nguồn đó cú theo cỏc chuẩn đó

được thừa nhận hiện nay trờn thế giới hoặc nhập dữ liệu trực tiếp.

- Tổ chức nhập dữ liệu theo bản đồ hành chớnh làm bản đồ nền. Trờn cơ sở này nhập dữ

liệu của từng ngành được lựa chọn theo một thứ tựưu tiờn nhất định. (adsbygoogle = window.adsbygoogle || []).push({});

- Từng bước xõy dựng mụ tơ tỡm kiếm theo văn bản và theo ngữ nghĩạ

- Xõy dựng Website nội bộ.

5.1.2 Kết quđạt được

So sỏnh với mục tiờu đề ra, chỳng tụi thấy:

Chỳng tụi đó khảo sỏt nghiờn cứu kỹ chuẩn OpenGIS và ứng dụng MySQL để lưu thụng tin theo

đỳng tinh thần của chuẩn. Trờn cơ sở tỡm hiểu thờm về MapInfo, chỳng tụi đó lập kiến trỳc CSDL và đó giải được vấn đề dung lượng lớn của cơ sở dữ liệụ

Do cú cấu trỳc cơ bản, chỳng tụi đó cú thuật toỏn co cụm húa dữ liệu, đảm bảo cú một số lượng cỏc bản ghi để hiển thị nằm trong một giới hạn nhất định. Thuật toỏn này của chỳng tụi hiện nay

độc lập với hệ quản trị CSDL và chưa sử dụng cỏc thuộc tớnh mở rộng của SQL92 with

Geometry Types. Chỳng tụi hy vọng là khi sử dụng với phần mở rộng thuật toỏn sẽ hoạt động tốt hơn.

Chỳng tụi đó xõy dựng được cỏc tớnh năng cơ bản của phần mềm bản đồ và tiếp cận theo phương ỏn web-based. Cỏc chức năng được xõy dựng theo cơ chếđơn thể húạ

Chỳng tụi đó xõy dựng được một thư viện nhập dữ liệu từ MapInfo và nhận thấy cỏc dữ liệu nhập vào đều tương thớch và chưa gặp cỏc sai sút xảy rạ

Chỳng tụi đó bước đầu xõy dựng mụ tơ tỡm kiếm bỏn ngữ nghĩa và cỏc kết quả cho thấy chỳng tụi đang tiếp cận đỳng hướng để dần dần tiến tới xõy dựng cơ sở dữ liệu ontologỵ

Qua việc xõy dựng website nội bộ, tuy mới xõy dựng phiờn bản thử nghiệm Alpha, chỳng tụi nhận thấy phần chạy trờn web cú tốc độ xử lý rất nhanh.

5.2 KIN NGH

Do đõy là một đề tài kộo dài trong 2 năm, chỳng tụi kiến nghị với cơ quan quản lý cho phộp

được tiếp tục nghiờn cứu sõu hơn nữa vỡ khả năng ứng dụng rộng rói trong cỏc ngành cụng nghiệp và cỏc ngành khỏc, đặc biệt đối với cỏc ngành cần qui hoạch và dựa trờn nền hệ thống thụng tin địa lý.

Cỏc nội dung chi tiết của phần nghiờn cứu này trong năm 2007 sẽ được trỡnh bày trong bản thuyết minh NCKH và gửi lờn Vụ.

Một phần của tài liệu Nghiên cứu xây dựng bản đồ số hóa công nghiệp Việt Nam (Trang 75 - 77)