) ON [PRIMARY] 10 A11 Bảng chứa thông tin
2. Hướng phát triển
Vì thời gian phát triển đồ án không nhiều nên chúng em tập trung vào những vấn đề chính của đồ án đó là phân tích ngữ nghĩa của văn bản. Việc phát triển thuật toán so sánh độ tương đồng của văn bản và khai thác dữ liệu đã đạt được nhiều thành công. Dựa vào những thành quả đó chúng ta có thể mở ra những hướng mới nhằm tối ưu hoá thuật toán và nâng cao độ chính xác của kết quả. Đồng thời mở rộng nguồn dữ liệu nhờ trực tiếp tìm kiếm các dữ liệu trên mạng hay cải thiện tính năng tìm kiếm nhờ sử dụng các engine có sẵn. Dựa trên những khả năng phát triển đó, đồ án có thể hoàn thiện khi có thêm các tính năng sau:
Thu thập dữ liệu trực tuyến
Dữ liệu trực tuyến trên mạng là một tài nguyên gần như vô hạn. Nếu có một cơ chế cho phép khai thác dữ liệu trên mạng là đầu vào cho hệ thống thì các chức năng của hệ thống sẽ đạt hiệu quả cao và phong phú hơn. Hơn nữa, việc có một nguồn dữ liệu động như vậy thì công việc cập nhập dữ liệu sẽ không cần thiết, việc quả lý dữ liệu coi như tiến hành tự động. Tóm lại, hệ thống rất cần một module cho phép lấy dữ liệu trực tuyến. Đây chính là một hướng phát triển chủ chốt củ đồ án nhằm làm cho đồ án hoàn thiện hơn và có tính ứng dụng thực tế cao hơn.
Thông tin người dùng
Thông tin người dùng hiện tại ở các hệ thống website chỉ đơn thuần được tổ chức lưu trữ dưới dạng bảng dữ liệu. Thông tin người dùng chỉ đáp ứng vai trò xác thực
trong hệ thống chưa góp phần thể hiện được nhu cầu của từng cá nhân. Việc nghiên cưa các thức tổ chức và lưu trữ thông tin người dùng hiệu quả sẽ đem lại một kết quả bất ngờ, giúp hệ thống có thể gợi ý tìm kiếm đối với từng các nhân người dùng. Đây cũng là một điển nhấn của thế hệ web mới, hướng tới cá nhân người dùng. Vậy cách thức tổ chức lưu trữ thông tin người dùng thế nào đó là một hướng mở ra của đồ án. Đồng thời việc thu thập thông tin người dùng thế nào cũng là một kỹ thuật cần phải nghiên cứu. Hiện tại chúng em chú ý tới hai cách thức thu thập thông tin người dùng. Một là thu thập tĩnh, dựa trên nhưng form đăng ký và feedback của người dùng. Hai là thu thập động, dựa trên các kỹ thuật trích lọc thông tin thông qua phân tích logfile.
Các kỹ thuật phân tích logfile đã được phát triển và ứng dụng ngay từ khi internet ra đời. Tuy nhiên tuỳ vào mục đích của hệ thống việc phân tích logfile có thể sử dụng những kỹ thuật khác nhau. Ở đây chúng em muốn nhấn mạnh tới một khả năng mà phân tích logfile có thể đáp ứng đó chính là thu thập thông tin người dùng. Phát triển một module cho phép quản lý thông tin người dùng rất có ích cho một hệ thông tìm kiếm, gợi ý. Hệ thông sẽ mang tính hướng người dùng hơn bởi những kết quả của hệ thống được lọc dựa trên thông tin quan tâm của người dùng.
Sử dụng search engine
Ngày nay, các kỹ thuật tìm kiếm không chỉ đạt độ chính xác cao mà còn đạt tốc độ cao. Tốc độ đó chính là tiêu chuẩn cạnh tranh cho các hệ thống tìm kiềm. Google
đã nổi lên như là một site tìm kiếm toàn cầu với độ chính xác cao và nhanh. Không những thế Google còn cho phép các hệ thống khác sử dụng thành quả của nó đó chính là module search engine. Module này cho phép các hệ thống có thể lấy kết quả tìm kiếm một cách nhanh chóng dựa trên những tài nguyên mà máy chủ google cung cấp. Nếu hệ thống có thể sử dụng module này thì hiệu năng tìm kiếm sẽ được nâng cao hơn. Đây cũng chính là một hướng phát triển của hệ thống trong tương lai.
TÀI LIỆU THAM KHẢO
[1] Cải tiến giải thuật CYK cho bài toán phân tích cú pháp tiếng Việt -Đinh ThịPhương Thu, Huỳnh Quyết Thắng, Hoàng Vĩnh Sơn
[2] Gán nhãn từ loại cho tiếng Việt dựa trên văn phong - Nguyễn Quang Châu, Phan Thị Tươi, Cao Hoàng Trụ
[3] Kết hợp xử lý ngôn ngữ tự nhiên và mạng Kohonen để nâng cao khả năng
gom cụm văn bản tiếng Việt -Đỗ Phúc, Mai Xuân Hùng, Nguyễn Thị Kim Phụng
[4] A case study of the probabilistic tagger QTAG for Tagging Vietnamese Texts Nguyen Thi Minh Huyen,Vu Xuan Luong, Le Hong Phuong
[5] Dinh Dien, Từ tiếng Việt, Vietnam National University, HCMC, Vietnam, 2000. [6] Dinh Dien, Hoang Kiem, Nguyen Van Toan, Vietnamese Word Segmentation,
The Sixth Natural Language Processing Pacific Rim Symposium, Tokyo, Japan 2001,
pp749-756.
[7] Automata and Formal Language. An Introduction – Dean Kelley – Prentice Hall, Englewood Cliffs, New Jersey 07632.
[8] Compilers : Principles, Technique and Tools - Alfred V.Aho, Jeffrey D.Ullman - Addison - Wesley Publishing Company, 1986.
[9] Compiler Design – Reinhard Wilhelm, Dieter Maurer - Addison - Wesley Publishing Company, 1996.
[10] Design of Compilers : Techniques of Programming Language Translation - Karen A. Lemone - CRC Press, Inc, 1992.
[11] Modern Compiler Implementation in C - Andrew W. Appel - Cambridge University Press, 1997.
[12] Hoàng Văn Hành.1997. Ngữ nghĩa học – Các khuynh hướng và phương pháp
phân tích ngữ nghĩa. Hà nội.
[13] PTS. Vương Tất Đạt . Logich hình thức. Trường Đại học Sư Phạm Hà Nội 1 [14] Đặng Thị Hưởng. Semantics, TP.Hồ Chí Minh 1997 (Tài liệu lưu hành nội bộ) [15]. Trương Gia Vinh. Những bài giảng Cơ sở Ngôn ngữ học. BXB Đại Học mở
Bán công TP.HCM.(Tài liệu lưu hành nội bộ)
[16]. Nguyễn Thiện Giáp (chủ biên) Dẫn luận Ngôn ngữ học. NXB Giáo dục. 2000 [17]. Trần Văn Cơ . Ngôn ngữ. Đại học sư phạm TP.Hồ Chí Minh.1986.
[18]. Roderick A. Jacobs. English syntax. A Grammar for English language
professionals. Oxford American English.