Từ những vấn đề đó tỡm hiểu, nghiờn cứu ở phần trờn, chỳng tụi đó xõy dựng một ứng dụng tổng hợp thụng tin tiếng Việt và cho phộp người dựng cú thể tỡm kiếm thụng tin theo cỏc chủ đề. Nội dung chương này sẽ trỡnh bày về cỏc yờu cầu chức năng, việc phõn tớch thiết kế và một số kết quả đó đạt được từ ứng dụng thử nghiệm.
6.1. Xỏc định yờu cầu
Ứng dụng thử nghiệm được xõy dựng trờn nền web với ngụn ngữ sử dụng phớa server là PHP và phớa client là ngụn ngữ Java Script. Ứng dụng xõy dựng cần đạt được cỏc yờu cầu sau:
- Thu thập cỏc thụng tin từ cỏc trang web một cỏch tự động.
- Cú khả năng búc tỏch cỏc trang thụng tin thu thập được thành cỏc trường thụng tin do người dựng định nghĩa.
- Chức năng tỡm kiếm cú giao diện đơn giản và dễ sử dụng.
- Cho phộp người dựng tỡm kiếm bằng cỏc cỳ phỏp cơ bản giống như cỏc mỏy tỡm kiếm khỏc để làm tăng độ chớnh xỏc của kết quả tỡm kiếm. - Tốc độ tỡm kiếm phải nhanh, kết quả tỡm kiếm trả về phải được phõn
thành cỏc chủ đề giỳp người dựng tiếp cận nhanh được với tài liệu mỡnh cần.
6.2. Cỏc thành phần của ứng dụng thử nghiệm
Để đạt được cỏc yờu cầu trờn, ứng dụng thử nghiệm của chỳng tụi xõy dựng bao gồm cỏc thành phần sau:
- Trỡnh thu thập web cú nhiệm vụ thu thập nội dung cỏc trang web tiếng Việt, trỡnh thu thập web này cú điểm đặc biệt là cú thể búc tỏch thụng tin theo cỏc trường dựa trờn cỏc đặc điểm nhận dạng do người dựng cung cấp.
- Bộ tỏch từ tiếng Việt để phõn tớch cỏc tài liệu thu thập được thành cỏc từ tiếng Việt phục vụ cho việc biểu diễn cỏc tài liệu dưới dạng vector tài liệu được sử dụng trong cỏc thuật toỏn phõn cụm.
- Bộ xử lý truy vấn cú nhiệm vụ phõn tớch cỳ phỏp tỡm kiếm của người dựng từ đú tỡm ra những tài liệu cú liờn quan đến cỏc từ khúa mà người dựng tỡm kiếm.
- Giao diện biểu diễn kết quả tỡm kiếm web cú nhiệm vụ biểu diễn cỏc kết quả tỡm kiếm được bộ xử lý truy vấn trả về dưới dạng trực quan. Chỳng tụi ứng dụng tập thụ để phõn cụm cỏc kết quả trả về, do vậy người dựng cú thể xem được cỏc kết quả tỡm kiếm dưới dạng nhúm chủ đề, nhờ đú quỏ trỡnh tỡm kiếm diễn ra thuận lợi hơn, người dựng cú thể dễ dàng tiếp cận được với tài liệu cần tỡm.
6.3. Xõy dựng cỏc thành phần chức năng 6.3.1. Trỡnh thu thập nội dung web 6.3.1. Trỡnh thu thập nội dung web
Trỡnh thu thập nội dung web thực hiện việc thu thập nội dung theo qui trỡnh sau:
Hỡnh 6-1. Qui trỡnh thu thập nội dung web
Xuất phỏt từ một URL gốc, trỡnh thu thập web sẽ tải về nội dung trang web và phõn tớch để tỡm ra cỏc siờu liờn kết trong tài liệu. Cỏc siờu liờn kết mới được tỡm thấy được đưa vào một hàng đợi. Quỏ trỡnh thu thập sẽ liờn tục duyệt qua cỏc URL trong hàng đợi và thực hiện lại quỏ trỡnh trờn cho tới khi đó duyệt qua toàn bộ cỏc siờu liờn kết trong hàng đợi.
Để trỏnh việc lặp vụ hạn do cỏc trang web cú liờn kết chộo, chỳng tụi sẽ lưu lại địa chỉ cỏc trang web đó được duyệt qua. Trong quỏ trỡnh thu thập, cỏc trang web đú sẽ khụng được duyệt lại một lần nữa.
Cỏc siờu liờn kết trong một tài liệu nhiều khi khụng dẫn đến một trang web mà chỉ liờn kết đến một địa chỉ Email, một cõu lệnh JavaScript, một vị trớ trờn trang
web hiện hành, … do vậy trỡnh thu thập web cũng phải xỏc định và loại bỏ cỏc siờu liờn kết như vậy để trỏnh việc thu thập cỏc nội dung khụng hữu ớch làm giảm hiệu năng của hệ thống.
Vỡ cỏc siờu liờn kết cú hai kiểu là đường dẫn tuyệt đối và đường dẫn tương đối, do vậy trong thành phần thu thập nội dung cần phải xõy dựng một thư viện để chuẩn húa lại cỏc siờu liờn kết, thư viện này cú nhiệm vụ biến đổi toàn bộ cỏc siờu liờn kết về dạng địa chỉ tuyệt đối để đảm bảo việc thu thập nội dung là chớnh xỏc.
Điểm đặc biệt của trỡnh thu thập nội dung mà chỳng tụi xõy dựng là khả năng búc tỏch nội dung tài liệu thành cỏc trường thụng tin. Điều này thực hiện được là do tớnh cú cấu trỳc của cỏc tài liệu html và cỏc trang web hiện nay đa phần là web động và cú cấu trỳc trỡnh bày tài liệu thống nhất. Vớ dụ cỏc phần tiờu đề, túm tắt hay nội dung của một bài viết thỡ luụn phõn biệt được với nhau bởi cỏc thẻ HTML chứa chỳng (hỡnh 6-2).
Việc búc tỏch thụng tin sẽ được thực hiện chớnh xỏc nếu người dựng cung cấp cho trỡnh thu thập nội dung đặc điểm nhận dạng cỏc trường thụng tin của tài liệu (hỡnh 6-3). Chỳng tụi sẽ sử dụng cỏc biểu thức chớnh qui và cỏc phộp toỏn xử lý chuỗi để búc tỏch cỏc nội dung này.
Hỡnh 6-3. Giao diện quản trị cỏc mẫu nhận dạng
6.3.2. Bộ tỏch từ tiếng Việt
Để cú thể phõn cụm được cỏc tài liệu, chỳng ta phải biểu diễn được cỏc tài liệu dưới dạng vector tài liệu trong khụng gian vector. Ứng dụng mà chỳng tụi xõy dựng cho phộp người dựng tỡm kiếm được thụng tin theo cỏc chủ đề nhờ ứng dụng lý thuyết tập thụ vào vấn đề phõn cụm kết quả tỡm kiếm web, vỡ vậy cần xõy dựng một bộ tỏch cỏc từ tiếng Việt để cú thể biểu diễn nội dung cỏc trang web dưới dạng vector tài liệu.
Thành phần tỏch từ xõy dựng phải cú một số chức năng cơ bản như loại bỏ cỏc thẻ HTML, loại bỏ cỏc ký tự đặc biệt, phõn tớch nội dung tài liệu thành cỏc cõu sau đú tỏch cỏc cõu thành cỏc từ để việc tỏch từ cú độ chớnh xỏc cao hơn.
Để xõy dựng thành phần này, chỳng tụi đó sử dụng cỏc thuật toỏn tỏch từ tiếng Việt đó được giới thiệu trong mục 3.7. Vỡ ứng dụng tỡm kiếm là thực hiện trực tuyến, nờn việc tỡm kiếm phải thực hiện gần như là tức thời. Do vậy việc tỏch từ ngoài yờu cầu chớnh xỏc thỡ cần cú tốc độ xử lý nhanh. Để thỏa món cỏc yờu cầu đú, chỳng tụi lựa chọn phương phỏp tỏch từ tiếng Việt dựa trờn từ điển. Việc phõn tỏch cỏc từ sẽ được thực hiện trong khoảng thời gian ngắn do chỳng tụi thực hiện việc chia nhỏ từ điển thành nhiều file dựa trờn độ dài từ cần tỏch. Cỏc từ điển cũng được load vào bộ nhớ khi thực hiện tỡm kiếm để trỏnh việc truy cập file nhiều lần làm giảm tốc độ tỡm kiếm. Ngoài ra kỹ thuật tỡm kiếm nhị phõn cũng giỳp tăng hiệu quả của quỏ trỡnh tỡm kiếm.
6.3.3. Bộ xử lý truy vấn
Như đó trỡnh bày ở phần xỏc định yờu cầu, chỳng tụi xõy dựng thành phần này để xử lý cỏc yờu cầu tỡm kiếm của người dựng.
Bộ xử lý phải xử lý được một số phộp toỏn tỡm kiếm cơ bản tương tự như cỏc bộ mỏy tỡm kiếm khỏc như tỡm kiếm theo từng từ, tỡm kiếm chớnh xỏc một cụm từ,…
6.3.4. Biểu diễn kết quả tỡm kiếm web
Tiờu chớ đầu tiờn để đỏnh giỏ chất lượng của một mỏy tỡm kiếm web chớnh là giao diện biểu diễn kết quả tỡm kiếm web và tương tỏc với người dựng.
Giao diện thực hiện việc tỡm kiếm của chỳng tụi đơn giản và dễ sử dụng, cỏc kết quả trả về cũng được tổ chức khoa học. Vỡ số lượng kết quả tỡm kiếm trả về là rất lớn cú thể nờn đến hàng trăm hoặc hàng nghỡn tài liệu, do vậy chỳng tụi sử dụng kỹ thuật phõn trang để người dựng cú thể duyệt qua lần lượt từng trang kết quả tỡm kiếm, điều này khụng những giỳp tốc độ thực hiện việc tỡm kiếm được tăng tốc đỏng kể mà cũn khiến người dựng dễ dàng hơn trong việc tiếp cận với cỏc kết quả trả về. Trong mỗi trang kết quả, chỳng tụi cũn phõn cỏc kết quả ra thành cỏc cụm
kết quả để người dựng dễ dàng xỏc định được nội dung mỡnh cần tỡm.
Chi tiết cỏc kỹ thuật ỏp dụng cho việc phõn cụm kết quả tỡm kiếm chỳng tụi đó trỡnh bày trong chương 5. Cỏc giao diện thực tế được chỳng tụi xõy dựng cú thể tham khảo thực tế tại website http://doctinnhanh.net.
6.4. Triển khai ứng dụng thử nghiệm
Toàn bộ ứng dụng thử nghiệm mà chỳng tụi đó xõy dựng được triển khai tại địa chỉ http://doctinnhanh.net. Đõy là một trang web tổng hợp tin tức từ cỏc bỏo điện tử lớn của Việt Nam như http://dantri.com.vn, http://vnexpress.net,
Đến với website người dựng sẽ luụn được cập nhất cỏc thụng tin mới nhất, cỏc bài viết được tổ chức theo từng chủ đề giỳp người dựng cú thể tiếp cận được nhanh chúng đến cỏc thụng tin mà mỡnh mong muốn mà khụng phải vào nhiều trang web một lỳc.
Đặc biệt, nhờ ứng dụng lý thuyết tập thụ vào việc phõn cụm kết quả tỡm kiếm web nờn đến với website, người dựng cú thể tỡm kiếm được thụng tin một cỏch nhanh chúng và thuận tiện nhất, khụng cần nhớ nhiều từ khúa liờn quan đến tài liệu cần tỡm, người dựng chỉ cần nhập từ khúa cần tỡm chương trỡnh tỡm kiếm sẽ trả về cỏc kết quả tỡm kiếm được chia thành cỏc chủ đề khỏc nhau giỳp tiếp cận thụng tin một cỏch nhanh chúng.
Hỡnh 6.5 là giao diện kết quả tỡm kiếm tương ứng với từ khúa “tin”, ứng dụng thử nghiệm đó trả về 2.126 bài viết cú chứa từ khúa tin và chia thành 20 chủ đề. Hỡnh vẽ thể hiện giao diện tỡm kiếm khi người dựng chọn xem chủ đề “vi tớnh”
Hỡnh 6- 5. Giao diện biểu diễn kết quả tỡm kiếm chia theo chủ đề
Bờn cạnh cỏc chức năng chớnh của một website tổng hợp thụng tin, chỳng tụi cũng cú dự định xõy dựng thờm cỏc cụng cụ tiện ớch cho người dựng như nhận bản tin mới qua email theo chuyờn mục, đăng ký từ khúa để nhận cỏc bản tin mới qua email giống cụng cụ Google Alert, xõy dựng cỏc widget cho phộp người dựng sử dụng lại cỏc thụng tin được tổng hợp trờn cỏc website riờng của mỡnh,…
Ngoài ra thành phần chỳng tụi cũn sử dụng trỡnh thu thập nội dung Web đó xõy dựng được trong việc tổng hợp nội dung cho website Bỏch khoa toàn thư văn húa Việt tại địa chỉ http://vhv.vn.
Hỡnh 6-6. Website Bỏch khoa toàn thư văn húa Việt
Nhờ ứng dụng bộ thu thập nội dung web, chỳng tụi đó xõy dựng được một hệ thống nội dung phong phỳ, chia thành nhiều chủ đề thuộc cỏc lĩnh vực văn húa Việt Nam như: Văn húa nghệ thuật, lịch sử, trang phục, dõn tộc, phong tục,… Ngoài ra bộ thu thập nội dung web cũn cú những thay đổi phự hợp để tổng hợp những kiểu dữ liệu khỏc như hỡnh ảnh, õm nhạc, video clip giỳp người dựng cú cỏi nhỡn đa chiều và sinh động hơn về văn húa Việt Nam.
KẾT LUẬN
Trong giai đoạn bựng nổ thụng tin hiện nay, người dựng cú cơ hội để tiếp cận với kho tri thức khổng lồ của nhõn loại. Cỏc cụng cụ tỡm kiếm giỳp người dựng thuận tiện hơn trong quỏ trỡnh tỡm kiếm tri thức đú. Để thuận tiện cho việc tỡm kiếm cú thể xõy dựng cỏc cụng cụ tỡm kiếm biểu diễn kết quả tỡm kiếm theo từng cụm chủ để. Đó cú rất nhiều cụng trỡnh nghiờn cứu thành cụng trong lĩnh vực này, đặc biệt là với ngụn ngữ tiếng Anh. Tuy nhiờn, tiếng Việt cú cỏc đặc thự riờng biệt mà cỏc cụng cụ tỡm kiếm tiếng Anh xử lý sẽ khụng cho được kết quả chớnh xỏc. Chớnh vỡ vậy cần xõy dựng cỏc cụng cụ riờng trong việc tỡm kiếm thụng tin tiếng Việt sao cho thuận tiện với người dựng Việt. Đõy là việc làm rất cần thiết và cú nhiều ý nghĩa trong khoa học cũng như trong thực tiễn.
Trong luận văn này, chỳng tụi đó xõy dựng thử nghiệm một cụng cụ tỡm kiếm web, cho phộp người dựng tỡm kiếm web theo cỏc chủ đề. Nhờ việc vận dụng cỏc thuật toỏn tỏch từ giành cho tiếng Việt và lý thuyết tập thụ cho việc phõn cụm kết quả tỡm kiếm, thử nghiệm của chỳng tụi đó cho thấy nú giải quyết được khỏ tốt tớnh chất phức tạp của tiếng Việt để xõy dựng nờn cụng cụ tỡm kiếm web tiếng Việt phục vụ cho người Việt.
Tuy nhiờn, do hạn chế về thời gian và trỡnh độ cú hạn nờn mặc dự đó cố gắng, nhưng thử nghiệm của chỳng tụi vẫn cũn tồn tại một số vấn đề chưa giải quyết được triệt để. Chớnh vỡ vậy chỳng tụi đó xỏc định một số hướng nghiờn cứu mà tụi nhận cần thực hiện trong tương lai:
Nghiờn cứu cỏc thuật toỏn tỏch từ tiếng Việt để cho kết quả tỏch từ chớnh xỏc hơn và tốc độ thuật toỏn thực hiện nhanh hơn.
Vận dụng triệt để lý thuyết tập thụ để thu gọn số chiều của vector biểu diễn tài liệu và đặc trưng của cỏc cụm gúp phần nõng cao tốc độ xử lý kết quả tỡm kiếm web.
Phỏt triển cụng cụ thu thập web cú tớnh tựy biến cao cho phộp thu thập web theo kiểu trường húa giỳp người dựng cú thể tỡm kiếm thụng tin với độ chớnh xỏc cao hơn.
Thực nghiệm chương trỡnh trờn diện rộng và thu thập ý kiến đỏnh giỏ của người dựng để cú kết quả đỏnh giỏ chất lượng chớnh xỏc hơn và phỏt triển cụng cụ tỡm kiếm thuận tiện hơn.
Tài liệu tham khảo
Tiếng Việt
1. Nguyễn Thị Minh Huyền, Vũ Xuõn Lương, Lờ Hồng Phương (2003), "Sử dụng bộ gỏn nhón từ loại xỏc suất QTAG cho văn bản tiếng Việt", kỷ yếu Hội thảo ICT.rda’03, Việt Nam, Hà Nội.
2. Trịnh Quốc Sơn, “Nghiờn cứu phõn loại văn bản tiếng Việt”, khúa luận mụn Data mining.
Tiếng Anh
3. Baeza-Yates, R., and Ribeiro-Neto, B. (1999) Modern Information Retrieval, 1st ed. Addison Wesley Longman Publishing Co. Inc.
4. Basu, S., Banerjee, A., & Mooney, R. J. (2002). Semi-supervised clustering by seeding. In Proceedings of 19th International Conference on Machine Learning (ICML-2002), pp. 19–26.
5. Basu, S., Banerjee, A., & Mooney, R. J. (2003). Active semi-supervision for pairwise constrained clustering. Submitted for publication, available at http://www.cs.utexas.edu/˜sugato/.
6. Basu Sugato (2004) Semi-supervised Clustering with Limited Background Knowledge. Proceedings of the Ninth AAAI/SIGART Doctoral Consortium, pp. 979-980, San Jose, CA, July 2004.
7. Bilenko Mikhail, Basu Sugato, and Mooney Raymond J. (2004). Integrating Constraints and Metric Learning in Semi-Supervised Clustering . Proceedings of the 21st International Conference on Machine Learning (ICML-2004), pp. 81-88, Banff, Canada, July 2004.
8. Gautam Pant, Padmini Srinivasan, and Filippo Menczer (2008), Crawling the Web.
Morgan Kaufmann.
10. Jan Komorowski, Lech Polkowski, Andrzej Skowron, Rough sets: A Tutorial.
11. Kaufman, L and Rousseeuw (1990) Finding groups in data: an introduction to cluster analysis, John Wiley and Sons, New York.
12. Ngo Chi Lang (2003), A tolerance rough set approach to clustering web search results, Master's thesis.
13. S.Chakrabarti (2003), Mining the Web. Morgan Kaufmann.
14. Saori Kawasaki, Ngoc Binh Nguyen, T. B. H. (2000), Hierarchical document clustering based on tolerance rough set model. In Principles of Data Mining and Knowledge Dis-covery, 4th European Conference, PKDD 2000, Lyon, France, September 13-16. Proceedings (2000), D. A. Zighed, H. J. Komorowski, and J. M. Zytkow, Eds., vol. 1910 of Lecture Notes in Computer Science, Springer.
15. G.Salton (1989), Automatic text processing: the transformation, analysis, and retrieval of information by computer. Addison-Wesley Longman Publishing Co., Inc.
16. Soumen Chakrabarti, Martin van den Berg, Byron Dom (1999), Focused crawling: a new approach to topic-specific Web resource discovery,
Toronto.
17. Tu Bao Ho, N. B. N. (2002) Nonhierarchical document clustering based on a tolerance rough set model. International Journal of Intelligent Systems 18. Z. Pawlak (1991), Rough sets: Theoretical aspects of reasoning about data.
Kluwer Dordrecht.
19. Zifeng Cui, Baowen Xu, Weifeng Zhang, Junling Xu (2005), Web Documents Clustering with Interest Links, IEEE.