Phõn cum dựa theo truy cập người sử dụng

Một phần của tài liệu (LUẬN văn THẠC sĩ) một số vấn đề về phân cụm dữ liệu luận văn ths công nghệ thông tin 1 01 10 (Trang 105 - 112)

v Sử dụng siờu liờn kết

- Với mỗi đường dẫn URL P trong kết quả tỡm kiếm R, chỳng ta mở rộng cho tất cả cỏc đường liờn kết ra tại đỉnh n của đường vào như của dịch vụ Alta Vista.

- Chỳng ta cú thể nhận được N đường liờn kết ra phõn biệt và M đường liờn kết vào phõn biệt cho tất cả cỏc URL trong R.

- Đối với mỗi trang P trong R (tập kết quả) được biểu diễn bởi 2 vectơ + POut (N- chiều)

+ PIn (M- chiều)

- Phộp đo tương tự:

Chỳng ta chấp nhận phộp đo cosine truyền thống để biết được cỏc đường liờn kết phổ biến (đường liờn kết trong và liờn kết ngoài) được chia sẻ bởi cỏc trang P và Q. Cụ thể như sau:

+ Tổng số liờn kết trong và liờn kết ngoài của của trang P được tớnh bởi:

+ Tổng số liờn kết trong và liờn kết ngoài của của trang Q được tớnh bởi:

(POut—QOut) là giỏ trị tớch của 2 vectơ POut và QOut biết đến bởi những liờn kết ngoài của 2 trang web P và Q nơi mà (PIn—QIn) được biết đến là những liờn kết trong của 2 web P và Q. ||P|| là độ dài của vectơ P

- Vớ dụ minh họa về chủ đề và cỏc URL trong cỏc cụm với chủ đề như bảng 4.4.

Bảng 4.4. Mối liờn kết giữa chủ đề và đường dẫn URL

Túm lại, PCDL Web đang là lĩnh vực được quan tõm và cú phạm vi ứng dụng rộng rói. Những nội dung đề cập trong cỏc phần trờn mang tớnh chất túm lược, khỏi quỏt hoỏ và cũn để mở. Đối với mỗi phần, chỳng ta đều cú thể đi sõu nghiờn cứu phỏt triển thờm để cú thể là cơ sở xõy dựng cỏc ứng dụng cho lớp dữ liệu web, một lĩnh vực đang được phỏt triển rất phổ biến.

KẾT LUẬN 1. Cỏc vấn đề được tỡm hiểu trong luận văn

Luận văn này tổng hợp những nột chớnh trong KPDL và đi sõu trỡnh bày về PCDL, một trong những kỹ thuật phổ biến nhất của KPDL. Trong lĩnh vực PCDL, đó cú được một số thành quả nhất định. Hiện nay, cỏc hệ thống CSDL ngày càng phỏt triển đa dạng, nhu cầu về KPTT trong CSDL ngày càng lớn, do đú việc nghiờn cứu cỏc mụ hỡnh dữ liệu mới và ỏp dụng được cỏc phương phỏp PCDL mới là một xu thế tất yếu, vừa cú ý nghĩa trong khoa học cũng như trong thực tiễn.

Chương 1, luận văn đó trỡnh bày những nột tổng quan về PCDL, bao gồm những vấn đề như khỏm phỏ tri thức, khai phỏ dữ liệu và phõn cụm dữ liệu. Trờn cơ sở đú, chương 2 tập trung đi sõu giới thiệu về PCDL và giải thớch tại sao PCDL lại là một trong những phương phỏp KPDL phổ biến nhất, cú nhiều ý nghĩa trong khoa học và thực tiễn. Luận văn cú túm lược lại những kiến thức nền tảng của PCDL như cỏc kiểu dữ liệu, cỏc phộp đo và trờn cơ sở đú tổng hợp lại một số phương phỏp tiếp cận trong PCDL. Đõy là chủ đề trọng tõm của nội dung luận văn. Trờn cơ sở đú, chương 3 tập trung giới thiệu tổng quỏt húa cỏc thuật toỏn PCDL, trong đú cú một số thuật toỏn là nền tảng của cỏc phương phỏp tiếp cận, một số thuật toỏn là mở rộng, cải tiến của cỏc thuật toỏn cơ sở để giải quyết được đa dạng dữ liệu, xử lý cỏc vấn đề nhiễu hoặc ngoại lai. Cú chương trỡnh thực nghiệm minh họa cho một số thuật toỏn phổ biến cú tớnh ứng dụng cao. Chương 4 trỡnh bày túm lược về phõn cụm dữ liệu Web, một lĩnh vực đang được quan tõm rất nhiều trong PCDL hiện nay vỡ tớnh ứng dụng cao của nú. Chương này trỡnh bày những nột chớnh của PCDL Web, những kỹ thuật tiếp cận trong PCDL Web.

Phần phụ lục, trỡnh bày chương trỡnh thực nghiệm mụ phỏng của thuật toỏn K-means, một trong những thuật toỏn cơ sở nền tảng nhất của PCDL.

Túm lại, PCDL đang là một lĩnh vực đang được quan tõm nghiờn cứu nhiều, cú phạm vi ứng dụng rộng, liờn quan đến nhiều ngành khoa học khỏc nhau. Trong quỏ trỡnh làm luận văn, tỏc giả đó cố gắng nghiờn cứu, sưu tầm, tập trung trỡnh bày cỏc vấn đề một cỏch tổng hợp nhất nhưng do trỡnh độ và thời gian cú hạn, phạm vi trỡnh bày của lĩnh vực nghiờn cứu rộng nờn cú những vấn đề được trỡnh bày kỹ, những vấn đề được trỡnh bày một một cỏch sơ lược. Do vậy, luận văn này chắc chắn cũn cú nhiều hạn chế và thiếu sút, nhiều vấn đề cũn để mở cho những hướng nghiờn cứu tiếp theo. Tỏc giả rất mong nhận được cỏc ý kiến đỏnh giỏ, đúng gúp, chỉ bảo của cỏc thầy cụ giỏo và bạn bố.

2. Hướng nghiờn cứu tiếp theo

PCDL là kỹ thuật được nghiờn cứu nhiều và cú ứng dụng rộng rói. Trong luận văn cú trỡnh bày một số phương phỏp, kỹ thuật ỏp dụng của PCDL. Với những kiến thức cơ sở đú, trong thời gian tới tụi sẽ tiếp tục tỡm hiểu cỏc mụ hỡnh dữ liệu đặc thự, lựa chọn kỹ thuật PCDL phự hợp nhằm xõy dựng được những ứng dụng trong thực tiễn. Hướng nghiờn cứu cụ thể như sau:

Tập trung nghiờn cứu phỏt triển những vấn đề cũn để mở dựa trờn những kiến thức cơ sở đó trỡnh bày.

Xõy dựng và phỏt triển cỏc kỹ thuật phõn cụm cho cỏc lớp dữ liệu Web. Kết hợp cỏc kỹ thuật phõn cụm với cỏc kỹ thuật khỏc như kỹ thuật mờ, mạng nơron để giải quyết một số ứng dụng trong thực tế.

TÀI LIỆU THAM KHẢO Tiếng Việt

1. Phan Đỡnh Diệu (1999), Logic Trong Cỏc Hệ Tri Thức, NXB ĐHQG Hà Nội, Hà Nội.

2. Đinh Mạnh Tường (2003), Trớ Tuệ Nhõn Tạo, NXB ĐHQG Hà Nội, Hà

Nội.

Tiếng Anh

3. K. Jain and R. C. Dubes (1988), Algorithms for Clustering Data, Printice Hall.

4. D. Fisher (1987), Knowledge acquisition via incremental conceptual clustering, Machine Learning.

5. D. Gibson, J. Kleinberg and P. Raghavan (1998), Clustering categorical

data: An approach based on dynamic systems, In Proc, VLDB’98.

6. Douglass Cutting, David Karger, Jan Pedersen and John W. Tukey (1992), Scatter/Gather: A Cluster-based Approach to Browsing Large Document Collections, Proceedings of the 15th Annual International ACM/SIGIR Conference, Copenhagen.

7. Ho Tu Bao (2000), Knowledge Discovery And Data Mining, Institute of

Information HiTechnology, National Center for Natural Science and Technology.

8. O. Zamir and O. Etzioni (1999), Groupera dynamic clustering interface to web search results, In Proceedings of the Eighth International World Wide Web Conference, Toronto, Canada, M. Steinbach, G.

9. J. Srivastava et al (1999), Web Usage Mining: Discovery and Applications of Usage Patterns from Web Data, SIGKDD Exploration.

10. L. Kaufman and P. J. Rousseeuw (1990), Finding Groups in Data: an Introduction to Cluster Analysis, John Wiley & Sons.

11. M. Ankerst, M. Breunig, H.-P. Kriegel and J. Sander (1999), Optics: Ordering points to identify the clustering structure, SIGMOD’99.

12. M. Ester, H.-P. Kriegel, J. Sander and X. Xu (1996), A density-based algorithm for discovering clusters in large spatial databases, KDD'96.

13. M. R. Anderberg (1973), Cluster Analysis for Applications, Academic

Press.

14. P. Arabie, L. J. Hubert and G. De Soete (1996), Clustering and Classification, World Scietific.

15. P. Michaud (1997), Clustering techniques, Future Generation Computer

systems.

16. R. Kosala and H. Blockeel (2000), Web Mining Research: A Survey,

SIGKDD Exploration.

17. R. Ng and J. Han (1994), Efficient and effective clustering method for spatial data mining, VLDB'94.

18. T. Zhang, R. Ramakrishnan and M. Livny (1996), BIRCH : an efficient data clustering method for very large databases, SIGMOD'96.

19. Y.S. Maarek, R. Fagin, I.Z. Ben-Shaul, D. Pelleg (2000), Ephemeral document clustering for web applications, Technical Report RJ 10186, IBM Research.

20. Zhong Su, Qiang Yang, HongHiang Zhang, Xiaowei Xu and Yuhen Hu (2001), Correlation-based Document Clustering using Web Logs.

PHỤ LỤC

THỬ NGHIỆM PHÂN CỤM DỮ LIỆU VỚI K-MEANS

Chương trỡnh mụ phỏng thuật toỏn K-Means được viết ngụn ngữ Visual Basic, chạy trong mụi trường Windows. Chương trỡnh mụ phỏng việc phõn cụm thụng qua việc dịch chuyển trọng tõm của cụm. Mở đầu chương trỡnh yờu cầu nhập số cụm và kớch chuột để nhập dữ liệu cho cụm. Trong quỏ trỡnh nhập liệu, điểm dữ liệu vừa nhập vào sẽ thuộc về một cụm nào đú dựa theo phộp đo khoảng cỏch của điểm đú với cỏc trọng tõm cụm. Khi điểm đú được sỏt nhập vào cụm nào đú để hỡnh thành cụm mới và trọng tõm của cụm sẽ thay đổi theo cho phự hợp. Giao diện của chương trỡnh như hỡnh 5.1.

Một phần của tài liệu (LUẬN văn THẠC sĩ) một số vấn đề về phân cụm dữ liệu luận văn ths công nghệ thông tin 1 01 10 (Trang 105 - 112)

Tải bản đầy đủ (PDF)

(118 trang)