Một phần của tài liệu Khai thác k mẫu tuần tự phổ biến dựa trên roaring bitmap (Trang 74 - 76)

Trong những năm gần đây, sự bùng nổ của thông tin đã hình thành nên các tập dữ liệu khổng lồ và các tập này ngày càng phình to ra, có khả năng vượt quá khả năng xử lý của phần cứng trong tương lai không xa. Mặt khác, một nhược điểm của thuật toán TKS là phải đọc toàn bộ CSDL vào bộ nhớ nên khi khai thác trên các CSDL lớn thì đòi hỏi về phần cứng sẽ rất cao.Trong bối cảnh như vậy, tôi đề xuất hướng nghiên cứu tiếp theo là các giải thuật xử lý song song, tức là chia nhỏ CSDL ra để xử lý song song trên nhiều máy tính cùng lúc. Ưu điểm của hướng nghiên cứu này là có thể tận dụng các máy tính có sẵn, giảm chi phí phần cứng và có thể tận dụng khả năng xử lý song song rất tốt của các GPU đã xuất hiên trong những năm gần đây.


[1] Lê Hoài Bắc (2013), Bài giảng môn Data Mining, Đại học KHTN (Đại học

Quốc gia Tp.HCM).

[2] Agrawal, R. and Srikant, R. (1995), Mining Sequential Patterns, In

Proceedings of the 11th Conference onData Engineering (ICDE’95), 3–14. [3] Srikant, R., Agrawal, R. (1996), Mining Sequential Patterns:

Generalizations and Performance Improvements, in: Proc. 5th Int’l Conf. Extending Database Technology, pp.3–17.

[4] Ayres, J., Flannick, J., Gehrke, J., and Yiu, T. (2002), Sequential pattern mining using a bitmap representation, In Proceedings of the 8th ACM

SIGKDD International Conference on Knowledge Discovery and Data Mining. 429–435.

[5] Zaki, M. J. (2001), SPADE: An efficient algorithm for mining frequent sequences, Mach. Learn. 42, 31–60.

[6] Han, J., Pei, J., Mortazavi-Asl, B., Chen, Q., Dayal, U., and Hsu, M.C.,

(2000), Freespan: Frequent pattern-projected sequential pattern mining, in

Proc. 2000 Int. Conf. Knowledge Discovery and Data Mining (KDD’00), pp. 355-359.

[7] Pei, J., Han, J., Mortazavi-Asl, B., and Pinto, H. (2001), PrefixSpan: Mining sequential patterns efficiently by prefix-projected pattern growth, In

Proceedings of the International Conference on Data Engineering. 215–224. [8] Mabroukeh, N. R. and Ezeife, C. I. (2010), A taxonomy of sequential pattern

mining algorithms, ACM Computing Surveys, vol. 43, no. 1, pp. 1-41

[9] Pei, J., Han, J., Mortazavi-Asl, B., and Zhu, H. (2000), Mining access patterns efficiently from web logs, In Knowledge Discovery and Data

Mining. Current Issues and New Applications. Lecture Notes Computer Science, vol. 1805, Springer, Berlin, 396–407.

[10] El-Sayed, M., Riuz, C., and Rundensteiner, E. A. (2004), FS-Miner: Efficient and incremental mining of frequent sequence patterns in web logs,

In Proceedings of the 6th Annual ACM International Workshop on Web Information and Data Management. ACM, New York, 128–135.

[11] Carl H. Mooney, and John F. Roddick (2013), Sequential pattern mining

Approaches and algorithms, Journal ACM Computing Surveys, Volume 45

Issue 2, Article No. 19

[12] Song, S., Hu, H., and Jin, S. (2005), HVSM: A new sequential pattern mining algorithm using bitmap representation. In Advanced Data Mining and Applications, Lecture Notes in Computer Science, vol. 3584, Springer,

Berlin, 455–463.

[13] Chiu, D.-Y., Wu, Y.-H., and Chen, A. L. P. (2004), An efficient algorithm for mining frequent sequences by a new strategy without support counting,

In Proceedings of the 20th International Conference on Data Engineering. 375–386

[14] Ezeife, C. I. and Lu, Y. (2005), Mining web log sequential patterns with position coded pre-order linked WAP-tree, Int. J. Data Mining Knowl.

Discovery 10, 5–38.

[15] Fournier-Viger, P., Gomariz, A., Gueniche, T., Mwamikazi, E., Thomas, R.

(2013), Efficient Mining of Top-K Sequential Patterns, Proc. 9th

International Conference on Advanced Data Mining and Applications (ADMA 2013) Part I, Springer LNAI 8346, pp. 109-120

[16] Samy Chambi, Daniel Lemire, Owen Kaser, Robert Godin. (2014), Better bitmap performance with Roaring bitmaps, arXiv:1402.6407

Một phần của tài liệu Khai thác k mẫu tuần tự phổ biến dựa trên roaring bitmap (Trang 74 - 76)

Tải bản đầy đủ (PDF)

(76 trang)