Cỏc ứ ng dụng và xu hướng trong khai phỏ dữ liệ u

Một phần của tài liệu Xử lý văn bản tiếng việt theo mô hình tập thô dung saii (Trang 30 - 33)

Nhiều cụng cụ khai phỏ dữ liệu đĩ được phỏt triển cho cỏc ứng dụng lĩnh vực cụ thể, bao gồm tài chớnh, cụng nghiệp bỏn lẻ, viễn thụng, tin sinh học, phỏt hiện xõm phạm, cỏc ngành khoa học, kỹ thuật khỏc và phõn tớch dữ liệu chớnh phủ. Hoạt động đú kết hợp tri thức trong lĩnh vực cụ thể với cỏc kỹ thuật phõn tớch dữ liệu và đưa ra giải phỏp khai phỏ dữ liệu cho nhiệm vụ cụ thể.

Cú nhiều hệ thống khai phỏ dữ liệu và nguyờn mẫu nghiờn cứu để lựa chọn. Khi chọn một sản phẩm khai phỏ dữ liệu phự hợp cho một nhiệm vụ, cần phải cõn nhắc cỏc đặc điểm của cỏc hệ thống khai phỏ dữ liệu từ quan điểm đa chiều. Những cõn nhắc này bao gồm loại dữ liệu, vấn đề của hệ thống, nguồn dữ liệu, cỏc chức năng và phương phỏp khai phỏ dữ liệu, việc liờn kết chặt chẽ hệ thống khai phỏ dữ liệu bằng cơ sở dữ liệu hoặc hệ thống kho dữ liệu, khả năng cú thể thay đổi về quy mụ, cỏc cụng cụ trực quan húa, ngụn ngữ truy vấn khai phỏ dữ liệu và cỏc giao diện người dựng đồ họa.

Cỏc nhà nghiờn cứu đĩ và đang nỗ lực xõy dựng những nền tảng lý thuyết cho khai phỏ dữ liệu. Một vài để xuất thỳ vị đĩ xuất hiện, dựa trờn rỳt gọn dữ liệu,

(1.11)

nộn dữ liệu, khỏm phỏ dạng mẫu, lý thuyết xỏc suất, lý thuyết vi kinh tế và cơ sở dữ liệu quy nạp.

Khai phỏ dữ liệu trực quan kết hợp khai phỏ dữ liệu và trực quan húa dữ liệu để khỏm phỏ cỏc tri thức tiềm ẩn và hữu ớch từ cỏc tập hợp dữ liệu lớn. Cỏc biểu mẫu khai phỏ dữ liệu trực quan bao gồm trực quan húa dữ liệu, trực quan húa kết quả khai phỏ dữ liệu, trực quan húa quỏ trỡnh khai phỏ dữ liệu khai phỏ dữ liệu trực quan tương tỏc. Khai thỏc phỏ liệu õm thanh sử dụng cỏc tớn hiệu õm thanh để chỉ ra cỏc mẫu dữ liệu hoặc cỏc đặc tớnh của kết quả khai phỏ dữ liệu.

Một vài phương phỏp thống kờ cú từ lõu đĩ được đề xuất cho phõn tớch dữ liệu, chẳng hạn như hồi qui, mụ hỡnh tuyến tớnh tổng quỏt, phõn tớch phương sai, mụ hỡnh hiệu ứng hỗn hợp, phõn tớch hệ số, phõn tớch biệt số, phõn tớch chuỗi thời gian, phõn tớch biến cố và kiểm soỏt chất lượng. Việc đề cập đến tất cả cỏc phương phỏp phõn tớch dữ liệu thống kờ nằm ngồi phạm vi mà ta đang xột ởđõy.

Cỏc hệ thống giới thiệu cộng tỏc đưa ra những lời giới thiệu sản phẩm cỏ nhõn húa dựa trờn ý kiến của những khỏch hàng khỏc. Cỏc hệ thống này cú thể sử dụng kỹ thuật khai phỏ dữ liệu hoặc thống kờ để tỡm kiếm những điểm giống nhau trong số cỏc ưu tiờn của khỏch hàng.

Khai phỏ dữ liệu thường gặp là khai phỏ dữ liệu trong nhiều lĩnh vực cuộc sống hàng ngày của chỳng ta. Việc này cú thể ảnh hưởng đến cỏch chỳng ta mua sắm, làm việc, tỡm kiếm thụng tin và sử dụng mỏy tớnh cũng như thời gian rảnh rối, sức khỏe và hạnh phỳc của chỳng ta. Trong khai phỏ dữ liệu vụ hỡnh, cỏc phần mềm "thụng minh", chẳng hạn như cỏc bộ mỏy tỡm kiếm Web, cỏc dịch vụ Web thớch ứng với khỏch hàng, trỡnh quản lý e-mail, vv…kết hợp khai phỏ dữ liệu thành cỏc bộ phận chức năng của nú, thường khụng được người dựng biết đến.

Một mối lo ngại lớn về mặt xĩ hội của khai phỏ dữ liệu đú là vấn đềriờng tư và bảo mật dữ liệu, đặc biệt là khi lượng dữ liệu thu thập được về cỏc cỏ nhõn đang tiếp tục gia tăng. Cỏc quy tắc thụng tin cụng bằng đĩ được xỏc lập để bảo vệ sự riờng tư và dữ liệu đồng thời bao quỏt cỏc lĩnh vực liờn quan đến việc thu thập và sử dụng dữ liệu cỏ nhõn. Khai phỏ dữ liệu để chống khủng bố cú thể mang lại lợi ớch

cho an ninh quốc gia và cứu sống nhiều người nhưng lại làm nảy sinh thờm cỏc mối lo ngại về sự riờng tư do khả năng cú thể tiếp cận dữ liệu cỏ nhõn. Cỏc nỗ lực nhằm đảm bảo sự riờng tư và bảo mật dữ liệu bao gồm phỏt triển phương phỏp khai phỏ dữ liệu cú thể bảo vệ sự riờng tư (phương phỏp này nhằm thu được cỏc kết quả khai phỏ dữ liệu hợp phỏp mà khụng tỡm hiểu cỏc giỏ trị dữ liệu tiềm ẩn) và cỏc kỹ thuật tăng cường độ bảo mật (chẳng hạn như mĩ húa).

Cỏc xu hướng trong khai phỏ dữ liệu bao gồm tiếp tục nỗ lực nhằm khỏm phỏ cỏc lĩnh vực ứng dụng mới, cải tiến cỏc phương phỏp mở rộng quy mụ và tương tỏc (bao gồm khai phỏ dựa trờn điều kiện ràng buộc), kết hợp khai phỏ dữ liệu với hệ thống kho dữ liệu và cơ sở dữ liệu, chuẩn húa ngụn ngữ khai phỏ dữ liệu, phương phỏp trực quan húa và những phương phỏp mới để xử lý cỏc loại dữ liệu phức tạp. Cỏc xu hướng khỏc bao gồm khai phỏ dữ liệu sinh học, bọ phần mềm khai phỏ, khai phỏ Web, khai phỏ phõn bố và thời gian thực, khai phỏ đồ thị, phõn tớch mạng xĩ hội, khai phỏ dữ liệu đa quan hệ và đa cơ sở dữ liệu, bảo vệ sự riờng tư của dữ liệu và bảo mật dữ liệu.

Kết chương: Chương này vừa trỡnh bày cỏc khỏi niệm cơ bản, một số bài toỏn, kỹ thuật và phương phỏp thường dựng trong khai phỏ dữ liệu, làm nền tảng cho cỏc phương phỏp khai phỏ dữ liệu văn bản sẽ được đề cập đến trong cỏc chương tiếp theo. Đõy là phần trỡnh bày chung, mang tớnh tổng quan nhưng tương đối quan trọng. Chương tiếp theo sẽ trỡnh bày về lý thuyết tập thụ và cỏc ứng dụng của nú trong khai phỏ dữ liờu.

Chương 2

Tập thụ và ứng dụng

Một phần của tài liệu Xử lý văn bản tiếng việt theo mô hình tập thô dung saii (Trang 30 - 33)

Tải bản đầy đủ (PDF)

(127 trang)