Khái niệm khai phá dữ liệu Data mining Khai phá dữ liệu: là quá trình khám phá ra những mối tương quan mới có ý nghĩa , mẫu và xu hướng bằng cách chọn ra từ lượng lớn dữ liệu đã được lư
LÝ THUYẾT
Khai phá dữ liệu
1 Khái niệm khai phá dữ liệu
Khai phá dữ liệu là quá trình tìm kiếm và phát hiện những mối quan hệ, mẫu và xu hướng mới có ý nghĩa từ một lượng lớn dữ liệu đã được lưu trữ Quá trình này sử dụng các công nghệ nhận diện mẫu, xác suất thống kê và các kỹ thuật toán học để phân tích và rút ra thông tin giá trị từ dữ liệu.
2 Các lĩnh vực liên quan tới Khai phá dữ liệu
Algorithms (thuật toán): Hỗ trợ khai phá tri thức từ cơ sở dữ liệu.
Machine Learning (Học Máy): Là phương tiện để tiến hành khai phá dữ liệu Sử dụng các dữ liệu từ DM để xây dựng các mô hình
Database Management (Quản trị cơ sở dữ liệu): Lưu trữ dữ liệu để khai phá
Trí tuệ nhân tạo (AI) dựa vào việc khai phá dữ liệu, một yếu tố quan trọng trong mã lập trình, cung cấp thông tin và dữ liệu cần thiết cho các hệ thống AI hoạt động hiệu quả.
Visualization (Trực Quan dữ liệu) : Mô tả dữ liệu một cách trực quan nhất
3 Các ứng dụng thực tế của Khai phá dữ liệu:
Lĩnh vực giao thông vận tải
Cho phép tìm ra các xe lưu thông ngược chiều , vượt đèn đỏ,… thông qua xử lí dữ liệu hình ảnh
Lĩnh vực thương mại điện tử
Nhiều công ty thương mại điện tử, như Amazon, đang áp dụng khai thác dữ liệu để mở rộng bán hàng trên toàn cầu qua trang web của họ Amazon sử dụng các kỹ thuật này để gợi ý sản phẩm cho khách hàng, dựa trên hành vi của những người đã xem sản phẩm tương tự.
Lĩnh vực chăm sóc sức khỏe
Data Mining giúp doanh nghiệp nâng cao lợi thế cạnh tranh bằng cách cung cấp thông tin quan trọng về chính phủ, quy định và đối thủ Nó hỗ trợ quá trình nghiên cứu và phát triển (R&D) cũng như chiến lược tiếp cận thị trường với khả năng truy cập thông tin nhanh chóng Hơn nữa, việc phân tích mối quan hệ giữa các loại bệnh và hiệu quả điều trị có thể dẫn đến việc phát triển thuốc mới và đảm bảo bệnh nhân nhận được sự chăm sóc phù hợp và kịp thời.
4 Khai phá dữ liệu với tìm kiếm thông thường
Khai phá dữ liệu là quá trình phát hiện các mối tương quan và xu hướng mới từ khối lượng lớn dữ liệu đã lưu trữ, thông qua các phương pháp nhận diện mẫu, xác suất thống kê và các kỹ thuật toán học Điều này khác biệt với việc tìm kiếm thông thường, chỉ đơn thuần lọc ra dữ liệu từ nguồn dữ liệu có sẵn.
Việc tìm kiếm biển số xe vi phạm luật giao thông thường gặp khó khăn khi chỉ có thể xác định nếu biết trước biển số Tuy nhiên, với công nghệ khai phá dữ liệu, chúng ta có thể sử dụng hình ảnh từ camera để xử lý và xác định xem xe có vi phạm hay không.
Quy trình khai phá dữ liệu
1 Tổng quan Quy trình Khai phá dữ liệu
Hình 1 1 Quy trình khai phá dữ liệu
2 Nhiệm vụ của mỗi bước trong Quy trình khai phá dữ liệu
Cleaning data(Làm sạch dữ liệu): để loại bỏ nhiễu và dữ liệu không nhất quán.
Tích hợp dữ liệu là quá trình kết hợp nhiều nguồn dữ liệu khác nhau, trong khi lựa chọn dữ liệu liên quan đến việc truy xuất thông tin cần thiết cho nhiệm vụ phân tích từ cơ sở dữ liệu.
Chuyển đổi dữ liệu là quá trình mà dữ liệu được chuyển đổi và hợp nhất thành các định dạng phù hợp, nhằm mục đích khai thác thông tin hiệu quả hơn thông qua các hoạt động tóm tắt hoặc tổng hợp.
Data Mining (Khai thác dữ liệu) :một quy trình thiết yếu trong đó các phương pháp thông minh được áp dụng để trích xuất mẫu dữ liệu.
Patternevaluation (Đánh giá mẫu) :để xác định độ thú vị của mẫu dựa theo các thước đo.
Trình bày kiến thức là quá trình sử dụng các kỹ thuật công nghệ trực quan để truyền đạt thông tin đã được khai thác đến người dùng một cách hiệu quả.
3 Tiền xử lí dữ liệu:
Các nhiệm vụ chính trong tiền xử lý dữ liệu
Để tích hợp dữ liệu hiệu quả, cần điền vào các giá trị còn thiếu, làm mịn dữ liệu nhiễu, xác định hoặc loại bỏ các ngoại lệ và giải quyết các mâu thuẫn.
+ Tích hợp nhiều cơ sở dữ liệu, khối dữ liệu hoặc tệp - Chuyển đổi dữ liệu
Chuẩn hóa và tổng hợp là quá trình giảm thiểu dữ liệu, giúp tạo ra đại diện nhỏ hơn về khối lượng nhưng vẫn duy trì được các kết quả phân tích tương tự hoặc giống nhau, tùy thuộc vào loại dữ liệu.
+ Một phần của việc giảm dữ liệu nhưng có tầm quan trọng đặc biệt,đặc biệt là đối với dữ liệu số
+Là quá trình giảm số chiều của dữ liệu mà không làm mất các thông tin quan trọng. -Feature selection:
+Là quá trình lựa chọn một tập hợp con các đặc điểm có liên quan để sử dụng trong việc xây dựng mô hình
Kho dữ liệu
Kho dữ liệu là một hệ thống lưu trữ thông tin được thu thập từ nhiều nguồn khác nhau, được tổ chức theo một lược đồ thống nhất và thường được triển khai trên một trang web Để xây dựng kho dữ liệu, cần thực hiện các quy trình như làm sạch, tích hợp, chuyển đổi, tải và làm mới dữ liệu.
2 Kho dữ liệu với Cơ sở dữ liệu tác nghiệp
Hệ thống cơ sở dữ liệu tác nghiệp trực tuyến (OLTP) có nhiệm vụ chính là thực hiện các giao dịch trực tuyến và xử lý truy vấn, tập trung vào các hoạt động hàng ngày của tổ chức như mua bán, kiểm kê, sản xuất và ngân hàng Ngược lại, kho dữ liệu được thiết kế để phân tích dữ liệu và hỗ trợ quyết định, với khả năng tổ chức và biểu diễn dữ liệu dưới nhiều định dạng khác nhau nhằm đáp ứng nhu cầu người dùng Hệ thống xử lý phân tích trực tuyến (OLAP) khác biệt với OLTP qua kích thước cơ sở dữ liệu, tần suất thao tác và độ đo thực thi.
3 Đặc tính của Kho dữ liệu
Kho dữ liệu được tổ chức xung quanh các chủ thể chính như khách hàng, nhà cung cấp, sản phẩm và bán hàng, nhằm cung cấp cái nhìn rõ ràng và ngắn gọn về các vấn đề cụ thể Thay vì tập trung vào các hoạt động hàng ngày và giao dịch của tổ chức, kho dữ liệu chú trọng vào mô hình hóa và phân tích dữ liệu, hỗ trợ cho những người ra quyết định Việc loại trừ dữ liệu không hữu ích giúp nâng cao hiệu quả trong quá trình ra quyết định.
Kho dữ liệu được xây dựng thông qua việc tích hợp nhiều nguồn dữ liệu không đồng nhất, bao gồm cơ sở dữ liệu quan hệ, tệp và hồ sơ giao dịch trực tuyến Để đảm bảo tính nhất quán, các kỹ thuật làm sạch và tích hợp dữ liệu được áp dụng, giúp đồng bộ hóa các quy ước đặt tên, cấu trúc mã hóa và các biện pháp thuộc tính.
Biến thể theo thời gian là yếu tố quan trọng trong việc lưu trữ dữ liệu, cho phép cung cấp thông tin từ góc độ lịch sử trong khoảng thời gian 5 đến 10 năm qua Mỗi cấu trúc chính trong kho dữ liệu đều bao gồm một yếu tố thời gian, dù là ngầm định hay rõ ràng.
Kho dữ liệu là một kho lưu trữ dữ liệu tách biệt về mặt vật lý, chuyển đổi từ dữ liệu ứng dụng trong môi trường hoạt động Sự tách biệt này giúp kho dữ liệu không cần xử lý giao dịch, khôi phục hay các cơ chế kiểm soát đồng thời Chỉ cần thực hiện hai thao tác chính là tải dữ liệu ban đầu và truy cập dữ liệu.
Hệ thống cơ sở dữ liệu trực tuyến chủ yếu thực hiện giao dịch và xử lý truy vấn, được gọi là xử lý giao dịch trực tuyến (OLTP), phục vụ cho các hoạt động hàng ngày của tổ chức như mua sắm, quản lý hàng tồn kho, ngân hàng, và kế toán Ngược lại, hệ thống kho dữ liệu hỗ trợ người dùng trong việc phân tích dữ liệu và ra quyết định, được gọi là xử lý phân tích trực tuyến (OLAP), có khả năng tổ chức và trình bày dữ liệu theo nhiều định dạng khác nhau để đáp ứng nhu cầu đa dạng của người dùng.
5 Phân biệt OLTP và OLAP
Hệ thống OLTP tập trung vào khách hàng, phục vụ cho việc xử lý giao dịch và truy vấn của nhân viên, khách hàng và chuyên gia công nghệ thông tin Ngược lại, hệ thống OLAP hướng tới thị trường, được sử dụng để phân tích dữ liệu bởi các nhân viên tri thức như nhà quản lý, giám đốc điều hành và nhà phân tích.
Hệ thống OLTP quản lý dữ liệu hiện tại thường quá chi tiết, gây khó khăn trong việc ra quyết định Ngược lại, hệ thống OLAP xử lý một lượng lớn dữ liệu lịch sử, cho phép tóm tắt và tổng hợp thông tin, đồng thời lưu trữ và quản lý dữ liệu ở nhiều mức độ chi tiết khác nhau Những tính năng này giúp dữ liệu trở nên dễ dàng hơn cho việc đưa ra quyết định sáng suốt.
Trong thiết kế cơ sở dữ liệu, hệ thống OLTP thường sử dụng mô hình dữ liệu mối quan hệ thực thể (ER) và thiết kế cơ sở dữ liệu hướng ứng dụng Ngược lại, hệ thống OLAP thường áp dụng mô hình ngôi sao hoặc bông tuyết, tập trung vào thiết kế cơ sở dữ liệu theo chủ thể.
Hệ thống OLTP tập trung vào dữ liệu hiện tại của doanh nghiệp mà không xem xét dữ liệu lịch sử hoặc từ các tổ chức khác Ngược lại, hệ thống OLAP thường bao gồm nhiều phiên bản của lược đồ cơ sở dữ liệu và tích hợp thông tin từ nhiều nguồn khác nhau, phản ánh sự phát triển của tổ chức Với khối lượng dữ liệu lớn, dữ liệu OLAP được lưu trữ trên nhiều loại phương tiện truyền thông khác nhau.
Hệ thống OLTP chủ yếu sử dụng các mẫu truy cập ngắn gọn và giao dịch nguyên tử, đòi hỏi cơ chế kiểm soát và phục hồi đồng thời Ngược lại, hệ thống OLAP chủ yếu phục vụ cho các hoạt động chỉ đọc, vì kho dữ liệu thường lưu trữ thông tin lịch sử thay vì thực hiện cập nhật, mặc dù nhiều truy vấn có thể phức tạp.
6 Trình bày kiến trúc của Kho dữ liệu
Kiến trúc kho dữ liệu là một hệ thống phức tạp, bao gồm dữ liệu lịch sử và dữ liệu giao hoán từ nhiều nguồn khác nhau Có ba phương pháp chính để xây dựng kho dữ liệu: một lớp, hai lớp và ba lớp Trong đó, kiến trúc ba tầng của kho dữ liệu được giải thích chi tiết như sau.
Mục tiêu chính của một lớp là giảm thiểu lượng dữ liệu lưu trữ bằng cách loại bỏ dư thừa Tuy nhiên, kiến trúc này không được áp dụng phổ biến trong thực tế.
Kiến trúc hai lớp là một loại kho dữ liệu giúp phân tách các nguồn vật lý và kho dữ liệu Tuy nhiên, kiến trúc này gặp khó khăn trong việc mở rộng và không thể hỗ trợ nhiều người dùng cuối Ngoài ra, nó cũng gặp vấn đề về kết nối do hạn chế của mạng.
Kiến trúc kho dữ liệu ba tầng Đây là Kiến trúc Kho dữ liệu được sử dụng rộng rãi nhất.
Nó bao gồm Tầng trên cùng, Tầng giữa và Tầng dưới cùng.