1. Trang chủ
  2. » Luận Văn - Báo Cáo

(LUẬN VĂN THẠC SĨ) Một số phương pháp khai phá dữ liệu và ứng dụng trong bài toán lập thời khoá biểu

126 4 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 126
Dung lượng 1,93 MB

Cấu trúc

  • 1.1. Tổng quan về cơ sở dữ liệu và khai phá dữ liệu (8)
    • 1.1.1. Tổ chức và khai thác cơ sở dữ liệu truyền thống (8)
    • 1.1.2. Khai phá dữ liệu và quá trình phát hiện tri thức (9)
  • 1.2. Kho dữ liệu (12)
    • 1.2.1. Sự cần thiết của kho dữ liệu (12)
    • 1.2.2. Định nghĩa kho dữ liệu (14)
    • 1.2.3. So sánh Kho dữ liệu và hệ quản trị cơ sở dữ liệu truyền thống (16)
    • 1.2.4. So sánh hệ thống cơ sở dữ liệu tác nghiệp và hệ thống kho dữ liệu (17)
    • 1.2.5. Dữ liệu trong Kho dữ liệu (19)
    • 1.2.6. Kiến trúc kho dữ liệu (20)
    • 1.2.7. Ba mô hình của Kho dữ liệu (24)
    • 1.2.8. Hướng tiếp cận đề nghị khi phát triển Kho dữ liệu [9] (25)
    • 1.2.9. Từ Kho dữ liệu đến khai phá dữ liệu (25)
  • CHƯƠNG 2. KHAI PHÁ DỮ LIỆU (28)
    • 2.1.1. Khai phá dữ liệu là gì ? (28)
    • 2.1.2. Động cơ thúc đẩy dùng khai phá dữ liệu (28)
    • 2.2. Các ứng dụng của khai phá dữ liệu (29)
      • 2.2.1. Phân tích cơ sở dữ liệu và trợ giúp ra quyết định (29)
      • 2.2.2. Các ứng dụng khác (30)
    • 2.3. Khai phá dữ liệu trong quá trình phát hiện tri thức (31)
    • 2.4. Khai phá dữ liệu và tin tức kinh doanh (33)
    • 2.5. Kiến trúc điển hình của hệ thống khai phá dữ liệu (0)
    • 2.6. Khai phá dữ liệu nơi hội tụ của rất nhiều kiến thức (34)
    • 2.7. Trọng tâm chính trong khai phá dữ liệu (34)
    • 2.8. Những vấn đề không cần dùng khai phá dữ liệu (35)
    • 2.9. quá trình khai phá dữ liệu (36)
      • 2.9.1. Truy cập và chuẩn bị dữ liệu (36)
      • 2.9.2. Quá trình khái phá dữ liệu (39)
    • 2.10. Các nhiệm vụ chính của khai phá dữ liệu (39)
    • 2.11. Các thành phần của giải thuật khai phá dữ liệu (41)
  • CHƯƠNG 3. CÁC PHƯƠNG PHÁP KHAI PHÁ DỮ LIỆU TRỰC QUAN (42)
    • 3.1. Quan sát các hoạt động không theo chủ quan (42)
    • 3.2. Trực quan và đòi hỏi của nhận thức (0)
    • 3.3. Vẽ sơ đồ dữ liệu trên lƣợc đồ trực quan (44)
      • 3.3.1. Thuật toán xác định vị trí [6] (44)
      • 3.3.2. Điều khiển sự xuất hiện của các đối tƣợng trong các thể hiện (47)
      • 3.3.3. Làm cho các hiển thị có thể hiểu đƣợc (47)
    • 3.4. Những cách tiếp cận phân tích (48)
      • 3.4.1. Phân tích đặc điểm cấu trúc (48)
      • 3.4.2. Phân tích cấu trúc mạng (50)
      • 3.4.3. Phân tích những mẫu thời gian (54)
      • 3.4.4. Thiết lập các lớp mẫu thời gian (54)
      • 4.1.2. Khi nào thì sử dụng phân tích thống kê (57)
    • 4.2. Phương pháp cây quyết định và luật (58)
      • 4.2.1. Phương pháp cây quyết định và luật (58)
      • 4.2.2. Khi nào dùng cây quyết định (60)
    • 4.3. Các luật kết hợp (60)
      • 4.3.1. Luật kết hợp (60)
      • 4.3.2. Khi nào dùng các luật kết hợp (61)
    • 4.4. Mạng Nơ ron (61)
      • 4.4.1. Mạng Nơ ron (61)
      • 4.4.2. Khi nào sử dụng phương pháp học không có thầy (63)
    • 4.5. Giải thuật di truyền (63)
      • 4.5.1. Giải thuật di truyền (63)
      • 4.5.2. Khi nào sử dụng giải thuật Di truyền (64)
    • 4.6. Các phương pháp khai phá dữ liệu khác (64)
      • 4.6.1. Phân nhóm và phân đoạn (64)
      • 4.6.2. Phương pháp suy diễn và quy nạp (65)
      • 4.6.3. Các phương pháp dựa trên mẫu (65)
      • 4.6.4. Khai phá dữ liệu văn bản (65)
    • 4.7. lựa chọn phương pháp khai phá dữ liệu (66)
    • 4.8. ƣu thế và khó khăn của khai phá dữ liệu (0)
      • 4.8.1. Ƣu thế (0)
      • 4.8.2. Khó khăn (68)
  • CHƯƠNG 5. GIẢI THUẬT DI TRUYỀN VÀ BÀI TOÁN LẬP THỜI KHOÁ BIỂU (72)
    • 5.1. Tổng quan giải thuật di truyền cổ điển (72)
      • 5.1.1. Ý tưởng của giải thuật (72)
      • 5.1.2 Cấu trúc của GA cổ điển (73)
    • 5.2. GA và bài toán lập thời khoá biểu ở trường cao đẳng công nghiệp hà nội (77)
      • 5.2.1. Giới thiệu (77)
      • 5.2.2. Các định nghĩa (79)
      • 5.2.3. Giải thuật di truyền cho thời khoá biểu (81)
      • 5.2.4. Thiết kế cơ sở dữ liệu (92)
      • 5.2.5. Chương trình lập thời khoá biểu (95)
  • KẾT LUẬN (55)
  • TÀI LIỆU THAM KHẢO (100)
  • PHỤ LỤC (102)

Nội dung

Tổng quan về cơ sở dữ liệu và khai phá dữ liệu

Tổ chức và khai thác cơ sở dữ liệu truyền thống

Từ những năm 60, việc sử dụng công nghệ thông tin để khai thác cơ sở dữ liệu (CSDL) đã phát triển mạnh mẽ Hiện nay, hàng triệu CSDL đã được xây dựng và ứng dụng trong nhiều lĩnh vực khác nhau của xã hội Mỗi 24 tháng, lượng thông tin trên thế giới tăng gấp đôi, nhờ vào sự tiến bộ của công nghệ bán dẫn và các hệ thống có dung lượng lớn cùng bộ xử lý tốc độ cao Những công nghệ truyền hiện đại đã giúp tạo ra các hệ thống thông tin hiện đại, hỗ trợ hoạt động kinh doanh, đồng thời tạo ra khối lượng dữ liệu khổng lồ cần được xử lý, bao gồm các CSDL lớn lên đến gigabytes và terabytes.

Nhiều hệ quản trị cơ sở dữ liệu (CSDL) và công cụ mạnh mẽ đã ra đời, giúp con người khai thác hiệu quả nguồn tài nguyên dữ liệu Mô hình CSDL quan hệ cùng với ngôn ngữ truy vấn cấu trúc (SQL) đóng vai trò quan trọng trong việc tổ chức và khai thác CSDL Hiện nay, không có tổ chức kinh tế nào không sử dụng các hệ quản trị CSDL và công cụ báo cáo, ngôn ngữ hỏi đáp để phục vụ cho hoạt động nghiệp vụ của mình.

Với sự phát triển của các hệ thống cơ sở dữ liệu, các hệ thống thông tin đã trở nên chuyên môn hóa và sâu sắc hơn trong các lĩnh vực như sản xuất, kinh doanh và tài chính Điều này dẫn đến nhu cầu khai thác dữ liệu không chỉ dừng lại ở việc xử lý thông tin mà còn cần chuyển hóa dữ liệu thành tri thức có giá trị cho quyết định kinh doanh Sự gia tăng nhanh chóng của khối lượng dữ liệu đã làm khó khăn cho việc ra quyết định kịp thời và chính xác, trong khi các mô hình cơ sở dữ liệu truyền thống không đủ khả năng đáp ứng yêu cầu này Do đó, kỹ thuật tạo kho dữ liệu (Data Warehousing) đã được phát triển để hợp nhất và ổn định hóa dữ liệu từ nhiều nguồn khác nhau Tuy nhiên, việc khai thác dữ liệu truyền thống vẫn chưa đủ để cung cấp tri thức từ dữ liệu, và các công nghệ như OLAP hay học máy chưa thể khai thác hiệu quả dữ liệu lớn Điều này tạo ra khoảng trống trong việc phân tích dữ liệu và khiến nhiều thông tin quý giá vẫn chưa được khai thác Ngày càng nhiều người nhận ra rằng nếu được phân tích đúng cách, dữ liệu sẽ trở thành một nguồn tài nguyên quý giá trong cạnh tranh thương mại, dẫn đến sự ra đời của công nghệ Khai phá dữ liệu.

Khai phá dữ liệu và quá trình phát hiện tri thức

Trong 60 năm qua, việc sử dụng cơ sở dữ liệu trong tổ chức đã phát triển mạnh mẽ, dẫn đến nhu cầu khai thác tri thức từ dữ liệu thu thập được Bài toán Phát hiện tri thức từ cơ sở dữ liệu ra đời nhằm khám phá những tri thức tiềm ẩn mà chúng ta chưa nhận ra Nhiệm vụ của chúng ta là phát hiện và khai thác các tri thức này để phục vụ cho nhu cầu thông tin cao hơn, chẳng hạn như trong các hệ chuyên gia và hệ hỗ trợ quyết định.

Khai phá dữ liệu là quá trình chắt lọc tri thức từ một lượng lớn dữ liệu, tương tự như việc tìm kiếm vàng từ đá và cát Thuật ngữ này chỉ việc tìm kiếm một tập hợp nhỏ có giá trị từ dữ liệu thô khổng lồ Ngoài ra, còn nhiều thuật ngữ khác như khai phá tri thức, chắt lọc tri thức, phân tích dữ liệu/mẫu, khảo cổ dữ liệu và nạo vét dữ liệu, đều mang ý nghĩa tương tự với khai phá dữ liệu.

Nhiều người thường nhầm lẫn giữa khai phá dữ liệu và khai phá tri thức (KDD) Trên thực tế, khai phá dữ liệu chỉ là một giai đoạn trong quy trình KDD Quy trình KDD bao gồm các bước được thực hiện theo một thứ tự nhất định.

1 Làm sạch dữ liệu: Loại bỏ nhiễu và các dữ liệu không cần thiết

2 Tích hợp dữ liệu: Các nguồn dữ liệu khác nhau tích hợp lại

3 Lựa chọn dữ liệu: Các dữ liệu có liên quan tới quá trình phân tích đƣợc lựa chọn từ cơ sở dữ liệu

4 Chuyển đổi dữ liệu: Các dữ liệu đƣợc chuyển đổi sang các dạng phù hợp cho quá trình xử lý

5 Khai phá dữ liệu: Là một trong nhưng bước quan trọng nhất, trong đó sử dụng những phương pháp thông minh để chắt lọc ra những mẫu dữ liệu

6 Ước lượng mẫu: Quá trình đánh giá các kết quả tìm đƣợc thông qua các độ đo nào đó

7 Biểu diễn tri thức: Quá trình này sử dụng các kĩ thuật biểu diễn và thể hiện trực quan các tri thức cho người dùng

Khai phá dữ liệu là giai đoạn quan trọng trong quá trình phát hiện tri thức từ cơ sở dữ liệu Công đoạn này diễn ra sau khi dữ liệu đã được thu thập và tinh lọc, nhằm tìm kiếm các mẫu hình tri thức có ý nghĩa trong tập dữ liệu có hy vọng, thay vì phân tích toàn bộ cơ sở dữ liệu như các phương pháp thống kê truyền thống.

Khai phá dữ liệu là quá trình tìm kiếm mô hình phù hợp và các mẫu hình tri thức từ dữ liệu Chỉ những mẫu phù hợp với mục đích tìm kiếm mới được xem là tri thức Để đánh giá các tiêu chí mẫu, chúng ta sử dụng các hàm số như độ mới, lợi ích và tính đáng xem xét Độ mới của mẫu hình phụ thuộc vào khung phạm vi quy chiếu, có thể là đối với hệ thống hoặc người dùng Ví dụ, một luật khai phá dữ liệu như “Lợi tức thu được giảm vào mùa thu ở vùng phía Bắc” có thể rất mới đối với hệ thống, nhưng lại dễ dàng nhận ra bởi các cán bộ lập kế hoạch thông qua báo cáo tài chính.

Mẫu có tính hữu dụng cao khi liên quan trực tiếp đến mục đích tìm kiếm Đối với cán bộ phụ trách bảo trì máy tính tại công ty, luật này không mang lại giá trị thực tế, mặc dù nó có thể là điều mới mẻ với anh ta.

Trong quá trình khai phá tri thức, không phải tất cả các mẫu được rút ra đều có giá trị; một số có thể mới mẻ và hữu ích nhưng lại tầm thường, đặc biệt khi áp dụng các kỹ thuật thống kê Do đó, cần thiết phải thiết lập các tiêu chí và hàm đánh giá để xác định những mẫu đáng xem xét và không tầm thường.

Khai phá dữ liệu là quá trình xác định mẫu từ các Datawarehouse, áp dụng các kỹ thuật như học máy, nhận dạng, thống kê và phân loại Ngoài ra, nó còn sử dụng các công nghệ tiên tiến từ nghiên cứu trí tuệ nhân tạo, bao gồm mạng nơ-ron nhân tạo, thuật toán di truyền và quy nạp luật.

Ta có thể xét đến một số bài toán chính đối với nghiên cứu về Khai phá dữ liệu [9]:

 Bài toán phân lớp (classification): Tìm một ánh xạ (phân loại) từ một mẫu dữ liệu vào một trong các lớp cho trước

 Bài toán hồi quy (regression): Tìm một ánh xạ hồi quy từ một mẫu dữ liệu vào một biến dự đoán có giá trị thực

 Bài toán lập nhóm (clustering): Là việc mô tả chung để tìm ra các tập xác định hữu hạn các nhóm hay các loại để mô tả dữ liệu

 Bài toán tổng kết (summarization): Là việc đi tìm kiếm một mô tả chung tóm tắt cho một tập con dữ liệu.

Kho dữ liệu

Sự cần thiết của kho dữ liệu

Việc ứng dụng công nghệ thông tin trong môi trường nghiệp vụ hiện nay đã mang lại hiệu quả to lớn, với sự phát triển không ngừng của công nghệ và mở rộng quy mô áp dụng từ các ứng dụng đơn lẻ đến hệ thống thông tin lớn Các hệ thống thông tin không chỉ xử lý công việc hàng ngày mà còn đáp ứng yêu cầu cao hơn, giúp nhà quản lý nắm bắt tình hình hiện tại và dự đoán tương lai, từ đó cung cấp thông tin phân tích và hỗ trợ quyết định Tuy nhiên, việc xây dựng hệ thống thông tin gặp nhiều hạn chế kỹ thuật, đặc biệt khi kích thước và độ phức tạp của môi trường thông tin gia tăng Các hệ thống thông tin theo phương pháp truyền thống thường không đáp ứng được nhu cầu của người sử dụng và nhà quản lý.

1 Không thể tìm thấy dữ liệu cần thiết:

Dữ liệu phân tán trên nhiều hệ thống với các giao diện và công cụ khác nhau gây tốn thời gian khi chuyển đổi giữa các hệ thống.

Trong thời đại thông tin hiện nay, có nhiều nguồn dữ liệu khác nhau có thể đáp ứng nhu cầu của người dùng Tuy nhiên, những nguồn này thường có sự khác biệt lớn và việc xác định thông tin chính xác và cần thiết trở nên khó khăn Điều này dẫn đến việc người dùng không thể trích xuất dữ liệu cần thiết một cách hiệu quả.

Việc thường xuyên cần sự trợ giúp từ chuyên gia dẫn đến tình trạng công việc bị dồn đống Một số loại thông tin không thể truy xuất nếu không mở rộng khả năng của hệ thống hiện tại Điều này khiến cho việc hiểu dữ liệu tìm thấy trở nên khó khăn.

- Mô tả dữ liệu nghèo nàn và thường xa rời với thuật ngữ nghiệp vụ quen thuộc

2 Không thể sử dụng được dữ liệu tìm thấy:

- Kết quả tìm thấy thường không đáp ứng về bản chất dữ liệu và thời gian tìm kiếm

- Dữ liệu phải chuyển đổi bằng thủ công vào môi trường làm việc của người sử dụng

3 Các vấn đề về hệ thống thông tin- Phát triển các chương trình khác nhau là không đơn giản :

- Một chức năng được thể hiện ở rất nhiều chương trình, nhưng việc tổ chức và sử dụng lại nó là khó khăn do hạn chế về kỹ thuật

Chuyển đổi dữ liệu từ các khuôn dạng tác nghiệp khác nhau để phù hợp với người sử dụng là một thách thức lớn Việc duy trì các chương trình này thường gặp nhiều vấn đề khó khăn.

- Mỗi thay đổi ở một ứng dụng sẽ ảnh hưởng đến tất cả các ứng dụng khác có quan hệ

- Thông thường sự phụ thuộc lẫn nhau giữa các chương trình không rõ ràng hoặc không xác định đƣợc

Do tính phức tạp trong công việc chuyển đổi và quy trình bảo trì, mã nguồn của các chương trình trở nên rất phức tạp Đồng thời, khối lượng dữ liệu lưu trữ cũng tăng nhanh chóng.

Khả năng chồng chéo dữ liệu không được kiểm soát trong các môi trường thông tin đã dẫn đến sự gia tăng nhanh chóng về khối lượng dữ liệu, tạo ra thách thức lớn trong quản trị dữ liệu.

- Thiếu những định nghĩa chuẩn, thống nhất về dữ liệu dẫn đến việc mất khả năng kiểm soát môi trường thông tin

- Một thành phần dữ liệu tồn tại ở nhiều nguồn khác nhau

Giải pháp cho các vấn đề quản lý và phân tích thông tin trong môi trường cạnh tranh cao là xây dựng kho dữ liệu Kho dữ liệu, xuất hiện đầu tiên ở các nước công nghiệp phát triển, giúp các tổ chức quản lý hoạt động hàng ngày hiệu quả hơn và đưa ra quyết định kịp thời cho tương lai Thông tin trở thành tài sản quan trọng cần được quản lý và khai thác, và kho dữ liệu đáp ứng nhu cầu này, từ đó nâng cao hiệu quả và sức mạnh cạnh tranh Sự phát triển mạnh mẽ của công nghệ thông tin cũng đóng vai trò quan trọng trong sự ra đời và phát triển của kho dữ liệu.

- Khả năng lưu trữ và xử lý khối lượng lớn thông tin

- Sự phát triển nhanh chóng của mạng máy tính, đặc biệt là mô hình tính toán Client/server

Sự phát triển của các công cụ xây dựng chương trình ứng dụng, bao gồm ngôn ngữ lập trình, công cụ trợ giúp xây dựng và thiết kế CASE, cũng như các hệ quản trị cơ sở dữ liệu tiên tiến, đã dẫn đến việc hình thành các dự án Kho dữ liệu từ năm 1984 đến 1988 Đến năm 1994, các dự án này đã phát triển mạnh mẽ ở các nước phát triển và hiện nay, Kho dữ liệu vẫn là một thị trường sôi động Ban đầu, các dự án Kho dữ liệu chủ yếu được triển khai tại các tổ chức lớn như ngân hàng và hãng hàng không Tại Việt Nam, với nhu cầu nâng cao hiệu quả quản lý và xu hướng hội nhập toàn cầu, các dự án Kho dữ liệu đang dần được triển khai tại các cơ quan nhà nước lớn Đồng thời, sự quan tâm ngày càng tăng đến hệ thống hỗ trợ quyết định đã làm cho Kho dữ liệu trở thành cơ sở hạ tầng quan trọng cung cấp dữ liệu cho các hệ thống này.

Định nghĩa kho dữ liệu

Kho dữ liệu có thể đƣợc định nghĩa bằng nhiều cách khác nhau nhƣng không nghiêm ngặt lắm, ta có thể định nghĩa kho dữ liệu nhƣ sau [9]:

Kho dữ liệu (Data Warehouse - DW) là một hệ thống lưu trữ dữ liệu có tính chất chủ đề, được tích hợp và gắn với thời gian, nhằm hỗ trợ quá trình ra quyết định một cách hiệu quả.

Kho dữ liệu là một công trình tổng hợp các dữ liệu từ nhiều nguồn không đồng nhất, bao gồm dữ liệu quá khứ và hiện tại, cũng như báo cáo phân tích và hỗ trợ quyết định Do đó, kho dữ liệu thường có kích thước lớn, lên tới hàng trăm hoặc thậm chí hàng nghìn Gigabyte.

Theo W H Inmon và R D Hackathom [9] định nghĩa : Kho dữ liệu là một s- ưu tập dữ liệu trợ giúp ra quyết định trong quản lý, với các đặc điểm:

Hướng chủ đề (subject - oriented), Tích hợp(integrated), Đa dạng thời gian (time-variant) Không hay thay đổi (nonvolatile)

Trong Data Warehouse, việc mô hình hóa và thiết kế dữ liệu tập trung vào các chủ đề chính như khách hàng, sản phẩm và bán hàng, thay vì các giao tác riêng lẻ hay xử lý hàng ngày Điều này giúp cung cấp cái nhìn rõ ràng và súc tích về các chủ đề quan trọng, đồng thời loại bỏ các dữ liệu không cần thiết, hỗ trợ quá trình ra quyết định hiệu quả hơn.

Tích hợp : Trong Kho dữ liệu, các thông tin cần phải:

Dữ liệu đƣợc tích hợp từ nhiều nguồn hỗn tạp nhƣ: cơ sở dữ liệu quan hệ, các file, các bản ghi giao tác

Công nghệ làm sạch và tích hợp dữ liệu là cần thiết để xử lý các dữ liệu không nhất quán về kiểu mã hóa và đơn vị khi đưa vào kho dữ liệu Trong môi trường kinh doanh hiện đại, quyết định thường được đưa ra trực tuyến, yêu cầu dữ liệu phải chính xác tại thời điểm ra quyết định Tuy nhiên, dữ liệu trong kho chỉ chính xác tại thời điểm nạp vào và có thể không hoàn toàn đúng ở các thời điểm khác Mỗi dữ liệu trong kho chỉ đúng tại một thời điểm nhất định, do đó, thời gian trở thành một thuộc tính quan trọng Dữ liệu thường được lưu trữ trong khoảng thời gian từ 5 đến 10 năm, giống như những bức ảnh chụp liên tiếp qua thời gian.

Kho dữ liệu thường không thay đổi, vì việc cập nhật dữ liệu (chèn, xóa, sửa) thường xuyên diễn ra trên các bản ghi Dữ liệu trong kho không được cập nhật liên tục mà chỉ được nạp vào theo lịch trình do người dùng xác định Với cách tiếp cận này, dữ liệu chủ yếu được nạp một lần và sau đó chỉ được truy cập để lấy ra khi cần thiết.

Việc cập nhật dữ liệu không thường xuyên xảy ra, do đó, các kỹ thuật như phục hồi dữ liệu, đảm bảo toàn vẹn tham chiếu, phát hiện và giải quyết tắc nghẽn thường không cần thiết.

So sánh Kho dữ liệu và hệ quản trị cơ sở dữ liệu truyền thống

1.2.3.1 Vấn đề tích hợp cơ sở dữ liệu hỗn tạp

1 Xây dựng hoán đổi hoặc vật dàn xếp trên đỉnh của cơ sở dữ liệu hỗn tạp

2 Áp dụng các điều khiển Query:

Khi một khách hàng yêu cầu xây dựng một trang web, siêu từ điển sẽ được sử dụng để chuyển đổi yêu cầu của họ thành các truy vấn phù hợp Những truy vấn này sẽ được tổng hợp từ nhiều trang web khác nhau, và kết quả cuối cùng sẽ được tích hợp vào một bộ câu trả lời chung.

Vấn đề phức tạp trong lọc thông tin và tranh chấp tài nguyên

*Kho dữ liệu: Sử dụng công cụ update và khả năng thực thi cao

Thông tin từ các nguồn hỗn tạp được tích hợp và lưu trữ trong các kho dữ liệu, phục vụ cho việc truy vấn và phân tích trực tiếp.

* Dùng OLTP (on-line transaction processing)- Xử lý các giao tác trực tuyến

- Thực hiện nhiệm vụ chính trong CSDL quan hệ truyền thống

- Phục vụ các hoạt đồng hàng ngày: mua, bán, đăng ký, thanh toán, lập bảng lương, báo cáo…

* Dùng OLAP (on-line analytical processing) – Xử lý phân tích trực tuyến

- Dùng cho các nhiện vụ chính của hệ thống Kho dữ liệu

- Phục vụ phân tích dữ liệu và hỗ trợ ra quyết định

* Sự khác biệt trong khả năng của OLPT và OLAP [9]:

Nội dung dữ liệu Hiện tại, chi tiết Lịch sử và hợp nhất Thiết kế CSDL Mô hình ER và ứng dụng Mục tiêu và chủ đề

Tổng quan Hiện tại cục bộ Tiến hoá, tích hợp

Xử lý Update Chỉ đọc nhƣng truy vấn không phức tạp Người sử dụng Chuyên gia công nghệ thông tin

Công nhân có tri thức (Công nhân bậc cao)

Chức năng Công việc hàng ngày Hỗ trợ ra quyết định

Có tính lặp đi lặp lại Đặc biệt, không dự tính đƣợc trước

Truy cập Bằng khoá chính Bằng nhiều cách Đơn vị công việc Các giao tác ngắn và đơn giản Truy vấn phức tạp

Số lƣợng bản ghi có thể đƣợc truy cập

Số người dùng Hàng trăm Hàng nghìn Độ lớn CSDL 100MB - GB 100GB – TB Đơn vị đo Số lƣợng giao tác Số lƣợng truy vấn và trả lời

So sánh hệ thống cơ sở dữ liệu tác nghiệp và hệ thống kho dữ liệu

Trước khi xây dựng Kho dữ liệu, các tổ chức thường đã tin học hóa các hoạt động hàng ngày thông qua hệ tác nghiệp (Online Transaction Processing - OLTPL), với nguồn dữ liệu chủ yếu từ hệ thống này Tuy nhiên, việc xây dựng Kho dữ liệu là cần thiết vì hệ tác nghiệp chỉ phục vụ cho tự động hóa các tác vụ hàng ngày, trong khi Kho dữ liệu hỗ trợ môi trường thông tin ra quyết định Kho dữ liệu được thiết kế để hỗ trợ quá trình phân tích và ra quyết định, mang lại những đặc điểm khác biệt quan trọng.

Hệ thống tác nghiệp mang tính hướng tác vụ với những đặc điểm chính sau [9]:

1 Trợ giúp các công việc tức thời hàng ngày

2 Chứa dữ liệu hiện thời, thể hiện trạng thái thực công việc

3 Các hoạt động xảy ra trong hệ thống thường đơn giản, giới hạn trong phạm vi nhất định, và kết quả gây ra thường là việc cập nhập dữ liệu

4 Được tối ưu hoá cho việc xử lý nhanh các tác vụ định trước, đặc biệt tập trung vào các hoạt động cập nhật

5 Người dùng chủ yếu là những người làm những công việc Ở mức độ chi tiết, cụ thể như thư kí, người bán hàng,

6 Thiết kế thường khó hiểu và che dấu với người dùng

Kho dữ liệu được thiết kế hướng trợ giúp quá trình phân tích và ra quyết định, và mang những đặc điểm khác như sau [9]:

1 Trợ giúp quá trình quản lý và điều khiển công việc

2 Chứa dữ liệu mang tính lịch sử, thể hiện cách nhìn ổn định của công việc trong một giai đoạn hay tại một thời điểm cụ thể đã qua

3 Đƣợc tối ƣu hoá cho các câu hỏi truy vấn, chứ không phải các các hoạt động cập nhật Các câu hỏi có thể được xác định trước cho tới hoàn toàn không được xác định trước

4 Người dùng chủ yếu là đội ngũ quản lý để hiểu, phân tích, đánh giá và ra quyết định hên quan tới công việc

5 Phải được thiết kế dễ hiểu và dễ sử dụng đối với người dùng

Tóm lại : Kho dữ liệu và cơ sở dữ liệu tác nghiệp có những điểm khác nhau chủ yếu sau :

Hướng chủ thể của kho dữ liệu tổ chức là cung cấp dữ liệu từ góc nhìn của người dùng cuối, trong khi các cơ sở dữ liệu tác nghiệp tổ chức dữ liệu từ góc nhìn của ứng dụng, nhằm tối ưu hóa khả năng truy cập dữ liệu cho ứng dụng.

Quản lý khối lượng lớn thông tin là một thách thức trong các Kho dữ liệu, nơi chứa nhiều dữ liệu quá khứ thường bị loại bỏ bởi các hệ thống tác nghiệp Để đáp ứng nhu cầu phân loại và tóm tắt dữ liệu khổng lồ, Kho dữ liệu cần cung cấp các thủ tục hỗ trợ Việc tích hợp dữ liệu quá khứ với dữ liệu hiện tại làm cho Kho dữ liệu trở nên lớn hơn nhiều so với cơ sở dữ liệu tác nghiệp.

Kho dữ liệu lưu trữ thông tin trên nhiều phương tiện khác nhau để quản lý khối lượng dữ liệu lớn.

Ghép nối nhiều phiên bản của lược đồ cơ sở dữ liệu là một yếu tố quan trọng trong việc quản lý kho dữ liệu Kho dữ liệu cần phải lưu trữ và quản lý thông tin quá khứ, vốn đã được xử lý qua nhiều thời điểm và phiên bản lược đồ khác nhau Do đó, việc tổng hợp các thông tin này là cần thiết để đảm bảo tính toàn vẹn và chính xác của dữ liệu trong kho.

Mức độ chi tiết trong thông tin lưu trữ của cơ sở dữ liệu tác nghiệp rất lớn, ảnh hưởng đến quá trình ra quyết định Kho dữ liệu tóm tắt và kết hợp thông tin để trình bày theo cách dễ hiểu cho người dùng.

Tích hợp và liên kết thông tin từ nhiều nguồn dữ liệu khác nhau là rất quan trọng, bởi vì các tổ chức thường sử dụng nhiều cơ sở dữ liệu và ứng dụng phần mềm để quản lý công việc Do đó, việc xây dựng kho dữ liệu cần thiết để thu thập và tổ chức thông tin mà các ứng dụng này đã tích lũy qua nhiều năm là điều không thể thiếu.

Dữ liệu trong Kho dữ liệu

Xây dựng Kho dữ liệu là quá trình kỹ thuật quan trọng, bao gồm việc thu thập, quản lý và khai thác tài liệu một cách hợp lý từ nhiều nguồn khác nhau để tạo ra một kho dữ liệu hiệu quả.

Kho dữ liệu cung cấp thông tin dễ hiểu và phù hợp cho việc quản lý nghiệp vụ của tổ chức Để xây dựng Kho dữ liệu, cần xác định các loại dữ liệu cần thiết Có ba cách phân chia các kiểu dữ liệu dựa trên cách xem xét khác nhau.

Phân chia theo ngữ nghĩa của dữ liệu : theo ngữ nghĩa của dữ liệu thì Kho dữ liệu có 3 kiểu dữ liệu [9],[5]:

Dữ liệu nghiệp vụ là thông tin quan trọng được sử dụng để điều hành và quản lý công việc hoặc tổ chức, phản ánh các hoạt động cần thực hiện và các đối tượng trong thế giới thực như khách hàng, địa điểm và sản phẩm Dữ liệu này được tạo ra và sử dụng thông qua hệ thống xử lý giao dịch và hệ thống hỗ trợ quyết định.

Dữ liệu thành phẩm mang giá trị thực chất riêng, với nội dung biểu đạt là yếu tố quan trọng nhất Nó được tạo ra, mua bán giống như các sản phẩm vật lý khác, chẳng hạn như phim ảnh và sách báo, và thường được lưu trữ dưới dạng số hoá.

Siêu dữ liệu (Meta data) là thông tin mô tả cấu trúc và ý nghĩa của dữ liệu trong kho dữ liệu, giúp xác định cách thức dữ liệu được tạo ra, truy cập và sử dụng Nó đóng vai trò quan trọng trong việc định nghĩa và mô tả dữ liệu nghiệp vụ cũng như dữ liệu thành phẩm.

Dữ liệu có thể được phân chia thành ba loại chính dựa trên cấu trúc: dữ liệu cấu trúc cao, bao gồm các trường hoặc bản ghi có mối quan hệ rõ ràng; dữ liệu phi cấu trúc, với các cấu trúc bên trong thường xuyên thay đổi; và dữ liệu bán cấu trúc, nằm giữa hai loại trên.

Dữ liệu được phân chia thành hai loại chính: dữ liệu cá nhân, mà người sở hữu có quyền thay đổi theo ý muốn, và dữ liệu công cộng, nơi việc sử dụng được chia sẻ trong cộng đồng, yêu cầu quản lý cẩn thận cho mỗi sự thay đổi.

Kiến trúc kho dữ liệu

* Cách nhìn tổng quan về thiết kế Kho dữ liệu

Khi thiết kế Kho dữ liệu người ta đưa ra bốn cách nhìn tổng quan như sau:

1 Cách nhìn từ trên xuống (Top – down): Chia Kho dữ liệu thành các phần có thông tin liên quan mật thiết với nhau

2 Nguồn dữ liệu: Bỏ đi các thông tin bị lưu trữ và quản lý bởi hệ điều hành

3 Kho dữ liệu: chỉ chứa các bảng thực và các bảng ra quyết định

4 Các truy vấn giao dịch: đƣa ra viễn cảnh của dữ liệu dựa trên cái nhìn của người sử dụng

* Quy trình thiết kế Kho dữ liệu

1 Dùng cách tiếp cận top-down hoặc bottom – up hoặc trộn lẫn cả hai phương pháp Trong đó, phương pháp tiếp cận top-down bắt đầu với thiết kế và kế hoạch còn bottom-up bắt đầu với các thử nghiệm và nguyên mẫu

2 Dựa trên quan điểm đánh giá kỹ nghệ phần mềm(công trình học phần mềm):

- Mô hình thác nước: Phân tích cấu trúc và hệ thống của từng bước trước khi bước sang bước khác

- Mô hình xoắn ốc: Nhanh chóng đƣa ra các chức năng hệ thống với thời gian trả lời ngắn và nhanh

3 Các quy trình thiết kế Kho dữ liệu điển hình

- Thiết kế theo quy trình giao dịch

- Thiết kế theo quy trình hạt nhân

- Thiết kế theo kích thước dữ liệu

- Thiết kế theo các đơn vị đo của dữ liệu

* Kiến trúc đa tầng của Kho dữ liệu [9]

Hình 1.1 Mô Kho dữ liệu

Mô tả các thành phần :

1 Data sources (Dữ liệu nguồn) bao gồm :

- Dữ liệu sản phẩm: đó là các dữ liệu đƣợc chắt lọc từ các phần mềm ứng dụng và các hệ CSDL tác nghiệp

Dữ liệu kế thừa là loại dữ liệu có tính chất lịch sử, đóng vai trò quan trọng trong quá trình phân tích dữ liệu Ngoài ra, các phương pháp khai thác dữ liệu thường được áp dụng trên loại dữ liệu này để rút ra những thông tin giá trị.

2 Data Storage (Các hệ thống dữ liệu bên trong)

Bộ biến đổi và tích hợp dữ liệu (Extract, Transform, Load, Refresh) thực hiện các nhiệm vụ quan trọng như thu thập, chuẩn hoá, làm sạch, và sàng lọc dữ liệu Nó tích hợp các loại dữ liệu khác nhau, đồng thời thực hiện tính toán, tổng hợp và kết xuất dữ liệu theo yêu cầu của người sử dụng.

Analysis Query Reports Data mining

Data mart (Kho dữ liệu cục bộ hay dữ liệu theo chủ đề) là nơi lưu trữ dữ liệu được tổ chức theo chủ đề cụ thể, cho phép điều chỉnh để đáp ứng nhu cầu của từng bộ phận người dùng Các kho dữ liệu này có thể được xây dựng theo cách tiếp cận từng giai đoạn, từ việc kết hợp nhiều kho dữ liệu thông minh để tạo ra một kho dữ liệu lớn hơn, hoặc phân tích một kho dữ liệu thành nhiều kho dữ liệu cục bộ Chức năng của data mart bao gồm mô hình hóa, sàng lọc, tích hợp dữ liệu vào các lĩnh vực có chủ đề cụ thể, tổng hợp và kết nối dữ liệu.

Siêu dữ liệu (metadata) là kho dữ liệu về dữ liệu, đóng vai trò quan trọng trong việc định nghĩa và xác định các loại dữ liệu cũng như các phương pháp xử lý và quản lý dữ liệu trong Kho dữ liệu Do tính đa dạng của các kiểu loại dữ liệu và các phương pháp quản lý dữ liệu mới, siêu dữ liệu giúp tối ưu hóa quy trình quản lý và khai thác thông tin hiệu quả hơn Các chức năng chính của siêu dữ liệu bao gồm việc cung cấp thông tin chi tiết về nguồn gốc, cấu trúc và quy trình xử lý dữ liệu, từ đó hỗ trợ người dùng trong việc truy cập và sử dụng dữ liệu một cách chính xác và hiệu quả.

+ Định nghĩa dữ liệu ( định nghĩa kỹ thuật và miêu tả nghiệp vụ) của các dữ liệu lưu trữ trong Kho dữ liệu

+ Mô tả các báo cáo và các chất vấn

+ Mô tả qui định sao chép, cập nhật và nạp lại dữ liệu

+ Mô tả cách thức truy nhập dữ liệu

3 OLAP Engine: Bản thân Kho dữ liệu là một hệ thống thông tin lớn và có một khối lƣợng rất lớn các dữ liệu lịch sử và hiện tại, mà các loại dữ liệu này bao gồm nhiều kiểu loại khác nhau và đa dạng, do đó việc quản trị dữ liệu đóng một vai trò rất quan trọng Việc Quản trị dữ liệu này tạo môi trường hoạt động cho chính Kho dữ liệu Quản trị kho có những chức năng nhƣ nạp vào, nạp lại, trích đoạn dữ liệu, tuân thủ an toàn, lưu trữ, khôi phục dữ liệu

- Hệ thống phân phối thông tin:

Lớp chuyền tải dữ liệu có nhiệm vụ chính là chuyển tải thông tin, sử dụng các phương thức nạp, sao chép và chuyển tải dữ liệu qua các hệ thống mạng và phần mềm trung gian Lớp này đảm bảo an toàn và phân quyền cho các yêu cầu liên quan đến việc chuyển tải dữ liệu.

+ Lớp kết cấu hạ tầng : Bao gồm các thành phần sau:

Thành phần quản lý hệ thống cung cấp khả năng tìm kiếm và quản lý phần mềm chuẩn cũng như phần mềm ứng dụng, hỗ trợ người thiết kế hệ thống và người sử dụng trong công việc của họ.

Thành phần thứ hai trong lớp này hỗ trợ tích hợp và quản lý các phần mềm chuẩn, ứng dụng, và các hoạt động khác nhằm sao chép, cập nhật, kết nối và tổng hợp dữ liệu hiệu quả.

Thành phần thứ ba phục vụ cho công việc lưu trữ Nó cũng cung cấp các dịch vụ quản lý cho khối các nguồn dữ liệu

Thành phần cuối cùng của lớp này bao gồm các hệ thống xử lí Chúng tạo ra các môi trường làm việc cho Kho dữ liệu

4 Front-End Tools (Các công cụ vấn đáp, báo cáo, phân tích trực tiếp và khai phá dữ liệu) Đây chính là các cách khai thác kho dữ liệu để đem lại những "tri thức" hơn là đem lại chính những dữ liệu thô

- Truy nhập trực tiếp vào Kho dữ liệu/ kho cục bộ

- Tạo ra các công cụ đề tạo báo cáo, phân tích dữ liệu, mô hình hoá tác nghiệp

- Tạo ra các công cụ phân tích trữ tuyến, trợ giúp ra quyết định

- Tạo ra các công cụ khai phá dữ liệu.

Ba mô hình của Kho dữ liệu

1 Mô hình xí nghiệp: Tập hợp tất cả các thông tin về kế hoạch của các ban trong toàn tổ chức

2 Dữ liệu chủ đề: Tập con của dữ liệu chung sao cho giá trị của chúng là quan trọng, hữu ích cho nhóm hoặc người sử dụng, ví dụ như dữ liệu về maketing

3 Kho ảo: Chứa tập các cái nhìn tổng quan về hoạt động của cơ sở dữ liệu Tuy nhiên, chỉ một vài kết luận trong đó có thể thực hiện đƣợc.

Hướng tiếp cận đề nghị khi phát triển Kho dữ liệu [9]

Hình 1.2 Hướng phát triển kho dữ liệu

Từ Kho dữ liệu đến khai phá dữ liệu

1.2.9.1 Sử dụng Kho dữ liệu

Kho dữ liệu sử dụng cho ba loại ứng dụng sau:

1 Xử lý thông tin: trợ giúp truy vấn, phân tích thông tin tĩnh và cơ bản, tạo báo cáo sử dụng crosstabs, bảng, biểu đồ và đồ thị

2 Xử lý các phân tích: Phân tích nhiều loại kích thước của dữ liệu trong Kho dữ liệu Trợ giúp các hoạt động cơ bản của xử lý phân tích trực tuyến

3 Khai phá dữ liệu (data mining): Khai phá tri thức từ các mẫu ẩn Trợ giúp các mô hình phân tích xây dựng và kết hợp, biểu diễn phân loại và dự báo, đƣa ra các kết quả khai phá bằng các công cụ trực quan

Define a high-level corporate data model

1.2.9.2 Công nghệ xử lý phân tích trực tuyến dùng cho khai phá dữ liệu

Khai phá dữ liệu liên quan chặt chẽ đến xử lý thông tin và xử lý phân tích trực tuyến (OLAP) Xử lý thông tin dựa trên truy vấn có thể cung cấp những thông tin hữu ích, nhưng các câu trả lời từ truy vấn chỉ phản ánh dữ liệu trực tiếp trong cơ sở dữ liệu hoặc các bảng tính toán thông qua các chức năng tập hợp Điều này có nghĩa là chúng không thể phản hồi thông tin từ các mẫu tinh vi hoặc các quy tắc trong cơ sở dữ liệu Vì vậy, xử lý thông tin không đồng nghĩa với khai phá dữ liệu.

Xử lý thông tin trực tuyến là bước quan trọng trong việc khai thác dữ liệu, cho phép tổng hợp và điều khiển thông tin từ Kho dữ liệu một cách hiệu quả.

Các chức năng của OLAP và khai phá dữ liệu có thể được phân chia thành hai phần chính: OLAP tập trung vào việc tổng kết và phân tích dữ liệu một cách đơn giản, trong khi khai phá dữ liệu cho phép phát hiện tự động các mẫu và tri thức ẩn trong khối lượng lớn dữ liệu Công cụ OLAP nhằm mục đích đơn giản hóa và hỗ trợ việc phân tích dữ liệu tương tác, trong khi công cụ khai phá dữ liệu hướng tới việc tự động hóa quy trình xử lý, đồng thời cho phép người dùng can thiệp khi cần thiết Sự kết hợp giữa hai phương thức này giúp khai phá dữ liệu vượt qua các phương pháp phân tích trực tuyến truyền thống.

Hệ thống OLAP cho phép người dùng trực tiếp tổng kết và so sánh dữ liệu trong Kho dữ liệu, nhưng khai phá dữ liệu lại có chức năng rộng hơn, bao gồm phân tích kết hợp, phân lớp, dự đoán, bó cụm và nhiều bài toán phân tích khác.

Khai phá dữ liệu cho phép phân tích thông tin chi tiết hơn so với phương pháp phân tích dữ liệu tổng hợp từ Kho dữ liệu, giúp khai thác tối đa giá trị của dữ liệu.

Kể từ khi khai thác dữ liệu, chế độ hoạt động tự động và sâu hơn của OLAP đã trở thành kỳ vọng của nhiều ứng dụng lớn.

1.2.9.3 Từ xử lý phân tích trực tuyến đến khai phá phân tích trực tuyến

Khai phá phân tích trực tuyến (OLAM) kết hợp giữa OLAP, khai phá dữ liệu và khai phá tri thức, cho phép phân tích hiệu quả các cơ sở dữ liệu với kích thước đa dạng.

* Lý do để dùng OLAM:

- Tạo dữ liệu chất lƣợng cao trong Kho dữ liệu (Kho dữ liệu chứa dữ liệu tích hợp, thích đáng và sạch)

- Có khả năng xử lý thông tin xung quanh kiến trúc của Kho dữ liệu

- Dựa trên cơ sở OLAP nhƣng phân tích mang tính chất thám hiểm

- Lựa chọn trực tuyến các chức năng khai phá dữ liệu: tích hợp và hoán đổi các chức năng, thuật toán và bài toán khai phá dữ liệu

KHAI PHÁ DỮ LIỆU

Khai phá dữ liệu là gì ?

Khai phá dữ liệu là quá trình phát hiện tri thức trong cơ sở dữ liệu, giúp rút ra những thông tin tiềm ẩn, chưa được biết đến và có giá trị từ các tập dữ liệu lớn.

Tuy nhiên, cần nhấn mạnh rằng các hệ thống xử lý truy vấn, hệ chuyên gia và các hệ thống thống kê nhỏ không được coi là khai phá dữ liệu.

Động cơ thúc đẩy dùng khai phá dữ liệu

Chúng ta có một số thực trạng nhƣ sau:

1 Nhiều tổ chức đã cảnh báo từ các doanh nghiệp tƣ nhân đến chính phủ việc các bộ máy quan liêu đã mất mát một số lƣợng kinh khủng những tài nguyên trong việc xây dựng và bảo trì thông tin của cơ sở dữ liệu trong cả những thập niên gần đây, bao gồm sự phát triển lớn về quy mô các Kho dữ liệu

2 Dữ liệu không được phân tích thường xuyên bởi các phương thức thống kê chuẩn, nguyên nhân là do mất các bản ghi hoặc các mẫu dữ liệu đƣợc thu thập theo dạng định tính hơn là định lƣợng

3 Trong môt số trường hợp thông tin chứa trong các cơ sở dữ liệu lại ít giá trị và không dùng đƣợc bởi vì dữ liệu không thể dễ dàng truy nhập hoặc phân tích

4 Một vài cơ sở dữ liệu lại qua lớn đến mức quản trị hệ thống không thể biết thông tin nào có thể đƣa ra hoặc cái nào là thích đáng cho thời điểm hiện tại

5 Các tổ chức có thể nắm giữ nhiều lợi ích từ các Kho dữ liệu lớn chứa đựng các thông tin hoặc các mẫu có giá trị

6 Có rất nhiều phương pháp khai phá dữ liệu có thể dùng để phân tích nguồn dữ liệu trong yêu cầu khám phá ra các mẫu mới và các khuyng hướng mới

Sự bùng nổ dữ liệu hiện nay được thúc đẩy bởi việc tự động hóa trong việc thu thập dữ liệu và sự phát triển của công nghệ cơ sở dữ liệu, dẫn đến khối lượng lớn thông tin được lưu trữ trong các cơ sở dữ liệu, kho dữ liệu và các kho chứa thông tin khác.

Mặc dù chúng ta đang sống trong một thời đại bùng nổ thông tin và có thể nói rằng chúng ta đang bội thực dữ liệu, nhưng thực tế là chúng ta lại đang thiếu hụt dữ liệu có tri thức.

Giải pháp đƣa ra ở đây là chúng ta dùng Kho dữ liệu(data warehousing) và khai phá dữ liệu(data mining).

Các ứng dụng của khai phá dữ liệu

2.2.1 Phân tích cơ sở dữ liệu và trợ giúp ra quyết định:

* Phân tích và quản lý thị trường: Quản lý quan hệ giữa bán hàng và khách hàng, phân tích quá trình bán hàng, phân đoạn quá trình bán hàng

Nguồn dữ liệu để phân tích bao gồm giao dịch bằng thẻ tín dụng, kiểm tra thẻ, các chương trình giảm giá, ý kiến phản hồi từ khách hàng và nghiên cứu về phong cách sống của cộng đồng.

- Mục tiêu tiếp thị, bán hàng: Tìm kiếm nhóm khách hàng có cùng đặc trƣng nhƣ: sở thích, thu nhập, thói quen tiêu tiền

- Phân tích thị trường: Sự kết hợp, liên kết các sản phẩm bầy bán Dự báo trước dựa trên tổng hợp thông tin

Xác định nhu cầu của khách hàng là bước quan trọng trong việc khai thác dữ liệu, giúp nhận diện các nhóm khách hàng và loại sản phẩm mà họ có khả năng mua Phân cụm và phân lớp dữ liệu sẽ cho phép doanh nghiệp hiểu rõ hơn về hành vi tiêu dùng của khách hàng, từ đó tối ưu hóa chiến lược tiếp thị và tăng cường hiệu quả bán hàng.

Xác định nhu cầu của khách hàng là bước quan trọng để tìm ra sản phẩm phù hợp nhất cho từng nhóm khách hàng Việc sử dụng các dự đoán sẽ giúp nhận diện những yếu tố có thể thu hút thêm khách hàng mới.

- Cung cấp các thông tin tổng hợp: Các báo cáo khác nhau về số lƣợng, các báo cáo tổng hợp thống kê (xu hướng và thay đổi dữ liệu)

* Quản lý và phân tích rủi ro: Dự báo, giữ khách hàng, phát triển bảo hiểm, quản lý chất lƣợng, phân tích cạnh tranh

Lập kế hoạch tài chính và ước lượng tài sản là bước quan trọng, bao gồm việc phân tích và dự báo chu kỳ quanh vốn Cần thực hiện phân tích vốn phát sinh để đưa ra ước lượng tài sản chính xác Đồng thời, việc phân tích tỷ lệ tài chính và xu hướng phát triển cũng giúp xác định tình hình tài chính và khả năng tăng trưởng trong tương lai.

- Kế hoạch về nguồn vốn: tổng hợp và so sánh giữa nguồn vốn và ciệc chi tiêu

Phân tích cạnh tranh là việc theo dõi tình hình thị trường và điều chỉnh chiến lược kinh doanh phù hợp Cần phân loại khách hàng thành các nhóm dựa trên mức giá sản phẩm, từ đó xây dựng chiến lược giá cả hiệu quả trong giai đoạn cạnh tranh.

* Quản lý và phát hiện gian lận

- Các ứng dụng: Dùng rộng rãi trong các lĩnh vực chăm sóc sức khoẻ, bán lẻ, dịch vụ thanh toán bằng thẻ, kết nối viễn thông…

Sử dụng dữ liệu lịch sử để phát triển chiến lược ứng phó với gian lận, đồng thời áp dụng khai phá dữ liệu nhằm nhận diện các trường hợp tương tự trong tương lai.

 Chiếm đoạt tiền bảo hiểm: phát hiện những người đóng kịch tai nạn để lấy tiền bảo hiểm vào một loại hợp đồng bảo hiểm

 Rửa tiền: Dò tìm các giao dịch đáng ngờ

 Bảo hiểm y tế: phát hiện các khách hàng chuyên dùng y tế để kiếm tiền bảo hiểm

- Dò tìm các gian lận trong điện thoại:

- Bán lẻ: Phân tích đã cảnh bảo 38% số lƣợng doanh thu trong bán lẻ đã rơi vào túi nhân viên không trung thực

Khai phá dữ liệu trong quá trình phát hiện tri thức

* Mô hình quá trình phát hiện tri thức (knowledge discovery process – KDD)[9]

Hình 2.1 Quá trình phát hiện tri thức

Các bước phát hiện tri thức:

1 Tìm hiểu các miền ứng dụng: ƣu tiên các tri thức thích đáng và mục tiêu của ứng dụng

2 Tạo các tập dữ liệu đích: Chọn lọc dữ liệu

3 Xử lý và làm sạch dữ liệu: công việc này có thể mất 60% công sức

4 Thu nhỏ và biến đổi dữ liệu: Tìm kiếm các đặc điểm hữu dụng, xác định thành phần có thể thu nhỏ, thành phần bất biến

5 Lựa chọn chức năng của khai phá dữ liệu: Tổng kết, phân loại, hồi quy, bó cụm, kết hợp

6 Lựa chọn phương pháp khai phá

7 Khai phá dữ liệu: tìm kiếm các mẫu quan tâm

Tích hợp dữ liệu cơ sở dữ liệu

Chọn lọc Khai phá dữ liệu ước lượng mẫu Tri thức

8 Ƣớc lƣợng mẫu và trình bày tri thức: nhìn nhận, biến đổi và loại bỏ các mẫu dƣ thừa

9 Sử dụng tri thức phát hiện được: Lưu trữ tri thức đã được phát hiện,

Kết hợp các tri thức thành hệ thống Giải quyết các xung đột tiềm tàng trong tri thức khai thác đƣợc

Ngoài ra ta chú ý theo mô hình trên có rất nhiều bước có thể được lặp đi lặp lại

Phát hiện tri thức từ cơ sở dữ liệu (CSDL) là một quá trình chủ yếu dựa vào con người, sử dụng nhiều phương pháp và công cụ tin học nhằm giải quyết các nhiệm vụ cụ thể trong một lĩnh vực nhất định Quá trình này mang tính chất hướng nhiệm vụ, tập trung vào việc phát hiện tri thức cần thiết để hoàn thành nhiệm vụ, không phải là phát hiện mọi tri thức Khai phá dữ liệu là giai đoạn quan trọng trong quá trình này, bao gồm việc tìm kiếm mô hình phù hợp và các mẫu đáng chú ý trong tập dữ liệu Khai phá dữ liệu giúp phát hiện các mẫu mới, tương quan có ý nghĩa và xu hướng thông qua việc khai thác dữ liệu trong kho dữ liệu, sử dụng các kỹ thuật khai phá hiệu quả.

Nhƣ vậy, khai phá dữ liệu là cốt lõi của quá trình phát hiện tri thức.

Khai phá dữ liệu và tin tức kinh doanh

Ta có thể biểu diễn mối quan hệ thông qua mô hình sau:[9]

Hình 2.2 Mô hình kinh doanh

2.5 KIẾN TRệC ĐIỂN HèNH CỦA HỆ THỐNG KHAI PHÁ DỮ LIỆU

Hình 2.3 Kiến trúc hệ thống khai phá dữ liệu

Hướng tăng trợ giúp ra quyết định

Phân tích thống kê, truy vấn và báo cáo

Kho dữ liệu / dữ liệu hướng chủ đề

Giấy tờ, File, thông tin, hệ thống cơ sở dữ liệu, OLTP

Tích hợp và làm sạch dữ liệu Lọc dữ liệu

Cơ sở dữ liệu hoặc quản trị Kho dữ liệu

Phương tiện khai phá dữ liệu ước lượng mẫu Giao diện người sử dụng

2.6 KHAI PHÁ DỮ LIỆU NƠI HỘI TỤ CỦA RẤT NHIỀU KIẾN THỨC:

Khai phá dữ liệu là lĩnh vực giao thoa giữa nhiều ngành học và kiến thức khác nhau, tạo nên một ngã ba sông đa dạng và phong phú.

Hình 2.4 Khai phá dữ liệu và tri thức

2.7 TRỌNG TÂM CHÍNH TRONG KHAI PHÁ DỮ LIỆU

 Các phương pháp khai phá và tương tác người sử dụng

- Khai phá các loại tri thức khác nhau của cơ sở dữ liệu

- Khai phá tương tác các tri thức ở nhiều mức trừu tượng khác nhau

- Hợp nhất các nền tảng tri thức

- Ngôn ngữ truy vấn khai phá dữ liệu và khai phá dữ liệu không theo thể thức (khai phá dữ liệu đặc biệt)

- Đưa ra kết quả khai phá dữ liệu dưới dạng trực quan hoặc biểu thức

- Điều khiển dữ liệu phức tạp và không đầy đủ

 Tính khả thi và khả năng

- Hiệu năng và khả năng thực thi của các thuật toán khai phá dữ liệu

Công nghệ cơ sở dữ liệu

- Hoạt động song song, phân tán và sự lớn mạnh của các phương pháp khai phá

 Liên kết các kiểu dữ liệu đa dạng

- Điều khiển các kiểu dữ liệu phức tạp và có liên hệ với nhau

- Khai phá thông tin từ các cơ sở dữ liệu hỗn tạp và hệ thống thông tin toàn cầu

2.8 NHỮNG VẤN ĐỀ KHÔNG CẦN DÙNG KHAI PHÁ DỮ LIỆU

Quá trình khai phá dữ liệu tập trung vào việc khám phá các mẫu và khuynh hướng ẩn giấu trong dữ liệu Khi một mẫu đặc biệt được xác định, nó có thể chứa các đặc trưng quan trọng, giúp người khai thác dữ liệu tiếp tục tìm kiếm Mẫu này có thể được mô tả như chất lượng tri thức và được áp dụng trong nhiều lĩnh vực như báo cáo chuẩn, huấn luyện mạng nơron, hoặc quy tắc trong hệ chuyên gia Tuy nhiên, khi mẫu đã được xác định, nó trở thành mẫu đã biết trong quá trình khai phá dữ liệu Những yêu cầu về mẫu đã biết chỉ xuất hiện khi cần xác định tính hợp lệ hoặc sự biến đổi của chúng Các phương pháp phân tích dựa trên mẫu đã biết không được coi là khai phá dữ liệu, mặc dù chúng có thể sử dụng dữ liệu từ các bài toán khai phá trước đó Do đó, các kỹ thuật như huấn luyện có sẵn hoặc học có giám sát không cấu thành khai phá dữ liệu, mặc dù chúng vẫn có giá trị trong nhiều trường hợp.

 Khai phá dữ liệu khác với kiểm tra thông tin

Chúng ta cần phân biệt giữa xử lý dữ liệu bằng khai phá dữ liệu và bằng kiểm tra định lƣợng

Phần lớn các ứng dụng khai phá dữ liệu tập trung vào phân tích thông tin từ các tập dữ liệu đã được thu thập trước đó, với dữ liệu tĩnh phản ánh trạng thái của thế giới thực trong một khoảng thời gian nhất định Việc xem xét lại các thông tin có sẵn giúp xác nhận độ chính xác của dữ liệu và xác định các quyết định quan trọng Trong quá trình phân tích, dữ liệu không thay đổi, đảm bảo rằng kết quả thu được là đáng tin cậy cho tập dữ liệu đó, do đó không cần lo lắng về thời gian chi phí để đưa ra quyết định.

Sự kiểm tra thường liên quan đến việc so sánh các mẫu trực tuyến với các điều kiện hoặc đường biên nhất định, diễn ra trong thời gian thực và xử lý dữ liệu cập nhật Hệ thống kiểm tra được áp dụng trong các lĩnh vực như thị trường tài chính, kiểm soát không lưu và lò phản ứng hạt nhân, giúp tăng tốc độ phản hồi và khai thác thông tin hiệu quả Mô hình dự báo và người dự báo hỗ trợ xác định các giá trị tới hạn, các hoạt động bất thường và tiêu chuẩn dữ liệu Tuy nhiên, các hệ thống này hiện tại không thường xuyên sử dụng khai phá dữ liệu, không khám phá các mẫu mới hoặc phân loại, mà chủ yếu dựa vào các mẫu đã được phát sinh trước đó.

2.9 QUÁ TRÌNH KHAI PHÁ DỮ LIỆU

2.9.1 Truy cập và chuẩn bị dữ liệu

Trước khi phát triển hệ thống phân tích và tạo báo cáo thông minh, dữ liệu cần phải được chuẩn bị sẵn sàng Tuy nhiên, yêu cầu này không phải lúc nào cũng được thực hiện Trong một số trường hợp, người dùng có thể truy cập trực tiếp vào các hệ thống cơ sở dữ liệu và file trực tuyến mà không cần thủ tục hay quyền truy cập đặc biệt Hầu hết dữ liệu trong nhiều lĩnh vực thường được lưu trữ trong các cấu trúc quan hệ, cho phép truy vấn dễ dàng để lấy thông tin mong muốn.

Mặc dù kho dữ liệu ngày càng trở nên phổ biến, việc xây dựng và bảo trì chúng đòi hỏi một chi phí cao Nếu bạn không thuộc nhóm công nghệ của một tổ chức lớn, khả năng truy cập vào các hệ thống thông tin phức tạp sẽ hạn chế Thông tin trong nhiều trường hợp khai phá dữ liệu thường được lấy từ các nguồn không dự tính trước và việc truy cập, tích hợp, trình bày không cần phải sử dụng các phương pháp tiên tiến như trong kho dữ liệu.

Khi truy cập dữ liệu từ kho dữ liệu trực tuyến hoặc bằng các phương pháp khác, điều quan trọng là phải trích xuất một phần dữ liệu để đưa vào môi trường khai phá dữ liệu.

 Truy vấn nguồn dữ liệu

Bước đầu tiên trong khai phá dữ liệu là xác định tập con dữ liệu để phân tích Cấu trúc dữ liệu của tập hợp này cần phản ánh mẫu mà chúng ta muốn nghiên cứu Việc trích xuất mẫu là một trong những phương pháp hiệu quả nhất để tạo ra các lát cắt dữ liệu phục vụ cho các ứng dụng khai phá dữ liệu.

 Các thao tác có ích thực hiện trong quá trình truy cập dữ liệu

1 Chuyển đổi chữ: Chuyển tất cả các ký từ trong luồng dữ liệu thành chữ hoa hoặc chữ thường Sự trợ giúp này giúp ngăn ngừa bất kỳ sự thay đổi có thể xảy ra giữa các nguyên tố dữ liệu khác nhau

2 Ghép nối thông tin: trong nhiều hệ thống dữ liệu đƣợc cất giữ riêng biệt trong các trường, thực thể Mặc dù, các hệ thống này đã cung cấp kỹ thuật đủ cho mô hình trong quá trình phân tích nhƣng các thành phần đơn lẻ phải đƣợc kết hợp lại để tạo dữ liệu duy nhất Do đó, cần ghép nối thông tin từ các trường khác nhau vào một đơn vị duy nhất

3 Định dạng cách trình bày: đặt ra các khuôn dạng đại diện các kiểu nhất định

4 Làm giàu dữ liệu: dữ liệu thông thường chứa đựng nhiều đặc tính khác nhau, chúng có thể bị loại bỏ từ luồng dữ liệu Sự giải thoát những đặc tính này có thể trở thành rất quan trọng với ứng dụng dưới dạng lựa chọn những kiểu dữ liệu sẵn có cho các trình diễn

5 Trừu tượng hoá: trong một vài trường hợp rất hữu ích nếu ta giảm bớt trình diễn thông tin trong các trường thành các giá trị đơn giản là Yes/No Điều này cho phép ta truyền chắc chắn các kiểu thông tin mà không cần có sự trình bày ở trên đầu của các giá trị duy nhất đơn

6 Quá trình chuyển đổi các đơn vị: Ta cần chấp nhận một đơn vị chuẩn cho mỗi trường xuất hiện trong tập dữ liệu

7 Loại trừ: Vì quá trình xử lý cần làm tăng giá trị dữ liệu, do đó cần có các tiêu chuẩn loại trừ để bỏ đi các dữ liệu không cần thiết

Dữ liệu trong phân tích không chỉ đến từ một nguồn duy nhất; mỗi lần truy cập dữ liệu cần tích hợp cả dữ liệu vật lý và logic để đáp ứng các yêu cầu phát triển Người phân tích cần xác định các khía cạnh quan trọng từ nhiều nguồn dữ liệu khác nhau và làm thế nào để khai thác chúng nhằm đạt được mục tiêu khảo sát Có nhiều cách để xác định cấu trúc dữ liệu cần lấy từ nguồn, cùng với nhiều phương pháp và kỹ thuật thông tin giúp phát hiện sự thật, sự tương đồng và dị thường trong tập dữ liệu Do đó, các lược đồ dữ liệu cần được quản lý một cách hiệu quả và chắc chắn.

Trong khai phá dữ liệu, các ràng buộc thường tạo ra những trường hợp đặc biệt, giúp đảm bảo rằng dữ liệu hoạt động mà không xảy ra xung đột Tuy nhiên, khi thay đổi tập dữ liệu trong nhiều miền khác nhau, người dùng có thể gặp phải những phiền phức không mong muốn khi muốn khôi phục dữ liệu về trạng thái ban đầu Để phục vụ cho phân tích, dữ liệu cần được thay đổi và tinh chế, nhưng điều quan trọng là phải xây dựng lại nguồn dữ liệu nguyên thủy và mô tả rõ ràng những thay đổi sẽ xảy ra, nhằm đảm bảo quá trình chuyển đổi dữ liệu diễn ra suôn sẻ.

Khai phá dữ liệu nơi hội tụ của rất nhiều kiến thức

Khai phá dữ liệu là điểm giao thoa của nhiều lĩnh vực và kiến thức khác nhau, thể hiện sự đa dạng và phong phú trong nghiên cứu và ứng dụng của nó.

Hình 2.4 Khai phá dữ liệu và tri thức.

Trọng tâm chính trong khai phá dữ liệu

 Các phương pháp khai phá và tương tác người sử dụng

- Khai phá các loại tri thức khác nhau của cơ sở dữ liệu

- Khai phá tương tác các tri thức ở nhiều mức trừu tượng khác nhau

- Hợp nhất các nền tảng tri thức

- Ngôn ngữ truy vấn khai phá dữ liệu và khai phá dữ liệu không theo thể thức (khai phá dữ liệu đặc biệt)

- Đưa ra kết quả khai phá dữ liệu dưới dạng trực quan hoặc biểu thức

- Điều khiển dữ liệu phức tạp và không đầy đủ

 Tính khả thi và khả năng

- Hiệu năng và khả năng thực thi của các thuật toán khai phá dữ liệu

Công nghệ cơ sở dữ liệu

- Hoạt động song song, phân tán và sự lớn mạnh của các phương pháp khai phá

 Liên kết các kiểu dữ liệu đa dạng

- Điều khiển các kiểu dữ liệu phức tạp và có liên hệ với nhau

- Khai phá thông tin từ các cơ sở dữ liệu hỗn tạp và hệ thống thông tin toàn cầu.

Những vấn đề không cần dùng khai phá dữ liệu

Quá trình khai phá dữ liệu tập trung vào việc khám phá những mẫu và khuynh hướng ẩn giấu Khi một mẫu đặc biệt được xác định, nó có thể chứa đựng các đặc trưng giúp người khai thác dữ liệu tiếp tục khám phá Mẫu này có thể được mô tả như chất lượng tri thức và ứng dụng trong nhiều lĩnh vực như báo cáo chuẩn, huấn luyện mạng nơron, hoặc mã hóa thành quy tắc trong hệ chuyên gia Sau khi mẫu được xác định, quá trình khám phá coi đó là mẫu đã biết Tuy nhiên, yêu cầu về mẫu đã biết chỉ phát sinh khi cần xác định tính hợp lệ hoặc biến đổi của chúng Các phương pháp phân tích dựa trên mẫu đã biết không thực sự là khai phá dữ liệu, mặc dù có thể sử dụng dữ liệu từ khai phá dữ liệu để phù hợp với mục đích Điều này không có nghĩa là các kỹ thuật này không hữu ích, nhưng chúng không cấu thành quá trình khai phá dữ liệu thực sự.

 Khai phá dữ liệu khác với kiểm tra thông tin

Chúng ta cần phân biệt giữa xử lý dữ liệu bằng khai phá dữ liệu và bằng kiểm tra định lƣợng

Hầu hết các ứng dụng khai phá dữ liệu tập trung vào việc phân tích thông tin từ các tập dữ liệu đã được thu thập trước đó, với dữ liệu tĩnh phản ánh trạng thái thực tế trong một khoảng thời gian nhất định Việc xem xét lại thông tin đã có cho phép xác nhận độ chính xác và xác định mẫu quyết định quan trọng Trong quá trình phân tích, dữ liệu không thay đổi, đảm bảo rằng kết quả thu được là đáng tin cậy và chắc chắn cho tập dữ liệu đó, do đó, chúng ta không cần lo lắng về thời gian chi phí để đưa ra quyết định.

Sự kiểm tra thường liên quan đến việc so sánh các mẫu trực tuyến với các điều kiện hoặc đường biên đã định, diễn ra trong thời gian thực và xử lý dữ liệu cập nhật Các hệ thống kiểm tra đã được phát triển cho nhiều ứng dụng như thị trường tài chính, kiểm soát không lưu và lò phản ứng hạt nhân, giúp tăng tốc độ phản hồi để tận dụng thông tin kịp thời Mô hình dự báo và người dự báo hỗ trợ xác định các giá trị tới hạn, các vận hành bất thường và tiêu chuẩn dữ liệu Tuy nhiên, các hệ thống này hiện chưa thường xuyên áp dụng khai phá dữ liệu, do đó không khám phá ra các mẫu mới hoặc phân loại, và phần lớn các mẫu cần chú ý đã được phát sinh từ trước.

quá trình khai phá dữ liệu

2.9.1 Truy cập và chuẩn bị dữ liệu

Trước khi phát triển hệ thống phân tích và tạo báo cáo thông minh, dữ liệu phải được chuẩn bị sẵn sàng Tuy nhiên, yêu cầu này không phải lúc nào cũng được đáp ứng Trong một số trường hợp, chúng ta có thể dễ dàng truy cập các hệ thống cơ sở dữ liệu và tệp trực tuyến mà không cần thủ tục hay quyền truy cập đặc biệt Đặc biệt, trong nhiều lĩnh vực, dữ liệu thường được lưu trữ trong các cấu trúc quan hệ, cho phép truy vấn để lấy thông tin cần thiết.

Mặc dù kho dữ liệu ngày càng phổ biến, việc xây dựng và duy trì chúng đòi hỏi chi phí cao Nếu không thuộc nhóm công nghệ của tổ chức lớn, chúng ta khó có thể tiếp cận cấu trúc này Thông tin trong nhiều trường hợp khai phá dữ liệu thường được lấy từ các nguồn không dự tính trước, và việc truy cập, tích hợp, cũng như trình bày thông tin có thể thực hiện bằng các phương pháp đơn giản hơn so với kho dữ liệu.

Khi truy cập dữ liệu từ kho dữ liệu trực tuyến hoặc qua các phương pháp khác, điều quan trọng là phải trích xuất một phần dữ liệu để đưa vào môi trường khai phá dữ liệu.

 Truy vấn nguồn dữ liệu

Bước đầu tiên trong khai phá dữ liệu là xác định tập con dữ liệu để phân tích Cấu trúc dữ liệu của tập hợp này cần phải có mẫu rõ ràng cho việc phân tích Việc trích xuất mẫu là một phương pháp hiệu quả để tạo ra các lát cắt dữ liệu, phục vụ cho các ứng dụng khai phá dữ liệu.

 Các thao tác có ích thực hiện trong quá trình truy cập dữ liệu

1 Chuyển đổi chữ: Chuyển tất cả các ký từ trong luồng dữ liệu thành chữ hoa hoặc chữ thường Sự trợ giúp này giúp ngăn ngừa bất kỳ sự thay đổi có thể xảy ra giữa các nguyên tố dữ liệu khác nhau

2 Ghép nối thông tin: trong nhiều hệ thống dữ liệu đƣợc cất giữ riêng biệt trong các trường, thực thể Mặc dù, các hệ thống này đã cung cấp kỹ thuật đủ cho mô hình trong quá trình phân tích nhƣng các thành phần đơn lẻ phải đƣợc kết hợp lại để tạo dữ liệu duy nhất Do đó, cần ghép nối thông tin từ các trường khác nhau vào một đơn vị duy nhất

3 Định dạng cách trình bày: đặt ra các khuôn dạng đại diện các kiểu nhất định

4 Làm giàu dữ liệu: dữ liệu thông thường chứa đựng nhiều đặc tính khác nhau, chúng có thể bị loại bỏ từ luồng dữ liệu Sự giải thoát những đặc tính này có thể trở thành rất quan trọng với ứng dụng dưới dạng lựa chọn những kiểu dữ liệu sẵn có cho các trình diễn

5 Trừu tượng hoá: trong một vài trường hợp rất hữu ích nếu ta giảm bớt trình diễn thông tin trong các trường thành các giá trị đơn giản là Yes/No Điều này cho phép ta truyền chắc chắn các kiểu thông tin mà không cần có sự trình bày ở trên đầu của các giá trị duy nhất đơn

6 Quá trình chuyển đổi các đơn vị: Ta cần chấp nhận một đơn vị chuẩn cho mỗi trường xuất hiện trong tập dữ liệu

7 Loại trừ: Vì quá trình xử lý cần làm tăng giá trị dữ liệu, do đó cần có các tiêu chuẩn loại trừ để bỏ đi các dữ liệu không cần thiết

Dữ liệu trong phân tích không chỉ xuất phát từ một nguồn duy nhất; mỗi lần truy cập dữ liệu yêu cầu tích hợp giữa dữ liệu vật lý và logic để phục vụ cho sự phát triển hoặc bước tiếp theo Người phân tích cần xác định các khía cạnh quan trọng từ các nguồn dữ liệu khác nhau và cách chúng hỗ trợ việc khai thác nhằm đạt được các mục tiêu khảo sát Có nhiều phương pháp để xác định cấu trúc dữ liệu cần lấy từ nguồn, cùng với nhiều kỹ thuật thông tin giúp phát hiện sự thật, sự tương đồng và dị thường trong tập dữ liệu Do đó, việc quản lý các lược đồ này một cách hiệu quả và an toàn là rất cần thiết.

Trong quá trình khai phá dữ liệu, các ràng buộc thường dẫn đến những trường hợp đặc biệt mà không xảy ra xung đột Tuy nhiên, trong nhiều miền dữ liệu, việc khôi phục tập dữ liệu về trạng thái ban đầu có thể gặp phải những phiền phức không mong muốn Để phục vụ cho phân tích, dữ liệu cần được thay đổi và tinh chỉnh Vấn đề quan trọng là phải xây dựng lại nguồn dữ liệu nguyên thuỷ và mô tả rõ ràng các thay đổi để đảm bảo rằng quá trình chuyển đổi dữ liệu diễn ra suôn sẻ mà không gặp phải vấn đề nào.

Trong quá trình chuyển đổi dữ liệu, hai vấn đề chính thường xuất hiện là xử lý các bản ghi có độ dài cấu trúc khác nhau và việc làm sạch dữ liệu.

Ngoài ra hiện nay dữ liệu lưu trữ trên máy tính chủ yếu dưới dạng văn bản

Trong quá trình chuẩn bị dữ liệu cho khai phá dữ liệu, việc xử lý văn bản là rất quan trọng Văn bản thường gặp phải một số vấn đề cần được chú ý.

- Xử lý ngôn ngữ tự nhiên

- Tổng kết văn bản theo chủ đề

Ngôn ngữ đánh dấu tổng quát chuẩn

2.9.2 Quá trình khái phá dữ liệu

Các giải thuật khai phá dữ liệu là những chương trình hoạt động trực tiếp trên tập dữ liệu Quá trình khai phá dữ liệu được thể hiện qua mô hình với các bước chi tiết.

Xác định nhiệm vụ : Xác định chính xác vấn đề cần thực hiện

Xác định các nguồn dữ liệu liên quan là bước quan trọng để xây dựng giải pháp hiệu quả cho vấn đề cần giải quyết.

Các nhiệm vụ chính của khai phá dữ liệu

Khai phá dữ liệu được chia thành hai loại chính: khai phá dữ liệu mô tả và khai phá dữ liệu dự đoán Khai phá dữ liệu mô tả cung cấp một cái nhìn tổng quan về dữ liệu, tóm tắt và nêu bật những đặc điểm quan trọng Trong khi đó, khai phá dữ liệu dự đoán tập trung vào việc xây dựng các mô hình để thực hiện suy luận từ dữ liệu hiện có, nhằm dự đoán hành vi của các tập dữ liệu mới.

Các mục tiêu mô tả và dự đoán đạt đƣợc thông qua các công việc khai phá dữ liệu chính sau đây:

Phân lớp là quá trình học một hàm ánh xạ dữ liệu vào các lớp đã xác định, phân tích tập dữ liệu huấn luyện để xây dựng mô hình cho mỗi lớp dựa trên các đặc tính của dữ liệu Qua đó, một cây quyết định hoặc tập luật phân lớp được tạo ra, giúp hiểu rõ hơn về từng lớp trong cơ sở dữ liệu và hỗ trợ phân loại dữ liệu trong tương lai.

Phân loại bệnh giúp dự đoán tình trạng sức khỏe dựa trên triệu chứng của bệnh nhân Ngoài ra, phân lớp còn được ứng dụng trong việc nhóm khách hàng, mô hình hóa doanh nghiệp và phân tích tín dụng.

Hồi quy là phương pháp học để xác định hàm ánh xạ từ dữ liệu mẫu đến biến dự đoán có giá trị thực Nó có nhiều ứng dụng trong khai phá dữ liệu, chẳng hạn như đánh giá khả năng tử vong của bệnh nhân dựa trên kết quả xét nghiệm chẩn đoán, hoặc dự đoán nhu cầu tiêu thụ sản phẩm mới thông qua chi tiêu quảng cáo.

Phân nhóm là quá trình mô tả chung nhằm xác định các nhóm để tổ chức dữ liệu Các nhóm này có thể tách rời, phân cấp hoặc chồng chéo lên nhau, cho phép một dữ liệu có thể thuộc nhiều nhóm khác nhau Trong lĩnh vực khai thác dữ liệu, phân nhóm đóng vai trò quan trọng trong việc phát hiện các tập khách hàng có phản ứng tương tự trong cơ sở dữ liệu tiếp thị và xác định các loại quang phổ từ các phương pháp đo tia hồng ngoại.

Mô hình hoá phụ thuộc tìm kiếm mối quan hệ đáng kể giữa các biến Có hai mức độ trong mô hình phụ thuộc: mức cấu trúc xác định các biến phụ thuộc cục bộ và mức định lượng xác định độ mạnh của sự phụ thuộc qua các thước đo cụ thể.

- Phát hiện sự thay đổi và chệch hướng khai thác những thay đổi đáng kể nhất trong dữ liệu từ các giá trị chuẩn hoặc được đo trước đó

Các nhiệm vụ khai thác dữ liệu khác nhau yêu cầu loại và lượng thông tin khác nhau, điều này ảnh hưởng đến việc thiết kế và lựa chọn các thuật toán phù hợp.

Các thành phần của giải thuật khai phá dữ liệu

Quá trình khai phá dữ liệu là sự phát triển mẫu thông qua việc sử dụng các thuật toán để tìm kiếm các mẫu đáng chú ý, bao gồm luật, cây phân lớp, quy hồi và phân nhóm Các thuật toán này bao gồm ba thành phần chính: biểu diễn mô hình, đánh giá mô hình và tìm kiếm mô hình.

Mô hình cần được biểu diễn bằng ngôn ngữ có thể khai thác, vì nếu mô tả hạn chế, khả năng học và tạo ra mô hình chính xác sẽ bị ảnh hưởng Mô hình có mô tả lớn có thể dẫn đến nguy cơ học quá mức và giảm khả năng dự đoán dữ liệu chưa biết, đồng thời làm cho việc tìm kiếm và giải thích trở nên phức tạp hơn Đánh giá mô hình là quá trình kiểm tra xem mẫu có đáp ứng tiêu chuẩn phát hiện tri thức hay không, thông qua kiểm tra dữ liệu Đối với nhiệm vụ dự đoán, việc đánh giá không chỉ dựa vào kiểm tra dữ liệu mà còn dựa vào độ chính xác dự đoán, được thực hiện thông qua phương pháp đánh giá chéo.

Tìm kiếm mô hình: Bao gồm 2 thành phần: tìm kiếm tham số và tìm kiếm mô hình

Trong quá trình tối ưu hóa mô hình, việc tìm kiếm tham số là rất quan trọng Giải thuật sẽ tiến hành tìm kiếm các tham số cần thiết nhằm cải thiện các tiêu chuẩn đánh giá mô hình dựa trên dữ liệu quan sát được và theo một mô tả mô hình đã được xác định trước.

Tìm kiếm mô hình diễn ra như một vòng lặp thông qua phương pháp tìm kiếm tham số, trong đó mỗi mô tả mô hình được thay đổi tạo ra một họ các mô hình khác nhau Để đánh giá chất lượng của từng mô hình, phương pháp tìm kiếm tham số được áp dụng Các phương pháp tìm kiếm mô hình thường sử dụng các kỹ thuật tìm kiếm heuristic, dựa trên kinh nghiệm và thử nghiệm, do kích thước không gian mô hình có thể cản trở việc tìm kiếm tổng thể.

CÁC PHƯƠNG PHÁP KHAI PHÁ DỮ LIỆU TRỰC QUAN

Quan sát các hoạt động không theo chủ quan

Kỹ thuật khai phá dữ liệu trực quan cho phép người khai phá quan sát các hoạt động mà không bị ảnh hưởng bởi định kiến cá nhân, giúp phát hiện những điểm quan trọng trong dữ liệu mà không cần biết trước điều gì cần tìm Qua phân tích trực quan, chúng ta có thể nhanh chóng nhận diện các mẫu dựa trên sự xâm phạm danh giới, tần suất xuất hiện và các phân loại dữ liệu liên quan Việc này không chỉ giúp kiểm định các phương pháp phân tích mà còn cho phép xử lý dữ liệu trực tiếp, từ đó đưa ra quyết định một cách hiệu quả Sự lặp đi lặp lại trong nghiên cứu dữ liệu giúp chúng ta hiểu sâu hơn về tập dữ liệu Cuối cùng, việc kết hợp các phương pháp truyền thống với phương pháp trực quan tạo ra một cách tiếp cận mạnh mẽ hơn cho quá trình khai phá dữ liệu.

Việc áp dụng trực quan vào dữ liệu giúp nhanh chóng phát hiện những mẫu quan trọng và xu hướng mà các phương pháp khác không thể phát hiện Đồ thị dữ liệu cung cấp thông tin phong phú hơn tại một thời điểm, bổ sung cho các kỹ thuật truyền thống Công nghệ trực quan cho phép điều chỉnh các tham số để thấy rõ ảnh hưởng của chúng đến kết quả trình diễn Mô hình này cũng dễ dàng áp dụng cho phân tích theo mô hình thăm dò Hơn nữa, việc trực quan hóa sự tương quan và kết hợp giữa các đối tượng dữ liệu giúp nhanh chóng phát hiện các mẫu và xu hướng tiềm ẩn, từ đó nâng cao khả năng phân tích thành công.

3.2 TRỰC QUAN VÀ ĐÕI HỎI CỦA NHẬN THỨC

Sự mở rộng trong việc sử dụng trực quan trong khai phá dữ liệu nhấn mạnh sức mạnh nhận thức của con người, thay vì chỉ ra những hạn chế của nó Nhiều công việc yêu cầu kinh nghiệm và nhận thức con người có thể thực hiện tốt, trong khi một số khác lại không Việc lựa chọn phương pháp nghiên cứu cần cân nhắc kỹ lưỡng về cách thức xử lý thông tin trong suốt quá trình Ở những nơi có thể, khai phá dữ liệu nên cho phép thông tin được mô tả và thao tác một cách dễ hiểu, giúp người phân tích nắm bắt và biểu diễn chúng hiệu quả Trực quan hóa giúp di chuyển thông tin ra khỏi các mô hình phức tạp, cho phép người phân tích chuyển đổi và xử lý thông tin một cách hiệu quả hơn.

 Giới hạn nhận thức trong xử lý thông tin

Hiện nay, nhiều định dạng truyền thống biểu diễn thông tin chủ yếu dưới dạng văn bản hoặc bảng, điều này dẫn đến việc người phân tích dễ mắc lỗi trong quá trình xử lý thông tin Những khuôn dạng này yêu cầu khả năng xử lý cao nhưng lại có nhận thức hạn chế, buộc người phân tích phải mở rộng trí nhớ, điều này không chỉ khó khăn mà còn dễ dẫn đến sai sót Hoạt động khai phá dữ liệu cần có nhận thức cao, yêu cầu người dùng làm việc với các định dạng dữ liệu phức tạp và kết nối thông tin từ nhiều nguồn khác nhau, nhằm làm sáng tỏ và khám phá những mẫu chưa được biết đến trước đó.

Con người có hai loại trí nhớ đó là trí nhớ ngắn hạn và trí nhớ dài hạn, cả hai loại trí nhớ này đều có giới hạn

 Trực quan hoá lợi dụng sức mạnh của nhận thức

Mặc dù con người có giới hạn trong sự chú ý và trí nhớ, nhưng khả năng xử lý thông tin trực quan của họ lại vượt trội Trong các cảnh quan phức tạp, con người có thể nhận ra vấn đề chỉ trong mili giây nhờ vào cấu trúc não bộ được thiết kế để xử lý thông tin trực quan một cách nhanh chóng và song song Hơn nữa, thông tin được biểu diễn dưới dạng trực quan dễ dàng được nhận diện hơn so với thông tin bằng văn bản hoặc lời nói.

Mô hình trực quan qua sơ đồ giúp người phân tích nhanh chóng nhận diện các mẫu quan trọng cho mục tiêu và tương lai.

3.3 VẼ SƠ ĐỒ DỮ LIỆU TRÊN LƢỢC ĐỒ TRỰC QUAN

Phương pháp trực quan cho phân tích dữ liệu phụ thuộc vào loại dữ liệu hiện có và mô hình dữ liệu đã được xây dựng Mức độ trừu tượng của dữ liệu đã được giảm thiểu.

3.3.1 Thuật toán xác định vị trí [6]

Khi trình bày dữ liệu trong môi trường trực quan, việc lựa chọn cách thức thể hiện dữ liệu một cách có ý nghĩa là rất quan trọng Hoạt động này chú trọng vào việc sử dụng các thuộc tính của các phần tử dữ liệu theo mô hình để xác định cách thông tin sẽ được hiển thị và cảm nhận Có những ràng buộc về vị trí xác định nơi các đối tượng sẽ xuất hiện trên màn hình Tùy thuộc vào loại hình trực quan hóa, bạn có thể áp dụng một quy trình chung dạng a(x,y,z) cho tất cả các điểm dữ liệu, và lựa chọn các thuật toán xác định vị trí như bó cụm hay phân cấp.

Vị trí của các đối tượng trên màn hình hiển thị được xác định bởi các giá trị chung liên quan đến chúng, với các phần tử được nhóm lại xung quanh những giá trị này Khi các giá trị này đại diện cho các tập hợp tùy ý, sự tập trung dữ liệu trong các giá trị chung trở nên rõ ràng hơn Phương pháp này thường được áp dụng trong các màn hình hai hoặc ba chiều.

Các cụm có khả năng tạo ra bản đồ dựa trên quy luật tự nhiên tại các vị trí XYZ đặc biệt hoặc sắp xếp theo thứ tự trong biểu diễn hình học Sự khác biệt giữa hai cách trình bày của các bó dẫn đến việc phân loại thành tương đối hoặc tuyệt đối Trong sắp đặt tuyệt đối, các vị trí vật lý của đối tượng được tổ chức sao cho các bó có thể nhìn thấy và khoảng cách giữa chúng có thể được đo đạc.

Các thành phần trong không gian được đưa vào sơ đồ hiển thị, giúp dễ dàng phát hiện các giá trị mất tích Tuy nhiên, các giá trị chính xác hoặc tương tự có thể chồng lên nhau Trong hiển thị tương đối, các bó được phân biệt qua cách sắp xếp theo hình thức hình học như đường tròn hoặc đường thẳng Sự khác biệt chính giữa các bó là mỗi bó được biểu diễn một cách khác nhau và duy nhất.

Vấn đề là khi nào ta dùng sự sắp xếp tương đối thay cho sự sắp xếp tuyệt đối

Sự sắp xếp tương đối mang lại lợi ích khi xử lý các giá trị đa dạng hoặc rời rạc, yêu cầu điều chỉnh vật lý để phù hợp với vùng dữ liệu Kết quả hiển thị bó lớn là cần thiết nếu muốn có giải pháp sẵn có Mỗi dữ liệu cần được mô tả trong một hoặc tập các bó, với mỗi bó đại diện cho phạm vi dữ liệu riêng biệt mà không có sự xung đột không gian Phương pháp này gần gũi với dữ liệu thô, sử dụng giá trị thực thay vì giá trị giữ chỗ trong biểu diễn tuyệt đối.

Khi xác định vị trí của đối tượng dựa trên mối quan hệ với các đối tượng khác, bạn có thể tạo ra các phân cấp hiển thị hữu ích cho dữ liệu phân loại Nút gốc, vị trí cao nhất trong phân cấp, cần được chọn lựa cẩn thận để đảm bảo mục đích hiển thị được thực hiện hiệu quả Mỗi mức hiển thị liên kết với mức trước đó mà không làm rối loạn các mối quan hệ hai chiều, tuy nhiên, có thể tồn tại các kết nối bên trong các mức Sự chú ý đến các mối quan hệ này là cần thiết, vì chúng ảnh hưởng đến cách hiểu mô hình phân cấp Nếu nút gốc không được chọn đúng cách, phân cấp có thể trở nên không cân xứng và khó hiểu Ngoài ra, tùy thuộc vào ứng dụng, có thể có nhiều nút gốc hiển thị trong cùng một lớp đối tượng.

Sự phân cấp không nhất thiết phải dựa trên các mối quan hệ liên kết, mà có thể hình thành từ giá trị gán cho các thuộc tính của đối tượng, tạo nên một lớp phân cấp sắp xếp tuyệt đối Khi xây dựng mô hình đại diện cho tổ chức, cấu trúc này phản ánh một phân cấp tổ chức hình thức Tuy nhiên, nếu các kết nối phản ánh mẫu truyền thông hoặc tác động xã hội ngược với quan hệ giám sát trực tiếp, sẽ xuất hiện sự pha trộn giữa các mức bên trong kết nối Trong những trường hợp này, cấu trúc phân cấp không điều tiết các mối liên kết, dẫn đến sơ đồ có thể trở nên lộn xộn Mặc dù không hoàn hảo, kiểu trình bày này vẫn có thể giúp phơi bày những mẫu hình và sự phụ thuộc ẩn giấu.

Mạng là phương pháp phổ biến để trình bày thông tin, không phải là mạng nơron Mô hình mạng tự tổ chức cho phép hiển thị cấu trúc dữ liệu thành các nhóm hoặc thông tin riêng biệt Mạng này hoạt động đến khi các đối tượng được tích hợp vào trạng thái ổn định, đạt được thông qua việc tối ưu hóa vị trí của các đối tượng dựa trên mối liên hệ tương đối của chúng.

Vẽ sơ đồ dữ liệu trên lƣợc đồ trực quan

Phương pháp trực quan cho phân tích dữ liệu phụ thuộc vào loại dữ liệu bạn sở hữu và mô hình dữ liệu đã được xây dựng Mức độ trừu tượng của dữ liệu đã được giảm thiểu.

3.3.1 Thuật toán xác định vị trí [6]

Khi đưa dữ liệu vào môi trường trực quan, việc trình bày dữ liệu một cách có ý nghĩa là rất quan trọng Hoạt động này dựa vào các thuộc tính của các phần tử dữ liệu trong mô hình để xác định cách thông tin được hiển thị và cảm nhận Có những ràng buộc vị trí xác định nơi các đối tượng xuất hiện trên màn hình Tùy thuộc vào kiểu trực quan hóa, có thể áp dụng một thủ tục chung như a(x,y,z) cho tất cả các điểm dữ liệu Bạn cũng có thể lựa chọn các thuật toán xác định vị trí như bó cụm hay phân cấp để tối ưu hóa quá trình này.

Vị trí của các đối tượng trên màn hình hiển thị được xác định bởi các giá trị chung liên quan đến chúng, cho phép các phần tử được nhóm lại xung quanh những giá trị này Khi các giá trị này đại diện cho các tập hợp mô tả, chúng giúp làm nổi bật sự tập trung dữ liệu trong các giá trị dùng chung Phương pháp này thường được áp dụng trong các màn hình hai hoặc ba chiều.

Các cụm có thể tạo ra bản đồ theo quy luật tự nhiên tại các vị trí XYZ đặc biệt hoặc sắp xếp theo thứ tự trong biểu diễn hình học Sự khác biệt giữa hai cách trình bày này dẫn đến sự trình bày tương đối hoặc tuyệt đối Trong xếp đặt tuyệt đối, các vị trí vật lý của đối tượng được sắp xếp để các bó có thể nhìn thấy và khoảng cách giữa chúng có thể đo được.

Các thành phần trong không gian được đưa vào sơ đồ hiển thị, giúp dễ dàng phát hiện các giá trị mất tích Tuy nhiên, các giá trị chính xác hoặc tương tự có thể chồng chéo lên nhau Trong hiển thị tương đối, các bó được phân biệt thông qua sự sắp xếp theo thứ tự hình học, như đường tròn hoặc đường thẳng Sự khác biệt chính giữa các bó là mỗi bó được biểu diễn một cách khác nhau và duy nhất.

Vấn đề là khi nào ta dùng sự sắp xếp tương đối thay cho sự sắp xếp tuyệt đối

Sự sắp xếp tương đối là phương pháp hiệu quả trong việc xử lý các giá trị đa dạng hoặc rời rạc Nó yêu cầu điều chỉnh sắp xếp vật lý để phù hợp với vùng dữ liệu, tạo ra kết quả hiển thị rõ ràng, đặc biệt khi cần giải quyết các vấn đề phức tạp Mỗi dữ liệu cần được mô tả trong một hoặc nhiều bó, với mỗi bó đại diện cho một phạm vi dữ liệu riêng biệt mà không gây xung đột không gian Phương pháp này gần gũi với dữ liệu thô, sử dụng giá trị thực thay vì giá trị giữ chỗ trong biểu diễn tuyệt đối.

Khi xác định vị trí của đối tượng dựa trên mối quan hệ với các đối tượng khác, bạn có thể tạo ra các phân cấp hiển thị Những phân cấp này rất hữu ích cho các tập dữ liệu mà trong đó đối tượng được phân loại và các kiểu dữ liệu lồng ghép vào nhau Nút gốc là vị trí cao nhất trong phân cấp, và việc lựa chọn nút gốc phải được thực hiện cẩn thận để đảm bảo phân cấp phục vụ đúng mục đích hiển thị Mỗi mức hiển thị liên kết với mức trước đó mà không làm lẫn lộn các mối quan hệ hai chiều, mặc dù có thể có kết nối nội bộ giữa các mức Sự chú ý đặc biệt cần được dành cho các mối quan hệ này, vì chúng ảnh hưởng đến cách hiểu mô hình phân cấp Nếu nút gốc không được chọn đúng, phân cấp có thể trở nên không cân xứng và khó hiểu Trong một số ứng dụng, có thể có nhiều hơn một nút gốc được hiển thị trong một lớp đối tượng.

Sự phân cấp không nhất thiết phải dựa vào các quan hệ liên kết; một số phân cấp có thể dựa trên giá trị gán cho thuộc tính của các đối tượng, tạo ra một lớp phân cấp sắp xếp tuyệt đối Khi xây dựng mô hình tổ chức, cấu trúc này phản ánh một phân cấp hình thức Tuy nhiên, nếu các kết nối phản ánh mẫu truyền thông hoặc tác động xã hội khác với quan hệ giám sát trực tiếp, sẽ có sự pha trộn giữa các mức trong các kết nối Trong trường hợp này, cấu trúc phân cấp không điều tiết mối liên kết, dẫn đến sơ đồ lộn xộn Mặc dù không lý tưởng, kiểu trình bày này có thể giúp phát hiện những mẫu và phụ thuộc đặc biệt đang ẩn dấu.

Mạng là một phương pháp phổ biến để thể hiện thông tin, không phải là mạng nơron Mô hình mạng tự tổ chức hiển thị tổ chức các đối tượng dữ liệu thành các bó hoặc thông tin riêng biệt Mạng này hoạt động cho đến khi tích hợp các đối tượng vào một trạng thái ổn định, đạt được thông qua việc xếp đặt tối ưu các đối tượng dựa trên các liên kết tương đối của chúng.

Dữ liệu sử dụng trong mạng ảnh hưởng lớn đến kết quả thu được Khi tạo ra sự phân phối hiệu quả giữa các đối tượng, mạng sẽ được chia thành các phần riêng biệt với những bó cụ thể Điều này giúp tối giản các điểm giao nhau và mang lại một cách trình bày thông tin hấp dẫn Những mạng này trở nên dễ hiểu hơn và chỉ cần một lượng tối thiểu để xác định lại vị trí.

Khi triển khai tổ chức mạng, cần lưu ý rằng các mô hình này rất hiệu quả trong việc kết nối các lớp đối tượng có mối liên hệ với nhau Sự kết nối giữa các liên kết sẽ giúp tập trung tất cả các đối tượng vào một khối trung tâm.

3.3.2 Điều khiển sự xuất hiện của các đối tƣợng trong các thể hiện

Dữ liệu phần lớn được truyền đạt qua sự hiển thị của các đối tượng riêng lẻ, với những đặc tính trực quan có thể xác định thông qua các giá trị cụ thể Các đối tượng này có thể được thay đổi về hình thức, màu sắc, kích thước và kiểu dáng để tạo ra các biểu hiện khác nhau.

Khi ấn định các thuộc tính hiển thị đặc trưng, cần xem xét các nhân tố quan trọng như việc sử dụng màu sắc, chỉ áp dụng cho các thuộc tính cụ thể để tránh hiệu ứng cầu vồng gây khó hiểu Ngoài ra, chỉ nên truyền đạt thông tin dưới dạng kích thước đối tượng khi có ít giá trị khả dụng Việc loại bỏ các hướng dẫn không cần thiết và giữ cho công việc không phụ thuộc vào sở thích cá nhân sẽ giúp hiển thị trở nên rõ ràng hơn Mỗi thao tác thêm vào hiển thị cần phải nâng cao sự hiểu biết và sự sáng sủa của dữ liệu.

3.3.3 Làm cho các hiển thị có thể hiểu đƣợc Đây chính là kỹ thuật diễn tả cách trình bày thông tin đối tƣợng, nó có đủ sức mạnh giúp ta trình bày dữ liệu Dựa vào sự mã hoá các thuộc tính thông tin trong hiển thị ta có thể hiển thị lại ở mọi nơi Đầu tiên, ta có kích thước của tập dữ liệu đƣợc trích ra từ tập dữ liệu ban đầu, tiếp theo, dựa vào mô hình dữ liệu đã lựa chọn, một tập các đối tƣợng đƣợc tạo ra phản ánh thế giới thực và những gì đã định nghĩa trong tập dữ liệu Điều này cũng định nghĩa sự phân tích vì mô hình ta có sẽ chắc chắn bao gồm chúng và loại trừ những phần nhất định Một khi dữ liệu đƣợc đƣa vào trong các thể hiện trực quan thì đối tƣợng kết quả có thể đƣợc trình bày bằng cách kết hợp các vị trí, đặc điểm hình thức hoặc nhãn Dựa vào độ lớn của kích thước được sử dụng trong hiển thị ta có thể dễ dàng nhận được hai mươi hoặc nhiều hơn nữa các miếng thông tin từ dữ liệu

Việc hiển thị trong không gian rộng lớn không thể được đánh giá ngay lập tức; chúng ta cần phân tích dữ liệu dần dần Qua thời gian, khi đã quen thuộc, việc giải quyết các vấn đề sẽ trở nên đơn giản hơn và các câu hỏi về thông tin sẽ ngày càng cụ thể hơn, giúp chúng ta dễ dàng xử lý thông tin hơn.

Những cách tiếp cận phân tích

Sử dụng phương pháp trực quan để phân tích sự tương tác giữa các đối tượng thông qua cách thể hiện của chúng Sự phân lớp các mẫu được thể hiện qua cấu trúc và giá trị liên quan hoặc vị trí của các đối tượng Khi áp dụng cấu trúc mạng, một kích thước bổ sung được thêm vào để tạo ra các liên kết giữa các lớp đối tượng Phân tích mô hình mạng có khả năng tiết lộ các mẫu thông tin bổ sung.

Trong phần này ta sẽ có đƣợc các loại kết luận đƣợc biểu diễn trên mô hình trực quan

3.4.1 Phân tích đặc điểm cấu trúc

Cấu trúc trình bày của dữ liệu có thể tiết lộ các mẫu ẩn và thông tin quan trọng cho người dùng Sự xếp đặt và xuất hiện của các đối tượng cung cấp cái nhìn sâu sắc về dữ liệu, giúp phát hiện những mẫu bất thường có thể liên quan đến dữ liệu đã mất hoặc mang lại những bất ngờ Hơn nữa, hình thức thể hiện có thể chỉ ra các dị thường như dữ liệu trái luật hoặc nhóm dữ liệu không đồng nhất về tỷ lệ và kích thước Phân tích trực quan mà không có nhãn đối tượng hay sự xếp đặt cho phép chúng ta có cái nhìn tổng quan hơn về sự việc.

 Những giá trị vƣợt giới hạn

Thỉnh thoảng, thông tin bên ngoài hiển thị rõ ràng đến mức có thể ngay lập tức kiểm tra cấu trúc dữ liệu Bằng cách sử dụng biểu đồ để thể hiện mật độ các đối tượng, chúng ta có thể xác định các giá trị bên ngoài như minh họa trong hình trên [6].

Dữ liệu mất tích có thể ảnh hưởng đến mục đích phân tích, khi những bản ghi cần thiết không có mặt trong tập dữ liệu Nếu trong quá trình truy xuất thông tin mà phát hiện bất kỳ phần nào bị thiếu, điều này cho thấy sự thất bại của hệ thống Do đó, để kiểm tra xem các chức năng của hệ thống có hoạt động đúng hay không, chúng ta cần tập hợp dữ liệu đã gọi và xác định các bản ghi không đầy đủ.

Làm ước lượng, một ma trận kiểm thử được tạo ra để xác định các tham số của những trường hợp điển hình, bao gồm các thực thể mô tả cách bố trí và xếp đặt Ma trận kiểm thử chuẩn chứa đựng thông tin mô tả hàng nghìn bản ghi tế bào, và các kiểm thử thường sử dụng công nghệ tế bào phần cứng chuyên dụng để ghi lại tất cả các điều kiện vận hành Danh sách điều khiển “chủ” được phát sinh từ phần cứng, làm cơ sở để thử nghiệm hệ thống nhằm đánh giá hiệu quả khi phần cứng hoặc phần mềm có sự thay đổi, nâng cấp.

Khi sử dụng mô tả trực quan dạng bó, việc nhóm dữ liệu theo các đặc tính giúp dễ dàng nhận diện sự không nhất quán giữa dữ liệu điều khiển và dữ liệu chuyển đổi Mục tiêu của chúng ta là tìm ra những cặp đôi chắc chắn giữa dữ liệu điều khiển và dữ liệu chuyển đổi, dựa trên các giá trị đã thực hiện việc xếp nhóm.

Giá trị vượt giới hạn

Màn hình hiển thị dữ liệu mất tích trong tập dữ liệu ứng dụng, cho thấy rằng các dữ liệu này không có đôi và có thể chỉ ra lỗi trong tế bào mạng Những sơ đồ này giúp nhanh chóng phát hiện xung khắc trong cấu hình thông qua việc phơi bày dữ liệu mất tích Mặc dù phân tích dữ kiện dạng bảng có thể phức tạp và tốn thời gian, nhưng chúng ta có thể ngay lập tức nhận thấy dữ liệu mất tích khi tập dữ liệu được gửi đến máy hiển thị.

Các tập dữ liệu thường tuân thủ các nguyên tắc kiến trúc, tạo ra sự tương tác giữa các sự kiện, với sự kiện này thúc đẩy sự kiện khác Hơn nữa, nhiều sự kiện có thể xuất hiện theo một thứ tự đặc biệt Khi một chuỗi sự kiện xảy ra sai thứ tự, điều này tạo ra sự dị thường, có thể dẫn đến những mẫu quan trọng.

3.4.2 Phân tích cấu trúc mạng

Mô hình cấu trúc mạng:[6] Điều kiện 1 Điều kiện 2 Điều kiện 3 Điều kiện 4 Điều kiện 5 Đơn vị kiểm thử Điều khiển Chuyển đổi

Trong nhiều trường hợp, việc nghiên cứu dữ liệu quan trọng như của chính phủ gặp khó khăn do hạn chế quyền truy cập vì lý do an ninh và thiếu dữ liệu sạch để phân tích Để khắc phục, chúng ta có thể áp dụng giải pháp dung hòa bằng cách phát triển một công cụ trực quan cho phép tải dữ liệu theo định dạng nhất định trong mô hình trung Tiếp theo, chúng ta xây dựng các hàm hiển thị để trích xuất thông tin mô tả cần thiết Mô hình này có khả năng tiết lộ dữ liệu nguyên thủy hoặc nội dung dữ liệu quan trọng.

Mỗi lần thông tin được đưa vào mô hình, chúng ta có thể giúp xác định các mẫu then chốt và các phần tử dữ liệu trong màn hình đơn dựa trên cấu trúc đối tượng Sử dụng công cụ phân tích liên kết, chúng ta dễ dàng nhận diện các đối tượng có kết nối cao và các mối quan hệ không trùng lặp với phần còn lại của dữ liệu Hơn nữa, thông qua việc xếp nhóm các thuộc tính, chúng ta chỉ ra nơi mà mối quan hệ trong tập dữ liệu tồn tại mạnh mẽ nhất Khi khách hàng muốn kiểm tra giá trị của các đối tượng đặc biệt, chúng ta có thể cung cấp thông tin này, từ đó thực hiện phân tích thành công và chính xác thông qua khảo sát cấu trúc mạng.

Cách tiếp cận phân tích sử dụng công nghệ trực quan hóa giúp phát hiện các nút cổ chai hoặc khớp nối trong tập dữ liệu Những đối tượng dữ liệu kết nối hai hoặc nhiều mạng con có vai trò quan trọng như điểm nối bản lề trong toàn bộ mạng Sự hiện diện thường xuyên của một đối tượng nối bản lề trong mạng cho thấy đối tượng đó có vai trò quan trọng trong biểu diễn Trong mạng có thể tồn tại nhiều điểm nối bản lề, và chúng có thể đáp ứng các hàm tương tự hoặc không.

Một điểm nối bản lề là một đối tượng có số lượng kết nối lớn hoặc có vai trò quá độ trong mạng Khi đối tượng này bị loại bỏ, toàn bộ cấu trúc mạng sẽ bị ảnh hưởng đáng kể Đối tượng quan trọng được xác định dựa trên mô hình trình bày dữ liệu.

Trong một mô hình mạng phức tạp, việc phân tích các mạng mức dưới là rất quan trọng Các mạng này thường được tách biệt để dễ dàng phân tích độc lập, giúp xác định cấu hình của chúng Mục tiêu của phân tích mạng thường là khám phá các mạng mức dưới trong một tổ chức lớn hơn Ví dụ, khi nghiên cứu mô hình nhân sự, có thể phát hiện ra các nhân viên hoặc bộ phận tách rời khỏi tổ chức, từ đó đưa ra các khuyến nghị cần thiết để tổ chức lại nếu cần thiết.

Mục đích nghiên cứu là xây dựng mạng từ các mạng riêng biệt, ví dụ như cảnh sát có thể tạo ra một tập dữ liệu chứa thông tin chi tiết về các tên trộm đêm trong một thành phố lớn Bằng cách lọc ra các thuộc tính riêng, họ có thể cô lập các tên tội phạm, từ đó dễ dàng xử lý và quản lý tình hình an ninh.

Kết nối mất tích có thể tạo thành một mô hình mạng riêng biệt, với mạng mức dưới chỉ bao gồm một đối tượng đơn Những phần mất tích này có thể phản ánh dữ liệu không đầy đủ hoặc mâu thuẫn, do đó cần được xem xét cẩn thận để đảm bảo tính chính xác Nếu đã sử dụng lọc trong hiển thị trực quan, việc mất tích có thể là do nguyên nhân này.

Phương pháp cây quyết định và luật

4.2.1 Phương pháp cây quyết định và luật

Cây quyết định là một công cụ phân tích mạnh mẽ giúp khám phá các quy luật và mối quan hệ trong dữ liệu thông qua phương pháp phân tích thống kê Nó hoạt động bằng cách chia nhỏ thông tin trong tập dữ liệu, từ đó tạo ra các quyết định dễ hiểu và trực quan.

Cây quyết định là một công cụ tri thức đơn giản dùng để phân loại các đối tượng dữ liệu thành các lớp cụ thể Trong cây, các nút được gán nhãn với tên thuộc tính, trong khi các cạnh thể hiện các giá trị khả dĩ của những thuộc tính đó Các lá của cây đại diện cho các lớp khác nhau Quá trình phân loại đối tượng diễn ra thông qua các đường đi trên cây, với các cạnh tương ứng với giá trị thuộc tính của đối tượng dẫn đến các lá.

Các giải thuật chia nhỏ dữ liệu trong mô hình cây quyết định tập trung vào việc xác định các biến hoặc trường có khả năng tối đa hóa sự phân tách của các tập dữ liệu.

Theo lý thuyết, bất kỳ lĩnh vực nào trong tập dữ liệu đều có thể được lựa chọn, nhưng chỉ những lĩnh vực giúp phân tách các bản ghi mới thực sự hữu ích.

 Sử dụng cây quyết định để xây dựng các luật

Khi xây dựng cây quyết định, việc theo dõi các nhánh từ một giả thuyết ban đầu sẽ dẫn đến các kết luận tại các lá của cây.

Để đánh giá hiệu quả của cây quyết định, cần kiểm tra hệ thống với dữ liệu mới chưa được sử dụng trong huấn luyện Mỗi luật có thể được kiểm tra thông qua phân loại các bản ghi, đồng thời tính toán tỷ lệ lỗi tổng thể của cây bằng cách tổng hợp trọng số lỗi của các thành phần Tỷ lệ lỗi và hiệu quả tính toán có thể cải thiện bằng cách loại bỏ các nhánh không cần thiết, giúp các luật trở nên hữu ích hơn.

Việc đánh giá các luật có thể mang tính chủ quan, đặc biệt khi cần thiết lập các tiện ích chung hoặc quy tắc đại diện thông qua cây quyết định Một số quy tắc có thể quan trọng cho phân tích, trong khi những quy tắc khác có thể không phù hợp trong ngữ cảnh ứng dụng Trong những trường hợp này, các quy tắc không hợp lý có thể được loại trừ thủ công nếu cần thiết.

Đôi khi, việc đánh giá lại các luật mà chúng ta cho là sai có thể mang lại những kết quả bất ngờ Thay đổi hệ số trong phân tích có thể dẫn đến những phương hướng mới và thay đổi đáng kể trong kết quả cuối cùng.

 Phân chia các nút và hiệu lực hệ số phân đầu ra

Việc phân chia số lượng nhánh trên các nút gặp nhiều khó khăn Biểu diễn đầy đủ các mức của các biến tại các nút có thể hỗ trợ phân tích hiệu quả Tuy nhiên, việc này cũng dẫn đến số lượng hệ số phân đầu ra tăng cao, làm giảm hiệu lực của chúng.

Để đảm bảo độ chính xác trong việc đánh giá, chúng ta cần tránh phân loại các bản ghi quá rộng rãi Việc này sẽ giúp nâng cao hiệu lực của hệ số đầu ra.

4.2.2 Khi nào dùng cây quyết định

Cây quyết định là một phương pháp phổ biến trong phân loại và dự đoán dữ liệu dựa trên các thuộc tính khác nhau Ưu điểm của cây quyết định là khả năng miêu tả đơn giản và dễ hiểu cho người dùng Phương pháp này đặc biệt hiệu quả trong các ứng dụng yêu cầu câu hỏi tiên nghiệm Tuy nhiên, hạn chế của nó là chỉ có thể biểu diễn một số dạng chức năng nhất định, dẫn đến độ chính xác của mô hình có thể bị giới hạn, đặc biệt trong các dự đoán định lượng cần độ chính xác cao.

Các luật kết hợp

Luật kết hợp được xây dựng dựa trên phân tích thông tin trùng hợp, cho phép khám phá các tương quan và biến cố trong giao dịch như những sự kiện quan trọng.

Luật kết hợp là một hình thức biểu diễn tri thức, giúp phát hiện mối quan hệ giữa các thành phần dữ liệu trong cơ sở dữ liệu Phương pháp này cho phép khai thác và xác định các mẫu dữ liệu, với kết quả đầu ra là tập hợp các luật kết hợp được tìm thấy.

Cho một lƣợc đồ R = [A1 , Ap] với miền giá trị {0,1} và một quan hệ r trên

R Ta gọi một luật kết hợp trên quan hệ r đƣợc mô tả nhƣ sau X=> B với XR và BR\X Cho W  R, đặt s(W,r) là tần số xuất hiện của W trong r đƣợc tính bằng tỷ lệ của các hàng trong r có giá trị 1 tại mỗi cột thuộc tính Khi đó ta định nghĩa tần số xuất hiện và độ tin cậy của luật X => B trong r nhƣ sau[6] :

+ Độ tin cậy  = s( X{B}, r) \ s(X,r) với X gồm nhiều thuộc tính, B là giá trị không cố định

Nhiệm vụ của việc phát hiện các luật kết hợp là phải tìm tất cả các luật X =>

B sao cho tần số của luật không nhỏ hơn ngưỡng  cho trước và độ tin cậy của luật không nhỏ hơn ngưỡng  cho trước

4.3.2 Khi nào dùng các luật kết hợp

Phân tích các luật kết hợp đa số là công cụ hữu ích trong việc khám phá các mối quan hệ tiềm ẩn trong tập dữ liệu và có thể được áp dụng để dự báo Tuy nhiên, sự xuất hiện gần nhau của hai thành phần không nhất thiết chứng minh rằng chúng có mối quan hệ hay ý nghĩa quan trọng Vì vậy, cần tiến hành nghiên cứu kỹ lưỡng trước khi áp dụng phương pháp này.

Mạng Nơ ron

Mạng nơ ron là một phương pháp tính toán tiên tiến, được phát triển dựa trên mô hình học của hệ thống thần kinh con người Chúng có khả năng hiểu và phân tích dữ liệu phức tạp, từ đó chiết xuất các mẫu và phát hiện xu hướng mà con người và các kỹ thuật máy tính khác khó nhận diện Mạng nơ ron được định nghĩa là một hệ thống bao gồm nhiều phần tử xử lý đơn giản hoạt động song song, với hiệu suất phụ thuộc vào cấu trúc, cường độ liên kết giữa các phần tử và quá trình xử lý bên trong Hệ thống này không chỉ học từ dữ liệu mà còn có khả năng tổng quát hóa thông tin.

Trong mô hình mạng Neutron có hai mô hình học đó là học có giám sát (học có thầy) và học không có giám sát (học không giám sát)

Dữ liệu Mô hình mạng Neutron Mẫu chiết xuất được

Trong phương pháp học có giám sát, mạng neuron được huấn luyện dựa trên một tập hợp giá trị mục tiêu đã có sẵn Hệ thống cung cấp đáp án đầu ra cho các giá trị đầu vào, và nếu kết quả không khớp với đáp án, phản hồi sẽ được sử dụng để điều chỉnh trong các lần huấn luyện tiếp theo Quá trình huấn luyện kết thúc khi đầu ra đạt yêu cầu, cho phép mạng neuron tự động phát hiện và phân loại các mẫu mới Nhờ vậy, mạng thần kinh đã được huấn luyện có khả năng tự động dò tìm mẫu và thông báo cho người sử dụng về sự phù hợp của mẫu đầu vào với đáp án đầu ra.

Phương pháp huấn luyện mạng Neutron có giám sát rất hiệu quả trong các hệ thống hỗ trợ quyết định và theo dõi các mẫu đã xác định Tuy nhiên, nó không phải là phương pháp phù hợp cho khai phá dữ liệu vì không phát hiện ra những điều mới mẻ.

Học không thầy là một phương pháp quan trọng trong khai phá dữ liệu, trong đó mạng nơ ron không nhận được thông tin phản hồi từ môi trường bên ngoài về độ chính xác của đầu ra Thay vào đó, nó phải tự khám phá các đặc trưng, mối tương quan và tính cân xứng của các mẫu dữ liệu Phương pháp này cho phép học tự động, giúp tối ưu hóa quá trình phân tích mà không cần sự can thiệp từ bên ngoài.

Giải thuật luyện ( Ph-ơng pháp tối -u)

Hàm Mục tiêu Đầu vào Đầu ra mong muốn

T rọng số §Ých Sai sè

- tương tự như một mạng tự liên hợp, cô đọng thông tin từ dữ liệu đầu vào và được rút ra bởi chính mạng nơ ron

4.4.2 Khi nào sử dụng phương pháp học không có thầy

Phương pháp học không có thầy của mạng nơ ron được áp dụng trong khai phá dữ liệu nhằm tìm kiếm những đường lối mới hoặc phân chia tập dữ liệu thành các tập con Phương thức này giúp khám phá các nhóm dữ liệu nhỏ hoặc tái phân bố dữ liệu đã có mục tiêu xác định từ trước.

Giải thuật di truyền

Giải thuật di truyền được phát triển để mô phỏng hệ thống tiến hóa tự nhiên, cho phép hình thành, ước lượng và biến đổi các cá thể Giải thuật này cũng tái hiện yếu tố gen trong nhiễm sắc thể sinh học trên máy tính, giúp giải quyết nhiều bài toán thực tế khác nhau.

Giải thuật di truyền là một phương pháp tối ưu hóa quan trọng trong khai phá dữ liệu, đặc biệt là trong kỹ thuật mạng neuron Nó đóng vai trò thiết yếu trong việc tối ưu hóa các quy trình khai thác dữ liệu, giúp xác định các tham số cần thiết để tạo ra các luật mô hình hóa dữ liệu hiệu quả Giai đoạn tối ưu hóa này cho phép lựa chọn các giá trị tham số tốt nhất, từ đó cải thiện chất lượng của các luật phát hiện tri thức Do đó, giải thuật di truyền được ứng dụng rộng rãi trong các công cụ khai phá dữ liệu.

Giải thuật di truyền dựa trên ba cơ chế cơ bản: Chọn lọc, tương giao chéo và đột biến[6]

Quá trình chọn lọc trong giải thuật di truyền dựa trên sự chọn lọc tự nhiên trong tiến hóa, nơi các cá thể thích nghi nhất với môi trường sẽ được chọn lọc và truyền lại cho thế hệ sau Giá trị thích hợp được tính toán cho tất cả các cá thể hoặc gen trong quần thể, và chỉ những giá trị cao nhất mới được phép tái sản xuất Các gen có sự thích hợp thấp sẽ ít được sao chép qua các thế hệ Phương pháp chọn gen cho các thế hệ tiếp theo thường được thực hiện theo xác suất, với việc chọn lọc ngẫu nhiên trong một quần thể đại diện.

Tương giao chéo xảy ra khi hai cá thể được chọn ngẫu nhiên từ quần thể, dẫn đến sự kết hợp ngẫu nhiên của các gen trong quá trình lai giống Các gen được ghép đôi và tái di truyền theo xác suất nhất định, tham số này có thể thay đổi theo sự biến động trong quần thể Khi tương giao chéo diễn ra, con cái nhận được gen từ cả bố và mẹ, và số lượng thông tin di truyền được truyền vào gen của con có thể bị ảnh hưởng bởi sự gián đoạn trong điểm lai giống.

Trong lai ghép, sự di truyền từ cha mẹ sang con thường diễn ra một cách hoàn hảo Tuy nhiên, trong quá trình này, có thể xuất hiện những thay đổi đột ngột do lỗi trong việc truyền tải thông tin di truyền Những thay đổi này có thể mang lại lợi ích hoặc gây hại cho thế hệ sau.

4.5.2 Khi nào sử dụng giải thuật Di truyền

Giải thuật di truyền là công cụ hiệu quả để xác định các giá trị tối ưu, ngay cả khi dữ liệu nguồn và thông tin thu thập được từ nhiều nguồn khác nhau.

Giải thuật di truyền được ứng dụng trong kinh doanh để tối ưu hóa lợi nhuận thông qua việc kết hợp các đặc tính sản phẩm Bên cạnh đó, chúng cũng đã được sử dụng hiệu quả trong việc lập lịch và quản lý chuỗi thời gian.

Giải thuật di truyền cũng có các hiệu ứng tốt có thể đƣợc dùng kết hợp với mạng nơ ron tại đầu ra của mạng này.

Các phương pháp khai phá dữ liệu khác

4.6.1 Phân nhóm và phân đoạn

Kỹ thuật phân nhóm và phân đoạn là phương pháp chia dữ liệu thành các phần hoặc nhóm tương đồng dựa trên tiêu chí nhất định Mối quan hệ giữa các thành viên trong nhóm được xác định bởi mức độ tương đồng, từ đó hình thành các quy tắc ràng buộc giữa các thành viên.

Quá trình khai phá dữ liệu sử dụng kỹ thuật này tạo ra các tập mẫu chứa dữ liệu có chung các đặc điểm, được phân tích từ cơ sở dữ liệu Những mẫu này không chỉ giúp tái tạo các tập dữ liệu một cách dễ hiểu hơn mà còn cung cấp các nhóm dữ liệu phục vụ cho các hoạt động và công việc phân tích Đặc biệt, việc trích xuất các nhóm dữ liệu này là rất quan trọng đối với cơ sở dữ liệu lớn.

4.6.2 Phương pháp suy diễn và quy nạp

Cơ sở dữ liệu không chỉ là một kho thông tin mà còn có khả năng suy diễn các thông tin quan trọng từ đó Hai kỹ thuật chính để thực hiện điều này là suy diễn và quy nạp.

Phương pháp suy diễn là kỹ thuật rút ra thông tin mới từ cơ sở dữ liệu dựa trên các quan hệ có sẵn Nó sử dụng các sự kiện chính xác để tạo ra tri thức mới từ thông tin cũ Thông qua phương pháp này, các luật suy diễn thường được chiết xuất, giúp nâng cao khả năng phân tích dữ liệu.

Phương pháp quy nạp là một kỹ thuật giúp suy ra thông tin từ cơ sở dữ liệu, cho phép tự động tìm kiếm, tạo mẫu và sinh ra tri thức mới mà không dựa vào các kiến thức đã có trước đó.

4.6.3 Các phương pháp dựa trên mẫu

Sử dụng các mẫu miêu tả từ cơ sở dữ liệu giúp tạo ra mô hình dự đoán các mẫu mới bằng cách rút ra các thuộc tính tương tự từ các mẫu đã biết Nhiệm vụ chính là xác định độ đo giống nhau giữa các mẫu, từ đó phát triển mẫu dự đoán hiệu quả.

4.6.4 Khai phá dữ liệu văn bản

Kỹ thuật phân tích dữ liệu văn bản không định dạng đóng vai trò quan trọng trong việc tìm kiếm và phân lớp thông tin Đặc biệt, nó giúp phân tích câu trả lời cho các câu hỏi mở trong khảo sát thị trường, từ đó khám phá các tài liệu phức tạp một cách hiệu quả.

lựa chọn phương pháp khai phá dữ liệu

Các thuật toán khai phá dữ liệu tự động hiện vẫn đang trong giai đoạn phát triển ban đầu Chưa có tiêu chuẩn rõ ràng nào để xác định phương pháp nào là tối ưu và trong tình huống nào thì chúng phát huy hiệu quả tốt nhất.

Hầu hết các kỹ thuật khai phá dữ liệu đều còn mới mẻ trong lĩnh vực kinh doanh, với nhiều phương pháp khác nhau phù hợp cho các bài toán đa dạng Mỗi kỹ thuật đều có những ưu điểm và nhược điểm riêng, nhưng phần lớn nhược điểm có thể khắc phục Do đó, cần áp dụng các kỹ thuật một cách đơn giản và dễ hiểu để giảm bớt sự phức tạp Để so sánh các kỹ thuật, cần có một tập hợp quy tắc lớn và các phương pháp thực nghiệm hiệu quả, nhưng thường thì quy tắc này không được áp dụng khi đánh giá các kỹ thuật mới nhất, dẫn đến việc cải thiện độ chính xác không phải lúc nào cũng khả thi.

Nhiều công ty đã phát triển sản phẩm kết hợp nhiều kỹ thuật khai thác dữ liệu với hy vọng cải thiện hiệu quả, nhưng thực tế cho thấy điều này chỉ tạo ra sự phức tạp và khó khăn trong việc so sánh các phương pháp Các nghiên cứu chỉ ra rằng, khi hiểu rõ các kỹ thuật, người ta nhận thấy chúng có nhiều điểm tương đồng mặc dù ban đầu có vẻ khác biệt Tuy nhiên, đánh giá này chỉ mang tính chất tham khảo, vì khai thác dữ liệu vẫn là một lĩnh vực mới đầy tiềm năng mà còn nhiều cơ hội để khám phá.

4.8 ƢU THẾ VÀ KHÓ KHĂN CỦA KHAI PHÁ DỮ LIỆU

Khai phá dữ liệu dựa trên các phương pháp cơ bản đã biết, nhưng nó có những điểm khác biệt và ưu thế riêng Để hiểu rõ hơn, chúng ta sẽ phân tích từng phương pháp cơ bản và so sánh với khai phá dữ liệu.

Trong học máy, cơ sở dữ liệu đề cập đến một tập hợp các mẫu được lưu trữ, thường là các vector đặc điểm có độ dài cố định Thông tin về tên đặc điểm và dãy giá trị của chúng cũng có thể được lưu trong từ điển dữ liệu Các thuật toán học máy sử dụng tập dữ liệu cùng với thông tin liên quan để làm đầu vào và đầu ra, thể hiện kết quả của quá trình học.

Học máy chỉ hiệu quả khi áp dụng vào cơ sở dữ liệu đầy đủ và ít biến động, nhưng thực tế, dữ liệu thường động, không đầy đủ và có nhiều nhiễu, đồng thời kích thước của chúng thường lớn hơn so với các tập dữ liệu học máy thông thường Những yếu tố này khiến cho hầu hết các thuật toán học máy trở nên không hiệu quả trong nhiều trường hợp.

Ngƣợc lại, Khai phá dữ liệu có khả năng áp dụng trong những cơ sở dữ liệu lớn, có nhiều biến động

Phương pháp hệ chuyên gia là kỹ thuật thu thập và sử dụng tri thức từ các chuyên gia, giúp suy diễn các luật từ tri thức và quy trình suy diễn Khác với khai phá dữ liệu, tri thức của chuyên gia thường có chất lượng cao hơn nhiều so với dữ liệu trong cơ sở dữ liệu Hơn nữa, các chuyên gia cũng xác nhận tính giá trị và hữu dụng của các mẫu phát hiện được.

Khai phá dữ liệu khác với phát kiến khoa học ở chỗ nó ít có chủ tâm và điều khiển hơn Trong khi các nhà khoa học có thể sử dụng dữ liệu từ thực nghiệm và loại bỏ một số tác động của các tham số để làm nổi bật sự biến thiên của các tham số chính, họ cũng có khả năng thiết kế các thí nghiệm và nhận ra rằng các thiết kế ban đầu có thể không phù hợp.

Việc thiết kế lại cơ sở dữ liệu hoặc thu thập lại dữ liệu không phải là điều dễ dàng.

Mặc dù các phương pháp thống kê cung cấp nền tảng lý thuyết vững chắc cho phân tích dữ liệu, nhưng chúng cũng tồn tại một số điểm yếu nhất định.

Các phương pháp thống kê chuẩn không phù hợp đối với các kiểu dữ liệu có cấu trúc trong rất nhiều các cơ sở dữ liệu

Thống kê hoàn toàn theo dữ liệu, nó không sử dụng tri thức sẵn có về lĩnh vực

Kết quả của phân tích thống kê có thể sẽ rất nhiều và khó có thế làm rõ đƣợc

Phương pháp thống kê cần có sự hướng dẫn của người dùng đề xác định phân tích dữ liệu nhƣ thế nào và ở đâu

Sự khác nhau cơ bản giữa khai phá dữ liệu và thống kê :

Khai phá dữ liệu là một phương tiện được dùng bởi người sử dụng đầu cuối chứ không phải là các nhà thống kê

Khai phá dữ liêu tự động quá trình thống kê một cách có hiệu quả

Qua khai phá dữ liệu, việc dự đoán có thể đƣợc đƣa lên máy tính, dự đoán và kiểm tra một các tự động

4.8.2 Khó khăn Đầu vào chủ yếu của một hệ thống phát hiện tri thức là các dữ liệu thô trong cơ sở dữ liệu Những vấn đề khó khăn phát sinh trong khai phá dữ liệu chính từ nguyên nhân là dữ liệu trong thực tế thường động, không đầy đủ, lớn và bị nhiễu Trong những trường hợp khác, người ta không biết cơ sở dữ liệu có chứa các thông tin cần thiết cho việc khai thác hay không và làm thế nào để giải quyết sự dƣ thừa thông tin không thích hợp này

Hiện nay, cơ sở dữ liệu với hàng trăm trường và bảng, hàng triệu bản ghi đã trở nên phổ biến, với kích thước lên tới gigabyte Gần đây, các cơ sở dữ liệu có kích thước tetrabyte cũng đã bắt đầu xuất hiện Để xử lý những khối lượng dữ liệu lớn này, các phương pháp hiện tại bao gồm thiết lập ngưỡng cho cơ sở dữ liệu, lấy mẫu, áp dụng các phương pháp xấp xỉ và xử lý song song.

Số lượng bản ghi và số trường trong cơ sở dữ liệu đều lớn, dẫn đến kích thước bài toán tăng lên Tập dữ liệu lớn không chỉ làm tăng không gian tìm kiếm mà còn có thể khiến thuật toán khai phá dữ liệu phát hiện các mẫu giả Để khắc phục, cần giảm kích thước tác động của bài toán và sử dụng tri thức trước đó để xác định các biến không phù hợp.

Dữ liệu động là một đặc điểm quan trọng của hầu hết các cơ sở dữ liệu, nơi nội dung liên tục thay đổi theo thời gian Sự biến động này có thể ảnh hưởng đến quá trình khai thác dữ liệu, khiến cho các mẫu đã được xác định trước đó trở nên không còn giá trị Ngoài ra, các biến trong cơ sở dữ liệu ứng dụng cũng có thể thay đổi, bị xóa hoặc tăng lên theo thời gian Để giải quyết vấn đề này, cần áp dụng các giải pháp nâng cấp các mẫu và xem những thay đổi như một cơ hội để khai thác, nhằm tìm kiếm và nhận diện các mẫu đã bị biến đổi.

 Các trường hợp không phù hợp

Một yếu tố quan trọng cần lưu ý là tính không thích hợp của dữ liệu, tức là dữ liệu không phù hợp với mục tiêu hiện tại của việc khai thác Bên cạnh đó, giá trị của một thuộc tính cũng có thể liên quan đến một tập con cụ thể trong cơ sở dữ liệu.

 Các giá trị bị thiếu

ƣu thế và khó khăn của khai phá dữ liệu

5.1 TỔNG QUAN GIẢI THUẬT DI TRUYỀN CỔ ĐIỂN

Sự ra đời của học thuyết tiến hóa của Darwin

Năm 1859, Charles Darwin công bố học thuyết tiến hóa qua cuốn sách "Nguồn gốc các loài", gây ra một cuộc cách mạng trong tư duy của nhân loại và định hình lại nghiên cứu trong lĩnh vực sinh học.

Học thuyết có thể tóm tắt như sau [8]:

1 Các sinh vật sinh ra một lƣợng con cái nhiều hơn số lƣợng cá thể có thể sống sót

2 Các sinh vật khác nhau về cách thức mà sự sống còn của chúng bị tác động

3 Phần lớn các biến dị đƣợc kiểm soát bởi gen

4 Chọn lọc tự nhiên giúp các loài luôn thích nghi

5 Loài mới chỉ đƣợc hình thành bằng sự cách ly

Sự ra đời của giải thuật di truyền cổ điển (Genetic Algorithm - GA)

Năm 1975, Holland lần đầu tiên áp dụng thuyết tiến hóa của Darwin vào lĩnh vực tin học trong luận án tiến sĩ "Adaptation in Natural and Artificial Systems" Ông đã sử dụng giải thuật di truyền để tìm cực trị của hàm số Max { f(x) / x ∈ M }, với M là hình hộp trong không gian số thực n chiều và f(x) > 0 cho mọi x ∈ M Holland cũng chứng minh sự hội tụ của giải thuật bằng định lý về lược đồ (schema theorem) Sau khi giải thuật di truyền cổ điển ra đời, nhiều nghiên cứu đã được thực hiện để bổ sung và hoàn thiện giải thuật này, giúp nâng cao tốc độ tìm kiếm và mở rộng khả năng ứng dụng của nó.

Giải thuật di truyền cổ điển (GA) sử dụng nguyên tắc tiến hóa tự nhiên để giải quyết các bài toán tối ưu Quá trình này bắt đầu bằng việc tạo ra một tập hợp các lời giải khả thi, sau đó trải qua nhiều bước tiến hóa để hình thành các tập hợp mới, từ đó tìm ra những lời giải tối ưu hơn.

GIẢI THUẬT DI TRUYỀN VÀ BÀI TOÁN LẬP THỜI KHOÁ BIỂU

Tổng quan giải thuật di truyền cổ điển

Sự ra đời của học thuyết tiến hóa của Darwin

Vào năm 1859, Charles Darwin đã công bố học thuyết tiến hóa thông qua tác phẩm "Nguồn gốc các loài", cuốn sách này đã tạo ra một cuộc cách mạng trong tư duy nhân loại và định hình lại hướng nghiên cứu trong lĩnh vực sinh học.

Học thuyết có thể tóm tắt như sau [8]:

1 Các sinh vật sinh ra một lƣợng con cái nhiều hơn số lƣợng cá thể có thể sống sót

2 Các sinh vật khác nhau về cách thức mà sự sống còn của chúng bị tác động

3 Phần lớn các biến dị đƣợc kiểm soát bởi gen

4 Chọn lọc tự nhiên giúp các loài luôn thích nghi

5 Loài mới chỉ đƣợc hình thành bằng sự cách ly

Sự ra đời của giải thuật di truyền cổ điển (Genetic Algorithm - GA)

Vào năm 1975, Holland lần đầu tiên áp dụng thuyết tiến hóa của Darwin vào lĩnh vực tin học thông qua luận án tiến sĩ "Adaptation in Natural and Artificial Systems" Trong luận án này, ông đã sử dụng giải thuật di truyền để giải quyết bài toán tối ưu hóa hàm số Max { f(x) / x ∈ M }, với M là hình hộp trong không gian số thực n chiều và f(x) > 0 cho mọi x ∈ M Holland cũng đã chứng minh sự hội tụ của giải thuật bằng định lý lược đồ (schema theorem) Kể từ khi giải thuật di truyền cổ điển ra đời, nhiều nghiên cứu đã được thực hiện nhằm bổ sung và hoàn thiện giải thuật này, góp phần nâng cao tốc độ tìm kiếm và mở rộng khả năng ứng dụng của nó.

Giải thuật di truyền cổ điển (GA) sử dụng cơ chế tiến hóa tự nhiên để giải quyết các bài toán tối ưu Quá trình này bắt đầu bằng việc tạo ra một tập hợp các lời giải khả thi, sau đó trải qua nhiều bước tiến hóa để hình thành các tập hợp mới với những lời giải tốt hơn Cuối cùng, GA tìm ra lời giải đủ tốt, thường là gần với lời giải tối ưu.

Giải thuật di truyền cổ điển thực hiện tìm kiếm theo nhiều hướng thông qua việc duy trì một tập lời giải khả thi và khuyến khích sự trao đổi thông tin giữa các hướng, quá trình này được gọi là tiến hóa Tiến hóa diễn ra trên một quần thể các lời giải trong không gian tìm kiếm, với mục tiêu tìm ra lời giải tốt nhất và khám phá toàn bộ không gian Qua nhiều bước tiến hóa từ tập lời giải ban đầu, mỗi tập lời giải sau mỗi bước được gọi là một thế hệ Trong mỗi thế hệ, những lời giải tốt được chọn để tái sinh, trong khi các lời giải kém sẽ bị loại bỏ, dẫn đến một lời giải đủ tốt theo yêu cầu Để phân biệt các lời giải, người ta sử dụng hàm phù hợp (fitness function) để đánh giá chất lượng của từng lời giải.

Thuật toán di truyền (GA) sử dụng các khái niệm từ di truyền học, trong đó tập hợp các lời giải được gọi là quần thể (population) và mỗi lời giải trong quần thể được xem như một cá thể hoặc nhiễm sắc thể (chromosome) Mỗi cá thể có hàm phù hợp để đánh giá khả năng thích ứng của nó với môi trường Quá trình thay đổi quần thể diễn ra thông qua các toán tử chọn lọc (selection), đột biến (mutation) và tương giao chéo (crossover).

5.1.2 Cấu trúc của GA cổ điển

 Cấu trúc nhiễm sắc thể và kiểu gen

Các cá thể, hay còn gọi là nhiễm sắc thể (NST), được mã hóa bằng các chuỗi nhị phân, trong đó mỗi vị trí của chuỗi chỉ nhận giá trị 0 hoặc 1.

Một NST trong GA có dạng nhƣ sau [8]:

Mỗi kiểu gen (một NST cụ thể) biểu diễn một lời giải có thể của bài toán

 Thủ tục tiến hóa của GA [8]

Thủ tục của GA cổ điển thể hiện qua sơ đồ sau :

Khởi tạo P(t); Đánh giá P(t); while (not_ điều_kiện_kết_thúc ) do begin t= t+1;

Thay đổi P(t); Đánh giá P(t); end End

Quá trình tiến hóa diễn ra trong vòng lặp while tại thế hệ thứ t với tập lời giải P(t) = {x t1, , x tn } Mỗi lời giải được đánh giá độ thích nghi, từ đó xây dựng một tập lời giải mới bằng cách chọn lọc các cá thể có khả năng thích nghi tốt hơn Tập lời giải trung gian được tạo ra và một số cá thể trong đó sẽ được thay đổi thông qua các toán tử di truyền như đột biến và tương giao chéo Bài viết sẽ đi sâu vào việc tìm hiểu hàm phù hợp và các toán tử di truyền.

Hàm phù hợp là công cụ đo lường mức độ tốt hay xấu của lời giải, phản ánh khả năng thích nghi của cá thể với môi trường Việc xây dựng hàm phù hợp cần được điều chỉnh tùy theo từng bài toán cụ thể Có nhiều phương pháp khác nhau để phát triển hàm phù hợp, nhằm tối ưu hóa quá trình giải quyết vấn đề.

1 Hàm phù hợp thô (Raw fitness) R f

Hàm phù hợp được xây dựng theo từng hoàn cảnh cụ thể, với mục tiêu tối ưu hóa mức độ lỗi của lời giải Khi giá trị hàm phù hợp thể hiện mức độ lỗi, nó sẽ được cực tiểu hóa; ngược lại, nếu giá trị này không đạt yêu cầu, nó sẽ được cực đại hóa.

2 Hàm phù hợp tiêu chuẩn hóa (Standardized fitness) Sf Đối với phương pháp xây dựng này hàm phù hợp luôn luôn được cực tiểu hóa Nếu R f đặc trƣng cho mức độ lỗi thì S f = R f , ngƣợc lại S f = Rmax- R f Trong đó

3 Hàm phù hợp điều chỉnh Af (Adjusted fitness)

Hàm này đƣợc định nghĩa thông qua S f

4 Hàm phù hợp chuẩn hóa Nf (Normalized fitness)

N f đƣợc định nghĩa nhƣ sau; Ở đây T =A f Hàm này là một hàm tăng và có giá trị giữa 0 và 1

 Toán tử chọn lọc (Selection)

Chọn lọc là quá trình chọn lựa các cá thể tham gia vào các giai đoạn tiếp theo của tiến hóa, dựa vào khả năng thích nghi của chúng Những cá thể có giá trị hàm thích nghi cao hơn sẽ có khả năng sinh sản và để lại nhiều thế hệ con cháu hơn.

Chiến lược lựa chọn trong GA cổ điển được gọi là bánh xe xổ số (Roulette wheel selection), trong đó mỗi cá thể trong quần thể được đại diện bằng một phần trên bánh xe, tương ứng với giá trị hàm mục tiêu của nó Xác suất chọn lọc của mỗi cá thể, ký hiệu là p_i, được tính theo công thức p_i = eval(v_i)/F, với eval(v_i) là giá trị hàm thích nghi của cá thể v_i và F là tổng giá trị hàm thích nghi của toàn bộ quần thể.

Hình vẽ sau đây sẽ minh họa cho phương pháp bánh xe xổ số:

Hình 5.1 Bánh xe xổ số

Trong hình vẽ này chẳng hạn cá thể 1 có xác suất chọn lọc là 25% Mỗi lần quay bánh xe xổ số nó có khả năng đƣợc chọn là 25%

Ta có thể cài đặt phương pháp bánh xe xổ số theo các bước như sau:

1 Tính tổng giá trị hàm thích nghi của tất cả các thành viên trong quần thể và gọi là tổng phù hợp ( Total fitness ) F=  eval(v i )

2 Phát sinh một số n ngẫu nhiên trong khoảng từ 0 tới tổng phù hợp

3 Trả lại thành viên tập hợp đầu tiên mà độ phù hợp của nó cộng với độ phù hợp của các thành viên đứng trước nó lớn hơn n

 Toán tử đột biến (Mutation)

Phép đột biến được thực hiện trên từng bit của nhiễm sắc thể với xác suất đột biến Pm, dẫn đến tổng số bit bị đột biến trong quần thể là Pm * k * Pop_size, trong đó k là chiều dài chuỗi nhị phân và Pop_size là số lượng cá thể trong quần thể Mỗi bit trên nhiễm sắc thể có xác suất bị đột biến như nhau, và quá trình gây đột biến cho một bit được thực hiện theo các bước cụ thể.

 Sinh ra ngẫu nhiên một số k (0,1)

 Nếu k < pm thì bít đó đƣợc tiến hành cho đột biến (sửa 0 thành 1 và ngƣợc lại)

Ví dụ: Hai bít thứ 1 và 6 đƣợc đột biến

 Toán tử tương giao chéo (Crossover)

Toán tử tương giao chéo là quá trình kết hợp các đặc tính từ hai nhiễm sắc thể (NST) của bố mẹ, tạo ra hai cá thể mới thông qua việc tráo đổi các đoạn gen giữa các NST.

Sau khi tiến hành trao đổi chéo hai nhiễm sắc thể trên (chẳng hạn sau vị trí thứ 5) sẽ cho ta hai nhiễm sắc thể sau:

 Các tham số của GA

GA có thể mô tả bởi 3 tham số sau:

1 N: Kích cỡ của quần thể (số lƣợng cá thể trong quần thể)

2 C: Tỷ lệ tương giao chéo Mỗi quá trình tái tạo có N*C cá thể tham gia vào quá trình tương giao chéo

3 M: Tỷ lệ đột biến Mỗi thế hệ sẽ có M*N*L vị trí bị đột biến, ở đây L là chiều dài của NST.

Ngày đăng: 17/12/2023, 01:58