Trong “học không giám sát”, chúng ta không xác định thuộc tính đích cho thuật toán khai phá dữ liệu. Các kỹ thuật học không giám sát như là các thuật toán kết hợp và phân nhóm không đưa ra giả định về một trường đích. Thay vào đó, chúng cho phép thuật toán khai phá dữ liệu tìm ra sự kết hợp và phân nhóm trong dữ liệu độc lập với bất cứ một mục tiêu kinh doanh nào đã được định nghĩa bằng suy diễn trước đó.
4.3.2.1 Phân cụm (clustering)
ODM cung cấp 2 thuật toán, Enhanced k-Means và Orthogonal Partitioning Clustering (O-Cluster), để xác định sự gom nhóm tự nhiên trong dữ liệu mẫu.
Kỹ thuật phân nhóm của ODM tìm sự gom nhóm tự nhiên trong dữ liệu.
Thuật toán Enhanced k-Means cung cấp các nhóm có thứ bậc, xử lý các thuộc tính kiểu số hay xác định và sẽ chia mẫu thành một số các nhóm nào đó theo tiêu chuẩn của người sử dụng. Thuật toán O-Cluster cũng xử lý cả các thuộc tính số và xác định, nó sẽ tự động chọn ra các định nghĩa nhóm tốt nhất. Trong cả hai trường hợp, ODM cung cấp các thông tin chi tiết về nhóm, các quy tắc phân nhóm, các giá trị trọng tâm nhóm và có thể được sử dụng để áp dụng lên một mẫu thành viên nhóm của đó.
74
4.3.2.2 Luật kết hợp
Luật kết hợp của ODM (AR) dùng để tìm các sự kiện hay tin tức xảy ra đồng thời trong dữ liệu. AR đếm số lần kết hợp của các tin tức cặp đôi, cặp ba, cặp tư,… để tìm ra các mẫu.
Luật kết hợp của ODM thực hiện việc phân tích dữ liệu để tìm ra các sự kiện hay tin tức thường xảy ra đồng thời với nhau.
AR thể hiện việc tìm kiếm dưới dạng nguyên nhân và kết quả. Một quy tắc AR có thể là “Cho nguyên liệu là Sữa, Bánh mì và Hương liệu thì chắc chắn kết quả là Bơ có thể lên tới 78% và ủng hộ là 12%”, điều này có nghĩa là nếu như bạn tìm một tổ hợp thị trường có 3 yếu tố đầu vào, thì có một khả năng rất cao (78% chắc chắn) là bạn sẽ tìm thấy yếu tố thứ tư và sự kết hợp này tìm thấy trong 12% của tổng số các nghiên cứu tổ hợp thị trường. Vì thế việc kết hợp hay các “luật” tìm thấy rất hiệu quả trong việc thiết kế các chương trình khuyến mại đặc biệt, các gói sản phẩm và trưng bày kho hàng.
4.3.2.3 Lựa chọn đặc trưng
Ma trận thừa số không âm (Nonnegative Matrix Factorization-NMF) của ODM hiệu quả trong việc giảm tập dữ liệu lớn thành các thuộc tính đại diện. Cũng giống như khái niệm phân tích thành phần chính (Principal Component Analysis- PCA), nhưng NMF có thể quản lý một lượng lớn các thuộc tính và là một thuật toán hiện đại, mạnh mẽ nên có thể sử dụng trong nhiều trường hợp khác nhau.
Ma trận thừa số không âm tạo ra các thuộc tính mới có thể biểu diễn cùng thông tin nhưng sử dụng số thuộc tính ít hơn
NMF có thể được sử dụng để giảm khối lượng dữ liệu, ví dụ dữ liệu văn bản, thành các dạng thể hiện nhỏ, rải rác hơn để có thể giảm chiều của dữ liệu, nói cách khác, cùng một thông tin có thể được duy trì với ít biến hơn. Kết quả của các mô hình NMF có thể được phân tích bằng cách sử dụng các kỹ thuật học có giám sát
75
như là SVM hay là các kỹ thuật học không giám sát như là phân nhóm. ODM sử dụng các thuật toán NMF và SVM để khai phá dữ liệu văn bản phi cấu trúc.
4.3.2.4 Phát hiện bất thường
Phiên bản thứ 2 của ODM 10g giới thiệu một ứng dụng khai phá mới đó là phát hiện bất thường. Phát hiện “các trường hợp hiếm gặp” rất ít khặc thậm chí là không có sẵn mẫu minh hoạ của các trường hợp đó. ODM có thể “phân lớp” dữ liệu thành “bình thường” và “bất thường” cho dù chỉ biết một lớp. ODM sử dụng một phiên bản của thuật toán SVM để tạo ra một hồ sơ của một lớp đã biết. Khi mô hình đó được áp dụng chung cho các mẫu, các trường hợp không phù hợp với hồ sơ này sẽ được đánh dấu là “bất thường” (có thể là bất thường hoặc nghi ngờ là bất thường).
ODM có thể học những gì được cho là bình thường và từ đó đánh dấu các tin tức khác thường, các hoạt động khả nghi hay sự kiện hiếm thấy.
4.3.2.5 Khai phá văn bản và dữ liệu phi cấu trúc
ODM cung cấp một khả năng phân tích hợp nhất để khai phá cả dữ liệu có cấu trúc và dữ liệu phi cấu trúc, nhằm xây dựng các mô hình phân lớp, dự báo và phân nhóm.
ODM có thế khai phá cả dử liệu có cấu trúc và phi cấu trúc (tức là dữ liệu văn bản) để xây dựng mô hình phân lớp và phân cụm
Khả năng kết hợp dữ liệu có cấu trúc và dữ liệu phi cấu trúc mở ra cơ hội cho việc khai phá dữ liệu. Ví dụ những người thi hành án có thể xây dựng các mô hình dự báo các hành vi phạm tội dựa trên độ tuổi, tiền án, thu nhập,… và kết hợp các
76
ghi chú trong hồ sơ lưu của cảnh sát về người đó để tạo nên các mô hình chính xác hơn để khai thác hết các thông tin có được.
Hơn nữa, khả năng khai phá dữ liệu phi cấu trúc của ODM trong Oracle Text để phân lớp và phân nhóm các tài liệu văn bản lưu trong CSDL, ví dụ Medline. Các mô hình NMF và SVM của ODM có thể kết hợp với Oracle Text để xây dựng các mô hình phân lớp và phân nhóm tài liệu tốt hơn.
ODM cung cấp 4 giao diện hướng tới các chức năng khai phá dữ liệu trong CSDL, đó là:
- Giao diện lập trình ứng dụng Java của ODM (ODM JAVA API) cung cấp chương trình điều khiển các chức năng khai phá dữ liệu để cho phép chuẩn bị dữ liệu một cách tự động, xây dựng mô hình và các theo tác áp dụng mô hình đã tìm được để xây dựng các ứng dụng tiên tiến trong các doanh nghiệp thông minh.
- Các nhà lập trình ứng dụng có thể sử dụng giao diện lập trình ứng dụng PL/SQL và gói DBMS_DATA_MINING_TRANSFORM của ODM (ODM DBMS_DATA_MINING PL/SQL API) để xây dựng các ứng dụng tiên tiến trong doanh nghiệp thông minh. Việc này được thực hiện bằng cách sử dụng một bộ các câu lệnh SQL nguyên thủy, các câu lệnh này có thể được gọi trong các khối chương trình PL/SQL. PL/SQL API của ODM cung cấp một ngôn ngữ và phương pháp triển khai quen thuộc với đa số các nhà phát triển máy chủ và các nhà quản trị cơ sở dữ liệu Oracle.
- Bắt đầu từ phiên bản 10g, Oracle cung cấp một công cụ có giao diện đồ họa dùng cho ODM là Oracle Data Miner. Công cụ này cung cấp một phương pháp hỗ trợ tất cả các hoạt động khai phá được gọi là Hướng dẫn hoạt động khai phá (Mining Activity Guides), nó cung cấp các mẫu có cấu trúc cho tất cả người dùng để khám phá và khai phá dữ liệu của họ. Chuyên gia phân tích có thể tự điều chỉnh một số hoặc tất cả các tham số, hoặc chúng cũng được đặt sẵn để cho phép các thuật toán tối ưu hóa các tham số một cách thông minh mà không cần có sự can thiệp. Oracle Data Miner cung cấp khả năng xây dựng các mô hình và ứng dụng đồng thời bởi vì nó có thể tự động sinh mã Java hay SQL tương ứng với các hoạt động khai
77
phá dữ liệu. Sự kết hợp chặt chẽ giữa quá trình khai phá dữ liệu và quá trình phát triển ứng dụng đã đặt ODM vào vị trí duy nhất như là lựa chọn nền tảng cho việc xây dựng các ứng dụng khai phá dữ liệu tích hợp và tự động.
- Oracle thêm vào một giao diện gọi là Oracle Spreadsheet dùng cho mục đích phân tích dự báo (Predictive Analytics). Giao diện này tích hợp vào Microsoft Excel cho phép người dùng kết nối với gói PL/SQL PREDICT và EXPLAIN một cách hoàn toàn tự động. Dữ liệu có thể ở trong Excel hoặc ở trong CSDL.
Áp dụng và ghi nhận mô hình
Khi mô hình khai phá dữ liệu ODM đã được xây dựng, việc áp dụng mô hình này cho dữ liệu mới có thể ghi nhận các bản ghi mới. Ghi nhận là kết quả của quá trình dự báo. Trong ODM, thuật toán khai phá dữ liệu thực hiện việc xây dựng và áp dụng mô hình ngay trong CSDL, chứ không yêu cầu phải đưa dữ liệu ra ngoài để thực hiện như các công cụ khai phá dữ liệu khác. Đây là một kiến trúc hiệu quả, đặc biệt khi làm việc với dữ liệu lớn.
ODM có thể áp dụng một mô hình theo chế độ mẻ hoặc theo yêu cầu. Áp dụng mô hình theo chế độ mẻ lấy một bảng các bản ghi làm đầu vào và lưu trữ các dự báo trong một bảng khác. Các dự báo theo yêu cầu lấy một bản ghi đơn và trả về một dự báo mà có thể được đưa trực tiếp vào ứng dụng gọi nó.
78
Chương 5 Bài toán khai phá dữ liệu khách vi phạm quy chế xuất nhập cảnh
Hiện nay với chính sách mở cửa của nhà nước, ngày càng có nhiều người nước ngoài (NNN) đến Việt Nam để làm việc, tìm kiếm cơ hội đầu tư, tham quan du lịch…. Tuyệt đại đa số NNN đến Việt Nam đều với thiện chí và chấp hành tốt pháp luật của Việt Nam nói chung và quy chế XNC nói riêng, tuy nhiên trong số đó còn có những trường hợp vi phạm pháp luật Việt Nam, vi phạm Quy chế xuất nhập cảnh. Tình hình vi phạm diễn ra ngày càng phức tạp, với những hành vi và thủ đoạn tinh vi, hòng qua mắt được các cơ quan thi hành pháp luật. Việc vi phạm của NNN ảnh hưởng xấu đến tình hình an ninh chính trị, trật tự an toàn xã hội.
Từ tình hình trên dẫn đến việc khai phá trên tập dữ liệu đã thu thập được là một nhiệm vụ quan trọng, giúp cho việc đánh giá, phân tích ra quyết định, và dự đoán tình hình đối với những trường hợp vi phạm quy chế XNC, hỗ trợ cho cơ quan chức năng có thêm cơ sở để đấu tranh, ngăn chặn những hành vi vi phạm này.
Dựa trên số liệu về người nước ngoài vi phạm quy chế XNC được thu thập từ nhiều năm qua, chúng ta sẽ tiến hành phân lớp dữ liệu này với mục tiêu là “Dự đoán loại vi phạm quy chế XNC của NNN tại Việt Nam”.