Trong cách tiếp cận của chúng ta, một cá thể được đại diện như là một nhóm các mẫu. Sử dụng thuật toán tóm tắt dữ liệu lưu trong các bảng tham chiếu có mối quan hệ nhiều-một với các dữ liệu được lưu trữ trong bảng đích. Các mẫu được sử dụng trong thuật toán sẽ được mã hóa thành số nhị phân. Quá trình mã hóa các mẫu này thành số nhị phân phụ thuộc vào số lượng thuộc tính tồn tại trong bảng tham
chiếu. Có hai trường hợp khác nhau: Bảng có một thuộc tính và bảng có nhiều thuộc tính.
3.2.3.1 Bảng với một thuộc tính duy nhất
Trong trường hợp này, giả sử rằng có đúng một thuộc tính mô tả nội dung của bảng tham chiếu được liên kết với các bảng đích. Trong h nh 3.5, thuộc tính Trans là khóa chính của bảng Sales và các thuộc tính Customer là khóa ngoại của bảng, khóa này liên kết các bản ghi được lưu trữ trong bảng tham chiếu (bảng Sales) với các bản ghi trong bảng đích (bao gồm các Customer riêng biệt). Đầu tiên, thuật toán tính bản số của miền thuộc tính trong bảng tham chiếu. Bản số của thuộc tính được định nghĩa là số các giá trị duy nhất mà các thuộc tính có thể được lấy. Một số mô hình chỉ áp dụng cho các dữ liệu rời rạc (như luật kết hợp chẳng hạn) thì phải thực hiện việc rời rạc hóa dữ liệu.
Tiếp theo, để mã hóa các giá trị thành các số nhị phân, thuật toán tìm số bit n thích hợp, tức là các bit này có thể đại diện cho tất cả các giá trị khác nhau của miền thuộc tính, ta có 2n-1 <| miền của thuộc tính | ≤ 2n. Ví dụ, nếu thuộc tính có 5 giá trị khác nhau (London, New York, Chicago, Paris, Kuala Lumpur) thì chỉ cần 3 bit (22 <5 ≤ 23) đại diện cho một trong các giá trị (001, 010, 011, 100, 101), như trong hình 3.3. Một nhóm các mẫu được duy trì để theo dõi số lượng mẫu và tần số của các mẫu này. Đối với mỗi mẫu đã được mã hóa, bộ đếm tương ứng trong nhóm mẫu được tăng lên hoặc mẫu được thêm vào nhóm các mẫu nếu mẫu đó chưa có trong nhóm. Kết quả các nhóm mẫu thu được như hình 3.4 có thể được dùng để mô tả đặc điểm của một bản ghi.
Hình 3.4: Biến đổi dữ liệu trong bảng tham chiếu với thuộc tính đơn
Trong hình trên, số "2" đặt trước các số nhị phân cho biết chỉ số của thuộc tính có dạng số nhị phân. Vì chỉ có một thuộc tính tồn tại trong các bộ dữ liệu, tất cả các mẫu đã được tạo ra phải thuộc về chỉ số thuộc tính bằng "2".
3.2.3.2 Bảng với nhiều thuộc tính
Bảng tham chiếu có thể có nhiều thuộc tính tồn tại trong bảng. Trong trường hợp này, thuật toán xây dựng các đặc trưng mới, các kết quả có nhiều đại diện của mỗi bản ghi đích trong bảng tham chiếu. Phương pháp được sử dụng để mã hóa các mẫu được lấy từ các thuộc tính này có ảnh hưởng đến kết quả cuối cùng của công việc mô hình hóa [12]
Trong trường hợp này, giả sử có nhiều hơn một đặc trưng mô tả nội dung của bảng tham chiếu liên kết với bảng đích. Tất cả các giá trị liên tục của các thuộc tính được mô tả và các khoảng được lấy làm số các yếu tố trong một tập hợp của miền thuộc tính. Sau khi mã hóa các mô hình bằng số nhị phân, thuật toán xác định tập con các thuộc tính được sử dụng để xây dựng một đặc trưng mới.
Đối với mỗi bản ghi được lưu trữ trong bảng tham chiếu, ghép số p vào giá trị cột, trong đó p nhỏ hơn hoặc bằng tổng số các thuộc tính. Ví dụ, cho F=(F1,F2,F3,...,Fk) biểu thị các cột thuộc k trường hoặc các thuộc tính trong bảng tham chiếu. Đặt
dom(Fi)=(Fi, 1 ,Fi, 2 , Fi, 3, ..., Fi, n) biểu thị miền của thuộc tính Fi, với n giá trị khác nhau. Vì vậy, ta có một thể hiện của một bản ghi được lưu trữ trong bảng tham chiếu với các giá trị này (F1,a , F2, b, F3, c, F4, d, ..., Fk-1, b, Fk, n), trong đó F1,adom(F1), F2,bdom(F2), F3,c dom(F3), F4,d dom(F4), ..., Fk-1,b dom(Fk-1), Fk,n dom(Fk). Bảng 3.1 cho thấy danh sách các mẫu được tạo ra với các giá trị khác nhau của p. Không phải tự nhiên có các đặc trưng nối như F1,a F2,b, mà không phải là F1,aF3,c khi p=2, vì các thuộc tính không có một trật tự tự nhiên. Tuy nhiên, cách tiếp cận GA [17] có thể được áp dụng để giải quyết vấn đề này.
Bảng 3.1: Danh sách các mẫu được tạo ra
p Danh sách các mẫu được tạo ra
1 F1,a, F2,b, F3,c, F4,d, ..., Fk−1,b, Fk,n
2 F1,aF2,b, F3,cF4,d, ..., Fk−1,bFk,n với n chẵn F1,aF2,b, F3,cF4,d, ..., Fk,n với n lẻ
k F1,aF2,bF3,cF4,d...Fk−1,bFk,n
Đối với mỗi bản ghi, một nhóm các mẫu được duy trì để lần vết các mẫu được gặp và tần số xuất hiện của chúng. Đối với mỗi một mẫu mới đã được mã hóa, nếu mẫu đã tồn tại trong các nhóm, biến đếm tương ứng được tăng lên, ngược lại mẫu đó được thêm vào nhóm và biến đếm được khởi tạo cho mẫu này là 1. Kết quả là các nhóm mẫu này được sử dụng để mô tả các đặc trưng của một bản ghi được liên kết với chúng.
Ví dụ, hình 3.5 cho thấy quá trình chuyển đổi dữ liệu đã được lưu trong bảng tham chiếu với nhiều thuộc tính. Trong ví dụ này, thuộc tính Trans là khóa chính của bảng Sales và các thuộc tính Customer là khóa ngoại liên kết các bản ghi được lưu trong bảng tham chiếu (bảng Sales) với bản ghi được lưu trong bảng đích (bao gồm các Customer riêng). Dựa trên ví dụ này, các định dạng của các mẫu được tạo ra phụ thuộc vào tham số p (p = 1, p = 2 và p = k), trong đó p là số các thuộc tính được kết hợp để tạo ra các mẫu và k là tổng số thuộc tính. Thuật toán này được gọi tương ứng là PSingle khi p = 1 và Pall khi p = k.
Hình 3.5: Dữ liệu được lưu trong bảng tham chiếu với nhiều thuộc tính
Vì có nhiều hơn một thuộc tính tồn tại trong bộ dữ liệu, khi p = 1, các mẫu mã hóa được đặt trước chỉ số thuộc tính (chỉ số "2" đến k), với k là số các thuộc tính trong bộ dữ liệu, như trong hình 3.5
Tóm lại, quá trình mã hóa chuyển dữ liệu được lưu trong các bảng tham chiếu có quan hệ nhiều - một với bảng đích thành dữ liệu đại diện trong một mô hình không gian vector [12]. Với đại diện này có thể phân cụm dữ liệu dễ dàng bằng cách sử dụng kỹ thuật phân cấp hoặc kỹ thuật phân cụm phân hoạch như một phương pháp để tóm tắt dữ liệu.