Sử dụng phương pháp xây dựng đặc trưng dựa trên di truyền để tóm tắt dữ liệu Vũ Thị Anh Trâm
Sử dụng phương pháp xây dựng đặc trưng dựa trên di truyền để tóm tắt dữ liệu Vũ Thị Anh Trâm Trường Đại học Công nghệ Luận văn ThS. ngành: Hệ thống thông tin; Mã số: 60 48 05 Người hướng dẫn: PGS.TS. Hoàng Xuân Huấn Năm bảo vệ: 2012 Abstract. Giới thiệu về cơ sở dữ liệu quan hệ, quá trình tóm tắt dữ liệu trong cơ sở dữ liệu quan hệ và trình bày chi tiết các giai đoạn thực hiện của thuật toán DARA để tóm tắt dữ liệu. Trình bày về giải thuật di truyền cổ điển và những cải tiến về cách biểu diễn nhiễm sắc thể, phương pháp chọn lọc và một số toán tử di truyền thường dùng. Tìm hiểu một số vấn đề về chuyển đổi đặc trưng liên quan đến xây dựng đặc trưng và giới thiệu một phương pháp xây dựng đặc trưng dựa trên GA để tóm tắt dữ liệu. Phân tích kết quả thực nghiệm về phương pháp xây dựng đặc trưng dựa trên giải thuật di truyền. Keywords. Hệ thống thông tin; Cơ sở dữ liệu quan hệ; Giải thuật di truyền; Dữ liệu Content CHƢƠNG 1: TÓM TẮT DỮ LIỆU QUAN HỆ VỚI THUẬT TOÁN DARA 1.1 Cơ sở dữ liệu quan hệ 1.1.1 Giới thiệu Một cơ sở dữ liệu là một tập hợp dữ liệu có liên quan với nhau được tổ chức và lưu trữ theo một cấu trúc chặt chẽ. Một mô hình cơ sở dữ liệu là một tập hợp các khái niệm dùng để biểu diễn cấu trúc của cơ sở dữ liệu. Mô hình quan hệ là mô hình được sử dụng phổ biến nhất hiện nay. Cơ sở dữ liệu được tổ chức theo mô hình quan hệ được gọi là cơ sở dữ liệu quan hệ. 1.1.2 Tổ chức dữ liệu Dữ liệu lưu trữ trong cơ sở dữ liệu quan hệ được tổ chức thành các bảng có mối quan hệ với nhau. Một cơ sở dữ liệu quan hệ bao gồm một tập hợp các bảng T1, ., Tn và một tập các mối quan hệ R1, ., Rm. Mỗi bảng Ti bao gồm các cột và các hàng, các cột đại diện cho một dãy các thuộc tính, attr(T)=A1, ., Ak, và các hàng đại diện cho các bản ghi trong bảng. Định nghĩa 1.1 Miền của thuộc tính Ti.Aj ký hiệu là D(Ti.Aj) được định nghĩa là tập của tất cả các giá trị khác nhau được phép được gán cho thuộc tính Aj trong bảng Ti. Định nghĩa 1.2 Khóa chính của bảng Ti, ký hiệu là Ti.ID, có giá trị duy nhất cho mỗi hàng trong bảng. Định nghĩa 1.3 Khóa ngoại của bảng Tj tham chiếu tới bảng Ti, ký hiệu là Tj.TiID, nhận giá trị từ D(Ti.Aj). Tập các mối quan hệ R1, ., Rm mô tả mối liên kết giữa các bảng. Một bảng Ti có thể có một trong ba kiểu liên kết với bảng Tj: 1:1 (một-một), 1:n (một-nhiều) và m:n (nhiều- nhiều) Hình 1.1: Một tập dữ liệu với hai mức của liên kết 1:n Định nghĩa 1.4 Một bảng đích T là một bảng bao gồm các hàng của các đối tượng mà mỗi hàng đại diện cho một đối tượng duy nhất. Định nghĩa 1.5 Một bảng tham chiếu NT là một bảng bao gồm các hàng của các đối tượng mà một tập con những hàng này có thể được liên kết với một đối tượng duy nhất được lưu trữ trong bảng đích. 1.2 Tóm tắt dữ liệu trong cơ sở dữ liệu quan hệ Thuật ngữ tóm tắt dữ liệu thường được dùng để nói đến tóm tắt dữ liệu được lưu trữ trong cơ sở dữ liệu quan hệ với các mối quan hệ một-nhiều [8]. Định nghĩa 1.6 Một quá trình tóm tắt dữ liệu cho tất cả các bản ghi R NT trong bảng tham chiếu NT được định nghĩa là một quá trình nối thêm vào bảng đích T ít nhất một trường dữ liệu đặc trưng cho các giá trị của các bản ghi R NT được liên kết với mỗi bản ghi RT trong bảng T. Hình 1.2 minh họa trình tự tóm tắt dữ liệu cho một bảng đích T có mối quan hệ ràng buộc một-nhiều với các bảng tham chiếu (NT1, NT2, NT3, NT4, NT41). Hình 1.2 Tóm tắt dữ liệu trong nhiều bảng với các mối quan hệ 1:n Một quá trình tóm tắt dữ liệu gồm 3 giai đoạn chính (xem hình 1.3). Hình 1.3: Ba giai đoạn chính trong quá trình tóm tắt dữ liệu quan hệ 1.3.1 Giới thiệu Thuật toán DARA (Dynamic Aggregation of Relational Attributes: tổng hợp động các thuộc tính quan hệ) [4] được thiết kế cho mục đích tóm tắt dữ liệu trong cơ sở dữ liệu quan hệ. Quá trình tóm tắt dữ liệu sử dụng thuật toán DARA được minh hoạ trong hình 1.4. Hình 1.4: Quá trình tóm tắt dữ liệu sử dụng thuật toán DARA 1.3.2 Tiền xử lí dữ liệu Trong giai đoạn này, thuật toán DARA thực hiện qúa trình rời rạc hóa dữ liệu và quá trình xây dựng đặc trưng. Quá trình rời rạc hóa dữ liệu làm giảm số lượng các giá trị của đặc trưng liên tục bằng các chia miền giá trị đặc trưng thành các khoảng, nhãn được gán tương ứng cho mỗi khoảng và được dùng thay cho giá trị thực của đặc trưng. Quá trình xây dựng đặc trưng tạo ra các đặc trưng mới từ một tập các đặc trưng, sao cho tập đặc trưng mới mô tả các giả thuyết ít nhất cũng tốt như tập ban đầu. 1.3.3 Chuyển đổi dữ liệu Trong một cơ sở dữ liệu quan hệ, một bản ghi đơn Ri trong bảng đích có thể được liên kết với nhiều bản ghi khác nhau được lưu trong bảng tham chiếu như minh họa ở hình 1.5. Mỗi bản ghi đích liên kết với một số bản ghi trong bảng tham chiếu được biểu diễn như một túi các mẫu (bag of patterns) Hình 1.5: Liên kết một-nhiều giữa bảng đích và bảng tham chiếu Định nghĩa 1.7 Trong một biểu diễn theo túi các mẫu, mỗi bản ghi đích được lưu trong bảng tham chiếu NT được biểu diễn bởi tập các mẫu và tần số các mẫu. 1.3.3.1 Quá trình mã hóa các mẫu tin thành số nhị phân Mỗi đối tượng tương ứng với một bản ghi đích được biểu diễn bởi một túi các mẫu. Các mẫu này sẽ được mã hóa thành số nhị phân. Bảng với một thuộc tính duy nhất Quá trình chuyển đổi dữ liệu của bảng tham chiếu được mô tả trong hình 1.6 [2]. Hình 1.6: Chuyển đổi dữ liệu trong bảng tham chiếu với một thuộc tính Đầu tiên, thuật toán tính lực lượng của miền thuộc tính trong bảng tham chiếu. Lực lượng của một thuộc tính được định nghĩa là số các giá trị duy nhất mà thuộc tính đó có thể có. Sau khi các mẫu được mã hóa thành số nhị phân, túi các mẫu được duy trì để theo dõi số lượng mẫu và tần số xuất hiện của chúng. Trong hình 1.6, số "2" đặt trước các số nhị phân cho biết chỉ số của thuộc tính có dạng số nhị phân. Vì chỉ có một thuộc tính tồn tại trong các bộ dữ liệu, tất cả các mẫu đã được tạo ra phải thuộc về chỉ số thuộc tính bằng "2". Bảng với nhiều thuộc tính Trong trường hợp này, thuật toán có thể xây dựng các đặc trưng mới từ các thuộc tính ban đầu. Quá trình chuyển đổi dữ liệu trong bảng tham chiếu với nhiều thuộc tính được minh họa trong hình 1.7. Định dạng của các mẫu được tạo ra phụ thuộc vào số thuộc tính được kết hợp để tạo ra các mẫu [2]. Chỉ số thuộc tính được đặt trước các mẫu khi mã hóa. Có thể lấy ví dụ về một thuật toán đơn giản để xây dựng đặc trưng: đặt dom(Fi)=(Fi, 1 ,Fi, 2 , Fi, 3, ., Fi, n) biểu thị miền của thuộc tính Fi, với n giá trị khác nhau. Như vậy, ta có một biểu diễn của một bản ghi được lưu trữ trong bảng tham chiếu với các giá trị này (F1,a , F2, b, F3, c, F4, d, ., Fk-1, b, Fk, n), trong đó F1,adom(F1), F2,bdom(F2), F3,c dom(F3), F4,d dom(F4), ., Fk-1,b dom(Fk-1), Fk,n dom(Fk). Bảng 3.1 cho thấy danh sách các mẫu được tạo ra với các giá trị khác nhau của số thuộc tính kết hợp p. Bảng 1.1: Danh sách các mẫu được tạo ra p Danh sách các mẫu đƣợc tạo ra 1 F1,a, F2,b, F3,c, F4,d, ., Fk−1,b, Fk,n 2 F1,aF2,b, F3,cF4,d, ., Fk−1,bFk,n với n chẵn F1,aF2,b, F3,cF4,d, ., Fk,n với n lẻ k F1,aF2,bF3,cF4,d .Fk−1,bFk,n Thuật toán này được gọi là P Single khi p = 1 và P all khi p = k. Hình 1.7: Chuyển đổi dữ liệu bảng tham chiếu có nhiều thuộc tính 1.3.3.2 Biểu diễn dữ liệu trong mô hình không gian Vector Giả sử một cơ sở dữ liệu quan hệ DB có bảng đích gồm n bản ghi. Trong đó, P = P1, ., Pm là tập các mẫu khác nhau tồn tại trong bản ghi Oi và |Pi|≥ 0, với i = 1, ., m. Mỗi bản ghi đích Oi DB được mô tả bởi tối đa m mẫu mà mỗi mẫu có tần số xuất hiện tương ứng [2]: (1.1) Mỗi bản ghi đích Oi được coi là một vector trong không gian mẫu và có thể được biểu diễn như sau: Trong đó, rfj là tần số của mẫu thứ j trong bản ghi đích, ofj là số bản ghi đích chứa mẫu thứ j và n là số các bản ghi đích. 1.3.4 Tóm tắt dữ liệu bằng cách phân cụm Một thuật toán phân cụm thực hiện trên dữ liệu đã chuyển đổi để phân cụm các đối tượng. 1.3.5 Mô tả đặc điểm cụm và mô hình hoá dữ liệu Mô tả đặc điểm cụm là quá trình tìm kiếm các mẫu mô tả tốt nhất cho đặc điểm của các cụm. Mô tả đặc điểm cụm có thể được thực hiện bằng cách tìm kiếm một vài mẫu chung cho cụm. Sau khi tóm tắt dữ liệu được lưu trữ trong các bảng tham chiếu, công việc khai phá dữ liệu thực sự chuyển sang giai đoạn mô hình hoá, dựa trên các mục tiêu xác định và sự đánh giá dữ liệu đã có, một thuật toán thích hợp được lựa chọn và thực hiện trên dữ liệu đã được xử lý. CHƢƠNG II - GIẢI THUẬT DI TRUYỀN 2.1 Giới thiệu Giải thuật di truyền (GA) dựa trên ý tưởng trừu tượng hoá quá trình tiến hoá tự nhiên để giải bài toán tối ưu. Trong đó, mỗi lời giải tiềm năng được xem như một cá thể và được mã hoá dưới dạng thích hợp gọi là một nhiễm sắc thể. Giải thuật di truyền mô phỏng quá trình tiến hoá trên một quần thể nhiễm sắc thể để tìm lời giải cho bài toán. 2.2 Giải thuật di truyền cổ điển GA cổ điển được Holland giới thiệu để tối ưu hoá bài toán: max{f(x)/ x M R n } (2.1) nhờ dạng gene nhị phân. Ở đây M là hình hộp n i ii ba 1 , trong không gian vector thực n chiều R n , f nhận các giá trị dương trên M. Giải thuật di truyền có thể mô tả như hình 2.1 Hình Error! No text of specified style in document 2: Sơ đồ cấu trúc thuật toán di truyền 2.2.1 Phƣơng pháp mã hoá nhiễm sắc thể GA cổ điển sử dụng phương pháp mã hóa nhị phân. 2.2.2 Quá trình chọn lọc - Bánh xe sổ xố (roulette Wheel) Tính tổng độ thích nghi của quần thể N i i vevalF 1 )( . Tính xác suất chọn p i của từng cá thể v i : Fvevalp ii /)( . Tính xác suất tích luỹ q i của v i : i j ji pq 1 . Ví dụ, hình Error! No text of specified style in document 2 minh họa cho bánh xe sổ xố với quần thể có 5 cá thể. Trong đó, cá thể 1 có xác suất chọn lọc là 25%, nó có khả năng được chọn là 0.25. Tương tự như vậy với các cá thể còn lại. - Quá trình chọn lọc Quá trình chọn lọc được thực hiện bằng cách quay bánh xe sổ xố N lần, mỗi lần chọn một cá thể. Trong thực tế, có thể thực hiện như sau: Với mỗi số tự nhiên k {1,2, .,N}, tạo ngẫu nhiên r k [0,1]. Nếu r k <q 1 thì chọn v 1 , ngược lại, chọn v i mà q i r k > q i-1 Hình Error! No text of specified style in document 3: Bánh xe sổ xố với một quần thể có 5 cá thể 2.2.3 Quá trình tái tạo Quá trình tái tạo dựa trên các toán tử di truyền là tương giao chéo (lai ghép) và đột biến. - Toán tử tương giao chéo Tương giao chéo hai nhiễm sắc thể x=( x 1 . x m ) và y=(y 1 , .,y m ), với điểm tương giao k, sẽ được hai nhiễm sắc thể: x’=(x 1, . x k , y k+1 .y m ) và y’ =( y 1 . y k ,x k+1 . x m ) - Toán tử đột biến Nếu gene x k của nhiễm sắc thể x = ( x 1 . x m ) đột biến thì ta được nhiễm sắc thể mới x’ có: x i ’=1-x i nếu i=k và x i ’=x i nếu i≠k - Thủ tục tái tạo Cho trước các xác suất tương giao chéo p c và xác suất đột biến p m . Quá trình tái tạo được thực hiện như sau: Đối với mỗi nhiễm sắc thể v i , tạo một số ngẫu nhiên r[0,1], nếu r<p c thì v i được đưa vào tập tương giao chéo. Sau khi tương giao chéo, đối với mỗi gene của mỗi nhiễm sắc thể ta tạo một số ngẫu nhiên r[0,1]. Nếu r < p m thì gene này được đột biến. 2.2.4 Sự hội tụ của GA GA không đảm bảo hội tụ đến lời giải tối ưu toàn cục nên điều kiện để kết thúc quá trình tiến hóa quần thể thường là khi đạt đến một mức giá trị yêu cầu của bài toán hoặc dựa vào số thế hệ cho trước. 2.3.3 Phƣơng pháp chọn lọc Phương pháp chọn lọc bằng bánh xe sổ xố trong GA cổ điển là phương pháp được sử dụng phổ biến nhất. Một số phương pháp chọn lọc khác đã và đang được phát triển cho GA. - Chọn lọc xếp hạng: Phương pháp này thực hiện chọn lọc theo kiểu bánh xe xổ số nhưng dựa trên thứ hạng của cá thể trong quần thể thay vì giá trị thực của độ thích nghi. - Chọn lọc tranh đấu: Lặp lại N lần thao tác: lấy ngẫu nhiên k cá thể từ quần thể hiện tại, cá thể có độ thích nghi cao nhất trong nhóm cá thể này được chọn (giá trị k được gọi là kích cỡ tranh đấu, thường được lấy bằng 2). - Chọn lọc lấy mẫu ngẫu nhiên Biểu diễn các xác suất chọn trên một đường thẳng Đặt N điểm chọn lên đường thẳng, cách nhau 1/N, điểm đầu tiên đặt ngẫu nhiên trong khoảng [0,1/N]. Với mỗi điểm chọn, nhiễm sắc thể có xác suất chọn gần với nó nhất về bên phải sẽ được chọn. 2.3.3 Các toán tử di truyền 2.3.3.1 Toán tử tƣơng giao chéo - Tương giao đơn giản. Tương giao chéo với điểm chọn ở vị trí thứ k giữa hai nhiễm sắc thể cha mẹ : x =(x 1 ,x 2 , .,x n ) và y = (y 1 ,y 2 , .,y n ) thì các nhiễm sắc thể con mới là x’=(x 1 , .x k ,y k+1 , .,y n ) và y’=(y 1 , .,y k ,x k+1 , .,x n ). - Lai ghép đồng nhất: Toán tử này kết hợp các bit được lấy mẫu đồng nhất từ hai nhiễm sắc thể cha mẹ sao cho: Trong đó, k được chọn ngẫu nhiên (1<k<n) - Sắp xếp lại: Sắp xếp lại nhiễm sắc thể cha x=(x 1 ,x 2 , .,x n ) với điểm sắp xếp lại là k thì được nhiễm sắc thể con x’=(x k+1 , .,x n , x 1 , .x k ). Có thể xem đây là sự tương giao đặc biệt của nhiễm thể này với một nhiễm sắc thể khác để được nhiễm sắc thể mới mà tập các gene không đổi 2.3.3.2 Toán tử đột biến - Đột biến đều: Giả sử gene x k đột biến thành ' k x thì ' k x là số ngẫu nhiên phân bố đều trên miền chấp nhận được [a k ,b k ] của nó. - Đột biến không đều: Giả sử gene x k đột biến thành ' k x thì ' k x =x k +∆(t,x k ) trong đó ∆(t,x k ) là số ngẫu nhiên phân bố không đều trên đoạn [a k -x k ,b k -x k ] và hội tụ theo xác suất về không khi số vòng lặp t tăng ra vô hạn. - Đột biến tương hỗ Chọn hai ngẫu nhiên hai vị trí trong nhiễm sắc thể và sau đó hoán vị gen trên những vị trí này. Ví dụ, nếu hai vị trí chọn được là 3 và 6 thì nhiễm sắc thể x=(x 1 x 2 x 3 x 4 x 5 x 6 ) sau đột biến là x'=(x 1 x 2 x 6 x 4 x 5 x 3 ) CHƢƠNG III - PHƢƠNG PHÁP XÂY DỰNG ĐẶC TRƢNG DỰA TRÊN GIẢI THUẬT DI TRUYỀN ĐỂ TÓM TẮT DỮ LIỆU 3.1 Giới thiệu Trong một cơ sở dữ liệu quan hệ mà các bảng có mối quan hệ một-nhiều, mỗi bản ghi trong bảng đích được liên kết với một hoặc nhiều bản ghi trong một bảng tham chiếu. Thuật toán DARA tóm tắt dữ liệu bằng cách chuyển đổi dữ liệu trong bảng tham chiếu vào một mô hình không gian vector và thực hiện phân cụm. Việc phân cụm được coi là một trong những nhiệm vụ mô tả nhằm xác định các nhóm tự nhiên trong dữ liệu dựa trên các mẫu. Phương pháp xây dựng đặc trưng có thể được áp dụng để cải thiện độ chính xác mô tả của thuật toán. Với dữ liệu tóm tắt thu được từ các bảng tham chiếu, thuật toán DARA tạo điều kiện thuận lợi cho nhiệm vụ phân loại thực hiện trên dữ liệu được lưu trữ trong bảng đích. GA là một loại tìm kiếm song song, đa chiều và thay thế khả thi cho tìm kiếm vét cạn khó thực hiện với không gian tìm kiếm phức tạp [16][12]. Sử dụng thuật toán dựa trên GA là một lựa chọn phù hợp để xây dựng đặc trưng cho mục đích tóm tắt dữ liệu. Trong chương này, luận văn trình bày một số vấn đề về chuyển đổi đặc trưng liên quan đến xây dựng đặc trưng và giới thiệu một phương pháp xây dựng đặc trưng dựa trên GA để tóm tắt dữ liệu. 3.2 Chuyển đổi đặc trƣng 3.2.1 Xây dựng đặc trƣng Có một số lợi ích của việc áp dụng chuyển đổi đặc trưng để tạo ra các đặc trưng mới trong thuật toán DARA, đó là: (1) Cải thiện độ chính xác mô tả của tóm tắt dữ liệu bởi tạo ra các mẫu có liên quan mô tả mỗi đối tượng được lưu trữ trong bảng tham chiếu. (2) Tạo điều kiện cho nhiệm vụ lập mô hình dự báo cho các dữ liệu được lưu trữ trong bảng đích, khi dữ liệu tóm tắt được nối thêm vào bảng đích (3) Tối ưu hóa không gian đặc trưng để mô tả các đối tượng được lưu trữ trong bảng tham chiếu. Sự biểu diễn dữ liệu vào của mọi thuật toán học đều có thể được chuyển đổi để cải thiện độ chính xác cho một nhiệm vụ cụ thể. Chuyển đổi đặc trưng có thể được định nghĩa như sau: Định nghĩa 3.1. Cho một tập hợp các đặc trưng Fs và tập huấn luyện T, tạo ra một đại diện Fc từ Fs nhằm tối đa hóa một số tiêu chí và ít nhất là tốt như Fs đối với tiêu chuẩn đó. Các phương pháp tiếp cận theo cách này có thể được phân thành ba loại: (1) Lựa chọn đặc trưng: Vấn đề lựa chọn đặc trưng có thể được xác định là nhiệm vụ lựa chọn một tập hợp con các đặc trưng mà tập con này mô tả các giả thuyết ít nhất cũng tốt như tập ban đầu. (2) Tính trọng số đặc trưng: Vấn đề tính trọng số đặc trưng có thể được xác định là nhiệm vụ gán trọng số cho các đặc trưng mà mô tả giả thuyết ít nhất cũng tốt như tập không có trọng số ban đầu. Trọng số phản ánh tầm quan trọng tương đối của một đặc trưng và có thể được sử dụng trong quá trình học quy nạp. (3) Xây dựng đặc trưng: Vấn đề xây dựng đặc trưng có thể được xác định là nhiệm vụ xây dựng các đặc trưng mới, dựa trên một số biểu thức hàm số sử dụng các giá trị của các đặc trưng ban đầu, mô tả các giả thuyết ít nhất cũng được như tập ban đầu. Nghiên cứu này áp dụng phương pháp xây dựng đặc trưng để cải thiện độ chính xác mô tả của thuật toán DARA. Xây dựng đặc trưng là quá trình xây dựng các đặc trưng mới bằng cách áp dụng một số phép toán hay hàm số với các đặc trưng ban đầu. Mục đích của xây dựng đặc trưng là tạo ra tập các đặc trưng mới làm cho nhiệm vụ học trở nên dễ dàng hơn với một thuật toán khai phá dữ liệu [10]. Điều này đạt được bằng cách xây dựng đặc trưng mới từ tập các đặc trưng đã cho để trừu tượng tương tác giữa một số thuộc tính vào một thuộc tính mới Dựa vào chiến lược xây dựng, phương pháp xây dựng đặc trưng có thể được chia thành hai nhóm: phương pháp hướng giả thuyết và phương pháp hướng dữ liệu [17]. Có hai cách tiếp cận khác nhau để xây dựng đặc trưng trong mối liên hệ với khai phá dữ liệu: Phương pháp lọc (the Filter approach) và phương pháp tiếp cận bao gói (the Wrapper approach). Trong phương pháp lọc, các thuộc tính được xây dựng trước khi các thuật toán thực sự được áp dụng để xây dựng mô hình [7]. Trong phương pháp tiếp cận bao gói, các đặc trưng mới được xây dựng trong quá trình quy nạp. Trong nghiên cứu này, phương pháp lọc sử dụng chiến lược hướng dữ liệu được áp dụng để xây dựng đặc trưng cho nhiệm vụ mô tả. 3.2.2 Biểu diễn đặc trƣng: Có hai cách biểu diễn các đặc trưng là đại số và phi đại số [22].Trong dạng thức đại số, các đặc trưng được thể hiện bằng phương tiện là một số phép toán đại số như biểu thức hoặc các phép toán logic. Các đặc trưng cũng có thể được biểu diễn ở dạng thức phi đại số, trong đó sự biểu diễn không sử dụng các phép toán. Ví dụ, với một tập các thuộc tính {X1, X2, X3, X4, X5}, một đặc trưng ở dạng thức đại số như ((X1 X2) V (X3 X4 X5)) có thể được biểu diễn dưới dạng thức phi đại số như <X1X2X3X4X5, 2> mà chữ số "2", đề cập đến số lượng thuộc tính được kết hợp để tạo ra đặc trưng đầu tiên. Biểu diễn phi đại số các đặc trưng có một vài lợi thế so với biểu diễn đại số [19]. Đó là sự đơn giản của dạng biểu diễn cho mỗi cá thể trong quá trình xây dựng các đặc trưng, vì không cần đến các phép toán. Tiếp theo, khi sử dụng một thuật toán di truyền để tìm các tập tốt nhất các đặc trưng đã được xây dựng, quét trên không gian tìm kiếm phi đại số sẽ dễ dàng hơn. 3.2.3. Chấm điểm Đặc trƣng Để chấm điểm các đặc trưng đã được xây dựng, có thể sử dụng một số biện pháp thường dùng trong học máy như information gain (IG) (biểu thức 3.1) và entropy (biểu thức 3.6). IG của một đặc trưng mới F, ký hiệu là InfoGain(F), đại diện cho entropy cuả lớp trong tập dữ liệu trước khi sử dụng đặc trưng F, ký hiệu là Ent(C), và sau khi sử dụng đặc trưng F để tách tập dữ liệu thành các tập hợp con, ký hiệu là Ent(C|F): InfoGain(F)=Ent(C) - Ent(C|F) (3.1) Trong đó: