Luận án tiến sĩ Toán học: Thuật toán di truyền cho bài toán nhận dạng thống kê và ứng dụng

iii Tìm xác suất thuộc vào các chùm của mỗi khoảng và ứng dụng thuật toán đề nghị trong phân tích chùm cho dữ liệu ảnh khi đặc trưng của nó được trích xuất thành khoảng hai chiều.. Phát

Tổng quan tình hình nghiên cứu

Trong thống kê toán học, nhận dạng thống kê là một trong những lĩnh vực được sự quan tâm rất lớn của các nhà khoa học trên thế giới Các mô hình nhận dạng với kỹ thuật học có giám sát và không giám sát không ngừng được cải tiến.

Trong đó, hai bài toán phân tích chùm và phân loại đóng vai trò chủ đạo, với nền tảng chính là sự vận dụng của lý thuyết xác suất vào các mô hình thuật toán.

Các khái niệm về phân tích chùm được đề xuất bởi nhiều nhà khoa học

[25, 45,50] Phân tích chùm là một phương pháp thống kê đa biến, nhằm nhóm một tập các đối tượng thành các chùm theo những đặc điểm nào đó như dựa vào sự tương tự của chúng Về đối tượng của bài toán phân tích chùm, hiện có 3 loại chủ yêu Đó là các phần tử rời rạc, các khoảng và các hàm mật độ xác suất.

Mỗi loại đối tượng sẽ có phương pháp tiếp cận phân tích chùm khác nhau Ví dụ: với phương pháp phân tích chùm không mờ, mỗi phần tử sẽ thuộc về riêng một chùm cụ thể, trong khi đó, với phương pháp phân tích chùm mờ, mỗi phần tử được gán vào các chùm với các xác suất xác định.

Các kết quả số cho thấy sự phù hợp của phương pháp này so với các phương pháp truyền thống khi nó tốn ít chi phí tính toán hơn Tuy nhiên, khi dữ liệu có sự chồng lấp nhiều thì kết quả phân tích chùm chưa được tốt Về mặt ứng dụng, tuy đã có nhiều ứng dụng sử dụng phân tích chùm vào việc gom nhóm, phân tích dữ liệu trên thế giới, nhưng việc sử dụng chùm cho di liệu rời rac chưa được quan tâm nhiều Ỏ Việt Nam, các ứng dụng của phân tích chùm cho các phần tử rời rạc trong phân tích dữ liệu cũng chưa được quan tâm nghiên cứu Trong các hướng nghiên cứu gần đây, nhiều nhà thống kê vận dụng những ưu điểm của thuật toán di truyền vào bài toán phân tích chùm [ð, 56, 68].

Bài toán phân tích chùm cho các hàm mật độ xác suất chưa được xem xét nghiên cứu nhiều Một trong những nguyên nhân chính là việc thiếu tiêu chuẩn đánh giá sự tương tự cho đối tượng này Mặc dù Glick [29] đã đưa ra một số khái niệm về độ đo phân biệt va affinity Tuy nhiên, các độ đo này đòi hỏi việc tính toán cực kỳ phức tạp, do đó các ứng dụng trên các cỡ mẫu nhỏ dường như cũng không thể thực hiện Năm 2008, nhóm tác giả PhamGia et al [66] đề xuất tiêu chuẩn khoảng cách L! giữa hai hàm mật độ xác suất để xây dựng chùm, tiêu chuẩn này được phát triển thành độ rộng chùm trong nghiên cứu của [77] vào năm 2010 Một số nghiên cứu đáng chú ý khác trong thời gian gần đây về phân tích chùm các hàm mật độ xác suất có thể kể đến nghiên cứu trong [61,81, 82] Các công bố phía sau được đánh giá có ưu điểm hơn phía trước, nhưng nó chỉ đúng cho những trường hợp cụ thể mà không phải là tất cả Đặc biệt khi dữ liệu lớn có sự chồng chéo phức tạp.

So với các phần tử rời rạc và hàm mật độ xác suất, phân tích chùm cho khoảng dữ liệu cũng chưa được quan tâm nhiều Các nghiên cứu quan trọng cho bài toán phân tích chùm cho các khoảng trong những năm gần đây chủ yếu sử dụng các tiêu chuẩn khoảng cách Euclid, City-block và Hausdorff [20, 47, 72] Các nghiên cứu này có hai yếu điểm chính là chưa xác định số lượng thích hợp trong phân tích chùm và sai lầm lớn khi dữ liệu có sự chồng lấp nhiều Trong các ví dụ số và ứng dụng, số lượng chùm thường được cho một cách chủ quan hoặc do sự nhận xét trực quan ban đầu Hơn nữa, các tiêu chuẩn đánh giá được đề cập ở trên chỉ thực hiện tính toán trên các lân cận của khoảng dữ liệu mà quên đi sự chồng lấp giữa chúng, chính vì thế kết quả phân chùm chưa thật sự tốt Thêm vào đó, hầu như các thuật toán phân chùm cũng chưa tối ưu, dẫn đến £ 2 A z Z a + Qs nA Z £ N nA pen kêt qua phân tích có sai sô cao Dé cải thiện các hạn chê này, hiện nay nhiều nhà thống kê đặc biệt quan tâm đến thuật toán di truyền, bởi những ưu điểm nổi bật của nó về tính tối uu cao, cho kết quả phân tích Thuật toán di truyền được phát triển tốt bởi Goldberg [31] và nhanh chóng được áp dụng trong nhiều nghiên cứu |4,5,21,81] Thuật toán di truyền là một giải thuật tính toán dựa trên sự sao chép từ quá trình chọn lọc tự nhiên, nó gồm các toán tử chính như lai ghép, đột biến, chọn lọc nhằm tìm kiếm giải pháp tối ưu cho vấn đề xem xét Nó được xem là một vận dụng thú vị của hiện tượng sinh học vào trong các mô hình thống kê nói chung và trong phân tích chùm nói riêng Thuật toán di truyền đã được xây dựng cho các phần tử rời rạc [54] và cho các hàm mật độ xác suất nhưng chưa được xây dựng cho khoảng.

Như chúng ta đã biết, phân loại là phương pháp xác định một phần tử thích hợp nhất vào các tổng thể đã được biết trước dựa trên những biến quan sát của nó Về mặt thống kê, có một số phương pháp chính được sử dụng để giải quyết bài toán phân loại này là Fisher, hồi quy Logistic và Bayes [81] Mặc dù được đề xuất muộn và chỉ phân loại cho hai tổng thể, nhưng phương pháp hồi quy Logistic được sử dung khá phổ biến Trái ngược với phương pháp hồi quy Logistic, phương pháp Fisher được đề xuất sớm hơn, có thể phân loại cho hai hay nhiều hơn hai tổng thể Tuy nhiên, phương pháp này cũng bị ràng buộc bởi các giả thuyết ma trận hiệp phương sai của các tổng thể phải bằng nhau Trong thực tế, hầu hết các dữ liệu thu thập đều ở dạng hỗn tạp, tuy nhiên để đảm bảo tính chính xác về mặt thống kê chúng ta xem dữ liệu đã được chuẩn hóa theo phân phối chuẩn Đây cũng chính là yếu điểm mà hai phương pháp trên còn hạn chế [63,81] Ngược lại, phương pháp Bayes được xem là có nhiều ưu điểm hơn, có thể phân loại được cho nhiều tổng thể, không bị ràng buộc bởi các điều kiện về phân phối chuẩn và phương sai bằng nhau Hai vấn đề đặc biệt của phương pháp Bayes là hàm mật độ xác suất và xác suất tiên nghiệm của các tổng thể Hiện nay, bài toán phân loại bằng phương pháp Bayes được áp dụng cho nhiều lĩnh vực khác như y học, xây dựng, và đặc biệt trong lĩnh vực tài chính [78].

Tuy nhiên, hiện nay phương pháp này vẫn cho sai lầm phân loại cao cho những trường hợp cụ thể Vận dụng những ưu điểm của thuật toán di truyền vào vấn đề phân loại bằng phương pháp Bayes là một hướng nghiên cứu thật sự rất lý thú và đầy tìm năng bởi tính ứng dụng thực tế cao của nó Hiện nay, chúng tôi chưa thấy nghiên cứu nào vận dụng thuật toán di truyền cho vấn đề phân loại bằng phương pháp Bayes.

Từ các phân tích ở trên, chúng tôi nhận thấy rằng các vấn đề sau cần được xem xét để có những kết quả tốt hơn:

Xây dựng độ đo độ tương tự các thực thể (rời rạc, hàm mật độ xác suất, khoảng) có ưu điểm hơn các công trình trước đây trong xây dựng chùm.

(2) Xây dựng biểu thức dựa trên những cải tiến từ (1) để làm hàm mục tiêu trong xây dựng thuật toán di truyền, phù hợp với từng đối tượng.

(3) Cải tiến những bước trong thuật toán di truyền truyền thống (lai ghép, đột biến và chọn lọc) với sự tối ưu các tham số để xây dựng thuật toán phân tích chùm mới cho những đối tượng khác nhau.

(4) Ap dụng những cải tiến trong việc xác định xác suất tiên nghiệm, ước lượng hàm mật độ xác suất và thuật toán di truyền để có một thuật toán phân loại với xác suất sai lầm thấp nhất.

(5) Ứng dụng thuật toán di truyền của bài toán phân tích chùm và bài toán phân loại trong thực tế.

Phương pháp nghiên cđỨu ee ee 5 5 Bố cục của luận ấn v2 6 NỘI DUNG ĩ Chương 1 Thuật toán di truyền trong phân tích chùm cho các phần tử rời rạc 7

Thuật toán di truyền và bài toán phân tich chùm

1.1.1 Giới thiệu về thuật toán di truyền

Thuật toán di truyền (GA) là giải thuật nhằm tìm kiếm các giải pháp tốt cho một vấn đề nào đó dựa trên các nguyên tắc tiến hóa của chọn lọc tự nhiên và di truyền học Các nguyên tắc tiễn hóa được sử dụng trong GA thông thường là lai ghép, đột biến và chọn lọc GA giải quyết bài toán bằng cách mô hình hóa chúng theo nguyên tắc cụ thể Từ giải pháp đơn giản ban đầu, qua nhiều bước tiến hóa ta được nhiều giải pháp tốt, sau đó vận dụng quá trình chọn lọc và tìm kiếm giải pháp tối ưu nhất cho bài toán.

Nhằm đơn giản hóa các bước đầu vào của bài toán trong mỗi đối tượng,

GA sẽ mã hóa các giải pháp của bài toán sang một cấu trúc phù hợp, tương tự như một nhiễm sắc thể (NST).

Mỗi NST sẽ được mã hóa ở dạng nhị phân, tương ứng với mỗi chuỗi được mã hóa chỉ bao gồm 0 và 1 Cách mã hóa này giúp chúng ta kiểm soát NST một cách tốt nhất.

Ngoài biểu diễn theo dạng nhị phân, ta còn có thể biểu diễn các NST theo các dạng khác như các số thực không nguyên và số thực nguyên.

Hàm mục tiêu được tính toán cho tất cả các NST trong quần thể Mỗi

NST sẽ được đánh giá thông qua giá trị của hàm mục tiêu Thông thường, giá trị hàm mục tiêu trong GA được xác định theo hàm cực tiểu.

1.1.3 Các toán tử tiến hóa trong thuật toán di truyền a) Toán tử chọn lọc

Toán tử chọn lọc là quá trình loại bỏ các NST không thích nghĩ hay không thỏa điều kiện bài toán ra khỏi quan thể Lựa chon NST bố me trong quần thể dựa vào hàm mục tiêu của NST đó Thông thường, phương pháp vòng quay

Phép quay roulette [52] được sử dụng phổ biến cho toán tử này Đây được coi là một trong những phương pháp đơn giản nhất để chọn NST Cơ chế hoạt động của phương pháp này được mô tả như sau:

Trước tiên, toán tử sẽ tính giá trị hàm mục tiêu cho tất cả các NST trong quần thể Sau đó, thực hiện tính tổng giá trị hàm mục tiêu của tất cả các NST trong quan thé Chọn một số ngẫu nhiên trong khoảng từ 0 đến tổng giá trị hàm mục tiêu Số ngẫu nhiên này sẽ được sử dụng để xác định NST được chọn.

Tiếp theo, toán tử sẽ chon NST có giá trị hàm mục tiêu gần với số ngẫu nhiên đã được lựa chọn Các NST có giá trị hàm mục tiêu tốt sẽ có khả năng được chọn nhiều hơn các NST còn lại Quá trình chọn lọc sẽ được lặp lại cho đến khi có đủ số lượng NST mới được tao ra.

Toán tử chọn lọc Roulette có ưu điểm là có thể tạo ra các NST mới có giá trị thích nghi cao hơn các NST cũ trong quan thể. b) Toán tử lai ghép

Toán tử lai ghép là quá trình cấu trúc nên NST mới, dựa trên những giá trị đã có của NST bố mẹ, ghép chéo một hay một đoạn giá trị của NST với xác suất (P.) xác định Thông thường, chúng ta sử dung hai dạng lai ghép sau: i) Toán tử lai ghép một điểm: Đây là cách lai ghép đơn giản Một vị trí ghép chéo được lựa chọn ngẫu nhiên trên hai chuỗi Sau đó các chuỗi này tiến hành ghép chéo tại vị trí đã lựa chọn Quá trình này tạo ra hai chuỗi mới, mỗi chuỗi sẽ chứa giá trị của NST ghép chéo tương ứng. ii) Toán tử lai ghép nhiều điểm: Tương tự như toán tử lai ghép một điểm, nhưng chúng diễn ra trên nhiều điểm và liên tục trong chuỗi NST. c) Toán tử đột biến

Toán tử đột biến là hiện tượng các NST con mang một số đặc tính không có trong mã di truyền từ NST bố mẹ Toán tử đột biến xảy ra với xác suất (Pn) nhỏ hơn so với xác suất (P.) của toán tử lai ghép Thông thường, chúng ta có sự đột biến tương ứng với các dạng mã hóa của bài toán.

1.1.4 Các bước cơ bản trong thuật toán di truyền

Một thuật toán di truyền cơ bản gồm các bước sau: Đước 1: Mã hóa các NST theo dạng phù hợp.

Bước 2: Khởi tạo quần thể ban dau.

Bước 3: Ước lượng hàm mục tiêu cho từng NST.

Bước 4: Thực hiện các toán tử tiến hóa như: lai ghép, đột biến và chọn lọc, ta nhận được những NST mới trong quan thể.

Bước 5: Tính giá trị hàm mục tiêu cho từng NST mới, tiến hành kiểm tra nếu thỏa điều kiện dừng của thuật toán thì chuyển sang ước 6, ngược lại chuyển sang ước 4 và thực hiện tiếp vòng lặp của quá trình này cho đến khi đáp ứng yêu cầu thuật toán.

Bước 6: Lựa chon NST phù hợp theo điều kiện và kết thúc thuật toán.

1.1.5 Bài toán phân tích chùm

Phân tích chùm là việc phân chia dữ liệu thành các nhóm hay còn gọi là chùm, sao cho những phần tử trong cùng một chùm có sự tương tự nhau nhiều hơn so với những phần tử của chùm khác Để thực hiện bài toán phân tích chùm, trước tiên chúng ta cần xác định số lượng chùm sẽ phân chia cho dữ liệu, sau đó thực hiện quá trình xây dựng chùm Hiện tại, có hai phương pháp phan tích chùm cơ

Độ đo trong xây dựng chùm c 10

Đối với phương pháp phân tích chùm không mờ, mỗi phần tử chỉ được xếp vào một chùm cụ thể Đối với phương pháp phân tích chùm mờ, mỗi phần tử có thể được xếp vào nhiều chùm theo một xác suất xác định.

1.2 D6 đo trong xây dựng chùm

1.2.1 Khoảng cách giữa hai phan tử Định nghĩa 1.1 Cho hai phan tử x = (21, %2, ,2n) và Y = (1, 9a, ., Yn) trong khụng gian Euclid ứ chiều Khi đú, ta cú một số khoảng cỏch phổ biến giữa x và y được xem xét như sau: dz@x.y) = | (0ù = b)) ô Khoảng cỏch City-block: ô Khoảng cỏch Euclid: n do(x,y) = do |ai — yl. i=1 e Khoảng cách Chebyshev: dp(x,y) = max {|z; — 1⁄¡|}-

1.2.2 Ma trận phân vùng của bài toán phân tích chùm mờ

Chia N phan tử của Z = {Z¡,Za, ,Zw } thành k chùm, kết quả này có thể được biểu diễn dưới dang ma trận phân vùng [/;;|¿„w, trong đó /;; là xác suất thuộc chùm thứ j của phan tử thứ ¡, 1 < 7 < k,l 2 SS pj log(H/¡) (1.3) trong đó k và N lần lượt là số chùm và số phan tử của dữ liệu được xem xét,

Hạ; là xác xuất để gán phan tử thứ i vào chùm thứ 7 Theo Bezdek [8] thì chỉ số

PC nhận các giá trị trong khoảng _ 1] Giá trị của PC càng lớn thì kết quả của ma trận phân vùng mờ càng tốt Ngược lại, giá trị của chỉ số PE € |0, 1] càng nhỏ thì kết quả phân chùm càng tốt [7].

1.3 Thuật toán phân tích chùm mờ cho các phan tử rời rac

Trong phân tích chùm bởi thuật toán di truyền, chúng ta phải lựa chọn hàm mục tiêu phù hợp, đây là tiêu chuẩn quan trọng trong xây dựng thuật toán di truyền cho bài toán phân tích chùm Các bước của thuật toán di truyền là vấn đề tìm kiếm giá trị hàm mục tiêu tốt nhất Trong các nghiên cứu trước, hàm mục tiêu thường được sử dụng cho các phần tử rời rac là chỉ số DB. a Chỉ số DB

Chỉ số DB là một khái niệm được đề nghị bởi Davis et al [17] Chỉ số này do lường sự tách biệt giữa các chùm và mức độ tập trung của các điểm dữ liệu trong cùng một chùm Cụ thể, nó dựa vào trung bình tỷ số lớn nhất của tổng bình phương khoảng cách Euclid của các phần tử trong cùng một chùm với trọng tâm của chùm đó và bình phương khoảng cách Euclid giữa trọng tâm của các chùm Chỉ số DB được định nghĩa như sau: din(Xi, Xj) ị

11 k là số chùm của dữ liệu, x và y lần lượt là các phần tử thuộc chùm C; và C;, xX; và x; lần lượt là trung bình của các phan tử trong chùm Œ; và chim Cj, đ?.(.) là bình phương khoảng cách Euclid. b Chỉ số FB

Cải tiến chỉ số DB, chúng tôi đề nghị chỉ số mới được gọi là FB Chỉ số này dựa vào khoảng cách của những phần tử với trọng tâm của chùm, khoảng cách giữa các trọng tâm của chùm và xác suất thuộc vào chùm của các phần tử Nó được định nghĩa bởi công thức (1.5).

LẺ lôi Đxec, Si(X) d(x, Xi) + tối Syec, 5(y)d?(y, Xj)

(1.5) trong đó ô 5;(x) và S;(y) lần lượt là xỏc suất của phan tử x và y thuộc chim thứ i và

Khoảng cách Euclid giữa hai cụm C_i và C_j được tính bằng công thức:$$d(x, y) = \sqrt{\frac{1}{k} \sum_{j=1}^k (x_j - y_j)^2}$$Trong đó:* d(x, y): Khoảng cách Euclid giữa hai cụm C_i và C_j* x_j và y_j: Giá trị trung bình của các phần tử trong cụm C_i và C_j* k: Số lượng cụm trong dữ liệu* |C_i| và |C_j|: Số lượng phần tử thuộc cụm C_i và C_j

So với chỉ số DB, chỉ số FB thêm trọng số là xác suất thuộc vào chùm khi tính khoảng cách của các phần tử với trọng tâm của chùm đó Do đó, nó được xem làm phù hợp hơn chỉ số DB khi sử dụng làm hàm mục tiêu trong phân tích chùm mờ.

Thuật toán phân tích chùm mờ cho các phần tử rời rạc

Cho Z = {z1,22, ,zn} là tập gồm N phần tử trong không gian Euclid n chiều và VO = {vi wv), " iv} là tập gồm N chim trong tâm tại vòng lặp t.

Thuật toán di truyền trong phân tích chùm mờ cho các phần tử rời rạc (GAE) gồm các bước sau:

Bước 1: Với t = 0, khởi tao tập các trọng tâm ban đầu v0) = {v” vị) Lee vy} = Z.

Bước 2: Cập nhật trong tâm chùm V+) mà mỗi phần tử của nó được tính theo công thức (1.7):

`/(v” vv wy I NT oN 1.7 Siar ay TENT GLEE (1.7)

S/ Ni ) trong đó dr(vŸ”.v/”) : 0) v(9

SEN ONG) \ sáu q (v , ) ds, với d, = No 7 Y de (ví? vị) vi °) là trung bình của các d;(vf,v!), xa LG

A = 1A hằng — — ) — NT/NT 1À E\V 4 }, — Ws] ; số, với o : > lá (vv!) — a] , r là hằng

T N(N — 1) i oo các phần tử chỉ hội tụ về một chùm duy nhất Giá trị của À phụ thuộc vào giá trị của r Theo nghiên cứu từ Hung et al [42], giá trị của r được lựa chọn từ 1 đến 5 Trong chương này, r = 5 được chọn cho tất cả các ví dụ và áp dụng.

Giá trị e là số thực dương, quyết định số lần lặp và thời gian tính Các nghiên cứu của Chen et al [13], Nguyentrang et al [64] và Vovan et al [86] cho thấy giá trị e = 0,0001 cho kết quả phù hợp Vì vậy, luận án này sử dụng e = 0,0001 cho các ví dụ số.

Bước 4: Mã hoá các NST với độ dài w = kn Giá trị của mỗi NST nằm trong khoảng giá trị nhỏ nhất và lớn nhất của dữ liệu Giả sử Vain {Vinin: Vẫn, ve VỆ} và Vinax = {Vinax> Vinax? thờ VỆ}, trong đó Vinin = min{Z} và Vị = max{Z}, j = 1,2, ,k Các giá tri của NST M được chọn ngẫu nhiên trong khoảng [Vimin, Vjmax],# = 1, ,w, với Vimin Và

Vị max lần lượt là giá trị thứ i của Vinin và Vinax- Chang hạn, ta có dữ liệu gốc một chiều như sau: Vinin = {1,2,4,5} và Vinaz = {3,4,6, 7} Giá trị của NST được lấy ngẫu nhiên và theo thứ tự như sau: M = {1.3,2.6, 5.9, 6.9}.

Giá trị 1.3 thuộc vào khoảng [1,3], tương tự giá trị 2.6 thuộc vào khoảng

[2,4|, giá trị 5.9 thuộc vào khoảng [4,6] và 6.9 thuộc vào khoảng |5, 7] Khi đó, chúng ta thấy rằng giá trị NST phụ thuộc vào giá trị nhỏ nhất và lớn nhất của dữ liệu gốc ban đầu.

Bước 5: Khởi tạo £ NST với độ dài kn cho mỗi NST va tính giá trị hàm mục tiêu F'B cho từng NST theo công thức (1.5).

Bước 6: Sử dụng các toán tử như lai ghép, đột biến và chọn lọc như sau: ô Toỏn tử lai ghộp: Cho Ly và Lạ là hai NST bố mẹ ban đầu Khi đú,

NST con (Ch) được tạo ra theo công thức (1.10): trong đó rand là ma trận dòng có các giá trị nằm trong khoảng (0, 1] và có cùng độ dài với NST bố mẹ. ô Toỏn tử đột biến: Cho x là giỏ trị tại vị trớ được lựa chọn cho quỏ trỡnh đột biến Sau quá trình đột biến, giá trị x trở thành 2’ theo công thức

4# =#zơ ex _ơV2m P( 20? ), (1.11) trong đó o? là phương sai của NST chứa z.

14 ¢ Toán tử chọn lọc: Mục tiêu của toán tử này là lựa chọn các NST bố me cho quá trình tạo ra quần thể mới trong vòng lặp tiếp theo Trong luận án này, chúng tôi sử dụng phương pháp vòng quay Roulette [52], một trong những phương pháp được sử dụng phổ biến và hiệu quả trong thuật toán di truyền Xác suất lựa chọn mỗi NST được xác định bởi công thức (1.12).

›) FB; j=l trong đó FB; là giá trị hàm mục tiêu của NST thứ i trong quan thé va £ là số NST có trong quan thể.

Bước 7: Tính giá tri FB của mỗi NST thu được từ ước 6 Trong bước này, thuật toán phân tích chùm dựa vào công thức (1.13). j = arg min {dj (2;,@))}, 1 o;(t), với tI aij (t) = _ = =Đ\ (0) =1, 1+0; (t—1).f ¢ yÙ) ) ra de ( 0 0) ) là giá trị trung bình của dg (v () of), A=a/r,

_ I (t) „@) 2 ae 2 os 128 £ ơ=,lzzÀ)|dz|0¡,0; ] — mw} là độ lệch chuẩn và r là hang số.

Bước 3: Lap lại Bước 2 cho đến khi

31 ÐU } được xác định bởi công thức (1.20) là sự mở rộng hoặc thu hep từ

7, Trong quá trình cập nhật này, các phần tử trong cùng một chùm sé được thay đổi để trở thành phan tử đại diện chung Nó có nghĩa rằng sau một lần lặp của Bước 2, mỗi phan tử v;’ sẽ tiến gần hơn về phần tử dai (t) diện của chùm chứa nó Bước 3 kết thúc khi hiệu của tất cả các phan tử giữa hai lần lặp liên tiếp nhỏ hơn giá trị e Giá trị này có thể ảnh hưởng đến số lượng các chùm được chia, cũng như chi phí tính toán Số lần lặp của thuật toán sẽ tăng lên nếu giá trị của e giảm Sau khi Bước 2 kết thúc, nếu V+) có phần tử khác nhau thì thuật toán chia tập dữ liệu ban đầu thành k chùm.

Bước 4: Mã hóa các NST dưới dạng phan tử đại diện chùm MÉ) £ = 1, , với

M là ma trận dòng có kn phan tử.

Bước 5: Khởi tao £ là số NST trong quần thể và tính chỉ số IDB theo công thức

(1.23) trong đó ô X; và X; lần lượt là phan tử đại diện của cỏc chim C; và Cj, được tinh từ kết quả của M”, ¢ dp(.) là khoảng cách Euclid. ô |C;| và |C;| lần lượt là số phan tử trong chựm C; và Cj.

Bước 6: Thực hiện các toán tử lai ghép, đột biến và chọn lọc hoàn toàn tương tự như thuật toán đã đề cập ở Bước 6 của mục 1.3.2.

Bước 7: Tính chỉ s6 IDB cho các NST thu được trong Bước 6.

Bước 8: Thay thé NST hiện tai bằng NST mới có chỉ số IDB thấp nhất Lap lại Bước 6 đến Bước 7 cho đến khi điều kiện (1.24) được thoả mãn.

IDBw — TDBụ)| < e, (1.24) trong đó IDBụ; và IDB yy lần lượt là giá trị của hàm mục tiêu và giá trị trung bình của các IDB tại vòng lặp thứ ¿.

Các tham số của thuật toán di truyền đã thiết lập trong mô hình đề nghị được tóm tắt như Bảng 1.1.

Bước 9: Cho [ui ] = U là xác suất mờ của k chùm tai lần lặp t = 0 va MY là NST tốt thu được khi Bước 8 kết thúc Ma trận phân vùng được khởi tạo với các phần tử được tính theo công thức (1.2).

Tìm phần tử đại diện của các chùm theo công thức (1.26).

Bước 10: Cập nhật ma trận phân vùng U , trong đó mỗi phan tử của Mi

UD được xác định bởi (1.27):

,l ra + Tụ.

Từ 5 trường hợp này, chúng ta có khoảng cách chồng lấp của khoảng a và b được định nghĩa cụ thể như sau:

(\Ca — Cb] + ra — 70) (1 = 7 néu (ii) doy, (a,b) = lca — @| néu CUNG

(lca — @| + 7a — 70) (1 rat wale —9l nếu (iv)

(Ca — &| + Ta — T0) (1 lea = alate + ) nếu (v).

3.1.2 Khoảng cách chồng lấp cải tiễn Định nghĩa 3.2 Cho 2 khoảng ứ chiều a và b, ứ > 1 Khi đú, khoảng cỏch chồng lấp giữa a và b được cho bởi công thức (3.8): do (a,b) = ằ max {doz (a',b') , dor (b',a’)} (3.8) trong đó do,(.) đã được xác định trong công thức (3.7).

Khoảng cách chồng lấp do đánh giá sự tương đồng của hai khoảng dựa trên trọng tâm và vùng chồng lấp Ren et al [69] ban đầu đề xuất khoảng cách này chỉ cho trường hợp một chiều, nhưng luận án này mở rộng nó cho trường hợp nhiều chiều Khác với các khoảng cách thông thường như Euclid (dz), khoảng cách do có thể đánh giá hiệu quả hơn tính tương đồng, do đó, nó được sử dụng như một tiêu chuẩn thích hợp cho bài toán phân tích chùm.

City-block (de) va Hausdorff (dz).

Dựa trên nhiều số liệu thực tế của các khoảng, chúng ta thấy rang khoảng cách do có thể khắc phục được các yếu điểm của các khoảng cách khác Chang hạn, xem xét 8 khoảng như sau: a; = [3,5], a2 = [3,6], ag = [5,6], a4 = [2,7], as = [3, 7], ag = [2,6], a7 = [5,8] và b = [0,4] Thực hiện tinh khoảng cách giữa

11, đa, dạ, dạ, 45, d6, đy va b theo các khoảng cách dc, dy, dg va do ta nhận được Bảng 3.1.

Bang 3.1: Khoảng cách giữa các khoảng a;,i = 1, , 7 và b

Khoảng cách ay đa đ3 a4 a5 a6 az dc 4.00 5.00 7.00 5.00 6.00 4.00 9.00 dy 3.00 3.00 5.00 3.00 3.00 2.00 5.00 dg 316 3.61 5.39 361 424 2.83 2.83 do 0.67 1.50 3.00 2.00 2.40 120 5.00

Từ Bang 3.1, chúng ta có thể thấy rằng khoảng cách City-block và khoảng cách Euclid khụng thể phõn biệt được sự khỏc biệt giữa hai khoảng (ứa,b) va (aa, b) Tương tự, khoảng cách Hausdorff cũng không thé phân biệt được khoảng (ai, b),

(aa,b), (a4,b) và (as, b) Trong khi khoảng cách chồng lấp đã phân biệt rõ ràng các khoảng xem xét ở trên.

3.2 Thuật toán xây dựng chùm mờ cho dữ liệu khoảng

Cho X = {xi,xa, ,xx} là tập gồm khoảng n chiều Đặt

XN = ([zv.zh| lo, zÄ| nhờ Izx.z8]) ;

Khi đó, trung bình của các khoảng được định nghĩa theo công thức như sau:

NG UNG 1 NG UNG z| tt" N£/ wry ¿ 1

Trong nghiên cứu này, trung bình này được sử dung lam trọng tâm của chùm chứa nó.

Trong luận án này, hàm mục tiêu sử dụng để xây dung chùm cho di liệu khoảng được cho bởi (3.10).

IC ‘ly ơ o (x, Xi) + Tổn > o (y, Xj) d Xj HH d ;Xj yw ; (3.10)

68 trong đó ô N là số khoảng dữ liệu đầu vào, ô x và y lần lượt là cỏc khoảng trong chựm C; và Œ;. ô |C;| và |C;| lần lượt là số khoảng cú trong chựm C; và Cj. ° X; Và X; lần lượt là trọng tâm của chùm C; và Cj. ¢ dg là khoảng cách Euclid.

Chỉ số NDB là phiên bản cải tiến của chỉ số DB do Davies et al [17] đưa ra Trong khi chỉ số DB chỉ áp dụng được cho dữ liệu rời rạc, thì chỉ số NDB có thể áp dụng cho cả dữ liệu khoảng và được tính toán cho từng khoảng cách giữa các khoảng trọng tâm của chùm.

Trong đó, khoảng cách tối thiểu của các cặp trọng tâm, có thể được xem như là phép đo cho sự phân tách giữa các chùm Các chùm càng tách biệt thì chỉ số NDB càng nhỏ Do đó, NDB xem xét cả mức độ liên kết của các phần tử bên trong chùm va sự tách biệt của các chùm với nhau.

Cho X = {ai,a;, ,awy} là tập gồm khoảng dit liệu n chiều và VO =

{viv " vy} là tập các trọng tâm của chùm tại vòng lặp t Chúng ta cần phân chùm cho tập dữ liệu khoảng X Trước tiên, chúng ta cần xác định trong tập X có bao nhiêu chùm cần phân chia Với kết quả số chùm thích hợp thu được, chúng ta tiếp tục xây dựng chùm tối ưu cho tập dữ liệu X Kết quả sau cùng là các khoảng a; € X,i = 1, ,N sẽ được phan chia vào các chùm Œ;,J = 1,2, ,k Đối với thuật toán phân tích chùm mờ, sau khi xác định được kết quả phân chùm, chúng ta sẽ tiếp tục tìm mối quan hệ giữa mỗi khoảng và các chùm đã thiết lập, thông qua các xác suất cụ thể Các xác suất này được gọi là xác suất mờ thuộc vào mỗi chùm Thuật toán di truyền cho bài toán phân tích chùm mờ cho dit liệu khoảng (AFGI) bao gồm các bước sau:

Bước 1: Khởi tạo số vòng lặp t = 0 và

Bước 2: Cập nhật các trọng tâm của chim ở vòng lặp tiếp theo VÉ dựa vào công thức (3.11). x flv v7) vữ

V; =— > Dw ,2=1,2, ,N, (3.11) trong đó do (ví vi")

0 néu do (v/v) > œ¡;(E) với aj; (t) = au (t — 1) ai; (0) =1 ij 1 t-1) _ (t-1)\’ ij )

" yO yO) 13 ` , (t) „9 b= XIX=T =H Y do (v ¡ 3 Vy ) la trung bình của do (ví Vj ): c= |—* fag (ví vi") _ nl là độ lệch chuẩn và \ = 2 với r

Giá trị của hằng số r ảnh hưởng trực tiếp đến giá trị của góc quét À và số lượng chùm tia X Thông qua các nghiên cứu và thực nghiệm, luận án đã xác định được giá trị r = 16 là phù hợp nhất cho phép tối ưu cả góc quét và số lượng chùm tia X.

Bước 3: Lap lại Bước 2 cho đến khi vit) (t) max {do(v; iV; )}

Tiêu đề	Thuật toán di truyền cho bài toán nhận dạng thống kê và ứng dụng
Tác giả	Phạm Toàn Định
Người hướng dẫn	PGS.TS. Võ Văn Tài, TS. Lê Thị Xuân Mai
Trường học	Đại học Quốc gia TP. HCM
Chuyên ngành	Lý thuyết xác suất và thống kê toán học
Thể loại	Luận án tiến sĩ
Năm xuất bản	2023
Thành phố	TP. Hồ Chí Minh

Định dạng
Số trang	150
Dung lượng	33 MB

Tài liệu tham khảo	Loại	Chi tiết
[1] Abbasov, A. M., and Mamedova, M. H. (2003). Application of fuzzy timeseries to population forecasting, Vienna University of Technology, 12, 545- 552	Khác
[4] Bandyopadhyay, S., and Maulik, U. (2001). Nonparametric genetic cluster-ing: gomparison of validity indices, IEEE Transactions on Systems, Man,and Cybernetics, Part C, 31(1), 120-125	Khác
[5] Bandyopadhyay, S., and Maulik, U. (2002). Genetic clustering for auto-matic evolution of clusters and application to image classification, PatternRecognition, 35(6), 1197-1208	Khác
6] Bazaraa, M. S., Sherali, H. D., and Shetty, C. M. (2013). Nonlinear pro-gramming: theory and algorithms, John Wiley & Sons	Khác
8] Bezdek, J. C. (1974). Numerical taxonomy with fuzzy sets, Journal of Math- ematical Biology, 1(1), 57-71	Khác
9] Bezdek, J. C. (1980). A convergence theorem for the fuzzy isodata clus-tering algorithms, JEEE Transactions on Pattern Analysis and MachineIntelligence, (1), 1-8	Khác
[10] Bhandari, D., Murthy C. A., and Sankar K. P. (2012). Variance as a stopping criterion for genetic algorithms with elitist model, Fundamenta Informati-cae, 120(2), 145-164	Khác
[11] Chen, 5. M., and Hsu, C. C. (2004). A new method to forecast enrollments using fuzzy time series, International Journal of Applied Science and Engi-neering, 2(3), 234-244	Khác
[12] Chen, T. L., and Shiu, 5. Y. (2007). A new clustering algorithm basedon self-updating process, JSM Proceedings, Statistical Computing Section, Utah, 2034-2038	Khác
[13] Chen, J.H., and Hung, W. L. (2015). An automatic clustering algorithmfor probability density functions, Journal of Statistical Computation andSimulation, 85(15), 3047-3063	Khác
[14] Chen, S. M. (1996). Forecasting enrollments based on fuzzy time series, Fuzzy Sets and Systems, 81(3), 311-319	Khác
[15] Chen, S. M., and Kao, P. Y. (2013). Taiex forecasting based on fuzzy time se-ries, Particle swarm optimization techniques and Support Vector Machines, Information Sciences, 247, 62-71	Khác
[16] Chen, Y., and Pi, D. (2019). Novel fruit fly algorithm for global optimisa-tion and its application to short-term wind forecasting. Connection Science,31(3), 244-266	Khác
[17] Davies, D. L., and Bouldin, D. W. (1979). A cluster separation measure.IEEE transactions on pattern analysis and machine intelligence, (2), 224—227	Khác
[18] De Souza, R. M., de AT de Carvalho, F., and Silva, F. C. (2004). Clusteringof interval-valued data using adaptive squared euclidean distances, In Neu- ral Information Processing: 11th International Conference, Calcutta, India, 775-780	Khác
[19] De Carvalho, F. D. A., Pimentel, J. T., and Bezerra, L. X. (2007, August).Clustering of symbolic interval data based on a single adaptive 7! distance,In 2007 International Joint Conference on Neural Networks, 224-229	Khác
[20] De Carvalho, F. D. A., and Simoes, E. C. (2017). Fuzzy clustering of interval-valued data with City-Block and Hausdorff distances, Neurocomputing, 266, 659-673	Khác
[21] Deep, K., Singh, K. P., Kansal, M. L., and Mohan, C. (2009). A real coded genetic algorithm for solving integer and mixed integer optimization prob- lems, Applied Mathematics and Computation, 212(2), 505-518.113	Khác