o Áp dụng thuật giải di truyền trong việc tìm cây chứng thực tối ưu kả Chương 3: Xây dựng hệ thống chứng thực biểu tượng nhãn hiệu hàng hóa bằng thuật giải di truyền: o Đặt bài toán... o
Trang 1ĐẠI HỌC QUOC GIA THANH PHO HO CHÍ MINH TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN
TRÀN NGUYÊN ANH CHI
THUẬT GIẢI DI TRUYEN
CHO CHUNG THỰC BIEU TƯỢNG
NHAN HIEU HANG HOA
Chuyên ngành: KHOA HOC MAY TÍNH
Mã số: 60 48 01
LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN
NGƯỜI HƯỚNG DAN KHOA HỌC
TS LÊ HOÀNG THÁI
Thành phố Hồ Chí Minh — Năm 2008
Trang 2LỜI CẢM ƠN
Em xin chân thành cảm ơn Thây TS Lê Hoàng Thái đã tận tình hướng dẫn,
động viên, chỉ bảo trong suốt quá trình làm luận văn
Em xin chân thành cảm ơn các Thay Cô trong Khoa Công Nghệ Thông Tin
trường Đại Học Công Nghệ Thông Tin Tp Hồ Chí Minh đã tận tình dạy dỗ, tạo mọiđiều kiện học tập, chỉ bảo nhiều kiến thức qui bau giúp em hoàn thành khóa học
Xin cảm ơn các anh chị và các bạn học viên đã giúp đỡ, trao đổi kinhnghiệm, học tập trong suốt thời gian học
Cuối cùng, xin cảm ơn những người thân trong gia đình, các đồng nghiệp đã
khích lệ, động viên và giúp đỡ trong thời gian vừa qua.
Trang 31 Loi nói đâu.
2 Hệ thống chứng thực biểu tượng nhãn hiệu hàng hóa 3
3 Bố cục luận văn
Chương 1: BÀI TOÁN CHUNG THỰC VECTOR 6
1.1 Giới thiệ
1.2 Tìm hiểu bài toán chứng thực veetor :cc -¿-222cccvsssscc2 6
1.2.1, Bài toán nhận dạng tổng quát -: :-:ccccccccvvvvvvrrrrrrrrrrer 6
1.22 Ching thực vector
1.2.3 Ứng dụng của bài toán chứng thực vector
1.2.4 Các phương pháp giải quyết bài toán nhận dạng — chứng thực
1.3 Ap dung cây chứng thực cho bài toán chứng thực vector
1.3.1 So sánh phương pháp cây chứng thực với phương pháp vét cạn truyềnthống
1.3.2 Các phương pháp tìm cây chứng thực tôi ưu - 14
2.2.2 Các thành phan trong thuật giải di truyé
2.2.3 Các toán tử trong thuật giải di truyền
2.3 Thuật giải di truyền tìm cây nhận dạng _n
Trang 42.3.1 Đặt bài toán
2.3.2 Các nhóm toán tử di truyền sử dụng cho bài toán
2.3.3 Thuật giải di truyền tìm cây nhận dạng tối ưu
2.4 Sử dụng thuật giải di truyền tìm cây chứng thực tối ưu 25
2.4.1 Dat bài toán
2.4.2 Các toán tử và thao tác tìm cây chứng thực tôi ưu của thuật giải di
truyền
2.5 Sử dụng thuật giải di truy.
2.5.1 Dinh nghĩa ảnh logo
2.5.2 _ Bài toán chứng thực ảnh logo
2.5.3 Các cách giải quyết bài toán chứng thực ¿
3.3 Các công việc cần làm c¿-2E++++e2CEvvzvttrrvvrrrrrrrrrree 34
3.3.1 Cac công việc
Trang 54.2 Các thao tác chính của thuật giải di truyền
4.2.1 Thuật giải GA tìm cây chứng thực tổng quát
4.2.2 Hàm phí tổn f(A)
4.2.3 Chứng thực vector X băng cây chứng thực tôi ưu
4.2.4 Các toán tử di truyền cho tìm cây chứng thực tối ưu
4.3 Các thuật giải liên quan đến tiền xử lý ảnh -+ 51
4.3.1 Chuyên từ định dạng anh bitmap sang dang vector.
Trang 6DANH MỤC CÁC TỪ KHÓA VÀ TU VIET TAT
Artificial Intelligence (AI): Tri tuệ nhân tạo.
Automated Teller Machine (ATM): Máy rút tiền tự động
Evolution Algorithm (EA): Thuật giải tiến hóa
Fuzzy Logic (FL): Logic mờ.
Genetic Algorithms (GA): Thuat giai di truyén
Neural Network (NN): Mang noron.
World Trade Organization (WTO): Tô chức thương mại thé giới
Trang 7DANH MỤC CÁC HÌNH
Hình 1.1: Sơ đồ phân chia của bài toán phân loại mẫu tổng quát
Hình 1.2: Biểu diễn cây nhận dạng
Hình 1.3: Hai phương pháp chứng thực
Hình 1.4: Đồ thị so sánh hai phương pháp chứng thực: bằng vét cạn và bằng cây
chứng thực tối ưu
Hình 3.2 a: Sơ đồ minh họa giai đoạn 1
Hình 3.3 b: Sơ đồ minh họa giai đoạn 2
Hình 3.3.3 a: Vi dụ minh họa các giá trị của 1 logo bitmap 256 khi được chuyền lưu
dưới dang vector
Hình 3.3.3 b: Ví dụ minh họa vector đã bị “mờ hóa” các giá trị từ [0, 255] về [0, 9]
Hình 3.4.1: Giao diện chính
Hình 3.4.2 a: Danh sách các công ty đã đăng ký logo
Hình 3.4.2 b: Thông tin chỉ tiết về một công ty đã đăng ký logo
Hình 3.4.2 c: Thông tin chỉ tiết về logo đã được đăng k
Hình 3.4.2 d: Màn hình cho phép chọn logo cần chứng thực
Hình 4.2.1: GA tìm cây chứng thực tối ưu
Hình 4.2.2: Sơ đồ tính phí ton f(A
Hình 4.2.3: Sơ đồ chứng thực vector X có phi là vector đăng ký P.
Hình PLA.1: Mô hình tái tao quay trên vòng tròn (roulette wheel)
Hình PLA.2: Toán tử lai ghép
Hình PLA.3: Toán tử đột bién
Trang 8MỞ ĐÀU
1 Lời nói đầu
Có nhiều lý do khác nhau liên quan đến việc tìm kiếm nhãn hiệu thương mại,một trong những lý do chính đối với các nhà quản lý và các công ty là phát hiện ra
các nhãn hiệu đã có liên quan đến cùng một loại sản phẩm hay dịch vụ
Trong bồi cảnh nước ta đã gia nhập tô chức thương mại thế giới (WTO), vấn
đề bảo hộ nhãn hiệu hàng hóa đã và đang trở nên quan trọng và thiết yếu đối với các
doanh nghiệp Việc đăng ký bảo hộ nhãn hiệu hàng hóa đã được đề cập cách nay rất
lâu, và hiện nay là van đề nhất thiết phải làm nếu một doanh nghiệp muốn tồn tai vàphát triển Hơn nữa, việc đăng ký bảo hộ là một điều kiện thiết yếu nhằm xác lậpquyền của doanh nghiệp đối với nhãn hiệu của mình đã sử dụng hoặc dự định sử
dụng.
Thông thường việc đăng ký biểu tượng nhãn hiệu hàng hóa được diễn ra theonhiều bước Trong đó, việc tra cứu, tìm hiểu thông tin là việc mà mọi doanh nghiệpphải thực hiện trước khi đăng ký, để xác định xem có biểu tượng nào tương tự đãđược đăng ký mà có khả năng gây nhằm lẫn với biểu tượng mình định đăng ký haykhông Việc tra cứu giúp doanh nghiệp tránh trường hợp Cục sở hữu trí tuệ từ chốicấp bằng bảo hộ vì biểu tượng xin đăng ký giống hoặc gần giống với biểu tượng đãđăng ký bảo hộ cho cùng loại sản phẩm hoặc dịch vụ
Có nhiều cách tìm kiếm, chứng thực biểu tượng nhãn hiệu hàng hóa đã đượcđăng ký: Tìm thủ công theo danh bạ các biểu tượng nhãn hiệu hàng hóa in sẵn, tìmtheo tên hang, tìm theo tên công ty, Tuy nhiên, những cách tìm kiếm và chứngthực này đôi khi không áp dụng được do tốn thời gian va dé nhằm lẫn, vì có thé có
Trang 9trường hợp gần giống (về hình dạng, kiểu mẫu hay màu sắc), và vì số lượng cácbiểu tượng tăng dần theo thời gian.
Vì lẽ đó, cần có hệ thống tự động hóa trong việc quản lý, tìm kiếm và chứng
thực thông tin về biểu tượng nhãn hiệu hàng hóa Hệ thống đó phải đáp ứng được
yêu cầu nhanh chóng, tiện lợi và hiệu quả Mục tiêu của luận văn là tìm ra được một
mô hình dé đáp ứng được nhu cầu trên
Từ xưa đến nay, nhiều mô hình quản lý và tìm kiếm thông tin về hàng hóa đãđược dé xuất Tuy nhiên, hầu hết các mô hình này đều dừng lại ở việc tìm kiếmthông tin dựa theo tên mặt hàng, mã vạch, v.v Hơn nữa, việc kiểm tra xem đã cóbiểu tượng nhãn hiệu hàng hóa đã được đăng ký hay chưa, hoặc muốn biết biểutượng nhãn hiệu hàng hóa đó của công ty nào thì hầu hết phải tìm kiếm thủ công.Với một số lượng rất lớn những công ty đã và sẽ đăng ký bảo hộ sản phẩm thì điều
này không khả thi.
Trong phạm vi luận văn, chúng tôi đề xuất một hệ thống tự động tìm kiếm và
chứng thực thông tin hang hóa dựa vào biểu tượng riêng (logo) của mặt hàng đó Hệthống được áp dụng cho việc đăng ký biểu tượng nhãn hiệu hàng hóa tại cục sở hữutrí tuệ, cụ thể cho bài toán: Xây dựng mô hình chứng thực nhãn hiệu hàng hóa hỗ
trợ cho các doanh nghiệp và cục sở hữu trí tuệ trong việc quản lý đăng kỷ bảo hộ
biểu tượng nhãn hiệu hàng hóa
Dé xây dựng hệ thống này, mô hình tính toán thông minh được áp dụng Vậy
tính toán thông minh là gì?
Trí tuệ nhân tạo (Artificial Intelligence_AI) đã từng tồn tại và phát triển hơn
50 năm qua Các nhà nghiên cứu trong và ngoài nước đã thực hiện nhiều đề tài về
máy tính thông minh Tuy nhiên, các kết quả thường dừng lại ở phương diện lý
thuyết Ngày nay, các hệ thống thông minh đã trở nên thông dụng trong việc giảiquyết các bài toán thực tế phức tạp; và nó cũng bảo đảm đáp ứng đầy đủ các yêu
Trang 10cầu thực tiễn Nguyên nhân chính của việc gia tăng khả năng diễn giải, thiết kế vàxây dựng các hệ thống thông minh là việc ứng dụng kỹ thuật tính toán mềm.
Kỹ thuật tính toán mềm là một hệ phương pháp luận hoạt động hỗ trợ lẫn
nhau, và bằng cách này hay cách khác, cung cấp các khả năng xử lý thông tin trong
các tình huống nhập nhằng trong cuộc sống thực Nó giúp người ta khai thác cácthông tin mơ hồ, không chính xác, hoặc chỉ đúng một phần để có thé đưa ra các giảipháp chắc chắn, dé sử dụng và có chỉ phí thấp Hoạt động hướng dẫn chủ yếu làcung cấp các phương pháp tính toán có thể đưa đến một giải pháp có thể chấp nhận
được với chỉ phí thấp, bằng cách tìm kiếm một giải pháp gần đúng cho một vấn đề
chính xác hoặc không chính xác.
Về cơ bản, mô hình mẫu cho kỹ thuật tính toán mềm là tư duy của conngười Nó khai thác khả năng đặc biệt trong tư duy của con người khi giải quyếthiệu quả các van dé trong những môi trường không chắc chắn, không chính xác, mà
vẫn dựa trên các phương pháp tính toán và lập luận logic truyền thống
Kỹ thuật tính toán mềm không phải là một phương pháp đơn lẻ, mà là sự kết
hợp của nhiều phương pháp, trong đó các phương pháp cơ bản là: thuật giải di
truyền (Genetic Algorithm_GA), mạng noron (Neural Network_NN), và logic mờ(Fuzzy Logic_FL) Trong bộ ba GA, NN, và FL, GA là phương pháp tìm kiếm biến
giúp cho việc giải các bài toán tối ưu; NN là phương pháp hiệu chỉnh, sửa đổi tham
số sao cho phù hợp với bài toán, giúp hệ thông có khả năng học và nhận biết; FL taptrung vào việc xử lý các tính toán gần đúng và không chính xác [1], [4]
2 Hệ thống chứng thực biểu tượng nhãn hiệu hàng hóa
Khi một công ty cần đăng ký biểu tượng nhãn hiệu hàng hóa của mình, họ
cần phải biết biểu tượng đó đã được đăng ký hay chưa, và nhất là đối với cơ quan có
thâm quyền cấp chứng nhận bảo hộ, họ cần phải biết biểu tượng này có hợp lệ
Trang 11không để quyết định việc đăng ký (Không bị trùng hay tương tự, có khả năng gâynhằm lẫn với những biểu tượng đã được đăng ký khác).
Có nhiều cách tìm kiếm biểu tượng nhãn hiệu hàng hóa đã được đăng ký:Tìm thủ công theo danh bạ các biểu tượng nhãn hiệu hàng hóa in sẵn, tìm theo tênhàng, tìm theo tên công ty, Tuy nhiên, những cách tìm kiếm này đôi khi không apdụng được do tốn thời gian và dễ nhằm lẫn, vì có thé có trường hợp gan giống, và vì
số lượng các biểu tượng tăng dan theo thời gian
Trong phạm vi luận văn, Thuật giải di truyền (Genetic Algorithms_GA)được đề xuất và ứng dụng trong bài toán chứng thực biểu tượng nhãn hiệu hànghóa Trước hết, một nhãn hiệu hàng hóa (một ảnh logo) sẽ qua giai đoạn tiền xử lý
dé đưa về dang vector biểu diễn ảnh Sau đó, áp dụng thuật giải di truyền dé tìm
vector hoán vị tối ưu và chứng thực vector này
3 Bố cục luận văn
Nội dung của luận văn gồm 5 chương và 2 phần phụ lục:
oo Chương 1: Trinh bay các khái niệm tong quan về:
o Bài toán nhận dang mẫu tổng quát
o Bài toán chứng thực vector.
o Các phương pháp dé giải quyết bài toán nay
`
o Tìm hiểu về thuật giải di truyền: lịch sử hình thành và các thành
phan trong thuật giải di truyền.
° Ứng dung thuật giải di truyền để tối ưu hàm rời rạc tổng quát
o Áp dụng thuật giải di truyền trong việc tìm cây chứng thực tối ưu
kả Chương 3: Xây dựng hệ thống chứng thực biểu tượng nhãn hiệu hàng
hóa bằng thuật giải di truyền:
o Đặt bài toán
Trang 12o Cách giải quyết bài toán
o_ Báo cáo kết quả thử nghiệm
Chương 4: Một số thuật toán chính:
o Các thuật toán mô phỏng hoạt động của thuật giải di truyền và ứngdụng trong bài toán tìm kiếm biểu tượng nhãn hiệu hàng hóa
o Các thuật toán tiền xử lý anh bitmap
Chương 5: Đánh giá và kết luận
Phu luc A: Các toán tử trong thuật giải di truyền
Phụ lục B: Bộ dữ liệu mẫu thử nghiệm
Trang 13Chương 1: BÀI TOÁN CHỨNG THỰC VECTOR
1.1 Giới thiệu
Trong chương này, chúng tôi sẽ trình bày các khái niệm tổng quan về: bài
toán nhận dạng mẫu tông quát, bài toán chứng thực vector, và các phương
pháp đề giải quyết bài toán này
1.2 Tìm hiểu bài toán chứng thực vector
1.2.1 Bài toán nhận dạng tổng quát
Nhận dạng là quá trình phân loại các đối tượng được biéu diễn theo một môhình nào đó và gán cho chúng vào một lớp dựa trên các quy luật và các mẫu chuẩn
So đồ cấu trúc bài toán phân loại mẫu tổng quát như sau:
Bài toán phân loại mẫu tổng quát
Không mât mát thông tin
Chứng thực Phân lớp
mát thông tin
{7
Hình 1.1: Sơ đồ phân chia của bài toán phân loại mẫu tổng quát
Trang 14Xét bài toán phân loại mẫu tông quát (hình trên):
Cho ©¡,¡ € {1, 2, , n}, O;¡ # Ø; và Q là một phân hoạch các Q; Bài toán
phân loại mẫu tổng quát là bài toán xác định ánh xạ:
pi Q> fl, 2, , nf: VX e2 p(X) = ¡ (nghĩa là X e ©;)
Tuy nhiên, trong thực tế có thể tồn tại hai tình huống mẫu X như sau:
- Tình huống 1: không mắt mát thông tin: X đầy đủ đặc trưng © X e #2
- Tình huống 2: bị mất mát thông tin: X không đầy đủ đặc trưng ©Xnmu £ 42
Với tinh huồng 1: đó chính là bài toán phân loại mẫu tổng quát đã trình bay.Với tình huồng 2: phải phục hồi X„„„ về X„ sao cho X„„ € ©; rồi sau đó mớiphân loại X„, về ©¡, i e {1, 2, , n} (tức là đưa về bài toán phân loại mẫu tổng
quát).
Chỉ tiết hơn, bài toán phân loại mẫu được chia thành hai dang như sau:
(1) Bài toán chứng thực mẫu (phân biệt THẬT / GIẢ):
Đây là một trường hợp cụ thể của bài toán trên với n = 2 >
- Trường hợp 2: Mẫu X là M vector: cho Q là một phân hoạch các{Qi € {1,2, , n}} và mẫu X = / X! = (X/, XY, Xr): Xe Q,
J= (i, , M}} Xác định i sao cho X € Qj [1]
1.2.2 Chứng thực vector
a, Đặt vấn đề
Trang 15Trong cuộc sống nảy sinh rất nhiều bài toán chứng thực: chứng thực chữ kýđiện tử, chứng thực tài liệu Bài toán có thể được viết như sau:
- Cho trước một đối tượng A
- _ Cần chứng thực một đối tượng X có phải là A hay không? Nếu X đúng
là A thì hệ thống trả lời là THẬT, ngược lại hệ thống trả lời là GIA (phân biệtTHẬT / GIẢ) Đồng thời tìm ra phương pháp để rút ngắn thời gian chứng thực(phát hiện GIA nhanh nhất)
Và bài toán cơ bản của bài toán chứng thực trên là chứng thực vector có
chiều dai L
b Cách giải quyết bài toán
Thực chất, vấn đề cơ bản của bài toán là tìm ra một hoán vị tối ưu, chứng
thực vector X có phải là vector A cho trước hay không? Hoán ưu là một thứ tự
các vị trí có khả năng bị “giả” nhất Hoán vi tối ưu là kết quả của việc học từ thực
tế Giả sử có một bộ T gồm các vector “giả” thường xuất hiện Từ tập T này, ta sẽ
tìm xem vị trí nào thường hay bị “giả” nhất và đưa nó lên các vị trí đầu Theo cách
đó, khi chứng thực X, không duyệt theo thứ tự thông thường mà duyệt theo thứ tự
của hoán vị tối ưu đó, để có thể tìm ra vị trí “giả nhanh nhất”, tối ưu được tốc độ tìm
Trang 16là 1 trên 64 tỉ Người ta có thé làm phẫu thuật thay da ngón tay, nhưng chỉ sau mộtthời gian dấu vân tay lại được hồi phục như ban đầu.
Kỹ thuật nhận dạng vân tay bảo đảm độ tin cậy và tính én định cao; do đó
phương pháp này được sử dụng nhiều trong các ứng dụng ở nhiều lĩnh vực khác
nhau như thương mại điện tử, hệ thống mạng, bản quyền phần mềm và các thiết bịđầu cuối (như chuột và bàn phím) Ngoài ra, kỹ thuật này còn được ứng dụng trongcác cỗ máy rút tiền tự động (ATM), các khóa cửa an toàn và các thẻ thông minh
Nhìn chung, bài toán nhận dạng vân tay được giải quyết bằng phương pháp
chứng thực vector như sau: Trước hết nhận vào không gian ảnh vân tay, sau đó biến
đổi các ảnh vân tay về đạng vector Và tiến hành so sánh nhận đạng
1.2.4 Các phương pháp giái quyết bài toán nhận dạng — chứng thực
Có các nhóm phương pháp chính để giải quyết bài toán nhận dạng — chứng
thực, đó là gom cụm, vét cạn, và sử dụng cây nhận dạng.
a Gom cụm
Gom cụm được xem là một vấn đề quan trọng nhất trong lĩnh vực học không
giám sát Vì thế, phương pháp này đề cập đến việc tim ra một cầu trúc trong một tap
hợp các dữ liệu chưa được gán nhãn.
Ta có thể định nghĩa gom cụm như sau: gom cụm là một quá trình tổ chứccác đối tượng vào các nhóm, mà các đối tượng trong từng nhóm này có điểm tươngđồng nào đó
Vì thế, một cụm là một tập hợp các đối tượng có điểm tương tự nhau vàkhông giống các đối tượng thuộc nhóm khác
Ưu điểm của việc giải quyết bài toán nhận dạng — chứng thực bằng phươngpháp gom cụm là xử lý nhanh, do so sánh đối tượng cần chứng thực- nhận dang với
Trang 17một cụm các đối tượng có những điểm tương đồng Tuy nhiên, khuyết điểm củaphương pháp này là độ chính xác không cao, đo có thể trong quá trình tạo cụm, cácđiểm tương đồng chưa được lấy chính xác.
Định nghĩa cây nhân dạng
Một cây nhận dạng có độ rộng n được định nghĩa như sau :
Cây nhận dạng có độ rộng n trên P là bộ 4: A=(V,E,e,ồ}
Trang 18Ánh xạ ö : V > P( Sao cho 8“! (x) =T)
Trong đó, gọi e(v, +), e(v, -) lần lượt là nhánh thế trái, nhánh thế phảicủa v € V và (V, E) gọi là cây nền
Biểu diễn cây nhân dang
Một cây nhận dang có thé được biéu diễn dưới dạng đồ thị như sau:
Hình 1.2: Biểu diễn cây nhận dạng
Phương pháp cây nhận dạng khắc phục được các khuyết điểm của cácphương pháp trên, đó là tăng tốc độ nhận dạng mà vẫn đảm bảo được độ chính xáccao, do việc so sánh đối tượng cần nhận dạng với các đối tượng đã có trong cơ sở
dữ liệu thông qua tập đỉnh của cây (tập các thuộc tính của các đối tượng đã được
sắp thứ tự ưu tiên)
Cây chứng thực THAT ~ GIA
Cây chứng thực là một trường hợp của cây nhận dạng (1.2.4c) trong đó có
độ rộng n = 2 ứng với hai giá trị THẬT - GIẢ Thực chất, cây chứng thực là mộttập thứ tự đỉnh tối ưu với tiêu chí đánh giá là phát hiện “giả” nhanh nhất, chỉ ápdụng cho bài toán chứng thực vector: xác định một đối tượng bất kỳ là THẬThay GIẢ (1.2.2a) [1], [7], [8]
Trang 191.3 Áp dụng cây chứng thực cho bài toán chứng thực vector
1.3.1 So sánh phương pháp cây chứng thực với phương pháp vét cạn truyềnthống
Bài toán chứng thực vector (1.2.2a) có thé phát biểu chỉ tiết như sau:
Cho Vector đăng ký: P = {0 C, V}L € OrnAr, sai số e € RL, và vector cần
chứng thực X = {0 C, V}L e ©.
Xác định khoảng cách: 6 = ||X-PII e RX
Nếu 8 < ¢ => X “là” THAT
Ngược lại X “là” GIẢ
Yêu cầu: phát hiện GIẢ nhanh nhát
Để giải quyết bài toán này, sử dụng 2 phương pháp: vét cạn và cây chứng
Trang 20- _ Với phương pháp sử dụng cây chứng thực tối ưu (tập thứ tự duyệt tối
ưu): đảm bảo khắc phục được nhược điểm trên
Ví dụ:
Cho vector P = {p¡, pạ, , Pio), và vector X = {XỊ, Xa, , Xio} Cần xác
định xem X có phải là P hay không? Giả sử cho trước các giá trị xác suất “giả” của
từng Xi.
Với phương pháp vét cạn: phải duyệt từ đầu đến cuối vector Tại mỗi thời
điểm thứ i, cần so khớp giữa X; và P;
Với phương pháp cây chứng thực tối ưu: Do đã sắp thứ tự mức độ “giả” của
các X; giảm dan, ta sẽ duyệt theo thứ tự mức độ “giả” giảm dan đó
Đồ thi so sánh giữa 2 phương pháp trên được thé hiện trong hình dưới:
Phương pháp vét cạn Phương pháp cây chứng thực tối ưu
Hình 1.4: Đồ thị so sánh hai phương pháp chứng thực: bằng vét cạn và bằng cây
chứng thực tối ưu
Trang 211.3.2 Các phương pháp tìm cây chứng thực tối wu
Với mục tiêu là là tìm ra tập thứ tự tối ưu (cây chứng thực tối ưu), ta có thê
sử dụng các phương pháp truyền thống với nền tảng toán học vững chắc như ID3,ASSISTANT, C4.5 Nhìn chung, các phương pháp này đều dựa trên nguyên tắc:duyệt toàn bộ không gian các cây nhận dạng rồi từ đó mới tìm ra được cây tối ưu
Như vậy, các phương pháp này thường thích hợp với những bài toán có không gian
thuộc tính nhỏ (số lượng thuộc tính không nhiều)
Tuy nhiên, với các bài toán chứng thực khác trong đó có số lượng các thuộc
tính rất lớn (như chứng thực gene, chứng thực ảnh ), các phương pháp truyền
thống khi áp dụng để giải quyết bài toán này thường sẽ tốn thời gian và tăng độ
phức tạp tính toán.
Lúc này, chúng tôi sử dụng thuật giải di truyền dé tim ra cây chứng thực tối
ưu Với phương pháp thuật giải di truyền, không cần vét cạn toàn bộ không gian cácthuộc tính (toàn bộ không gian các cây chứng thực) mà vẫn tìm ra các cây chứngthực tối ưu dựa trên cơ sở hàm lượng giá của từng cây Như vậy, thuật giải đi truyềntiết kiệm được thời gian hơn, đồng thời cũng giảm được độ phức tạp tính toán so
với các phương pháp khác [1]
1⁄4 Kếtluận
Tom lại, chương này trình bay lý thuyết tổng quan về bài toán nhận dạngmẫu tổng quát, bài toán chứng thực vector, và các phương pháp đề giải quyếtbài toán này Dựa trên việc nhận xét các phương pháp, chúng tôi nhận thấyđược các ưu điểm của việc sử dụng thuật giải di truyền trong việc tìm cây
chứng thực tối ưu, và sử dụng phương pháp này trong việc chứng thực các
đối tượng là ảnh.
Trang 22Chương 2: ÁP DỤNG THUẬT GIẢI DI TRUYÈN TÌM
CÂY CHỨNG THỰC TÓI ƯU
2.1 Giới thiệu
Trong chương này, chúng tôi sẽ tìm hiểu về: thuật giải đi truyền, ứng dụngthuật giải đi truyền dé tối ưu hàm rời rac tông quát, và áp dụng thuật giải ditruyền trong việc tim cây chứng thực tối ưu
2.2 Thuật giải di truyền
2.2.1 Tóm tắt lịch sử hình thành
Y niệm về thuật giải di truyền đã được một số nhà sinh vật học nêu ra từ
nhũng năm 50, 60 của thế kỷ XX A.S.Fraser là người đầu tiên nêu lên sự tươngđồng giữa sự tiến hóa của sinh vật và chương trình tin học giả tưởng về GA Tuynhiên chính tiến sĩ John Henry Holland, đại học Michigan, mới là người triển khai ý
tưởng và phương thức giải quyết vấn đề dựa theo sự tiến hóa của con người Chính
ông cùng các sinh viên của trường đại học Michigan đã phát triển nó trong suốtnhững năm 1960 — 1970 Trong tác pham Sự thích nghỉ trong tự nhiên và các hệthống nhân tạo được xuất bản năm 1975, tiến sĩ đã giới thiệu thuật giải di truyềnnhư là một sự trừu tượng hóa của sự tiến hóa sinh học và đưa ra một khung nhìnmang tính lý thuyết về sự thích nghỉ làm nền tảng cho GA
Thuật giải di truyền của Holland là một phương pháp chuyền dịch một quanthể các chuỗi nhiễm sắc thể thành một quần thể mới bằng cách sử dụng một dạng
chọn lọc tự nhiên kết hợp với di truyền học, mà nồi bật là các toán tử lai ghép, đột biến, và chuyển dịch Mỗi nhiễm sắc thể bao gồm nhiều gene Toán tử chọn lọc lựa
Trang 23chọn các chuỗi nhiễm sắc thé trong quan thé dé tái tạo, và thường thì các nhiễm sắcthê có độ thích nghi cao sẽ tao nhiều “con” hơn các nhiễm sắc thể có độ thích nghỉthấp Toán tử lai ghép trao đổi các thành phan con trong hai chuỗi nhiễm sắc thé,
bắt chước sự tái tạo sinh học giữa hai nhiễm sắc thé đơn bội Toán tử đột biến thay
đổi ngẫu nhiên các giá trị ở một vài vị trí trên chuỗi nhiễm sắc thể Toán tử chuyềndịch thay đổi trật tự của các đoạn nhiễm sắc thể liên tục, rồi tái xác lập trật tự củacác gene trong chuỗi
Trong thuật giải di truyền, thuật ngữ nhiém sắc thé đại diện cho một lời giải
ứng viên trong việc giải quyết vấn đề, và thường được mã hóa thành một chuỗi các
bịt Các gene có thể hoặc là các bit đơn lẻ, hoặc là một tập hợp ngắn các bit liền kề
mà mã hóa một thành tố riêng biệt trong lời giải ứng viên Một alen trong một chuỗi
các bit có thé là 0 hoặc 1; đối với bang mẫu tự lớn, có nhiều alen tại mỗi vị trí [2],
[5]
2.2.2 Các thành phan trong thuật giải di truyền
Hầu hết các thuật giải di truyền đều có các thành phần cơ bản sau: quần thểcác nhiễm sắc thé, chọn lọc dựa trên độ thích nghỉ, lai ghép dé sản sinh thế hệ conmới, đột biến ngẫu nhiên, và chuyên dịch
Các nhiễm sắc thể trong thuật giải di truyền thường là một chuỗi các bit Mỗi
vị trí trong chuỗi nhiễm sắc thé có thé mang một trong hai giá trị: 0 hoặc 1 Mỗinhiễm sắc thể có thé được coi như là một điểm trong không gian tìm kiếm các lờigiải ứng viên Thuật giải di truyền xử lý quần thể các nhiễm sắc thể, thay thế một
quan thể này bằng một quần thể khác Các thuật giải đi truyền đều đòi hỏi có ham
thích nghỉ dé đánh giá mức độ thích nghỉ của một nhiễm sắc thé trong quan thé hiệntại Độ thích nghi của một nhiễm sắc thể phụ thuộc vào mức độ nhiễm sắc thể giảiquyết vấn đề tốt đến mức độ nào [5]
Trang 242.2.3 Các toán tir trong thuật giải di truyền
- Ham thich nghi (Fitness)
Hàm thích nghỉ là một hàm đánh giá mức độ thích nghỉ của một nhiễm sắcthê trong một quần thể hiện tại Mức độ thích nghỉ của một nhiễm sắc thể phụ thuộcvào khả năng nhiễm sắc thể đó có thể có được để giải quyết vấn đề
- Chon loc (Selection)
Toán tử chon lọc là thao tác xử ly trong đó mỗi cá thể được bảo lưu cho vòng
¡ thích nghỉ f(i) được
tạo sinh tiếp sau, tùy thuộc vào giá trị thích nghỉ của nó Gi
xác định đối với mỗi cá thé trong quan thé Giá trị này càng lớn thì cá thể được coi
là càng thích nghi Hàm thích nghỉ có thể là hàm không liên tục, hàm dương hay phituyến
- Lai ghép (Crossover)
Toán tử chọn loc nhằm tìm ra những cá thể tồn tại tốt nhất nhưng nó khôngtạo ra những cá thể mới Tuy nhiên, trong tự nhiên, các con sẽ thừa hưởng di truyềnnhững đặc tính tốt từ cả cha lẫn mẹ Toán tử tác động trên các cá thể cha mẹ đề tạo
ra những con lai tốt gọi là lai ghép
= Đột biến (Mutation)
Các toán tử đột biến tạo ra những thông tin mới trong quần thể lai tạo tại các
vị trí bit nào đó trong chuỗi nhiễm sắc thể Đột biến được áp dụng với xác suất Với một quần thể có pop_size các cá thé, mỗi cá thể có chiều dài là L bit, thì sốlượng bit đột biến là Dmu#L*pop_Zise Mỗi bit có cơ hội đột biến như nhau, và đượcthay đồi từ 0 thành 1 và ngược lại
Pmu-(Xem thêm chỉ tiết về các toán tử này trong phần Phụ lục A)
Trang 252.3 Thuật giải di truyền tìm cây nhận dạng _n tốt nhất
2.3.1 Đặt bài toán
Bài toán đặt ra là với tập P cho trước, ta tìm cây nhận dạng tốt nhất theo một
tiêu chí cho trước (cây nhận dạng đã được định nghĩa trong 1.2.4c) Với giả định là
tiêu chí được biết trước và được số hóa thành hàm lượng giá , sử dụng Thuật giải ditruyền giải bài toán tìm kiếm tối ưu này
2.3.2 Các nhóm toán tử di truyền sử dụng cho bài toán
a Nhóm các phép di truyền toàn cục tác động lên toán cấu trúc
cây
Bắt đầu từ quần thể A của các cá thể (các cây) có độ rộng n, giả định hàm
lượng giá f cho trước, mỗi cá thé A e A được đánh giá bởi giá tri f(A) e R* ta địnhnghĩa các phép toán di truyền toàn cục tác động lên toàn cầu trúc cây như sau:
s Tái tạo: cho phép chọn lọc những cây nhận dạng trong A với một
xác suất tương ứng với giá trị lượng giá của chúng (tương tự như toán tử
tái tạo thông thường).
Vi dụ: với A e A thì xác suất được chọn lọc là:
P(A) = f(A) / 35‹AfB)Giả định cần cực đại ham lượng giá f(A), với (BeA,BzA)
s* Lai: Cho hai cây nhận dang:
A=(V,E,e,ø) và A'=(V',E',e,ø).
Chọn ngẫu nhiên e : w > v
Trang 26Với e là tập con hoặc bằng E và v không thuộc T, phép “lai“ không thựchiện nếu:
na-(V’) = na(v), với mọi v’ e V°
Trong trường hợp khác, phép lai được thực hiện như sau:
(i) Chọn v’ € E’ sao cho nạ‹(v') = na(v)
(ii) Thay thế e : w > v bằng f : w’ > v’ va A, — tạo ra cây mới
Trang 27Các kết quả thu được sau khi “lai” là:
Phép toán này đảm bảo không làm ảnh hưởng đến cấu trúc ngữ cảnh
trong cây, nó chi cho phép trao đổi cây con Av và A’v nếu na(v)=na(v’) và
õ(v)=ð'(v').
s* Switch: Ứng dụng trên cây nhị phân cũng tương tự như phép toán
“đột biến” ứng dụng trên chuỗi, cho phép biến đổi một bit từ 0 về 1 hoặc từ
1 về 0
Phép toán switch được ứng dụng phụ thuộc vào một đỉnh v trong cây nhận dạng độ rộng n.
Cho: A = (V, E, e, ø) với độ rộng n
Phép switch không hoạt động nếu: veT (tập các nút lá)
Trong các trường hợp khác, phép “switch” cho phép tạo cây mới có cùng
độ rộng n:
Trang 28AY =(V, E, &°,0)
Trong đó evs: (V\T) x {+, -} > E trùng khớp với ngoại trừ đỉnh v
Tại đỉnh v, evs (v, +) = e(v, - ) được thay thế bằng evs (V, -)=£(V, +)
Ví dụ: Toán tử switch ứng dụng tại nút p2 của cây nhận dạng:
P2
Kết quả sẽ thu được cây nhận dạng mới:
_
Trang 29* Chuyến dịch:
Cho cây nhận dang có độ rộng n: A = (V, E, e, 0)
Chọn một vài đỉnh v eV và một vai nút lá t e T, phép “chuyển dịch” chophép thay thế A bởi một cây nhận dang mới Ay, = (Vy = V, Eva s Eva Ova =
°)
Tập nhánh E,, chứa các nhánh con e,, , mỗi nhánh e: vị > v; trong E, được định nghĩa như sau:
(i) Nếu vị # V,t, Vo #V,t, thi ey, =e
(ii) Nếu V2 = v, thì xây dựng một nhánh mới e,„: vị > t
(iii) Nếu v; = t, thi xây dựng một nhánh mới ey: vi W,với w = t
(đỉnh của A) hoặc w = v, phụ thuộc vào t e A, hay không
Anh xa év,t (w, +) = (W, -) = e(W, -)v,t với mọi w thuộc V\T
Ví dụ: Nếu chúng ta ứng dụng phép “chuyên dịch” tại các nút chi định
trong cây nhận dạng dưới đây:
PI
Trang 30Thì sau đó chúng ta sẽ thu được một cây nhận dạng mới:
hoặc {0, , c, VJ”” Và với mọi j e J, ánh xạ sẽ trở thành phép “lai” của một
nhóm hoặc tại một vị trí được xác định bởi j.
Xuất phat từ cặp cây nhận dạng độ rộng n: A’ = (V’, E’, £, ở) và
A =(V, E, & 6) chọn ra một đỉnh không phải là nút lá v e V và v’e V” Nếu
có một biến ngẫu nhiên rand e J, thì “Vi- lai” sẽ thay thé Hv) và 5’(v’) bởi 4
và q’, xác định bởi (4, q’) = 7 [ Hv), ở (v?), rand] Trong phiên bản thô, v và
v được chọn ngẫu nhiên Trong phiên bản đã tỉnh chỉnh, toán tử sẽ xem xét
P có phù hợp với (kiểu, giá trị) không, và chỉ cho phép “vi-lai” giữa các cặpvới cùng thành phan kiểu
s Vi-đột biến: Được xác định bởi một ánh xạ: u:PxJ> J
Với j cho trước, nếu P= {0, ,c, V}L, có thể xem như sự thay đổi củamột phan tử tại vị trí xác định j, thông qua ánh xạ P—> P Trong trường hợp
Trang 31tổng quát, nó thay thé cho bất cứ v e V \T, với giá trị 5(v) bằng H[5(v), rand]
# &(v) (trong đó rand e J là một giá trị ngẫu nhiên).
Với các phép di truyền định nghĩa như trên, ta có thể ứng dụng thuật giải
di truyén GA để xác định cây nhận dạng tối ưu
Thuật giải di truyền tìm cây nhận dang tối wu
()t:=0;
(2) Khởi tạo A(t) = (A¿ A, , Aw}
(3) Trong khi (Điều kiện kết thúc lặp A(t) + True)
(3.1) Lượng giá A(t) = (fA›), (Ad, fAw)):
(3.2) t:=t+1;
(3.3) Chon: 4°) = A’), 4? , A’u} CA(t- 1);
(.4) Lai: R(t) = R(A'(0): với xác suất lai p,
(3.5) Đột biến: M(t) = MA (0); - với xác suất đột biến p„
(3.6) Chuyên dịch: T(t) = T(M(t)); với xác suất chuyển dich p,
(3.7) Vi lai: w(t) = /(T(/)): với xác suất vi lai Puc
(3.8) Vi đột biến: /„(1) = /„(/¿.(1)); với xác suất đột biến PymChọn để hình thành: A(1)=A(A(t-1) UR(t) UM(t) UT(t) (1) U Ln (t))
Hết lặp
Sau khi kết thúc vòng lặp, chúng ta thu được quan thé các cá thé tối ưu nhất.Lúc này, chỉ việc chọn cá thể được lượng giá tốt nhất trong quần thể đó làm bộnghiệm tối ưu cho bài toán
Tuy nhiên, thuật giải trên là thuật giải tìm kiếm cây nhận dạng - n trong
trường hợp tổng quát Vào từng ứng dụng cụ thẻ, sẽ quyết định khi nào thì áp dụng
các toán tử di truyền và áp dụng nó như thế nào? Để minh hoạ khả năng của Thuật
giải, chúng ta sẽ áp dụng Thuật giải đề giải quyết bài toán chứng thực vector [1]
Trang 322.4 Sử dụng thuật giải di truyền tim cây chứng thực tối ưu
2.4.1 Đặt bài toán
Cho 7 là tập các đối tượng: T = (ft), ty , f„), V là tập các thuộc tính
V = (vị, vạ, , vụ), ViX(O, I, , c), i = (1, 2, , L) và K là tập kết luận
K = (GIẢ, THAT).
Vấn đề đặt ra là: Tìm cây chứng thực duyệt các thuộc tính trong tập V sao
cho đảm bảo phân loại các đối tượng trong tập T về tập kết luận K = {GIẢ, THẬT}
một cách nhanh nhất
Từ xưa đến nay, đã có nhiều phương pháp giải quyết bài toán này Ở đây, sử
dụng một phương pháp mới: dùng Thuật giải di truyền để tìm cây chứng thực tối
ưu với tiêu chí tìm cây là: “Phát hiện GIẢ nhanh nhất”
Cây chứng thực (1.2.4) là cây nhận dang_n dùng dé chứng nhận một đối
tượng cần kiểm tra có đúng là đối tượng đã đăng ký hay không, với tiêu chí xácđịnh cây là “phát hiện GIẢ nhanh nhất”
Cụ thể, bài toán đặt ra là: Tiêu chí trên sẽ được số hóa thành hàm lượng giá
#A) và GA tổng quát sẽ được dùng dé tìm cây chứng thực tối ưu nhất theo tiêu chi
này.
2.4.2 Các toán tử và thao tác tìm cây chứng thực tối ưu của thuật giải di truyền
a Cây chứng thực đối tượng X
Xác nhận mẫu X là thật (trùng với mẫu đăng ký A) hay giả (khác mẫu đăng
ký A)? Đầu tiên, một phép biến đổi sử dụng kỹ thuật “mờ” sẽ được dùng để biểu
diễn lại đối tượng dưới dang vector Như vậy cả hai đối tượng: đối tượng đăng ký A
và đối tượng cần chứng nhận X đều được biểu diễn lại thành hai vector: TAMxN vàTXMXN Cần kiểm tra xem TXMxN có trùng với TAMxN?
- Nếu trùng, kết luận : X là mẫu thật
- Ngược lại, kết luận : X là mẫu giả
Trang 33Thực chat, đây là bài toán so khớp hai vector Có nhiều phương pháp để giảiquyết bài toán này Tuy nhiên, vấn đề đặt ra là: Giả sử mẫu X là giả thì làm cáchnào dé “phát hiện điểm sai khác giữa mẫu X và mẫu A một cách nhanh nhất”?
Để giải quyết vấn đề trên, bài toán trở thành: Với TA cho trước, phải tìm cây
nhận dạng_n tối ưu theo một tiêu chí nào đó Trong trường hợp nay, chúng tôi xây
dựng một cây nhận dạng chứng thực mẫu X(TX) có phải là mẫu đăng ký A(TA) hay
không (TX trùng TA)? Cây nhận dạng ở đây được gọi là cây chứng thực và tiêu chí
xác định cây là: ”Phát hiện sai nhanh nhất” Với giả định tiêu chí được biết trước và
được số hóa thành hàm luợng giá, Thuật giải di truyền sẽ được dùng để tìm cây
chứng thực tối ưu nhất
b Các toán tir di truyền tác động lên cây chứng thực-n
+3 Toán tử tái sinh với xác suất p = 1 - f(A) / Dpcaf(B)
+ Toán tứ đột biến với xác suất đột biến pau
s* Toán tử lai với xác suất lai peross
Phép Lai OX: Cho trước hai cá thể cha mẹ, cá thể con có được bằng cáchchọn một cá thé và bảo toàn giá trị tương đối giữa các đỉnh trong cá thé kia
Vi dụ: Nếu cha mẹ là:
(123456789101112) (971261012485311)
Với đoạn được chọn là (4 5 6 7), thì cá thể con của phép lai:
(210124567831191)
(457261012891113)
s* Chuyển dịch
Trang 34Cho trước cá thể cha, cá thể con có được bằng cách chọn hoán vị các đỉnh
c Các bước tim cây chứng thực tối ưu
(a) Từ mẫu đăng ký A qua phép biến đổi mờ cho ra vector đăng ký
TA = {0, , c}**Ä Từ TA tạo ra vector nhiễu TPA = {0, , c d}MSN
(b) Dùng thuật giải di truyền GA để tìm cá thể chứng thực tối ưu theo tiêu
chi của bài toán: ”Phát hiện giả Giả nhanh nhất”
Cụ thể bước (a) thực hiện như sau:
Trong thực tế, mỗi đối tượng bat kì có thé bị nhiễu bởi một lý do nào đó.Ở
đây chúng tôi cho phép chứng thực những đối tượng bị nhiễu tối đa là np%
Các vị trí nhiễu sẽ được bé trí ngẫu nhiên một lần tại những vùng cho phéptrên véc tơ đăng ký TA tùy vào bài toán cụ thể
Tại những vị trí nhiễu, giá trị của các phần tử được biểu diễn bởi đặc tả d
Trang 35Như vậy chúng ta chỉ cần kiểm tra MxN-(npxMxN)/100 giá trị trong TPA.
Và số đỉnh tối đa để chứng thực một đối tượng X (np%) = MxN-(npxMxN)/100
Sau khi tạo vector đăng ký TPA, chuyền sang bước (b): dùng GA để tìm cáthé (hoán vị) chứng thực tối ưu:
- Sau khi đã loại bỏ (npxMxN)/100 đỉnh thì mỗi cá thé được cấu thành
từ hoán vị của MxN-(npxMxN)/100 = (MxN-(npxMxN)/100)! hoán vị
Bước 2: Ứng dụng GA dé tìm cá thé chứng thực tối ưu
- Từ miền cá thé chứng thực với vector đã đăng ký ở TPA ta giả định
có n mẫu đề thử nghiệm-_ Khởi tạo quan thé: chọn ngẫu nhiên slhv hoán vị trong tập hợp cáchoán vị của (MxN-(npxMxN)/100) đỉnh thuộc miền biểu diễn cây (Kích
thước quan thé = slh )
- Ứng với từng hoán vị ta thực hiện:
o_ Duyệt lần lượt các đối tượng tạ (k = 0 > n-l), với mỗi đối
tượng thực hiện:
= Tính ð(yj (với v; là giá trị đỉnh thứ i của hoán vị dang
xét (=0 — MxN-1)
= So sánh ð(v;) với tpa(i) tương ứng, tpa(vi) e TPA:
> nếu ð(v;) # tpa(i) và số đỉnh đã duyệt < (MxN~(npxMxN)/100) thì kết luận đối tượng giả, sangbước kế tiếp
Trang 36> néu duyệt hết (MxN-(npxMxN)/100) thì kết luận
là đối tượng thật, sang bước kế tiếp
= Tinh hàm phí tồn E(t,) của từng đối tượng
o Sau khi đã duyệt hết n đối tượng, chúng ta tính hàm lượng giá
của hoán vị đang xét: f(A) = E(A) = Set)
io
Bước 3: Biến hóa tao lập quan thé mới: dựa vào hàm lượng giá f(A) chọn lọc
ra những cá thé tốt nhất (có f(A) nhỏ nhất) trong quan thé hiện tại và ứng dung cáctoán tử di truyền dé tạo ra các cá thé mới:
-_ Toán tử tái tạo với p = 1-f(A) / 3 sAf(A)
~ Toán tử lai với peross
- Toán tử traslocation với pura
- Sau khi tạo lập được quần thể mới, quay lại B2 để thực hiện Thuậtgiải kết thúc sau slvl vòng lặp
Cá thể có f(A) nhỏ nhất được chọn làm cá thể chứng thực tối ưu Ta dùng
cây chứng thực này dé chứng thực TX ~ TA? Từ đó kết luận X là thật hay giả [1],
Ứ] [8]
2.5 Sử dụng thuật giải di truyền cho chứng thực ảnh logo
2.5.1 Định nghĩa ảnh logo
Logo là biểu tượng cho một công ty, một tô chức, một hoạt động (như một
cuộc thi, phong trào ) hay một ban nhóm.
Trong hoạt động quảng bá, biểu tượng không phải là thương hiệu, tuy nhiên
nó là ấn tượng bên ngoài để dễ nhận ra thương hiệu
Trang 372.5.2 Bài toán chứng thực ảnh logo
Cho trước một tập mẫu các logo Cần chứng thực một logo mới xem đã cótrong tập cơ sở đữ liệu các logo đó chưa (Các logo trong cơ sở đữ liệu và logo cầnchứng thực đều thuộc dang ảnh bitmap với 256 màu, và đều được biến đổi về dangvector có chiều dài L)
2.5.3 Các cách giải quyết bài toán chứng thực ánh logo
- Vét can: Ung với mỗi vector logo có chiều dài L trong cơ sở dit liệu, so
sánh từng giá trị của logo hiện hành với logo cần chứng thực
- Mạng neural mờ: giải quyết bài toán qua 3 giai đoạn:
(i) Tiền xử ly 1: các vector logo trong cơ sở dữ liệu và logo cầnchứng thực được “mờ hóa”, đưa về dang vector có cùng chiều dài L
nhưng có các giá trị màu trong [0,9]
(ii) Tiền xử lý 2: Với mỗi vector có được sau giai đoạn tiền xử lý 1,
đếm các giá trị màu 0,1, , 9, và lưu trong các vector mới (chiều đài
mỗi vector là 9)
(iii) Chứng thực: tiến hành so sánh từng giá trị của vector cần chứng
thực (vector mới sau giai đoạn tiền xử lý 2) với từng giá trị của các
vector trong cơ sở dữ liệu (vector mới sau giai đoạn tiền xử lý 2) [3]
-_ Thuật giải đi truyền: giải quyết bài toán qua 2 giai đoạn:
(i) Giai đoạn 1: Huấn luyện: Các vector logo trong cơ sở đữ liệu saukhi được tiền xử lý (được “mờ hóa” đưa về dạng vector có cùng chiều
đài L nhưng có các giá trị màu trong [0,c]) sẽ áp dụng thuật giải di
truyền dé tìm tập thứ tự tối ưu (cây chứng thực tối ưu) với tiêu chí làphát hiện “giả” nhanh nhất
(ii) Giai đoạn 2: Chứng thực: tiến hành so sánh các giá trị của vectorcần chứng thực (cũng được tiền xử lý) với các vector trong cơ sở dữ
liệu theo tập thứ tự đã có.
Trang 382.5.4 Nhận xét
- Vét cạn: Với việc so sánh từng cặp giá trị với nhau, thì kết quả đạt được làchính xác 100% Tuy nhiên, nếu vector có chiều dài L lớn, việc đối sánh từng cặpgiá trị sẽ tốn nhiều chỉ phí (số lần lặp rất nhiều)
- Mạng nơron mờ: Do các vector đem đối sánh đã được “mờ hóa” có kíchthước nhỏ, nên tốc độ so sánh sẽ nhanh Tuy nhiên, cũng do đã mờ hóa các ảnhlogo, nên khi so sánh, có thê bỏ qua một số chỉ tiết, dẫn đến độ chính xác trong việcchứng thực bị giảm xuống
- Thuật giải di truyền: khắc phục được nhược điểm tiền xử lý 2 lần (dẫn đến
việc mất thông tin như mạng neural mờ) Đồng thời, do so sánh dựa theo vector thứ
tự tối ưu đã có nên cũng khắc phục được tốc độ chứng thực chậm của phương pháp
'Vét cạn.
2.6 Kếtluận
Tom lại, chương này đã trình bày lịch sử hình thành và các thành phan trongthuật giải di truyền Đồng thời, chúng tôi cũng trình bày việc áp dụng thuật
giải di truyền cho tìm cây nhận dạng _n tốt nhất và tìm cây chứng thực tối
ưu Ngoài ra, so với các phương pháp khác trong việc giải quyết bài toánchứng thực ảnh logo, phương pháp sử dụng thuật giải di truyền giúp giảm
bớt thời gian, cũng như độ phức tạp tính toán, mà lại không làm giảm đi độ chính xác của chương trình.
Trang 39Chương 3: CHUNG THUC NHÃN HIỆU HANG HOA
BANG THUAT GIAI DI TRUYEN
3.1 Giới thiệu bài toán
Khi một công ty cần đăng ký biểu tượng nhãn hiệu hàng hóa của mình, họ
cần phải biết biểu tượng đó đã được đăng ký hay chưa, và nhất là đối với cơ quan có
thâm quyền cấp chứng nhận bảo hộ, họ cần phải biết biểu tượng này có hợp lệkhông dé quyết định việc đăng ký (Không bi trùng hay tương tự, có khả năng gâynhầm lẫn với những biéu tượng đã được đăng ký khác)
Có nhiều cách tìm kiếm, chứng thực biểu tượng nhãn hiệu hàng hóa đã được
đăng ký: Tìm thủ công theo danh bạ các biểu tượng nhãn hiệu hàng hóa in sẵn, tìm
theo tên hàng, tìm theo tên công ty, Tuy nhiên, những cách này đôi khi không áp
dụng được do tốn thời gian và dễ nhằm lẫn, vì có thể có trường hợp gần giống (về
hình dạng, kiểu mẫu hay màu sắc), và vì số lượng các biểu tượng tăng dân theo thời
gian.
Hệ thống đề xuất một phương pháp tim kiếm-chứng thực mới thông qua biểu
tượng nhãn hiệu hàng hóa Hệ thống này được xem như là danh bạ tra cứu đặt tại
cơ quan đăng ký nhãn hiệu hàng hóa dé trợ giúp công ty có nhu cầu đăng ký bảo hộbiểu tượng nhãn hiệu hàng hóa, kiểm tra và chứng thực xem biểu tượng của công ty
có hợp lệ hay không trước khi nộp đơn, nhằm giảm bớt những trường hợp không
được chấp nhận sau này khi cơ quan thẩm quyền kiểm tra Hệ thống nay cũng cho
phép kiểm tra, chứng thực xem biểu tượng đó là biểu tượng nhái hay giả của một
công ty nào đó.
3.2 Cách giái quyết
Lưu các mẫu logo dưới dang ảnh bitmap và hàm chuyền đổi tập tin bitmapthành vector có chiều đài L Logo cần chứng thực cũng được chuyền đổi thành
Trang 40vector có chiều dài tương xứng Tiền xử lý các giá trị màu của tất cả các logo, đưa
về các giá trị trong đoạn [0, c] Sau đó áp dung cách chứng thực một vector đã đềcập ở phan trên để chứng thực logo Cụ thé hệ thống giải quyết bài toán qua hai giai
đoạn như sau:
- Giai đoạn 1: Học để tìm tập thứ tự tối ưu(1) Các logo đã có được chuyển đổi thành các vector có chiều dai L (cụ thể L
bằng 10000)
(2) Ứng với mỗi logo, tạo thêm một số các logo “giả” (là logo bị mắt nét, bịnhiễu, hoặc là logo khác hoàn toàn)
(3) Tiền xử lý tất cả các logo (chọn giá trị c độ nhiễu màu)
(4) Sử dụng thuật giải di truyền (các phép lai) dé tìm tập thứ tự tối ưu (tậpcác vị trí hay bị “giả” nhất)
Biểu dién giai đoạn 1 đưới dang sơ đồ như sau:
Hình 3.2 a: Sơ đồ minh họa giai đoạn 1
- Giai đoạn 2: Chứng thực
(1) Logo can chứng thực được biến đổi đưa về dang vector có chiều dài L
(2) Tiền xử lý logo cần chứng thực theo độ nhiễu màu c đã có