*) Khái niệm:
Thuật ngữ “Tra cứu thơng tin” đƣợc đƣa ra vào năm 1952 và đƣợc phổ biến
20
trong cộng đồng nghiên cứu từ năm 1961. Một hệ thống tra cứu thơng tin đƣợc xem nhƣ một hệ thống lƣu trữ và tìm kiếm thơng tin, vì thế nĩ đƣợc cấu tạo bởi một tập các thành phần tƣơng tác, mỗi thành phần lại đƣợc thiết kế để đáp ứng một chức năng cụ thể cho một mục tiêu cụ thể, và tất cả các thành phần này đƣợc liên hệ với nhau để đạt đƣợc một mục tiêu, đĩ là tra cứu thơng tin trong một phạm vi nào đĩ. Trƣớc đây, tra cứu thơng tin cĩ nghĩa là tra cứu thơng tin văn bản, định nghĩa trên vẫn đƣợc giữ khi áp dụng đối với tra cứu thơng tin trực quan (VIR). Tuy nhiên, cĩ một sự khác biệt giữa loại thơng tin và bản chất của tra cứu văn bản với các đối tƣợng trực quan. Thơng tin văn bản là một chiều trong khi hình ảnh là hai chiều, và video là ba chiều (chiều thứ ba là thời gian).
Cĩ hai cách tiếp cận chung đối với các giải pháp cho vấn đề VIR dựa trên dạng thơng tin trực quan đĩ là các phƣơng pháp dựa trên đặc trƣng và các phƣơng pháp dựa trên văn bản mơ tả ảnh. Các phƣơng pháp dựa trên văn bản mơ tả ảnh dựa trên các phƣơng pháp tra cứu thơng tin văn bản truyền thống và hệ quản trị CSDL cũng nhƣ sự can thiệp của con ngƣời để trích rút siêu dữ liệu về một đối tƣợng trực quan và kết hợp nĩ cùng với đối tƣợng trực quan nhƣ một chú thích văn bản. Tuy nhiên, gán các thuộc tính văn bản một cách thủ cơng cần nhiều thời gian và chi phí. Hơn nữa, các chú thích thủ cơng thƣờng phụ thuộc rất nhiều vào nhận thức chủ quan của con ngƣời. Nhận thức chủ quan và chú thích thiếu chính xác là nguyên nhân tra cứu khơng chính xác trong các quá trình tra cứu sau này. Các vấn đề đối với việc truy cập các ảnh và video dựa vào văn bản đã thúc đẩy nhanh chĩng sự quan tâm phát triển các giải pháp dựa vào nội dung. Với giải pháp này, thay vì đƣợc chú thích một cách thủ cơng bởi các từ khố dựa vào văn bản, các ảnh cĩ thể đƣợc trích rút sử dụng một số đặc trƣng trực quan nhƣ màu, kết cấu, hình dạng, và quan hệ khơng gian giữa các vùng và đƣợc đánh chỉ số dựa trên các các đặc trƣng trực quan này. Cách tiếp cận này dựa chủ yếu vào các kết quả từ thị giác máy. Tuy nhiên, khơng cĩ đặc trƣng riêng lẻ tốt nhất mà cho các kết quả chính xác. Thơng thƣờng một sự kết hợp các đặc trƣng một cách tuỳ biến là cần thiết để cung cấp các kết quả tra cứu thích hợp cho ứng dụng tra cứu ảnh dựa vào nội dung. Tuy nhiên, vì mang tính chất
21
tìm hiểu và nghiên cứu, nên trong luận văn này chỉ tập trung vào một đặc trƣng chính cụ thể, đĩ là đặc trƣng màu cho ứng dụng tra cứu ảnh dựa vào nội dung.
*) Truy vấn người sử dụng
Cĩ nhiều cách gửi một truy vấn trực quan. Một phƣơng pháp truy vấn tốt là một phƣơng pháp tự nhiên đối với ngƣời sử dụng cũng nhƣ thu đƣợc đủ thơng tin từ ngƣời sử dụng để trích rút các kết quả cĩ ý nghĩa. Các phƣơng pháp truy vấn dƣới đây đƣợc sử dụng phổ biến trong tra cứu ảnh dựa vào nội dung:
- Truy vấn bởi ảnh mẫu (QBE)
Trong loại truy vấn này, ngƣời sử dụng hệ thống chỉ rõ một ảnh truy vấn đích, dựa trên ảnh truy vấn đĩ hệ thống sẽ tìm kiếm trong CSDL ảnh các ảnh tƣơng tự nhất. Ảnh truy vấn cĩ thể là một ảnh thơng thƣờng, một bản quét của một ảnh cĩ độ phân giải thấp, hoặc một phác thảo của ngƣời sử dụng dùng các cơng cụ mơ tả giao diện đồ hoạ để tạo ra nĩ. Ƣu điểm chính của loại hệ thống này là nĩ tự nhiên cho những ngƣời sử dụng chung và chuyên gia để tìm kiếm một CSDL ảnh.
- Truy vấn bởi đặc trưng (QBF)
Trong hệ thống QBF tiêu biểu, những ngƣời sử dụng chỉ rõ các truy vấn bằng việc chỉ rõ các đặc trƣng họ quan tâm cho tìm kiếm. Ví dụ, một ngƣời sử dụng cĩ thể truy vấn một CSDL ảnh bằng việc đƣa ra một lệnh để tra cứu tất cả các ảnh cĩ gĩc phần tư trái chứa 25% pixel màu xanh. Truy vấn này đƣợc chỉ rõ bằng việc sử dụng các cơng cụ giao diện đồ hoạ chuyên dụng. Những ngƣời sử dụng hệ thống tra cứu ảnh chuyên biệt cĩ thể thấy loại truy vấn này là bình thƣờng, nhƣng những ngƣời sử dụng chung thì khơng thể. QBIC là một ví dụ về một hệ thống tra cứu ảnh dựa vào nội dung sử dụng loại phƣơng pháp truy vấn này.
- Truy vấn dựa vào thuộc tính
Loại truy vấn này sử dụng các chú thích văn bản, trích rút trƣớc bởi nỗ lực của con ngƣời, nhƣ một khố tra cứu chính. Loại biểu diễn này địi hỏi độ trừu tƣợng cao và khĩ thực hiện một cách tự động hồn tồn do một ảnh cĩ một lƣợng lớn các thơng tin và khĩ tĩm tắt bởi một số ít các từ khố. Phƣơng pháp này nhìn chung là nhanh hơn và dễ hơn để thực hiện, nhƣng cĩ một độ chủ quan và nhập nhằng cao.
22
Ngƣời sử dụng thích truy vấn các hệ thống tra cứu ảnh dựa vào nội dung bằng việc yêu cầu các câu hỏi tự nhiên nhƣ “Đưa ra các bức ảnh về Đại học Thái Nguyên”, hoặc “ Tìm các ảnh liên quan đến các lớp Thạc sĩ Tin học của Đại học Thái Nguyên". Ánh xạ truy vấn ngơn ngữ tự nhiên này đến một truy vấn trên CSDL ảnh là vơ cùng khĩ so với việc sử dụng các phƣơng pháp chú thích. Khả năng của các máy tính để thực hiện nhận dạng đối tƣợng tự động trên các ảnh chung vẫn là một vấn đề nghiên cứu mở. Do đĩ hầu hết các nỗ lực nghiên cứu và thƣơng mại tập trung vào xây dựng các hệ thống thực hiện tốt với các phƣơng pháp QBE.
1.2.3 Đặc trưng của logo
Theo Al Ries và Laura Ries (1998), Alycia Perry (2003), cũng nhƣ một số chuyên gia thƣơng hiệu khác thì logo của thƣơng hiệu thƣờng phải đảm bảo một số yêu cầu.
- Khác biệt: Cĩ những dấu hiệu đặc biệt gây ấn tƣợng thị giác mạnh, dễ phân biệt. Đây là chức năng quan trọng của logo, giúp phân biệt thƣơng hiệu hay sản phẩm với thƣơng hiệu hay sản phẩm cạnh tranh. Sự khác biệt cũng làm cho thƣơng hiệu dễ đi vào tâm trí của khách hàng hơn. Để tạo sự khác biệt, cĩ thể các nhà thiết thƣờng tránh những hình cơ bản, đƣợc dùng nhiều. Tính khác biệt cao cũng làm tăng khả năng đƣợc pháp luật bảo hộ.
- Đơn giản, dễ nhớ: Tạo khả năng dễ chấp nhận, dễ suy diễn. Trong vài chục giây quan sát, ngƣời xem cĩ thể hình dung lại đƣờng nét biểu trƣng trong trí nhớ. Trong bối cảnh nhiều sản phẩm cạnh tranh cùng đƣợc khuếch trƣơng trên các phƣơng tiện thơng tin đại chúng, logo của thƣơng hiệu sẽ khơng đƣợc khách hàng biết đến nếu nĩ phức tạp và khĩ nhớ, dù là bằng tên gọi, ký hiệu hay chữ viết. Hầu hết các thƣơng hiệu nổi tiếng thế giới đều sử dụng những dấu hiệu thƣơng hiệu rất đơn giản. Kodak sử dụng chữ K đƣợc viết cách điệu, McDonald sử dụng chữ M hình cánh cổng màu vàng, Nike sử dụng nét phết, IBM sử dụng tên thƣợng hiệu viết cách điệu. Hầu nhƣ những dấu hiệu thƣơng hiệu này chỉ sử dụng 1 hoặc 2 màu
23
cơ bản nhƣ màu vàng của Kodak, McDonanld, màu xanh da trời của IBM, hay màu đỏ của Coca Cola .
- Dễ thích nghi: Cĩ khả năng thích nghi trong các thị trƣờng thuộc khu vực khác nhau, các nền văn hố hay ngơn ngữ khác nhau. Trên thực tế, khách hàng ở các nƣớc khác nhau, cĩ nền văn hố khác nhau và ngơn ngữ khác nhau thƣờng cĩ cách hiểu khác nhau đối với các hình ảnh hay ký hiệu. Do đĩ các biểu trƣng thƣơng mại quốc tế ít dùng hình ảnh mang ý nghĩa sẵn cĩ theo một nền văn hố hay ngơn ngữ nào mà sử dụng những hình ảnh mới rồi gắn chúng với các liên tƣởng về sản phẩm.
- Cĩ ý nghĩa: Biểu thị đƣợc những nét đặc trƣng cho sản phẩm hay các chủ đề liên quan. Thực tế là những logo cĩ ý nghĩa tự thân về sản phẩm lại thƣờng khơng tạo nên cảm giác khác biệt. Hơn nữa, sản phẩm ngày nay thƣờng quá phức tạp khiến tên gọi hay hình ảnh cĩ ý nghĩa thì lại khĩ khác biệt, dễ nhớ và đảm bảo tính tƣợng trƣng. Cho nên trong thực tế tính ý nghĩa này thƣờng đƣợc tạo ra qua các liên tƣởng về thƣơng hiệu hơn là tự thân thƣơng hiệu.
Hình dáng
Một số nhà thiết kế biểu trƣng coi trọng hình dạng giản dị, dễ đọc vì biểu trƣng phức tạp thƣờng khĩ nhận biết.
Cĩ thể kết hợp ký hiệu với tên thƣơng hiệu. Khá nhiều doanh nghiệp chọn một ký hiệu đặc thù kết hợp với tên thƣơng hiệu để tạo thành logo. Khi thƣơng hiệu đã trở nên nổi tiếng, ký hiệu cĩ thể đứng độc lập để tạo nên sự nhận biết về thƣơng hiệu. Tuy nhiên, những tác giả nhƣ Al Ries và Laura Ries (1998) và Alycia Perry (2003) cho rằng ký hiệu thƣờng chỉ cĩ tác dụng khi nĩ đi cùng tên thƣơng hiệu trong logo. Những thƣơng hiệu mà bản thân ký hiệu cĩ thể đứng một mình đại diện cho thƣơng hiệu nhƣ Nike hoặc Mercedes là rất hiếm và thƣờng chỉ cĩ ở những thƣơng hiệu xuất hiện từ rất sớm, khi số lƣợng trên thị trƣờng là rất nhỏ.
24
Cách khác để tạo ra ấn tƣợng là dùng kiểu chữ đặc thù của tên thƣơng hiệu. Đây là hình thức cách điệu tên thƣơng hiệu bằng cách sử dụng kiểu chữ đặc thù bao gồm việc sử dụng phơng chữ, chữ hoa - chữ thƣờng, thay đổi độ đậm nhạt hoặc cách viết cách điệu. Khi thiết kế logo theo cách này, doanh nghiệp cĩ thể sử dụng thiết kế đặc thù của tên thƣơng hiệu đầy đủ hoặc viết tắt.
Màu sắc
Màu sắc cũng cĩ xu hƣớng đơn giản, dễ dàng đƣợc nhận thấy và ghi nhớ. Các nhà thiết kế cĩ thể ƣu tiên vẽ màu trắng và đen trƣớc khi tơ màu. Một vài ví dụ diễn giải màu sắc:
· Đen : Trang trọng, đặc biệt, mạnh mẽ, quyền lực, tinh tế, truyền thống.
· Xanh dƣơng : Uy quyền, đỉnh đạc, an tồn, đáng tin cậy, truyền thống, ổn định, trung thành.
· Nâu /Vàng : Cổ điển, lợi ích, trần tục, giàu sang, truyền thống, bảo thủ.
· Xám /Bạc : Ảm đạm, quyền lực, thực tế, tâm linh, tin tƣởng.
· Xanh lá cây : Yên tĩnh, lành mạnh, khoẻ khoắn, ổn định, thèm muốn.
· Hồng : Nữ tín, ngây thơ, dịu dàng, khoẻ mạnh, trẻ trung.
· Tím : Tinh tế, tâm lý, giàu sang, hồng tộc, trẻ trung, bí ẩn.
· Đỏ : Hung hăng, mạnh mẽ, bền bỉ, đầy sức sống, kinh sợ,
· Cam : Là màu phối hợp giữa màu đỏ và vàng, chỉ điềm lành đƣợc hƣởng cuộc sống yên vui, nhiều quyền hành.
Ngƣời thiết kế logo cĩ thể chọn màu sắc tƣơng hợp, tƣơng sinh với triết lý âm dƣơng, ngũ hành...
25
Chương 2: MỘT SỐ KỸ THUẬT PHÂN CỤM TRONG TRA CỨU LOGO
2.1 Thuật tốn K- Means
Thuật tốn phân cụm K-means do MacQueen đề xuất lĩnh vực thống kê năm 1967, K-means là thuật tốn phân cụm trong đĩ các cụm đƣợc định nghĩa bởi trọng tâm của các phần tử. Phƣơng pháp này dựa trên độ đo khoảng cách tới giá trị trung bình của các đối tƣợng dữ liệu trong cụm, nĩ đƣợc xem nhƣ là trung tâm của cụm. Nhƣ vậy, nĩ cần khởi tạo một tập trung tâm các trung tâm cụm ban đầu, và thơng qua đĩ nĩ lặp lại các bƣớc gồm gán mỗi đối tƣợng tới cụm mà trung tâm gần, và tính tốn tại trung tâm của mỗi cụm trên cơ sở gán mới cho các đối tƣợng. Quá trình lặp này dừng khi các trung tâm hội tụ.
Hình 2.1: Các thiết lập để xác định các ranh giới các cụm ban đầu
Trong phƣơng pháp K-means, chọn một giá trị k là số cụm cần xác định và sau đĩ chọn ngẫu nhiên k trung tâm của các đối tƣợng dữ liệu. Tính tốn khoảng cách giữa đối tƣợng dữ liệu và trung bình mỗi cụm để tìm kiếm phần tử nào là tƣơng tự và thêm vào cụm đĩ. Từ khoảng cách này cĩ thể tính tốn trung bình mới của cụm và lặp lại quá trình cho đến khi mỗi các đối tƣợng dữ liệu là một bộ phận của cụm nào đĩ.
26
Mục đích của thuật tốn K-means là sinh k cụm dữ liệu {C1, C2,...,Ck} từ một tập dữ liệu ban đầu chứa n đối tƣợng trong khơng gian d chiều Xi ={Xi1,Xi2,..., Xin}, i = 1,n, sao cho hàm tiêu chuân: E = X D (x-mi) đạt giá trị tối thiểu.
Trong đĩ: m;- là trọng tâm của cụm Ci, D là khoảng cách giữa hai đối tƣợng.
Hình 2.2: Tính tốn trọng tâm của các cụm mới
Trọng tâm của một cụm là một vectơ, trong đĩ giá trị của mỗi phần tử của nĩ là trung bình cộng của các thành phần tƣơng ứng của các đối tƣợng vectơ dữ liệu trong cụm đang xét. Tham số đầu vào của thuật tốn là số cụm k, và tham số đầu ra của thuật tốn là các trọng tâm của cụm dữ liệu. Độ đo khoảng cách D giữa các đối tƣợng dữ liệu thƣờng đƣợc sử dụng là khoảng cách Euclide vì đây là mơ hình khoảng cách nên dễ lấy đạo hàm và xác định các cực trị tối thiểu. Hàm tiêu chuẩn và độ đo khoảng cách cĩ thể đƣợc xác định cụ thể hơn tùy vào ứng dụng hoặc quan điểm của ngƣời dùng. Thuật tốn K-means bao gồm các bƣớc cơ bản sau:
Input: Tập dữ liệu S và số cụm mong muốn k
Output: Tập các cụm Ci(1< i < k) và hàm tiêu chẩn E đạt giá trị tối thiểu. Begin
Bƣớc 1: Khởi tạo
27
Chọn k trọng tâm {mj}(1< i < k) ban đầu trong khơng gian Rd (d là số chiều của dữ liệu). Việc lựa chọn nay cĩ thể là ngẫu nhiên hoặc theo kinh nghiệm.
Bƣớc 2: Tính tốn khoảng cách
Đối với một điểm Xi (1< i < n), tính tốn khoảng cách của nĩ tới mỗi trọng tâm mj (1< j< k ). Sau đĩ tìm trọng tâm gần nhất đối với mỗi đối tƣợng
Bƣớc 3: Cập nhật lại trọng tâm
Đối với mỗi 1< j < k, cập nhật trọng tâm cụm mj bằng cách xác định trung bình cộng các vectơ đối tƣợng dữ liệu.
Bƣớc 4: Điều kiện dừng
Lặp các bƣớc 2 và 3 cho đến khi các trọng tâm của cụm khơng thay đổi. End.
Thuật tốn K-means biểu diễn các cụm bởi các trọng tâm của các đối tƣợng trong cụm đĩ. Thuật tốn K-means chi tiết nhƣ sau:
BEGIN
1. Nhập n đối tƣợng dữ liệu 2. Nhập k cụm dữ liệu 3. MSE = + rc
4. For i = 1 to k do mi = Xi+(ki)*[n/k]; // khởi tạo k trọng tâm 5. Do { 6. OldMSE = MSE; 7. MSE = 0; 8. For j = 1 to k do 9. {m[j] = 0; n[j] =0} 10. Endfor 11. For i = 1 to n do 12. For j =1 to k do
13. Tính khoảng cách Euclidean bình phƣơng: D (x[i]; m[j]) 14. Endfor
15. Tìm trọng tâm gần nhất m[h] tới X[i]
28 16. m’[h] = m’[h] + X[i]; n’[h] = n’[h] +1; 17. MSE’ = MSE’ + D2 (X[i]; m[j];) 18. Endfor 19. n[j] = max(n’[j], 1); m[j] = m’ [j]/n[j] ; 20. MSE = MSE’ 21. } While(MSE < OldMSE) END.
Các khái niệm biến và hàm sử dụng trong thuật tốn K- means nhƣ sau:
• MSE (Mean Squared Error); đƣợc gọi là sai số bình phƣơng trung bình hay cịn gọi là hàm tiêu chuẩn. MSE dùng để lƣu giá trị của hàm tiêu chuẩn và đƣợc cập nhật qua mỗi lần lặp. Thuật tốn dừng ngay khi giá trị MSE tăng lên so với giá