1. Trang chủ
  2. » Luận Văn - Báo Cáo

Ứng dụng mạng nơron mờ ho nhận dạng câu chữ in hoa tiếng việt

123 2 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Ứng Dụng Mạng Nơ Ron Mờ Cho Nhận Dạng Câu Chữ In Hoa Tiếng Việt
Tác giả Phan Anh Dũng
Người hướng dẫn PGS.Ts. Lê Bá Dũng
Trường học Trường Đại học Bách khoa Hà Nội
Chuyên ngành Điện tử - viễn thông
Thể loại Luận văn thạc sĩ khoa học
Năm xuất bản 2005
Thành phố Hà Nội
Định dạng
Số trang 123
Dung lượng 4,79 MB

Cấu trúc

  • 1.1. Khái niệm (18)
  • 1.2. Cấu trúc chung của hệ nhận dạng chữ (18)
    • 1.2.1. Quét và lu ảnh (0)
    • 1.2.2. Giai đoạn xử lý sơ bộ (19)
    • 1.2.3. Nhận dạng ký tự (19)
    • 1.2.4. Huấn luyện mẫu (19)
    • 1.2.5. Xử lý sau nhận dạng (20)
    • 1.2.6. Lu và trình bày lại văn bản (0)
  • 1.3. Các phơng pháp nhận dạng truyền thống (0)
    • 1.3.1. Đối sánh mẫu (20)
    • 1.3.2. Đối sánh từng điểm xuất phát từ trọng tâm (21)
    • 1.3.3. Đối sánh điểm cắt dọc và cắt ngang (21)
    • 1.3.4. Phơng pháp thống kê giao điểm (0)
    • 1.3.5. Phơng pháp biểu diễn cấu trúc chữ qua văn phạm và nhận dạng cấu trúc chữ (0)
    • 1.3.6. Phơng pháp nhận dạng cấu trúc chữ (0)
  • 1.4. Kỹ thuật xử lý ảnh dùng cho nhận dạng (24)
    • 1.4.1. Thu nhận ảnh (24)
    • 1.4.2. Biểu diễn ảnh (27)
    • 1.4.3. Lu giữ ảnh (0)
    • 1.4.4. Khôi phục ảnh (28)
    • 1.4.5. Tăng cờng ảnh (0)
    • 1.4.6. Phân đoạn và tìm biên ảnh (37)
  • 2.2. Lý thuyết mạng nơ ron (39)
    • 2.2.1. Khái niệm và các thành phần cơ bản (40)
    • 2.2.2. Phân loại mạng (43)
    • 2.2.3. Huấn luyện mạng (44)
    • 2.2.4. ứng dụng mạng nơ ron (0)
    • 2.3.1. Lý thuyÕt tËp mê (55)
    • 2.3.2. Các phép toán trên tập mờ (59)
    • 2.3.3. LuËt mê IF- THEN (60)
    • 2.3.4. Lý thuyết suy luận gần đúng (61)
    • 2.3.5. Các quy tắc mờ cơ bản (62)
    • 2.3.6. Mô hình suy luận mờ (66)
  • 3.1. Giới thiệu chung (73)
    • 3.4.1. Thực hiện luật mờ IF THEN bằng kiến trúc mạng nơ ron - (0)
    • 3.4.2. Kiến trúc mạng (0)
    • 3.4.3. Phân nhóm không gian mẫu (86)
    • 3.4.4. Phơng pháp học giảm độ dốc (91)
    • 3.4.5. Các nơ ron thực hiện (97)
    • 3.4.6. Các luật suy diễn mờ (98)
  • 4.1. Thiết kế thuật toán (102)
    • 4.1.1. Chuẩn hoá các mẫu dữ liệu (102)

Nội dung

Trang 1 Phan Anh Dũng Điện tửviễn thông - 2003 –2005Bộ giáo dục và đào tạo Trờng Đại học Bách khoa Hà nội --- Luận văn thạc sĩ khoa học Trang 2 Trờng Đại học Bách khoa Hà nội --- Luậ

Khái niệm

Nhận dạng chữ là quá trình tách biệt hình ảnh chứa chữ cần nhận diện và xác định chính xác chữ đó để lưu trữ hoặc xử lý Để thực hiện việc nhận dạng, cần phải qua bước xử lý ảnh, từ đó mới tiến hành nhận diện chữ một cách hiệu quả.

Xử lý ảnh là quá trình thao tác trên hình ảnh, bao gồm việc tạo ra ảnh mới, thay đổi thông tin hiện có, tăng cường chất lượng và khôi phục ảnh, cũng như phát hiện và trích xuất các đặc tính quan trọng từ ảnh.

Cấu trúc chung của hệ nhận dạng chữ

Giai đoạn xử lý sơ bộ

Giai đoạn này đóng vai trò then chốt, ảnh hưởng trực tiếp đến độ chính xác của thuật toán nhận dạng Để đảm bảo hiệu quả, cần thực hiện các công việc cụ thể sau đây.

Tiền xử lý văn bản là bước quan trọng để nâng cao chất lượng ảnh thông qua các phương pháp như khử nhiễu, tách đường biên, làm trơn biên và xoay văn bản Tuy nhiên, dung lượng xử lý lớn ở giai đoạn này có thể làm chậm tốc độ xử lý của hệ thống Do đó, tùy thuộc vào chất lượng ảnh lưu trữ và tốc độ xử lý cần thiết, chúng ta nên lựa chọn một số phương pháp nâng cao chất lượng ảnh một cách hợp lý.

Để thực hiện việc nhận dạng ký tự, cần tách và cô lập từng ảnh ký tự đơn ra khỏi ảnh văn bản Việc này là cần thiết để đảm bảo rằng mỗi ký tự được nhận dạng chính xác trong quá trình xử lý.

Quá trình tách chữ bao gồm ba bước chính: đầu tiên, tách từ từ ảnh văn bản thành các ảnh dòng; tiếp theo, tách từng ảnh từ ra khỏi ảnh dòng; cuối cùng, tách từng ảnh ký tự ra khỏi ảnh từ.

Nhận dạng ký tự

Sau khi hoàn tất giai đoạn xử lý văn bản, chúng ta sẽ thu được hình ảnh của các ký tự Khối nhận dạng sẽ chuyển đổi những hình ảnh này thành ký tự mà máy có thể hiểu Do đó, độ chính xác của kết quả nhận dạng phụ thuộc lớn vào chất lượng của quá trình xử lý ảnh văn bản trước đó.

Huấn luyện mẫu

Khi xây dựng hệ thống, việc huấn luyện các mẫu mới là cần thiết để nâng cao chất lượng nhận dạng, do thực tế hệ thống chưa có đầy đủ các mẫu Tuy nhiên, tùy thuộc vào kỹ thuật nhận dạng được áp dụng, người dùng có thể không được huấn luyện mẫu mới nhằm bảo vệ cơ sở dữ liệu hiện có khỏi bị hỏng.

Các phơng pháp nhận dạng truyền thống

Đối sánh mẫu

Phương pháp nhận dạng này, phát triển từ những năm 60, chia mẫu cần nhận dạng thành n x m vùng khác nhau Tại mỗi vùng, tổng số điểm đen được tính toán; nếu vượt qua ngưỡng nhất định, vùng đó được xác định là vùng đen, ngược lại, nếu dưới ngưỡng, đó là vùng trắng Quá trình nhận dạng diễn ra thông qua một cây quyết định, nơi mỗi nút đặt ra câu hỏi về việc vùng tương ứng có phải là vùng đen hay không.

Phương pháp này đơn giản nhưng khi số lượng vùng tăng lên, độ phức tạp sẽ gia tăng đáng kể, dẫn đến hiệu quả giảm khi thay đổi kiểu chữ.

Đối sánh từng điểm xuất phát từ trọng tâm

Sau khi tách chữ ra khỏi văn bản, tọa độ của trọng tâm chữ được xác định Tiếp theo, chữ mới và chữ chuẩn được đối chiếu pixel theo pixel từ trọng tâm ra ngoài biên Các hình vành khăn lồng nhau có trọng tâm tạo thành các lớp pixel đồng trọng số.

Khi đó khoảng cách giữa hai điểm x và x , được định nghĩa:

Khoảng cách giữa hai ký tự X và X ’ được định nghĩa:

Ký tự X được gọi là ký tự X ’ nếu DIS(X,X ’ ) < ε với ε là hằng số cho trước

Phương pháp này có tốc độ thực hiện nhanh, nhưng khi chất lượng ảnh đầu vào thấp, các điểm chữ bị mất nhiều, dẫn đến việc nhận dạng kém và lệch trọng tâm.

Đối sánh điểm cắt dọc và cắt ngang

Thuật toán này phát triển dựa trên phương pháp đối sánh từng điểm từ trọng tâm nhằm khắc phục những thiếu sót của các thuật toán trước đó Trong phương pháp này, người ta tính toán số điểm cắt chữ trên từng hàng và lưu trữ các giá trị này vào một véc tơ, đồng thời loại bỏ các giá trị 0 ở đầu và cuối, tương tự cũng được thực hiện cho các cột Véc tơ này sau đó được so sánh với véc tơ tương ứng từ một tập mẫu chuẩn Một mẫu được coi là chuẩn nếu véc tơ của nó là tập con của véc tơ chuẩn và ngược lại.

0 nếu x = x’ ω inếu x ≠ x’ với ω i là trọng số ủ c a lớp chứa x (1.1)

Phương pháp này mang lại tốc độ cao và không bị ảnh hưởng bởi việc mất điểm ở biên chữ, tuy nhiên, yêu cầu sử dụng một font chữ chuẩn.

Giả sử chữ được cô lập có kích thước WidthChar và HeightChar, chúng ta sẽ tiến hành duyệt ngang để xác định các điểm cắt ngang Đặt Hi là số điểm cắt ngang tại dòng i, tập hợp các điểm cắt ngang sẽ được biểu diễn dưới dạng dãy ký hiệu: H1, H2, , HHeightChar.

Gọi Vj là số điểm cắt dọc tại dòng j, vậy tập các điểm cắt dọc sẽ là một dãy ký hiệu: V1, V2, , VWidthchar

Bằng cách loại bỏ các phần tử bằng 0 ở đầu và cuối của hai dãy, chúng ta sẽ có hai dãy con là H=H1H2H3 HHeightChar và V=V1V2V3 VWidthChar Quy tắc nhận dạng sẽ được xác định dựa trên hai dãy con này.

Vx Vx or Vx Vx

Hình 1.2: Mô hình phóng lớn ảnh ký tự H

1.3.4 Phương pháp thống kê giao điểm

Phương pháp này tương tự như việc đối sánh các điểm cắt dọc và cắt ngang, trong đó xây dựng bốn véc tơ: hai véc tơ thẳng đứng (V) và nằm ngang (H), cùng với hai véc tơ ở góc 45 độ (I) và 135 độ (D) Mỗi hướng chỉ cần xem xét các đường quét cắt ký tự từ 1 đến 4 điểm Kết quả cuối cùng là véc tơ đặc trưng chứa tham số cho cả bốn véc tơ trước Quá trình nhận dạng dựa vào một tập quyết định.

Xét trên hình 1.2, ngoài H và V như hình vẽ ta còn có hai vector D và I như sau:

1.3.5 Phương pháp biểu diễn cấu trúc chữ qua văn phạm và nhận dạ ng cấu trúc chữ

Cơ sở của phương pháp này dựa trên lý thuyết ngôn ngữ hình thức và lý thuyết phân tích cú pháp, nhằm nhận dạng các biểu diễn đặc trưng của ký tự bất kỳ Nó mở ra hướng giải quyết cho bài toán nhận dạng chữ tổng quát, tuy nhiên, nhiều vấn đề liên quan đến hệ thống nhận dạng cú pháp vẫn chưa được giải quyết và chưa có các thuật toán phổ dụng được xây dựng.

1.3.6 Phương pháp nhận dạng cấu trúc chữ

Phương pháp này bao gồm phân hoạch bảng ký tự và trích chọn các đặc trưng của ký tự

Phân hoạch bảng ký tự dựa trên tiêu chuẩn cấu trúc như số thành phần liên thông, số chu trình và vị trí các chạc ba Quá trình này giúp xác định các tập ký tự có từ 1 đến 2 điểm kết thúc, đảm bảo tính chính xác và hiệu quả trong việc tổ chức dữ liệu.

Sau khi phân hoạch, chúng ta có một bảng phân hoạch đầy đủ cho tất cả các ký tự, giúp nhận dạng dựa trên đặc điểm cấu trúc Tuy nhiên, tập phân hoạch hiện tại chưa đạt được mục tiêu tạo ra các tập nhỏ nhất Để cải thiện, cần áp dụng các đặc trưng khác như điểm cắt dọc, cắt ngang, khoảng cách giữa hai lớp, và lớp cắt dọc, ngang nhằm tạo ra các tập mịn hơn.

Các đặc trưng của ký tự bao gồm điểm kết thúc và điểm chạc ba Điểm kết thúc chỉ có một láng giềng màu đen (a,b), trong khi điểm chạc ba có tối thiểu ba láng giềng màu đen (c,d,e) Để nhận dạng chính xác, các ký tự cần được làm mảnh trước khi tiến hành nhận dạng.

Phơng pháp nhận dạng cấu trúc chữ

Hình 1.3: Các điểm kết thúc, điểm chạc ba

Chương trình duyệt từng dòng để tìm kiếm một cột đen trên ảnh, sau đó bắt đầu quá trình duyệt lại từ điểm đã tìm ra bằng cách lần theo cạnh Để nâng cao độ chính xác, phương pháp này được kết hợp với thống kê giao điểm, đặc biệt hữu ích trong việc nhận dạng chữ có dấu.

Kỹ thuật xử lý ảnh dùng cho nhận dạng

Thu nhận ảnh

1.4.1.1 Thiết bị thu nhận ảnh:

Camera và Scanner là hai thiết bị thu nhận ảnh phổ biến, mặc dù có nhiều loại khác nhau, nhưng chúng đều có cấu tạo và nguyên lý hoạt động tương tự nhau.

Camera là thiết bị thu hình phổ biến nhất, có khả năng thu nhận các tia sáng phản xạ từ vật thể trong tự nhiên Nó hội tụ chùm sáng đó trên một màn nhận ảnh, nơi các phần tử cảm nhận ánh sáng được hình thành Cấu trúc của camera có thể được chia thành ba phần chính.

+ Phần quang học: Bao gồm các thấu kính hội tụ, các kính lọc và cơ cấu điều chỉnh khả năng thu nhận và hội tụ ánh sáng

Phần xử lý tín hiệu video từ các camera số đóng vai trò quan trọng trong việc chuyển đổi tín hiệu ảnh sang dạng số Hiện nay, camera số CCD (Charge Coupled Device) là thiết bị phổ biến trong xử lý ảnh số, với tên gọi xuất phát từ bộ phận cảm nhận ảnh CCD là một mạch tổ hợp chứa các phần tử nhạy sáng, mỗi phần tử này cảm nhận cường độ ánh sáng tương ứng với một điểm ảnh và chuyển đổi chúng thành tín hiệu điện Các phần tử được sắp xếp thành mảng hai chiều, và mật độ của chúng quyết định chất lượng hình ảnh thu nhận Ví dụ, một camera CCD có độ phân giải cao thường có 486 dòng với 768 phần tử cảm quang, được bố trí trong mắt lưới kích thước 10.5x11 mm.

Máy quét (scanner) là thiết bị chuyển đổi hình ảnh thành định dạng đồ họa dạng lưới (raster graphic image) Nó thường được sử dụng để quét các văn bản, hình ảnh hoặc tranh vẽ Hiện nay, máy quét còn được ứng dụng trong việc quét vân tay.

Cấu trúc của Scanner có thể kể đến 2 thành phần chính là:

Các phần tử cảm nhận ánh sáng, được sắp xếp trên một băng với mật độ cao, có nhiệm vụ quét từng dòng ảnh và chuyển đổi các giá trị nhận được thành tín hiệu điện Băng này thường được gọi là CCD.

Phần cơ khí của thiết bị đóng vai trò quan trọng trong việc tạo ra chuyển động tịnh tiến của băng quét dọc theo vật cần xử lý, đồng thời bao gồm các cơ cấu điều chỉnh để tối ưu hóa hoạt động của thiết bị.

Khi bắt đầu quá trình thu nhận ảnh, đối tượng được chiếu sáng bởi nguồn sáng trong máy quét, trong khi bộ phận điều khiển thực hiện chuyển động tịnh tiến để quét băng CCD qua đối tượng và thu nhận ánh sáng phản xạ Máy quét kết nối với máy tính để gửi tín hiệu thu nhận về xử lý, nơi các mạch điều khiển và phần mềm chuyển đổi và sắp xếp tín hiệu thành ảnh đồ họa Độ phân giải của máy quét một chiều phụ thuộc vào mật độ các phần tử CCD trên băng quét, trong khi chiều kia phụ thuộc vào bước chuyển động của hệ thống cơ học Thông thường, độ phân giải của máy quét khoảng 600x600 dpi, nhưng một số máy quét cao cấp có thể đạt tới 1600x1600 dpi.

1.4.1.2 Quá trình số hoá ảnh: ảnh sau khi thu nhận cần được số hoá để lưu trữ và thực hiện các biện pháp xử lý ảnh Quá trình số hoá ảnh cũng tuân theo các nguyên tắc đã có như đối với các quá trình số hoá tín hiệu khác là chia thành 3 bước: lấy mẫu, lượng tử hoá và mã hoá

Chùm sáng phản xạ từ vật thể có tính liên tục về không gian và cường độ sáng, nhưng thiết bị thu nhận ảnh hiện nay, cụ thể là bộ phận thu nhận tín hiệu CCD, hoạt động như một mạng lưới rời rạc với mỗi ô mắt lưới là một phần tử cảm nhận cường độ ánh sáng Bộ phận này thực hiện quá trình lấy mẫu tín hiệu cường độ sáng theo hai chiều, với mỗi phần tử CCD lấy mẫu tại một điểm Quá trình này chuyển đổi một hàm liên tục trong không gian 2D (đối với Scanner) hoặc 3D (đối với Camera) thành một hàm rời rạc được biểu diễn bởi ma trận hai chiều Để tái tạo lại ảnh gốc từ ảnh đã lấy mẫu mà không mất thông tin, quá trình lấy mẫu cần tuân theo định lý lấy mẫu.

Sau khi lấy mẫu, giá trị cường độ sáng của các phần tử trong ma trận ảnh vẫn là các giá trị liên tục Tuy nhiên, trong kỹ thuật số, chúng ta cần chuyển đổi những giá trị này thành dạng rời rạc Quá trình lượng tử hoá sẽ thực hiện việc rời rạc hoá giá trị cường độ của các điểm ảnh.

Một phương pháp lượng tử phổ biến là lượng tử hoá đều, trong đó khoảng cách giữa mức cường độ lớn nhất và nhỏ nhất của ma trận lấy mẫu được chia thành các khoảng đều nhau Khoảng cách giữa các bước kề nhau, được gọi là khoảng cách lượng tử (∆g), dẫn đến việc quy tròn các giá trị liên tục về các giá trị lượng tử Quá trình quy tròn này gây ra sai số, phụ thuộc vào số mức lượng tử; số mức lượng tử càng lớn thì sai số càng nhỏ, nhưng chi phí mã hoá cũng sẽ tăng lên.

Trong thông tin số, dữ liệu được lưu trữ và xử lý dưới dạng tín hiệu nhị phân với hai mức 0 và 1 Sau khi lượng tử hoá, các giá trị này phải được mã hoá bằng tổ hợp bit 0 và 1 Mỗi bit có khả năng mã hoá 2 giá trị mức lượng tử, do đó, nếu sử dụng N bit, có thể biểu diễn 2^N mức lượng tử Số mức lượng tử càng lớn thì càng cần nhiều bit để mã hoá, điều này là cần thiết để giảm sai số lượng tử hoá Ví dụ, với ảnh đen trắng, chỉ cần 1 bit để biểu diễn cường độ sáng, trong khi ảnh đa mức xám với 256 mức cần đến 8 bit Đối với ảnh màu, số bit cần thiết để biểu diễn mỗi phần tử ảnh sẽ cao hơn.

8, 16, 24, 32 tuỳ theo số lượng màu cần biểu diễn.

Biểu diễn ảnh

Hình ảnh sau khi được số hóa qua các thiết bị kỹ thuật cần phải được trình bày ra bên ngoài Trong quá trình xử lý dữ liệu ảnh, việc xuất thông tin hình ảnh phụ thuộc vào cách lưu trữ và biểu diễn trên máy tính Quá trình này phải đáp ứng hai yêu cầu đối lập: tối ưu hóa bộ nhớ sử dụng và tối ưu hóa thời gian xử lý.

Hệ thống tín hiệu ảnh số được lưu trữ dưới nhiều định dạng file khác nhau như bitmap, TIF, GIF, PCX, JPG, và chúng ta sẽ xem xét sơ bộ cấu trúc của các file này Một file định dạng chuẩn thường bao gồm ba phần chính.

Phần Header của ảnh chứa thông tin quan trọng như kiểu định dạng, chiều rộng, chiều cao, độ phân giải và số lượng màu sắc.

- Phần bảng màu: Xác định các giá trị màu chuẩn cho các điểm ảnh

Phần dữ liệu ảnh chứa thông tin về các điểm ảnh, thường được lưu giữ theo thứ tự tương ứng với chúng Nếu có, việc nén dữ liệu ảnh sẽ được thực hiện ngay tại phần này.

Định dạng bitmap là một lựa chọn phổ biến trong việc xử lý và hiển thị hình ảnh, mặc dù tệp ảnh thường có kích thước lớn.

Nhiễu trong ảnh số được định nghĩa là sự biến đổi đột ngột của tín hiệu trong một khoảng cách nhỏ, dẫn đến sự khác biệt rõ rệt giữa các điểm ảnh lân cận Trong quá trình số hoá, các điểm ảnh trong cùng một cửa sổ thường có giá trị gần giống nhau, nhưng thực tế cho thấy có những điểm ảnh có giá trị khác biệt nhiều, biểu hiện cho sự hiện diện của nhiễu Mô hình nhiễu ảnh được coi là một miền đồng nhất về mức xám, nơi mà sự biến đổi liên tục về mức xám giữa các điểm ảnh là điều kiện tiên quyết.

Hệ thống thu nhận ảnh chuyển đổi hình ảnh thực từ môi trường xung quanh g(x,y) thành tín hiệu ảnh g’(x,y), nhưng trong quá trình này, nhiều yếu tố tác động gây ra nhiễu Kết quả là tín hiệu g’(x,y) có thể chứa các thành phần nhiễu, làm ảnh hưởng đến chất lượng hình ảnh thu được.

Dựa trên mô hình nhiễu liên tục, chúng ta có thể phát triển một mô hình nhiễu rời rạc cho ảnh số Trong đó, hàm g(x,y) sẽ được chuyển đổi thành ảnh rời rạc g[m,n], và ảnh liên tục g’(x,y) sẽ trở thành ma trận điểm ảnh g’[m,n] Nhiễu cũng sẽ được phân bố rời rạc tại các điểm ảnh η[m,n] Giả sử H là hàm tuyến tính bất biến trong khuôn khổ MxN (kích thước ảnh), chúng ta có thể tiếp tục phân tích.

(1.4) Đối với xử lý số ảnh thì ta chỉ sử dụng mô hình nhiễu rời rạc

Các tín hiệu nhiễu được phân loại chủ yếu thành nhiễu do thiết bị thu nhận ảnh, bao gồm nhiễu từ giới hạn nhiễu xạ và quang sai của thấu kính, nhiễu từ bộ phận cảm quang, ảnh mờ nhòe do ống kính, và nhiễu do rung động thiết bị trong quá trình thu nhận.

Nhiễu ngẫu nhiên độc lập là các loại nhiễu gây ra do ảnh hưởng của môi trường xung quanh hoặc do ảnh hưởng của khí quyển

Nhiễu do vật quan sát là hiện tượng xảy ra khi bề mặt của vật có độ nhám gồ ghề, dẫn đến sự tán xạ của các tia đơn sắc Hiện tượng này gây ra nhiễu lốm đốm, ảnh hưởng đến chất lượng hình ảnh quan sát.

Thông thường, các loại nhiễu được xấp xỉ bằng các quá trình tuyến tính bất biến, vì có nhiều công cụ tuyến tính hiệu quả hơn trong việc khôi phục ảnh so với các công cụ phi tuyến Việc xử lý nhiễu qua xấp xỉ tuyến tính cũng tạo điều kiện thuận lợi hơn cho việc áp dụng các phương pháp biến đổi phi tuyến sau này.

* Các kỹ thuật lọc nhiễu

Trong phần này ta sẽ xét hai kỹ thuật lọc tuyến tính hay sử dụng là lọc ngược và lọc giả ngược

Nguyên lý lọc ngược là sử dụng hàm ngược của đáp ứng xung h[m,n] để phục hồi ảnh xấp xỉ g[m,n] từ ảnh đã biết g’[m,n] Nguyên lý này được mô tả qua sơ đồ minh họa.

Ảnh khôi phục g*[m,n] được tính theo công thức g*[m,n] = g’[m,n] * h -1 [m,n], trong đó h -1 [m,n] là hàm của bộ lọc ngược Do H -1 (H(x)) = x, giá trị đầu ra g*[m,n] sẽ bằng giá trị vào g[m,n] Như vậy, chúng ta đã khôi phục được ảnh g[m,n] bằng cách sử dụng hàm ngược của đáp ứng xung h[m,n].

Nếu dùng biến đổi Fourier ta có:

Hình 1.5: L c ng c khôi ph ọ ượ ục ả nh nguyên g c ố

Đáp ứng tần số của bộ lọc ngược là nghịch đảo của đáp ứng tần số của hệ thu nhận ảnh Bằng cách đánh giá mức nhiễu, chúng ta có thể xấp xỉ gần hơn với ảnh gốc.

G = + với N[u,v] là nhiễu ước lượng (1.7)

Nếu H[u,v] = 0 hoặc giá trị nhỏ, hệ thống khôi phục sẽ không ổn định do hàm H T [u,v] không xác định Đây là nhược điểm của phương pháp lọc ngược Mặc dù bộ lọc ngược có khả năng ngăn chặn nhiễu hiệu quả từ hệ thống nhận ảnh, nhưng việc thiết kế bộ lọc này lại rất phức tạp.

+ Lọc giả ngược (Pseudoinverse filter) :

Kỹ thuật lọc này khắc phục được nhược điểm của kỹ thuật lọc ngược là làm cho hàm H T [u,v] luôn xác định:

Với ε là một giá trị cho trước

Khôi phục ảnh

Nhiễu và mô hình nhiễu trong ảnh được xem là một miền đồng nhất về mức xám, với các điểm ảnh lân cận có sự biến đổi liên tục Sau quá trình số hoá, các điểm ảnh trong mỗi cửa sổ thường có giá trị tương tự nhau Tuy nhiên, thực tế cho thấy có những điểm ảnh có giá trị khác biệt đáng kể, đó chính là nhiễu Nhiễu trong ảnh số được hiểu là sự dịch chuyển đột ngột của tín hiệu thu nhận trong một khoảng cách nhỏ.

Hệ thống thu nhận ảnh chuyển đổi hình ảnh thực từ môi trường xung quanh g(x,y) thành tín hiệu ảnh g’(x,y) Trong quá trình này, nhiều yếu tố tác động có thể tạo ra nhiễu, dẫn đến tín hiệu g’(x,y) chứa các thành phần không mong muốn Quá trình thu nhận ảnh nhiễu có thể được mô tả một cách trực quan để hiểu rõ hơn về ảnh hưởng của các yếu tố này.

Dựa trên mô hình nhiễu liên tục, chúng ta có thể phát triển một mô hình nhiễu rời rạc cho ảnh số Trong đó, ảnh liên tục g’(x,y) sẽ được chuyển đổi thành ma trận điểm ảnh g’[m,n], và nhiễu cũng sẽ được phân bố rời rạc tại các điểm ảnh η[m,n] Nếu H là hàm tuyến tính bất biến trong phạm vi kích thước ảnh MxN, thì mô hình này sẽ được áp dụng một cách hiệu quả.

(1.4) Đối với xử lý số ảnh thì ta chỉ sử dụng mô hình nhiễu rời rạc

Nhiễu ngẫu nhiên độc lập là các loại nhiễu gây ra do ảnh hưởng của môi trường xung quanh hoặc do ảnh hưởng của khí quyển

Thông thường, các loại nhiễu được xấp xỉ bằng các quá trình tuyến tính bất biến, vì có nhiều công cụ tuyến tính hiệu quả hơn trong việc khôi phục ảnh so với các công cụ phi tuyến Việc xử lý nhiễu bằng cách xấp xỉ tuyến tính không chỉ đơn giản hóa quá trình mà còn hỗ trợ tốt hơn cho các phương pháp biến đổi phi tuyến sau này.

* Các kỹ thuật lọc nhiễu

Trong phần này ta sẽ xét hai kỹ thuật lọc tuyến tính hay sử dụng là lọc ngược và lọc giả ngược

Nguyên lý lọc ngược sử dụng hàm ngược của đáp ứng xung h[m,n] để phục hồi ảnh xấp xỉ g[m,n] từ ảnh g’[m,n] đã biết Sơ đồ mô tả nguyên lý này thể hiện

Ảnh khôi phục g*[m,n] được tính theo công thức g*[m,n] = g’[m,n] * h -1 [m,n] Ở đây, h -1 [m,n] là hàm của bộ lọc ngược Do H -1 (H(x)) = x, giá trị đầu ra g*[m,n] bằng giá trị vào g[m,n] Như vậy, chúng ta đã khôi phục được ảnh g[m,n] bằng cách sử dụng hàm ngược của đáp ứng xung h[m,n].

Nếu dùng biến đổi Fourier ta có:

Hình 1.5: L c ng c khôi ph ọ ượ ục ả nh nguyên g c ố

G = + với N[u,v] là nhiễu ước lượng (1.7)

Nếu H[u,v] = 0 hoặc gần bằng 0, hệ thống khôi phục sẽ không ổn định do hàm H T[u,v] không xác định Đây là nhược điểm của phương pháp lọc ngược Mặc dù bộ lọc ngược có khả năng ngăn chặn nhiễu từ hệ thống nhận ảnh hiệu quả, nhưng việc thiết kế bộ lọc này lại khá phức tạp.

+ Lọc giả ngược (Pseudoinverse filter) :

Kỹ thuật lọc này khắc phục được nhược điểm của kỹ thuật lọc ngược là làm cho hàm H T [u,v] luôn xác định:

Với ε là một giá trị cho trước

Nhiễu lốm đốm xuất hiện do bề mặt vật thể gồ ghề, dẫn đến hiện tượng tán xạ các tia đơn sắc Trong phần này, chúng ta sẽ khám phá kỹ thuật lọc nhiễu lốm đốm thông qua phương pháp trung bình thống kê, sử dụng bộ lọc đồng cầu.

Kỹ thuật lọc nhiễu trung bình thống kê giúp cải thiện chất lượng hình ảnh bằng cách thu thập N lần cường độ sáng của đối tượng bị nhiễu lốm đốm và tính toán trung bình các giá trị này.

Hệ thống được giả thiết chỉ có nhiễu lốm đốm, loại nhiễu này có thể xem như tổng vô hạn các pha độc lập và đồng nhất Nhiễu lốm đốm được biểu diễn bằng công thức: a[m,n]=aR[m,n] +jal [m,n] (1.9).

Các biến ngẫu nhiên độc lập aR và al tuân theo phân phối Gaussian, với trị trung bình bằng 0 và phương sai σ² tại mỗi toạ độ [m,n] Cường độ s được xác định từ các biến này.

Như vậy ảnh thu được trong lần nhận thứ i ( 1, ,N ) sẽ là g i ’ [m,n]=g[m,n].s i [m,n] (1.11) Trị trung bình thống kê của N lần thu nhận ảnh sẽ là:

Trong đó sN[m,n] là trị trung bình thống kê của trường cường độ nhiễu lốm đốm

Nếu lấy logarit 2 vế của biểu thức 1.12 ta thu được: log gN ’[m,n]= log g[m,n]+ log s N[m,n] (1.13) Đặt w N [m,n]= log g N ’ [m,n], z[m,n]= log g[m,n],η N [m,n]= log s N [m,n]

Ta có mô hình quan sát có nhiễu lốm đốm như sau: wN[m,n]= z[m,n] + ηN[m,n] (1.14)

Từ công thức 1.14 ta thấy có thể tìm ra z[m,n] từ wN[m,n] và ηN[m,n] Như vậy là có thể tách nhiễu lốm đốm và khôi phục lại ảnh ban đầu

Trong công thức 1.14 thì ηN[m,n] là nhiễu trắng dừng Với N≥2 thì ηN[m,n] có thể mô tả gắn với nhiễu ngẫu nhiên Gauusian với mật độ phổ được định nghĩa như sau:

1.4.5.1 Sử dụng toán tử điểm ảnh

Phân đoạn và tìm biên ảnh

1.4.6.1 Khái niệm biên ảnh và phương pháp xác định biên

Biên là khu vực phân tách hai vùng có mức xám khác nhau, và một điểm ảnh được xem là biên khi có sự thay đổi đột ngột về giá trị mức xám Tập hợp các điểm biên sẽ tạo thành biên hay đường bao của ảnh Chẳng hạn, trong ảnh nhị phân, một điểm đen được coi là biên nếu xung quanh nó có ít nhất một điểm trắng, và ngược lại.

Có hai phương pháp tìm biên ảnh là phương pháp trực tiếp và phương pháp gián tiếp

Phương pháp làm nổi biên dựa vào sự biến thiên của cường độ sáng trong ảnh Kỹ thuật phát hiện biên chính được sử dụng là đạo hàm Sử dụng đạo hàm bậc nhất, ta có phương pháp gradient, trong khi đạo hàm bậc hai dẫn đến kỹ thuật Laplace.

Khi phân chia ảnh thành các vùng khác nhau, đường biên giữa các vùng đó được gọi là biên Quá trình phân vùng thường dựa vào cấu trúc bề mặt của ảnh.

Kỹ thuật dò biên và phân vùng ảnh là hai vấn đề tương hỗ Dò biên giúp thực hiện phân lớp ảnh, và khi hoàn thành phân lớp, ta cũng đã phân vùng ảnh Ngược lại, khi phân vùng ảnh thành các lớp, biên giới giữa chúng chính là biên.

1.4.6.2 Kỹ thuật phân đoạn ảnh Để nhận dạng được các đối tượng trong ảnh thì ta cần tách riêng từng đối tượng ra để nhận dạng Ví dụ, đối với nhận dạng chữ viết thì ta cần tách các mẫu chữ ra riêng để nhận dạng Việc phân đoạn ảnh sẽ chia ảnh thành các vùng có cùng tính chất nào đó dựa theo biên hay các vùng liên thông Tiêu chuẩn xác định các vùng liên thông có thể là cùng mức xám, cùng màu hay cùng độ nhám,

Kỹ thuật phân vùng hình ảnh có thể được chia thành nhiều loại dựa trên các yếu tố khác nhau Phân vùng theo miền đồng nhất được thực hiện dựa trên các miền liên thông, trong khi phân vùng theo biên tập trung vào các ranh giới giữa các đối tượng Ngoài ra, còn có các phương pháp phân vùng khác như phân vùng theo kết cấu và phân vùng theo biên độ, mỗi phương pháp đều có ứng dụng và ưu điểm riêng trong xử lý hình ảnh.

Chơng 2 các hệ thống hỗ trợ quyết định :

Các hệ thống máy móc truyền thống hoạt động theo trình tự cố định với các thao tác logic đơn giản, luôn dựa vào các thông số kỹ thuật nhất định Từ khi ra đời, mọi thay đổi tham số đều do con người thực hiện mà không có sự hỗ trợ từ hệ thống Những hệ thống này không có khả năng tự động điều chỉnh các tham số nội bộ để cải thiện hiệu suất dựa trên kinh nghiệm hoạt động Chức năng của hệ thống chủ yếu tuân theo logic ON hoặc OFF, dẫn đến sự hạn chế trong khả năng tự động hóa và tối ưu hóa quy trình.

Con người đã nỗ lực phát triển các lý thuyết xử lý tín hiệu để tạo ra những hệ thống thông minh có khả năng rút ra kinh nghiệm từ quá trình hoạt động Những hệ thống này không chỉ hỗ trợ quyết định mà còn có thể tự điều chỉnh các thông số và thực hiện các chức năng phức tạp, nhằm nâng cao hiệu quả hoạt động.

Sự phát triển nhanh chóng của khoa học máy tính đã làm cho việc mô phỏng các bài toán trở nên dễ dàng hơn, dẫn đến sự ra đời của nhiều lý thuyết mới, trong đó nổi bật là lý thuyết mạng nơ ron (Neural Networks - NN) và lý thuyết mờ (Fuzzy Inference Systems - FIS) Trong phần này, chúng ta sẽ tập trung nghiên cứu hai lý thuyết quan trọng này, khám phá ứng dụng và tiềm năng của chúng trong lĩnh vực tính toán và phân tích.

Lý thuyết mạng nơ ron

Khái niệm và các thành phần cơ bản

Mạng nơ ron nhân tạo là một mô hình toán học của một hệ thống

Mạng nơ ron nhân tạo mô phỏng hoạt động của não người, bao gồm nhiều phần tử xử lý đơn giản Chúng hoạt động song song như mạng máy tính, với tính năng của hệ thống phụ thuộc vào cấu trúc mạng, trọng số liên kết giữa các nơ ron và quá trình tính toán lại từng nơ ron.

2.2.1.2 Các thành phần cơ bản của mạng nơ ron

Có rất nhiều kiểu mạng nơ ron khác nhau, tuy nhiên chúng đều có các thành phần cơ bản sau:

+ Các đơn vị xử lý

Ngoài ra, để mạng có thể hoạt động đợc thì cần có thêm thủ tục huấn luyện mạng trên cơ sở các giải thuật tính toán

* Các đơn vị xử lý (các nơ ron)

Một mạng nơ ron bao gồm nhiều đơn vị xử lý đơn giản, tương tự như các nơ ron trong não bộ, được gọi là nơ ron Tất cả các nơ ron này hoạt động đồng thời, tạo ra một cơ chế xử lý song song quy mô lớn.

Nơ ron nhân tạo đợc xây dựng từ các phần tử sau: f θ x 1 x n w 1 wn o

Mô hình nơ ron nhân tạo (Hình 2.1) thể hiện các kết nối đầu vào tương tự như synapse và dendrite của nơ ron sinh học Những kết nối này biểu thị mối liên hệ giữa các nơ ron khác và nơ ron hiện tại, với đặc trưng là các trọng số liên kết của chúng.

Bộ cộng (adder) được sử dụng để tính tổng các tín hiệu đầu vào, với trọng số tương ứng cho các khớp của nơ ron thần kinh Thao tác này mô tả bộ tổ hợp tuyến tính.

Hàm hoạt hóa là công cụ giúp hạn chế biên độ đầu ra của một nơ ron, thường được gọi là hàm ép (squashing function) Chức năng của nó là giới hạn khoảng dao động của tín hiệu ra, đưa chúng về một số giá trị hữu hạn.

Bộ cộng và hàm hoạt hoá thực hiện chức năng tơng tự nh thân tế bào ở nơ ron sinh học

Kết nối đầu ra, tương tự như dây thần kinh trong tế bào sinh học, có vai trò quan trọng trong việc truyền tín hiệu từ nơ ron này sang các nơ ron khác trong mạng lưới.

Các nơ ron trong một mạng được chia thành ba nhóm chính, trong đó các nơ ron vào (Input Units) là những nơ ron tiếp nhận dữ liệu từ môi trường, tương tự như các thông tin cảm nhận thô trong hệ thần kinh.

+ Các nơ ron ẩn (Hidden Units): là những nơ ron có thể thay đổi một cách nội tại các sự biểu diễn của dữ liệu

Các nơ ron ra (Output Units) là những nơ ron thể hiện các quyết định hoặc tín hiệu điều khiển, ví dụ như các tín hiệu điều khiển hoạt động của động cơ.

Trong các hình vẽ mô tả mạng nơ ron, nơ ron đầu vào thường được đặt ở phía dưới, trong khi nơ ron đầu ra được vẽ ở phía trên Do đó, quá trình xử lý thông tin trong mạng nơ ron được hiểu là diễn ra từ dưới lên.

Các nơ ron trong mạng được tổ chức theo cấu trúc nhất định thông qua các kết nối và tham số Những kết nối này được biểu diễn bằng các đường kẻ trong biểu đồ, với mỗi tham số có giá trị thực trong khoảng từ -∞ đến +∞, mặc dù trong một số trường hợp, khoảng giá trị này có thể bị giới hạn.

Huấn luyện mạng thông thường liên quan đến việc điều chỉnh các tham số của mạng theo một thuật toán nhất định, nhằm thay đổi các vùng quyết định của mạng Tuy nhiên, trong một số trường hợp, quá trình này cũng có thể bao gồm việc thay đổi cấu trúc mạng bằng cách thêm hoặc xóa các liên kết.

Việc sửa đổi liên kết mạng thường ít xảy ra, vì nếu thay đổi một tham số nào đó về không thì hiệu quả tương tự như việc xóa bỏ liên kết tương ứng Tuy nhiên, có sự khác biệt giữa hai hành động này; việc xóa bỏ liên kết có thể làm giảm thời gian huấn luyện cho mạng Do đó, chúng ta chủ yếu tập trung vào các giải pháp sửa đổi tham số cho mạng.

Các mạng thường được huấn luyện bằng các thuật toán lặp, trong đó mỗi lần lặp sẽ đưa vào mạng một mẫu dữ liệu Nhiệm vụ của mạng là xử lý và học hỏi từ các mẫu này để cải thiện hiệu suất.

Phân loại mạng

Việc phân loại mạng có thể thực hiện theo các tiêu chí khác nhau: theo số lớp, theo cách kết nối, theo phơng pháp học

* Theo sè líp ta cã:

+ Mạng một lớp: tức là mạng chỉ có một lớp xử lý dữ liệu Trong mạng này chỉ có lớp đầu ra là xử lý dữ liệu

+ Mạng nhiều lớp: ngoài lớp ra xử lý dữ liệu ta còn có các lớp ẩn phục vụ việc xử lý dữ liệu

* Theo cách kết nối: theo cách này ta có mạng truyền thẳng, mạng hồi quy và mạng tích hợp

Mạng truyền thẳng là một loại mạng nơ ron nơi các lớp nơ ron được sắp xếp từ đầu vào đến đầu ra Mỗi nơ ron ở lớp trước có khả năng kết nối với toàn bộ nơ ron ở lớp sau mà không có tín hiệu phản hồi.

+ Mạng hồi quy: các tín hiệu ra của lớp sau có thể quay trở lại làm tín hiệu vào của lớp trớc

Mạng tích hợp là một kiến trúc mạng neuron nơi các nơ ron trong cùng một lớp có thể được phân chia thành từng nhóm liên kết với nhau Các nhóm này sau đó được kết nối tới các nơ ron lớp sau, tạo nên một cấu trúc mạng phức tạp và linh hoạt Kiến trúc này cho phép mạng neuron xử lý thông tin một cách hiệu quả và chính xác hơn.

* Theo phơng pháp học ta có: học có giám sát, học nửa giám sát, học không có giám sát

Học có giám sát là quá trình mà một "giáo viên" cung cấp cả đầu vào và đầu ra cho mạng, giúp điều chỉnh các tham số nhằm giảm thiểu lỗi.

+ Học nửa giám sát: trong phơng pháp học này, “giáo viên” chỉ đơn thuần trả lời xem kết quả của mạng là tốt hay xấu

+ Học không có giám sát: Trong cách học này thì không có “giáo viên”, mạng sẽ phải tự học theo một luật cho trớc nào đó.

Huấn luyện mạng

2.2.3.1 Mạng perceptrron Đây là loại mạng có cấu trúc truyền thẳng, gồm có lớp vào, lớp ra và một hoặc nhiều lớp ẩn Mỗi nơ ron của lớp trớc đợc kết nối đến toàn bộ nơ ron của lớp sau nhng không có các kết nối bất kỳ giữa các nơ ron thuộc cùng mét líp

Khi lớp trước gửi tín hiệu đến lớp sau, các trọng số trên các kết nối được áp dụng, và mỗi nơ-ron trong lớp 2 sẽ tính tổng các giá trị đầu vào Nếu tổng này vượt quá một ngưỡng nhất định, nơ-ron sẽ phát ra một giá trị tích cực để chuyển tiếp đến lớp tiếp theo.

Các nút ẩn Các nút ẩn §Çu ra Đầu vào Các mẫu vào

Hình 2.2:Cấu trúc mạng perceptron

Huấn luyện mạng perceptron bao gồm hai trường hợp chính: mạng đơn lớp và mạng đa lớp Mạng đơn lớp sử dụng thuật toán huấn luyện perceptron, trong khi mạng đa lớp áp dụng thuật toán lan truyền ngược để tối ưu hóa mạng.

Luật học perception là phương pháp sửa lỗi dành cho mạng nơ-ron đơn lớp Quy trình huấn luyện rất đơn giản: đưa một tín hiệu mẫu đầu vào vào mạng, sau đó mạng sẽ xử lý và trả về một tập giá trị trên các nơ-ron đầu ra.

Sau khi so sánh đầu ra thực tế với đầu ra mong muốn, độ lệch được tính toán Nếu đầu ra tính toán không khác biệt so với đầu ra mong muốn, mạng sẽ không có thay đổi nào Ngược lại, nếu có sự khác biệt, cần thực hiện điều chỉnh một số kết nối trong mạng.

Hình 2.4: Mạng phân tách tuyến tính

Nếu một mạng có khả năng phân tách tuyến tính, luôn tồn tại một đờng thẳng phân chia các lớp thành các phần riêng biệt

Kết luận: Thuật toán huấn luyện perceptron đợc phát biểu nh sau:

Cho K mẫu huấn luyện (x 1 , y 1 ), (x 2 , y 2 ), ,(x K , y K ), trong đó tín hiệu vào là x k = (x k 1, x k 2, , x k n ) và tín hiệu ra y k = (y k 1, y k 2, , y k n ) còn k=1, , K Quá trình huấn luyện mạng đợc thực hiện qua các bớc sau:

+ Bớc 2: Khởi tạo các trọng số wi với các giá trị ngẫu nhiên bé, lỗi E 0; k=1

+ Bớc 3: Bắt đầu huấn luyện mạng Đa đầu vào x = x k và giá trị đầu ra y = y k vào mạng, đầu ra o = o(x) đợc tính nh sau: oi  

+ Bớc 4: Cập nhật các trọng số wi:= wi + η(yi + oi) x i=1, 2, , m (2.3) + Bớc 5: Tính sai lệch tổng:

+ Bớc 6: Nếu k< K thì gán k=k+1 và tiếp tục quay trở lại bớc 3 để huấn luyện mạng

+ Bớc 7: Chu kỳ huấn luyện hoàn thành Với E = 0 chấm dứt việc huấn luyện Nếu E > 0 thì đặt E về 0, k=1 và một chu kỳ huấn luyện mới bắt đầu từ bíc 3

Hạn chế của luật học perceptron:

Năm 1969, Minsky và Papert đã nghiên cứu kỹ lưỡng các điều kiện cần thiết để đảm bảo rằng luật học perceptron có khả năng hội tụ Họ chỉ ra rằng thuật toán huấn luyện này không thể áp dụng cho hàm XOR.

Luật học lan truyền ngợc

Trong phần này chúng ta sẽ đa ra luật học lan truyền ngợc áp dụng cho mạng nơ ron truyền thẳng nhiều lớp

Luật học lan truyền ngược là phương pháp phổ biến nhất sử dụng thuật toán học không giám sát cho mạng nơ ron nhiều lớp truyền thẳng.

L nót Èn n nút vào w 11 w 12 w 1 n w Ln

Hình 2.5: Mạng perceptron hai lớp liên tiếp

Trong mạng nơ ron đơn giản với một lớp ẩn và một nơ ron đầu ra, đầu ra tính toán được ký hiệu là O k Để tính toán lỗi cho một mẫu huấn luyện đầu vào/đầu ra (x k, y k), ta thực hiện các bước cụ thể như đã mô tả trong hình 2.6.

L nót Èn n nút vào w 11 w 12 w 1 n w Ln

Hình 2.6:Mạng nơ ron 2 lớp có một đầu ra

Và wl là véc tơ trọng số nơ ron ẩn thứ l, l=1, ,L

Luật thay đổi trọng số được áp dụng cho cặp đầu vào và đầu ra thông qua phương pháp giảm gradient, nhằm tối thiểu hóa hàm bậc hai bằng cách thực hiện quá trình lặp đi lặp lại.

Kết luận: Thuật toán lan truyền ngợc

Với tập huấn luyện mẫu: { ( x 1 , y 1 ), , ( x K , y K ) }

Trong đó: ( 1 , , ) k n k k x x x = và y k ∈ R , k=1,2, ,K Thuật toán huấn luyện delta tổng quát hóa hay còn gọi là thuật toán lan truyền ngợc đợc thực hiện nh sau:

+ Bớc 1: Chọn các giá trị khởi tạo η> 0, Emax> 0

+ Các trọng số w đợc khởi tạo tại các giá trị ngẫu nhiên nhỏ, k đặt bằng 1, lỗi hệ thống E đặt bằng 0

+ Bớc 3: Bắt đầu huấn luyện Đa đầu vào x k vào mạng, x=x k , y=y k , và đầu ra O đợc tính:

Trong đó ol là véc tơ đầu ra của lớp ẩn:

+ Bớc 4: Cập nhật các trọng số của nơ ron đầu ra:

+ Bớc 5: Cập nhật các trọng số của nơ ron ẩn: x o o W w w l = l + ηδ l l ( 1 − l ) víi l=1,2, ,L (2.12) + Bớc 6: Tính lỗi tích lũy E:

+ Bớc 7: Nếu k < K thì đặt k = k+1 và ta tiếp tục quay lại bớc 2, nếu không ta sang bớc 8

Bước 8: Kết thúc chu kỳ huấn luyện Nếu E nhỏ hơn Emax, phiên huấn luyện sẽ kết thúc Ngược lại, nếu E lớn hơn Emax, ta đặt E bằng 0, k bằng 1 và bắt đầu một chu kỳ huấn luyện mới bằng cách quay lại bước 3.

Mạng Kohonen là một phương pháp nhóm dữ liệu hiệu quả, sử dụng mạng nơ ron nhân tạo tự tổ chức Mỗi nơ ron trong mạng sở hữu một véc tơ trọng số, tương ứng với các đầu vào dữ liệu Khi nhận được một mẫu đầu vào mới, mỗi nơ ron sẽ tính toán mức tích cực của nó dựa trên định nghĩa đã được thiết lập.

Trong quá trình huấn luyện mạng nơ-ron, thành phần thứ i của véc tơ trọng số được ký hiệu là wi, trong khi pi là thành phần thứ i của mẫu đầu vào Nơ-ron có mức tích cực thấp nhất, tức là trọng số của nó gần với không gian Ơclit của mẫu đầu vào mới, sẽ được điều chỉnh để gần hơn với mẫu đầu vào và một số nơ-ron xung quanh Một số thuật toán sẽ xác định quy trình chạy, bắt đầu từ tất cả các node và giảm dần theo cách tuyến tính trong suốt quá trình huấn luyện.

Mảng hai chiều Mảng một chiều

Hình 2.7: Quan hệ lân cận trong mạng Kohonen

Luật học winner-take all-

Huấn luyện các mạng học không giám sát dựa vào việc phân tập dữ liệu đầu vào mà không cần thông tin biết trước Qua quá trình này, các đặc tính của hệ thống được khám phá dần dần, và lịch sử huấn luyện hỗ trợ mạng trong việc xác định các lớp và đường biên giữa chúng.

Việc phân tập đợc hiểu là nhóm các đối tợng giống nhau lại thành nhóm và phân tách với các đối tợng còn lại

Quan sát mạng Kohonen có các véc tơ đầu vào đợc phân thành m loại, phụ thuộc các tập đợc tìm thấy trong tập huấn luyện

Hình 2.8: Mạng nơ ron theo phơng pháp học không giám sát

Thuật toán học sử dụng tập m véc tơ trọng số nh, là các véc tơ có khả năng thay đổi và cần được học Trước khi tiến hành quá trình học, việc chuẩn hóa tất cả các véc tơ trọng số là rất quan trọng.

Tiêu chuẩn hiệu chỉnh trọng số cho việc huấn luyện là lựa chọn wrđể: m i r i x w w x − = = min 1 , , − (2.14)

Thứ tự r chỉ ra số của nơ ron chiến thắng tơng ứng với véc tơ wr, là véc tơ gần nhất với đầu vào hiện tại x

Sử dụng hằng đẳng thức:

Lý thuyÕt tËp mê

Lý thuyết logic mờ là phương pháp dựa trên khả năng suy luận gần đúng của con người, giúp cải thiện các hệ thống nhận biết Nó cung cấp công cụ toán học mạnh mẽ để xử lý thông tin không chắc chắn thông qua các quy tắc quyết định.

Lý thuyết tập mờ, được phát triển mạnh mẽ từ khi Zadeh giới thiệu về logic giá trị hữu hạn trong cuốn "fuzzy sets" năm 1965, mô tả các phép toán của lý thuyết này và mở rộng ra các logic mờ Lý thuyết này đưa ra khái niệm hàm thành viên của tập mờ, cho phép đánh giá mức độ phụ thuộc của thành viên vào tập mờ với các giá trị thực nằm trong khoảng [0,1].

Một biến ngôn ngữ được xác định bởi năm yếu tố: x là tên của biến, T(x) là tập hợp các thuật ngữ ngôn ngữ của x, X là không gian nền, G là luật cú pháp tạo ra các thuật ngữ trong T(x), và M là luật ngữ nghĩa liên kết mỗi giá trị ngôn ngữ A với nghĩa M(A) của nó, trong đó M(A) xác định một tập mờ trên X.

Ta xét một ví dụ: Nếu tuổi là một biến ngôn ngữ thì tập hợp các thuật ngữ T(tuổi) có thể là:

Biến ngôn ngữ T(tuổi) được phân loại thành nhiều nhóm như trẻ, không trẻ, rất trẻ, không quá trẻ, trung niên, không phải trung niên, già, không già, già hơn, không quá già, và không quá trẻ Hình 2.10 minh họa hàm thuộc của biến ngôn ngữ này.

Mỗi thuật ngữ trong T(tuổi) được đặc trưng bởi một tập mờ trong không gian X=[0,100] "Tuổi trẻ" thường được gán giá trị "trẻ", trong khi khi tuổi được xem như giá trị số, chúng ta sử dụng phương trình "tuổi" Luật cú pháp quy định cách gán giá trị ngôn ngữ trong tập thuật ngữ T(tuổi), còn luật ngữ nghĩa xác định hàm thuộc của mỗi giá trị ngôn ngữ Tập các thuật ngữ bao gồm các thuật ngữ chính như trẻ, trung niên, già, được biến đổi bởi các phép phủ định, trạng từ và liên từ.

Hình 2.10: Hàm liên thuộc của biến ngôn ngữ T(tuổi)

2.3.1.3 Hàm thành viên của tập mờ

Khi xác định xem một phần tử có thuộc một tập hợp nào đó hay không, chúng ta thường sử dụng các giá trị 0 hoặc 1, trong đó 1 biểu thị rằng phần tử thuộc tập hợp và 0 nghĩa là không thuộc.

Trong logic mờ, các phần tử được gán giá trị từ 0 đến 1, thể hiện mức độ thành viên của chúng Giá trị gần 1 cho thấy mức độ thành viên cao hơn, trong khi giá trị gần 0 biểu thị mức độ thành viên thấp hơn.

Hàm thành viên của một tập mờ thờng đợc ký hiệu là à A, đó là ánh xạ tập X lên khoảng đơn vị:

Xét p là mệnh đề “x là A” và q là mệnh đề “y là B”, trong đó A và B là các tập rõ

Khi đó p > q đợc hiểu nh là: p dẫn đến q, nghĩa là không thể xảy ra - trờng hợp p đúng mà q không đúng

Cách giải thích đầy đủ cho biểu thức p -> q là mức độ đúng của số lợng p > q tại đó q mở rộng tối thiểu đúng nh là p.-

VÝ dô: p là mệnh đề “x là lớn hơn 10” q là mệnh đề “x là lớn hơn 9”

Khi đó nếu p đúng sẽ dẫn đến q là đúng Thuộc tính này có thể đợc hiểu nh là:

NÕu X ⊂ Y th× X > Y- NÕu: p là một mệnh đề dạng: x là A q là một mệnh đề dạng: y là B Với A, B là các tập mờ

Thì ta gọi mối liên hệ mờ A > B là sự tơng quan mờ.-

Trong thực tế ngời ta thờng dùng toán tử Mamdani để mô hình mối tơng quan giữa các biến mờ

Một số hàm tơng quan mờ:

Các phép toán trên tập mờ

Phép kế thừa của tập B đối với tập A đợc phát biểu nh sau:

+ An rÊt cao + RÊt cao ⊂cao

Phép giao giữa hai tập A và B đợc phát biểu nh sau:

+ áp suất không quá cao + áp suất không quá thấp

- > áp suất không quá cao và không quá thấp

Phép hợp giữa hai tập A và B đợc phát biểu nh sau:

+ áp suất không quá cao + áp suất không quá thấp

- > áp suất không quá cao hoặc không quá thấp

Phép chiếu đợc phát biểu nh sau:

+ Nếu (x, y) có mối tơng quan R

Với ∏ (R ) là sự tơng ứng của các biến trong R

Trong logic mờ và suy luận gần đúng, nhiều luật suy diễn quan trọng tuân theo quy tắc tổng quát hóa Modus Ponens, quy tắc này thể hiện rằng nếu một điều kiện được xác nhận thì kết luận tương ứng cũng sẽ đúng.

+ Nếu p đúng thì q đúng + p đúng

Luật này cũng đợc suy rộng ra:

+ Nếu p đúng thì q đúng + q sai

LuËt mê IF- THEN

Một luật mờ IF THEN (còn gọi là phép kéo theo mờ, hoặc câu điều kiện mờ) thờng có dạng:

Nếu x là A thì y là B (IF x is A then y is B)

Trong không gian nền X và Y, A và B là các giá trị ngôn ngữ được xác định bởi các tập mờ Thông thường, "x là A" được xem như một tiên đề hay giả thuyết, trong khi "y là B" được gọi là kết quả hay kết luận Luật mờ IF-THEN xuất hiện phổ biến trong các diễn giải ngôn ngữ hàng ngày.

Nếu áp suất cao thì thể tích nhỏ

Nếu đờng trơn thì việc lái xe rất nguy hiểm

Nếu quả cà chua màu đỏ thì nó chín

Luật mờ IF-THEN thường được viết tắt dưới dạng A B, mô tả mối quan hệ giữa hai biến x và y Điều này cho thấy rằng luật mờ IF-THEN xác định một quan hệ hai ngôi R trên không gian tích XxY.

Lý thuyết suy luận gần đúng

Lý thuyết mờ do Zadeh phát triển vào năm 1979 mang đến một công cụ mạnh mẽ cho việc suy luận thông tin không chính xác và không chắc chắn.

Nội dung chính của lý thuyết này là sắp xếp các trạng thái tập mờ vào giá trị của các biến

Giả sử có hai biến x thuộc tập X và y thuộc tập Y có mối quan hệ đã được xác định Khi đó, y được gọi là hàm của x và được ký hiệu là y = f(x).

Khi đó ta có thể đa ra suy luận sau:

+ Cho tríc: y = f(x) + Thùc tÕ: x = x’

Luật suy luận này chỉ ra rằng nếu ta có y=f(x), ∀x∈X và x=x’ thì y sẽ nhận giá trị là f(x’)

Thông thờng ta không biết mối liên quan đầy đủ giữa x và y, mà ta chỉ biết giá trị của f(x) tại một vài giá trị của x

Giả sử rằng ta có x’ thuộc X và muốn tìm y’ thuộc Y tơng ứng với giá trị x’ đó dới dạng luật cơ bản:

+ NÕu x=xn th× y=yn và x=x’ suy ra: y= y’

Bài toán này thờng đợc gọi là phép nội suy

Trong phương pháp suy luận gần đúng, các biến ngôn ngữ được ký hiệu là x và y, ví dụ như x đại diện cho "to" và y cho "nhỏ" Mục tiêu chính là tìm kiếm các hàm kết quả C từ những luật cơ bản và dữ liệu đầu vào A.

+ Nếu x là A1 thì y là C1 + Nếu x là A2 thì y là C2

+ Nếu x là An thì y là Cn và khi x là A suy ra y là C

Các quy tắc mờ cơ bản

Gọi T là một ánh xạ từ tập [0,1] tới [0,1]

Khi đó T đợc gọi là tuân theo quy tắc tam giác nếu nó là đối xứng, kết hợp, đơn điệu và T(a,1) = a với mọi a ∈[0,1]

Những tiền đề này đợc đa ra nhằm đạt đợc tiêu chuẩn giao nhau của ánh xạ

Khi một ánh xạ tuân theo quy tắc tam giác, nó được gọi là toán tử tam giác (toán tử T-norm) Một số toán tử T-norm thường được sử dụng bao gồm:

2.3.5.2 Quy tắc đồng tam giác

Gọi S là một ánh xạ từ tập [0,1] tới [0,1]

Khi đó S đợc gọi là tiêu chuẩn đồng tam giác nếu nó là đối xứng, kết hợp, đơn điệu và S(a,0) = a với mọi a ∈[0,1]

Những tiền đề này đợc đa ra nhằm đạt đợc tiêu chuẩn giao nhau của ánh xạ

Một ánh xạ tuân theo quy tắc đồng tam giác được gọi là toán tử S-norm nếu hàm ánh xạ của nó thỏa mãn các điều kiện nhất định Một số toán tử S-norm thường được sử dụng bao gồm các toán tử thực hiện các phép toán trên dữ liệu đầu vào để tạo ra kết quả đầu ra.

2.3.5.3 Phép toán trên các toán tử T-norm và S-norm

* Giao hai tập hợp theo quy tắc tam giác T-norm

Gọi T là một ánh xạ theo quy tắc tiêu chuẩn T norm, phép giao của A - và B đợc định nghĩa nh sau:

Ví dụ: Cho T là ánh xạ Lukasiewicz, nghĩa là:

Gọi A và B là các tập mờ trên X={x1, x2, x3, x4, x5, x6, x7} và đợc định nghĩa nh là:

Khi đó A  B có dạng nh sau:

* Phép hợp hai tập hợp theo quy tắc S-norm

Gọi S là một ánh xạ theo quy tắc tiêu chuẩn S norm, phép hợp của A và -

B đợc định nghĩa nh sau:

Ví dụ: Cho S là ánh xạ Lukasiewicz, nghĩa là:

Gọi A và B là các tập mờ trên X={x1, x2, x3, x4, x5, x6, x7} và đợc định nghĩa nh là:

Khi đó A  B có dạng nh sau:

Mô hình suy luận mờ

2.3.6.1 Mô hình mờ của Mamdani

Hệ mờ của Mamdani được mô hình hóa thông qua toán tử minimum của Mamdani, trong khi kết nối "cũng" được hiểu là một định đề và được định nghĩa bởi toán tử max.

Hệ suy luận mờ Mamdani được phát triển ban đầu để điều khiển động cơ hơi nước, dựa trên một tập lệnh điều khiển ngôn ngữ được xây dựng từ kinh nghiệm thực tiễn của con người Hình 2.11 dưới đây minh họa hệ thống suy diễn Mamdani, trong đó đầu ra mờ z được suy luận từ hai đầu vào rõ ràng là x và y.

Mức hoạt hóa của luật, ký hiệu bởi α i, i=1,2, đợc tính toán: α 1 = A 1 ( x 0 ) ∧ B 1 ( y 0 ) (2.56) α 2 = A 2 ( x 0 ) ∧ B 2 ( y 0 ) (2.57)

Các đầu ra đợc tính:

Hình 2.11: Hệ suy luận mờ Mamdani hai đầu vào

Hệ suy diễn hai luật mờ được áp dụng cho hai bộ điều khiển nhiệt nồi hơi và mở van xi lanh động cơ Do quá trình hoạt động dựa trên các giá trị mờ, cần sử dụng bộ giải mờ hóa để chuyển đổi từ tập hợp mờ sang các giá trị rõ ràng.

Một ví dụ về mô hình suy luận Mamdani là mô hình với ba luật mờ đợc diễn tả nh sau:

Nếu X là trung bình thì Y là trung bình

Tất cả các biến mờ đều có các hàm thành viên của nó Mức tích cực α i, i=1,2, đợc tính: α 1 = A 1 ( x 0 ) ∧ B 1 ( y 0 ) (2.61) α 2 = A 2 ( x 0 ) ∧ B 2 ( y 0 ) (2.62)

Trong chế độ dự đoán này các đầu ra rõ z1 và z2 đợc tính từ công thức: α 1 = C 1 ( z 1 ) , α 2 = C 2 ( z 2 ) (2.63) Đầu ra của hệ thống đợc tính theo phơng pháp trọng tâm:

Nếu ta có n luật thì đầu ra rõ sẽ đợc tính:

Trong đó α i là mức hoạt hóa và zi là đầu ra của luật thứ i

Sau đây là một ví dụ minh hoạ một mô hình Tsukamoto một đầu vào: Nếu X nhỏ thì Y là C1

Nếu X là trung bình thì Y là C2

Mô hình Tsukamoto có cơ chế suy luận không tuân thủ chặt chẽ luật hợp thành, dẫn đến việc đầu ra của mô hình này luôn rõ ràng, ngay cả khi đầu vào có tính mờ.

Ví dụ 1: Minh họa phơng pháp suy luận Tsukamoto bằng tập luật:

R1: Nếu x là A1 và y là B1 thì z là C1

R2: Nếu x là A2 và y là B2 thì z là C2

Thực tế: x là x 0 và y là y 0

+ A1(x0) = 0,7 ; B1(y0) = 0,3 Mức hoạt hóa của luật thứ nhất là: α 1 = min { A 1 ( x 0 ), B 1 ( y 0 ) } = min { 0 , 7 ; 0 , 3 } = 0 , 3

+ A2(x0) = 0,6 ; B2(y0) = 0,8 Mức hoạt hóa của luật thứ hai là: α 2 = min { A 2 ( x 0 ), B 2 ( y 0 ) } = min { 0 , 6 ; 0 , 8 } = 0 , 6 Đầu ra riêng rẽ từng luật z1 = 8 và z2 = 4 nhận đợc từ các phơng trình:

C1 (z1) = 0,3 ; C2 (z2) = 0,6 Đầu ra của hệ: z0 = (8 x 0,3 + 4 x 0,6) / (0,3 +0,6) = 6 u min u v v

Hình 2.12: Mô hình mờ Tsukamoto

Trong mô hình Tsukamoto, kết luận của mỗi luật mờ IF-THEN được đại diện bởi một hàm liên thuộc đơn điệu Kết quả này cho thấy đầu ra suy diễn của mỗi luật mờ là một giá trị rõ ràng Hệ thống tính toán đầu ra dựa trên trung bình có trọng số của các đầu ra từ các luật mờ.

Mô hình Tsukamoto kết hợp các đầu ra của mỗi luật mờ thông qua phương pháp trung bình trọng số, giúp làm rõ giá trị của từng luật và giảm thiểu thời gian cho quá trình giải mờ hóa.

Mô hình mờ Sugeno, còn được biết đến là mô hình TSK, được giới thiệu bởi Takagi, Sugeno và Kang nhằm phát triển một phương pháp hệ thống để xây dựng các luật mờ từ dữ liệu đầu vào và đầu ra Luật mờ cơ bản trong mô hình Sugeno có cấu trúc đặc trưng.

Nếu x là Ai và y là Bi thì zi = fi(xi,yi)

Trong mô hình Sugeno, A và B là các tập mờ tiền đề, trong khi zi = fi(xi,yi) là hàm số rõ ràng trong kết luận Thông thường, zi = fi(xi,yi) có thể là đa thức của các biến đầu vào x và y, hoặc bất kỳ hàm số nào phù hợp để mô tả đầu ra của hệ thống trong miền mờ xác định bởi các tiền đề của luật Nếu zi = fi(xi,yi) là đa thức bậc nhất, chúng ta sẽ có mô hình Sugeno bậc nhất; còn khi f là hằng số, mô hình sẽ có dạng khác.

Sugeno bậc không và đây có thể xem nh trờng hợp đặc biệt của mô hình Mamdani

VÝ dô khi ta cã hai luËt:

R1: Nếu x là A1 và y là B1 thì z1 = a1x + b1y

R2: Nếu x là A2 và y là B2 thì z2 = a2x + b2y

Thực tế: x là x 0 và y là y 0

Mức hoạt hóa của các luật đợc tính: α 1 = A 1 ( x 0 ) ∧ B 1 ( y 0 ) (2.66) α 2 = A 2 ( x 0 ) ∧ B 2 ( y 0 ) (2.67)

Các đầu ra rõ z1 và z2 đợc tính từ công thức:

2 a x b y z = + (2.68) Đầu ra của hệ thống đợc tính:

Nếu ta có n luật thì đầu ra rõ sẽ đợc tính:

Trong đó α ilà mức hoạt hóa của luật thứ i

Ví dụ: Minh họa phơng pháp Sugeno bằng ví dụ:

R1: Nếu x là BIG và y là SMALL thì z1 = x + y

R2: Nếu x là MEDIUM và y là BIG thì z2= 2x - y

Thực tế: x là 3 và y là 2

Trên hình ta thấy: à BIG ( x 0 ) = à BIG ( 3 ) = 0 , 8 à SMALL ( y 0 ) = à SMALL ( 2 ) = 0 , 2

⇒ Mức hoạt hóa của luật thứ nhất: α 1 = min { à BIG ( x 0 ), à SMALL ( y 0 ) } = min { 0 , 8 ; 0 , 2 } = 0 , 2 và à MEDIUM ( x 0 ) = à MEDIUM ( 3 ) = 0 , 6 à BIG ( y 0 ) = à BIG ( 2 ) = 0 , 9

⇒ Mức hoạt hóa của luật thứ hai: α 2 = min { à MEDIUM ( x 0 ), à BIG ( y 0 ) } = min { 0 , 6 ; 0 , 9 } = 0 , 6

Các đầu ra của các luật đợc tính:

2 = x − y = x − = z Đầu ra chung của hệ thống là: z0 = (5 x 0,2 + 4 x 0,6) / (0,2 + 0,6) = 4,25

Hình 2.13: Mô hình mờ Sugeno hai đầu vào

Mô hình mờ Sugeno khác biệt so với mô hình Mamdani ở chỗ không tuân thủ chặt chẽ các quy tắc hợp thành trong suy luận mờ, điều này gây ra một số khó khăn khi đầu vào của mô hình là mờ Tuy nhiên, việc thực hiện giải mờ trong mô hình Sugeno không tốn nhiều thời gian.

55 hoá nên mô hình Sugeno cho tới nay vẫn là một ứng cử viên thông dụng nhất trong các mô hình học mẫu mờ

Hệ mờ của Mamdani đợc mô hình bởi toán tử Larsen và kết nối câu

“cũng” đợc hiểu nh là một định đề và đợc định nghĩa bởi toán tử max Xét một hệ thống hai đầu vào, một đầu ra:

Mức hoạt hóa của luật, ký hiệu bởi α i , i=1,2, đợc tính toán: α 1 = A 1 ( x 0 ) ∧ B 1 ( y 0 ) (2.71) α 2 = A 2 ( x 0 ) ∧ B 2 ( y 0 ) (2.72) §Çu ra chung:

C ( w ) = (( α 1 ∧ C 1 ( w )) ∨ ( α 2 ∧ C 2 ( w )) (2.73) Để nhận đợc giá trị đầu ra theo yêu cầu, ta phải sử dụng nhiều cách thức giải mờ

Nếu ta có n luật và đầu ra C đợc tính:

Trong đó α ilà mức hoạt hóa của luật thứ i u min u v

Hình 2.14: Mô hình mờ Larsen hai đầu vào

Chơng 3: Mạng nơ ron mờ và bài toán nhận dạng

Giới thiệu chung

Phân nhóm không gian mẫu

Các phơng pháp phân loại mẫu thông thờng phải giải quyết phân nhóm các mẫu huấn luyện và kết hợp các nhóm

Sự phức tạp và hạn chế của các cơ cấu trước đây xuất phát từ việc thiếu phương pháp hiệu quả trong việc xác định ranh giới giữa các nhóm.

Vấn đề này trở nên khó khăn hơn khi số các đặc điểm đợc sử dụng cho việc phân loại tăng

Quan điểm này không chỉ phản ánh thực tế của nhiều ứng dụng mà còn cung cấp một mô tả đơn giản về các phần phức tạp của không gian đặc trưng, đặc biệt là trong các loại có đường biên mờ.

Nói một cách ngắn gọn, ta dùng các luật mờ IF-THEN để mô tả các bộ phân loại

Giả sử K mẫu xp(xp1, xp2, , xpn), p=1, ,K là cho trớc thuộc hai lớp, trong đó xp là một véc tơ rõ

Các luật phân loại mờ điển hình cho n=2 là:

Nếu xp1 nhỏ và xp2 rất lớn thì xp = (xp1, xp2) thuộc về lớp C1

Nếu xp1 lớn và xp2 rất nhỏ thì xp = (xp1, xp2) thuộc về lớp C2

Trong đó, xp1 và xp2 đại diện cho các đặc trưng của mẫu (hoặc đối tượng) p, trong khi các thuật ngữ "nhỏ" và "rất lớn" được mô tả thông qua các hàm thành viên phù hợp.

Mức kích hoạt của một luật:

Ri: nếu xp1 là Ai và xp2 là Bi thì xp = (xp1, xp2) thuộc về Ci

Với đối tợng xp cho trớc thì xp đợc hiểu nh là mức độ phụ thuộc của xp đối với Ci

Mức kích hoạt này, ký hiệu bởi α i, đợc xác định nh sau:

Nh vậy, luật mờ đa ra một cách diễn đạt các khía cạnh định tính thành các mức định lợng cụ thể

Dựa trên kết quả của mẫu phù hợp giữa tiền đề của luật và tín hiệu đầu vào, một số luật mờ được tạo ra song song với nhiều giá trị độ dài hoạt hóa.

Ngoài ra, ta muốn hệ thống có khả năng học cập nhật và chuyển thông tin trên cơ sở thông tin đến hoàn toàn mới

Nhiệm vụ của phân loại là tạo ra một phần mờ phù hợp trong không gian đặc trưng, đảm bảo rằng các mẫu không được phân loại có tỷ lệ rất nhỏ hoặc bằng 0 Khi đạt được sự phù hợp này, các luật không sử dụng sẽ được loại bỏ để tối ưu hóa tập luật.

Bây giờ ta sẽ xem xét đến bài toán phân loại hai lớp nh trong hình 3.10

Giả sử rằng mỗi đặc điểm đầu vào có ba thuật ngữ mờ: {nhỏ, vừa, lớn} Mỗi thuật ngữ này được mô tả bằng một hàm thành viên chuẩn T-norm.

Trong hình 3.10, cả hai phần mờ ban đầu đều đảm bảo tính toàn vẹn cho từng biến đầu vào Mẫu xp sẽ được phân loại vào lớp j nếu ít nhất một luật cho lớp j trong tập luật có độ dài kích hoạt đối với xp đạt giá trị lớn hơn hoặc bằng 0,5.

Một luật được hình thành bằng cách xác định các mẫu đầu vào cho trước, là sự kết hợp của các tập mờ, trong đó mỗi tập cung cấp mức độ thành viên cao nhất cho đặc điểm đầu vào mong muốn.

Nếu sự tổ hợp này không giống các luật đã tồn tại thì một luật mới đợc tạo ra

Có thể xảy ra tình huống các phần mờ không được thiết lập chính xác hoặc số lượng thuật ngữ mờ cho các đặc điểm đầu vào không đủ lớn, dẫn đến việc một số mẫu không được phân loại.

Hình 3.10: Tập mờ gồm chín không gian mờ và hai mẫu không đợc phân loại

Bộ luật gồm 9 luật sau có thể đợc tạo ra từ các phần mờ trong hình 3.10:

R1: Nếu x1 là small và x2 là big thì x = (x1, x2) thuộc về lớp C1

R2: Nếu x1 là small và x2 là medium thì x = (x1, x2) thuộc về lớp C1

R3: Nếu x1 là small và x2 là small thì x = (x1, x2) thuộc về lớp C1

R4: Nếu x1 là big và x2 là small thì x = (x1, x2) thuộc về lớp C1

R5: Nếu x1 là big và x2 là big thì x = (x1, x2) thuộc về lớp C1

R6: Nếu x1 là medium và x2 là small thì x = (x1, x2) thuộc về lớp C2

R7: Nếu x1 là medium và x2 là medium thì x = (x1, x2) thuộc về lớp C2

R8: Nếu x1 là medium và x2 là big thì x = (x1, x2) thuộc về lớp C2

R9: Nếu x1 là big và x2 là medium thì x = (x1, x2) thuộc về lớp C2

Trong đó các thuật ngữ mờ small cho A1 và B1, medium cho A2 và B2, big cho A3 và B3

Thông tin có thể được xác định qua thông báo rằng nếu "x1 là medium", thì mẫu (x1, x2) sẽ thuộc về lớp 2, không phụ thuộc vào giá trị của x2 Tập luật được xây dựng bao gồm 7 luật tương ứng với 9 luật đã nêu.

R1: Nếu x1 là small và x2 là big thì x = (x1, x2) thuộc về lớp C1

R2: Nếu x1 là small và x2 là medium thì x = (x1, x2) thuộc về lớp C1

R3: Nếu x1 là small và x2 là small thì x = (x1, x2) thuộc về lớp C1

R4: Nếu x1 là big và x2 là small thì x = (x1, x2) thuộc về lớp C1

R5: Nếu x1 là big và x2 là big thì x = (x1, x2) thuộc về lớp C1

R6: Nếu x1 là medium thì x = (x1, x2) thuộc về lớp C2

R7: Nếu x1 là big và x2 là medium thì x = (x1, x2) thuộc về lớp C2

Trong bài toán phân loại hai lớp, hình 3.11 minh họa các hình chữ nhật trắng, đại diện cho hai lớp khác nhau, lớp 1 và lớp 2.

Hình 3.11:Không gian mẫu hai chiều

Hình 3.12: Tập mờ với 36 không gian con

Dù sao, thật là dễ hiểu rằng các mẫu từ hình 3.12 có thể đợc phân loại chính xác bởi 5 luật mờ IF-THEN sau:

R1: Nếu x1 là very small thì x thuộc lớp 1

R1: Nếu x1 là very large thì x thuộc lớp 1

R1: Nếu x2 là very small thì x thuộc lớp 1

R1: Nếu x2 là very large thì x thuộc lớp 1

R1: Nếu x1 là very small và x1 là không very large và x2 là very small và x2 là không very large thì x thuộc lớp 2

Phơng pháp học giảm độ dốc

Hiệu quả của mô hình mờ diễn tả các mối tơng quan vào/ra phụ thuộc phần mờ của không gian vào/ra

Việc chuyển các hàm thành viên trong mô hình mờ là rất quan trọng, vì nó liên quan đến việc tối ưu hóa mạng nơ ron Các thuật toán phát sinh đóng vai trò quan trọng trong việc giải quyết vấn đề này.

Phương pháp truyền thẳng được coi là một phương pháp hiệu quả cho các hàm thành viên, đặc biệt là những hàm phụ thuộc vào nhiều tham số khác nhau Các tham số này có thể được học từ mạng nơ ron, giúp cải thiện độ chính xác và khả năng dự đoán của mô hình.

Việc huấn luyện yêu cầu một tập mẫu đầu vào và đầu ra chính xác, cùng với các tiêu chí của các luật, bao gồm cả định nghĩa giới hạn trước của các hàm thành viên tương ứng.

Phương pháp đơn giản để học các hàm thành viên trong phần tiền đề và kết luận của luật mờ IF-THEN sẽ được mô tả trong bài viết này.

Giả sử một ánh xạ phi tuyến cha biết đợc thực hiện bởi hệ thống mờ nh sau:

Ta có tập huấn luyện sau:

Với ánh xạ cha biết f, dùng các luật mờ IF-THEN có dạng sau:

Ri: nếu x1 là Ai1 và và xn là Ain thì y = zi víi i = 1, ,m Trong đó Aij là các số mờ theo tiêu chuẩn T và zi là các số thực

Gọi o k là đầu ra hệ thống mờ tơng ứng với đầu vào x k

Giả sử mức kích hoạt của luật thứ i, ký hiệu α i , là toán tử nhân Larsen:

Và đầu ra của hệ thống đợc tính toán bởi phơng pháp giải mờ hoá trọng tâm:

Mức lỗi của mẫu thứ k đợc tính:

Trong đó o k là đầu ra tính toán từ hệ thống mờ R tơng ứng đối với mẫu đầu vào x k và y k là đầu ra mong muốn k = 1, ,K

Phơng pháp giảm độ dốc lớn nhất đợc sử dụng để học zi trong phần kết luận của luật mờ Ri Nghĩa là: m k i k i i k i i z t o y z t E z t z α α η α η = − − + +

Trong đó ηlà hằng số học và t là chỉ số lần hiệu chỉnh zi

Giả sử rằng mỗi biến mờ có 7 dạng mờ:

{NB, NM, NS, ZE, PS, PM, PB}

Các hàm thành viên của chúng là các toán tử chuẩn T norm được mô tả bởi ba tham số: tâm, độ rộng phải và độ rộng trái Những hàm thành viên này tương ứng với các thuật ngữ mờ như {NB, NM, NS, ZE, PS, PM, PB} và có thể thay đổi theo biến đầu vào.

Hình 3.13 trình bày cách khởi tạo hàm cho các biến mờ, trong đó giả thiết rằng các tham số của các số mờ chuẩn tam giác được học thông qua phương pháp giảm độ dốc lớn nhất.

Minh hoạ quá trình chuyển đổi trên bởi một ví dụ đơn giản: xét hai luật mờ sau với một biến đầu vào và một biến đầu ra:

Trong đó các thuật ngữ mờ A1 “small”và A2 “big” có các hàm thành viên sigmoid:

A = + − (3.52) a1, a2, b1, b2 là tập các tham số tiền đề

Gọi x là đầu vào của hệ thống mờ Mức kích hoạt của luật đợc tính:

= + α = (3.54) Đầu ra của hệ thống đợc tính toán bởi phơng pháp giải mờ hoá trọng t©m:

Bây giờ ta lại giả sử có tập mẫu huấn luyện nhận đợc từ hàm phi tuyến cha biÕt f:

Nhiệm vụ của ta là xây dựng hai luật mờ với các hàm thành viên và phần kết luận phù hợp với các cặp vào/ra cho trớc

Nghĩa là ta phải học các tham số sau:

+ Các tham số của các số mờ biểu thị thuật ngữ mờ “small” và “big”: a1, b1, a2, b2

+ Các giá trị của phần kết luận: z1 và z2

Lỗi của mẫu huấn luyện thứ k đợc tính:

Trong đó o k là đầu ra tính toán từ hệ thống mờ tơng ứng với đầu vào x k và y k là đầu ra mong muốn, k =1, , K.

Phơng pháp giảm độ dốc lớn nhất đợc sử dụng để học zi trong phần kết luận của luật thứ i Nghĩa là:

Hình 3.14: Hàm thành viên sigmoidal

Trong đó à > 0 là hằng số học và t là số lần hiệu chỉnh zi

Tơng tự ta có thể tìm ra các tham số (tâm và độ dốc) của các hàm A1 và A2:

Trong đó, a > 0 là hằng số học và t là số lần hiệu chỉnh tham số Việc sử dụng các phần mờ sẽ giúp đơn giản hóa các luật học.

Với a, b là các tham số chung của A1 và A2 Ta có phơng trình sau đúng cho mọi x thuộc miền A1 và A2

Việc hiệu chỉnh trọng số đợc thực hiện nh sau:

Hình 3.15 : Hàm thành viên đối xứng ởđây:

Các nơ ron thực hiện

Tín hiệu xi và wi đợc tổ hợp với nhau bởi toán tử S để tạo ra tích: pi = S(wi, xi) i=1,2 (3.72)

Thông tin đầu vào pi đợc nhóm bởi toán tử T norm cho đầu ra nơ ron:- y= AND(p1, p2) = T(p1, p2)

Nếu T = min, S = max thì nơ ron AND thực hiện so sánh max, min y = min{w1 V x1, w2 V x2 } (3.74) x 2 w 1 w 2

Hình 3.16: Nơ ron mờ AND 3.4 5 2 Nơ ron mờ OR

Tín hiệu xi và wi đợc tổ hợp với nhau bởi toán tử T để tạo ra tích: pi = T(wi, xi) i=1,2 (3.75)

Thông tin đầu vào pi đợc nhóm bởi toán tử S-norm cho đầu ra nơ ron: y= OR(p1, p2) = S(p1, p2)

Nếu T = min, S = max thì nơ ron OR thực hiện so sánh max-min y = max{w1 ∧ x1, w2 ∧ x2 } (3.77) x 1 x 2 w 1 w 2

Các luật suy diễn mờ

Trong bài viết này, chúng ta sẽ khám phá phương pháp nhận dạng chữ in dựa trên kiểu chữ và cỡ chữ đã được xác định trước Các chữ cái được biểu diễn dưới dạng tập hợp các điểm ảnh với quy luật rõ ràng giữa các điểm đen và trắng Tuy nhiên, do nhiễu có thể xảy ra, một số điểm ảnh có thể thay đổi màu sắc, ảnh hưởng đến khả năng nhận dạng Để cải thiện khả năng này trong môi trường nhiễu, chúng ta sẽ sử dụng mạng ANFIS Đầu tiên, chúng ta sẽ xây dựng hàm XOR (hoặc đảo) thông qua suy diễn mờ và sau đó áp dụng kết quả này vào quá trình nhận dạng chữ in.

Phép toán XOR yêu cầu phân loại các vectơ hai chiều đầu vào thành lớp 0 khi số lượng số 1 là chẵn, và thành lớp 1 khi số lượng số 1 là lẻ Để thực hiện điều này, chúng ta cần hiểu quá trình học từ tập huấn luyện dữ liệu đầu vào [x,y] đến giá trị ví dụ [0,1], nghĩa là "x gần".

Bảng chân lý của XOR

Nh vậy hệ luật cho XOR nh sau:

1 If (X is near 0) and (Y is near 0) then (class is zero) (1)

2 If (X is near 0) and (Y is near 1) then (class is one) (1)

3 If (X is near 1) and (Y is near 0) then (class is one) (1)

4 If (X is near 1) and (Y is near 1) then (class is zero) (1)

Khi nhận dạng ký tự tiếng Việt, nguyên âm có dấu được coi là ký tự riêng biệt, ví dụ như Ô Trong tiếng Việt có năm loại dấu: sắc, huyền, hỏi, ngã, nặng, cùng với 12 nguyên âm: a, ă, â, e, ê, i, o, ô, ơ, u, ư Ngoài ra, còn có 17 phụ âm khác Tổng cộng, số ký tự cần học là 89, được tính từ 12 nguyên âm nhân với 5 loại dấu cộng với 17 phụ âm.

Bằng cách áp dụng phương pháp suy diễn và các nơ ron thực hiện AND, OR, chúng ta có thể nhận dạng 89 ký tự chữ in hoa tiếng Việt, được định nghĩa dưới dạng ma trận điểm ảnh 10x16 Hệ suy diễn mờ được xây dựng nhằm phân loại các tập dữ liệu 160x16 điểm cho mỗi ký tự trong môi trường có nhiễu Quá trình này bao gồm việc thiết lập hàm thuộc cho từng ký tự với 160 đầu vào theo các mẫu nhất định, trong đó mỗi pixel có giá trị 0 hoặc 1, từ đó tạo ra hàm thuộc “near 0“ hoặc “near 1“.

Thiết lập hệ thống luật bao gồm 89 luật, mỗi luật tương ứng với 160 kết nối AND, phù hợp với 160 pixel của mỗi chữ Đầu ra của hệ thống cho phép chọn một hằng số tùy ý.

Sơ đồ suy diễn mờ đợc thể hiện trên hình 3.18:

Cụ thể ta minh họa sáu luật cho các chữ B, á, C, H, K, O,:

Hình 3.18: Suy diễn 89 luật với 160 đầu vào

Chơng 4: Thiết kế ứng dụng

Thiết kế thuật toán

Chuẩn hoá các mẫu dữ liệu

Bao gồm những công việc sau:

* Xử lý ảnh văn bản:

Ký tự nhận vào có thể bị nhiễu, ảnh hưởng từ thiết bị thu nhận ảnh hoặc chất lượng văn bản cần quan sát.

Nhiễu có thể phát sinh từ ảnh hưởng của môi trường xung quanh, và để loại bỏ các loại nhiễu này, có thể áp dụng nhiều kỹ thuật lọc khác nhau đã được trình bày trong phần trước.

Việc nhận dạng chữ chỉ thực hiện được với ảnh đen trắng, do đó, sau khi lọc nhiễu, cần chuyển ảnh thành dạng đen trắng Để làm điều này, trước tiên phải chuyển ảnh RGB sang ảnh đa mức xám Quá trình chuyển đổi từ ảnh RGB sang ảnh Grayscale có thể được thực hiện trên từng pixel của ảnh theo một công thức nhất định.

Sau khi chuyển đổi ảnh đã cho thành ảnh đa mức xám theo công thức Gray=0,299 Red + 0,587 Green +0,114 Blue, ta tiến hành nhị phân hoá ảnh, trong đó mức đen tương ứng với giá trị 0 và mức trắng tương ứng với giá trị 1.

Việc nhị phân hoá có thể dùng kỹ thuật phân ngỡng mức xám Kỹ thuật này rất đơn giản và đợc cho theo công thức:

Sau khi thực hiện nhị phân hóa, có thể xuất hiện hiện tượng các điểm đen bị cô lập giữa các điểm trắng, hoặc ngược lại Để xử lý vấn đề này, cần áp dụng các kỹ thuật lọc để loại bỏ các điểm cô lập không mong muốn.

Sau khi nhị phân hóa ảnh mẫu, chúng ta lưu ảnh và tách các ký tự đặc biệt khỏi văn bản để chuẩn hóa chúng Kích thước các mẫu được chuẩn hóa thành 10 x 16 pixels, thực hiện theo kỹ thuật nhất định.

Giả sử sau khi tách mẫu các ký tự có kích thớc WxH, ta tính tỷ lệ phóng ảnh là: S = min(10/W, 16/H)

Phần mềm này được thiết kế để minh họa việc sử dụng mạng nơron mờ, do đó một số công việc xử lý ảnh sẽ được thực hiện bằng phần mềm lý ảnh chuyên dụng Thuật toán lấy mẫu dữ liệu được thực hiện qua đoạn chương trình mở ảnh và kiểm tra lỗi.

Mở file cần lấy mÉu

Xử lý nhiễu Mẫu hợp lệ

Chuẩn hoá ảnh Đa giá trị các phần tử của mẫu đã chuẩn hoá ra mảng Báo lỗi

Hình 4.1: Thuật toán lấy mẫu ký tự

DialogTitle = "Mở file ảnh ký tự cần nhận dạng"

Filter = "Cac loai anh (jpg, gif, bmp)|*.jpg;*.gif;*.bmp|Tat ca cac file|*.*"

Sau khi thu thập các mẫu học chuẩn 10 x 16, chúng ta sẽ tiến hành huấn luyện mạng Quá trình này sẽ được thực hiện dựa trên các luật mờ cho các mẫu.

Thuật toán huấn luyện thực hiện nh sau: Đã có ? Mẫu ký tự cần học

Tạo một mẫu mới Mở mẫu cũ ra để học

Khởi tạo các trọng số ban đầu Lấy các trọng số đã có để hiệu chỉnh

Hiệu chỉnh các trọng số theo mẫu vừa học Hiệu chỉnh các trọng số theo mẫu mới thêm vào

Lu mẫu vừa đợc học vào file để phục vụ cho nhận dạng

Lu các trọng số vừa đợc sửa vào file để phục vụ cho nhận dạng

Hình 4.2: Huấn luyện mạng nơron ® s

If Len(Text1.Text) 1 Then

MsgBox "Chỉ đợc phép nhập 1 ký tự cần học", 0, "Thông báo" Exit Sub

Open FnameData For Random As #1 Len = Len(MyRecord) maxsize = LOF(1) Len(MyRecord) \

For RecordNumber = maxsize To 1 Step - 1

If s = Text1.Text Then 'Neu Ktu da co trong file thi cap nhat KtuInFile = True

If KtuInFile Then Exit For

If Not KtuInFile Then 'Neu Ktu chua co trong file thi

Append vao File Seek #1, maxsize + 1 s = Text1.Text

List1.ItemData(List1.NewIndex) = maxsize + 1

Sau khi ảnh chứa câu chữ được đưa vào để nhận dạng, phần chứa câu sẽ được tách riêng Các ký tự trong câu cũng được tách riêng để thực hiện nhận dạng.

Để xây dựng hàm nhận diện ký tự, ta cần chia ảnh ký tự thành các ô, ví dụ như 36 ô Hàm tại mỗi ô sẽ được tính bằng tỉ lệ giữa số lần xuất hiện của ký tự trong ô đó và tổng số mẫu ký tự đã có.

Bớc 2: Làm rõ theo công thức sau:

Ta có thể làm rõ nhiều lần để đạt đợc kết quả mong muốn

Bớc 3: Căn cứ vào ký tự so sánh B (ký tự cần nhận dạng) ta xác định (B, à) giả sử ký tự so sánh có hình nh dới đây:

Hình 4.3: Ba mẫu chữ cần học

Bớc 6: Kết luận nếu δ ϕ< thì kết luận là đúng và ngợc lại Thông thờng ϕ chọn là 0.5

Việc nhận dạng các ký tự diễn ra đồng thời và được lưu vào cơ sở dữ liệu, với các câu chữ được hình thành từ các ký tự, bao gồm cả dấu cách, sẽ được hiển thị trên màn hình.

Hình 4.4: Ký tự cần nhận dạng stong = ""

If ((aX1(k + 1) aX2(k)) > 5) Then daucach(k) = 1 Else daucach(k) = 0

Open FnameData For Random As #1 Len Len(MyRecord)

\ maxsize = LOF(1) Len(MyRecord) min = 100 s = ""

For RecordNumber = maxsize To 1 Step - 1

If Bt(k) < min Then min = Bt(k) st(k) = MyRecord.Kytu

MsgBox "Không tìm đợc ký tự nào trong file dữ liệu, hãy học từ này", vbCritical, "Thông báo"

End If stong = stong + st(k)

If daucach(k) = 1 Then stong = stong + " "

Trong đó các hàm trp3, bt(k) lần lợt là các hàm tính sai số bình phơng tối thiểu và nhận các tín hiệu đầu vào để xử lý

Sub tmP3(ByVal p As PictureBox, ByVal Border As Byte)

Dim i, j, t, k, Cao, Rong As Integer

Dim mau, mau2, Xmoi As Integer

If GetPixel(p.hdc, i, j) COLORBGR Then mau = 1 j = j + 1

Loop aX1(0) = X1 aX2(0) = Xmoi i = aX1(0): j = Y1 1-

If GetPixel(p.hdc, i, j) COLORBGR Then Exit Do i = i + 1

If GetPixel(p.hdc, i, j) COLORBGR Then Exit Do j = j + 1

If GetPixel(p.hdc, i, j) COLORBGR Then Exit Do i = i + 1

If GetPixel(p.hdc, i, j) COLORBGR Then Exit Do j = j 1-

' Tao vong lap tim ky tu sokt = 0 k = 0

Do While (aX2(k) < X2 2)- sokt = sokt + 1 i = aX2(k) + 1: j = Y1

' Bat dau tim diem dau tien cua ky tu

If GetPixel(p.hdc, i, j) COLORBGR Then Exit Do j = j + 1

If GetPixel(p.hdc, i, j) COLORBGR Then Exit Do i = i + 1

If GetPixel(p.hdc, i, j) COLORBGR Then mau = 1 j = j + 1

' Da tim duoc diem cuoi cua ky tu i = aX1(k): j = Y1 2-

If GetPixel(p.hdc, i, j) COLORBGR Then Exit Do i = i + 1

If GetPixel(p.hdc, i, j) COLORBGR Then Exit Do j = j + 1

If GetPixel(p.hdc, i, j) COLORBGR Then Exit Do i = i + 1

If GetPixel(p.hdc, i, j) COLORBGR Then Exit Do j = j 1-

WOld = Me.Picture3.DrawWidth p.DrawWidth = 1

For k = 0 To sokt r1 = aX2(k) - aX1(k) + 2 c1 = aY2(k) - aY1(k) + 2

Pic3.PaintPicture p.Image, 0, 0, 4 * r1, 4 * c1, aX1(k), aY1(k), r1 + 0, c1 + 0, vbSrcCopy

Pic3.Refresh p.Line (aX1(k), aY1(k))-(aX2(k), aY2(k)), vbRed, B p.DrawWidth = WOld

Function Bt(ByVal n As Integer) As Single

Dim tmp, Tong, M_a As Single

For j = 0 To H_grid - 1 tam = MyRecord.Tansuat(i, j) / MyRecord.Tong

If tam >= 0 And tam

Ngày đăng: 22/01/2024, 17:07

w