Vậy quy tắc và luật lệ có thể hình thành thế nào trong cộng đồng tác tử? Làm thế nào tác tử có thể đi đến thoả thuận mang tính tổng thể về quy tắc chung trong khi chỉ sử dụng thông tin cục bộ mà tác tử có? Tính tổng thể biểu hiện ở chỗ tất cả tác tử đều chấp nhận và tuân theo. Đồng thời mỗi tác tử phải quyết định chấp nhận quy tắc nào dựa trên kinh nghiệm cá nhân của tác tử đó được lưu trong trạng thái tác tử. Không có sự phân cấp hay quy định sẵn về quan hệ giữa tác tử. Và để minh hoạ ta xét ví dụ sau:
“Cho một nhóm tác tử, mỗi tác tử có hai chiếc áo: một màu đỏ và một màu xanh. Các tác tử chưa từng gặp nhau trước đó và không có thông tin về nhau. Các tác tử tham gia vào một chò trơi, trò chơi kết thúc thành công nếu tất cả các tác tử mặc áo cùng một màu. Khởi đầu, mỗi tác tử mặc ngẫu nhiên một áo đỏ hoặc xanh. Trò chơi được chia làm nhiều vòng. Ở mỗi vòng, tác tử được cặp đôi với tác tử khác, các đôi được lựa chọn ngẫu nhiên. Tác tử có thể thấy tác tử cùng đôi mặc áo gì, ngoài ra không được trao đổi gì thêm. Sau khi kết thúc mỗi vòng, tác tử có thể lựa chọn giữ nguyên màu áo hay đổi sang màu khác”.
Với quy tắc chơi như trên, không tác tử nào có cái nhìn tổng thể về toàn bộ nhóm. Tác tử phải tự quyết định thay đổi hay giữ nguyên màu áo dựa vào ký ức về màu áo của các tác tử đã gặp trong những vòng trước.
Mục tiêu đặt ra đối với ví dụ này là xây dựng một hàm gọi là hàm cập nhật chiến lược (hàm cập nhật màu áo). Bài toán này có thể giải quyết bằng cách sử dụng
các hàm cập nhật như sau:
-Hàm số đông: Đây là hàm cập nhật đơn giản nhất. Tác tử thay đổi màu áo đang mặc sang màu còn lại nếu cho đến thời điểm đó tác tử quan sát thấy nhiều tác tử mặc màu áo này hơn nhiều màu áo hiện tại của mình. Trong trường hợp tổng quát (nhiều hơn hai màu áo), tác tử lựa chọn chiến lược (màu áo) được quan sát thấy nhiều nhất.
của mình. Tác tử có thể sử dụng kinh nghiệm và ký ức tác tử khác như kinh nghiệm của riêng mình.
-Hàm số đông có thông báo về thành công. Tác tử liên lạc với nhau dựa trên mức độ thành công. Khi tác tử đạt tới một độ thành công nào đó với một màu áo của mình, tác tử thông báo cho các tác tử cùng cặp. Thành công ở đây nghĩa là tác tử trông thấy đối tác khác mặc áo giống mình. Như vậy, tác tử chỉ phổ biến ký ức liên quan đến thành công thay vì phổ biến toàn bộ ký ức của mình. Cách liên lạc này tránh cho tác tử trao đổi với nhau những thông tin nhiễu.
-Hàm thưởng tích luỹ cao nhất. tác tử có thể đánh giá mỗi màu áo lựa chọn tương ứng với một khoản tiền thưởng. Hàm thưởng tích luỹ cao nhất sử dụng màu áo cho giá trị tiền thưởng tích luỹ cao nhất.
Tiêu chuẩn quan trọng nhất khi lựa chọn hàm cập nhật chiến lược là thời gian hội tụ: tác tử cần bao nhiêu vòng chơi để đi đến chiến lược thống nhất. Trong trường hợp việc thay đổi chiến lược là khó khăn hoặc tốn kém, chẳng hạn chiến lược là lựa chọn hệ điều hành cụ thể cho máy tính, tiêu chí khác có thể sử dụng như không thay đổi chiến lược quá thường xuyên.