Bộ lọc Bloom trong quản lý danh sách đen và danh sách trắng thẻ từ trong giao thông công cộng

MỤC LỤC

Cơ sở lý thuyết

  • Bloom Filter
    • Scalable Bloom Filter (SBF)

      Tuy nhiên vào năm 2021 thì công ty VINBUS – một công ty con của tập đoàn VINGROUP đã phát triển một hệ thống AFC mới với độ tích hợp cao cho các nhà phân phối khác nhau kể cả các ngân hàng khi sử dụng máy Point of Sale (POS) xác thực tại chỗ cho khách hàng khiến trải nghiệm khách hàng được nâng cao và tiện lợi hơn. Những kết quả dương tính giả (False Positive) có thể xảy ra nhưng tuyệt đối không xuất hiện trường hợp âm tính giả (False Negative) – nói cách khác thì khi chúng ta tiến hành kiểm tra một phần tử liệu có thuộc trong một tập hợp thì ta sẽ có câu trả lời là “Có thể thuộc” hoặc “Chắc chắn. Với nghiên cứu của Bloom, bằng việc đánh đổi tỉ lệ false positive, Bloom Filter có lợi thế về không thời gian (Probability of false positives) đáng kể so với các cấu trúc dữ liệu khác để biểu diễn các tập hợp, chẳng hạn như cây tìm kiếm nhị phân tự cân bằng (self-balancing binary search trees), cây tiền tố (digital tree – prefix tree), bảng băm(hash table), mảng đơn(simple arays) hoặc danh sách liên kết(linked list) của các mục.

      Hầu hết trong các cấu trúc dữ liệu trên đều yêu cầu lưu dữ một số dữ liệu cần thiết, có thể là bất kỳ dữ liệu gì từ một số lượng nhỏ bit đối với số nguyên nhỏ, cho đến số lượng bit tùy ý đối với chuỗi (còn cây tiền tố là một ngoại lệ vì chúng có thể chia sẻ bộ nhớ giữa các phần tử với tiền tố giống nhau). Để thêm một phần tử x vào tập hợp, cho phần tử đó đi qua từng hàm băm k để có được chuỗi bit mxx của phần tử x khi đó ta sẽ tiến hành OR với chuỗi m bit đang có sẵn chúng ta sẽ có một chuỗi m bit mới đại diện cho tập hợp có phần tử x mới. Counting Bloom Filter (CBF) có thuật toán cũng tương tự như Bloom Filter, nhưng có một thay đổi quan trọng là thay vì dùng một bit để đánh giá trị thì CBF sử dụng bộ đếm (4 bits, 8bits,…) tùy thuộc vào độ lớn bao nhiêu bits của một bộ đếm mà kích thước của CBF lớn hơn một BF truyền thống bấy nhiêu lần.

      Mặc dự t sẽ sử dụng nhiều khụng gian hơn (nhiều giai đoạn hơn, 𝑘0, cũng như 𝑃0 cần phải nhở hơn để xác suất gộp hội tụ về 𝑃), sau một thời điểm nào đó cuối cùng ta sẽ dùng ít không gian hơn và số lượng lát cát mới sẽ ít lại kể ra khi tập hợp phần tử gia tăng.

      Hình 2.1: Ví dụ trực quan một Bloom Filter với một tập hợp {x,y,z}, m = 18, k = 3
      Hình 2.1: Ví dụ trực quan một Bloom Filter với một tập hợp {x,y,z}, m = 18, k = 3

      Giải pháp quản lý danh sách thẻ từ đen và trắng trong giao

      Giới thiệu bài toán

      - Giải pháp có đáp ứng được đặc tính tăng trưởng và tùy biến của tập dữ liệu thẻ từ trong giao thông công cộng hay không?. - Giải pháp có giúp tiết kiệm chi phí vận hành, bảo dưỡng như thế nào?. Để trả lời các câu hỏi trên luận văn đề xuất một giải pháp về quản lý, chia sẻ, và phương thức xác thực dữ liệu trong một tập dữ liệu lớn một cách nhanh chóng hiệu quả bằng việc ứng dụng Bloom Filter.

      - Một mô hình quản lý tập trung chia sẻ dữ liệu giữa các nhà xe với nhau và giữa các nhà xe với các thiết bị ngoại vi. - Một phương án lưu trữ dữ liệu Timeline để đồng bộ dữ liệu từ các nhà xe về trung tâm, từ trung tâm về các thiết bị ngoại vi, nhà xe.

      Giải pháp

        Theo yêu cầu hiện nay của bộ giao thông vận tải, việc phát hành thẻ từ một tuyến hoặc liên tuyến chung sẽ do các nhà xe tự phát hành và quản lý trên hệ thống của mình, nhưng sẽ có một trung tâm quản lý tập trung toàn bộ các thông tin thẻ từ đã được phát hành cũng như các thông tin thay đổi về thẻ hoặc người dùng. Nên Bloom Filter chỉ cần khởi tạo một lần và sử dụng chung trên toàn hệ thống cho đến khi được chủ động tạo lại, và mỗi khi có thay đổi ta chỉ cần gửi những thông tin thẻ whitelist và blacklist thay đổi đó về các nhà xe để cập nhật theo một vector thời gian chung giữa trung tâm và các nhà xe ở trong khuôn khổ luận văn này ta sẽ gọi là dữ liệu Timeline. Theo như trong hình ta có thể thấy quá trình đồng bộ ở các nhà xe sẽ cần thêm một bước nhà xe sẽ sửa thời gian xảy ra thay đổi thành thời gian gửi thay đổi về trung tâm như vậy ta sẽ đảm bảo được tính toàn vẹn dữ liệu trên dòng thời gian đối với nhà xe và trung tâm.

        Với lợi ích này ta hoàn toàn có thể điều khiển được thời gian khả dụng của trạng thái các thẻ từ trên hệ thống hoặc khi có sự cố về mặt xác thực các trung tâm vận hành của nhà xe có thể dễ dàng kiểm tra được trạng thái hiện tại của thẻ từ khách hàng để tiến hành cập nhật dữ liệu. Để tránh những tình trạng gặp sự cố chúng ta cần tạo lại toàn bộ thông tin của whitelist và blacklist thì sau một thời gian hoạt động hoặc định kỳ (theo giờ, theo ngày,…) thì trung tâm sẽ tiến hành tổng hợp dữ liệu whitelist và blacklist thô (không theo vector thời gian. Đối với những đơn vị cung cấp thẻ từ này, trong quá trình vận hanh sau khi cung cấp thẻ từ cho người dân hoặc có hoạt động thay đổi thông tin hoặc khóa thẻ từ thì sẽ cần gửi lại những hoạt động đó về cho trung tâm để trung tâm có thể tổng hợp theo nghiệp vụ và cập nhật dữ liệu vào timeline tương ứng phục vụ cho việc đồng bộ dữ liệu với các nhà xe sau này.

        Từ đó nhà xe sẽ được đồng bộ tới dữ liệu mới nhất của trung tâm, và các nhà xe sẽ cần lưu lại những timeline đó để dùng làm cơ sở để các thiết bị POS đồng bộ về từ nhà xe, do các thiết bị POS không thể đồng bộ trực tiếp từ trung tâm mà phải thông qua nhà xe.

        Hình 3.1: Mô hình quan hệ giữa trung tâm quản lý và các nhà xe
        Hình 3.1: Mô hình quan hệ giữa trung tâm quản lý và các nhà xe

        Đánh giá giải pháp

        Kịch bản đánh giá giải pháp

          Sau khi đã có bộ lọc ta tiến hành kiểm tra tốc độ kiểm tra tính thành viên khi sử dụng bộ lọc bloom với các phương thức cổ điển là quét trong một tập dữ liệu hoặc truy suất trong database, ta thực hiện kiểm tra trên tập dữ liệu với 1000000 phần tử và với cùng một tập dữ liệu kiểm tra. Ta nhận thấy rằng Bloom cho ta kết quả rất nhanh gấp ~ 1000 lần so với các phương thức khác và rất ổn định, không giống như các phương thức kia, vì các hình thức quét tập dữ liệu và truy suất database thì những phần tử nào càng ở đầu thì tốc độ phản hồi sẽ. Với đặc tính cho phép thêm mới hoặc xóa của Counting Bloom Filter trong biến thể Counting Scalable Bloom Filter, CSBF cũng đã cho thấy khả năng tương thích với sự thay đổi bên trong của tập dữ liệu gốc.

          Các thông tin thay đổi trên trung tâm sẽ được gửi qua các API dựa trên thời gian đồng bộ của các thiết bị, để các thiết bị lấy được một lượng dữ liệu chính xác không bị dư thừa hay thiếu để tiết kiệm dung lượng băng thông. Ta có thể thấy được số lượng phần tử và thời gian timeline của phần tử đầu tiên trong tập dữ liệu đồng bộ của thiết bị POS và nhà xe là khác nhau và đều nằm ngay sau thời điểm đồng bộ cuối cùng.

          Bảng 4.1: Bảng tổng hợp các thông số của hệ thống ứng với số lượng dữ liệu khác nhau với s ∈ {1,2}
          Bảng 4.1: Bảng tổng hợp các thông số của hệ thống ứng với số lượng dữ liệu khác nhau với s ∈ {1,2}

          Kết quả đánh giá

          Với mô hình quản lý timeline như vậy ta có thể đồng bộ ở bất kỳ thời gian nào và điều khiển được khi nào cần đồng bộ thông tin từ máy POS về trung tâm hoặc nhà xe hay từ nhà xe về trung tâm. - Lợi ích về mặt chi phí vận hành nhờ giảm dung lượng đường truyền, các thiết bị POS hoạt động độc lập không cần thiết lúc nào cũng kết nối về máy chủ để xác thực dữ liệu. - Giúp tăng trải nghiệm người dùng, khi thiết bị POS hoạt động trong giờ cao điểm, ta cần máy POS xác thực với tốc độ cao để kịp với dòng người đang lên xe và khi khách hàng không cần phải chờ đợi thì đó là một trải nghiệm tốt.

          - Khi hệ thống có gặp sự cố thì việc máy POS hoạt động độc lập cũng sẽ không ảnh hưởng nhiều đến việc vận hành hoặc khi máy POS gặp sự cố thì việc đồng bộ lại với trung tâm diễn ra một cách nhanh chóng và chính xác. Không chỉ vậy, hệ thống trung tâm sẽ hồi phục rất nhanh nhờ các thông tin đều đã được lưu trữ và có khả năng khôi phục nhanh chóng từ đó sẽ không làm gián đoạn việc vận hành của toàn hệ thống.