TIỂU LUẬN PHÂN TÍCH DỮ LIỆU TRONG KIỂM SOÁT NỘI BỘ

Thực tế cho thấy rằng, phân tích dữ liệu có thể phát hiện những gian lận này và có thể hỗ trợ cho việc kiểm soát các gian lận trở nên hiệu quả hơn.Bài nghiên cứu của nhóm sẽ làm rõ nội d

GIỚI THIỆU

Giới thiệu chung

Phân tích dữ liệu trong giao dịch là sự tiếp cận chủ động trong việc phát hiện gian lận Việc ứng dụng phân tích dữ liệu trong kiểm soát nội bộ nói chung và phát hiện gian lận nói riêng đang được nhân rộng những năm gần đây Những bước tiến trong việc thu thập và lưu trữ dữ liệu mà chúng ta đang thấy cùng với sự phát triển của các kỹ thuật ngày càng phức tạp, cho thấy ngày càng có nhiều chức năng kiểm toán nội bộ tìm cách xây dựng khả năng phân tích dữ liệu.

Phân tích dữ liệu giúp xác định các biểu hiện và mô hình có khả năng chỉ ra sự gian lận Bằng cách phân tích dữ liệu lịch sử, phân loại và phân tích biến, phân tích dữ liệu có thể tìm ra các biểu hiện gian lận điển hình như các giao dịch lạ lùng, hành vi không phù hợp, hoặc mô hình không bình thường.

Phân tích dữ liệu giúp giảm thiểu số lượng các sai sót và tổn thất trong quá trình phát hiện gian lận Bằng cách sử dụng các kỹ thuật phân tích mẫu, phân tích bất thường và mô hình hóa dữ liệu, người dùng có thể xác định và tập trung vào các mẫu gian lận quan trọng nhất mà không phải xem xét tất cả các dữ liệu Bằng cách sử dụng các công cụ và kỹ thuật phân tích dữ liệu tự động, công tác phát hiện và thông báo về các biểu hiện gian lận có thể được thực hiện nhanh chóng và hiệu quả hơn Thông qua phân tích dữ liệu, người dùng có thể hiểu rõ hơn về mô hình và xu hướng, từ đó đưa ra các quyết định quan trọng để phát hiện và ngăn chặn các hành vi gian lận.

Khi thu thập dữ liệu, sẽ có khả năng xuất hiện các điểm dữ liệu bất thường (Anomalies) Dữ liệu bất thường là những dữ liệu lệch khỏi quy chuẩn của tổng thể dữ liệu, tạo nên sự không nhất quán trong đó Điểm bất thường có thể là từ những gian lận trong khai báo dữ liệu, lỗi trong quá trình nhập hay chỉ đơn giản là dữ liệu đó rất khác so với phần còn lại không phải do sai lệch Sau khi nhận diện được điểm bất thường, nhà phân tích sẽ nghiên cứu sâu hơn về chúng để biết có thực sự là do gian lận hay do lỗi sai sót, đây là một việc hết sức cần thiết cho bước đầu xử lý dữ liệu, việc này đòi hỏi người kiểm toán phải có hiểu biết về dữ liệu, đánh giá chuyên môn cũng như khả năng phân tích và trực giác về tính đúng sai.

Kiểm định phân tích dữ liệu được dùng để phát hiện điểm bất thường, kiểu dữ liệu trong đó Không như quá trình chọn mẫu chỉ lấy một phần của tổng thể, quá trình phân tích dữ liệu có thể cùng lúc kiểm tra hết tất cả giao dịch Các điểm dữ liệu bất thường nhờ đó được lọc ra và nhìn nhận một cách đầy đủ Cần chú ý là kiểm định sẽ cho ra tập hợp các điểm dữ liệu bất thường chứ không phải những trường hợp lỗi hay gian lận, việc này đòi hỏi phải có sự xem xét, đánh giá kĩ lưỡng từ phía các kiểm toán viên.

Sau khi đã thực hiện phân tích, sẽ có nhiều giao dịch thể hiện là dương tính giả (false positivities), dữ liệu kỳ dị là đúng nhưng bị gán là lỗi Nên thông thường, khi xem xét các điểm bất thường, các kiểm toán viên sẽ phải đánh giá lại các điểm bất thường, xem xét những giả thuyết, chỉnh sửa các phép kiểm định hay thực hiện thêm các phương pháp phân tích, kiểm toán khác nhằm tinh chỉnh lại những trường hợp dương tính giả ấy Sau khi thực hiện vài lần vòng lặp các quá trình, kiểm định sẽ xác định được các giao dịch có rủi ro gian lận cao Với số lượng trường hợp nghi ngờ gian lận đã được giảm, việc đánh giá theo quy trình kiểm toán gian lận sẽ trở nên dễ dàng hơn Một khi trường hợp đã được xác nhận là gian lận hay lỗi, ta sẽ xem xét lại kế hoạch nhằm mở rộng việc điều tra, đánh giá.

Khi kiểm toán viên đã làm quen được với dữ liệu, bản chất hệ thống và môi trường của doanh nghiệp, một số kiểm định phân tính tổng quát sẽ được sử dụng cho toàn bộ dữ liệu hoặc một loại tính chất cụ thể hoặc nhóm các giao dịch Các kiểm định phân tích tổng quát có thể và nên được sử dụng lên toàn bộ bộ dữ liệu để cho kiểm toán viên cái nhìn ban đầu từ đó có thể kiểm toán và xem xét Kiểm định tổng quát xuất ra những điểm dữ liệu ngoại lệ, bất thường hay đáng nghi với nguy cơ gian lận.Với việc có thể được áp dụng lên cả bộ dữ liệu lớn ban đầu, từ hàng triệu giao dịch bị lọc ra chỉ còn vài trường hợp cần được xem xét, … Các phép kiểm định cũng cho biết những điểm dữ liệu có nằm ở đúng vị trị hay không Cho phép kiểm toán viên thực hiện được nhiều hơn là chỉ lấy mẫu và cho phép họ kiểm tra giả thuyết cũng như các trường hợp gian lận tiềm năng Việc có thể kiểm tra các giao dịch tại nguồn đảm bảo rằng thông tin vẫn giữ được tính toàn vẹn Đồng thời cho phép kiểm toán viên hiểu rõ hơn các dấu hiệu gian lận có thể xảy ra và tính hiệu quả của kiểm soát nội bộ Thông thường, những điểm bất thường nhỏ hay bị bỏ qua nhưng chính những điểm bất thường nhỏ này lại cho thấy được những điểm yếu trong kiểm soát nội bộ có thể bị khai thác.

Phạm vi nghiên cứu

Phạm vi nghiên cứu của tiểu luận này là các phương pháp được sử dụng trong phân tích dữ liệu nhằm phục vụ cho việc phát hiện và kiểm soát các gian lận, ở mỗi phương pháp đều sẽ được đề cập cụ thể đến những ưu điểm và khuyết điểm nhằm làm rõ các phương pháp nhất có thể.

Mục đích

Mục đích của bài tiểu luận là tìm hiểu và trình bày về những phương pháp được sử dụng trong phân tích dữ liệu nhằm phục vụ cho việc phát hiện và kiểm soát các gian lận, tìm hiểu về các trường hợp cụ thể để ứng dụng các phương pháp đó vào thực tế trong công việc và nghiên cứu.

NỘI DUNG CHÍNH

Benford's Law (Định luật Benford)

1 Khái niệm và nguyên lý của Benford's Law

1.1 Khái niệm Định luật Benford phân tích các chữ số trong dữ liệu số, giúp xác định các điểm bất thường và phát hiện hành vi thao túng dữ liệu một cách có hệ thống (nghĩa là tạo ra các số sai) dựa trên sự phân bố kỹ thuật số trong tổng thể tự nhiên Tổng thể tự nhiên có thể gần như bất cứ thứ gì, chẳng hạn như tất cả các giao dịch trong sổ cái tổng hợp, các giao dịch trong tài khoản phải trả, hay thậm chí là mét khối nước trong tất cả các hồ ở Châu Phi.

Các bài kiểm tra dựa trên Luật của Benford báo hiệu sự trùng lặp bất thường Cơ sở toán học của Định luật Benford cho chúng ta những sự trùng lặp được mong đợi hoặc bình thường, và những sự trùng lặp trên mức bình thường là bất thường hoặc quá mức Các thử nghiệm liên quan là hai chữ số cuối, số trùng lặp và mô hình hệ số biến dạng.

1.2 Nguyên lý Để Luật Benford có thể áp dụng được, phải đáp ứng một số điều kiện nhất định.

 Các con số trong bộ dữ liệu phải mô tả cùng một đối tượng.

 Không nên có sẵn mức tối đa hoặc tối thiểu cho các con số.

 Không nên chỉ định các số như số điện thoại, số tài khoản ngân hàng số, số bảo hiểm xã hội hoặc số an sinh xã hội.

 Không áp dụng cho việc phân phối đồng phục như xổ số mà đồng phục quả bóng được chọn và không phải là con số thực tế.

Các bài kiểm tra Luật Benford sơ cấp là các bài kiểm tra chữ số đầu tiên, hai chữ số đầu tiên, ba chữ số đầu tiên và các bài kiểm tra chữ số thứ hai Các bài kiểm tra Luật Benford nâng cao là phép tính tổng và bậc hai.

Bài kiểm tra trùng lặp số xác định các số cụ thể gây ra sự đột biến hoặc bất thường trong các bài kiểm tra sơ cấp và tổng hợp Sự tăng đột biến trong các thử nghiệm cơ bản là do một số con số cụ thể xảy ra quá thường xuyên một cách bất thường Những con số lớn bất thường về giá trị sẽ gây ra sự đột biến trong phép thử tính tổng.

Mô hình hệ số biến dạng cho biết dữ liệu có vượt quá chữ số thấp hơn hay chữ số cao hơn hay không Nó giả định rằng số thực được thay đổi thành số sai trong cùng phạm vi hoặc tỷ lệ phần trăm với số thực

2 Ứng dụng của Benford’s Law trong phát hiện gian lận

Hầu hết các bài thuyết trình và bài viết đều thảo luận về việc sử dụng Định luật Benford để phát hiện các con số gần giới hạn ủy quyền của chúng

Ví dụ: Nếu giới hạn ủy quyền của ai đó là 10.000 USD thì nhiều hai chữ số đầu tiên trong khu vực 99, 98 và 97 sẽ được phát hiện bằng Luật Benford nếu họ đang cố gắng tối đa hóa chi tiêu ủy quyền.

Một số ứng dụng thực tế khác bao gồm: Dữ liệu khoản phải trả, Ước tính dồn tích trong sổ cái, Doanh thu, Mua vào, Giao dịch độc lập, Hoàn tiền cho khách hàng, Nợ xấu, Chống rửa tiền.

Có khả năng phát hiện hoạt động rửa tiền vì hoạt động rửa tiền đưa tiền vào dòng doanh thu không được tạo ra bởi hoạt động kinh doanh thông thường Vì việc nộp thuế thu nhập đối với doanh thu giả là điều không mong muốn nên các chi phí tương ứng sẽ được bù đắp để bù đắp cho khoản doanh thu giả Nếu có đủ các chi phí hoặc con số bù đắp này, Định luật Benford có thể phát hiện ra những điều bất thường Định luật Benford không chỉ liên quan đến việc phát hiện những điểm bất thường trong dữ liệu liên quan đến tài chính mà còn có thể áp dụng trong các lĩnh vực khác

Ví dụ: Một nghiên cứu được công bố trên tạp chí New Zealand Nghiên cứu về biển và nước ngọt có tựa đề “Phát hiện gian lận thống kê trong thương mại” Nghiên cứu này đã kiểm tra độ tin cậy của dữ liệu khai thác thủy sản ở Canada Nghiên cứu được thúc đẩy bởi thực tế là việc bán tôm hùm chiếm một phần lớn trong nền kinh tế ngầm Đơn vị chống tội phạm của Cảnh sát Hoàng gia Canada lúc đầu nghĩ rằng số tiền lớn chuyển vào chi nhánh ngân hàng là từ tiền ma túy, nhưng sau đó phát hiện ra chúng là từ việc bán tôm hùm bằng tiền mặt Từ các khu vực đánh bắt tôm hùm được quản lý chặt chẽ, dữ liệu được phát hiện là phù hợp với sự phân bổ như mong đợi của Định luật Benford Dữ liệu về tôm hùm và cua tuyết từ các khu vực khác, ít quy định hơn không phù hợp.

3 Ví dụ và trường hợp ứng dụng Benford’s Law

 Áp dụng định luật Benford kiểm tra 2 chữ số đầu tiên tệp Tài khoản phải thu của nhà sản xuất ô tô: thu bình thường từ 19.000 đến 32.000 USD Kiến thức về doanh nghiệp cho phép bạn loại bỏ lĩnh vực này để xem xét bổ sung.

 Ví dụ về định luật Benford trên ảnh nén: Đường màu đỏ là phân bố của luật Benford Cột xanh dương là của ảnh không nén Đường xanh lá là của 2 ảnh nén Chúng ta có thể quan sát và thấy rằng phân bố của các cột màu xanh dương rất gần với đường màu đỏ (là phân bố theo luật Benford) trong khi 2 đường màu xanh lá cây có khác biệt lớn hơn và rối loạn hơn Căn cứ vào đó, người ta đã xây dựng lên các cơ sở để phát hiện ra ảnh đã bị nén như thế nào.

 Sử dụng Định luật Benford trong IDEA:

Tính năng Luật Benford trong IDEA có thể cung cấp bài kiểm tra tính hợp lý có giá trị cho các tập dữ liệu lớn IDEA chỉ kiểm tra các số dương từ 10 trở lên trong file dữ liệu Đối với số âm, các giá trị lớn hơn âm 10 bị loại trừ (loại trừ –9, -8, –1). Các bước này loại bỏ các mục không quan trọng khỏi quá trình phân tích Số dương và số âm được phân tích riêng biệt Các số dương và số âm được tự đánh giá do thực tế là số dương hoạt động rất khác với số âm.

Ví dụ: Khi thu nhập dương bị thao túng để lấy tiền thưởng quản lý, sẽ có động lực để tăng thu nhập, chuyển từ số 0 sang số lớn hơn Khi có lỗ và ban quản lý mong muốn cải thiện giá cổ phiếu, sẽ có động cơ để chuyển số âm lớn hơn sang số nhỏ hơn về 0.

IDEA có thể áp dụng hầu hết các bài kiểm tra Định luật Benford và cũng có thể hiển thị các kết quả đáng ngờ ở định dạng đồ họa Các bài kiểm tra được cung cấp trong IDEA là chữ số đầu tiên, hai chữ số đầu tiên, ba chữ số đầu tiên, chữ số thứ hai, hai chữ số cuối, thứ tự thứ hai và các bài kiểm tra tổng như trong Hình 5.6.

Number Duplication Test (Kiểm tra trùng lặp số trong dữ liệu)

1 Giới thiệu về sự trùng lặp số trong dữ liệu

Kiểm tra trùng lặp số trong dữ liệu (NDT) không phải là bài kiểm tra Luật Benford cụ thể; đúng hơn nó là một bài kiểm tra liên quan có thể được sử dụng để cung cấp thêm thông tin từ các bài kiểm tra Định luật Benford NDT có thể xuất ra các số cụ thể gây ra sự đột biến trong các bài kiểm tra thứ tự đầu tiên (kiểm tra hai chữ số đầu tiên là một ví dụ) và bài kiểm tra tổng, là bài kiểm tra Định luật Benford nâng cao.

Mức tăng đột biến từ bất kỳ thử nghiệm thứ tự đầu tiên nào là do các số xuất hiện thường xuyên hơn dự kiến trong khi mức tăng đột biến trong thử nghiệm tổng thường là do số lượng lớn các số giống nhau lặp lại thường xuyên hơn bình thường

Ví dụ: Mark Nigrini đã viết, “Bài kiểm tra trùng lặp số được phát triển như một phần của luận án tiến sĩ của tôi khi tôi đang tìm kiếm số tiền đóng thuế thường xuyên bị trùng lặp một cách bất thường Tôi tin rằng những sự trùng lặp bất thường này tồn tại bởi vì những người đóng thuế đã phát minh ra những con số và rằng, vì chúng ta suy nghĩ giống nhau nên mọi người sẽ bị thu hút về việc tạo ra những con số giống nhau Có một số kết quả thú vị đối với các lĩnh vực suy luận như đóng góp từ thiện.”

2 Phương pháp và phân tích sự trùng lặp số

NDT nên được áp dụng cho các tiêu chí khác nhau trong tập dữ liệu:

 Nhỏ hơn hoặc bằng –10 Đầu ra sẽ hiển thị số tiền được nhân đôi và số lượng cho mỗi số tiền.

Thứ hạng của số lượng thể hiện những người có số lượng trùng lặp cao nhất gần đầu kết quả.

IDEA không có quy trình tự động cho NDT Tuy nhiên, việc thực hiện việc này một cách thủ công trong IDEA không hề phức tạp.

Sử dụng tệp dữ liệu chi phí đi lại để thực hiện NDT Tệp chi phí du lịch có các trường dành cho nhiều loại chi phí đi lại khác nhau, chẳng hạn như vận chuyển, vé máy bay, chỗ ở, bữa ăn, v.v Ta sẽ kiểm tra số tiền điều chỉnh và số tiền lớn hơn hoặc

1 Tóm tắt theo lĩnh vực thử nghiệm được lựa chọn là CHỖ Ở với tiêu chí ACCOMMODATION 10 như hình 5.11.

2 Tạo một tệp mới bằng tính năng sắp xếp trên trường NO_OF_RECORDS theo hướng giảm dần thứ tự thể hiện trong hình 5.12 Đây là trường đếm ta sẽ dễ dàng xếp hạng sau này vì đã chọn sắp xếp theo thứ tự giảm dần Việc sắp xếp tạo ra một cơ sở dữ liệu mới với thứ tự sắp xếp đã chọn được đặt về mặt vật lý.

3 Chúng ta sẽ tạo hai trường mới bằng cách sử dụng tính năng Nối trường Đặt tên trường mới đầu tiên là RANK được đặt làm trường số ảo không có số thập phân.

Sử dụng chức năng của @Precno( ), trả về số bản ghi vật lý trong tệp sẽ giữ nguyên ngay cả khi tệp sau đó được lập chỉ mục khác Cái này sẽ tương đương với thứ hạng mà ta muốn xem.

Ngoài ra, chúng ta có thể rút ra hai chữ số đầu tiên từ số tiền hỗ trợ cho mỗi bản ghi Nối một trường mới có tên FIRST_TWO được đặt làm trường số ảo với không có chữ số thập phân Đối với trường mới sử dụng phương trình

Phương trình này chuyển đổi trường ACCOMMODATION thành trường ký tự bằng cách sử dụng hàm @Str để xuất ra tối thiểu hai ký tự 2 thứ hai là số thập phân.

Ta có thể nhập 0 hoặc bất kỳ số vị trí thập phân nào, nhưng vị trí thập phân sẽ bị loại bỏ vì ta đã chỉ định rằng trường mới sẽ không chứa vị trí thập phân.

Hai chữ số thập phân được sử dụng ở đây như bình thường bạn mong muốn có hai chữ số thập phân và cũng để tạo cơ hội để thực hiện quan điểm này TrườngACCOMMODATION số phải được thay đổi thành trường ký tự để thực hiện bất kỳ đầu từ vị trí bên trái Sau đó, chúng ta sử dụng hàm @Val để chuyển đổi mọi thứ về dạng số, như trong Hình 5.13.

Bây giờ chúng ta có tất cả các chi phí chỗ ở từ trường NO_OF_RECS, vì vậy chúng ta biết số tiền chính xác đó xuất hiện trong cơ sở dữ liệu trong Hình 5.14 bao nhiêu lần.

Thứ hạng cao nhất là $174,02 xuất hiện 52 lần Chúng ta có thể click vào nội dung của NO_OF_RECS để hiển thị chi tiết.

Trường FIRST_TWO hiển thị những con số mà chúng ta mong đợi Nghĩa là, hai chữ số đầu tiên thấp được xếp gần đầu như trong kết quả của ta để tuân thủ Định luật Benford, và hai chữ số đầu tiên không cao như 99, 98, 97…

Tóm tắt tệp dữ liệu theo trường FIRST_TWO và lập chỉ mục kết quả tệp trên NO_OF_REC1 theo thứ tự giảm dần sẽ cho chúng ta tần số của cả hai.

Số chữ số xác nhận thêm sự phù hợp với Định luật Benford như được hiển thị trong Hình 5.15.

Kết luận: NDT là nhà cung cấp thông tin chi tiết tốt để xác định các đột biến từ bài kiểm tra tổng hợp và bài kiểm tra hai chữ số đầu tiên Điều này giúp xác định liệu có cần điều tra thêm hay không.

Z-score

1 Khái niệm và ý nghĩa của Z-score trong phân tích dữ liệu

Thuật ngữ Z-score, giá trị Z, tỷ lệ Z hoặc Z là số đo thống kê của một số trong mối liên hệ với giá trị trung bình của nhóm số Nó đề cập đến các điểm dọc theo cơ sở của đường cong chuẩn hóa chuẩn Điểm trung tâm của đường cong có giá trị Z bằng 0 Giá trị Z ở bên phải số 0 là dương và giá trị Z ở bên trái là giá trị âm Z-score cao hơn giá trị trung bình nếu ở bên phải số 0 và thấp hơn giá trị trung bình nếu ở bên trái điểm trung tâm số 0 Khoảng cách từ giá trị trung bình được đo bằng độ lệch chuẩn Nếu điểm Z là 0 thì nó có 0 độ lệch chuẩn so với giá trị trung bình và bằng giá trị trung bình.

Z-score được tính bằng cách lấy chênh lệch giữa số lượng và giá trị trung bình giá

X đại diện cho số nguyên Giá trị trung bình của tổng thể được biểu thị bằng μ và độ lệch chuẩn là ký hiệu σ.

Z-score được chuẩn hóa Việc so sánh đô la Canada, đô la Mỹ, euro hay bảng Anh đều không liên quan Trên thực tế, đơn vị này có thể đo chiều cao, cân nặng, trình độ học vấn hoặc điểm kiểm tra Điểm Z luôn liên quan đến giá trị trung bình ở giữa hoặc được chỉ định bằng 0 Điểm Z cho biết nhiều về sự phân bố của các số trong tập dữ liệu và có thể làm nổi bật các điểm cực đoan Với điểm Z, diện tích dưới đường cong bình thường có thể được xác định bằng tính toán trên máy tính hoặc bằng cách xem bảng.

2 Sử dụng Z-Score để phát hiện các ngoại lệ và biểu hiện bất thường

Ví dụ tại How to Use the Table of Areas Under the Normal Curve

Phần được chọn của bảng điểm Z được tạo trong Bảng 5.2.

Z-score là 1,50 cho thấy 43,32% diện tích dưới đường cong bình thường nằm giữa giá trị trung bình và điểm Z là 1,50 Diện tích dưới đường cong của điểm Z trong khoảng từ –1,96 đến +1,96 sẽ là bao nhiêu? Vì chúng ta đang xem xét cả mặt âm và mặt dương của giá trị trung bình, nên chúng ta nhân diện tích giữa giá trị trung bình và

Z với 2 (0,4750 * 2), thu được kết quả là 95% Giá trị tuyệt đối của điểm Z càng cao thì số đó càng cách xa giá trị trung bình hoặc chuẩn mực Kiểm toán viên có thể muốn

Lý thuyết thống kê cho rằng 99,7% trường hợp, điểm Z sẽ nằm trong khoảng từ – 3,00 đến +3,00 Nó sẽ nằm trong khoảng từ –2,00 đến +2,00 trong 95 phần trăm thời gian và 68 phần trăm thời gian, nó sẽ nằm trong khoảng từ –1,00 đến +1,00 IDEA không tự động tính điểm Z cho bạn Tuy nhiên, nó có các tính toán tích hợp để tính điểm Z cho mỗi giao dịch dễ dàng.

Quay trở lại cơ sở dữ liệu mạng đấu thầu thanh toán của chúng ta, chúng ta hãy xem thống kê chotrường PAYAMOUNT_SUM.

Chúng ta lưu ý rằng giá trị trung bình hoặc giá trị trung bình là 19,48 USD và độ lệch chuẩn của Pop Std Dev hoặc độ lệch chuẩn tổng thể là 15,17 USD trong Hình 5.16 Những điều này được IDEA tính toán.

IDEA chỉ định các số sẽ được sử dụng với hàm @FieldStatistics Số trung bình hoặc trung bình là 11 và 18 cho độ lệch chuẩn của tổng thể như trong Hình 5.17.

Cú pháp sử dụng hàm là @FieldStatistics(“FieldName”, Statistic).

Ta tạo hoặc nối thêm một trường có tên Z_SCORE bằng cách áp dụng công thức tính điểm Z trong trình chỉnh sửa phương trình.

Công thức lấy giá trị trung bình và độ lệch chuẩn tổng thể từ vùng thống kê trường để sử dụng trong phương trình thể hiện trong Hình 5.18.

Khi ta lập chỉ mục trường Z_SCORE theo thứ tự giảm dần, ta có thể thấy rằng tất cả 84.718 bản ghi, ngoại trừ 519 giao dịch, có Z-scores từ 3,99 trở xuống trong Hình5.19 Trong tập dữ liệu cụ thể này, điểm Z lên tới 23,78 Kiểm toán viên cần sử dụng phán đoán về số lượng ngoại lệ cần được kiểm tra chi tiết hoặc chọn điểm Z cho

Khi trường Z_SCORE được lập chỉ mục theo thứ tự giảm dần, trườngPAYAMOUNT_SUM cũng sẽ có số lượng lớn nhất được hiển thị từ cao nhất đến thấp nhất Mặc dù cả hai trường đều biểu thị thứ tự số lượng, nhưng điểm Z cung cấp cho bạn cảm giác về khoảng cách giữa mỗi số lượng so với giá trị trung bình để bạn có thể đánh giá mức độ bất thường.

Relative Size Factor Test

1 Khái niệm về relative size factor và vai trò của nó trong phân tích dữ liệu

Relative Size Factor (RSF) là một khái niệm trong phân tích dữ liệu, có vai trò quan trọng trong việc xác định sự khác biệt kích thước tương đối giữa các phần tử trong tập dữ liệu RSF được sử dụng để tìm ra các phần tử có kích thước đáng ngờ hoặc không tự nhiên, có thể là dấu hiệu của gian lận hoặc các hành vi không đúng quy tắc.

Mục đích của việc kiểm tra hệ số kích thước tương đối (RSP) là để xác định các điểm bất thường trong đó số lượng lớn nhất của các tập hợp con trong một khóa nhất định nằm ngoài định mức cho các tập hợp con đó Thử nghiệm này so sánh hai số tiền cao nhất cho mỗi tập hợp con và tính toán RSF cho mỗi tập hợp con Để xác định các hoạt động gian lận tiềm ẩn trong dữ liệu thanh toán hóa đơn, người ta sử dụng số tiền lớn nhất và lớn thứ hai để tính tỷ lệ dựa trên các giao dịch mua được nhóm theo nhà cung cấp; điều này thường được đề xuất trong tài liệu kiểm tra gian lận chẳng hạn như Nguyên tắc kiểm tra gian lận được viết bởi Joseph T. Wells.

Kiểm tra RSP là một thử nghiệm mạnh mẽ để phát hiện lỗi Kiểm tra xác định các tập hợp con trong đó số lượng lớn nhất bị thiếu phù hợp với các số lượng khác của tập hợp con đó Sự khác biệt này có thể là do bản ghi lớn nhất (a) thực sự thuộc về một tập hợp con khác hoặc (b) thuộc về tập hợp con được đề cập, nhưng số lượng được ghi không chính xác RSF là một bài kiểm tra phát hiện lỗi quan trọng.

Các tập hợp con trong tệp dữ liệu được xác định là KEYS trong IDEA Một ví dụ sẽ là nhà cung cấp trong tệp tài khoản phải trả Kiểm tra xác định các bản ghi nằm thành viên cụ thể của tập hợp con Sự khác biệt lớn có thể được quy cho các lỗi như bản ghi thuộc về một tập hợp con khác hoặc số lượng được đăng không chính xác (ví dụ: dấu thập phân bị dịch chuyển) Sự khác biệt lớn cũng có thể là dấu hiệu của hoạt động gian lận, chẳng hạn như gian lận tài khoản phải trả nghề nghiệp hóa đơn giả để khấu trừ thuế đầu vào HST hoặc VAT, bù đắp doanh thu rửa tiền hoặc bán sản phẩm cho các công ty liên quan (chuyển giá ra nước ngoài)

Kiểm tra phân tích dữ liệu điều tra số lượng bán hàng, thanh toán yêu cầu bảo hiểm, số lượng hàng tồn kho và yêu cầu chăm sóc sức khỏe bằng cách sử dụng thử nghiệm RSF. Để nâng cao thông tin do thử nghiệm RSF cung cấp, hướng dẫn từng bước về cách thực hiện các phép tính sẽ bao gồm một trường hiển thị số tiền trung bình nếu chúng tôi bỏ qua giá trị ngoại lệ lớn nhất Điều này sẽ giúp kiểm toán viên cảm nhận tốt hơn về các mối quan hệ nội dung dữ liệu.

Trường Average _X_ Largest là giá trị trung bình của tất cả các giá trị dương hoặc âm (để xác định được người dùng khai thác làm bước đầu tiên trong tính toán RSF) ngoại trừ số tiền lớn nhất Trường này cung cấp chỉ dẫn về số lượng điển hình trong các thành viên tập hợp con.

2 Kỹ thuật áp dụng relative size ford để phát hiện gian lận

Kỹ thuật áp dụng Relative Size Factor để phát hiện gian lận thường bao gồm các bước sau:

1 Chuẩn bị dữ liệu: Thu thập và tiền xử lý dữ liệu để chuẩn bị cho quá trình phân tích Điều này bao gồm loại bỏ các giá trị nhiễu, điền các giá trị thiếu hoặc xử lý các vấn đề về định dạng dữ liệu.

2 Xác định kích thước tương đối: Sử dụng công thức hoặc phương pháp phù hợp để tính toán kích thước tương đối cho mỗi phần tử trong tập dữ liệu Ví dụ, có thể sử dụng tỷ lệ phần trăm của mỗi phần tử so với giá trị trung bình hoặc giá trị lớn nhất.

3 Phát hiện giá trị nghi ngờ: So sánh kích thước tương đối của các phần tử để xác định những giá trị có kích thước đáng ngờ hoặc không tự nhiên Điều này có thể được thực hiện bằng cách thiết lập ngưỡng hoặc sử dụng các phương pháp thống kê để xác định các giá trị nằm ngoài phạm vi dự kiến.

Kiểm tra RSF là kiểm tra tính hợp lý trong một nhóm tập hợp dữ liệu cụ thể Nó xác định các ngoại lệ trong nhóm trong đó số lượng quá nhỏ để được coi là bất thường khi toàn bộ tập dữ liệu được lấy.

Vai trò của Relative Size Factor trong phân tích dữ liệu là nhận diện các sự khác biệt đáng ngờ về kích thước giữa các phần tử dữ liệu Bằng cách so sánh kích thước tương đối của các phần tử, ta có thể phát hiện ra các giá trị rất lớn hoặc rất nhỏ so với phân phối chung, hoặc các đối tượng có kích thước không tự nhiên so với các đối tượng tương tự khác Điều này có thể ám chỉ sự thay đổi không chính đáng, gian lận, hoặc lỗi trong dữ liệu.

Ví dụ và trường hợp ứng dụng Relative Size Factor:

Một ví dụ về ứng dụng Relative Size Factor là trong phân tích giao dịch tài chính. Khi kiểm tra các giao dịch, có thể tính toán kích thước tương đối của mỗi giao dịch so với giá trị trung bình của tất cả các giao dịch Nếu một giao dịch có kích thước tương đối rất lớn hoặc rất nhỏ so với phân phối chung, nó có thể được coi là đáng ngờ và có thể gợi ý đến một hành vi gian lận hoặc sai phạm.

Trong một trường hợp khác, Relative Size Factor có thể được áp dụng trong phân tích dữ liệu như kiểm tra số lượng truy cập vào một hệ thống mạng Nếu có một máy tính hoặc một địa chỉ IP có số lượng truy cập đáng kể hơn so với phân phối chung, điều này có thể gợi ý đến một hành vi tấn công hoặc xâm nhập vào hệ thống.

Tóm lại, Relative Size Factor (RSF) là một phương pháp trong phân tích dữ liệu để xác định sự khác biệt kích thước tương đối giữa các phần tử trong tập dữ liệu Nó có thể được sử dụng để phát hiện các giá trị đáng ngờ hoặc không tự nhiên, gợi ý đến sự gian lận, sai phạm hoặc các hành vi không đúng quy tắc trong dữ liệu Với việc áp dụng đúng kỹ thuật và quy trình phân tích, Relative Size Factor có thể giúp tăng cường khả năng phát hiện các vấn đề và bất thường trong dữ liệu.

Same-Same-Same Test

1 Giới thiệu về kỹ thuật Same-Same-Same trong phân tích dữ liệu

Kỹ thuật Same-Same-Same (SSS) trong phân tích dữ liệu là một phương pháp được sử dụng để phát hiện các biểu hiện lặp lại không tự nhiên trong dữ liệu Kỹ thuật này dựa trên việc so sánh sự tương đồng giữa các mẫu dữ liệu để xác định xem chúng

Mục đích của thử nghiệm giống nhau (SSS) là để xác định các sự trùng lặp bất thường là dấu hiệu tiềm ẩn của sai sót hoặc gian lận Được phân tích dựa vào cuốn sách của Mark J Nigrini, Phân tích pháp y: Phương pháp và kỹ thuật điều tra kế toán pháp y.

Việc áp dụng thử nghiệm này hỗ trợ phát hiện các khoản chi phí trùng lặp được yêu cầu, các lần thanh toán giống nhau cho các nhà cung cấp do nhầm lẫn nhiều yêu cầu bảo hành hoặc phí dịch vụ trùng lặp do các chương trình bảo hiểm y tế tư nhân hoặc chính phủ thanh toán.

IDEA có tùy chọn Phát hiện khóa trùng lặp, như được hiển thị trong Hình bên dưới Nó có thể xuất ra các bản ghi trùng lặp hoặc ngược lại với việc xuất ra các bản ghi không trùng lặp Tối đa tám trường mà tôi có thể được kiểm toán viên chọn để khớp.

Từ tập dữ liệu thanh toán, chúng tôi thực hiện kiểm tra trong đó mã số nhà cung cấp, tên nhà cung cấp, người ủy quyền và ngày thanh toán đều giống nhau.

2 Ứng dụng Same-Same-Same để phát hiện các biểu hiện lặp lại không tự nhiên Ở mức cơ bản, SSS hoạt động bằng cách áp dụng một quá trình Same-Same-Same lặp lại ba lần Quá trình này bao gồm các bước sau:

1 Same: So sánh hai mẫu dữ liệu ban đầu để xác định xem chúng có tương đồng hay không.

2 Same: So sánh hai mẫu dữ liệu đã được xác định là tương đồng trong bước trước để xác định sự tương đồng lặp lại.

3 Same: So sánh kết quả từ bước trước với một mẫu thứ ba để xác định xem có sự tương đồng lặp lại không tự nhiên hay không.

Nếu kết quả cuối cùng của quá trình Same-Same-Same là một sự tương đồng lặp lại không tự nhiên, có thể nói rằng dữ liệu đang được xem xét chứa các biểu hiện gian lận hoặc không tự nhiên.

Ví dụ về ứng dụng Same-Same-Same trong phát hiện gian lận:

Giả sử bạn đang làm việc trên một dự án phát hiện gian lận trong giao dịch tài chính Bằng cách sử dụng kỹ thuật Same-Same-Same, bạn có thể áp dụng quá trình sau:

1 Same: So sánh hai giao dịch ban đầu để xác định sự tương đồng của chúng.

2 Same: So sánh hai giao dịch đã được xác định là tương đồng trong bước trước để xác định sự tương đồng lặp lại.

3 Same: So sánh kết quả từ bước trước với một giao dịch thứ ba để xác định xem có sự tương đồng lặp lại không tự nhiên hay không.

Nếu kết quả cuối cùng là một sự tương đồng lặp lại không tự nhiên, có thể cho rằng các giao dịch đang được xem xét có thể là gian lận hoặc không tự nhiên.

Tuy nhiên, Same-Same-Same chỉ là một phương pháp trong việc phát hiện gian lận và không đảm bảo 100% chính xác Để đạt được kết quả tốt hơn, chúng ta thường kết hợp phương phâp này với các kỹ thuật và phương pháp phát hiện gian lận khác để tăng cường khả năng phát hiện và giảm thiểu sai sót.

VI Same-Same-Different Test

1 Khái niệm và cách sử dụng kỹ thuật Same-Same-Different trong phân tích dữ liệu

Same-Same-Different (SSD) là một kỹ thuật phân tích dữ liệu được sử dụng để tìm kiếm sự khác biệt giữa các mẫu dữ liệu Kỹ thuật này thường được sử dụng để phát hiện gian lận trong các tập dữ liệu SSD hoạt động bằng cách so sánh các mẫu dữ liệu với nhau và tìm kiếm những mẫu có sự khác biệt lớn hơn so với các mẫu khác.

Kiểm tra giống-giống-khác (SSD) được sử dụng để xác định các bản ghi gần trùng lặp đối với các trường do kiểm toán viên chọn Kiểm toán viên có thể chọn tối đa tám trường để khớp và một trường bị loại khỏi việc khớp.

Mark Nigrini tuyên bố, "Thử nghiệm giống nhau-khác nhau là một thử nghiệm mạnh mẽ để phát hiện lỗi và gian lận Thử nghiệm này nên được xem xét cho mọi dự án phân tích pháp y." Kinh nghiệm của ông đã cho thấy điều đó "Bài kiểm tra này luôn phát hiện lỗi trong dữ liệu phải trả của tài khoản" và "Khoảng thời gian càng dài thì khả năng SSD phát hiện lỗi càng cao."

Một ví dụ chứng minh giá trị của thử nghiệm này là phát hiện các trường hợp ban đầu thanh toán cho nhà cung cấp sai và sau đó thanh toán đúng cho nhà cung cấp chính xác (cùng số hóa đơn, cùng số tiền, nhưng các nhà cung cấp khác nhau) Kiểm toán viên cần theo dõi xem khoản thanh toán có được thu hồi từ nhà cung cấp bị thanh toán sai hay không.

IDEA có tính năng Loại trừ keys trùng lặp Tính năng Loại trừ khóa trùng lặp được tích hợp sẵn của IDEA rất đơn giản và dễ sử dụng Tuy nhiên, nó bị hạn chế vì nó không hiển thị nhiều hơn một loại trừ Một cách tiếp cận thủ công có thể được sử dụng Đầu ra của phương pháp thủ công này sẽ được so sánh với đầu ra của tính năng Loại trừ khóa trùng lặp ở cuối phần này.

Even Amount

1 Khám phá các kỹ thuật phân tích số liệu để phát hiện sự xuất hiện không tự nhiên của số tiền chẵn

Số tiền chẵn hoặc làm tròn thường không xảy ra ở tần suất cao Vì vậy, những số được làm tròn đến hàng chục, hàng trăm và hàng nghìn có thể được coi là bất thường và cần được chú ý đến chúng.

Mặc dù rõ ràng là số tiền đã trả cao, thậm chí phải được xem xét, nhưng một số số tiền thấp có thể bị gian lận hoặc lạm dụng Điểm khởi đầu của hoạt động phát hiện gian lận chủ động là CPA phải có mục tiêu kiểm tra liên quan đến dữ liệu sẽ được phân tích Sau đó, CPA sẽ yêu cầu và lấy tệp dữ liệu Tệp dữ liệu có thể bao gồm sổ cái chung, tài khoản phải trả hoặc dữ liệu giao dịch thẻ mua hàng trong kỳ Tệp phải chứa số tiền giao dịch và các thông tin khác các chi tiết như ghi nợ/tín dụng, (các) ngày, nguồn tiền tệ, người nhận thanh toán (nếu có), loại tài khoản sổ cái, tài khoản sổ cái được ghi nợ hoặc ghi có, phân khúc kinh doanh và trường mô tả hoặc bản ghi nhớ.

Các tập dữ liệu có tối đa 1.048.576 bản ghi có thể được phân tích trong Excel trong khi các tập dữ liệu lớn hơn sẽ cần các lựa chọn thay thế như CaseWare IDEA hoặc Microsoft Access CPA phải xác minh rằng tệp dữ liệu đã hoàn chỉnh, có thể bằng cách đối chiếu tổng số giao dịch với một nguồn độc lập đáng tin cậy Dữ liệu sổ cái (nhật ký) có thể được đối chiếu với số dư dùng thử và dữ liệu thẻ mua hàng có thể được đối chiếu với tổng số tiền thanh toán cho ngân hàng phát hành thẻ.

Sau đó, CPA sẽ trích xuất các giao dịch hoặc số dư số chẵn, chẳng hạn như bội số của 1.000 USD hoặc 1 triệu USD bằng cách sử dụng hàm MOD trong Excel Kết quả thông thường là mẫu quá lớn để kiểm tra toàn bộ Một phân tích gần đây về 3 triệu

Số dư tài khoản sổ cái của một công ty đại chúng khác có 55.000 tài khoản sổ cái cho thấy 500 số dư là bội số của 1.000 USD 100.000 hóa đơn phải trả của một công ty khác bao gồm 2.000 số tiền trong hóa đơn là bội số của 1.000 USD Một lựa chọn để giữ mẫu của các mục đáng chú ý ở kích thước có thể thực hiện được là tập trung vào các thử nghiệm cơ bản chuyên sâu với số lượng vừa lớn (xem xét tính trọng yếu) vừa tròn (xem thanh bên "Cách ghi đúng các số tròn lớn").

2 Sử dụng Even Amount để phát hiện các gian lận trong các giao dịch tài chính

Số chẵn cũng được sử dụng trong các giao dịch xác thực Một phân tích về dữ liệu đơn đặt hàng của Rochdale Borough ở Vương quốc Anh đã kiểm tra một bộ dữ liệu có thông tin chi tiết về 2.729 đơn đặt hàng với số tiền tối đa là 2,4 triệu bảng Anh (3,24 triệu USD) Số tiền được sử dụng thường xuyên nhất đều là bội số của 1.000 bảng Anh Ngoài ra, một phân tích về dữ liệu đơn đặt hàng của thành phố Chicago (có tại data.cityofchicago.org cho thấy số tiền được sử dụng thường xuyên nhất đều là bội số của 5.000 USD và 10.000 USD Ngược lại, dữ liệu đơn đặt hàng của bang Virginia (có tại data virginia.gov) cho thấy chỉ 7,3% số tiền từ 1.000 USD trở lên là bội số của 1.000 USD Do đó, các đơn đặt hàng sử dụng số chẵn quá mức nhưng ở các mức độ khác nhau.

Ví dụ và trường hợp ứng dụng Even Amounts

Lấy ví dụ, hoàn trả chi phí đi lại Tổ chức có thể đặt ra số tiền tối đa cho từng loại khoản hoàn trả Những mức tối đa này có thể sẽ ở mức chẵn Các bữa ăn có thể phải tuân theo một số mức tối đa nhất định, chẳng hạn như bữa trưa được đặt ở mức tối đa là $20,00 và bữa tối ở mức $50,00 Chỗ ở hàng ngày có thể được ấn định ở mức tối đa là $200,00 Để đảm bảo rằng mức tối đa không bị lạm dụng, các yêu cầu bồi thường phải được đối chiếu với biên lai Các yêu cầu bồi thường hợp lệ phải có biên lai thể hiện số tiền tối đa hoặc vượt quá số tiền tối đa.

Ngay cả số tiền cần phải được xác định Điều này rất đơn giản để thực hiện trong IDEA Chúng tôi có một tệp lớn bao gồm các khoản thanh toán chứa 2.066.536 bản ghi với tổng trị giá là 15.258.988.474,48 USD Chúng tôi muốn xác định số tiền thậm chí là hàng chục nghìn Sử dụng phương trình tiêu chí của (PAYMENT_AMOUNT %

10000) = 0.AND PAYMENT_AMOUNT 0, chỉ mất vài giây để có được 1.799 trận

Dấu "%" trong phương trình không phải là dấu phần trăm mà đại diện cho MOD hoặc mô đun Toán tử MOD đơn giản là phần dư sau một phép tính Ví dụ: 10 mod 3 sẽ có kết quả là 1, tức là phần còn lại của 10/3 = 3.

Trong phương trình của chúng tôi, số tiền thanh toán mod 10.000 sẽ cho chúng tôi số dư Nếu phần còn lại bằng 0 thì chúng ta sẽ có số tiền thậm chí là 10.000 Điều kiện thứ hai của phương trình PAYMENT_AMOUNT 0 loại bỏ mọi số tiền ban đầu bằng 0 trong trường Số 0 chia cho số tiền bất kỳ (10.000 trong ví dụ của chúng tôi) sẽ luôn trả về số 0. Để thu được số lượng chẵn hàng chục phương trình của chúng ta sẽ là (PAYMENT_AMOUNT % 10) = 0.AND PAYMENT_AMOUNT 0. Đối với số tiền chẵn hàng trăm, phương trình của chúng tôi sẽ là (PAYMENT_AMOUNT % 100) = 0.AND PAYMENT_AMOUNT 0.

Cuối cùng, để thu được số chẵn nghìn phổ biến hơn, các phương trình của chúng ta sẽ là (PAYMENT_AMOUNT % 1000) = 0.AND PAYMENT_AMOUNT0 Mặc dù chỉ có 0,09 phần trăm số hồ sơ trùng khớp nhưng những hồ sơ này đại diện cho 2,64% tổng số tiền Các kết quả phải được quét trực quan và các khoản thanh toán riêng cần được xem xét chi tiết.

Hãy nhớ rằng nhiều số tiền thanh toán thường được làm tròn, đặc biệt là số tiền chẳng hạn như phí tư vấn hoặc tiền thuê Những loại thanh toán này sẽ có rủi ro bất thường thấp Một con mắt sắc bén nên tập trung vào những số lượng chẵn ở những nơi không mong đợi làm tròn.

Tiêu đề	Tiểu Luận Phân Tích Dữ Liệu Trong Kiểm Soát Nội Bộ
Tác giả	Nguyễn Thị Phương Nhi, Nguyễn Thị Ngọc Vy, Nguyễn Ngọc Bảo Trâm, Lê Thị Yến Nhi, Nguyễn Thị Thu Trúc, Nguyễn Thị Mỹ Phương
Người hướng dẫn	TS. Nguyễn Vĩnh Khương
Trường học	Đại Học Quốc Gia Thành Phố Hồ Chí Minh
Chuyên ngành	Kế Toán – Kiểm Toán
Thể loại	tiểu luận
Năm xuất bản	2023
Thành phố	Tp. Hồ Chí Minh

Định dạng
Số trang	36
Dung lượng	3,68 MB