Lý thuyết xử lý tổ hợp số liệu Địa Vật lý
Xây dựng mô hình và xác định phương pháp
Để xử lý tổ hợp số liệu Địa vật lý, người ta chủ yếu áp dụng các mô hình thống kê do các đối tượng khảo sát có vị trí, kích thước và tính chất vật lý không xác định, được coi là ngẫu nhiên Bên cạnh đó, các trường vật lý từ các đối tượng địa chất thường bị nhiễu, khiến cho các dấu hiệu khảo sát cũng mang tính ngẫu nhiên Do đó, nhiệm vụ tiếp theo là lựa chọn các phương pháp nhận dạng phù hợp, tiến hành xử lý theo mô hình và giải quyết các bài toán đã đặt ra.
Hiện nay, trong lĩnh vực xử lý và phân tích số liệu địa vật lý, có nhiều phương pháp nhận dạng khác nhau Các phương pháp này có thể được chia thành hai nhóm chính: nhóm phương pháp nhận dạng theo đối tượng chuẩn và nhóm phương pháp nhận dạng không có đối tượng chuẩn.
Nhóm phương pháp nhận dạng theo đối tượng chuẩn được sử dụng khi chúng ta đã xác định được lớp đối tượng và hiểu rõ các đặc trưng thống kê của các trường địa vật lý liên quan đến từng lớp đối tượng.
Khi xử lý số liệu địa vật lý bằng thuật toán nhận dạng có mẫu chuẩn, việc xây dựng các thuật toán và đề xuất chỉ tiêu nhận dạng là cần thiết để phân loại dữ liệu quan sát thành hai lớp hoặc nhiều hơn Lựa chọn đối tượng chuẩn là vấn đề quyết định, vì nó ảnh hưởng đến việc nghiên cứu các đặc trưng thống kê của các dấu hiệu địa vật lý Điều này trở nên đặc biệt quan trọng khi khảo sát các khu vực có cấu trúc địa chất phức tạp, nơi mà các trường địa vật lý có thể biến đổi mạnh ngay cả trong những diện tích nhỏ.
Nhóm các phương pháp nhận dạng không có đối tượng chuẩn được sử dụng khi chúng ta không có thông tin về các đặc trưng thống kê của các dấu hiệu liên quan đến các lớp đối tượng cần tìm Trong trường hợp này, quá trình nhận dạng chủ yếu tập trung vào việc phân loại trường.
Phương pháp xử lý số liệu bằng thuật toán nhận dạng không có đối tượng chuẩn bao gồm việc sử dụng thuật toán phân loại trường lựa chọn để chia các điểm quan sát thành các diện tích đồng nhất về dấu hiệu tổ hợp Tuy nhiên, bản chất địa chất của từng diện tích có thể không được xác định rõ ràng; do đó, cần có số liệu khoan hoặc nghiên cứu bổ sung về tính chất vật lý của đá để xác định chính xác hơn.
Ước lượng và đánh giá các đặc trưng của đối tượng chuẩn
Để xử lý tổ hợp số liệu thông qua phương pháp nhận dạng có mẫu chuẩn, việc lựa chọn các mẫu chuẩn và xác định các đặc trưng thống kê của các trường địa vật lý là rất quan trọng.
Các mẫu đối tượng chuẩn là khu vực được xác định dựa trên số liệu khoan và thông tin địa chất, phản ánh bản chất địa chất của các yếu tố ảnh hưởng đến trường địa vật lý Sự lựa chọn các đối tượng chuẩn sẽ thay đổi tùy thuộc vào mục đích nghiên cứu cụ thể.
Dựa vào các giá trị trường quan sát được trên các đối tượng chuẩn, các nhà nghiên cứu xác định các đặc trưng thống kê của trường cho từng loại đối tượng Những đặc trưng này bao gồm các chỉ số quan trọng giúp phân tích và hiểu rõ hơn về các đặc điểm của từng loại đối tượng.
Đường cong biến phân (hàm phân bố mật độ xác suất thực nghiệm)
Kỳ vọng và phương sai của trường được xác định thông qua đường cong biến phân, cùng với việc tính toán hệ số tương quan giữa các dấu hiệu và phương chủ đạo của các dị thường Để phân tích nhận dạng hiệu quả, việc lựa chọn các đối tượng chuẩn là rất quan trọng; các diện tích chứa đối tượng chuẩn cần phải xen kẽ với các khu vực khảo sát Trong trường hợp không có đối tượng chuẩn, khu vực khảo sát sẽ được chia thành các diện tích cơ sở – cửa sổ, với kích thước và số lượng điểm quan sát được xác định dựa trên tỉ lệ bản đồ và kích thước dị thường Diện tích cơ sở nhỏ nhất được chọn nhằm phục vụ cho việc đề xuất khảo sát chi tiết trong tương lai, và nó cũng có thể được coi là cửa sổ trượt, trong đó các đặc trưng thống kê được gán cho điểm trung tâm của cửa sổ.
Lượng tin của dấu hiệu đề cập đến khả năng phân biệt các đối tượng khác nhau Khả năng này phụ thuộc vào việc các đối tượng trong cùng một lớp có thường xuyên thể hiện các giá trị cố định của dấu hiệu hay không, cũng như việc các giá trị này có phân bố vượt ra ngoài giới hạn của lớp đó hay không.
Trong bài viết này, chúng ta sẽ khám phá các khái niệm về lượng tin, bao gồm lượng tin từng phần, lượng tin tổng và lượng tin tổng hợp Lượng tin từng phần đề cập đến lượng thông tin của các dải giá trị hoặc nhóm giá trị riêng biệt của một dấu hiệu cụ thể Ngược lại, lượng tin tổng là lượng thông tin bao gồm toàn bộ các giá trị của một dấu hiệu nào đó Cuối cùng, lượng tin tổng hợp tính toán lượng thông tin cho các dạng kết hợp khác nhau của nhiều dấu hiệu.
Trong quá trình nhận dạng, không phải tất cả các dấu hiệu trường đều có giá trị như nhau; một số dấu hiệu địa vật lý có thể không cung cấp thông tin hữu ích và thậm chí gây nhiễu, làm giảm chất lượng nhận dạng đối tượng Do đó, việc đánh giá mức độ tin cậy của từng dấu hiệu là cần thiết để lựa chọn những dấu hiệu có giá trị cao cho quá trình xử lý, đồng thời loại bỏ những dấu hiệu có giá trị thấp.
Chọn thuật toán xử lý
Việc lựa chọn các thuật toán để xử lý dữ liệu có ảnh hưởng lớn đến chất lượng của quá trình xử lý Để đảm bảo chất lượng cao, cần xem xét các yếu tố như nhiệm vụ địa chất cụ thể mà thuật toán phải thực hiện.
Trong khảo sát địa vật lý, nếu mục tiêu là tìm kiếm mỏ, thuật toán cần nhận dạng hai lớp đối tượng: lớp quặng và lớp không quặng Ngược lại, nếu nhiệm vụ là đo vẽ bản đồ địa chất, thuật toán phải có khả năng nhận dạng đồng thời nhiều lớp đối tượng liên quan, bao gồm nhiều loại đất đá và các yếu tố kiến tạo khác nhau.
Khi các số liệu địa vật lý chứa thông tin ở hai mức: mức “có” (dị thường) và mức “không” (phông), các thuật toán logic được áp dụng Đối với các số liệu địa vật lý có thông tin định lượng, thuật toán kiểm chứng thống kê sẽ được sử dụng Tính độc lập và không độc lập là yếu tố quan trọng trong việc phân tích dữ liệu này.
Khi các dấu hiệu trường địa vật lý độc lập, có thể áp dụng các thuật toán đơn giản Tuy nhiên, nếu các dấu hiệu có mối liên hệ với nhau, các thuật toán phức tạp hơn sẽ được sử dụng Mức độ đầy đủ của các thông tin tiên nghiệm cũng đóng vai trò quan trọng trong quá trình phân tích.
Mức độ đầy đủ của thông tin tiên nghiệm phản ánh sự hoàn chỉnh của các mô hình vật lý địa chất Khi có các đối tượng chuẩn, việc xử lý sẽ sử dụng thuật toán nhận dạng mẫu chuẩn để phân loại trường, từ đó nâng cao độ chính xác trong phân tích.
Đánh giá chất lượng xử lý
Các thuật toán nhận dạng có mẫu chuẩn dựa vào chỉ số tương đồng để quyết định nghiệm, xác định mức độ giống nhau giữa đối tượng nghiên cứu và đối tượng chuẩn Trong khi đó, các thuật toán không có mẫu chuẩn phân chia diện tích khảo sát thành các phần đồng nhất dựa vào tổng hợp các dấu hiệu, với việc phân loại dựa trên các chỉ tiêu định nghiệm khác nhau Chỉ tiêu này phụ thuộc vào số lượng lớp đối tượng cần phân chia.
1.1.5 Đánh giá chất lƣợng xử lý [1] [10] Đối với các thuật toán nhận dạng có mẫu chuẩn, chất lượng xử lý được đánh giá dựa vào sai số nhận dạng các đối tượng kiểm chứng Các đối tượng kiểm chứng là các đối tượng mà bản chất địa chất của chúng đã được xác định rõ, song chúng không được chọn làm đối tượng mẫu mà là đối tượng được dùng làm kiểm tra các kết quả nhận dạng Đối với các thuật toán nhận dạng không đối tượng chuẩn người ta sử dụng xác suất nhận dạng sai lầm để đánh giá chất lượng xử lý Xác suất này được tính dựa vào việc tính tích phân hàm phân bố mật độ xác suất của một hệ số gọi là hệ số tương thích Các hàm này được xác định riêng cho các đối tượng kiểm chứng của từng lớp một.
Lý thuyết các thuật toán nhận dạng
Các thuật toán nhận dạng có mẫu chuẩn
Các thuật toán nhận dạng có mẫu chuẩn xác định bản chất địa chất của đối tượng bằng cách so sánh các dấu hiệu địa vật lý đặc trưng của đối tượng chuẩn với các dấu hiệu của đối tượng nghiên cứu Dưới đây là một số thuật toán điển hình, trong đó thuật toán logic là một ví dụ tiêu biểu.
Trong các thuật toán logic, để nhận dạng đối tượng hoặc là người ta tính lượng tin tổng, hoặc là xác định khoảng cách tổng
Công việc đầu tiên, người ta tiến hành mã hóa các dấu hiệu trường bằng mã nhị phân gồm tập số 0 và 1
Nếu xkl là giá trị trường thứ l của mẫu thứ k thì:
- xkl = 0 khi mẫu k không chứa giá trị thứ l
- xkl = 1 khi mẫu k chứa giá trị thứ l Bằng cách trên toàn bộ các mẫu được mã hóa
Dựa vào các tổ hợp số 0 và 1 từ thông tin, người ta xác định các từ thông tin chuẩn cho từng lớp đối tượng Từ thông tin chuẩn của một lớp là từ xuất hiện p lần trong các đối tượng chuẩn của lớp đó và không xuất hiện ở các đối tượng chuẩn thuộc lớp khác Mỗi lớp đối tượng có thể có nhiều từ thông tin chuẩn, được gọi là tổ hợp dấu hiệu phức hợp Trong các tổ hợp này, tổ hợp nào đặc trưng cho số lượng mẫu chuẩn lớn hơn sẽ có lượng tin lớn hơn.
Cuối cùng, việc nhận dạng các đối tượng nghiên cứu được thực hiện bằng cách kiểm tra số lượng tổ hợp dấu hiệu phức hợp của từng lớp trong đối tượng Nếu một lớp có số lần gặp tổ hợp dấu hiệu phức hợp nhiều hơn so với các lớp khác, đối tượng nghiên cứu sẽ được xếp vào lớp đó Bước tiếp theo là áp dụng thuật toán hồi quy.
Thuật toán này chủ yếu tập trung vào việc xây dựng các hàm hồi quy nhằm xác định mối quan hệ giữa các tham số địa chất cần tìm và các số liệu địa vật lý đã được quan sát.
Giả sử ta lập một quan hệ hàm giữa tham số địa chất Y và các dấu hiệu địa vật lý x 1 , x 2 …, x k Hàm f(x 1 , x 2 …, x k ) mà ta cần tìm phải thỏa mãn:
Lớp hàm thường được dùng là các hàm đa thức, thường chỉ là bậc 1 (hàm tuyến tính) hoặc bậc 2
Hàm tuyến tính có dạng:
Trong đó Y j là giá trị quan trắc của biến Y tại quan trắc thư j; x ji là giá trị quan trắc thứ j của biến x i
Hàm đa thức bậc hai có dạng:
L l i i ij li lj đạt cực tiểu
Trong đó Y l là giá trị quan trắc của biến Y tại quan trắc thứ l; x li là giá trị quan trắc thứ l của biến x i
Thuật toán phân tích hồi quy có ưu điểm nổi bật là khả năng dễ dàng tích hợp các dữ liệu mới vào phương trình hồi quy thông qua việc thêm các số hạng mới Tuy nhiên, nhược điểm lớn của thuật toán này là với một tập dữ liệu nhất định và một giá trị sai số cố định, có thể tồn tại nhiều hàm hồi quy khác nhau Điều này dẫn đến khó khăn trong việc đưa ra các giải thích về ý nghĩa vật lý của các hệ số trong hàm hồi quy.
Thuật toán nhận dạng trong phân tích số liệu địa vật lý dựa trên mô hình thống kê các đối tượng chuẩn thường áp dụng các thông số như tỉ số sự thật L(x).
Giá trị các thông số đó được tính theo công thức:
P1(x) và P2(x) đại diện cho xác suất xuất hiện của giá trị dấu hiệu x cùng với các đối tượng thuộc lớp 1 (lớp quặng) và lớp 2 (lớp không quặng) Khi áp dụng đối tượng chuẩn cho lớp 1, P2(x) sẽ được thay thế bằng 1 Ở đây, x là một vectơ chứa các giá trị dấu hiệu, bao gồm x1, x2, xk, ví dụ như hàm lượng uranium (qU), thorium (qTh), và kali (qK).
Khi các dấu hiệu x 1 ,x 2 …x k được xem là không phụ thuộc nhau thì xác suất của đại lượng n chiều của tổ hợp n dấu hiệu được tính
J(1:2,x) = J(1:2,x 1 ) + J(1:2,x 2 ) +…+ J(1:2,x k ) Khi các dấu hiệu có sự phụ thuộc rõ ràng và phân bố theo luật chuẩn, việc nhận dạng các đối tượng quặng và không quặng thường sử dụng các hàm phân giải bậc 1 (R 1 ) hoặc bậc 2 (R 2 ) cho các tham số x 1 , x 2 … x n Các hàm này được thể hiện như sau:
Các hệ số a i, b ij, c i được xác định từ ma trận thông tin của các dấu hiệu đối tượng quặng và không quặng Qua các “diện tích đối tượng chuẩn”, ta có thể xác định vectơ giá trị các dấu hiệu x (khi các dấu hiệu độc lập) hoặc các hệ số a i, b ij, c i (khi các dấu hiệu phụ thuộc) Tiếp theo, giá trị L(x), J(1:2,x) hoặc R 1, R 2 được tính toán và phân bố trên diện tích khảo sát, sau đó được biểu diễn trên bản đồ So sánh các giá trị này với giá trị của đối tượng chuẩn giúp nhận diện và khoanh vùng các khu vực tương đồng với đối tượng chuẩn Các dấu hiệu thường là tổ hợp của các tham số đã thu thập.
PHƯƠNG PHÁP PHÂN TÍCH TÀI LIỆU ĐỊA VẬT LÝ MÁY BAY
Các phương pháp phân tích tài liệu địa vật lý máy bay
Công tác phân tích tài liệu địa vật lý máy bay và tổ hợp tài liệu có vai trò quan trọng trong việc giải thích các vấn đề địa chất và dự báo triển vọng khoáng sản Nhiều phương pháp khác nhau được sử dụng tùy thuộc vào mục tiêu, từng bước và điều kiện cụ thể Trong đó, các phương pháp thống kê - nhận dạng được áp dụng rộng rãi và mang lại hiệu quả cao nhất Các nội dung cơ bản của các phương pháp này đóng góp vào việc nâng cao độ chính xác trong phân tích và dự báo khoáng sản.
2.1.1 Các phương pháp tách trường[10]
Các phương pháp tách trường là những kỹ thuật phổ biến và hiệu quả trong việc phân tích tài liệu địa vật lý.
Sử dụng các phương pháp tách trường để phân chia dị thường giúp khoanh định và dự đoán diện phân bố của các đối tượng địa chất gây ra dị thường Một yếu tố quan trọng trong việc áp dụng phương pháp này là lựa chọn bán kính trung bình phù hợp với kích thước của đối tượng gây dị thường.
2.1.2 Nhóm các phương pháp thống kê nhận dạng[10] a Các phương pháp nhận dạng theo đối tượng chuẩn
Trong phân tích nhận dạng có đối tượng chuẩn, việc chọn đối tượng chuẩn là yếu tố quan trọng nhất, tiếp theo là lựa chọn tập hợp các dấu hiệu để phản ánh và nhận dạng các đối tượng Sự lựa chọn này sẽ khác nhau tùy thuộc vào các mục đích nghiên cứu cụ thể Ngoài ra, còn tồn tại các phương pháp nhận dạng không có đối tượng chuẩn.
Trong trường hợp diện tích khảo sát chưa được nghiên cứu kỹ và thiếu đối tượng chuẩn tin cậy, có thể áp dụng các phương pháp nhận dạng không có mẫu theo nguyên lý tự điều chỉnh Phương pháp này giúp phát hiện và khoanh định các diện tích trường dị thường dựa trên những dấu hiệu đã được chọn trước, với nguyên tắc xác suất nhỏ, tương quan yếu và tính trội của một nguyên tố nào đó.
Người ta chú ý đến các diện tích dị thường có khả năng liên quan đến khoáng sản, được xác định qua các dấu hiệu đặc trưng.
Loại thường gặp trong các lớp đất đá khác nhau nhưng rất giống nhau
Các phương pháp nhận dạng không điển hình cho lớp đất đá thường không hiệu quả trong việc đánh giá triển vọng khoáng sản Chúng chủ yếu chỉ giúp phát hiện và khoanh định các khu vực có khả năng liên quan đến khoáng sản, mà không cung cấp thông tin chi tiết về tiềm năng thực sự của chúng.
2.1.3 Các phương pháp thống kê thực nghiệm[10]
Các phương pháp thống kê thực nghiệm được xây dựng dựa trên lý thuyết, kinh nghiệm thực tế và sự tự điều chỉnh nhằm tìm ra lời giải chính xác trong phân tích Sử dụng mô hình toán học, các phương pháp này có thể phân loại các dấu hiệu liên quan đến dị thường quặng và không quặng Các thông số thường được sử dụng, được biểu diễn qua các biểu thức toán học, đóng vai trò quan trọng trong quá trình này.
Các thông số Dominal : D Th K ( q K q Th ) e ( 1 x ) / 2 Trong đó:
K - là độ lệch chuẩn của q K
Các hàm xác suất thống kê phản ánh xác suất bắt gặp của các đặc tính phóng xạ nào đó (theo nguyên tắc xác suất nhỏ)
Các tỉ số hàm lượng các nguyên tố
Các phương pháp thống kê thực nghiệm đã được áp dụng rộng rãi và hiệu quả trong việc phân tích tài liệu phổ gamma hàng không, đặc biệt trong việc phát hiện và xác định các đới biến đổi có thể liên quan đến khoáng sản.
2.1.4 Một số phương pháp khác
Trong phân tích tài liệu phổ gamma hàng không, ngoài các phương pháp chuyên dụng, còn có nhiều phương pháp khác nhằm khai thác triệt để thông tin Các phương pháp này bao gồm phương pháp đạo hàm, phân tích các thành phần chính, phân tích bản đồ bóng và chồng chập thông tin.
Hầu hết các phương pháp như tách trường, nhận dạng và thống kê thực nghiệm đều xử lý dữ liệu liên tục theo tuyến hoặc diện Điều này có nghĩa là chúng phân tích trên các bản đồ trường, bao gồm cường độ bức xạ gamma và hàm lượng các nguyên tố phóng xạ như U, Th, K.
Phương pháp Tần suất - Nhận dạng
Phương pháp Tần suất - Nhận dạng đóng vai trò quan trọng trong luận văn, liên quan mật thiết đến phương pháp phân tích Khoảng cách – Tần suất – Nhận dạng Việc hiểu rõ nội dung cơ bản của phương pháp này là cần thiết để đạt được các mục tiêu tiếp theo trong nghiên cứu.
Phương pháp phân tích Tần suất, được PGS.TS Võ Thanh Quỳnh đề xuất và công bố vào năm 2007 trong bài báo khoa học “Một cách tiếp cận mới giải quyết bài toán nhận dạng trong xử lý phân tích tài liệu địa vật lý” trên TC Địa chất, A/302: 76-80, đã được nhóm tác giả Võ Thanh Quỳnh, Nguyễn Xuân Bình và Nguyễn Đức Vinh tiếp tục nghiên cứu, hoàn thiện và mở rộng khả năng ứng dụng trong những năm gần đây Các kết quả công bố cho thấy phương pháp này mang lại kết quả khả quan trong việc phân tích tài liệu thực tế.
Phương pháp Tần suất là một kỹ thuật phân tích tần suất, giúp đánh giá chất lượng thông tin một cách hiệu quả Phương pháp này tập trung vào việc nhận dạng và phân tích các loại dữ liệu khác nhau, từ đó cung cấp cái nhìn sâu sắc về chất lượng của từng loại thông tin.
2.2.1 Nội dung cơ bản của phương pháp phân tích tần suất [6]
Phương pháp phân tích tần suất, dựa trên tần suất trung bình của sự xuất hiện đồng thời các dấu hiệu theo Griffths-Vinni, được áp dụng cho một mẫu đối tượng cụ thể.
Giả sử ta có ma trận thông tin các tính chất của đối tượng nghiên cứu:
Trong bài viết này, k đại diện cho số loại tính chất của ma trận thông tin, trong khi n là số lượng mẫu chứa thông tin về các tính chất của đối tượng Các thông tin này được biểu diễn qua các khái niệm logic như "có" hoặc "không", hoặc thông qua các số 1 và 0.
Theo Griffths-Vinni, lượng thông tin tương đối của dấu hiệu thứ “i” được xác định theo công thức:
Trong đó: n,i,j là tần suất xuất hiện đồng thời các tính chất thông tin thứ “i” và thứ “j”
Khi sắp xếp các dấu hiệu của đối tượng theo thứ tự giảm dần của lượng thông tin tương đối, ta sẽ tạo ra một tập mới Tỷ trọng thông tin của m dấu hiệu đầu tiên được tính theo tỷ lệ phần trăm trong tổng thông tin của tất cả k dấu hiệu.
P m là tiêu chí quan trọng để xác định tập hợp các tính chất cần thiết nhằm chứa đựng thông tin theo yêu cầu nghiên cứu Khi gán cho P m một giá trị tỷ lệ phần trăm cụ thể, chúng ta có thể xác định được tập hợp m tính chất tương ứng.
Phương pháp phân tích tần suất theo thuật toán Giffiths - Vinni cho phép đánh giá chất lượng của từng loại thông tin trong nhận thức đối tượng Dựa trên kết quả này, nghiên cứu có thể lựa chọn các loại thông tin có giá trị cao để phục vụ cho các mục đích nghiên cứu.
Tác giả đã phát triển một phương pháp mới mang tên “Phương pháp tần suất - nhận dạng” dựa trên nội dung của phương pháp phân tích tần suất, nhằm giải quyết bài toán nhận dạng một cách trực tiếp.
2.2.2 Phương pháp Tần suất-Nhận dạng
Để đánh giá và lựa chọn tổ hợp thông tin theo thuật toán Griffths-Vinni, việc đầu tiên cần thực hiện là xây dựng ma trận thông tin của đối tượng mẫu Ma trận này được hình thành thông qua các bước cụ thể.
Để xây dựng ma trận thông tin, việc xác định tính chất của các tham số là rất quan trọng Điều này bao gồm việc xác định các khoảng giá trị đặc trưng chung của các tham số, từ đó làm cơ sở cho việc xây dựng các đơn vị thông tin trong ma trận.
Để xác định giá trị của từng đơn vị thông tin trong ma trận, cần phân loại các tính chất thành “yes” hoặc “no”, tương ứng với giá trị 1 hoặc 0 Sau khi xác định được các khoảng giá trị đặc trưng, chúng sẽ được sử dụng như “cửa sổ quét” để tạo ra các đơn vị thông tin cho từng loại thông tin của từng phần tử Nếu phần tử nằm trong khoảng giá trị đặc trưng, nó sẽ nhận giá trị 1; nếu không, giá trị sẽ là 0 Qua đó, ma trận thông tin chứa số liệu địa chất và địa vật lý sẽ được chuyển đổi thành ma trận thông tin chuẩn theo yêu cầu của thuật toán, với các phần tử là giá trị 1 hoặc 0 Do đó, việc xây dựng ma trận thông tin yêu cầu một tập hợp số liệu phong phú và đa dạng.
Để phân tích đối tượng và xác định các đối tượng đồng dạng, việc đánh giá và lựa chọn tổ hợp thông tin chất lượng cao từ các loại thông tin sẵn có là rất quan trọng Số lượng loại thông tin được chọn sẽ phụ thuộc vào giá trị ngưỡng P m đã được thiết lập.
Phân tích đối sánh, xác định các đối tượng đồng dạng
Xây dựng ma trận thông tin cho đối tượng đối sánh tương tự như đối tượng mẫu là quá trình quan trọng, trong đó chúng ta sử dụng các khoảng giá trị đặc trưng của đối tượng mẫu để tạo ra sự tương đồng Việc này giúp tối ưu hóa việc phân tích và so sánh, từ đó nâng cao hiệu quả trong nghiên cứu và ứng dụng.
Tiến hành đánh giá tỉ trọng thông tin cho tất cả các tính chất của đối tượng đối sánh bằng phương pháp phân tích tần suất theo thuật toán Griffiths-Vinin giúp tối ưu hóa quá trình phân tích dữ liệu Phương pháp này cho phép xác định mức độ quan trọng của từng tính chất, từ đó cải thiện độ chính xác trong việc so sánh và đánh giá các đối tượng Sử dụng thuật toán Griffiths-Vinin sẽ mang lại những kết quả đáng tin cậy và hiệu quả trong nghiên cứu.