Lý thuyết cơ sở để so khớp thông tin

Một phần của tài liệu XÂY DỰNG KIẾN TRÚC CỔNG THÔNG TIN TÌM VIỆC (Trang 35)

3 Cơ sở và nền tảng xây dựng kiến trúc

3.6.3 Lý thuyết cơ sở để so khớp thông tin

3.6.3.1 Các loại dữ liệu trong khai thác thông tin (Content types – Data mining)11

Một trong những cơ sở để so khớp thông tin với nhau, đó là cần xác định loại dữ liệu của thông tin, loại dữ liệu (content type) biểu hiện cấu trúc hành vi của thông tin được lưu trữ. Ví dụ, nếu thông tin lặp lại trong một khoảng xác định, như các ngày trong tuần là dữ liệu tuần hoàn (cyclical). Các loại dữ liệu trong khai thác dữ liệu được phân loại như sau:

Kiểu rời rạc (Discrete)

Kiểu dữ liệu rời rạc là các giá trị của nó chỉ nằm trong danh sách giá trị hữu hạn, không có tính liên tục giữa các giá trị. Ví dụ, giới tính là một thuộc tính rời rạc cơ bản, nó thể hiện một giá trị trong danh mục được định sẵn, là nam hoặc nữ.

Các giá trị của thuộc tính rời rạc không thể thực hiện sắp xếp, mặc dù giá trị là kiểu số. Hơn nữa, nếu giá trị của nó là số thì các giá trị này không thể tính toán được. Ví dụ số khu vực là một ví dụ điển hình dữ liệu rời rạc kiểu số.

Kiểu liên tục (Continuous)

Kiểu dữ liệu liên tục là các giá trị thể hiện dữ liệu số numeric trong một phạm vi rộng. Khác với kiểu rời rạc, thể hiện sự hữu hạn, dữ liệu đếm được, một thuộc tính liên tục thể hiện các phép đo có khả năng mở rộng, và có thể chứa các giá trị dữ liệu vô hạn.

11

Xây dựng kiến trúc cổng thông tin tìm việc| Cơ sở và nền tảng xây dựng kiến trúc

21

Kiểu thứ tự (Ordered)

Loại dữ liệu có thứ tự chỉ các giá trị có trình tự, trật tự nhất định. Tuy nhiên, loại dữ liệu này có trình tự nhưng không biểu hiện khoảng cách hay mối quan hệ nào giữa các giá trị trong tập hợp. Ví dụ, nếu một thuộc tính chứa thông tin về trình độ kỹ năng được đánh giá theo thứ tự từ 1 đến 5, thì không thể suy ra khoảng cách giữa các trình độ này, trình độ đạt mức 5 không nhất thiết là cao hơn 5 lần so với mức độ 1.

Kiểu tuần hoàn (Cyclical)

Kiểu tuần hoàn nhằm mô tả giá trị thể hiện một tập hợp giá trị tuần hoàn có trình tự. Ví dụ, các thứ trong tuần là một tập hợp tuần hoàn có trình tự, bởi vì ngày thứ hai theo sau ngày thứ bảy.

3.6.3.2 Các phương thức so sánh hai dữ liệu với nhau

Để so sánh hai dữ liệu cụ thể với nhau, ta có các phương thức so sánh khác nhau hướng đến một mục đích và phạm vi riêng biệt đến tính ra kết quả độ tương đồng giữa hai dữ liệu. Ta có một số phương thức so sánh 12

sau: 3.6.3.2.1 Absolute Match

Phương pháp so sánh này sẽ thực hiện so sánh hai thuộc tính và chỉ so khớp hoàn toàn. Nếu khớp hoàn toàn thì kết quả được 1 điểm, trường hợp khác sẽ là 0 điểm. Ví dụ thuộc tính thứ nhất là “Apple” và thuộc tính thứ hai cũng là “Apple” vậy là hai thuộc tính khớp hoàn toàn với nhau, nên được 1 điểm, ngược lại so ánh “Apple” và “Application” thì kết quả là 0.

3.6.3.2.2 Soundex Match

Đây là phương thức so sánh dữ liệu theo phát âm của các từ trong tiếng Anh. Mục đích cơ bản là những từ với cách phát âm tương tự nhau được mã hóa thành cùng một chuỗi để có thể thực hiện so khớp mặc cho sự khác biệt nhỏ về chính tả.

12

Xây dựng kiến trúc cổng thông tin tìm việc| Cơ sở và nền tảng xây dựng kiến trúc

22

3.6.3.2.3 Lookup Matching

Lookup matching là phương pháp so sánh bằng cách tìm kiếm từ khóa cần so sánh trong một tập hợp từ khóa có sẵn. Ví dụ như so khớp một tên đường phố có nằm trong danh sách tên đường yêu cầu hay không.

Một phần của tài liệu XÂY DỰNG KIẾN TRÚC CỔNG THÔNG TIN TÌM VIỆC (Trang 35)