3 Cơ sở và nền tảng xây dựng kiến trúc
3.6.3 Lý thuyết cơ sở để so khớp thơng tin
3.6.3.1 Các loại dữ liệu trong khai thác thơng tin (Content types – Data mining)11
Một trong những cơ sở để so khớp thơng tin với nhau, đĩ là cần xác định loại dữ liệu của thơng tin, loại dữ liệu (content type) biểu hiện cấu trúc hành vi của thơng tin được lưu trữ. Ví dụ, nếu thơng tin lặp lại trong một khoảng xác định, như các ngày trong tuần là dữ liệu tuần hồn (cyclical). Các loại dữ liệu trong khai thác dữ liệu được phân loại như sau:
Kiểu rời rạc (Discrete)
Kiểu dữ liệu rời rạc là các giá trị của nĩ chỉ nằm trong danh sách giá trị hữu hạn, khơng cĩ tính liên tục giữa các giá trị. Ví dụ, giới tính là một thuộc tính rời rạc cơ bản, nĩ thể hiện một giá trị trong danh mục được định sẵn, là nam hoặc nữ.
Các giá trị của thuộc tính rời rạc khơng thể thực hiện sắp xếp, mặc dù giá trị là kiểu số. Hơn nữa, nếu giá trị của nĩ là số thì các giá trị này khơng thể tính tốn được. Ví dụ số khu vực là một ví dụ điển hình dữ liệu rời rạc kiểu số.
Kiểu liên tục (Continuous)
Kiểu dữ liệu liên tục là các giá trị thể hiện dữ liệu số numeric trong một phạm vi rộng. Khác với kiểu rời rạc, thể hiện sự hữu hạn, dữ liệu đếm được, một thuộc tính liên tục thể hiện các phép đo cĩ khả năng mở rộng, và cĩ thể chứa các giá trị dữ liệu vơ hạn.
11
Xây dựng kiến trúc cổng thơng tin tìm việc| Cơ sở và nền tảng xây dựng kiến trúc
21
Kiểu thứ tự (Ordered)
Loại dữ liệu cĩ thứ tự chỉ các giá trị cĩ trình tự, trật tự nhất định. Tuy nhiên, loại dữ liệu này cĩ trình tự nhưng khơng biểu hiện khoảng cách hay mối quan hệ nào giữa các giá trị trong tập hợp. Ví dụ, nếu một thuộc tính chứa thơng tin về trình độ kỹ năng được đánh giá theo thứ tự từ 1 đến 5, thì khơng thể suy ra khoảng cách giữa các trình độ này, trình độ đạt mức 5 khơng nhất thiết là cao hơn 5 lần so với mức độ 1.
Kiểu tuần hồn (Cyclical)
Kiểu tuần hồn nhằm mơ tả giá trị thể hiện một tập hợp giá trị tuần hồn cĩ trình tự. Ví dụ, các thứ trong tuần là một tập hợp tuần hồn cĩ trình tự, bởi vì ngày thứ hai theo sau ngày thứ bảy.
3.6.3.2 Các phương thức so sánh hai dữ liệu với nhau
Để so sánh hai dữ liệu cụ thể với nhau, ta cĩ các phương thức so sánh khác nhau hướng đến một mục đích và phạm vi riêng biệt đến tính ra kết quả độ tương đồng giữa hai dữ liệu. Ta cĩ một số phương thức so sánh 12
sau: 3.6.3.2.1 Absolute Match
Phương pháp so sánh này sẽ thực hiện so sánh hai thuộc tính và chỉ so khớp hồn tồn. Nếu khớp hồn tồn thì kết quả được 1 điểm, trường hợp khác sẽ là 0 điểm. Ví dụ thuộc tính thứ nhất là “Apple” và thuộc tính thứ hai cũng là “Apple” vậy là hai thuộc tính khớp hồn tồn với nhau, nên được 1 điểm, ngược lại so ánh “Apple” và “Application” thì kết quả là 0.
3.6.3.2.2 Soundex Match
Đây là phương thức so sánh dữ liệu theo phát âm của các từ trong tiếng Anh. Mục đích cơ bản là những từ với cách phát âm tương tự nhau được mã hĩa thành cùng một chuỗi để cĩ thể thực hiện so khớp mặc cho sự khác biệt nhỏ về chính tả.
12
Xây dựng kiến trúc cổng thơng tin tìm việc| Cơ sở và nền tảng xây dựng kiến trúc
22
3.6.3.2.3 Lookup Matching
Lookup matching là phương pháp so sánh bằng cách tìm kiếm từ khĩa cần so sánh trong một tập hợp từ khĩa cĩ sẵn. Ví dụ như so khớp một tên đường phố cĩ nằm trong danh sách tên đường yêu cầu hay khơng.