Bảng 1.6 Các nghiên cứu liên quan sử dụng đồ thị lời gọi hệ thống
Tác giả Kỹ thuật tiền xử lý dữ liệu
Số chiều vector đặc trưng được trích xuất Thuật tốn phân loại áp dụng ACC (%) FPR (%) TPR (%) AUC Alhaidari
[70] Feature pruningmethod 31 HMM 94.67 1.88 47.86 -
Alhanahnah
[71] N-gram stringfeatures 400 ClusteringK-means 85.20 - - - Karanja [72] texture featuresHaralick image 20 RF 95.38 - - 0.97 Meidan [58] traffic statisticsExtracting 115 autoencoderDeep - 1.7 - -
Shobana
[73] N-gram, TFIDF 184 RNN 98.31 - - -
Nguyen [74] Subgraph2Vec 140 RF 97.00 - - 0.96
Dựa trên khảo sát các nghiên cứu trên, phương pháp tiền xử lý dữ liệu lời gọi hệ thống tồn tại hai xu hướng chính là:
- Coi dữ liệu lời gọi hệ thống là những dữ liệu cĩ thuộc tính rời rạc (categorical attribute), độc lập khơng cĩ liên quan tới nhau. Tức là dữ liệu này được sinh ra từ
những phân phối độc lập và giống hệt nhau (independently and identically distributed). - Coi dữ liệu lời gọi hệ thống là những dữ liệu cĩ thuộc tính tuần tự (sequential
attribute), cĩ mối liên hệ mật thiết, cĩ thứ tự trước sau.
Với gĩc nhìn thứ nhất, các nhà nghiên cứu áp dụng các phương pháp xử lý dữ liệu cĩ đặc trưng rời rạc để trích xuất đặc trưng phục vụ quá trình huấn luyện mơ hình phân lớp [75]. Thuộc tính rời rạc thường cĩ một tập xác định giá trị cĩ thể (domain) và là tập hợp các giá trị rời rạc nằm trong “domain” này. Việc phân lớp mẫu dữ liệu mới A phụ thuộc vào cách kiểm tra các giá trị thuộc tính rời rạc của mẫu A cĩ thuộc tập giá trị
D(X) của thuộc tính rời rạc lớp X hay khơng: 𝑣𝑣 𝑣𝑣𝑣(𝑣 ) ∈ 𝑣 (𝑣 ). Cách kiểm tra này
là một phép logic đơn giản, tốn ít tài nguyên tính tốn. Tuy nhiên, do tập hợp cĩ tính hốn vị, nên đặc điểm thứ tự xuất hiện của các giá trị thuộc tính của mẫu A sẽ bị loại bỏ trong quá trình xử lý dữ liệu với gĩc nhìn này. Sự mất mát này cĩ thể dẫn tới vấn đề thiếu chính xác trong kết quả phân lớp của mơ hình mặc dù tiêu tốn ít tài ngun tính tốn.
Đối lập với cách nhìn thứ nhất, các nhà nghiên cứu coi dữ liệu lời gọi hệ thống cĩ thứ tự trước sau rõ ràng, cĩ sự ràng buộc mật thiết. Giống như các “từ” trong một đoạn văn được viết theo một trình tự nhất định. Nếu các từ trong đoạn văn đĩ bị hốn vị một cách ngẫu nhiên (khơng ảnh hưởng tới tần xuất xuất hiện trong đoạn văn) thì sẽ khĩ để nắm bắt ý nghĩa của nĩ. Tương tự với các dữ liệu kiểu chuỗi thời gian (time- series data) như tín hiệu âm thanh trong một cuộc hội thoại, các khung hình trong một đoạn video,… đều cần một cách thức xử lý dữ liệu để khơng làm mất đặc trưng tuần tự mà máy tính cĩ thể học được. Cách xử lý phở biến nhất là biến đởi các “từ” thành vector số (word to vector) đặc trưng cho ý nghĩa của nĩ trong ngữ cảnh được gọi là “word embedding”. Kỹ thuật này này đảm bảo rằng các từ tương tự nhau sẽ cĩ giá trị vector gần giống nhau.
Tiêu biểu cho kỹ thuật này là Word2vec, là một mạng nơ-ron 2 lớp với duy nhất một lớp ẩn, đầu vào là một “corpus” lớn và sinh ra khơng gian vector cĩ số chiều lên tới vài trăm. Với mỗi từ duy nhất trong “corpus” được gắn với một vector tương ứng trong khơng gian vector này. Các vector đại diện cho “từ” được xác định sao cho những từ cĩ chung ngữ cảnh trong “corpus” được đặt gần nhau trong khơng gian này (được minh họa tại Hình 1.12). Dự đốn về nghĩa của một từ dựa trên những lần xuất hiện trước đĩ trong “corpus”. Cĩ hai cách phở biến để xây dựng word2vec là: Sử dụng ngữ cảnh để dự đốn mục tiêu (Continuos Bag of Words - CBOW) và sử dụng một từ để dự đốn ngữ cảnh mục tiêu (Skip-gram). Mơ hình chung của word2vec (cả CBOW và Skip-gram) đều dựa trên một mạng nơ-ron khá đơn giản. Gọi V là tập các tất cả các từ hay vocabulary với n từ khác nhau. Lớp đầu vào (layer input) biểu diễn dưới dạng one-hot encoding với n node đại diện cho n từ trong vocabulary. Hàm kích hoạt (Activation function) chỉ cĩ tại lớp cuối là softmax function, hàm mất mát (loss function) sử dụng cross entropy loss. Ở giữa 2 lớp đầu vào/ra là lớp ẩn với kích thước
size = k, chính là vector sẽ được sử dụng để biểu diễn các từ sau khi huấn luyện mơ