Đề tài nghiên cứu khoa học cấp Trường: Nghiên cứu và đề xuất các thuật toán phân cụm tích hợp ràng buộc và học sâu

Thuật toán phân cụm bán giám sát thuộc nhánh nghiên cứu về học bán giám sát và đã được quan tâm nhiều trong khoảng 20 năm trở lại đây, trong khi kỹ thuật học sâu là một nhánh nghiên cứu

Trang 1

ĐẠI HỌC QUỐC GIA HÀ NỘI

BAO CAO TONG KET

KET QUA THUC HIEN DE TAI KH&CN

CAP DAI HQC QUOC GIA

Tên nhiệm vụ: Nghiên cứu và dé xuat các thuật toán phan cụm tích hợp ràng buộc và học sâu

Mã số nhiệm vụ: QG.21.58

Chủ nhiệm nhiệm vụ: PGS.TS Vũ Việt Vũ

Hà Nội, tháng 05 - 2024

Trang 2

PHÀN I THÔNG TIN CHUNG

1.1 Tên đề tài: Nghiên cứu và đề xuất các thuật toán phân cụm tích hợp ràng buộc và học sâu 1.2 Mã số: QG.21.58

1.3 Danh sách chủ trì, thành viên tham gia thực hiện đề tài

Họ và tên, học hàm, học Rook „ Chức danh trong nhiệm

: Tô chức công tac

vị vụ

1 | PGS.TS Vũ Việt Vũ Viện Công nghệ Thông tin, Đại Chủ nhiệm đề tài

học QGHN

A : Viện Công nghệ Thông tin, Đại Thư ký khoa học

TS Lê Quang Minh học QGHN

a Viện Công nghệ Thông tin, Dai Thành viên chính

TS Lê Cường học QGHN

4 | TS Vũ Việt Thắng Trường Đại học cong nghiép Ha Thanh vién chinh

x TIÀ R Viện Công nghệ Thông tin, Đại Thành viên chính

ThS Do Hồng Quân học QGHN

x Viện Công nghệ Thông tin, Đại Thành viên chính

ThS Phan Đăng Khoa học QGHN

7 | Th§ Lê Thị Kiều Oanh Trường Đại học Kinh te - Kỹ Thành viên chính

thuật Công nghiệp

x , Viện Công nghệ Thông tin, Đại Thành viên

ThS Nguyên Thúy Hanh học QGHN

1.4 Đơn vị chủ trì:

1.5 Thời gian thực hiện:

1.5.1 Theo hợp đồng: 24 tháng, từ tháng 4 năm 2021 đến tháng 4 năm 2023 1.5.2 Gia hạn (nếu có): 8 tháng

1.5.3 Thực hiện thực tế: 32 tháng, từ tháng 4 năm 2021 đến tháng 12 năm 2023

1.6 Những thay đối so với thuyết minh ban đầu (nếu có):

( ve mục tiêu, nội dung, phương pháp, kết quả nghiên cứu và tổ chức thực hiện; Nguyên nhân; Y

kiên của Cơ quan quản lý)

1.7 Tống kinh phí được phê duyệt của đề tài: 300 triệu đồng.

Trang 3

PHAN II TONG QUAN KET QUÁ NGHIÊN CỨU

1 Dat van dé

Học máy đóng vai trò quan trong trong các hệ thống phân tích dir liệu thông minh, trên thực

tế, đây chính là cái lõi của các hệ thống Trí tuệ nhân tạo Với sự phát triển nhanh chóng của các

thiết bị thu thập, truyền tải, tích hợp, tổng hợp dữ liệu, tạo ra các kho dữ liệu không lồ ở tất cả các

ngành, lĩnh vực khác nhau đòi hỏi phải có các công cụ học máy hiệu qua dé xử lý và khai phá dit

liệu phục vụ cho các mục đích khác nhau trong thực tế Chúng ta có thể dễ dàng nhận thấy các hệ

thống thương mại điện tử, kinh doanh, quảng cáo, các hệ thống xử lý ảnh, nhận dạng, camera giám

sát, với sỐ lượng dt liệu lớn va đa dang đều cần các các thuật toán học máy hiệu quả để thực thi

và triển khai các bài toán cụ thê.

Thuật toán phân cụm bán giám sát thuộc nhánh nghiên cứu về học bán giám sát và đã được quan tâm nhiều trong khoảng 20 năm trở lại đây, trong khi kỹ thuật học sâu là một nhánh nghiên

cứu của học có giám sát được coi là bước đột phá trong nghiên cứu về học có giám sát có sức hút

lớn trong khoảng 10 năm trở lại đây với nhiều kết quả rất tích cực khi áp dụng vào các bài toán

khác nhau.

2 Mục tiêu

Mục tiêu chính của đề tài là tập trung vào nghiên cứu hai kỹ thuật học máy quan trọng đã thu hút nhiều sự quan tâm trong thời gian gần đây là kỹ thuật phân cụm bán giám sát và kỹ thuật học sâu.

3 Phương pháp nghiên cứu

Phương pháp nghiên cứu của đề tài được sử dụng gồm nghiên cứu lý thuyết và nghiên cứu thực nghiệm Các vấn đề cần giải quyết liên quan đến các giải thuật và lý thuyết về phân cụm, phân

cụm bán giám sát, mạng nơ ron học sâu.

Các kỹ thuật sử dụng sẽ gắn với từng nội dung chính của dé tai.

4 Tong kết kết quả nghiên cứu

4.1 Phân cụm và phân cụm ban giám sat

Thuât toán phân cụm (clustering) đữ liệu nhằm phân tách một tập dữ liệu X có n phần tử trong

không gian m chiều thành các cụm sao cho các phần tử trong mỗi cụm thì tương tự nhau và các phần tử khác cụm thì không tương tự nhau theo một độ đo nào đó Các thuật toán kinh điển cho bài

toán phân cum đữ liệu có thé kế đến như K-Means, Fuzzy C-Means, DBSCAN, thuật toán phân cụm thứ bậc, thuật toán phân cụm dựa trên lý đồ thị [1] Gần đây một thuật toán phân cụm dựa

trên mật độ mới có tên DPC (Density Peak Clustering viết tắt là DPC) được giới thiệu năm 2014 đã thu hút sự chú ý của nhiều nhà nghiên cứu [61].

Trong khoảng 20 năm trở lại đây, để cải tiến chất lượng phân cụm, các thuật toán phân cụm

bán giám sát đã được nghiên cứu và giới thiệu [2] Với các nghiên cứu đã công bố cho thấy khi sử

dụng một lượng nhỏ các thông tin bồ trợ ban đầu các thuật toán phân cụm bán giám sát đã cho kết

quả tốt hơn đáng ké các thuật toán phân cụm truyền thống.

Trang 4

Ý tưởng cơ bản của việc nghiên cứu các thuật toán phân cụm bán giám sát là việc tích hợp các

ràng buộc bao gồm must-link/cannot-link/seeds vào trong quá trình phân cụm dé làm tăng chất lượng của quá trình phân cum Rang buộc must-link(x,y) với x, y là các phan tử thuộc tập dữ liệu X

thé hiện x và y nên được nhóm vào cùng một cụm, trong khi cannot-link(x,y) cho biết x và y sẽ nên phân vào hai cụm khác nhau; với các seeđ(x) được cho bởi nhãn của điểm x trước khi phân cụm Hình 1 minh họa các dang ràng buộc sử dụng trong bài toán phân cụm bán giám sát [3] Dé phát

triển các thuật toán phân cụm bán giám sát, chúng ta phải đi xây dựng thuật toán có khả năng tích

hợp các ràng buộc một cách hiệu quả Có nhiều chiến lược dé tích hợp ràng buộc như: (1) chiến lược nhúng các ràng buộc trực tiếp vào quá trình phân cụm (phát triển từ các thuật toán truyền

thống như K-means, DBSCAN, ), (2) chiến lược nhúng các ràng buộc có thé chịu lỗi (phương

pháp này nhằm mục tiêu thỏa mãn một số tối đa các ràng buộc dé đảm bảo chất lượng phân cụm, chấp nhận một số ràng buộc bị vi phạm) [2, 3, 37], (3) chiến lược sử dụng các ràng buộc để xây

dựng hàm độ đo khoảng cách mới (metric learning), đây là một phương án hiệu quả, ý tưởng

llafsuwr dụng các ràng buộc để huấn luyện xây dựng một hàm khoảng cách sao cho trong không

gian độ đo mới, các điểm thuộc cùng một cụm sẽ gần nhau hơn, ngược lại các điểm không cùng một cum sẽ được tách rời ra xa hơn [4,8] (4) chiến lược cuối cùng là ánh xạ bài toán học bán giám sát sang các bài toán quy hoạch tuyến tính, ILP, SAT, và sử dụng các phương pháp toán học đã có

để giải chúng.

Hình 1 (a): dữ liệu có nhãn phục vụ cho học có giám sát, (b) các điểm tương ứng với tập dữ

liệu đầu vào, các seed (labeled data) tương ứng là các điểm ký hiệu bởi các dấu cộng, dấu nhân, và dấu sao; (c) các ràng buộc must-link và cannot-link được biểu diễn tương ứng bằng các đoạn thang nét liền và nét ditt, (4) dữ liệu dau vào cho bài toán phân cụm không giám sát truyền thống.

Trong thời gian vừa qua, nhiều công bố về phân cụm bán giám sát đã được cộng đồng nghiên

cứu và giới thiệu bao gồm: Constrained K-Means [2, 3, 17], Constraint Fuzzy C-Means [12],

Sem-supervised Fuzzy C-Means [59, 60], Constrained Hierarchical Clustering [6, 31], Constraint

Spectral Clustering [15, 19], Constraint DBSCAN [20, 24, 30], Constraint Graph Clustering [18],

Seed Fuzzy C-means [9, 32], Seed K-Means [5], Seed DBSCAN [33], Seed-based Spectral clustering [19], Seed based graph clustering [21, 25], Constraint Density Peak Clustering [66].

Trang 5

Song song với việc nghiên cứu các thuật toán phân cụm bán giám sát thì một vấn đề quan trọng khác cần nghiên cứu đó là nghiên cứu các thuật toán lựa chọn các ràng buộc tốt cho các thuật

toán phân cụm bán giám sát [7, 9, 11, 13, 14, 22, 23, 26-29], đây là dạng thuật toán học tích cực.

Hình 2 mô tả mối liên hệ giữa bài toán học tích cực và bài toán phân cụm bán giám sát; trong đó các thuật toán học tích cực có vai trò lựa chọn các ràng buộc chất lượng phục vụ cho các thuật toán

bai toán học tích cực (active learning).

Một số ứng dụng của các thuật toán phân cụm bán giám sát có thé kể đến như trong bài toán

phân loại trạng thái cảm xúc khuôn mặt [20], phân loại kí tự viết tay [27], ứng dụng trong dịch vụ

web [35], trong sinh học [36]

4.2 Thuật toán học sâu

Học sâu (Deep learning) dựa trên mạng Nơ ron là sự đột phá về nghiên cứu trong lĩnh vực học

có giám sát, một trong những công bố đầu tiên của chủ đề này là công trình của Hilton năm 2006

[39-41] Trong công bố này điểm khác biệt là các lớp trong mạng nơ ron được kết nối với nhau thay

vì các nút của mỗi lớp được kết nối với nhau như thông thường.

Từ công bồ trên, hàng loạt các thuật toán học sâu được nghiên cứu và có nhiều ứng dụng có

thé kế đến cho các mang Noron tích chập (Convolutional Neural Network - CNN), mạng No ron

hồi quy sâu (Recurrent Neuron Network-RNN), LSTM Hình 1.3 minh họa ví dụ về một mạng Nơron tích chập học sâu trong đó có sự xuất hiện của các lớp tích chập (convolutional layer), lớp pooling, lớp kết nói đầy đủ (fully connected).

Trang 6

Conv Module #1 Conv Module #2 Classification

LAS

output: cat? (y/n)

conv2d maxpool conv2d maxpool fully fully Input + ReLU + ReLU connected connected

Hình 3 Vi dụ về cấu trúc mạng học sâu CNN!

Trong hình 3, mang CNN sé bao gồm lớp tích chập, lớp pooling, lớp kết nối đầy du (fully connected) Với CNN, lớp tích chập cũng chính là các lớp ân, khác ở chỗ, lớp tích chập gồm các feature map, về bản chất mỗi feature map này là một bản quét qua của các đầu vào ban đầu

nhưng được trích xuất ra các đặc trưng cụ thể Lớp Pooling sẽ làm nhiệm vụ lấy mẫu trên một vùng

nhất định Các phương thức lấy phô biến trong lớp Pooling là MaxPooling (lấy giá trị lớn nhất), MinPooling (lay gia trị nhỏ nhất) va AveragePooling (lẫy giá trị trung bình) Thông thường thì sau các lớp Conv + Pooling sẽ là 2 lớp kết nối đầy đủ; còn một lớp nữa là lớp đầu ra, số neuron của layer này phụ thuộc vào số output mà ta muốn tìm ra Mạng nơ ron sâu CNN được ứng dụng phổ biến trong các bài toán dữ liệu ảnh hoặc dữ liệu văn bản.

4.3 Kết quá nghiên cứu

4.3.1 Kết quả nghiên cứu về phân cụm và phân cụm bán giám sát

Nghiên cứu đầu tiên của đề tài là nghiên cứu phát triển thuật toán phân cụm bát giám sát Dựa trên những nghiên cứu nên tang đã trình bày trong phan trên, trong nội dung nghiên cứu đầu tiên của

đề tai, chúng tôi đã tập trung vào nghiên cứu và tìm hiểu thuật toán phân cụm dựa trên mật độ, cụ thể thuật toán DPC (viết tắt từ Density Peak Clustering) làm tiền đề cho phát triển thuật toán phân cụm

bán giám sát mới Ý tưởng của thuật toán DPC được trình bày như sau:

Cho tập dữ liệu D gồm n phan tử ƒx¡, xạ, xạ} và tham số thực dương d,, dé tiến hành phân cum

cho tập dữ liệu D chúng ta sẽ thực hiện các bước như sau:

Bước 1: Tính mật độ của phan tử dữ liệu i (p;) theo công thức:

Trang 7

ổ, = min (¿,)

J:2j>Øi

8, chính là khoảng cách ngắn nhất từ điểm i đến điểm j sao cho Dị > Di:

Sau khi có pi và &i ta sẽ đi xây dung đồ thị quyết định (Decision graph) để xác định các đỉnh cục

bộ địa phương (thường gọi là peak) Ví dụ về việc xác định các peak được cho trong hình 2.1 Với

đồ thị ở hình 4, các peak sẽ là các điểm thuộc góc phải trên của dé thị tùy theo ngưỡng của người

Hình 4 Vi dụ về do thị quyết định (bên trái: dữ liệu, bên phải: đô thị quyết định)

Điểm ưu việt của thuật toán DPC 1a chi sử dụng một tham số, có thể tìm ra các cụm có cấu trúc bat kỳ với mật độ khác nhau, phát hiện được các điểm bat thường của dit liệu Thuật toán DPC đã được chứng minh tính hiệu quá khi so sánh với các phương pháp phân cụm nổi tiếng khác như

DBSCAN hay K-means.

Xuất phát từ nghiên cứu trên chúng ta có thê thấy điểm quan trong của vấn đề nằm ở chỗ hàm ước lượng mật độ của dữ liệu, trên thực tế đã có nhiều hàm mật độ dùng cho ước lượng các điểm dữ liệu, tuy nhiên đây là một trong những hàm ước lượng đơn giản nhưng hiệu quả Điểm thú vị thứ hai đó là

đồ thị quyết định, đây cũng là ý tưởng rất hay của nghiên cứu này, từ đồ thị này chúng ta có thể xác định những điểm cốt lõi của các ứng viên sẽ là cụm sau này Từ những nhận định trên, nhóm nghiên

cứu đã phát triển thuật toán học tích cực nhằm thu thập các ràng buộc cho thuật toán phân cụm dựa trên ràng buộc nói chung [62] Ý tương của thuật toán như sau: xuất phát từ đồ thị quyết định, chúng

ta sẽ tìm được các điểm hạt nhân, tiếp đó từ các điểm hạt nhân này chúng ta sẽ tìm đến các điểm xa nhất có thê của đữ liệu để hình thành các câu hỏi về việc các cặp dữ liệu này có thể nằm cùng một

cụm hay không (tao ra các must-link hay cannot-link) Chi tiết của thuật toán được trình bày trong

Algorithm 1.

Trang 8

Hình 5 minh họa ví dụ về các ràng buộc thu thập bởi thuật toán đề xuất Kết quả thực nghiệm ban

đầu trên các tập dữ liệu của UCI đã cho thấy các ràng buộc thu thập được là hiệu quả, làm tăng chất lượng của thuật toán phân cum bán giám sát, chi tiết được công bố trong [62].

Algorithm 1: Active constraint selection based on density peaks;

Input: a data set X = {XI, Xa, , Xa}, de, Output: a set of constraints

Step 1: Calculate p(x¡) for each data point Step 2: Calculate ð(x¡) for each data point

Step 3: Creat decision graph Step 4: Select skeleton peaks from the decision graph

Step 5: Repeat Step 6: Select the point x; that follows the min-max

method;

Step7: t=1;

Step 8: Repeat Step 9: Question to users for getting label of (pi, xx);

Step 10: t=t+1;

Step 11: Until (label(p xx) = CL) or (user_stop = true);

Step 12: Until (user stop = true);

Step 13: Output the set of constraints;

0 0.5 ii 1.5

Hình 5 Vi dụ về các ràng buộc thu thập được của thuật toản đề xuất (các đoạn màu xanh: must-link,

các đoạn đứt nét màu do: cannot-link)

Nghiên cứu thứ hai của hướng là ứng dụng phân cum trong bài toán phân tích và khai phá dữ liệu.

Cụ thé là bái toán phân loại câu hỏi ứng dụng trong hệ thống hỏi đáp (Community Question Answering viết tắt là CQA) — một trong những ứng dụng dựa trên nền tảng internet Có rất nhiều các website cho phép người dùng đặt các câu hỏi sau đó được trả lời bới các chuyên gia lĩnh vực theo rất

7

Trang 9

nhiều chủ đề khác nhau Nổi tiếng nhất có thé kê đến các hệ thống như Quora hay Stack Overflow.

Trên thực tế rất nhiều các câu hỏi đưa ra bởi người dùng là không rõ ràng và khó cho các chuyên gia

có thê trả lời sát với mong muốn của người dùng Chính vì vậy cần có các hệ thống lọc phân loại tự

động các câu hỏi không rõ rang từ đó có thé có những phân hồi ngay cho người hỏi dé chỉnh sửa lại các câu hỏi này Với mục tiêu đó nghiên cứu đề xuất giải pháp dựa trên học máy cho phép dự đoán

và phân loại các câu hỏi thành hai loại là loại câu hỏi rõ ràng (clear) và loại câu hỏi không rõ ràng

(unclear) Các bước cơ bản của thuật toán được minh họa trong hình 6.

Hình 6 Cac công đoạn cua thuật toán phân loại câu hỏi

Với đầu vào là các câu hỏi, các khối cơ bản của thuật toán bao gồm biến đổi câu hỏi dang văn bản sang dạng vector, giảm số chiều, phân cụm các câu hỏi phục vụ cho việc trích chọn và chuẩn hóa các vector đặc trưng bằng thuật toán phân cụm HDBSCAN, cuối cùng các vector đặc trưng thu được sẽ được huấn luyện bởi thuật toán học có giám sát nhằm xây dựng bộ phân lớp Với các bộ dữ liệu đã thực nghiệm, thuật toán đề xuất đã đạt được các kết quả tốt khi so sánh với các nghiên cứu gần đây

đã công bó, chỉ tiết về nghiên cứu được trình bày trong [67].

4.2.2 Kết quả nghiên cứu về học sâu

Nghiên cứu đầu tiên của chủ đề học sâu mà nhóm quan tâm là phát triển thuật toán học sâu hiệu

quả áp dụng cho bài toán phân loại trạng thái cảm xúc khuôn mặt Bài toán phân loại trạng thái cảm

xúc khuôn mặt nhằm phát hiện và phân loại khuôn mặt thành 7 loại trạng thái cảm xúc gồm: Neutral,

Anger, Disgust, Fear, Happiness, Sadness, Surprise Trong nghiên cứu này, nhóm đã đề xuất mô hình

có tên FGW-FER (Lightweight Facial Expression Recognition with Attention) với mục tiêu hướng

đến giảm số lượng tham số giúp cho kiến trúc mạng học sâu hiệu quả hơn [62] Với mục tiêu đó ý tưởng của việc phát triển thuật toán là cân bằng giữa kích thước, mô hình, và độ chính xác của kiến

§

Trang 10

trúc mạng Việc phát triển các mô hình nhẹ thường được thực hiện các thao tác như giảm SỐ lớp,

giảm số tham số, tuy nhiên vẫn dam bảo độ chính xác Hình 7 mô tả mô hình đề xuất FGW-FER gồm

3 phần cơ bản Expansion part, Depth-wise part, và Classifier part Chỉ tiết về các kỹ thuật sử dụng

trong các phần có trong công bố [63].

Hình 7 Mô hình dé xuất cho FGW-FER

Bang | trình bày kết quả so sánh giữa phương pháp đề xuất và một số phương pháp công bố gần đây Phương pháp đề xuất vẫn đạt được các kết quả tốt khi so sánh với các thuật toán gần đây, tuy nhiên số lượng tham số của mô hình đã được cải tiến giám đi đáng kẻ.

Trang 11

Bang 1 Kết quả thực nghiệm của FGW-FER khi so sánh với các phương pháp khác

* Deep-Emotion: Attention mechanism is added through spatial transformer network

** MBCC-CNN: multiple branch cross-connected convolutional neural network

«dao Q ` ` vi su «xe

IoU: 0.8989 Ge loU: 0.9031 /@ IoU: 0.8979 /Ê IoU: 0.9120 J8 IoU: 0.8923 8

Hình 8 Kết qua thực nghiệm so sánh các thuật toán biến thể của U-net

Nghiên cứu thứ hai của nhóm về học sâu là van đề các thuật toán học sâu với xử lý ảnh [64] Thu

thập dir liệu và xây dựng bộ dữ liệu ảnh nội soi từ nhiều nguồn khác nhau và đã công bố trên github’, đây cũng là một đóng góp tốt của nhóm cho cộng đồng nghiên cứu Các thuật toán hiệu quả dựa trên mang CNN như U-net, Attention U-net đã được nghiên cứu và áp dụng cũng như phân tích điều

chỉnh các tham số cho phù hợp với dữ liệu Hình 8 minh họa một số kết quả thực nghiệm cho các phương pháp học sâu khác nhau Nghiên cứu này sẽ là tiền đề cho các nghiên cứu về học sâu áp

dụng cho bài toán phân vùng ảnh sau này Một nghiên cứu khác về học sâu áp dụng cho nhận dạng

hành động của cảnh sát được trình bày trong [64].

? https://github.com/quandhiti/ITI-GERD

10

Trang 12

Tài liệu tham khảo [1] Rui Xu, Donald C Wunsch II, Survey of clustering algorithms IEEE Trans Neural

Networks 16(3): 645-678, 2005.

[2] Kiri Wagstaff, Claire Cardie, Seth Rogers, Stefan Schrédl: Constrained K-means Clustering

with Background Knowledge ICML 2001: 577-584, 2001.

[3] S Basu, I Davidson, and K L Wagstaff, Constrained Clustering: Advances in Algorithms,

Theory, and Applications, Chapman and Hall/CRC Data Mining and Knowledge Discovery Series, Ist edn., 2008.

[4] Eric P Xing, Andrew Y Ng, Michael I Jordan, Stuart J Russell: Distance Metric Learning

with Application to Clustering with Side-Information NIPS, 505-512, 2002.

[5] Sugato Basu, Arindam Banerjee, Raymond J Mooney: Semi-supervised Clustering by

Seeding ICML, 27-34, 2002.

[6] Ian Davidson, S S Ravi: The complexity of non-hierarchical clustering with instance and

cluster level constraints Data Mining and Knowledge Discovery, 14(1):25-61, 2007.

[7] Ahmad Ali Abin, Hamid Beigy: Active selection of clustering constraints: a sequential

approach Pattern Recognition, 47(3): 1443-1458, 2014.

[8] Ahmad Ali Abin, Mohammad Ali Bashiri, Hamid Beigy: Learning a metric when clustering

data points in the presence of constraints Adv Data Anal Classif 14(1): 29-56 (2020)

[9] Ahmad Ali Abin: Querying informative constraints for data clustering: An embedding

approach Appl Soft Comput 80: 31-41, 2019.

[10] Ahmad Ali Abin: Clustering in the presence of side information: a non-linear approach.

Int J Intelligent Computing and Cybernetics 12(2): 292-314 (2019).

[11] Ahmad Ali Abin: Querying Beneficial Constraints before Clustering Using Facility

Location Analysis IEEE Trans Cybernetics 48(1): 312-323 (2018)

[12] Nizar Grira, Michel Crucianu, Nozha Boujemaa: Active semi-supervised fuzzy clustering.

Pattern Recognition 41(5), 2008.

[13] Xiong, S., Azimi, J., Fern, X.Z.: Active learning of constraints for semi-supervised

clustering IEEE Transaction Knowledge Discovery and Data Engineering, 26(1), pp 43-54, 2014.

[14] Jundong Li, Jörg Sander, Ricardo Campello, Arthur Zimek Active Learning Strategies for

Semi-Supervised DBSCAN In Proceedings of 27th Canadian Conference on Artificial Intelligence, 2014.

[15] Xiang Wang, Buyue Qian, Ian Davidson: On constrained spectral clustering and its

applications Data Mining and Knowledge Discovery 28(1): 1-30, 2014.

[16] Ping He, Xiao-hua Xu, Kongfa Hu, Ling Chen: Semi-supervised clustering via multi-level

random walk Pattern Recognition 47(2): 820-832, 2014.

[17] Mikhail Bilenko, Sugato Basu, Raymond J Mooney: Integrating constraints and metric

learning in semi-supervised clustering ICML 2004.

11

Trang 13

[18] Rajul Anand, Chandan K Reddy: Graph-Based Clustering with Constraints PAKDD (2)

2011: 51-62.

[19] Dimitrios Mavroeidis: Accelerating spectral clustering with partial supervision Data

Mining Knowledge Discovery 21(2): 241-258, 2010.

[20] Viet-Vu Vu, Hong-Quan Do, Vu-Tuan Dang, Nang-Toan Do: An efficient density-based

clustering with side information and active learning: A case study for facial expression recognition task Intelligent Data Analysis, 23(1): 227-240, 2019.

[21] Viet-Vu Vu: An efficient semi-supervised graph based clustering Intelligent Data

Analysis, 22(2): 297-307, 2018.

[22] Viet-Vu Vu, Nicolas Labroche: Active seed selection for constrained clustering Intelligent

Data Analysis, 21(3): 537-552, 2017.

[23] Viet-Vu Vu, Nicolas Labroche, and Bernadette Bouchon-Meunier, Improving Constrained

Clustering with Active Query Selection, Pattern Recognition, 45(4): 1749-1758, ISSN:

[26] Viet-Vu Vu, Nicolas Labroche, and Bernadette Bouchon-Meunier Boosting Clustering by

Active Constraint Selection In Proceedings of the 19th European Conference on Artificial Intelligence (ECAD), Lisbon, Portugal, August, 2010.

[27] Ahmad Ali Abin, Viet-Vu Vu, A Density-based Approach for Querying Informative

Constraints for Clustering, Expert System with Applications, 2020.

[28] Viet-Vu Vu, Nicolas Labroche, and Bernadette Bouchon-Meunier An Efficient Active

Constraint Selection Algorithm for Clustering In Proceedings of the 20th IEEE International Conference on Pattern Recognition (ICPR), Istanbul, Turkey, August, 2010.

[29] Viet-Vu Vu, Nicolas Labroche, and Bernadette Bouchon-Meunier Active Learning for

Semi-Supervised K-Means Clustering In Proceedings of the 22nd IEEE International Conference on Tools with Artificial Intelligence (ICTAD, Arras, France, October, 2010.

[30] Carlos Ruiz, Myra Spiliopoulou, Ernestina Menasalvas Ruiz: Density-based

semi-supervised clustering Data Min Knowl Discov 21(3): 345-370, 2010

[31] Tengke Xiong, Shengrui Wang, André Mayers, Ernest Monga: Semi-supervised

Parameter-Free Divisive Hierarchical Clustering of Categorical Data PAKDD 2011:

265-276, 2011.

[32] Violaine Antoine, Benjamin Quost, Marie-Héléne Masson, and Thierry Denoeux: CECM:

Adding pairwise constraints to evidential clustering FUZZ-IEEE, 1-8, 2010.

[33] Levi Lelis, Jorg Sander: Semi-supervised Density-Based Clustering ICDM 2009: 842-847,

2009.

12

Trang 14

[34] Steinbach, David J Hand, Dan Steinberg: Top 10 algorithms in data mining Knowl Inf.

Syst 14(1): 1-37, 2008.

[35] Zheng Q., Wang Y The Application of Semi-supervised Clustering in Web Services

Composition In: Jin D., Lin S (eds) Advances in Computer Science and Information

Engineering Advances in Intelligent and Soft Computing, vol 169 Springer, Berlin, Heidelberg, 2012.

[36] Bair, Eric Semi-supervised clustering methods Wiley interdisciplinary reviews.

Computational statistics vol 5(5), 349-361, 349-361, 2013.

[37] Brian Kulis, Sugato Basu, Inderjit S Dhillon, Raymond J Mooney: Semi-supervised graph

clustering: a kernel approach Mach Learn 74(1): 1-22 (2009)

[38] Mahdi Dehghan, Hossein A Rahmani, Ahmad Ali Abin, Viet-Vu Vu: Mining Shape of

Expertise: A Novel Approach Based on Convolutional Neural Network Information Processing and Management, Vol 4, 2020.

[39] Yann LeCun, Yoshua Bengio, Geoffrey E Hinton: Deep learning Nature, 521(7553):

436-444, 2015.

[40] Hinton, G E.; Osindero, S.; Teh, Y W., A Fast Learning Algorithm for Deep Belief Nets,

Neural Computation 18 (7), pp 1527-1554, 2006.

[41] Weihong Deng, Jiani Hu, Shuo Zhang, Jun Guo: DeepEmo: Real-world facial expression

analysis via deep learning IEEE International Conference on Visual Communications and Image Processing, pp: 1-4, 2015.

[42] Dinh Viet Sang, Le Tran Bao Cuong, Do Phan Thuan: Facial smile detection using

convolutional neural networks KSE, 136-141, 2017.

[43] Hongjing Zhang, Sugato Basu, Ian Davidson: Deep Constrained Clustering - Algorithms

and Advances CoRR abs/1901.10061, 2019.

[44] Jadson Castro Gertrude, Arthur Zimek, Jorg Sander, Ricardo J G B Campello: A unified

view of density-based methods for semi-supervised clustering and classification.Data Min.

Knowl Discov 33(6): 1894-1952, 2019.

[45] Diem-Phuc Tran, Van-Dung Hoang: Adaptive Learning Based on Tracking and

Reldentifying Objects Using Convolutional Neural Network Neural Processing Letters 50(1): 263-282, 2019.

[46] Hong-Nhung Bui, Trong-Sinh Vu, Tri-Thanh Nguyen, Thi-Cham Nguyen, Quang-Thuy

Ha: A Compact Trace Representation Using Deep Neural Networks for Process Mining 1-5, 2019.

[47] Vu Duc Nguyen, Kiet Van Nguyen, Ngan Luu-Thuy Nguyen: Variants of Long

Short-Term Memory for Sentiment Analysis on Vietnamese Students' Feedback Corpus 306-311,

2018.

[48] Huynh Thi Thu Thuy, Duong Tuan Anh, Vo Thi Ngoc Chau: A Novel Method for Time

Series Anomaly Detection based on Segmentation and Clustering 276-281, 2018.

13

Trang 15

[49] Dinh Sinh Mai, Long Thanh Ngo: General Semi-supervised Possibilistic Fuzzy c-Means

clustering for Land-cover Classification 1-6, 2019.

[50] Dinh Viet Sang, Le Tran Bao Cuong: Improving CRNN with EfficientNet-like feature

extractor and multi-head attention for text recognition SoICT: 285-290, 2019.

[51] Dinh Viet Sang, Le Tran Bao Cuong: Effective Deep Multi-source Multi-task Learning

Frameworks for Smile Detection, Emotion Recognition and Gender Classification Informatica (Slovenia) 42(3), 2018.

[52] Hieu Trung Huynh, Vo Nguyen Nhat Anh: A Deep Learning Method for Lung

Segmentation on Large Size Chest X-Ray Image RIVF, 1-5, 2019.

[53] Tru Cao, Chau Vo, Son Nguyen, Atsushi Inoue, Duanning Zhou: A Kernel k-Means-Based

Method and Attribute Selections for Diabetes Diagnosis JACHI, 24(1): 73-82, 2020.

[54] Thai-Le Luong, Minh Son Cao, Duc-Thang Le, Xuan-Hieu Phan: Intent extraction from

social media texts using sequential segmentation and deep learning models KSE, 215-220,

2017.

[55] Nguyen Tho Thong, Le Hoang Son: HIFCF: An effective hybrid model between picture

fuzzy clustering and intuitionistic fuzzy recommender systems for medical diagnosis Expert Syst Appl 42(7): 3682-3701, 2015.

[56] Tomas Mikolov, Ilya Sutskever, Kai Chen, Gregory S Corrado, Jeffrey Dean: Distributed

Representations of Words and Phrases and their Compositionality NIPS 2013: 3111-3119.

[57] Dan C Ciresan, Ueli Meier, Jiirgen Schmidhuber: Multi-column deep neural networks for

image classification CVPR 2012: 3642-3649.

[58] Geert J S Litjens, Thijs Kooi, Babak Ehteshami Bejnordi, Arnaud Arindra Adiyoso Setio,

Francesco Ciompi, Mohsen Ghafoorian, Jeroen A W M van der Laak, Bram van Ginneken, Clara I Sanchez: A survey on deep learning in medical image analysis Medical Image Anal 42: 60-88 (2017).

[59] Dinh Sinh Mai, Long Thanh Ngo, Hung Le Trinh: Advanced Semi-Supervised Possibilistic

Fuzzy C-means Clustering Using Spatial-Spectral Distance for Land-Cover Classification SMC 2018: 4375-4380.

[60] Dinh Sinh Mai, Long Thanh Ngo: General Semi-supervised Possibilistic Fuzzy c-Means

clustering for Land-cover Classification KSE 2019: 1-6.

[61] Rodriguez, A., Laio, A Clustering by fast search and find of density peaks Science, 1492,

2014.

[62] Viet-Vu Vu, Byeongnam Yoon, Hong-Quan Do, Hai-Minh Nguyen, Tran-Chung Dao,

Cong-Mau Tran, Doan-Vinh Tran, Thi-Nhuong Phi, Viet-Thang Vu, Tien-Dung Duong,

Active constraints selection based on density peak, IEEE International Conference on Advanced Communications Technology (ICACT), 2022.

[63] Huy-Hoang Dinh, Hong-Quan Do, Trung-Tung Doan, Cuong Le, Ngo Xuan Bach, Tu

Minh Phuong, Viet-Vu Vu, FGW-FER: Lightweight Facial Expression Recognition with Attention, KSII Transactions on Internet and Information Systems, 2023.

14

Trang 16

[64] Thanh-Hung Nguyen, Hong-Quan Do, Danh-Tuyen Pham, Trung-Tung Doan, Viet-Vu Vu,

A fast skeleton-based recognition of traffic police gestures with spatial-temporal graph convolutional network, International Conference on Computing and Communication

Technologies (RIVF), 2023, Accepted.

[65] Hong-Quan Do, Thi-Ha Nguyen, Viet-Vu Vu, Thi-Mai Hoang, Hai-Minh Nguyen and T.

Thuy-Duong Nguyen, Evaluation of U-Net and Its Variants in Solving Upper Gastrointestinal Endoscopy Segmentation, International Conference on Advanced Computing and Applications (ACOMP), 2021.

[66] Viet-Thang Vu, T.T Quyen Bui, Nguyen Tien Loi, Doan-Vinh Tran, Hong-Quan Do,

Viet-Vu Vu, Constrained Density Peak Clustering, International Journal of Data Warehousing and Mining, Vol 19(1), 2023.

[67] Alireza Khabbazan, Ahmad Ali Abin, Viet-Vu Vu, Improving the Clarity of Questions in

Community Question Answering Networks, Journal of Intelligent Information Systems.

Accepted.

5 Đánh giá về các kết qua đã đạt được và kết luận

Nội dung nghiên cứu của đề tài đã bám sát các mục tiêu nghiên cứu đã đặt ra, cụ thé về hai nội dung phan cum ban giám sat va hoc sâu Các nghiên cứu đều được tiến hành thực nghiệm va

công bố trên các tạp chí và hội thảo tốt Trong thời gian tới nhóm sẽ tiếp tục mở rộng thêm về nghiên cứu lý thuyết cũng như tiến hành thực nghiệm trên các bài toán và dit liệu khác nhau dé tiếp tục cải tiến về nội dung nghiên cứu và phát triển các vẫn đề nghiên cứu mới.

6 Tóm tắt kết quả (tiếng Việt và tiếng Anh)

Tóm tắt:

Nghiên cứu này tập trung vào vấn đề phân cụm bán giám sát và học sâu Đầu tiên, chung tôi tập trung vào phát triển thuật toán học tích cực nhằm thu thập các ràng buộc tốt ứng dụng cho bài toán phân cụm bán giám sát Tiếp theo chúng tôi phát triển thuật toán học sâu nhẹ áp dụng cho bài toán phân loại trạng thái cảm xúc khuôn mặt Cuối cùng chúng tôi giới thiệu phương pháp phát hiện

và làm rõ các câu hỏi chưa rõ ràng trong mạng hỏi đáp cộng đồng dựa trên các kỹ thuật phân cụm

và phân lớp Các kết quả đạt được của đề tài như sau:

- Công bé 01 bài báo ISI-SCIE, Q2,

- Công bé 01 bài báo ISI-SCIE, Q3,

- Công bố 03 bài trên kỷ yếu hội nghị quốc té,

- Hỗ trợ 1 thạc sĩ bảo vệ.

Abstract:

This research focuses on the problem of semi-supervised clustering and deep learning.

Firstly, we study and develop an active learning algorithm which can collect the good constraints for semi-supervised clustering Secondly, we propose a novel lightweight deep learning model which incorporates three key factors including Depth-wise Separable Convolution, Residual Block, and Attention Modules for the facial expression recognition task Finally, we proposed a method for

15

Trang 17

enhancing the clarity of unclear questions in Community Question Answering networks based on

combination of clustering and classification techniques The results of this project are as follows:

- 0I ISI-SCIE, Q2 journals,

- 0I ISI-SCIE, Q3 journals,

- 03 international conference papers

- 01 master students defended.

16

Trang 18

PHAN III SAN PHAM, CÔNG BO VA KET QUA DAO TẠO CUA ĐÈ TÀI 3.1 Kết quả nghiên cứu

(SCIE, Q3) Vượt so với đăng ky

Báo cáo khoa 0 học toàn văn

WoS/Scopus Vượt so với đăng ky

Bài báo quốc tế không thuộc hệ

dinh

Danh gia

chung (Dat/

không dat)

Bai báo trên tap chí khoa học quo ốc tê thuộc hệ thông ISI:

1.1 Alireza Khabbazan, Ahmad Ali

Abin, Viet-Vu Vu, Improving the Clarity of Questions in

Community Question Answering Networks, Journal

DOI: 024-00847-y

17

Trang 19

of Intelligent Information Systems (SCIE-Q2)

1.2 Huy-Hoang Dinh, Hong-Quan

Do, Trung-Tung Doan, Cuong

Le, Ngo Xuan Bach, Tu Minh Phuong, Viet-Vu Vu, FGW-

FER: Lightweight Facial

Expression Recognition with Attention, KSI Transactions on

Internet and Information

Systems (TIS), vol.17, No.9, pp.

2505-2528, 2023.

(SCIE-Q3)

dang ky

Bao cao khoa hoc toan van dang trong ky yêu hội nghị quốc tế (có phản biện) thuộc hệ

thống Web of Science, Scopus

2.1 Hong-Quan Do, Thi-Ha

Nguyen, Viet-Vu Vu, Thi-Mai Hoang, Hai-Minh Nguyen and

T Thuy-Duong Nguyen,

Evaluation of U-Net and Its Variants in Solving, Upper Gastrointestinal Endoscopy Segmentation International Conference on Advanced

Computing and Applications

(ACOMP), 2021.

đăng ký

2.2 Viet-Vu Vu, Byeongnam Yoon,

Hong-Quan Do, Hai-Minh

Nguyen, Tran-Chung Dao,

Cong-Mau Tran, Doan-Vinh

Tran, Thi-Nhuong Phi,

Viet-Thang Vu, Tien-Dung Duong,

Active constraints selection based on density peak TEEE International Conference on Advanced Communications

Technology ICACT), 2022.

dang ky

2.3 Thanh-Hung Nguyen,

Hong-Quan Do, Danh-Tuyen Pham, Trung-Tung Doan, Viet-Vu Vu,

A fast skeleton-based

recognition of traffic police

gestures with spatial-temporal

graph convolutional network.

Trang 20

Ghi chú:

- _ Cột sản phẩm khoa học công nghệ: Liệt kê các thông tin các sản phẩm KHCN theo thứ tự

<tén tác giả, tên công trình, tên tạp chi/nha xuất bản, số phát hành, năm phát hành, trang đăng

công trình, mã công trình đăng tạp chi/sach chuyên khảo (DOD), loại tap chí ISI/Scopus>

- _ Các ấn phẩm khoa học (bài báo, báo cáo KH, sách chuyên khảo ) chỉ được chấp nhận nếu

có ghi nhận dia chỉ và cam ơn tai trợ của DHOGHN theo dung quy định.

- Ban phô tô toàn văn các ấn phẩm này phải dua vào phụ lục các minh chứng của báo cáo.

Riêng sách chuyên khảo can có bản phô tô bìa, trang dau và trang cuối có ghỉ thông tin mã số xuất

bản.

3.3 Kết quả đào tạo

Thời gian và kinh phí tham gia dé tai (so thang/so tién)

Công trình công bồ liên quan

(Sản phẩm KHCN, luận án, luận Đã bảo vệ

văn)

TT Họ và tên

Nghiên cứu sinh

Học viên cao học

áp dụng cho ảnh tê bảo

Đã được

cap băng

PHAN IV TONG HỢP KET QUA CÁC SAN PHAM KH&CN VA DAO TẠO CUA DE TÀI

TT San pham Số lượng Số lượng

I | Công bỗ trong kỷ yêu hội nghị quốc tế 0 03

3_ | Dang ký sở hữu trí tuệ

5 | Số lượng bài báo trên các tạp chí khoa học của

ĐHQGHN, tạp chí khoa học chuyên ngành quốc, gia hoặc

báo cáo khoa học đăng trong kỷ yêu hội nghị quốc tế

6 | Báo cáo khoa học kiên nghị, tư vân chính sách theo đặt

hàng của đơn vị sử dụng

7 | Kết qua dự kiến được ứng dung tại các cơ quan hoạch

định chính sách hoặc cơ sở ứng dụng KH&CN

8 | Dao tạo/hễ trợ đào tạo NCS

9 | Đào tạo thạc sĩ 01 01

10 | Mô đun chương trình cho các thuật toán phân cum bán Các mô đun Các mô

giám sát, thuật toán học sâu tương ứng đun tương

VỚI Các ứng với các

nghiên cứu | nghiên cứu

trong bai báo | trong bài

báo (Phụ

lục)

19

Tiêu đề	Nghiên cứu và đề xuất các thuật toán phân cụm tích hợp ràng buộc và học sâu
Tác giả	Vũ Việt Vũ, Vũ Việt Thắng, Lê Quang Minh, Lê Cường, Do Hồng Quân, Phan Đăng Khoa, Lê Thị Kiều Oanh, Nguyên Thúy Hanh
Trường học	Đại học Quốc gia Hà Nội
Chuyên ngành	Công nghệ Thông tin
Thể loại	Báo cáo Tổng kết Kết quả Thực hiện Đề tài KH&CN Cấp Đại học Quốc gia
Năm xuất bản	2024
Thành phố	Hà Nội

Định dạng
Số trang	40
Dung lượng	12,67 MB