Thuật toán phân cụm bán giám sát thuộc nhánh nghiên cứu về học bán giám sát và đã được quan tâm nhiều trong khoảng 20 năm trở lại đây, trong khi kỹ thuật học sâu là một nhánh nghiên cứu
Trang 1ĐẠI HỌC QUỐC GIA HÀ NỘI
BAO CAO TONG KET
KET QUA THUC HIEN DE TAI KH&CN
CAP DAI HQC QUOC GIA
Tên nhiệm vụ: Nghiên cứu và dé xuat các thuật toán phan cụm tích hợp ràng buộc và học sâu
Mã số nhiệm vụ: QG.21.58
Chủ nhiệm nhiệm vụ: PGS.TS Vũ Việt Vũ
Hà Nội, tháng 05 - 2024
Trang 2PHÀN I THÔNG TIN CHUNG
1.1 Tên đề tài: Nghiên cứu và đề xuất các thuật toán phân cụm tích hợp ràng buộc và học sâu 1.2 Mã số: QG.21.58
1.3 Danh sách chủ trì, thành viên tham gia thực hiện đề tài
Họ và tên, học hàm, học Rook „ Chức danh trong nhiệm
: Tô chức công tac
vị vụ
1 | PGS.TS Vũ Việt Vũ Viện Công nghệ Thông tin, Đại Chủ nhiệm đề tài
học QGHN
A : Viện Công nghệ Thông tin, Đại Thư ký khoa học
TS Lê Quang Minh học QGHN
a Viện Công nghệ Thông tin, Dai Thành viên chính
TS Lê Cường học QGHN
4 | TS Vũ Việt Thắng Trường Đại học cong nghiép Ha Thanh vién chinh
x TIÀ R Viện Công nghệ Thông tin, Đại Thành viên chính
ThS Do Hồng Quân học QGHN
x Viện Công nghệ Thông tin, Đại Thành viên chính
ThS Phan Đăng Khoa học QGHN
7 | Th§ Lê Thị Kiều Oanh Trường Đại học Kinh te - Kỹ Thành viên chính
thuật Công nghiệp
x , Viện Công nghệ Thông tin, Đại Thành viên
ThS Nguyên Thúy Hanh học QGHN
1.4 Đơn vị chủ trì:
1.5 Thời gian thực hiện:
1.5.1 Theo hợp đồng: 24 tháng, từ tháng 4 năm 2021 đến tháng 4 năm 2023 1.5.2 Gia hạn (nếu có): 8 tháng
1.5.3 Thực hiện thực tế: 32 tháng, từ tháng 4 năm 2021 đến tháng 12 năm 2023
1.6 Những thay đối so với thuyết minh ban đầu (nếu có):
( ve mục tiêu, nội dung, phương pháp, kết quả nghiên cứu và tổ chức thực hiện; Nguyên nhân; Y
kiên của Cơ quan quản lý)
1.7 Tống kinh phí được phê duyệt của đề tài: 300 triệu đồng.
Trang 3PHAN II TONG QUAN KET QUÁ NGHIÊN CỨU
1 Dat van dé
Học máy đóng vai trò quan trong trong các hệ thống phân tích dir liệu thông minh, trên thực
tế, đây chính là cái lõi của các hệ thống Trí tuệ nhân tạo Với sự phát triển nhanh chóng của các
thiết bị thu thập, truyền tải, tích hợp, tổng hợp dữ liệu, tạo ra các kho dữ liệu không lồ ở tất cả các
ngành, lĩnh vực khác nhau đòi hỏi phải có các công cụ học máy hiệu qua dé xử lý và khai phá dit
liệu phục vụ cho các mục đích khác nhau trong thực tế Chúng ta có thể dễ dàng nhận thấy các hệ
thống thương mại điện tử, kinh doanh, quảng cáo, các hệ thống xử lý ảnh, nhận dạng, camera giám
sát, với sỐ lượng dt liệu lớn va đa dang đều cần các các thuật toán học máy hiệu quả để thực thi
và triển khai các bài toán cụ thê.
Thuật toán phân cụm bán giám sát thuộc nhánh nghiên cứu về học bán giám sát và đã được quan tâm nhiều trong khoảng 20 năm trở lại đây, trong khi kỹ thuật học sâu là một nhánh nghiên
cứu của học có giám sát được coi là bước đột phá trong nghiên cứu về học có giám sát có sức hút
lớn trong khoảng 10 năm trở lại đây với nhiều kết quả rất tích cực khi áp dụng vào các bài toán
khác nhau.
2 Mục tiêu
Mục tiêu chính của đề tài là tập trung vào nghiên cứu hai kỹ thuật học máy quan trọng đã thu hút nhiều sự quan tâm trong thời gian gần đây là kỹ thuật phân cụm bán giám sát và kỹ thuật học sâu.
3 Phương pháp nghiên cứu
Phương pháp nghiên cứu của đề tài được sử dụng gồm nghiên cứu lý thuyết và nghiên cứu thực nghiệm Các vấn đề cần giải quyết liên quan đến các giải thuật và lý thuyết về phân cụm, phân
cụm bán giám sát, mạng nơ ron học sâu.
Các kỹ thuật sử dụng sẽ gắn với từng nội dung chính của dé tai.
4 Tong kết kết quả nghiên cứu
4.1 Phân cụm và phân cụm ban giám sat
Thuât toán phân cụm (clustering) đữ liệu nhằm phân tách một tập dữ liệu X có n phần tử trong
không gian m chiều thành các cụm sao cho các phần tử trong mỗi cụm thì tương tự nhau và các phần tử khác cụm thì không tương tự nhau theo một độ đo nào đó Các thuật toán kinh điển cho bài
toán phân cum đữ liệu có thé kế đến như K-Means, Fuzzy C-Means, DBSCAN, thuật toán phân cụm thứ bậc, thuật toán phân cụm dựa trên lý đồ thị [1] Gần đây một thuật toán phân cụm dựa
trên mật độ mới có tên DPC (Density Peak Clustering viết tắt là DPC) được giới thiệu năm 2014 đã thu hút sự chú ý của nhiều nhà nghiên cứu [61].
Trong khoảng 20 năm trở lại đây, để cải tiến chất lượng phân cụm, các thuật toán phân cụm
bán giám sát đã được nghiên cứu và giới thiệu [2] Với các nghiên cứu đã công bố cho thấy khi sử
dụng một lượng nhỏ các thông tin bồ trợ ban đầu các thuật toán phân cụm bán giám sát đã cho kết
quả tốt hơn đáng ké các thuật toán phân cụm truyền thống.
Trang 4Ý tưởng cơ bản của việc nghiên cứu các thuật toán phân cụm bán giám sát là việc tích hợp các
ràng buộc bao gồm must-link/cannot-link/seeds vào trong quá trình phân cụm dé làm tăng chất lượng của quá trình phân cum Rang buộc must-link(x,y) với x, y là các phan tử thuộc tập dữ liệu X
thé hiện x và y nên được nhóm vào cùng một cụm, trong khi cannot-link(x,y) cho biết x và y sẽ nên phân vào hai cụm khác nhau; với các seeđ(x) được cho bởi nhãn của điểm x trước khi phân cụm Hình 1 minh họa các dang ràng buộc sử dụng trong bài toán phân cụm bán giám sát [3] Dé phát
triển các thuật toán phân cụm bán giám sát, chúng ta phải đi xây dựng thuật toán có khả năng tích
hợp các ràng buộc một cách hiệu quả Có nhiều chiến lược dé tích hợp ràng buộc như: (1) chiến lược nhúng các ràng buộc trực tiếp vào quá trình phân cụm (phát triển từ các thuật toán truyền
thống như K-means, DBSCAN, ), (2) chiến lược nhúng các ràng buộc có thé chịu lỗi (phương
pháp này nhằm mục tiêu thỏa mãn một số tối đa các ràng buộc dé đảm bảo chất lượng phân cụm, chấp nhận một số ràng buộc bị vi phạm) [2, 3, 37], (3) chiến lược sử dụng các ràng buộc để xây
dựng hàm độ đo khoảng cách mới (metric learning), đây là một phương án hiệu quả, ý tưởng
llafsuwr dụng các ràng buộc để huấn luyện xây dựng một hàm khoảng cách sao cho trong không
gian độ đo mới, các điểm thuộc cùng một cụm sẽ gần nhau hơn, ngược lại các điểm không cùng một cum sẽ được tách rời ra xa hơn [4,8] (4) chiến lược cuối cùng là ánh xạ bài toán học bán giám sát sang các bài toán quy hoạch tuyến tính, ILP, SAT, và sử dụng các phương pháp toán học đã có
để giải chúng.
Hình 1 (a): dữ liệu có nhãn phục vụ cho học có giám sát, (b) các điểm tương ứng với tập dữ
liệu đầu vào, các seed (labeled data) tương ứng là các điểm ký hiệu bởi các dấu cộng, dấu nhân, và dấu sao; (c) các ràng buộc must-link và cannot-link được biểu diễn tương ứng bằng các đoạn thang nét liền và nét ditt, (4) dữ liệu dau vào cho bài toán phân cụm không giám sát truyền thống.
Trong thời gian vừa qua, nhiều công bố về phân cụm bán giám sát đã được cộng đồng nghiên
cứu và giới thiệu bao gồm: Constrained K-Means [2, 3, 17], Constraint Fuzzy C-Means [12],
Sem-supervised Fuzzy C-Means [59, 60], Constrained Hierarchical Clustering [6, 31], Constraint
Spectral Clustering [15, 19], Constraint DBSCAN [20, 24, 30], Constraint Graph Clustering [18],
Seed Fuzzy C-means [9, 32], Seed K-Means [5], Seed DBSCAN [33], Seed-based Spectral clustering [19], Seed based graph clustering [21, 25], Constraint Density Peak Clustering [66].
Trang 5Song song với việc nghiên cứu các thuật toán phân cụm bán giám sát thì một vấn đề quan trọng khác cần nghiên cứu đó là nghiên cứu các thuật toán lựa chọn các ràng buộc tốt cho các thuật
toán phân cụm bán giám sát [7, 9, 11, 13, 14, 22, 23, 26-29], đây là dạng thuật toán học tích cực.
Hình 2 mô tả mối liên hệ giữa bài toán học tích cực và bài toán phân cụm bán giám sát; trong đó các thuật toán học tích cực có vai trò lựa chọn các ràng buộc chất lượng phục vụ cho các thuật toán
bai toán học tích cực (active learning).
Một số ứng dụng của các thuật toán phân cụm bán giám sát có thé kể đến như trong bài toán
phân loại trạng thái cảm xúc khuôn mặt [20], phân loại kí tự viết tay [27], ứng dụng trong dịch vụ
web [35], trong sinh học [36]
4.2 Thuật toán học sâu
Học sâu (Deep learning) dựa trên mạng Nơ ron là sự đột phá về nghiên cứu trong lĩnh vực học
có giám sát, một trong những công bố đầu tiên của chủ đề này là công trình của Hilton năm 2006
[39-41] Trong công bố này điểm khác biệt là các lớp trong mạng nơ ron được kết nối với nhau thay
vì các nút của mỗi lớp được kết nối với nhau như thông thường.
Từ công bồ trên, hàng loạt các thuật toán học sâu được nghiên cứu và có nhiều ứng dụng có
thé kế đến cho các mang Noron tích chập (Convolutional Neural Network - CNN), mạng No ron
hồi quy sâu (Recurrent Neuron Network-RNN), LSTM Hình 1.3 minh họa ví dụ về một mạng Nơron tích chập học sâu trong đó có sự xuất hiện của các lớp tích chập (convolutional layer), lớp pooling, lớp kết nói đầy đủ (fully connected).
Trang 6Conv Module #1 Conv Module #2 Classification
LAS
output: cat? (y/n)
conv2d maxpool conv2d maxpool fully fully Input + ReLU + ReLU connected connected
Hình 3 Vi dụ về cấu trúc mạng học sâu CNN!
Trong hình 3, mang CNN sé bao gồm lớp tích chập, lớp pooling, lớp kết nối đầy du (fully connected) Với CNN, lớp tích chập cũng chính là các lớp ân, khác ở chỗ, lớp tích chập gồm các feature map, về bản chất mỗi feature map này là một bản quét qua của các đầu vào ban đầu
nhưng được trích xuất ra các đặc trưng cụ thể Lớp Pooling sẽ làm nhiệm vụ lấy mẫu trên một vùng
nhất định Các phương thức lấy phô biến trong lớp Pooling là MaxPooling (lấy giá trị lớn nhất), MinPooling (lay gia trị nhỏ nhất) va AveragePooling (lẫy giá trị trung bình) Thông thường thì sau các lớp Conv + Pooling sẽ là 2 lớp kết nối đầy đủ; còn một lớp nữa là lớp đầu ra, số neuron của layer này phụ thuộc vào số output mà ta muốn tìm ra Mạng nơ ron sâu CNN được ứng dụng phổ biến trong các bài toán dữ liệu ảnh hoặc dữ liệu văn bản.
4.3 Kết quá nghiên cứu
4.3.1 Kết quả nghiên cứu về phân cụm và phân cụm bán giám sát
Nghiên cứu đầu tiên của đề tài là nghiên cứu phát triển thuật toán phân cụm bát giám sát Dựa trên những nghiên cứu nên tang đã trình bày trong phan trên, trong nội dung nghiên cứu đầu tiên của
đề tai, chúng tôi đã tập trung vào nghiên cứu và tìm hiểu thuật toán phân cụm dựa trên mật độ, cụ thể thuật toán DPC (viết tắt từ Density Peak Clustering) làm tiền đề cho phát triển thuật toán phân cụm
bán giám sát mới Ý tưởng của thuật toán DPC được trình bày như sau:
Cho tập dữ liệu D gồm n phan tử ƒx¡, xạ, xạ} và tham số thực dương d,, dé tiến hành phân cum
cho tập dữ liệu D chúng ta sẽ thực hiện các bước như sau:
Bước 1: Tính mật độ của phan tử dữ liệu i (p;) theo công thức:
Trang 7ổ, = min (¿,)
J:2j>Øi
8, chính là khoảng cách ngắn nhất từ điểm i đến điểm j sao cho Dị > Di:
Sau khi có pi và &i ta sẽ đi xây dung đồ thị quyết định (Decision graph) để xác định các đỉnh cục
bộ địa phương (thường gọi là peak) Ví dụ về việc xác định các peak được cho trong hình 2.1 Với
đồ thị ở hình 4, các peak sẽ là các điểm thuộc góc phải trên của dé thị tùy theo ngưỡng của người
Hình 4 Vi dụ về do thị quyết định (bên trái: dữ liệu, bên phải: đô thị quyết định)
Điểm ưu việt của thuật toán DPC 1a chi sử dụng một tham số, có thể tìm ra các cụm có cấu trúc bat kỳ với mật độ khác nhau, phát hiện được các điểm bat thường của dit liệu Thuật toán DPC đã được chứng minh tính hiệu quá khi so sánh với các phương pháp phân cụm nổi tiếng khác như
DBSCAN hay K-means.
Xuất phát từ nghiên cứu trên chúng ta có thê thấy điểm quan trong của vấn đề nằm ở chỗ hàm ước lượng mật độ của dữ liệu, trên thực tế đã có nhiều hàm mật độ dùng cho ước lượng các điểm dữ liệu, tuy nhiên đây là một trong những hàm ước lượng đơn giản nhưng hiệu quả Điểm thú vị thứ hai đó là
đồ thị quyết định, đây cũng là ý tưởng rất hay của nghiên cứu này, từ đồ thị này chúng ta có thể xác định những điểm cốt lõi của các ứng viên sẽ là cụm sau này Từ những nhận định trên, nhóm nghiên
cứu đã phát triển thuật toán học tích cực nhằm thu thập các ràng buộc cho thuật toán phân cụm dựa trên ràng buộc nói chung [62] Ý tương của thuật toán như sau: xuất phát từ đồ thị quyết định, chúng
ta sẽ tìm được các điểm hạt nhân, tiếp đó từ các điểm hạt nhân này chúng ta sẽ tìm đến các điểm xa nhất có thê của đữ liệu để hình thành các câu hỏi về việc các cặp dữ liệu này có thể nằm cùng một
cụm hay không (tao ra các must-link hay cannot-link) Chi tiết của thuật toán được trình bày trong
Algorithm 1.
Trang 8Hình 5 minh họa ví dụ về các ràng buộc thu thập bởi thuật toán đề xuất Kết quả thực nghiệm ban
đầu trên các tập dữ liệu của UCI đã cho thấy các ràng buộc thu thập được là hiệu quả, làm tăng chất lượng của thuật toán phân cum bán giám sát, chi tiết được công bố trong [62].
Algorithm 1: Active constraint selection based on density peaks;
Input: a data set X = {XI, Xa, , Xa}, de, Output: a set of constraints
Step 1: Calculate p(x¡) for each data point Step 2: Calculate ð(x¡) for each data point
Step 3: Creat decision graph Step 4: Select skeleton peaks from the decision graph
Step 5: Repeat Step 6: Select the point x; that follows the min-max
method;
Step7: t=1;
Step 8: Repeat Step 9: Question to users for getting label of (pi, xx);
Step 10: t=t+1;
Step 11: Until (label(p xx) = CL) or (user_stop = true);
Step 12: Until (user stop = true);
Step 13: Output the set of constraints;
0 0.5 ii 1.5
Hình 5 Vi dụ về các ràng buộc thu thập được của thuật toản đề xuất (các đoạn màu xanh: must-link,
các đoạn đứt nét màu do: cannot-link)
Nghiên cứu thứ hai của hướng là ứng dụng phân cum trong bài toán phân tích và khai phá dữ liệu.
Cụ thé là bái toán phân loại câu hỏi ứng dụng trong hệ thống hỏi đáp (Community Question Answering viết tắt là CQA) — một trong những ứng dụng dựa trên nền tảng internet Có rất nhiều các website cho phép người dùng đặt các câu hỏi sau đó được trả lời bới các chuyên gia lĩnh vực theo rất
7
Trang 9nhiều chủ đề khác nhau Nổi tiếng nhất có thé kê đến các hệ thống như Quora hay Stack Overflow.
Trên thực tế rất nhiều các câu hỏi đưa ra bởi người dùng là không rõ ràng và khó cho các chuyên gia
có thê trả lời sát với mong muốn của người dùng Chính vì vậy cần có các hệ thống lọc phân loại tự
động các câu hỏi không rõ rang từ đó có thé có những phân hồi ngay cho người hỏi dé chỉnh sửa lại các câu hỏi này Với mục tiêu đó nghiên cứu đề xuất giải pháp dựa trên học máy cho phép dự đoán
và phân loại các câu hỏi thành hai loại là loại câu hỏi rõ ràng (clear) và loại câu hỏi không rõ ràng
(unclear) Các bước cơ bản của thuật toán được minh họa trong hình 6.
Hình 6 Cac công đoạn cua thuật toán phân loại câu hỏi
Với đầu vào là các câu hỏi, các khối cơ bản của thuật toán bao gồm biến đổi câu hỏi dang văn bản sang dạng vector, giảm số chiều, phân cụm các câu hỏi phục vụ cho việc trích chọn và chuẩn hóa các vector đặc trưng bằng thuật toán phân cụm HDBSCAN, cuối cùng các vector đặc trưng thu được sẽ được huấn luyện bởi thuật toán học có giám sát nhằm xây dựng bộ phân lớp Với các bộ dữ liệu đã thực nghiệm, thuật toán đề xuất đã đạt được các kết quả tốt khi so sánh với các nghiên cứu gần đây
đã công bó, chỉ tiết về nghiên cứu được trình bày trong [67].
4.2.2 Kết quả nghiên cứu về học sâu
Nghiên cứu đầu tiên của chủ đề học sâu mà nhóm quan tâm là phát triển thuật toán học sâu hiệu
quả áp dụng cho bài toán phân loại trạng thái cảm xúc khuôn mặt Bài toán phân loại trạng thái cảm
xúc khuôn mặt nhằm phát hiện và phân loại khuôn mặt thành 7 loại trạng thái cảm xúc gồm: Neutral,
Anger, Disgust, Fear, Happiness, Sadness, Surprise Trong nghiên cứu này, nhóm đã đề xuất mô hình
có tên FGW-FER (Lightweight Facial Expression Recognition with Attention) với mục tiêu hướng
đến giảm số lượng tham số giúp cho kiến trúc mạng học sâu hiệu quả hơn [62] Với mục tiêu đó ý tưởng của việc phát triển thuật toán là cân bằng giữa kích thước, mô hình, và độ chính xác của kiến
§
Trang 10trúc mạng Việc phát triển các mô hình nhẹ thường được thực hiện các thao tác như giảm SỐ lớp,
giảm số tham số, tuy nhiên vẫn dam bảo độ chính xác Hình 7 mô tả mô hình đề xuất FGW-FER gồm
3 phần cơ bản Expansion part, Depth-wise part, và Classifier part Chỉ tiết về các kỹ thuật sử dụng
trong các phần có trong công bố [63].
Hình 7 Mô hình dé xuất cho FGW-FER
Bang | trình bày kết quả so sánh giữa phương pháp đề xuất và một số phương pháp công bố gần đây Phương pháp đề xuất vẫn đạt được các kết quả tốt khi so sánh với các thuật toán gần đây, tuy nhiên số lượng tham số của mô hình đã được cải tiến giám đi đáng kẻ.
Trang 11Bang 1 Kết quả thực nghiệm của FGW-FER khi so sánh với các phương pháp khác
* Deep-Emotion: Attention mechanism is added through spatial transformer network
** MBCC-CNN: multiple branch cross-connected convolutional neural network
«dao Q ` ` vi su «xe
IoU: 0.8989 Ge loU: 0.9031 /@ IoU: 0.8979 /Ê IoU: 0.9120 J8 IoU: 0.8923 8
Hình 8 Kết qua thực nghiệm so sánh các thuật toán biến thể của U-net
Nghiên cứu thứ hai của nhóm về học sâu là van đề các thuật toán học sâu với xử lý ảnh [64] Thu
thập dir liệu và xây dựng bộ dữ liệu ảnh nội soi từ nhiều nguồn khác nhau và đã công bố trên github’, đây cũng là một đóng góp tốt của nhóm cho cộng đồng nghiên cứu Các thuật toán hiệu quả dựa trên mang CNN như U-net, Attention U-net đã được nghiên cứu và áp dụng cũng như phân tích điều
chỉnh các tham số cho phù hợp với dữ liệu Hình 8 minh họa một số kết quả thực nghiệm cho các phương pháp học sâu khác nhau Nghiên cứu này sẽ là tiền đề cho các nghiên cứu về học sâu áp
dụng cho bài toán phân vùng ảnh sau này Một nghiên cứu khác về học sâu áp dụng cho nhận dạng
hành động của cảnh sát được trình bày trong [64].
? https://github.com/quandhiti/ITI-GERD
10
Trang 12Tài liệu tham khảo [1] Rui Xu, Donald C Wunsch II, Survey of clustering algorithms IEEE Trans Neural
Networks 16(3): 645-678, 2005.
[2] Kiri Wagstaff, Claire Cardie, Seth Rogers, Stefan Schrédl: Constrained K-means Clustering
with Background Knowledge ICML 2001: 577-584, 2001.
[3] S Basu, I Davidson, and K L Wagstaff, Constrained Clustering: Advances in Algorithms,
Theory, and Applications, Chapman and Hall/CRC Data Mining and Knowledge Discovery Series, Ist edn., 2008.
[4] Eric P Xing, Andrew Y Ng, Michael I Jordan, Stuart J Russell: Distance Metric Learning
with Application to Clustering with Side-Information NIPS, 505-512, 2002.
[5] Sugato Basu, Arindam Banerjee, Raymond J Mooney: Semi-supervised Clustering by
Seeding ICML, 27-34, 2002.
[6] Ian Davidson, S S Ravi: The complexity of non-hierarchical clustering with instance and
cluster level constraints Data Mining and Knowledge Discovery, 14(1):25-61, 2007.
[7] Ahmad Ali Abin, Hamid Beigy: Active selection of clustering constraints: a sequential
approach Pattern Recognition, 47(3): 1443-1458, 2014.
[8] Ahmad Ali Abin, Mohammad Ali Bashiri, Hamid Beigy: Learning a metric when clustering
data points in the presence of constraints Adv Data Anal Classif 14(1): 29-56 (2020)
[9] Ahmad Ali Abin: Querying informative constraints for data clustering: An embedding
approach Appl Soft Comput 80: 31-41, 2019.
[10] Ahmad Ali Abin: Clustering in the presence of side information: a non-linear approach.
Int J Intelligent Computing and Cybernetics 12(2): 292-314 (2019).
[11] Ahmad Ali Abin: Querying Beneficial Constraints before Clustering Using Facility
Location Analysis IEEE Trans Cybernetics 48(1): 312-323 (2018)
[12] Nizar Grira, Michel Crucianu, Nozha Boujemaa: Active semi-supervised fuzzy clustering.
Pattern Recognition 41(5), 2008.
[13] Xiong, S., Azimi, J., Fern, X.Z.: Active learning of constraints for semi-supervised
clustering IEEE Transaction Knowledge Discovery and Data Engineering, 26(1), pp 43-54, 2014.
[14] Jundong Li, Jörg Sander, Ricardo Campello, Arthur Zimek Active Learning Strategies for
Semi-Supervised DBSCAN In Proceedings of 27th Canadian Conference on Artificial Intelligence, 2014.
[15] Xiang Wang, Buyue Qian, Ian Davidson: On constrained spectral clustering and its
applications Data Mining and Knowledge Discovery 28(1): 1-30, 2014.
[16] Ping He, Xiao-hua Xu, Kongfa Hu, Ling Chen: Semi-supervised clustering via multi-level
random walk Pattern Recognition 47(2): 820-832, 2014.
[17] Mikhail Bilenko, Sugato Basu, Raymond J Mooney: Integrating constraints and metric
learning in semi-supervised clustering ICML 2004.
11
Trang 13[18] Rajul Anand, Chandan K Reddy: Graph-Based Clustering with Constraints PAKDD (2)
2011: 51-62.
[19] Dimitrios Mavroeidis: Accelerating spectral clustering with partial supervision Data
Mining Knowledge Discovery 21(2): 241-258, 2010.
[20] Viet-Vu Vu, Hong-Quan Do, Vu-Tuan Dang, Nang-Toan Do: An efficient density-based
clustering with side information and active learning: A case study for facial expression recognition task Intelligent Data Analysis, 23(1): 227-240, 2019.
[21] Viet-Vu Vu: An efficient semi-supervised graph based clustering Intelligent Data
Analysis, 22(2): 297-307, 2018.
[22] Viet-Vu Vu, Nicolas Labroche: Active seed selection for constrained clustering Intelligent
Data Analysis, 21(3): 537-552, 2017.
[23] Viet-Vu Vu, Nicolas Labroche, and Bernadette Bouchon-Meunier, Improving Constrained
Clustering with Active Query Selection, Pattern Recognition, 45(4): 1749-1758, ISSN:
[26] Viet-Vu Vu, Nicolas Labroche, and Bernadette Bouchon-Meunier Boosting Clustering by
Active Constraint Selection In Proceedings of the 19th European Conference on Artificial Intelligence (ECAD), Lisbon, Portugal, August, 2010.
[27] Ahmad Ali Abin, Viet-Vu Vu, A Density-based Approach for Querying Informative
Constraints for Clustering, Expert System with Applications, 2020.
[28] Viet-Vu Vu, Nicolas Labroche, and Bernadette Bouchon-Meunier An Efficient Active
Constraint Selection Algorithm for Clustering In Proceedings of the 20th IEEE International Conference on Pattern Recognition (ICPR), Istanbul, Turkey, August, 2010.
[29] Viet-Vu Vu, Nicolas Labroche, and Bernadette Bouchon-Meunier Active Learning for
Semi-Supervised K-Means Clustering In Proceedings of the 22nd IEEE International Conference on Tools with Artificial Intelligence (ICTAD, Arras, France, October, 2010.
[30] Carlos Ruiz, Myra Spiliopoulou, Ernestina Menasalvas Ruiz: Density-based
semi-supervised clustering Data Min Knowl Discov 21(3): 345-370, 2010
[31] Tengke Xiong, Shengrui Wang, André Mayers, Ernest Monga: Semi-supervised
Parameter-Free Divisive Hierarchical Clustering of Categorical Data PAKDD 2011:
265-276, 2011.
[32] Violaine Antoine, Benjamin Quost, Marie-Héléne Masson, and Thierry Denoeux: CECM:
Adding pairwise constraints to evidential clustering FUZZ-IEEE, 1-8, 2010.
[33] Levi Lelis, Jorg Sander: Semi-supervised Density-Based Clustering ICDM 2009: 842-847,
2009.
12
Trang 14[34] Steinbach, David J Hand, Dan Steinberg: Top 10 algorithms in data mining Knowl Inf.
Syst 14(1): 1-37, 2008.
[35] Zheng Q., Wang Y The Application of Semi-supervised Clustering in Web Services
Composition In: Jin D., Lin S (eds) Advances in Computer Science and Information
Engineering Advances in Intelligent and Soft Computing, vol 169 Springer, Berlin, Heidelberg, 2012.
[36] Bair, Eric Semi-supervised clustering methods Wiley interdisciplinary reviews.
Computational statistics vol 5(5), 349-361, 349-361, 2013.
[37] Brian Kulis, Sugato Basu, Inderjit S Dhillon, Raymond J Mooney: Semi-supervised graph
clustering: a kernel approach Mach Learn 74(1): 1-22 (2009)
[38] Mahdi Dehghan, Hossein A Rahmani, Ahmad Ali Abin, Viet-Vu Vu: Mining Shape of
Expertise: A Novel Approach Based on Convolutional Neural Network Information Processing and Management, Vol 4, 2020.
[39] Yann LeCun, Yoshua Bengio, Geoffrey E Hinton: Deep learning Nature, 521(7553):
436-444, 2015.
[40] Hinton, G E.; Osindero, S.; Teh, Y W., A Fast Learning Algorithm for Deep Belief Nets,
Neural Computation 18 (7), pp 1527-1554, 2006.
[41] Weihong Deng, Jiani Hu, Shuo Zhang, Jun Guo: DeepEmo: Real-world facial expression
analysis via deep learning IEEE International Conference on Visual Communications and Image Processing, pp: 1-4, 2015.
[42] Dinh Viet Sang, Le Tran Bao Cuong, Do Phan Thuan: Facial smile detection using
convolutional neural networks KSE, 136-141, 2017.
[43] Hongjing Zhang, Sugato Basu, Ian Davidson: Deep Constrained Clustering - Algorithms
and Advances CoRR abs/1901.10061, 2019.
[44] Jadson Castro Gertrude, Arthur Zimek, Jorg Sander, Ricardo J G B Campello: A unified
view of density-based methods for semi-supervised clustering and classification.Data Min.
Knowl Discov 33(6): 1894-1952, 2019.
[45] Diem-Phuc Tran, Van-Dung Hoang: Adaptive Learning Based on Tracking and
Reldentifying Objects Using Convolutional Neural Network Neural Processing Letters 50(1): 263-282, 2019.
[46] Hong-Nhung Bui, Trong-Sinh Vu, Tri-Thanh Nguyen, Thi-Cham Nguyen, Quang-Thuy
Ha: A Compact Trace Representation Using Deep Neural Networks for Process Mining 1-5, 2019.
[47] Vu Duc Nguyen, Kiet Van Nguyen, Ngan Luu-Thuy Nguyen: Variants of Long
Short-Term Memory for Sentiment Analysis on Vietnamese Students' Feedback Corpus 306-311,
2018.
[48] Huynh Thi Thu Thuy, Duong Tuan Anh, Vo Thi Ngoc Chau: A Novel Method for Time
Series Anomaly Detection based on Segmentation and Clustering 276-281, 2018.
13
Trang 15[49] Dinh Sinh Mai, Long Thanh Ngo: General Semi-supervised Possibilistic Fuzzy c-Means
clustering for Land-cover Classification 1-6, 2019.
[50] Dinh Viet Sang, Le Tran Bao Cuong: Improving CRNN with EfficientNet-like feature
extractor and multi-head attention for text recognition SoICT: 285-290, 2019.
[51] Dinh Viet Sang, Le Tran Bao Cuong: Effective Deep Multi-source Multi-task Learning
Frameworks for Smile Detection, Emotion Recognition and Gender Classification Informatica (Slovenia) 42(3), 2018.
[52] Hieu Trung Huynh, Vo Nguyen Nhat Anh: A Deep Learning Method for Lung
Segmentation on Large Size Chest X-Ray Image RIVF, 1-5, 2019.
[53] Tru Cao, Chau Vo, Son Nguyen, Atsushi Inoue, Duanning Zhou: A Kernel k-Means-Based
Method and Attribute Selections for Diabetes Diagnosis JACHI, 24(1): 73-82, 2020.
[54] Thai-Le Luong, Minh Son Cao, Duc-Thang Le, Xuan-Hieu Phan: Intent extraction from
social media texts using sequential segmentation and deep learning models KSE, 215-220,
2017.
[55] Nguyen Tho Thong, Le Hoang Son: HIFCF: An effective hybrid model between picture
fuzzy clustering and intuitionistic fuzzy recommender systems for medical diagnosis Expert Syst Appl 42(7): 3682-3701, 2015.
[56] Tomas Mikolov, Ilya Sutskever, Kai Chen, Gregory S Corrado, Jeffrey Dean: Distributed
Representations of Words and Phrases and their Compositionality NIPS 2013: 3111-3119.
[57] Dan C Ciresan, Ueli Meier, Jiirgen Schmidhuber: Multi-column deep neural networks for
image classification CVPR 2012: 3642-3649.
[58] Geert J S Litjens, Thijs Kooi, Babak Ehteshami Bejnordi, Arnaud Arindra Adiyoso Setio,
Francesco Ciompi, Mohsen Ghafoorian, Jeroen A W M van der Laak, Bram van Ginneken, Clara I Sanchez: A survey on deep learning in medical image analysis Medical Image Anal 42: 60-88 (2017).
[59] Dinh Sinh Mai, Long Thanh Ngo, Hung Le Trinh: Advanced Semi-Supervised Possibilistic
Fuzzy C-means Clustering Using Spatial-Spectral Distance for Land-Cover Classification SMC 2018: 4375-4380.
[60] Dinh Sinh Mai, Long Thanh Ngo: General Semi-supervised Possibilistic Fuzzy c-Means
clustering for Land-cover Classification KSE 2019: 1-6.
[61] Rodriguez, A., Laio, A Clustering by fast search and find of density peaks Science, 1492,
2014.
[62] Viet-Vu Vu, Byeongnam Yoon, Hong-Quan Do, Hai-Minh Nguyen, Tran-Chung Dao,
Cong-Mau Tran, Doan-Vinh Tran, Thi-Nhuong Phi, Viet-Thang Vu, Tien-Dung Duong,
Active constraints selection based on density peak, IEEE International Conference on Advanced Communications Technology (ICACT), 2022.
[63] Huy-Hoang Dinh, Hong-Quan Do, Trung-Tung Doan, Cuong Le, Ngo Xuan Bach, Tu
Minh Phuong, Viet-Vu Vu, FGW-FER: Lightweight Facial Expression Recognition with Attention, KSII Transactions on Internet and Information Systems, 2023.
14
Trang 16[64] Thanh-Hung Nguyen, Hong-Quan Do, Danh-Tuyen Pham, Trung-Tung Doan, Viet-Vu Vu,
A fast skeleton-based recognition of traffic police gestures with spatial-temporal graph convolutional network, International Conference on Computing and Communication
Technologies (RIVF), 2023, Accepted.
[65] Hong-Quan Do, Thi-Ha Nguyen, Viet-Vu Vu, Thi-Mai Hoang, Hai-Minh Nguyen and T.
Thuy-Duong Nguyen, Evaluation of U-Net and Its Variants in Solving Upper Gastrointestinal Endoscopy Segmentation, International Conference on Advanced Computing and Applications (ACOMP), 2021.
[66] Viet-Thang Vu, T.T Quyen Bui, Nguyen Tien Loi, Doan-Vinh Tran, Hong-Quan Do,
Viet-Vu Vu, Constrained Density Peak Clustering, International Journal of Data Warehousing and Mining, Vol 19(1), 2023.
[67] Alireza Khabbazan, Ahmad Ali Abin, Viet-Vu Vu, Improving the Clarity of Questions in
Community Question Answering Networks, Journal of Intelligent Information Systems.
Accepted.
5 Đánh giá về các kết qua đã đạt được và kết luận
Nội dung nghiên cứu của đề tài đã bám sát các mục tiêu nghiên cứu đã đặt ra, cụ thé về hai nội dung phan cum ban giám sat va hoc sâu Các nghiên cứu đều được tiến hành thực nghiệm va
công bố trên các tạp chí và hội thảo tốt Trong thời gian tới nhóm sẽ tiếp tục mở rộng thêm về nghiên cứu lý thuyết cũng như tiến hành thực nghiệm trên các bài toán và dit liệu khác nhau dé tiếp tục cải tiến về nội dung nghiên cứu và phát triển các vẫn đề nghiên cứu mới.
6 Tóm tắt kết quả (tiếng Việt và tiếng Anh)
Tóm tắt:
Nghiên cứu này tập trung vào vấn đề phân cụm bán giám sát và học sâu Đầu tiên, chung tôi tập trung vào phát triển thuật toán học tích cực nhằm thu thập các ràng buộc tốt ứng dụng cho bài toán phân cụm bán giám sát Tiếp theo chúng tôi phát triển thuật toán học sâu nhẹ áp dụng cho bài toán phân loại trạng thái cảm xúc khuôn mặt Cuối cùng chúng tôi giới thiệu phương pháp phát hiện
và làm rõ các câu hỏi chưa rõ ràng trong mạng hỏi đáp cộng đồng dựa trên các kỹ thuật phân cụm
và phân lớp Các kết quả đạt được của đề tài như sau:
- Công bé 01 bài báo ISI-SCIE, Q2,
- Công bé 01 bài báo ISI-SCIE, Q3,
- Công bố 03 bài trên kỷ yếu hội nghị quốc té,
- Hỗ trợ 1 thạc sĩ bảo vệ.
Abstract:
This research focuses on the problem of semi-supervised clustering and deep learning.
Firstly, we study and develop an active learning algorithm which can collect the good constraints for semi-supervised clustering Secondly, we propose a novel lightweight deep learning model which incorporates three key factors including Depth-wise Separable Convolution, Residual Block, and Attention Modules for the facial expression recognition task Finally, we proposed a method for
15
Trang 17enhancing the clarity of unclear questions in Community Question Answering networks based on
combination of clustering and classification techniques The results of this project are as follows:
- 0I ISI-SCIE, Q2 journals,
- 0I ISI-SCIE, Q3 journals,
- 03 international conference papers
- 01 master students defended.
16
Trang 18PHAN III SAN PHAM, CÔNG BO VA KET QUA DAO TẠO CUA ĐÈ TÀI 3.1 Kết quả nghiên cứu
(SCIE, Q3) Vượt so với đăng ky
Báo cáo khoa 0 học toàn văn
WoS/Scopus Vượt so với đăng ky
Bài báo quốc tế không thuộc hệ
dinh
Danh gia
chung (Dat/
không dat)
Bai báo trên tap chí khoa học quo ốc tê thuộc hệ thông ISI:
1.1 Alireza Khabbazan, Ahmad Ali
Abin, Viet-Vu Vu, Improving the Clarity of Questions in
Community Question Answering Networks, Journal
DOI: 024-00847-y
17
Trang 19of Intelligent Information Systems (SCIE-Q2)
1.2 Huy-Hoang Dinh, Hong-Quan
Do, Trung-Tung Doan, Cuong
Le, Ngo Xuan Bach, Tu Minh Phuong, Viet-Vu Vu, FGW-
FER: Lightweight Facial
Expression Recognition with Attention, KSI Transactions on
Internet and Information
Systems (TIS), vol.17, No.9, pp.
2505-2528, 2023.
(SCIE-Q3)
dang ky
Bao cao khoa hoc toan van dang trong ky yêu hội nghị quốc tế (có phản biện) thuộc hệ
thống Web of Science, Scopus
2.1 Hong-Quan Do, Thi-Ha
Nguyen, Viet-Vu Vu, Thi-Mai Hoang, Hai-Minh Nguyen and
T Thuy-Duong Nguyen,
Evaluation of U-Net and Its Variants in Solving, Upper Gastrointestinal Endoscopy Segmentation International Conference on Advanced
Computing and Applications
(ACOMP), 2021.
đăng ký
2.2 Viet-Vu Vu, Byeongnam Yoon,
Hong-Quan Do, Hai-Minh
Nguyen, Tran-Chung Dao,
Cong-Mau Tran, Doan-Vinh
Tran, Thi-Nhuong Phi,
Viet-Thang Vu, Tien-Dung Duong,
Active constraints selection based on density peak TEEE International Conference on Advanced Communications
Technology ICACT), 2022.
dang ky
2.3 Thanh-Hung Nguyen,
Hong-Quan Do, Danh-Tuyen Pham, Trung-Tung Doan, Viet-Vu Vu,
A fast skeleton-based
recognition of traffic police
gestures with spatial-temporal
graph convolutional network.
Trang 20Ghi chú:
- _ Cột sản phẩm khoa học công nghệ: Liệt kê các thông tin các sản phẩm KHCN theo thứ tự
<tén tác giả, tên công trình, tên tạp chi/nha xuất bản, số phát hành, năm phát hành, trang đăng
công trình, mã công trình đăng tạp chi/sach chuyên khảo (DOD), loại tap chí ISI/Scopus>
- _ Các ấn phẩm khoa học (bài báo, báo cáo KH, sách chuyên khảo ) chỉ được chấp nhận nếu
có ghi nhận dia chỉ và cam ơn tai trợ của DHOGHN theo dung quy định.
- Ban phô tô toàn văn các ấn phẩm này phải dua vào phụ lục các minh chứng của báo cáo.
Riêng sách chuyên khảo can có bản phô tô bìa, trang dau và trang cuối có ghỉ thông tin mã số xuất
bản.
3.3 Kết quả đào tạo
Thời gian và kinh phí tham gia dé tai (so thang/so tién)
Công trình công bồ liên quan
(Sản phẩm KHCN, luận án, luận Đã bảo vệ
văn)
TT Họ và tên
Nghiên cứu sinh
Học viên cao học
áp dụng cho ảnh tê bảo
Đã được
cap băng
PHAN IV TONG HỢP KET QUA CÁC SAN PHAM KH&CN VA DAO TẠO CUA DE TÀI
TT San pham Số lượng Số lượng
I | Công bỗ trong kỷ yêu hội nghị quốc tế 0 03
3_ | Dang ký sở hữu trí tuệ
5 | Số lượng bài báo trên các tạp chí khoa học của
ĐHQGHN, tạp chí khoa học chuyên ngành quốc, gia hoặc
báo cáo khoa học đăng trong kỷ yêu hội nghị quốc tế
6 | Báo cáo khoa học kiên nghị, tư vân chính sách theo đặt
hàng của đơn vị sử dụng
7 | Kết qua dự kiến được ứng dung tại các cơ quan hoạch
định chính sách hoặc cơ sở ứng dụng KH&CN
8 | Dao tạo/hễ trợ đào tạo NCS
9 | Đào tạo thạc sĩ 01 01
10 | Mô đun chương trình cho các thuật toán phân cum bán Các mô đun Các mô
giám sát, thuật toán học sâu tương ứng đun tương
VỚI Các ứng với các
nghiên cứu | nghiên cứu
trong bai báo | trong bài
báo (Phụ
lục)
19