Earticle

현재 위치 Home

한국차세대컴퓨팅학회 학술대회

간행물 정보
  • 자료유형
    학술대회
  • 발행기관
    한국차세대컴퓨팅학회 [Korean Institute of Next Generation Computing]
  • 간기
    반년간
  • 수록기간
    2021 ~ 2025
  • 주제분류
    공학 > 컴퓨터학
  • 십진분류
    KDC 566 DDC 004
2023 한국차세대컴퓨팅학회 춘계학술대회 (76건)
No

기조연설 Ⅲ

기조연설 Ⅳ

Oral Session I AI : 영상 분석

3

The identification of anomalies in industrial settings poses a significant challenge, especially when there is a lack of negative samples and when the anomalous regions are small. Although existing computer vision methods have automated this task to some extent, these approaches struggle to extract salient features for inspecting defective chips. To tackle this problem, a deep learning-based framework is proposed for detecting anomalies in industrial settings. The framework utilizes a fine-tuned backbone convolutional neural network model and incorporates an enhanced attention mechanism. The attention module generates discriminative feature maps along two dimensions: channel and spatial. This is achieved by processing intermediate features obtained from the backbone model. These attention maps are then multiplied with the input feature map to dynamically enhance the relevant features. Extensive experiments demonstrate the effectiveness of our proposed method in maintaining a high level of detection accuracy for industrial product inspections. Consequently, our results conclude a suitable solution for optical chip inspection systems in industrial settings.

4

산업에서 널리 쓰이는 재고관리 시스템은 형태의 라벨지를 사용함으로, 이를 컴퓨터가 자동으로 인식하는데 어려움이 있다. 본 연구에서는 이를 개선하기 위하여 재고 관리를 위한 라벨지 자동 인식을 수행하는 머신러닝 기반 방법을 제안하였다. 제안할 방법은 CUT-GAN을 통하여 다양한 환경에서 라벨지 사진을 생성하고, Detectron2를 통하여 라벨지 내 표의 자동 인식률을 높였다. 라벨지 내의 표를 인식하여 OCR을 수행하는 이 방안은 기존의 OCR 방식보다 더욱 정확하게 디지털 인식을 수행함으로써 업계에서의 업무 디지털화를 앞당기 는 효과가 있을 것으로 기대한다.

5

Deep neural networks (DNNs) have been widely used in various applications, however, the computational complexity and memory requirements of DNNs are becoming increasingly challenging, especially in resource-constrained devices such as mobile phones and embedded systems. In this paper, we propose a lightweight DNN model using channel pruning to address the computational complexity and memory requirements of DNNs in resource-constrained devices. Our approach combines channel pruning with transfer learning to maintain accuracy. Evaluation on the CIFAR-10 dataset shows improved performance with 78% test accuracy, 89% train accuracy, and 73% validation accuracy compared to the unpruned model. The pruned model is suitable for applications with limited computational resources.

6

최근 블랙박스는 단순히 주행영상을 녹화하는 것 뿐만 아니라, 주행 영상을 분석하여 차선 이탈 감지, 전방 충돌 감지 등의 첨단운전자보조시스템을 지원하는 지능형 블랙박스로 발전하고 있다. 이에 따라 1인칭 영상을 분석하여 교통 이상 상황을 예측하는 연구가 진행되고 있다. 하지만 블랙박스 영상은 전체 영상 중에 교통 이상 상황이 발생하는 경우가 적은 반면, 이상 상황의 경우의 수는 상당히 많은 긴 꼬리 분포 문제를 가진다. 또한 차량의 움직임에 따라 영상의 배경도 함께 움직여 분석하기 어려운 문제가 있다. 따라서 본 논문에서는 Dense Trajectory 기법을 활용하여 세가지 영상 특징을 추출하고, 이를 활용하여 교통 이상 상황을 예측하는 신경망 모델을 기반으로 세가지 영상 특징 추출 알고리즘의 성능을 비교하였다.

Oral Session Ⅱ AI : 음성 , 텍스트 분석

8

소셜미디어의 발달로 인하여 즉각적인 소통이 활발해졌지만, 혐오표현이 유발하는 차별행위가 늘어남에 따라 혐오표현을 필터링하는 연구의 필요성이 제기되고 있다. 혐오표현은 다양한 카테고리로 구분되지만, 카테고리별로 균형 잡힌 데이터셋을 구축하기에는 어려움이 존재한다. 따라서 본 연구에서는 데이터 증강을 적용하여 혐오표현 분류 성능을 향상시킨 모델을 제시한다. Easy data augmentation techniques를 적용하여 최소 규모의 카테고리 데이터를 증강하였다. Kcbert-base 모델에 focal loss와 supervised contrastive learning을 적용하여, 동일 카테고리의 문장 유사도는 높이고, 다른 카테고리와의 문장 유사도는 낮추면서 모델을 학습시켰다. 실험 결과 증강과 focal loss를 적용하지 않은 모델에 비해 easy data augmentation techniques와 focal loss, supervised contrastive learning을 적용한 모델의 평균 정확도는 1.4%, macro f1-score는 4.4% 우수한 것을 확인하였다.

9

기계 학습 및 딥러닝 기술의 발전은 문학 분야를 비롯한 다양한 예술 분야에서 인공지능이 그림을 그리고 소설을 쓰거나 음악을 작곡, 작사하는 것과 같이 큰 영향력을 끼치고 있다. 이 중 인공지능이 음악을 작곡, 작사하는 음성을 생성하는 분야에서도 이미지 생성에 특화된 GANs(Generative Adversarial Nets) 모델을 사용하여 음성을 생성하는 연구를 적용할 수 있다. 하지만 음성 데이터 자체로 학습하여 음성을 생성하는 데에는 GANs를 사용할 경우 적절한 음성 생성의 결과를 얻지 못한다. 따라서 음성을 이미지로 변환하여 GANs을 학습한 후, 이미지를 생성하여 이를 다시 음성으로 생성하는 방법으로 음성 생성을 할 수 있다. 본 연구에서는 CNN(Convolution Neural Network) 기반의 GANs 모델인 DCGAN(Deep Convolutional Generative Adversarial Network) 모델을 활용하여, 두 개의 생성된 음성 이미지에서 추출된 잠재 벡터 z들의 보간의 정도에 따라 생성된 이미지가 부드럽게 변하는 특징을 적용하여 음성 합성 방법을 제안한다. 두 개의 서로 다른 음성 포맷인 midi 파일과 wav 파일을 각각 이미지로 변환 후 모델을 학습시켰다. 두 포맷 모두 두개의 음성 이미지의 잠재 벡터의 보간 정도에 따라 생성된 이미지가 부드럽게 변환되었고, 각 보간 값의 정도에 따라 생성된 이미지들을 다시 음성으로 변환시켜 적절히 합성된 음성을 확인할 수 있었다.

10

본 논문은 소리와 촉감의 일치감에 기반하며 음높이적 측면에서의 교차 모달 연관성을 다루는 연구를 소개한다. 소리와 촉감 간의 일치도는 175개의 쌍(25개의 소리 × 7개 주파수의 진동)에 대해 평가되었다. 이 데이터는 소리의 스펙트럼 성분과 가장 일치감 높은 진동 주파수 사이의 함수를 추정하는데 사용되었다. 본 연구는 우리가 알고 있는 한도에서는 처음으로 소리와 촉감 사이의 음높이적 매칭에 대한 일반적인 관계성에 대해 제시하는 연구이다.

Poster Session 1 AI : 영상 분석

11

NERF는 딥러닝 기반으로 카메라 및 레이에 대한 조건들 없이 3D 재구성을 가능하게 한다. 그러나 NERF는 느린 학습속도라는 단점이 있다. 우리는 Instant_NGP의 인코딩 기법과 FastNeRF의 캐시 및 병렬처리 기술을 이용해 학습속도를 향상한다, 또한 NERF의 결과물은 픽셀의 색상과 볼륨 데이터다. 이 볼륨 데이터를 Marching Cubes 알고리즘을 통해 3차원 모델링의 결과물을 추출한다. 기존 NERF보다 향상된 속도로 실시간 응용에서도 활용하며, 3차원 메시를 추출할 것이다.

12

최근 생성 모델의 연구가 활발히 진행되면서 학습의 안정화를 증진시키는 연구를 필요로 하고 있다. 학습의 안정화 증진을 위해 학습 구조의 변화와 손실 함수의 변형의 방법이 존재하고 본 논문에서는 손실 함수의 변형을 통해 학습 안정화 방법을 보였다. 기존의 생성 모델의 학습 방식인 분포 간의 비교에서 히스토그램 분포로 변환 후 분포 간의 거리를 히스토그램 거리로 비교하는 방법을 제시한다.

13

단일 사진을 이용해 3D 모델을 생성하는 연구는 오랫동안 비전 연구자들 사이에서 유명하고 도전적인 주제 중 하나이다. 최근에 인공지능과 3D 모델링을 융합한 연구들이 진행되고 있지만 다중 사진이 아닌 단일 사진만으로 3D 모델링하는 것은 디테일 누락과 같은 한계가 있으며 엄청난 계산 량을 요구하여 매우 긴 동작 시간을 요구로 한다. 이러한 문제들의 해결책으로 본 논문에서는 제안하는 방법을 활용하여 단일 사진 입력으로부터 다양한 각도에서 바라본 특정 피사체의 사진을 안정적으로 생성하는 방법을 제안한다.

14

Quality crop production plays an essential role in the financial stability of every country. Figuring out the damaging parts of plants can be the best way to prevent loss and improve production. Manually monitoring plant diseases is extremely difficult as it requires a significant amount of work, specialized knowledge of plant diseases, and extensive processing time. Therefore, image processing techniques are used for identifying plant diseases. In this paper, we provide a review on different advanced image processing methods using Machine Learning (ML) and Deep Learning (DL) Algorithms. We also discuss the accuracy of ML and DL methods used in previous studies.

15

최근 자전거 이용량이 증가함에 따라 자전거 사고 발생 건수도 함께 증가하고 있다. 특히 청각장애인이 자전거를 이용할 때는 뒤에서 다가오는 객체에 대한 소리를 듣지 못하고 후방 상황을 인지하지 못해 대형사고로 이어질 가능성이 높다. 이러한 문제점을 해결하기 위해 본 논문에서는 자전거 주행 중 다가오는 객체를 학습시킨 YOLOv5(You Only Look Once) 모델을 통해 실시간 객체 감지(Object Detection)를 수행한다. 차세대 컴퓨팅 기술과 클라우드 서비스의 발전함에 따라 이를 기반으로 청각장애인에게 실시간으로 경고를 주는 차세대 애플리케이션 플랫폼을 제안한다.

16

Accurate detection of small targets in aerial images is crucial but challenging due to the limited computational resources of UAVs. This paper presents an efficient approach based on YOLO-V5S for detecting and classifying distant vehicles in aerial scenes. Extensive ablation study is conducted to find the optimal YOLO architecture. The proposed method is efficient and effective, making it applicable for real-time deployment. A dataset of 1000 annotated images are developed to validate the proposed method's effectiveness. The proposed network outperforms existing state-of-the-art methods in accuracy, speed, and resource efficiency, making it a promising solution for aerial vision-based applications.

17

Fire detection is a significant attempt for preserving public safety in complex surveillance environments. Although advances in deep learning for fire detection, the task remains challenging due to the natural irregularity in fire images, including differences in lighting conditions, occlusions, and background complexity. To address these challenges, we present a novel framework for fire detection named fire channel attention network (FCAN), which is capable of differentiating challenging fire scenes. Our approach is motivated by the need to enhance the accuracy of fire detection by selectively emphasizing the most informative channels of the input image through a channel attention (CA). Furthermore, our model captures the salient features from the input image and suppresses the irrelevant ones, thereby overcoming the aforementioned challenges of fire detection. The FCAN is evaluated on two benchmark datasets and surpassed existing methods in terms of accuracy and F1 score. The proposed model demonstrates the effectiveness of fire detection, highlighting its potential for practical applications in fire safety and prevention.

18

Kidnapping is a crime that can have disastrous results for the victim and their family. It is important to develop effective systems to detect and prevent such incidients. This paper proposes a Kidnapping Detection Systems that uses Real-Time Object Detection YOLO-v7, and Skeleton Extraction module AlphaPose to detect and track potential kidnapping event in real-time. The system utilizes a number of surveillance cameras that are already installed in Korea. It employs surveillance camera system as an edge module and a GPU system as a server module. By performing deep detection only when there is a high likelihood of a kidnapping event at the edge device, we can reduce inference costs. We have also built a dataset by recording simulated kidnapping scenarios, which can serve as a substitute for actual kidnapping events. Based on our dataset, we achieved an accuracy of 90.3% on the test set using a rule-based approach that considers the angle of the legs and occlusion with people and a car. Our system shows a promising solution for enhancing public safety and preventing crimes.

19

이미지 생성 모델의 발달로 인하여 다양한 산업 내에서의 적용이 진행되고 있다. 그러나 의료 분야의 질병 데이터 부족으로 인하여 특화된 인공지능 모델을 개발하는 데 어려움이 있다. 이에 본 논문에서는 데이터 부족을 해결하고자 이미지 생성 모델로 고품질 뇌종양 자기공명영상 이미지를 생성하는 실험을 진행하였다. 기존 모델과의 정성적, 정량적 생성 결과 비교 분석을 통해 고품질의 뇌종양 자기공명영상 데이터를 생성하는 모델을 제안한다.

20

인터넷 상의 성적으로 음란한 콘텐츠가 무분별적으로 유포되어 여러가지 문제를 초래하고 있다. 행동 검 출 네트워크를 통해 성적 행위가 포함된 콘텐츠를 분류하여 이러한 문제를 해결할 수 있을 것이다. 행동 검출 네트워크로 Vision Transformer를 기반하여 설계된 Video Masked Autoencdoer를 이용하여 성적 행위를 검출하고자 한다. Pornography-2k 데이터셋에 대한 Video Masked Autoencoder의 성능 평가 결과 tube 형식의 90%비율의 마스킹 방식에서 0.9의 정확도로 가장 우수한 검출 성능을 보였다

21

차세대컴퓨팅의 발달로 인하여 사람이 할 때 시간적 소요가 큰 작업에 대해 컴퓨터가 처리하게 되면서 소요되 는 시간이 획기적으로 주는 경우가 많이 있다. 최근 유튜브와 OTT의 발달로 다양한 영상물이 많이 나오고 있 다. 이러한 다양한 영상물에 대한 등급 분류 또한 사람이 직접 처리하는 데는 많은 시간이 필요하다. 유해성, 폭력성, 마약 등 다양한 부분이 등급 분류에 고려되어야 하지만 이 중 신체 노출에 관한 부분을 CoAtNet 모델 을 사용하여 자동화하여 효율성을 개선할 수 있다. Nudenet classifier dataset v1을 사용하여 약 8만 개의 training dataset과 약 1만 개씩의 validation, test dataset을 이용하여 학습 및 성능 검사를 진행했고 3 개의 클래스에 대해 평균 91% 정도의 정확도를 보이며 분류하는 모습을 확인할 수 있다.

22

이미지 분류, 객체 감지 등에 널리 쓰이는 EfficientNet은 기존에 수동으로 모델의 깊이, 너비, 입력 이미 지의 크기를 조절해 모델의 정확도를 높인 것과는 달리 이 3가지 요인마다의 상관관계를 찾아내었고 이 를 수식으로 만들었다. 이를 실제 데이터인 UCF-Crime 데이터셋에 적용하여 최적의 모델 정확성을 찾는 작업을 통해 적절한 접근법을 찾는 것이 중요하다 할 수 있다.

23

fEMG는 안면 근육의 미세한 움직임을 감지하는 생체 신호이며 얼굴의 표정이나 감정을 측정하는 도구로서 연구되고 있다. fEMG 신호는 민감하여 잡음에 취약하며 이를 제거하기 위해 전처리가 필요하다. 본 논문에서는 fEMG 신호의 전처리와 합성곱 신경망 모델을 통한 안면 표정 분석을 진행한다. 원시 fEMG 신호를 20~450Hz 주파수 대역으로 대역 통과 필터링하고 60Hz에서 노치 필터링한 뒤, 이를 이용하여 안면 표정을 분석하는 합성곱 신경망 기반 모델을 제안한다. 제안한 2D 합성곱 신경망 모델은 기존에 제안된 머신러닝 기법인 LDA에 비해 8.27%p 더 높은 정확도를 보였으며, 비지도 LDA보다는 7.28%p 더 향상되었다. 실험 결과는 fEMG 신호를 사용한 2D 합성곱 신경망 기법이 안면 표정 분석에 효과적임을 보여준다.

Oral Session Ⅲ AI : 영상 분석

24

딥러닝 기술의 발전에 따라 개발된 적대적 인공 생성 신경망 (GAN)은 여러 분야에서 활용되고 있다. 특히 다양한 분야에서 활용될 수 있는 도메인 변환에 특화된 순환 적대적 인공 생성 신경망 (CycleGAN)의 개발 이후 이미지 변환 문제에서 GAN은 훌륭한 성능을 선보였다. 다만, 기존의 CycleGAN 모델은 학습이 불안정하다는 점과 더불어 제대로 변환되지 않은 이미지가 다수 존재한다는 한계를 가지고 있다. 본 논문에서는 이러한 CycleGAN의 한계를 개선하기 위해 가변 오토인코더(VAE) 를 GAN 구조에 이미지 변환 모델인 이중 양방향 생성 모델 (DoubleRoundTrip)을 제시하고 모델의 성 능을 견본 이미지 데이터셋에서 확인하였다.

25

Pneumonia is a respiratory disease that causes infection in both the upper respiratory tract and the lungs. It is considered one of the leading causes of infection-related deaths in children. Chest X-ray images have proven helpful in diagnosing pneumonia. It is essential for early diagnosis of pneumonia to control the spread of the disease and save the patient. Therefore, there is a need for deep learning artificial intelligent systems to assist clinicians in early and better diagnosis. In this study, Residual Neural Network (ResNet) and Swin Transformer are used to classify pneumonia and healthy chest X-ray images from the Chest X-Ray Images dataset. Experimental results show that the ResNet achieved a maximum accuracy of 99.00% in detecting pneumonia after ten epochs. Whereas the Swin transformer achieved a maximum accuracy of 98.46% in detecting pneumonia after ten epochs.

26

컴퓨터 비전과 인공지능 기술의 발달로 인해, 입력 이미지에서 많은 종류의 객체를 탐지하는 알고리즘이 개발되고 있다. 이 중 YOLO(You Only Look Once)알고리즘은 실시간 객체 탐지에 적합한 알고리즘이다. 본 연구는 YOLO알고리즘에서 실시간 객체 탐지를 비롯하여 영상 획득, 전송, 처리 과정에서 발생할 수 있는 노이즈를 미리 학습 데이터에 추가한 뒤 모델을 학습하여, 노이즈가 포함된 이미지에서 객체 탐지 정확도를 높이는 것을 목표로 한다. 모델의 성능을 객관적으로 판단하기 위해 노이즈를 적용한 이미지를 학습한 모델과 그렇지 않은 이미지를 학습한 모델을 준비하여 성능을 비교한다. 학습 이미지에 노이즈를 적용한 모델은 훈련 과정에서 의도적으로 노이즈가 있는 이미지를 학습했음에도 불구하고, 일반적인 방식으로 학습한 모델과 loss값의 큰 차이가 없었다. 학습 단계가 끝난 후에 검증 단계에서 원본 이미지와 노이즈를 적용한 데이터셋을 준비하였다. 검증 단계에서 노이즈가 없거나 적은 이미지에서의 객체를 탐지하는 과정에서 큰 차이를 볼 수 없었지만, 노이즈의 강도가 큰 이미지에서는 기존의 학습 방식보다 더 우수한 모습을 보여준다.

27

시각적 데이터를 보다 정교하도록 정제하는 작업은 결과물의 품질을 향상시킴으로써 사용자를 만족시킬 수 있다. 특히 3차원 데이터 복원의 경우 실생활에 활용될 수 있기 때문에 건축 및 설계 분야에서 정확성과 안전에 기여할 수도 있다. 본 논문에서는 3차원 좌표로 이루어진 데이터의 개수를 늘리는 방안을 제시한다. 제안된 방안은 기존 연구보다 실용적인 데이터 증가 수치를 제시하기 때문에 대용량 3차원 데이터에 유연하게 대처할 수 있다.

Oral Session Ⅳ AI : 음성 , 텍스트 분석

28

현재 소비자들은 리뷰를 통해 기업에 대한 이미지를 확립한다. 이에 따라 리뷰 데이터를 분석하여 대중 의 평가를 알아내는 것이 중요하다. 원하는 정보를 가독성 높게 얻기 위해서는 명확한 카테고리를 바탕 으로 리뷰들을 분류하는 것이 중요하다. 그러나 기존의 한국어 문장 임베딩 알고리즘인 KR-SBERT는 유사도를 기반으로 한 카테고리 분류에서 정확도가 한계를 보인다. 이러한 한계를 극복하기 위해 본 논 문에서는 KR-SBERT에 지도 학습 분류기 모델을 추가하여 리뷰 카테고리 분류 성능을 향상시켰다. 실 험 결과, 이를 통해 분류 성능이 57% 향상되었다.

29

최근 영유아의 발달 단계 모니터링을 위한 연구가 진행이 되고 있다. 본 논문에서는 유아의 발화를 통한 딥러닝 기반 유아 나이 예측을 기반으로 유아의 발달 단계 모니터링 시스템을 제안한다. 모니터링 시스템은 안드로이드 기반 앱으로 구현되었으며, 유아의 음성신호를 입력으로 하여 나이를 예측하고 이를 시간에 따라 모니터링이 가능하도록 하였다. 나이 예측 알고리즘은 음성 데이터를 문장으로 변환하고 불용어 처리, 토큰화, 단어 임베딩, 센텐스 임베딩, 딥러닝 기반 인식 단계를 거쳐서 나이를 예측하도록 하였다. 제안한 방법은 향후 영유아의 발달 단계를 자동으로 모니터링 하고 기록하는 서비스에 응용이 가능하다.

30

디지털 기술과 아날로그 기술의 융합이 활성화됨에 따라, 다양한 컴퓨팅 시스템이 개발되고 기존 시스템의 발전이 가속화되고 있다. 이러한 환경에서 음향과 같은 아날로그 신호와 디지털 신호의 융합 기술은 다양한 환경에서 활용할 수 있는 기술로 주목받고 있다. 하지만 음향신호 처리과정에서는 음향 신호 처리를 위한 아날로그 신호 연산장치를 새롭게 구성해야 하는 단점이 존재한다. 본 논문에서는 이러한 단점을 해소하기 위해, 음향 신호 자동화 구성 프레임워크를 이용한 테스트베드를 구성함으로써, 다양한 환경의 음향 신호 처리 시스템을 손쉽게 구성할 수 있는 연구를 제안한다. 본 연구를 통해 음향 신호 구성에 있어 편의성을 제공할 수 있으며, 이를 통해 추 후 음향 신호 및 디지털 신호 구성에 있어 손쉽고 빠른 구성을 위한 테스트 베드 기술을 제공할 것으로 기대한다.

 
1 2 3
페이지 저장