딥러닝 기반 이미지 처리 및 캡션 생성 시스템

프로젝트 개요

이 프로젝트는 사용자가 업로드한 이미지를 처리하고, 객체를 탐지하며, 새로운 이미지를 생성하고 캡션을 제공하는 웹 애플리케이션입니다.

주요 기능

기술 스택

예시

이 프로젝트는 딥러닝과 웹 기술을 결합하여, 사용자에게 직관적이고 즉각적인 이미지 처리 경험을 제공합니다.

(좌) 강아지 이미지 업로드 예시, (우) 채팅에 pencil 입력 예시

설명 텍스트

사용된 모델들

1. Stable Diffusion

설명: Stable Diffusion은 이미지 생성 모델로, 주어진 텍스트 설명을 바탕으로 고해상도 이미지를 생성하는 능력을 가지고 있습니다.
용도: 사용자가 입력한 메시지를 기반으로 새로운 이미지를 생성하는 데 사용됩니다.

2. Faster R-CNN

설명: Faster R-CNN(Region Convolutional Neural Network)은 객체 탐지 모델로, 입력 이미지 내에서 객체의 위치(바운딩 박스)와 클래스(라벨)를 동시에 예측합니다.
용도: 업로드된 이미지에서 객체를 탐지하고, 각 객체에 대한 바운딩 박스를 그리는 데 사용됩니다.

3. BLIP (Bootstrapping Language-Image Pre-training)

설명: BLIP는 이미지와 텍스트의 관계를 이해하기 위해 사전 훈련된 모델입니다.
용도: 탐지된 객체에 대한 설명을 생성하는 데 사용됩니다.