스테이블 디퓨전 사용법: 설치부터 고급 기능까지 완벽 가이드

Apr 20, 2026

Contents

스테이블 디퓨전이란? 다른 AI 이미지 도구와 뭐가 다를까 스테이블 디퓨전 설치 방법 3가지 1. 로컬 설치 (AUTOMATIC1111 WebUI)2. Google Colab (클라우드)3. ComfyUI (노드 기반)txt2img로 첫 이미지 만들기: 스테이블 디퓨전 파라미터 가이드 핵심 파라미터 설정 체크포인트(모델) 선택 실제 생성 결과물 예시 스테이블 디퓨전 프롬프트 작성법과 실전 예시 프롬프트 기본 구조 간단한 프롬프트 vs 상세한 프롬프트 Negative Prompt 활용 가중치 조절 img2img, 인페인팅, ControlNet: 고급 기능 활용하기 img2img: 이미지를 기반으로 새 이미지 생성 인페인팅(Inpainting): 부분 수정 ControlNet: 포즈와 구도 제어 영어 프롬프트 없이 AI 이미지를 만드는 더 쉬운 방법 자주 묻는 질문 (FAQ)스테이블 디퓨전은 완전 무료인가요?SDXL과 SD 3.5 중 어떤 모델을 써야 하나요?스테이블 디퓨전으로 만든 이미지의 저작권은 어떻게 되나요?Mac에서도 스테이블 디퓨전을 쓸 수 있나요?

GPU 없이도, 영어 프롬프트를 몰라도 AI 이미지를 만들 수 있다면 믿으시겠어요? 스테이블 디퓨전 사용법을 검색했다면 아마 '설치가 복잡하다', 'GPU가 비싸다'는 이야기에 벽을 느끼셨을 거예요.

그 마음, 충분히 이해해요. 실제로 스테이블 디퓨전은 다른 AI 이미지 도구보다 진입장벽이 높은 편이니까요. 하지만 이 글을 읽고 나면 설치 방법 3가지, 핵심 파라미터, 프롬프트 작성법, 고급 기능까지 한 번에 파악할 수 있어요. 초보자도 첫 이미지를 만들 수 있도록 단계별로 정리했습니다.

스테이블 디퓨전이란? 다른 AI 이미지 도구와 뭐가 다를까

스테이블 디퓨전(Stable Diffusion)은 Stability AI가 공개한 오픈소스 이미지 생성 모델이에요. 텍스트를 입력하면 AI가 이미지를 만들어주는 건 미드저니나 DALL-E와 같지만, 핵심 차이는 '오픈소스'라는 점이죠.

소스 코드가 공개되어 있어서 누구나 내 컴퓨터에 설치해 무료로 사용할 수 있고, 체크포인트(모델)를 바꿔가며 화풍을 자유롭게 조절할 수 있어요. 미드저니처럼 월 구독료를 낼 필요가 없고, DALL-E처럼 크레딧 제한에 묶이지도 않습니다.

다만 그만큼 직접 설정해야 할 것이 많아요. 아래 비교표로 차이를 정리했어요.

스테이블 디퓨전 vs 미드저니 vs DALL-E 3가지 AI 이미지 도구 비교 인포그래픽 - 가격, 설치, GPU, 커스터마이징

항목	스테이블 디퓨전	미드저니	DALL-E 3
가격	무료 (로컬 설치)	월 $10~$60	ChatGPT Plus 포함
설치 필요	O (로컬) / X (클라우드)	X	X
GPU 필요	O (VRAM 4GB+)	X	X
커스터마이징	◎ (모델·확장 자유)	△	X
프롬프트 언어	영어 권장	영어 권장	한글 가능
오픈소스	O	X	X
최신 모델	SD 3.5 / SDXL	V7	DALL-E 3

정리하면, 스테이블 디퓨전은 자유도와 비용 면에서 압도적이지만 설치와 학습 비용이 드는 도구예요. 반대로 미드저니와 DALL-E는 설치 없이 바로 쓸 수 있지만 커스터마이징에 한계가 있죠. DALL-E 사용법이 궁금하다면 별도 가이드도 참고해보세요.

스테이블 디퓨전 설치 방법 3가지

스테이블 디퓨전을 쓰는 방법은 크게 세 가지예요. 본인의 PC 사양과 목적에 맞게 선택하면 됩니다.

스테이블 디퓨전 설치 방법 선택 가이드 플로우차트 - GPU 유무에 따른 로컬 설치, Google Colab, ComfyUI 분기

1. 로컬 설치 (AUTOMATIC1111 WebUI)

가장 대표적인 방법이에요. 내 컴퓨터에 직접 설치하면 생성 횟수 제한 없이 무료로 사용할 수 있어요.

필요 사양:

GPU: NVIDIA RTX 3060 이상 (VRAM 6GB+) 권장
RAM: 16GB 이상
저장 공간: 최소 20GB (모델 파일 포함 시 50GB+)

설치 순서:

Python 3.10과 Git을 설치해요.
터미널에서 WebUI 저장소를 클론합니다: git clone https://github.com/AUTOMATIC1111/stable-diffusion-webui
Windows라면 webui-user.bat, Mac/Linux라면 webui.sh를 실행해요.
브라우저에서 http://127.0.0.1:7860에 접속하면 WebUI가 열려요.

첫 실행 시 기본 모델이 자동 다운로드되니 시간이 좀 걸릴 수 있어요.

2. Google Colab (클라우드)

GPU가 없거나 사양이 부족한 경우 가장 좋은 대안이에요. 구글 Colab 무료 티어에서도 T4 GPU를 사용할 수 있어요.

GitHub에서 'stable-diffusion-webui-colab' 노트북을 검색해 실행하면 돼요. 별도 설치 없이 브라우저에서 바로 시작할 수 있다는 점이 장점이지만, 무료 티어는 사용 시간 제한이 있고 세션이 끊기면 처음부터 다시 설정해야 합니다.

3. ComfyUI (노드 기반)

AUTOMATIC1111보다 최신 모델 지원이 빠르고, 워크플로우를 노드로 시각화할 수 있어요. SD 3.5나 SDXL Turbo 같은 최신 모델을 쓰려면 ComfyUI가 더 편리한 경우가 많죠.

설치는 ComfyUI 공식 GitHub에서 portable 버전을 다운로드하면 되고, 압축 해제 후 바로 실행 가능해요. 다만 노드 기반 인터페이스가 처음엔 복잡하게 느껴질 수 있어서, 입문자라면 AUTOMATIC1111부터 시작하는 걸 추천합니다.

txt2img로 첫 이미지 만들기: 스테이블 디퓨전 파라미터 가이드

설치를 마쳤다면, 이제 실제로 이미지를 만들어볼 차례예요. 아래는 AUTOMATIC1111 WebUI의 txt2img 설정 화면이에요. 프롬프트를 입력하고 Generate 버튼만 누르면 되지만, 파라미터 설정에 따라 결과물 품질이 크게 달라져요.

AUTOMATIC1111 WebUI txt2img 설정 화면 - Sampling steps, Sampling method, CFG Scale 등 파라미터 조절 인터페이스

이미지 출처: AUTOMATIC1111 stable-diffusion-webui GitHub

핵심 파라미터 설정

파라미터	역할	추천값
Sampling Steps	이미지 생성 반복 횟수. 높을수록 정교하지만 느려져요	20~30
Sampling Method	이미지를 생성하는 알고리즘	DPM++ 2M Karras
CFG Scale	프롬프트를 얼마나 엄격하게 따를지 결정	7~9
Width × Height	이미지 해상도 (SD 1.5 기준)	512×512
Seed	같은 값이면 동일한 이미지가 나와요	-1 (랜덤)
Batch Size	한 번에 생성할 이미지 수	1~4

CFG Scale은 특히 중요한데요. 아래 그리드를 보면 CFG Scale 값에 따라 같은 프롬프트에서도 결과물이 어떻게 달라지는지 확인할 수 있어요. 값이 너무 낮으면(3 이하) 프롬프트를 무시하고, 너무 높으면(15 이상) 이미지가 과포화돼요.

CFG Scale 값(8.0, 10.0, 12.0)에 따른 이미지 결과물 비교 그리드

이미지 출처: AUTOMATIC1111 stable-diffusion-webui GitHub

체크포인트(모델) 선택

스테이블 디퓨전의 결과물은 어떤 체크포인트를 쓰느냐에 따라 완전히 달라져요. Civitai에서 인기 모델을 다운로드할 수 있어요.

실사 스타일: Realistic Vision, ChilloutMix
애니메이션: Anything V5, CounterfeitXL
범용: DreamShaper, RevAnimated

다운로드한 .safetensors 파일을 models/Stable-diffusion 폴더에 넣고 WebUI를 새로고침하면 바로 적용돼요. 아래 화면처럼 상단의 추가 네트워크 버튼을 눌러 LoRA나 임베딩도 불러올 수 있습니다.

AUTOMATIC1111 WebUI에서 LoRA, 임베딩 등 추가 네트워크를 선택하는 화면

이미지 출처: AUTOMATIC1111 stable-diffusion-webui GitHub

실제 생성 결과물 예시

아래는 스테이블 디퓨전 3.5 모델로 실제 생성한 이미지들이에요. 체크포인트와 프롬프트에 따라 실사부터 애니메이션까지 다양한 결과물을 만들 수 있습니다.

스테이블 디퓨전 SD 3.5로 생성한 한복 여성 실사 이미지 - 상세 프롬프트 적용

스테이블 디퓨전 프롬프트 작성법과 실전 예시

스테이블 디퓨전에서 원하는 이미지를 뽑아내려면 프롬프트가 핵심이에요. 같은 모델, 같은 파라미터여도 프롬프트 하나에 결과가 완전히 달라집니다.

프롬프트 기본 구조

영어로 작성하되, 이런 순서로 쓰면 효과적이에요.

주제: 무엇을 그릴지 (예: a Korean woman in hanbok)
상황/배경: 어디서, 무엇을 하는지 (예: standing in cherry blossom garden)
스타일: 어떤 느낌인지 (예: cinematic lighting, film grain)
품질 태그: 결과물 퀄리티 보정 (예: masterpiece, best quality, 8k)

간단한 프롬프트 vs 상세한 프롬프트

프롬프트를 얼마나 구체적으로 쓰느냐에 따라 결과물 품질이 크게 달라져요. 아래 두 이미지를 비교해보세요.

간단한 프롬프트: a Korean woman in hanbok

상세한 프롬프트: A beautiful Korean woman wearing a traditional pink and white hanbok, standing gracefully in a cherry blossom garden during golden hour, soft natural lighting, shallow depth of field, cinematic photography, masterpiece, best quality, 8k

상세한 프롬프트로 생성한 스테이블 디퓨전 결과물 - 골든아워 벚꽃 배경의 한복 여성

같은 모델에서도 프롬프트의 구체성에 따라 조명, 배경, 분위기가 완전히 바뀌는 걸 확인할 수 있어요.

Negative Prompt 활용

원하지 않는 요소를 제거하는 데 사용해요. 거의 모든 생성에 아래 기본값을 넣어두면 실패 확률이 줄어들어요.

lowres, bad anatomy, bad hands, text, error, missing fingers, extra digit, cropped, worst quality, low quality, blurry

가중치 조절

특정 요소를 강조하거나 약화시킬 수 있어요.

(golden hour lighting:1.3) → 골든아워 조명을 1.3배 강조
(hat:0.5) → 모자 비중을 줄임

아래 이미지는 프롬프트 키워드를 바꿨을 때 결과물이 어떻게 달라지는지 보여줘요. 머리 색상, 표정 등 세부 요소를 키워드 하나로 제어할 수 있습니다.

프롬프트 키워드 변경에 따른 스테이블 디퓨전 결과물 변화 비교 - 머리 색, 표정 등

이미지 출처: AUTOMATIC1111 stable-diffusion-webui GitHub

미드저니 프롬프트 가이드에서 소개한 구조화 기법도 스테이블 디퓨전에 그대로 적용할 수 있어요.

img2img, 인페인팅, ControlNet: 고급 기능 활용하기

txt2img로 기본기를 익혔다면, 이제 기존 이미지를 기반으로 더 정교한 작업을 할 수 있어요.

img2img: 이미지를 기반으로 새 이미지 생성

사진이나 스케치를 업로드하고, 프롬프트와 함께 새로운 이미지를 만들어요. Denoising Strength가 핵심 파라미터인데, 0에 가까우면 원본과 거의 같고 1에 가까우면 완전히 새로운 이미지가 돼요. 0.3~0.6 사이를 추천합니다.

AUTOMATIC1111 WebUI의 img2img 탭 화면 - 원본 이미지를 기반으로 새 이미지를 생성하는 인터페이스

이미지 출처: AUTOMATIC1111 stable-diffusion-webui GitHub

인페인팅(Inpainting): 부분 수정

이미지의 특정 영역만 선택해서 다시 그릴 수 있어요. 예를 들어 배경은 유지하면서 인물의 표정만 바꾸거나, 옷 색상만 변경하는 게 가능하죠. 아래 화면처럼 이미지 위에 직접 마스크를 그리고, 컬러 피커로 원하는 색상을 지정할 수도 있어요.

AUTOMATIC1111 WebUI의 인페인트 스케치 기능 - 이미지 위에 직접 마스크를 그려서 부분 수정하는 화면

이미지 출처: AUTOMATIC1111 stable-diffusion-webui GitHub

ControlNet: 포즈와 구도 제어

스테이블 디퓨전의 가장 강력한 확장 기능 중 하나예요. 참조 이미지의 포즈, 깊이, 윤곽선 등을 추출해서 새 이미지에 그대로 적용할 수 있어요.

OpenPose: 인물의 포즈(관절 위치)를 그대로 유지하며 새 이미지 생성
Canny Edge: 윤곽선 기반으로 형태를 유지
Depth: 깊이 맵을 활용해 원근감 유지

ControlNet은 Extensions 탭에서 설치할 수 있고, 별도 모델 파일을 다운로드해야 해요. 설치 후 txt2img나 img2img 하단에 ControlNet 패널이 추가됩니다.

이런 고급 기능들은 커스터마이징 자유도가 높은 만큼, AI 이미지·영상 제작 필수 용어를 먼저 익혀두면 파라미터 이해가 훨씬 수월해요.

영어 프롬프트 없이 AI 이미지를 만드는 더 쉬운 방법

스테이블 디퓨전은 자유도가 높은 만큼 진입장벽도 높아요. GPU 확보, 모델 설치, 영어 프롬프트 작성까지 신경 써야 할 게 많죠. 특히 영어 프롬프트를 일일이 최적화하는 과정은 초보자에게 가장 큰 허들이에요.

이런 과정이 부담스럽다면, 캐럿에서 한글로 입력해보세요. '한복 입은 여성이 벚꽃길을 걷는 사진'이라고 입력하면 캐럿 AI가 프롬프트를 자동으로 최적화해서 이미지를 생성해요. 스테이블 디퓨전뿐 아니라 미드저니, 나노바나나 등 30개 이상의 AI 모델을 하나의 화면에서 비교하며 사용할 수 있고, 별도 설치나 GPU 없이 바로 시작할 수 있어요.

캐럿 AI 메인 화면 - 텍스트 입력으로 이미지, 영상, 음악, 나레이션을 생성하는 인터페이스

매일 무료 크레딧이 제공되니, AI 이미지 생성이 처음이라면 설치 없이 체험해보고 본격적으로 스테이블 디퓨전을 배울지 결정해도 늦지 않아요.

자주 묻는 질문 (FAQ)

스테이블 디퓨전은 완전 무료인가요?

오픈소스 소프트웨어 자체는 무료예요. 다만 로컬 설치 시 NVIDIA GPU(VRAM 6GB 이상)가 필요하고, Google Colab 무료 티어는 사용 시간 제한이 있어요. GPU가 없다면 레오나르도 AI 같은 클라우드 서비스나 캐럿을 통해 무료로 체험할 수 있어요.

SDXL과 SD 3.5 중 어떤 모델을 써야 하나요?

입문자라면 커뮤니티 생태계가 풍부한 SDXL을 추천해요. SD 3.5는 텍스트 렌더링과 해부학적 정확도가 개선되었지만, 커스텀 모델과 LoRA 지원이 아직 SDXL만큼 활발하지 않아요.

스테이블 디퓨전으로 만든 이미지의 저작권은 어떻게 되나요?

현재 한국 저작권법상 AI 생성물의 저작권은 아직 명확한 판례가 없어요. 상업적으로 사용하려면 학습 데이터의 라이선스를 확인하고, AI 이미지 상업적 이용 가이드를 참고하는 것을 권장합니다.

Mac에서도 스테이블 디퓨전을 쓸 수 있나요?

네, Apple Silicon(M1/M2/M3/M4) Mac에서도 사용 가능해요. AUTOMATIC1111과 ComfyUI 모두 MPS(Metal Performance Shaders)를 지원하고, NVIDIA GPU보다 느리지만 실사용에 문제없는 수준이에요.

캐럿(Carat)은 300만 가입자의 국내 최대 콘텐츠 제작 AI 에이전트입니다. 일상부터 업무까지, 캐럿 AI와 함께라면 누구나 쉽고 재미있게 영상과 이미지를 만들 수 있어요!

Make with AI, Share with the World

Contents

활용법

스테이블 디퓨전 사용법: 설치부터 고급 기능까지 완벽 가이드

Apr 20, 2026

Contents

스테이블 디퓨전이란? 다른 AI 이미지 도구와 뭐가 다를까

다만 그만큼 직접 설정해야 할 것이 많아요. 아래 비교표로 차이를 정리했어요.

항목	스테이블 디퓨전	미드저니	DALL-E 3
가격	무료 (로컬 설치)	월 $10~$60	ChatGPT Plus 포함
설치 필요	O (로컬) / X (클라우드)	X	X
GPU 필요	O (VRAM 4GB+)	X	X
커스터마이징	◎ (모델·확장 자유)	△	X
프롬프트 언어	영어 권장	영어 권장	한글 가능
오픈소스	O	X	X
최신 모델	SD 3.5 / SDXL	V7	DALL-E 3

스테이블 디퓨전 설치 방법 3가지

스테이블 디퓨전을 쓰는 방법은 크게 세 가지예요. 본인의 PC 사양과 목적에 맞게 선택하면 됩니다.

1. 로컬 설치 (AUTOMATIC1111 WebUI)

가장 대표적인 방법이에요. 내 컴퓨터에 직접 설치하면 생성 횟수 제한 없이 무료로 사용할 수 있어요.

필요 사양:

GPU: NVIDIA RTX 3060 이상 (VRAM 6GB+) 권장
RAM: 16GB 이상
저장 공간: 최소 20GB (모델 파일 포함 시 50GB+)

설치 순서:

Python 3.10과 Git을 설치해요.
터미널에서 WebUI 저장소를 클론합니다: git clone https://github.com/AUTOMATIC1111/stable-diffusion-webui
Windows라면 webui-user.bat, Mac/Linux라면 webui.sh를 실행해요.
브라우저에서 http://127.0.0.1:7860에 접속하면 WebUI가 열려요.

첫 실행 시 기본 모델이 자동 다운로드되니 시간이 좀 걸릴 수 있어요.

2. Google Colab (클라우드)

GPU가 없거나 사양이 부족한 경우 가장 좋은 대안이에요. 구글 Colab 무료 티어에서도 T4 GPU를 사용할 수 있어요.

3. ComfyUI (노드 기반)

txt2img로 첫 이미지 만들기: 스테이블 디퓨전 파라미터 가이드

이미지 출처: AUTOMATIC1111 stable-diffusion-webui GitHub

핵심 파라미터 설정

파라미터	역할	추천값
Sampling Steps	이미지 생성 반복 횟수. 높을수록 정교하지만 느려져요	20~30
Sampling Method	이미지를 생성하는 알고리즘	DPM++ 2M Karras
CFG Scale	프롬프트를 얼마나 엄격하게 따를지 결정	7~9
Width × Height	이미지 해상도 (SD 1.5 기준)	512×512
Seed	같은 값이면 동일한 이미지가 나와요	-1 (랜덤)
Batch Size	한 번에 생성할 이미지 수	1~4

이미지 출처: AUTOMATIC1111 stable-diffusion-webui GitHub

체크포인트(모델) 선택

스테이블 디퓨전의 결과물은 어떤 체크포인트를 쓰느냐에 따라 완전히 달라져요. Civitai에서 인기 모델을 다운로드할 수 있어요.

실사 스타일: Realistic Vision, ChilloutMix
애니메이션: Anything V5, CounterfeitXL
범용: DreamShaper, RevAnimated

이미지 출처: AUTOMATIC1111 stable-diffusion-webui GitHub

실제 생성 결과물 예시

스테이블 디퓨전 프롬프트 작성법과 실전 예시

프롬프트 기본 구조

영어로 작성하되, 이런 순서로 쓰면 효과적이에요.

주제: 무엇을 그릴지 (예: a Korean woman in hanbok)
상황/배경: 어디서, 무엇을 하는지 (예: standing in cherry blossom garden)
스타일: 어떤 느낌인지 (예: cinematic lighting, film grain)
품질 태그: 결과물 퀄리티 보정 (예: masterpiece, best quality, 8k)

간단한 프롬프트 vs 상세한 프롬프트

프롬프트를 얼마나 구체적으로 쓰느냐에 따라 결과물 품질이 크게 달라져요. 아래 두 이미지를 비교해보세요.

간단한 프롬프트: a Korean woman in hanbok

같은 모델에서도 프롬프트의 구체성에 따라 조명, 배경, 분위기가 완전히 바뀌는 걸 확인할 수 있어요.

Negative Prompt 활용

원하지 않는 요소를 제거하는 데 사용해요. 거의 모든 생성에 아래 기본값을 넣어두면 실패 확률이 줄어들어요.

lowres, bad anatomy, bad hands, text, error, missing fingers, extra digit, cropped, worst quality, low quality, blurry

가중치 조절

특정 요소를 강조하거나 약화시킬 수 있어요.

(golden hour lighting:1.3) → 골든아워 조명을 1.3배 강조
(hat:0.5) → 모자 비중을 줄임

이미지 출처: AUTOMATIC1111 stable-diffusion-webui GitHub

미드저니 프롬프트 가이드에서 소개한 구조화 기법도 스테이블 디퓨전에 그대로 적용할 수 있어요.

img2img, 인페인팅, ControlNet: 고급 기능 활용하기

txt2img로 기본기를 익혔다면, 이제 기존 이미지를 기반으로 더 정교한 작업을 할 수 있어요.

img2img: 이미지를 기반으로 새 이미지 생성

이미지 출처: AUTOMATIC1111 stable-diffusion-webui GitHub

인페인팅(Inpainting): 부분 수정

이미지 출처: AUTOMATIC1111 stable-diffusion-webui GitHub

ControlNet: 포즈와 구도 제어

스테이블 디퓨전의 가장 강력한 확장 기능 중 하나예요. 참조 이미지의 포즈, 깊이, 윤곽선 등을 추출해서 새 이미지에 그대로 적용할 수 있어요.

OpenPose: 인물의 포즈(관절 위치)를 그대로 유지하며 새 이미지 생성
Canny Edge: 윤곽선 기반으로 형태를 유지
Depth: 깊이 맵을 활용해 원근감 유지

ControlNet은 Extensions 탭에서 설치할 수 있고, 별도 모델 파일을 다운로드해야 해요. 설치 후 txt2img나 img2img 하단에 ControlNet 패널이 추가됩니다.

이런 고급 기능들은 커스터마이징 자유도가 높은 만큼, AI 이미지·영상 제작 필수 용어를 먼저 익혀두면 파라미터 이해가 훨씬 수월해요.

영어 프롬프트 없이 AI 이미지를 만드는 더 쉬운 방법

매일 무료 크레딧이 제공되니, AI 이미지 생성이 처음이라면 설치 없이 체험해보고 본격적으로 스테이블 디퓨전을 배울지 결정해도 늦지 않아요.

자주 묻는 질문 (FAQ)

스테이블 디퓨전은 완전 무료인가요?

SDXL과 SD 3.5 중 어떤 모델을 써야 하나요?

Mac에서도 스테이블 디퓨전을 쓸 수 있나요?

Make with AI, Share with the World

Contents