AI 이미지·영상 제작 필수 개념 | 꼭 알아야 할 핵심 용어 총정리
AI로 마케팅 콘텐츠를 만들고 싶은데, t2i, 업스케일링, 화면비... 낯선 용어에 빈 프롬프트 창을 두고 막막하셨나요?
AI 기술이 콘텐츠 제작의 필수 도구가 된 지금, 많은 마케터와 크리에이터분들이 비슷한 어려움을 겪고 있습니다. 머릿속에 만들고 싶은 이미지는 있는데, AI에게 어떻게 설명해야 할지, 어떤 용어를 넣어야 할지 전문가가 아니라면 모르기 마련이니까요.
그래서 준비했습니다. AI로 콘텐츠를 제작하는 모든 분들을 위해 AI 콘텐츠 제작을 위해 꼭 필요한 핵심 용어만 모아 정리했습니다. 캐럿 AI가 명쾌하게 설명해 드릴게요. 이제 AI 콘텐츠 제작의 전체 그림을 이해하고, 원하는 결과물을 만들기 위한 가장 중요한 개념을 얻어가실겁니다. 예시를 따라만 해보셔도 금방 이해하실거예요.
Part 1. AI 생성 방식
가장 먼저, AI가 어떤 재료로 이미지와 영상을 만드는지 알아볼까요? 생성 방식만 알아도 내가 원하는 결과물을 어떻게 요청해야 할지 명확해집니다.
T2I (Text-to-Image): 텍스트로 이미지 만들기
글자 그대로 텍스트(Text)를 이미지(Image)로 만들어주는 가장 기본적이고 강력한 기술입니다. 만들고 싶은 이미지에 대한 설명을 구체적으로 입력하면 AI가 놀라운 결과물을 그려줍니다.
장점: 상상하는 모든 것을 제약 없이 만들 수 있는 점이 최고의 장점입니다.
✅ 이럴 때 사용하세요: 세상에 없는 새로운 이미지, 블로그 썸네일, 광고 아이디어 시안 등 머릿속 아이디어를 처음 시각화할 때 가장 좋습니다.
프롬프트 예시:
신선한 오렌지 주스가 담긴 유리병과 슬라이스된 오렌지, 햇살이 비치는 깨끗한 흰색 배경, 상업 광고 사진 스타일
I2I (Image-to-Image): 이미지로 새 이미지 만들기
기존 이미지(Image)를 참고하여 새로운 스타일의 이미지(Image)를 만들어내는 방식입니다. 참고 이미지의 구도나 형태는 유지하면서 스타일만 바꾸고 싶을 때 아주 유용합니다.
장점: 기존 이미지의 구도와 형태를 유지하므로 결과물을 예측하고 제어하기 쉽습니다. 단, 원본 이미지의 한계를 벗어나는 완전히 새로운 결과물을 만들기는 어려워요.
✅ 이럴 때 사용하세요: 가지고 있는 제품 사진의 분위기를 바꾸거나, 내 그림을 다른 화풍으로 변환하고 싶을 때 사용하면 효과적입니다.
T2V (Text-to-Video): 텍스트로 영상 만들기
이제 텍스트만으로 고퀄리티 영상제작이 가능해요. 만들고 싶은 영상의 한 장면을 텍스트로 묘사하면, AI가 생생하게 움직이는 짧은 클립을 생성해 줍니다.
장점: 촬영 장비나 실제 공간 없이도 상상 속의 장면을 영상으로 구현할 수 있어 비용 효율이 매우 높습니다. 스토리보드의 아이디어를 빠르게 시각화하는 데 최적입니다. 단, 복잡한 움직임이나 인물의 표정 변화가 아직 어색할 때가 있어요.
프롬프트 예시:
눈 덮인 숲속 오두막, 굴뚝에서 연기가 피어오르고, 카메라가 천천히 줌 아웃되는 영상, 평화로운 분위기
I2V (Image-to-Video): 이미지로 영상 만들기
정적인 이미지(Image)에 AI가 자연스러운 움직임을 추가하여 영상(Video)으로 만들어주는 방식입니다.
장점: 이미지 한 장만으로도 간단하게 생동감 있는 영상 콘텐츠를 만들 수 있습니다. 줌, 패닝 등 단순한 카메라 기법을 사용하는 것이 좋아요. 복잡한 연출이나 영상기법은 어색한 수 있습니다.
✅ 기획안에 따라 이미지를 제작한 뒤, 완성된 각각의 AI 이미지를 영상으로 만들어서 연결하는 이 방식은 현재 영상을 제작할 때 가장 많이 사용되고 있어요.
V2V (Video-to-Video): 영상으로 새 영상 만들기
기존 영상(Video)을 바탕으로 스타일이나 분위기를 완전히 바꾸는 기술입니다. 예를 들어, 평범한 일상 영상을 촬영한 뒤 프롬프트를 통해 '애니메이션 스타일'이나 '판타지 영화 스타일'로 변환할 수 있어요.
장점: 원본 영상의 움직임과 구성을 그대로 활용하므로, 결과물의 흐름을 안정적으로 제어할 수 있습니다. 기존 영상 소스를 재가공하여 새로운 스타일로 만들고 싶을 때 / 기존에 만든 영상을 연장하거나, 영상의 영역을 확장할 때에도 사용되는 방법이예요. 캐럿 AI에서 영상을 수정하는 방법은 이 글을 참고해주세요.
아래 표를 통해 생성 방식의 차이점을 한눈에 확인해 보세요.
구분 | 용어 | 입력 (Input) | 출력 (Output) | 핵심 기능 및 활용 예시 |
이미지 | T2I | 텍스트 | 이미지 | 완전히 새로운 이미지 창조 |
I2I | 이미지 (+텍스트) | 이미지 | 기존 이미지의 스타일 변환 | |
영상 | T2V | 텍스트 | 영상 | 상상 속 장면을 영상으로 구현 |
I2V | 이미지 (+텍스트) | 영상 | 정적 이미지에 움직임 부여 | |
V2V | 영상 (+텍스트) | 영상 | 기존 영상의 분위기 재창조 |
Part 2. 이미지와 영상의 스펙
자, 이제 생성 방식을 정했다면 결과물이 담길 '틀'을 정해야 합니다. 어떤 채널에 콘텐츠를 올릴지에 따라 최적의 규격이 달라지는데, 이 ‘틀’, 즉 규격과 스펙을 결정하는 화면비 / 해상도 / 프레임레이트 / 카메라 앵글을 알아볼게요.
화면비 (Aspect Ratio): 콘텐츠의 첫인상
화면비는 영상의 '가로:세로 비율'이예요. 어디에 쓸지에 따라 최적의 비율이 다르며, 아래 표 하나로 완벽하게 정리할 수 있습니다. 가장 많이 쓰이는 위 3가지 핵심 비율만 알아도 대부분의 콘텐츠 제작에는 충분해요.
16:9 (와이드스크린): 유튜브, 회사 홈페이지, 프레젠테이션 등 가로로 넓은 화면의 표준입니다. 가장 안정적이고 전문적인 느낌을 줍니다.
9:16 (버티컬): 인스타그램 릴스, 유튜브 쇼츠, 틱톡 등 모바일 세로 화면에 최적화된 비율입니다. 숏폼 마케팅의 필수 조건이죠.
1:1 (스퀘어): 인스타그램, 페이스북 피드에 가장 잘 어울리는 정사각형 비율입니다. 여러 이미지를 피드에 조화롭게 배치할 때 효과적입니다.
비율 | 명칭 | 최적 채널 | 활용 영역 |
16:9 | 스탠다드 와이드스크린 | 표준영상, 유튜브, TV | 가장 안정적인 비율로, 공식적인 브랜드 영상이나 상세 정보 전달에 적합합니다. |
9:16 | 버티컬 (세로형) | 릴스, 쇼츠, 틱톡 | 모바일 화면을 꽉 채워 몰입도를 극대화합니다. |
1:1 | 스퀘어 (정사각형) | 인스타그램 피드 | 여러 게시물이 모여있는 피드에서 가장 안정적입니다. |
1.85:1 | 플랫 와이드스크린 | 영화, 전문 영상 | 일반 16:9보다 더 영화적인 느낌을 줄 때 사용됩니다. |
2.39:1 | 시네마스코프 | 영화, 전문 영상 | 화면의 상하단에 검은 레터박스가 생기는, 매우 넓은 영화관 스크린 비율입니다. 압도적인 영상미와 몰입감을 연출할 수 있습니다. |
해상도 (Resolution): 선명함을 결정하는 화질
왜 어떤 이미지는 선명하고, 어떤 이미지는 흐릿하거나 깨져 보일까요? 그 비밀은 바로 해상도(Resolution)에 있습니다. 해상도는 간단히 말해, 이미지나 영상이 얼마나 많은 '점', 픽셀으로 이루어져 있는지를 나타내는 수치입니다.
해상도는 '가로 픽셀 수 x 세로 픽셀 수'로 표기합니다. 예를 들어, Full HD(FHD) 해상도는 가로 1,920개, 세로 1,080개의 픽셀로 이루어져 있다는 의미입니다.
AI로 콘텐츠를 만들 때, 어떤 해상도를 선택해야 할지 막막하다면 아래의 대표 규격들을 기준으로 삼아보세요.
해상도 | 픽셀 사이즈 | 특징 및 주요 용도 |
HD | 1280 x 720 | 과거의 표준 고화질. 현재는 최소한의 화질이 필요할 때(내부 확인용 영상 등) 사용됩니다. |
FHD | 1920 x 1080 | 현재 유튜브, SNS 등 대부분의 웹 콘텐츠에서 사용되는 가장 보편적인 표준 해상도입니다. |
QHD | 2560 x 1440 | FHD보다 4배 선명하여, 고사양 게이밍 모니터나 일부 스마트폰에서 사용됩니다. |
4K UHD | 3840 x 2160 | FHD보다 4배 더 많은 픽셀로 구성되어 압도적인 디테일과 선명함을 자랑합니다. 고화질 영화, 전문 홍보 영상, 디지털 옥외 광고 등에 사용됩니다. |
8K UHD | 7680 x 4320 | 현재 최고 수준의 해상도. 아직 보편화되지 않았지만, 초고화질 영화나 초대형 디스플레이에 사용됩니다. |
프레임레이트 (FPS): 영상의 부드러움
FPS(Frames Per Second)는 1초에 몇 장의 이미지가 연속으로 재생되는지를 의미합니다. 이 수치가 높을수록 영상의 움직임이 더 부드럽게 느껴집니다.
💡 실전 활용 Tip 대부분의 온라인 영상은 30fps로 충분합니다. 하지만 제품의 질감이나 사람의 움직임을 극도로 부드럽게 표현하고 싶을 땐 60fps를 사용하면 훨씬 전문적인 느낌을 줄 수 있습니다.
어떤 FPS를 선택할지 고민된다면 아래 가이드를 참고해 보세요.
FPS | 느낌 (분위기) | 이런 콘텐츠에 추천해요! |
24fps | 영화처럼, 감성적으로 | 드라마틱한 스토리텔링, 감성 브이로그, 시네마틱 영상 |
30fps | 선명하고, 익숙하게 | 유튜브, 인터뷰, 온라인 강의, 일반적인 홍보 영상 |
60fps | 생생하고, 부드럽게 | 스포츠, 제품의 부드러운 움직임, 슬로우 모션 효과 |
카메라 앵글: 의도를 담는 시선
콘텐츠의 의도와 분위기는 카메라 앵글에 따라 극적으로 달라집니다. 프롬프트에 간단한 키워드를 추가하여, 감독처럼 장면을 연출해 보세요.
1. 와이드 샷 (Wide Shot) : A wide shot of...
인물과 주변 배경을 함께 담아 전체적인 상황과 분위기를 설명합니다.
2. 미디엄 샷 (Medium Shot) :A medium shot of...
인물의 상반신을 중심으로 촬영하여 표정과 행동을 자연스럽게 보여주는 안정적인 앵글입니다.
3. 클로즈업 샷 (Close-up Shot) : A close-up of...
특정 부분(얼굴, 사물)을 화면 가득 채워 감정이나 디테일을 극적으로 강조합니다.
4. 하이 앵글 (High-angle Shot) : A high-angle shot of...
위에서 아래로 내려다보며 피사체를 약해 보이게 만들거나, 전체 상황을 객관적으로 조망합니다.
5. 로우 앵글 (Low-angle Shot) : A low-angle shot of...
아래에서 위로 올려다보며 피사체를 크고 권위 있으며, 영웅적으로 보이게 만듭니다.
6. 오버 더 숄더 샷 (Over-the-shoulder Shot) : An over-the-shoulder shot of...
한 인물의 어깨너머로 상대를 보여주어, 대화 장면의 현장감과 몰입감을 높입니다.
이제, AI 콘텐츠 전문가가 될 시간입니다.
오늘 알아본 기본 개념과 용어들만 잘 활용해도, AI를 처음 다루는 분이라도 훨씬 정교하고 퀄리티 높은 결과물을 얻을 수 있습니다.
혹시 무엇을 만들어야 할지 막막하다면, 예시를 따라 그대로 만들어보시는 걸 추천드려요! 가상 모델로 제품 소개 쇼츠 만들기 / 브랜드 캐릭터를 활용하기 / 제품연출 이미지를 만드는 방법과 같이 저희가 소개드리는 내용을 그대로 따라해보시는 것이 큰 도움이 될거예요.
'블로그 썸네일', '인스타그램 숏폼 광고'처럼 무엇을 만들지만 선택하세요. 나머지는 캐럿 AI가 알아서 해결해 드릴게요. 지금 똑똑한 AI 콘텐츠 제작을 시작해 보세요!