Stable Diffusion Stable Diffusion 사용을 위한 용어 정리
페이지 정보
본문
스테이블 디퓨전에 대해서 용어정리가 먼저 선행되어야 튜터리얼을 볼 때 더 쉽게 느껴지실 수 있기 때문에 관련 용어들을 정리하도록 하겠습니다. 지금 보고 이해가 안되더라도 눈에 담아두는 것 만으로 도움이 되실 겁니다.
01. stable diffusion(스테이블 디퓨전)
스테이블 디퓨전은 diffusion방식의 ai그림 생성 소프트웨어입니다. stability AI라는 회사에서 만들었으며 오픈소스로 배포하여 AI그림의 혁명을 가져왔습니다. 오픈소스라는 것은 누구나 무료로 해당 소프트웨어를 사용할 수 있다는 것입니다. stable diffusion소스를 바로 사용하려면 파이썬이 실행 가능한 곳에서 명령어로 작동시켜야 합니다.
02. WebUI(웹유아이)
AUTOMATIC1111(=자동좌)님이 stable diffusion의 소스를 가져다가 UI/UX를 웹 형식으로 개량해서 만들어낸 파이썬 기반의 소스입니다. 구동 방식이 웹형식이라 일반인들이 사용하기 매우 편리하여 사용자를 증폭시켰습니다. 지금에 와서는 파이썬 명령어를 통해 작동시키는 사람은 거의 없고 자동좌님의 web ui형식을 기본으로 채택해서 사용하기 때문에 스테이블 디퓨전을 web ui라고 부르는 사람들이 많아졌습니다.
※미드저니, 니지저니
Midjourney회사에서 만든 GAN방식의 ai생성 소프트웨어입니다. 오픈소스가 아니기 때문에 마음대로 사용할 수 없습니다. 회사 정책에 따라 프롬프트 제한이 걸리거나 사용료가 변경될 수 있습니다.
04. CheckPoint(기본 모델)
스테이블 디퓨전을 사용하려면 학습된 모델이 필요합니다. 학습모델은 딥러닝을 통해 만들어지는데 일반인이 제작하기에는 비용적인 측면이 매우 크기 때문에 회사측에서 몇몇 모델 파일을 풀었습니다. 스테이블 디퓨전에 특정 모델파일을 넣어서 우리가 원하는 그림을 만들어내게 됩니다.
05. 병합
체크포인트를 직접 만드는 것은 어렵기 때문에 기존에 만들어져있는 체크포인트를 병합하여 사용하는 것이 일반인들 사이에서 자주 사용되고 있습니다. WebUI가 병합을 지원하기 때문에 손쉽게 이용이 가능합니다.
06. Lora(로라)
AI출력물에서 특정 부분을 고정시키기 위해서 사용하는 보조 모델입니다. 체크포인트의 경우 일반인이 만들기 힘들지만 로라의 경우는 몇십장의 사진으로도 제작이 가능하기에 많은 일반인들이 만들어가고 있습니다. 예를 들어 동양인 얼굴 로라, 한복 로라, 체육복 로라 등 특정한 특징을 같는 것을 로라로 제작하여 출력물에 적용시킬 수 있습니다.
07. VAE(variational autoencoder decoder)
출력물이 차원공간에서 실제 사람 눈에 인식이 되는 pixel형태로 나오게 하는 방식입니다. 쉽게 이미지의 색감을 결정하는 것이라 생각하면 됩니다. vae역시 파일로 만들어서 수채화 느낌, 애니메이션 느낌등을 줄 수 있습니다.
08. 프롬프트(prompt)
txt2img 또는 img2img에서 긍정프롬프트 부정프롬프트란에 작성합니다. 체크포인트에서 이 프롬프트에 해당하는 부분들을 끌어내 이미지를 생성합니다. 편하게 태그 형식과 문장 형식의 프롬프트로 구분하기도 합니다. 태그 형식은 (black_hair), (red_eye)같은 것들이고 문장 형식은 (wearing blue shirts), (standing on a chair)같은 형식입니다. 또한 출력물에 나왔으면 좋겠다고 생각하는 프롬프트는 긍정프롬프트 창에 작성하면 되고 배제됐으면 좋겠다고 생각하는 것들은 부정 프롬프트창에 작성하면 됩니다.
09. EXIF
AI생성기로 만든 그림 파일이 갖고 있는 메타 데이터 입니다. 어떤 프롬프트를 사용했고 어떤 모델을 썼으며 어떤 업스케일을 했는지 등등 여러 정보가 담겨 있습니다. 하지만 요즘은 해당 메타 데이터를 날려버리고 인터넷에 사진을 올리는 경우가 많아서 알기 어려운 경우가 많습니다.
10. text to image(txt2img)
프롬프트만을 기반으로 하여 이미지를 생성하는 방식입니다. 주로 새로운 이미지를 생성해낼 때 사용합니다.
11. image to image(img2img)
프롬프트와 더불어 기존에 갖고 있던 이미지를 기반으로 하여 이미지를 생성하는 방식입니다. 주로 기존 이미지를 보강하거나 변경하는 용도로 많이 사용됩니다.
12. 인페인팅(inpainting)
기존 이미지의 일부분을 변경하고자 할 때 사용합니다. 기존 이미지에서 특정 부분을 검정선택하여 변경합니다.
13. 디노이징(denoising strength)
스테이블 디퓨전은 기본적으로 노이즈를 제거하는 방식으로 최종결과물을 만들어냅니다. imge2img를 할 때 얼마나 기존 이미지로부터 큰 변화를 줄지를 결정하는 정도입니다. 강도를 강하게 하면 기존 이미지와 많이 다른 형태로 출력됩니다.
14. 시드(seed)
이미지 생성에 사용되는 노이즈를 지칭하는 숫자입니다. 동일한 시드를 갖고 있다면 뿌려지는 노이즈가 비슷하여 유사한 이미지가 나올 가능성이 높습니다. -1의 노이즈는 랜덤 설정입니다.
15. 샘플링 메서드(sampling method)
디노이징 할 때 사용하는 방식을 말합니다. 다양한 샘플링 방식이 있지만 주로 사용되는 방식은 3~4개 정도입니다.
16. 샘플링 스텝(sampling steps)
이미지 생성 단계를 몇 번에 걸쳐서 할지를 결정합니다. 수치가 높다고 좋은 것이 아니기에 적정한 수치를 잡으셔야 합니다. 주로 20~40스텝수를 사용합니다.
17. cfg scale
프롬프트를 얼마나 충실하게 이행할지의 정도를 결정합니다. 수치가 너무 높으면 프롬프트에 너무 충실해서 부자연 스러운 결과물이 나옵니다.
18. batch size, batch number
한번 generate할 때 몇개의 이미지를 만들어낼지를 결정합니다.
19. width, height
이미지의 가로 세로 길이를 결정합니다. 크기에 따라서도 이미지 결과가 달라지기 때문에 이 수치도 중요하다고 할 수 있습니다.
20. 스크립트, 익스텐션
웹유아이에서 사용가능한 다양한 확장 기능들 입니다. ddtailer등 다양한 확장기능으로 더욱 정교한 이미지 출력이 가능합니다.
21. 임베딩(imbedding)
특정한 형태의 이미지를 만들어내기 위해서 사용하는 보조 모델입니다.
22. CIvitai, hugging face
체크포인트나 로라, 임베딩 등의 파일을 공유하는 사이트입니다.
23. 그래픽카드
딥러닝 관련 소프트웨어는 작동하기 위해 그래픽카드를 필요로 합니다. 물론 cpu로도 연산을 할 수 있지만 cpu는 단순 연산에 특화된 것이 아니기 때문에 처리 속도가 매우 느립니다. 그래픽카드가 단순 연산에 매우 최적화 되어있어서 딥러닝 소프트웨어의 필수 사양으로 언급되고 있습니다. 만약 본인 컴퓨터의 그래픽카드 사양이 낮다면 코랩 등을 이용하시는 것이 효율적입니다.
24. 코랩
구글에서 딥러닝 교육을 위해 제공하는 서비스입니다. 높은 용량의 그래픽카드와 vram을 무료로 이용할 수 있기 때문에 많은 사람들이 ai그림을 뽑기위해 코랩을 사용하고 있습니다. 하지만 일정 사용 이후에는 코랩연결이 끊어지며 다시 일정 시간이 지나야 사용할 수 있습니다.
댓글목록
등록된 댓글이 없습니다.