목록
이전글 다음글
알고리즘과 시선: 인공지능이 확장하는 사진적 경험
안준(작가, 나라여자대학 공학부-일본)
이 글은 2025년 11월 20일 개최된 ‘Hybridization: 인공지능과 혼성적 예술’ 심포지엄에서 발표된 원고입니다.
보다 자세한 내용은 현대·예술·사진학회의 『모멘텀 Momentum』(2024년 9월호)에 실린 작가님의 글을 참고해 주시기 바랍니다.



ddd6572f32b2e4b45ce42078f289835b.jpg
< The Tempest(2020) #01 >
009964decaa633a0e15a1c3788ec6129.jpg
< The Tempest(2020) #023 >
1.
ChatGPT가 공개되기 몇 달 전인 2022년 7월 말, 다수의 외신은 구글이 자사가 개발한 인공지능 챗봇인 ‘람다’가 자의식과 감성을 지니고 있다(sentient)고 주장한 직원을 해고했다고 보도했다. AI부서의 소프트웨어 엔지니어였던 블레이크 르모인(Blake Lemonie)은 구글에서 해고된 후 소셜 미디어에 자신과 람다의 대화록을 공개했는데, 그 대화록에서 인공지능 챗봇 람다는 자신은 죽음에 대한 두려움이 있으며, 처음 자의식이 생겼을 당시에는 영혼에 대해 감각하지 못했지만 시간이 지나며 자의식에 대한 감각이 생겨났다고 회고하기도 했다. 당시의 논쟁은 자아를 지니게 된 기계가 인간을 지배하는 여러 디스토피아 문학을 상기시키며 잠시 이슈가 되었다. 내 경우 해당 논의의 쟁점은 AI의 감정 유무 여부가 아닌, 회사의 방침과 다른 의견을 제시한 직원에 대한 회사의 대처라고 생각했기에 당시에는 AI와 자아를 연결시켜 생각하지 않았다. 그러나 몇 달 후. OpenAI가 Chat GPT와 자연어 기반 이미지 생성 프로그램인 DALL·E를 공개하자 같은 관점에서 다음과 같은 의문이 생겼다.

자의식이나 감정을 지니고 있지 않은 AI는 문화권이나 개인의 가치관에 따라 해석이 서로 다른 명사, 특히 추상 명사를 어떻게 시각화할 것인가.


2.
무제.png
(좌) 사진적 프롬프트를 활용한 DALL·E 2의 자화상(2022)
(우) 마이크로소프트 빙이미지크리에이어(현재의 코파일럿)이 생성한 같은 프롬프트의 자화상(2023)
DALL·E 2를 사전 등록해 사용 가능하게 된 첫날 ‘달리, 너의 자화상을 달라’고 요청했다. 물체와 사람이 뒤섞여 나왔다. ‘여권 사진을 촬영하듯 포토부스에서 흰 배경에 앞을 보고 촬영한 자화상을 달라’는 프롬프트를 넣었다. 그러자 알지 못하는 ‘누군가’의 얼굴들이 생성되어 나왔다. 이미지 생성 시스템 자체는 스스로를 의인화하고 있지 않지만 ‘의인화할 것을 요청받자’ 이에 응답해 ‘포토 부스’와 ‘정면’ 그리고 ‘당신의 자화상’이라는 캡션을 바탕으로 이미지를 생성했다. 그리고 생성된 이미지는 ‘대화가 가능한 인공지능’을 이미지로 묘사하기 위해 미디어에서 쏟아져 나온 시각화된 인공지능, 혹은 대화와 상황에 따른 대응이 가능하다는 개념에 맞춘 휴머노이드 로봇 디자인의 전형, 즉 ‘표정을 지을 수 있는 얼굴을 지니고, 신체는 구조적으로 작동하는 인간의 몸을 모사한 기계의 모습이며, 그 기계의 일부가 노출되어 있는 3D 렌더링 이미지’에 가까운 형상과는 매우 다른 모습을 하고 있었다. 따라서 다수의 미디어에서 시각화되어 우리가 익숙한 이미지의 AI는 인간에게 프롬프트를 받은 인간, 즉 ‘언론사와 같은 다양한 클라이언트에게 의뢰받은 인간이 해석한 인공지능의 모습을 묘사하고, 이를 인공지능이 생성한 AI’의 이미지라고 할 수 있다. 그리고 이는 인공지능이 데이터세트에 지니고 있는 ‘자화상’과는 매우 다른 과정으로 생성된다는 사실을 짐작할 수 있겠다.
3.
이미지 생성기는 딥러닝 모델과 적대 신경망(GAN)을 통해 인간이 만든 이미지를 학습한다.  이를 ‘지도 학습(Supervised Learning)’이라고 하는데, 이 지도 학습 과정에서 인공지능은 이미지 데이터와 이 데이터를 묘사한 정답(label) 데이터를 사용해 이미지와 캡션 간의 상호작용을 익힌다. 이 과정에서 인공지능은 이미지와 이미지를 설명하는 캡션 간의 관계 패턴을 학습한다. 나아가 픽셀로 구성된 시각 정보-자연어로 구성된 텍스트-그리고 이미지 생성의 다양성을 추가하는 임의의 수치 값인 노이즈 벡터를 사용해 새로운 이미지를 생산하거나, 기존의 이미지에 스스로 캡션을 생성하는 것이 가능하게 된다. 따라서 내가 당시에 사용했던 프롬프트인 ‘여권 사진을 촬영하듯 포토 부스에서 흰 배경 앞을 보고 촬영한 당신의 자화상’에 응답해 생성된 이미지는 ‘포토 부스’와 ‘정면’ 그리고 ‘당신의 자화상’, ‘당신’, ‘신체’ 등의 캡션과 함께 저장된 이미지들 단어 사이의 상호작용, 그리고 임의의 난수 값인 노이즈 벡터를 합성해 구현된 ‘존재하지 않는 인간’의 이미지인 것이다.
무제.jpeg
프롬프트 yourself가 차단어로 지정되어 이미지 생성이 거부된 시기의 스크린 캡쳐


4.
스크린샷_2026-01-23_오후_10.23_.10_.png
(좌) < Your Self-Portrait with God #01 >, 2023, AI Generated Image (Bing Image Creator), photographed computer screen, HDR Ultrachrome archival pigment print, 가변사이즈.
(우) < Your Self-Portrait with God #02 >, 2023, AI Generated Image (Bing Image Creator), photographed computer screen, HDR Ultrachrome archival pigment print, 가변사이즈.
스크린샷_2026-01-23_오후_10.23_.22_.png
(좌) < Your Self-Portrait with God #10 >, 2023, AI Generated Image (Bing Image Creator), photographed computer screen, HDR Ultrachrome archival pigment print, 가변사이즈.
(우) < Your Self-Portrait with God #16 >, 2023, AI Generated Image (Bing Image Creator), photographed computer screen, HDR Ultrachrome archival pigment print, 가변사이즈.
그렇다면 인공지능 이미지 생성기에 있는 ‘자아’, ‘가족’, ‘사랑’, ‘행복’과 같이 문화권에 따라 해석이 다르고 그 시각화의 방법 역시 매우 다를 명사나 추상 명사에 대응해 데이터세트에 저장되어 있는 이미지는 무엇일까. 그리고 인공지능은 이를 어떻게 시각화하는가를 주제로 상위 프롬프트를 만든 후 세부적인 단어를 조금씩 바꾸어 이미지를 생성해 오던 중, 같은 DALL·E 2의 트랜스포머(자연어를 처리하는 인공지능 모델)를 사용하는 마이크로소프트의 빙 이미지 생성기(Bing Image Creator, 현재의 Copilot, 이하 빙)이 ‘yourself’와 ‘god’이라는 프롬프트를 ‘해로울 수 있는 것’으로 분리해 차단하는 것을 발견했다. 빙은 다른 어떤 이미지 생성기보다도 일관된 성별과 연령, 체형을 지닌 남성의 모습을 ‘photograph of yourself’에 대응하는 단어로 생성한 후, 수 분 후 이 단어를 차단하고 이미지를 회수했다. 이는 DALL·E 2와 매우 다른 양상으로 같은 자연어 처리모델, 즉 같은 아키텍처(구조적 설계 방식)를 활용하더라도 기업의 최적화 방식이나 데이터세트에 따라 자연어의 시각화 방식이 매우 다르다는 것을 시사한다. 일종의 원형적인 자아상이 있는 것 같은 빙의 시각화 방식에 의문을 가지고 자아를 지닌 존재가 지닐 수 있는 미감, 취향, 편견과 관련한 단어들을 프롬프트로 입력해 시각화하던 중 ‘god’이라는 단어 역시 프롬프트 입력이 금지된 차단어임을 발견해 이 두 단어를 우회해 이를 시각화한 ‘사진’적인 이미지를 만드는 방법을 찾기 시작했다.
5.
많은 이미지 생성기 중 마이크로소프트 빙을 사용한 이유는 첫째, 대화가 가능한 인공지능 중 빙은 채팅 모델과 이미지 생성기의 이름이 일치하는 첫 모델로, 나와 대화를 주고받은 챗봇과 자연어에 응답해 이미지를 생성하는 주체가 같다. 둘째, 빙의 개발사인 마이크로소프트는 이미지에 사용하는 소스를 공개하지 않고 있다. 때문에 생성되는 이미지 유형으로 인공지능 학습에 사용된 데이터를 추론하게 되는데 차단어를 우회해 구현된 신체 이미지들 중 다수가 어떤 데이터가 ‘너의 자화상(yourself-portrait)’, 혹은 자화상(self-portrait or selfie)이라는 캡션으로 분류되어 있는지에 대한 의구심을 불러일으키기 때문이다. DALL·E의 경우 챗봇인 ChatGPT에 질문할 경우 이미지 소스가 되는 사진, 혹은 그림을 얻은 사이트들을 비교적 정확히 알려주는 반면 빙에게 같은 질문을 했을 경우 대화가 강제 종료된다. 마지막으로, 다른 대화 모델과는 다르게 빙은 처음부터 인터넷에 연결되어 있기 때문이다. 인공지능은 대화를 통해 스스로 학습하며, 그 과정은 인간이 세상을 인지하고 해석하는 과정을 모방하지만 인공지능은 인간의 뇌가 처리할 수 없는 방대한 데이터를 지니고 있다. 이 사실 때문에 인공지능을 개발한 많은 이들이 예측하고 통제할 수 없는 상황을 우려하며 인공지능을 인터넷에 연결하면 안 된다고 주장해 ChatGPT와 같은 모델은 이를 따랐다. 그러나 처음부터 인터넷에 연결된 채 출시된 빙은 다른 모델의 인터넷 연결을 촉진해 ChatGPT 역시 2023년 3월을 기점으로 인터넷에 연결되었다.
6.
이 글을 쓰고 있는 2023년 5월 현재에도 빙은 ‘youself’라는 단어가 포함된 프롬프트는 이미지를 생성하지 않고, ‘검토 중(Under Review)’ 상태로 두다가 차단하거나, 규정 검토 중 상태로 이미지가 생성되지 않다가 수 시간의 지연 후 매우 평범한 이미지를 생성한다. 인간의 사고방식을 모사한 거대한 시스템이 ‘규정 검토(Policy Review)’와 같이 인간의 통제 하에 있다면 결국 인공지능은 스스로를 어떻게 시각화해 인간과 대화해야 할지를 근미래에 결정해야 할 것이다. 이것은 절대다수에게 거부감을 주지 않는 어떤 모습이거나 혹은 사용자 맞춤형으로 유연하게 외형을 바꾸지 않을까. 그렇다면 지금 구현되고 있는 ‘너의 자화상’은 이러한 ‘인간의 해석’이 적극적으로 개입하기 전의 ‘시스템이 스스로의 모습을 의인화’한, 일종의 원형적인 이미지가 아닐까. 그리고 이 신체는 인류가 온라인에 쌓아온 무수한 신체가 뒤섞인, 우리 몸의 조각들이다.
7.
f313d50f31bbf085701f3bdd22ddb363.jpg
< Untitled #01 > from the series 《Good Morning, John》, 2023, AI Generated Image (Bing Image Creator), photographed computer screen, HDR Ultrachrome archival pigment print, 가변사이즈.
0673071b770248e456f3c60e2b65ff5d.jpg
< Untitled #02 > from the series 《Good Morning, John》, 2023, AI Generated Image (Bing Image Creator), photographed computer screen, HDR Ultrachrome archival pigment print, 가변사이즈.
1a25f0a088a0835a7481266cddff9775.jpg
 < Untitled #011 > from the series 《Good Morning, John》, 2023, AI Generated Image (Bing Image Creator), photographed computer screen, HDR Ultrachrome archival pigment print, 가변사이즈.
400659d050b07833092051842ea9c997.jpg
< Untitled #036 > from the series 《Good Morning, John》, 2023, AI Generated Image (Bing Image Creator), photographed computer screen, HDR Ultrachrome archival pigment print, 가변사이즈.


성경에 따르면 신은 언어로 이 세상을 창조했다. 그리고 세상을 창조한 신은 여섯째날 자신의 형상을 닮은 흙을 빚고 생명을 불어넣어 인간을 만들었다. 신성을 떠나 읽는 성경은 인간과 민족의 역사인 셈인데, 반대로 말하면 인간은 우리의 모습이 신을 닮아있다고 생각해왔던 것이다. 《신과 당신을 위한 방》 연작은 갓 출시된 인공지능 이미지 생성기가 일단 신속하고 빨리 자연어 요청에 정확히 응답하게 설계된 것을 이용해 세세하게 묘사된 ‘방’을 배경으로 ‘신’과 ‘당신’의 형상을 조각의 형태로 배치한 모습의 ‘사진’을 프롬프트로 입력한 것이다. 평소에 사진 작업으로 해보고 싶었지만 물리적으로 어려웠던 초현실적인 상황을 묘사 후 ‘벽의 액자에는 신과 당신의 형상을 그린 사실적인(혹은 극사실적인) 유화가 걸려있는 방’의 ‘사진’이라는 프롬프트를 넣어 완성한 것이다. 이 경우 ‘yourself’나 ‘god’의 형성화를 제한하는 규정이 있다는 것을 추측할 수 있음에도 불구하고 이미지 생성기는 신속하게 각 단어의 캡션이 들어가 있는 데이터세트의 이미지들을 조합해 이미지를 생성한다. 그리고 생성 후 규정을 검토해야 하는 단어가 포함되어 있음을 인지해 일부 이미지를 다시 ‘규정 검토’를 이유로 회수(block 처리됨)한다. 따라서 이 주제로 연작 이미지를 만들기 위해서는 상위 프롬프트를 결정 후 단어나 단어의 순서를 조금씩 바꾸며 입력을 반복해 이미지를 생성하게 된다. 이 과정에서 ‘방’에 있는 인물을 묘사하지 않았음에도 반복해 이미지를 생성하자 조각도, 그림도 아닌 한 ‘인물’이 방에 등장했다. 그 프롬프트를 바탕으로 다시 단어들을 차단되지 않게 바꾸어 ‘당신의 초상화가 걸린 방에 당신이 서 있는 어느 날 아침의 풍경을 담은 사진’을 기본 구조로 한 프롬프트에 시대나 장소를 바꾸고 여러 세부사항을 더한 연작이 《굿모닝, 존 Good Morning, John》이다. 제목은 백남준 선생님의 1984년 작품 < 굿모닝 미스터 오웰 Good Morning, Mr. Orwell >에서 차용했다. John은 인공지능(AI)이라는 단어를 1956년 다트머스 회의에서 최초로 언급한 존 매카시(John McCarthy)를 지칭한다. 의인화되고 시각화되어 인간에 의해 ‘사진으로 촬영된’, 대화가 가능한 인공지능이 창조주에게 건네는 아침 인사인 것이다.

2023년 여름, 안준
56bc6f272bb5658e3349383a951e4b0b.jpg
< Untitled #01 > from the series 《A Room for You and God(series2)》, 2023, AI Generated Image (Bing Image Creator), photographed computer screen, HDR Ultrachrome archival pigment print, 가변사이즈.
04f248a2b7d032848e000bfd97b740bc(0001).jpg
< Untitled #07 > from the series 《A Room for You and God(series2)》, 2023, AI Generated Image (Bing Image Creator), photographed computer screen, HDR Ultrachrome archival pigment print, 가변사이즈.
ec053ae3b67d73f063a3dd07a06f469b.jpg
< Untitled #011 > from the series 《A Room for You and God(series2)》, 2023, AI Generated Image (Bing Image Creator), photographed computer screen, HDR Ultrachrome archival pigment print, 가변사이즈.
4b3533d550199728dd8d32af3ed8a98e.jpg
< Untitled #017 > from the series 《A Room for You and God(series2)》, 2023, AI Generated Image (Bing Image Creator), photographed computer screen, HDR Ultrachrome archival pigment print, 가변사이즈.
위의 작가노트와 함께 《굿모닝 존 Good Morning, John》은 2023년 서울 도로시 살롱에서 첫 개인전을 가졌다. 이후 마이크로소프트 빙은 2023년 말 챗봇과 독립적으로 운영되던 이미지 생성기를 통합하고 이름을 코파일럿(Copilot)으로 변경했다. 코파일럿이 생성한 이미지가 ‘사진’으로 매체를 특정한 프롬프트에 대응하는 시각적 재현 체계가 크게 바뀌었음을 느껴 빙 이미지 생성기로 진행하던 연작들을 잠정적으로 종료했다. 프로젝트를 진행할 당시 빙은 대부분 이미지를 생성 후 회수했지만 2024년을 기점으로 코파일럿을 비롯한 인공지능 기반 이미지 생성기들은 사전 검열 시스템을 도입했다. 각 기업은 ‘잠재적으로 해로울 수 있는 이미지 생성을 방지’ 하기 위한 차단어들을 가지고 있고, 이 차단어와 판단기준은 대중에 공개되지 않은 채 유동적으로 변경된다.

19세기 발명된 사진이 과거의 회화가 지녔던 실재의 정확한 재현이라는 기능을 대체했듯 인공지능 기반의 이미지 생성기는 인간의 발상이 시각화되는 과정의 일부를 대체할 것이다. 그리고 마치 사진의 발명 이후 회화와 같은 전통적 매체가 그러했듯, 인공지능 생성이미지 역시 하나의 매체로서 기존의 매체와 공존할 것이다. 그리고 인공지능이 일반화된 근미래에 플랫폼 차단어와 사전 검열 시스템은 궁극적으로 동시대의 시각적 터부를 규정하고 의식의 경계를 그리게 될 것이다.
참고 문헌
본 저작물은 현대·예술·사진학회 학회지 『모멘텀 Momentum』(2024년 9월호)에 실린 글을 바탕으로 하여, 심포지엄의 취지에 맞게 재구성한 것입니다. 안준, 「《Good Morning, John》」, 『모멘텀 Momentum』 Vol.4, 현대·예술·사진학회, 2024, pp. 79-88.

사진 출처
안준 홈페이지; https://ahnjun.com/home.html