Q: 자동으로 문항을 생성했는데 질문에 다른 답변이 정답이 아닙니다. 이런 현상은 왜 일어나는 건가요?
GPT를 이용한 자동 문항 생성은 단순 논리에 의한 알고리즘이 아니라 다양한 데이터를 참조한 결과를 추출하는 알고리즘으로 이루어져 있습니다. 특히, 수학의 경우 이런 이유로 생기는 잘못된 결과가 나오는 경우가 있는 편입니다. 이는 수학의 논리로 계산된 결과가 아닌 GPT의 데이터에 따른 확률에 의존하는 경향 때문입니다.
이러한 오류는 GPT의 버전이 올라감에 따라 지속적으로 개선될 예정입니다.
Q: 자동 생성된 문항은 어느 정도 신뢰할 수 있나요? 바로 학생들에게 출제를 해도 될 만한 수준인가요?
현재 GPT가 생성한 문항의 경우 모든 문항이 바로 학생들에게 출제할 만한 수준은 아닙니다.
이는 첫번째로 GPT 자체가 한국어에 대한 능력이 영어에 비해 떨어진다는 이유가 있고 두번째로 저희 퀴즈릭스의 문항 정보에 대한 상세 기능 튜닝 작업이 현재 진행중이기 때문입니다.
물론 이러한 이슈는 GPT의 버전 업데이트에 따른 기능 개선과 퀴즈릭스 자체의 기능 튜닝 작업의 진행에 따라 지속적으로 개선될 것입니다.
그러나 AI가 완벽할 수는 없기에 100%의 신뢰성을 목표로 계속적으로 신뢰성이 100%에 가까워지고 있다고 말씀드릴 수 있습니다.
Q: GPT가 생성한 문항의 정확도, 활용성 등 품질에 대한 책임은 누구에게 있는 건가요?
이 질문은 GPT 등 AI 기술이 갖고 있는 태생적 문제로 현재 전세계적으로 이슈가 되고 있으며 해결을 위한 노력을 기울이고 있는 부분입니다. AI가 자율주행을 하다 사고가 나면 누구의 책임인지, AI가 의료진료를 하고 범죄를 판단했을 때 누구의 책임인지 등 AI가 인류의 생활에 새로 등장하면서 나타난 현상이라 할 수 있습니다.
현재는 이런 경우에 대해 “AI는 판단자가 아니며 인간의 판단을 위한 조력자”라는 위치로 주의를 기울이고 있는 중입니다.
GPT가 생성한 문항의 경우에도 비슷합니다. GPT는 출제자가 문제를 만들기 위해 필요한 노력을 줄이기 위해 자동으로 문제를 생성해 주는 것이고 출제자는 이를 리뷰하고 최종적인 판단을 내려야 합니다.
퀴즈릭스는 이를 위해 문항 생성 마지막 단계에 문제 수정이 단계를 만들어 최종적으로 문제 작성을 마무리 할 수 있도록 서비스 하고 있습니다.
Q: 문항을 자동 생성하면 “에디터로 편집하기” 버튼이 나타나는데 자동 생성한 문항을 꼭 에디터로 편집해야 하나요?
에디터로 편집하는 기능은 GPT(넓은 의미에서는 AI)가 항상 정확하지는 않기 때문입니다. AI는 최근 몇년 사이에 인류의 삶에 등장한 새로운 도구입니다. 이 도구는 너무 급작스럽게 발전하고 실생활에 적용되어 아직 검증이 완벽하게 이루어 졌다고 할 수 있습니다.
의료AI, 자율주행, 법률AI 등 인간의 운명을 좌지우지하는 분야에서는 이 부분을 매우 심각한 문제로 다루고 있습니다(너무 심각한가요?^^).
교육의 경우에는 학생들에게 틀린 문항를 출제하는 경우, 잘못된 선입견이나 편견을 갖게하는 경우가 있을 수 있기 때문에 인간인 출제자의 판단이 문항 생성의 한 단계로 필수적으로 들어가야 합니다.
이런 이유로 문항이 자동 생성될 때마다 각 문항에 에디터로 편집하는 기능을 넣어 출제자의 판단에 따라 수정이 가능하도록 서비스하고 있습니다.
Q: 문항 생성시 더 좋은 결과를 얻기 위한 방법이 따로 있나요? GTP는 질문하는 방법에 따라 답변이 달라진다고들 하던대요.
GPT의 경우 언어(한국어, 영어 등)에 따라 결과가 달라지기도 하고 질문의 구체성에 따라 질문자가 원하는 정보를 더 정확하게 생성해 주기도 합니다.
문제 생성에 있어서는 과목, 대상, 주제 등의 정보를 명확히 해주면 더 좋은 결과 혹은 기대하는 문항을 얻게 될 가능성이 높습니다.
예를 들어 단순히 “고등학교 수학문제를 만들어줘”라고 하기 보다는 “고등학교 3학년 수학 시험문제를 만들어줘. 확률에 관한 문제여야 하고 실생활에 대한 예시로 문제를 만들어 줬으면 좋겠어”라고 구체적으로 질문을 하는 것이 좋습니다.
Q: 과목이나 주제에 따라 문항 생성시 품질이나 정확도의 차이가 있나요?
A: 현재 GPT 등 데이터를 기반으로 하는 AI의 경우 학습된 데이터의 수량에 따라 품질이나 정확도에 영향을 받습니다.
예를 들어 한국어 기반의 국어 문제 보다는 영어 문제가 품질이나 정확도가 높을 수밖에 없습니다. 같은 이유로 한국사 문제 보다는 세계사 문제가 더 품질과 정확도가 높습니다.
이런 부분은 지역이나 언어적 특성과도 연관이 있다고 할 수있습니다.
Q: 앞으로 자동 문항 생성의 기능과 정확도 향상을 위한 서비스 업데이트나 발전 방향에 대한 계획은 어떻게 되나요?
AI는 항상 학습을 통해 진화해 가고 있습니다.
퀴즈릭스는 이런 변화의 바람에 따라 서비스 고도화 계획을 수립하여 진행하고 있습니다.
작게는 GPT 버전 업데이트에 따른 서비스 개선부터 한국어에 강한 국내 생성형 AI를 서비스에 추가 도입하는 등 조합형 생성형 AI 시스템을 이용한 서비스 고도화를 준비하고 있습니다.
물론 문항 생성이라는 특수한 서비스에 맞춘 AI 튜닝도 퀴즈릭스 자체적으로 진행하고 있으며 지속적으로 학습에 반영하고 있습니다.