본문 바로가기
배움: MBA, English, 운동

OpenAi - Realtime (실시간) API 소개

by Heedong-Kim 2024. 10. 3.

실시간 API 소개
이제 개발자는 애플리케이션에 빠른 음성 간 대화 경험을 구축할 수 있습니다.

 

오늘 우리는 모든 유료 개발자가 앱에 저지연 멀티모달 경험을 구축할 수 있도록 실시간 API의 공개 베타 버전을 소개합니다. ChatGPT의 고급 음성 모드와 유사하게, 실시간 API는 API에서 이미 지원되는 6가지 미리 설정된 음성을 사용하여 자연스러운 음성 간 대화를 지원합니다.

 

또한 실시간 API의 저지연 혜택이 필요하지 않은 사용 사례를 지원하기 위해 Chat Completions API에 오디오 입력 및 출력을 도입하고 있습니다. 이번 업데이트를 통해 개발자는 GPT-4o에 텍스트나 오디오 입력을 전달하고 텍스트, 오디오 또는 둘 다로 모델의 응답을 받을 수 있습니다.

 

언어 학습 앱과 교육 소프트웨어부터 고객 지원 경험에 이르기까지, 개발자들은 이미 음성 경험을 활용하여 사용자와 연결하고 있습니다. 이제 실시간 API와 곧 출시될 Chat Completions API의 오디오 기능을 통해 개발자는 이러한 경험을 지원하기 위해 여러 모델을 결합할 필요 없이 단일 API 호출로 자연스러운 대화 경험을 구축할 수 있습니다.

 

작동 방식

이전에는 유사한 음성 비서 경험을 만들기 위해 개발자들은 Whisper와 같은 자동 음성 인식 모델로 오디오를 전사하고, 텍스트 모델로 추론 또는 추리한 후 텍스트를 음성으로 변환하는 모델을 사용해야 했습니다. 이러한 접근 방식은 종종 감정, 강조 및 억양의 손실을 초래하고 눈에 띄는 지연이 발생했습니다. Chat Completions API를 사용하면 단일 API 호출로 전체 프로세스를 처리할 수 있지만 여전히 인간 대화보다 느립니다. 실시간 API는 오디오 입력 및 출력을 직접 스트리밍하여 더 자연스러운 대화 경험을 가능하게 합니다. 또한 ChatGPT의 고급 음성 모드와 마찬가지로 자동으로 중단 처리를 할 수 있습니다.

 

실시간 API는 GPT-4o와 메시지를 교환하기 위해 지속적인 WebSocket 연결을 생성할 수 있게 해줍니다. 이 API는 함수 호출(function calling)을 지원하여 음성 비서가 사용자 요청에 응답하고, 작업을 실행하거나 새 컨텍스트를 가져올 수 있습니다. 예를 들어, 음성 비서는 사용자를 대신하여 주문을 하거나 관련 고객 정보를 검색하여 응답을 개인화할 수 있습니다.

 

고객 지원 에이전트, 언어 학습 도우미 등


우리는 반복 배포 전략의 일환으로 실시간 API를 몇몇 파트너와 함께 테스트하여 피드백을 수집하면서 개발하고 있습니다. 초기 유망한 사용 사례 중 몇 가지는 다음과 같습니다:

  • Healthify라는 영양 및 피트니스 코칭 앱은 실시간 API를 사용하여 AI 코치 Ria와 자연스러운 대화를 가능하게 하며, 필요할 때는 인간 영양사가 맞춤형 지원을 제공합니다.
  • Speak라는 언어 학습 앱은 실시간 API를 사용하여 역할극 기능을 제공하며, 사용자가 새로운 언어로 대화를 연습할 수 있도록 유도합니다.

가용성 및 가격

실시간 API는 오늘부터 모든 유료 개발자에게 공개 베타로 출시됩니다. 실시간 API의 오디오 기능은 새로운 GPT-4o 모델인 gpt-4o-realtime-preview에서 지원됩니다.

 

Chat Completions API의 오디오는 몇 주 내에 gpt-4o-audio-preview라는 새로운 모델로 출시됩니다. gpt-4o-audio-preview를 사용하면 개발자는 GPT-4o에 텍스트 또는 오디오를 입력하고 텍스트, 오디오 또는 둘 다로 응답을 받을 수 있습니다.

 

실시간 API는 텍스트 토큰과 오디오 토큰을 모두 사용합니다. 텍스트 입력 토큰은 1M당 5달러이며 출력 토큰은 1M당 20달러입니다. 오디오 입력은 1M당 100달러이며 출력은 1M당 200달러입니다. 이는 대략적으로 오디오 입력 1분당 약 0.06달러, 오디오 출력 1분당 약 0.24달러에 해당합니다. Chat Completions API의 오디오 가격도 동일합니다.

 

안전 및 개인정보 보호

실시간 API는 API 남용 위험을 완화하기 위해 여러 계층의 안전 보호 기능을 사용하며, 여기에는 자동 모니터링 및 플래그가 지정된 모델 입력 및 출력에 대한 인간 검토가 포함됩니다. 실시간 API는 ChatGPT의 고급 음성 모드를 구동하는 동일한 버전의 GPT-4o를 기반으로 구축되었으며, 이는 GPT-4o 시스템 카드에서 자세히 설명한 대로 우리의 대비 프레임워크를 기준으로 자동 및 인간 평가를 통해 신중하게 평가되었습니다. 실시간 API는 또한 우리가 Advanced Voice Mode를 위해 구축한 동일한 오디오 안전 인프라를 활용하며, 우리의 테스트 결과 이 인프라가 잠재적인 위험을 줄이는 데 도움이 되었음을 보여줍니다.

 

우리의 사용 정책에 따르면 우리의 서비스를 스팸 발송, 오도 또는 타인에게 해를 끼치는 목적으로 전용하거나 배포하는 것은 금지되어 있으며, 우리는 잠재적인 남용을 적극적으로 모니터링하고 있습니다. 또한 우리의 정책은 AI와 상호작용하고 있다는 것이 명확하지 않은 경우 개발자가 사용자에게 AI와 상호작용하고 있음을 명확하게 알리도록 요구하고 있습니다.

 

출시 전에 우리는 외부 적팀 네트워크와 함께 실시간 API를 테스트했으며, 실시간 API가 기존 완화 조치로 다루어지지 않은 고위험 격차를 도입하지 않았음을 확인했습니다. 모든 API 서비스와 마찬가지로, 실시간 API는 우리의 엔터프라이즈 개인정보 보호 약관을 따릅니다. 이 서비스에서 사용된 입력 및 출력 데이터를 명시적인 허락 없이 모델 학습에 사용하지 않습니다.

 

시작하기

개발자는 며칠 내에 Playground에서 실시간 API로 빌드를 시작하거나 문서와 참조 클라이언트를 사용하여 시작할 수 있습니다.

우리는 또한 LiveKit 및 Agora와 협력하여 에코 제거, 재연결, 사운드 격리와 같은 오디오 구성 요소의 클라이언트 라이브러리를 만들었으며, 개발자가 Twilio의 음성 API와 실시간 API를 통합하여 음성 통화를 통해 AI 가상 에이전트를 고객에게 원활하게 연결하고 배포할 수 있도록 Twilio와 협력했습니다.

 

다음 단계

일반 가용성을 목표로 하는 과정에서, 우리는 실시간 API를 개선하기 위해 피드백을 적극적으로 수집하고 있습니다. 계획 중인 기능은 다음과 같습니다:

  • 더 많은 모달리티: 실시간 API는 음성을 지원하는 것부터 시작하며, 앞으로 비전 및 비디오와 같은 추가 모달리티를 추가할 계획입니다.
  • 증가된 속도 제한: 현재 API는 Tier 5 개발자에게 동시에 약 100개의 세션을 지원하도록 속도 제한이 적용되어 있으며, Tier 1-4의 경우 더 낮은 제한이 있습니다. 우리는 시간이 지나면서 이러한 제한을 증가시켜 더 큰 배포를 지원할 계획입니다.
  • 공식 SDK 지원: 우리는 실시간 API 지원을 OpenAI의 Python 및 Node.js SDK에 통합할 예정입니다.
  • 프롬프트 캐싱: 이전 대화 턴을 재처리할 수 있도록 프롬프트 캐싱을 지원할 예정이며, 이는 할인된 가격으로 제공됩니다.
  • 확장된 모델 지원: 실시간 API는 곧 출시될 GPT-4o mini 모델도 지원할 예정입니다.

우리는 교육, 번역, 고객 서비스, 접근성 등 다양한 사용 사례에서 개발자들이 이러한 새로운 기능을 활용하여 사용자에게 매력적인 새로운 오디오 경험을 제공하는 것을 기대하고 있습니다.

 

 

 

https://platform.openai.com/docs/guides/text-generation/quickstart

 

https://github.com/openai/openai-realtime-api-beta

 

GitHub - openai/openai-realtime-api-beta: Node.js + JavaScript reference client for the Realtime API (beta)

Node.js + JavaScript reference client for the Realtime API (beta) - openai/openai-realtime-api-beta

github.com

 

https://platform.openai.com/docs/guides/prompt-caching