Cerebras Systems, 엔비디아에 도전장 – '세계에서 가장 빠른' AI 추론 서비스 출시

AI 컴퓨팅 분야의 야심 찬 스타트업인 Cerebras Systems가 엔비디아(Nvidia)에 도전장을 던지며, '세계에서 가장 빠른' AI 추론 서비스를 출시했습니다. 이 서비스는 현재 클라우드에서 이용 가능합니다.

AI 추론(inference)이란 훈련된 AI 모델을 사용해 실시간 데이터를 처리하여 예측이나 작업을 수행하는 과정입니다. 이 과정은 AI 산업의 핵심 요소이며, Cerebras에 따르면 이는 현재 클라우드에서 가장 빠르게 성장하는 분야로, 전체 AI 워크로드의 약 40%를 차지한다고 합니다.

그러나 기존의 AI 추론 서비스는 모든 고객의 요구를 만족시키지 못하고 있습니다. Cerebras의 CEO 앤드류 펠드먼(Andrew Feldman)은 샌프란시스코에서 열린 기자 회견에서 "더 빠르고 저렴한 추론 서비스에 대한 수요가 높아지고 있다"고 말했습니다. 이러한 수요를 충족하기 위해 Cerebras는 '고속 추론(high-speed inference)' 서비스를 출시했습니다. 이 서비스는 1,000 토큰/초의 속도를 제공하며, 이는 마치 광대역 인터넷의 도입과 같은 게임 체인저로서 AI 응용 프로그램에 새로운 기회를 열어준다고 주장합니다.

강력한 하드웨어

Cerebras는 이러한 서비스를 제공할 만한 충분한 기술력을 갖추고 있습니다. 이 회사는 AI 및 고성능 컴퓨팅(HPC) 워크로드를 위한 특수하고 강력한 컴퓨터 칩을 제작하는데, 지난 1년 동안 Cerebras는 자사의 칩이 엔비디아의 그래픽 처리 장치(GPU)보다 강력하고 비용 효율적이라는 주장을 이어왔습니다. 공동 창업자이자 최고기술책임자(CTO)인 숀 리(Sean Lie)는 이를 'GPU로는 불가능한 성능'이라고 강조했습니다.

이 회사의 주력 제품은 2023년 3월에 발표된 WSE-3 프로세서입니다. 이 칩은 2021년에 발표된 WSE-2 칩셋을 기반으로 하며, 5나노미터 공정으로 제작되었고, 1.4조 개의 트랜지스터와 900,000개 이상의 컴퓨팅 코어, 44GB의 온보드 정적 랜덤 접근 메모리(SRAM)를 갖추고 있습니다. Cerebras에 따르면, WSE-3는 단일 Nvidia H100 GPU보다 52배 더 많은 코어를 자랑합니다.

이 칩은 소형 냉장고 크기의 데이터 센터 장치인 CS-3에 탑재되어 있으며, 칩 자체는 피자 크기와 비슷하며, 통합 냉각 및 전원 공급 모듈을 갖추고 있습니다. 성능 측면에서 Cerebras WSE-3는 WSE-2보다 두 배 더 강력하며, 125 페타플롭스의 최고 속도에 도달할 수 있습니다. 1 페타플롭스는 1,000조 개의 계산을 1초에 수행하는 성능을 의미합니다.

Cerebras CS-3 시스템은 새로운 Cerebras 추론 서비스를 지원하는 엔진이며, 특히 Nvidia H100 GPU보다 7,000배 더 많은 메모리를 제공하여 생성 AI의 근본적인 기술적 과제 중 하나인 메모리 대역폭 문제를 해결합니다.

빠른 속도와 저렴한 비용

Cerebras의 추론 서비스는 매우 빠르며, Nvidia의 가장 강력한 GPU를 사용하는 클라우드 기반 추론 서비스보다 최대 20배 빠른 성능을 자랑합니다. Cerebras에 따르면, 이 서비스는 Llama 3.1 8B 모델에서 초당 1,800 토큰, Llama 3.1 70B 모델에서 초당 450 토큰을 처리할 수 있습니다.

가격 경쟁력도 뛰어납니다. 이 서비스는 백만 토큰당 10센트로 시작하며, 이는 AI 추론 워크로드에서 100배 더 높은 가격 대비 성능을 제공합니다.

이 회사는 Cerebras 추론 서비스가 특히 '에이전틱 AI(agentic AI)' 워크로드에 적합하다고 덧붙였습니다. 이러한 워크로드는 사용자를 대신하여 작업을 수행하는 AI 에이전트가 필요하며, 기본 모델을 지속적으로 프롬프트할 수 있는 능력이 필요합니다.

독립적인 AI 모델 분석 회사인 Artificial Analysis Inc.의 공동 창업자 겸 CEO인 Micah Hill-Smith는 "Llama 3.1 8B와 70B가 Cerebras 추론 서비스에서 고품질 평가 결과를 기록했다"고 말했습니다. 그는 "빠른 성능과 경쟁력 있는 가격으로 인해 실시간 또는 대량 처리가 필요한 AI 응용 프로그램 개발자들에게 매우 매력적이다"라고 평가했습니다.

다양한 접근 옵션

Cerebras 추론 서비스는 세 가지 티어로 접근할 수 있으며, 무료 제공 옵션도 포함되어 있습니다. 이 무료 제공 옵션은 API 기반 접근을 제공하며, 플랫폼을 실험해보고자 하는 사용자에게 넉넉한 사용 한도를 제공합니다.

개발자 티어는 유연한 서버리스 배포를 위한 것입니다. API 엔드포인트를 통해 접근할 수 있으며, 오늘날 사용 가능한 대안 서비스에 비해 가격이 훨씬 저렴합니다. 예를 들어, Llama 3.1 8B는 백만 토큰당 10센트, Llama 3.1 70B는 60센트로 제공됩니다. 추가 모델에 대한 지원도 곧 추가될 예정입니다.

또한 엔터프라이즈 티어도 제공되며, 이는 맞춤형 모델과 전용 지원을 포함한 맞춤형 서비스 수준 계약(SLA)을 제공합니다. 이는 지속적인 워크로드에 적합하며, Cerebras 관리형 프라이빗 클라우드 또는 온프레미스에서 구현할 수 있습니다. 이 티어의 가격은 공개되지 않았지만, 요청 시 제공된다고 합니다.

Cerebras는 GlaxoSmithKline Plc., AI 검색 엔진 스타트업 Perplexity AI Inc., 네트워킹 분석 소프트웨어 제공업체 Meter Inc. 등 인상적인 초기 액세스 고객 명단을 자랑합니다.

DeepLearning AI Inc.의 창업자인 Dr. Andrew Ng는 Cerebras 추론 서비스의 초기 사용자 중 하나로서, "Cerebras는 매우 빠른 추론 기능을 구축하여 대량 작업이 필요한 에이전틱 AI 워크플로우에 매우 유용하다"고 설명했습니다.

Cerebras의 야망은 여기서 끝나지 않습니다. Feldman은 회사가 "여러 하이퍼스케일러와 협력하여 이들 클라우드 서비스에서 자사의 기능을 제공하기 위해 노력 중"이라고 말했습니다. 그는 또한 CoreWeave Inc. 및 Lambda Inc.와 같은 AI 전문 제공업체들도 고객으로 확보하고 싶다고 밝혔습니다.

추론 서비스 외에도 Cerebras는 AI 개발을 가속화하기 위해 필요한 모든 전문 도구에 대한 접근을 제공하기 위해 여러 전략적 파트너십을 발표했습니다. 이들의 파트너에는 LangChain, LlamaIndex, Docker Inc., Weights & Biases Inc., AgentOps Inc. 등이 포함됩니다.

Cerebras는 자사의 추론 API가 OpenAI의 Chat Completions API와 완벽하게 호환되며, 기존 응용 프로그램은 몇 줄의 코드만으로 플랫폼으로 마이그레이션할 수 있다고 밝혔습니다.

https://cerebras.ai/company/

Company - Cerebras

Cerebras is revolutionizing compute for Deep Learning.

cerebras.ai

Cerebras Systems는 2016년에 설립된 AI 컴퓨팅 회사로, 캘리포니아주 서니베일에 본사를 두고 있습니다. 이 회사는 세계에서 가장 큰 컴퓨터 칩인 **Wafer Scale Engine(WSE)**을 개발한 것으로 유명합니다. 최근에 출시된 WSE-3는 5나노미터 공정으로 제작되었으며, 90만 개 이상의 AI 최적화 코어를 갖추고 있어 현재 가장 강력한 AI 칩으로 평가받고 있습니다.

Cerebras의 설립자는 **앤드류 펠드만(Andrew Feldman)**을 포함한 컴퓨터 공학 및 시스템 설계 전문가들로 구성되어 있습니다. 펠드만은 이전에 SeaMicro라는 회사를 공동 설립하여 AMD에 3억 5천7백만 달러에 매각한 경험이 있습니다. Cerebras의 다른 핵심 인물로는 Sean Lie와 Gary Lauterbach가 있으며, 이들은 Sun Microsystems와 AMD에서 오랜 경력을 쌓은 뒤, SeaMicro에서도 중요한 역할을 수행했습니다.

Cerebras의 주요 제품은 Cerebras CS-3로, WSE-3 칩을 활용하여 AI 훈련 및 추론에서 타의 추종을 불허하는 성능을 제공합니다. 이 시스템은 특히 전통적인 GPU 기반 시스템(예: Nvidia 제품)보다 대규모 AI 모델을 더 효율적으로 처리할 수 있는 점에서 주목받고 있습니다. CS-3는 최근 출시된 AI 추론 서비스의 기반이 되며, 이 서비스는 Nvidia GPU를 사용하는 유사 서비스보다 최대 20배 빠른 성능을 제공한다고 합니다.

Cerebras는 다양한 산업 분야에서 주요 조직들과 파트너십을 체결하며 AI 산업에서 중요한 입지를 다졌습니다. 예를 들어, GlaxoSmithKline과 Argonne National Laboratory와 협력하여 신약 개발과 암 연구를 가속화하고 있습니다. 또한, 최근 Mayo Clinic과 수백만 달러 규모의 계약을 체결하여 의료 분야의 AI 모델 개발에 나서고 있습니다.

Cerebras는 여러 차례의 자금 조달을 통해 7억 달러 이상의 자금을 모았으며, 2023년 기준으로 40억 달러 이상의 평가를 받고 있습니다. 또한, 2024년 말 IPO를 준비 중이며, AI 하드웨어 분야에서 Nvidia와 같은 기존 강자들과 경쟁할 준비를 갖추고 있습니다.

Cerebras의 기술은 AI 산업에 변혁을 일으킬 잠재력을 인정받아, Forbes AI 50 리스트와 2024년 TIME100 가장 영향력 있는 기업에 선정되었습니다. 이러한 기술 혁신, 전략적 파트너십, 강력한 리더십은 Cerebras Systems를 AI 혁명의 선두에 서게 하며, 기존의 GPU 기반 컴퓨팅 솔루션에 대한 강력한 대안을 제시하고 있습니다.

728x90

저작자표시 비영리 변경금지 (새창열림)

늘 배움을 찾아가는 Life Long Learner

Cerebras Systems, 엔비디아에 도전장 – '세계에서 가장 빠른' AI 추론 서비스 출시

강력한 하드웨어

빠른 속도와 저렴한 비용

다양한 접근 옵션

티스토리툴바