Yandex YaLM

5 comments
1000억 개의 파라미터를 가지고 텍스트를 생성하고 처리하는 GPT와 같은 신경망인 YaLM 100B의 잠재력을 발휘하세요. 전 세계의 개발자와 연구자에게 무료로 제공합니다.0
웹사이트 방문하기

What is Yandex YaLM?

YaLM 100B는 텍스트를 생성하고 처리하기 위한 GPT와 유사한 신경망입니다. 전 세계의 개발자와 연구원이 자유롭게 사용할 수 있습니다.

이 모델은 1,000억 개의 파라미터를 활용합니다. 800개의 A100 그래픽 카드와 1.7TB의 온라인 텍스트, 서적, 영어와 러시아어의 기타 수많은 소스로 이루어진 클러스터에서 모델을 훈련하는 데 65일이 걸렸습니다.

Medium(영어)과 Habr(러시아어) 기사에서 가속 및 안정화에 대한 훈련 세부 정보와 모범 사례를 찾아볼 수 있습니다.

모델을 훈련하기 위해 DeepSpeed를 사용했으며 Megatron-LM 예제에서 영감을 얻었습니다. 그러나 이 리포지토리의 코드는 모델을 훈련하기 위해 사용된 코드와 동일하지 않습니다. 오히려 모델을 추론하는 데 필요한 최소한의 변경이 포함된 DeepSpeed 리포지토리의 기본 예제입니다.

More information on Yandex YaLM

Launched
2023
Pricing Model
Free
Starting Price
Global Rank
Country
Month Visit
<5k
Tech used
Yandex YaLM was manually vetted by our editorial team and was first featured on September 4th 2024.
Aitoolnet Featured banner

Yandex YaLM 대체품

더보기 대체품
  1. AI 언어 모델인 YandexGPT 2는 언어 모델링에 상당한 개선을 보였지만 여전히 근거가 없는 답변과 제안을 제공할 수 있습니다.

  2. GPT-NeoX-20B는 GPT-NeoX 라이브러리를 사용하여 Pile에서 훈련된 200억 개 파라미터 자동 회귀 언어 모델입니다.

  3. Alfred-40B-0723은 Huma의 강화 학습으로 얻은 Falcon-40B의 미세 조정된 버전입니다.

  4. 지속적인 연구로 대규모 트랜스포머 모델을 훈련합니다.

  5. TinyLlama 프로젝트는 3조 개의 토큰으로 1.1B Llama 모델을 사전 훈련하는 오픈 엔터프라이즈입니다.