What is Yandex YaLM?
YaLM 100B는 텍스트를 생성하고 처리하기 위한 GPT와 유사한 신경망입니다. 전 세계의 개발자와 연구원이 자유롭게 사용할 수 있습니다.
이 모델은 1,000억 개의 파라미터를 활용합니다. 800개의 A100 그래픽 카드와 1.7TB의 온라인 텍스트, 서적, 영어와 러시아어의 기타 수많은 소스로 이루어진 클러스터에서 모델을 훈련하는 데 65일이 걸렸습니다.
Medium(영어)과 Habr(러시아어) 기사에서 가속 및 안정화에 대한 훈련 세부 정보와 모범 사례를 찾아볼 수 있습니다.
모델을 훈련하기 위해 DeepSpeed를 사용했으며 Megatron-LM 예제에서 영감을 얻었습니다. 그러나 이 리포지토리의 코드는 모델을 훈련하기 위해 사용된 코드와 동일하지 않습니다. 오히려 모델을 추론하는 데 필요한 최소한의 변경이 포함된 DeepSpeed 리포지토리의 기본 예제입니다.
이 모델은 1,000억 개의 파라미터를 활용합니다. 800개의 A100 그래픽 카드와 1.7TB의 온라인 텍스트, 서적, 영어와 러시아어의 기타 수많은 소스로 이루어진 클러스터에서 모델을 훈련하는 데 65일이 걸렸습니다.
Medium(영어)과 Habr(러시아어) 기사에서 가속 및 안정화에 대한 훈련 세부 정보와 모범 사례를 찾아볼 수 있습니다.
모델을 훈련하기 위해 DeepSpeed를 사용했으며 Megatron-LM 예제에서 영감을 얻었습니다. 그러나 이 리포지토리의 코드는 모델을 훈련하기 위해 사용된 코드와 동일하지 않습니다. 오히려 모델을 추론하는 데 필요한 최소한의 변경이 포함된 DeepSpeed 리포지토리의 기본 예제입니다.
More information on Yandex YaLM
Launched
2023
Pricing Model
Free
Starting Price
Global Rank
Country
Month Visit
<5k
Tech used
Yandex YaLM 대체품
더보기 대체품-
AI 언어 모델인 YandexGPT 2는 언어 모델링에 상당한 개선을 보였지만 여전히 근거가 없는 답변과 제안을 제공할 수 있습니다.
-
GPT-NeoX-20B는 GPT-NeoX 라이브러리를 사용하여 Pile에서 훈련된 200억 개 파라미터 자동 회귀 언어 모델입니다.