Fred Kurdov

+253
с 2017
3 подписчика
28 подписок

Качество от токенизации по буквам страдает, в GPT2 публикации вроде еще описывали про трейдоф между vocab size и context length ( намного эффективнее скейлится первое чем второе).

1

Разница в токенизации, в GPT4 используется BPE tokenizer, обученный на данных в основном на Английском языке. Как результат, один токен на Английском это целое слово или значимый кусок слова а на русском языке это всегда 1 буква. Получается 1000 слов на Английском для модели это ~1300 токенов, а на русском ~6000 токенов.

https://platform.openai.com/tokenizer вот тут можно поиграться и посмотреть как gpt видит текст.

2

Ну в Германии гос мед страховка обязательная, где то 600 евро в месяц и все калькуляторы ее уже учитывают, когда считаешь net. Включает в себя все острые медицинские необходимости, походу ко врачу и операции и тд, но не стоматологию и косметологию. Думаю в Нидерландах также или лучше)

А можешь пожалуйста написать как ты оформлял претензию евроклиру и что конкретно перекладывал, какие документы?

Хеш на централизованную api ссылку картинки сахарной ваты

11

Честно сказать, если бы коридор был 2.7 км я бы тоже напрягся)

1

Причём такой, что если человеку ещё и плохо станет, к нему даже не пройти.
У меня сразу клаустрофобия от таких узких туннелей развивается)

40

С 7 грамм габы можно и отъехать, лучше 3-4 ограничиваться)

1