Архитектура бэкенда для ML-моделей

Алёна Васильева, руководитель разработки Шедеврума, рассказала об архитектуре бэкенда для ML-моделей. Она объяснила, как работать с долгим инференсом ML-моделей (синхронно или асинхронно), сравнила поллинги, SSE и веб-сокеты, а также поделилась опытом команды в области экономии GPU.