МОСКВА, 28 мая. /ТАСС/. Исследователи из России разработали и опубликовали в открытом доступе набор данных для развития рекомендательных систем, полная версия которых включает в себя 5 млрд элементов. Публикация датасета Yambda, построенного на базе обезличенных данных "Яндекс музыки", ускорит развитие онлайн-сервисов, сообщила пресс-служба Яндекса.
"Развитие этих алгоритмов напрямую зависит от научных исследований, для которых нужны качественные и объемные наборы данных, при этом открытые датасеты чаще всего невелики по размеру или уже устарели. Публикация больших открытых датасетов наподобие Yambda помогает решить эту проблему, подобно тому, как появление набора данных ImageNet дало мощный толчок развитию компьютерного зрения", - заявил руководитель направления по развитию качества персонализации в Яндексе Александр Плошкин, чьи слова приводит пресс-служба компании.
Как отмечается в сообщении, подготовленный исследователями Яндекса набор для обучения рекомендательных систем ИИ был создан на основе обезличенных данных "Яндекс музыки". Он включает агрегированные прослушивания, лайки, дизлайки, а также некоторые характеристики музыкальных записей. Все данные о пользователях и треках анонимизированы: набор данных содержит исключительно числовые идентификаторы, что обеспечивает конфиденциальность.
Для повышения гибкости разработки исследователи подготовили три разных варианта этого набора данных, включающие в себя 50 млн, 500 млн и 5 млрд записей. Это позволит разработчикам рекомендательных систем подобрать оптимальный вариант для работы, соответствующий решаемой задаче и доступным вычислительным ресурсам. Все три датасета, а также инструменты для работы с ними, были опубликованы в открытом виде на востребованных ресурсах для разработчиков ИИ.