Продукты и разработки
Датасеты
Датасет пресуицидальных и антисуицидальных сигналов
Это большое датасет из текстов социальных сетей на русском языке, в котором больше 50 тысяч записей. Сам датасет посвящен определению текстов, которые описывают различные факторы, которые либо склоняют человека к страшному решению (пресуицидальные сигналы), либо удерживают (антисуицидальные сигналы). Всего в датасете содержится 33 пресуицидальных классов, объединенных в семь групп, и 12 антисуицидальных классов. Список и описание классов можно посмотреть в пункте 6.5 научной статьи.
Полный, мастер-датасет, лежит по этой ссылке. Поскольку датасет сложный, его можно адаптировать под разные условия и надобности. Мы сделали два датасета, которые с одной стороны обеспечивают F1-макро моделей на уровне 0.7, при этом содержат наибольшее количество классов:
Мы также отдельно выкладываем тестовый сплит пресуицидальной части с разметкой от трех разметчиков. Антисуицидальную часть мы не выкладываем из-за ее плохого качества. Итоговые антисуицидальный датасет имеет другую сетку классов после работы над ошибками и размечался по другой схеме без перекрытия.
Модели
Модели пресуицидальных и антисуицидальных сигналов
Это две комплементарные модели, которые были обучены на датасете пресуицидальных и антисуицидальных сигналов. Используются в системе «Китобой», как две основные модели. Модели были обучены на модифицированных версиях исходного датасета, которые описаны выше. Модификация, в основном, заключалась в изменении системы классов: классы с недостаточным количеством примеров либо исключались, либо объединялись с близкими по смыслу, но более мощными классами.
Программное обеспечение
Китобой
Система помогает оценивать уровень суицидального статуса для пользователей социальных сетей по их открытым постам. Для этого в систему загружаются посты со страницы пользователя, затем к каждому посту модели машинного обучения делают предсказания о наличии каких-либо признаков, связанных с суицидальным или антисуицидальным поведением.
Предсказания моделей позволяют отсеять нерелевантные посты, составляющие до 80 процентов от объема постов, позволяя сосредоточиться на значимых сообщениях. Система позволяет вести учёт пользователей и накапливать о них информацию для случаев экстренного реагирования.
Система может быть переориентирована с суицидальной тематики на любую другую, где интересующие явления можно классифицировать по текстам пользователей. Например, с помощью модели базовых эмоций можно оценивать динамику эмоционального состояния, что может быть полезно при диагностике широкого спектра психических расстройств. Возможно обучить классификаторы признаков конкретных психических расстройств.
Можно вовсе уйти от диагностики и, например, использовать систему для оценки операторов при общении с клиентом. Это могут быть как оператора поддержки, так и операторы кризисных линий психологической помощи. Для обучения соответствующих классификаторов вы можете обратиться к нам.
Код системы свободно распространяется. Ссылка на основной репозиторий.
Tritoned BERT
Это шаблон для докер-образа, позволяющий завернуть модель классификации на основе BERT в формате ONNX в Trtiton Inference Server. Рассчитано на класс AutoModelForSequenceClassification из библиотеки Hugging Face. Вам нужна только обученная модель и словарь номеров классов и их названий. На выходе у вас появляется легковесный образ (2 гигабайта), позволяющий использовать бертоподобные модели классификации как сервис.