Время летит быстро, особенно для тех, кто чем-то занят. Вот и мы вроде только писали наш майский девлог, а уже четыре дня как школьники и студенты сели за парты. В следующих двух девлогах расскажем вам, как прошло наше лето, что делаем сейчас и какие планы.

Как мы в Питере выступали

В конце мая наш руководитель ездил в Питер на конференцию CBTFORUM, которую проводит Ассоциация когнитивно-поведенческой терапии. Там он рассказывал про нашу платформу Китобой. Среди прочего, мы нашли коннект с руководительницей проекта «Открытые двери» и начали совместный пилотный проект.

Кстати, 12 октября она проводит свою конференцию в Питере, куда пригласила и нас. Самая интересная часть — это панельная дискуссия, где психотерапевты будут обсуждать перспективы ИИ для их работы. Мы там будем со стороны тех самых разработчиков этих инструментов.

Кроме этой дискуссии, конечно, будут просто доклады. От нас будет большой доклад из двух частей. В первой части мы познакомим психологов с нейросетями поближе, а во второй расскажем, как ИИ применяется в психологии за пределами «чатботов-психологов».

Если вы захотели поучаствовать, то билеты приобрести можно здесь. Формат как онлайн, так и оффлайн.

Как мы переводили датасеты с помощью БЯМ

Есть много замечательных датасетов, которые решать разные психологические задачи. Правда, есть проблема. Все они на английском языке. И ладно было бы просто дорого их разметить, порой вы данные такие с трудом найдете. Вот было бы классно переводить такие датасеты с одного языка на другой, правда?

Кто-то скажет, а что мешает использовать условный Яндекс.Переводчик? Да в целом ничего. Как-то да переведут. Но что делать, если вам нужно обеспечить перевод какой-нибудь подстроки, как в датасете EPITOME, где кроме разметки на текст есть еще разметка отдельных частей текста, определяющих почему стоит тот или иной класс? Где гарантии, что простой переводчик сможет перевести подстроку так, чтобы ее можно было найти в исходном тексте? Тут на сцену выходят БЯМ. Они и перевести корректно смогут, и стиль сохранят, и управлять ими можно, и выбор богатый.

Как мы это делали, мы рассказывали на Дата Фесте, который прошел 31 мая. Скоро мы подготовим отдельный пост, кто не любит смотреть видосы.

С помощью этого пайплайна мы перевели несколько датасетов:

  • psytechlab/epitome-reddit-ru - датасет с разметкой уровней эмпатии в тюрнах диалогов. С этого датасета все началось.
  • psytechlab/EmpatheticIntents-ru - большой (когда-то) диалоговый датасет с разметкой чувств для клиента и стратегий для терапевта.
  • psytechlab/ESConv-ru - тоже диалоговый датасет с разметкой стратегий для терапевта.
  • psytechlab/cognitive_distortions_dataset_ru - датасет, в котором выделены предложения, содержащие когнитивные искажения, с которыми часто работают в парадигме КПТ.
  • psytechlab/cognitive_distortions_gpt4_dataset_ru - тоже самое, что и предыдущее, только сгенерированное с помощью GPT4.

Сейчас мы активно исследуем механизмы поиска переводов, которые можно было бы улучишть. Также сейчас работаем над единой структурой, в которую можно вписать все эти датасеты для удобства работы.

Продолжение следует.