Для этого ученые собрали и изучили сообщения, которые на своих страницах в "ВКонтакте" оставляли примерно 2,4 тыс. подростков, проходивших в 2012 году специальный тест на оценку грамотности и способности применять знания на практике в рамках Международной программы по оценке образовательных достижений учащихся (PISA).
Ученые использовали эти данные, чтобы натренировать нейросети, которые могут анализировать смысловое содержание и стилистику текстовых сообщений в социальных сетях и сопоставлять их с типичным уровнем образования и успеваемости людей, для которых характерны подобные интересы, знания и стиль написания.
После того, как нейросеть научилась определять двоечников и отличников достаточно точно, Смирнов и его коллеги проверили работу алгоритма на наборе данных, полученных при анализе сообщений студентов из ста крупнейших вузов России. Благодаря этому они подтвердили точность предсказаний нейросети и выделили несколько типичных черт двоечников и отличников.
В частности, алгоритм обнаружил, что для последних были характерны длинные тексты, связанные с литературой, физикой и описанием мыслительных процессов. Вдобавок у них богатый лексикон, в котором часто присутствуют иностранные слова. Для двоечников характерны ошибки, смайлы, восклицания и слова, написанные заглавными буквами. Они чаще обсуждают гороскопы, военную службу и ДТП.
"Наши результаты лишний раз показали, насколько уязвима конфиденциальность пользователя в социальной сети. Люди переживают из-за вездесущих камер и систем распознавания лиц, однако, даже такой, казалось бы, незначительный цифровой след, как короткий текст, может стать источником информации, которую человек даже не собирался раскрывать", – подытожил Смирнов.
Комментарии
Уважаемые читатели! В связи с напряженной внешнеполитической обстановкой мы временно закрываем возможность комментирования на нашем сайте.
Спасибо за понимание