Похожее соответствие прослеживается и в таких песнях, как We Found Love Рианны, I’ll Make Love to You группы Boyz II Men и Because You Loved Me Селин Дион. По названиям и текстам их легко отнести к песням о любви – теме вневременной.
Однако многие песни классифицировать труднее. Возьмем, например, Torn Натали Имбрулья. В песне идет речь о любви, переживаниях и тяжелом расставании. Однако слова «любовь» в тексте не найти, нет его и в названии. То же самое мы наблюдаем и в песнях Leaving on a Jet Plane трио Peter, Paul and Mary или Don’t Speak группы No Doubt.
Все это произведения о любви, но это совсем не значит, что все лирические песни похожи. Can’t Help Falling in Love Элвиса Пресли и Before He Cheats Кэрри Андервуд – это песни о любви, но они значительно отличаются. Некоторые лирические композиции (например, Walking on Sunshine группы Katrina & and the Waves) посвящены любви счастливой, другие (например, Jessie’s Girl Рика Спрингфилда) – безответной, а в каких-то (например, You Oughta Know Аланис Мориссетт) поется об обиде и гневе на бывших.
Назвать эти песни похожими – все равно что счесть одинаковыми шоколадный и печеночный торты. Да, в названиях обоих блюд присутствует слово «торт», но они совсем разные.
В песнях на другие темы все еще сложнее. Допустим, о чем песня Hey Jude группы The Beatles? Или When Doves Cry Принса? Люди дают весьма разные ответы на подобные вопросы. Некоторые считают, что песня Брюса Спрингстина Born in the U.S.A. – о патриотизме и чувстве гордости от права называться американцем, хотя на самом деле речь в ней идет о том, как ужасно власти страны обошлись с ветеранами войны во Вьетнаме.
Это говорит о том, что восприятие людей не может быть надежным основанием для классификации. По этой причине вместо людей мы обратились к компьютеру.
Представьте, что вы старшеклассник и только переехали в новый город. Вы никого не знаете в новой школе, не знаете, кто с кем дружит, поэтому вам предстоит понаблюдать, чтобы выяснить это. Например, вы часто видите Дэнни и Эрика вместе, из чего делаете вывод, что они друзья. Если один из них проводит часть времени с Люси, можно предположить, что они из одной компании. По этому принципу можно разделить класс на группы друзей и предположить, что у представителей каждой группы схожие интересы: спорт, компьютерные игры, театральная студия.
Это неформальные группы, но их наличие позволяет понять, как люди объединяются между собой. Однако не все представители одной группы постоянно проводят время вместе. Например, можно увидеть двух геймеров, разговаривающих у входа в школу, а позже двух других геймеров в столовой. Наблюдая пары в разных местах в разное время, можно сделать вывод о том, какие люди объединены в общую группу геймеров.
К тому же у одних людей желание постоянно быть в коллективе сильнее, чем у других. Например, Люси часто общается с теми, кто увлекается спортом, а Эрик – очень редко, проводя с ними не больше двадцати процентов времени.
Тот же подход можно применить и к словам. Мы можем сделать выводы о принадлежности песен к тематической группе, о «контактах» между ее «представителями» и получить статистические данные по так называемому тематическому моделированию. Этот термин означает концепцию объединения текстов по принципу языковых совпадений[80].
Если песни, в которых употребляется слово «любовь», содержат, например, такие слова, как «чувство» и «сердце», то их объединяют в одну группу. Как и те произведения, в которых есть слова «покачивание», «прыжок» и «хлопки».
Просматривая песни (а также любой другой текст или его фрагменты) и отмечая в них часто встречающиеся слова, можно создать основную модель текста. Обратите внимание, что при этом методе не требуется задавать определенные условия заранее. Тематическое моделирование позволяет сгруппировать песни, не рассматривая каждую в отдельности и не пытаясь дать определение каждой.
Шаблоны дают возможность рассортировать песни по группам и определить количество слов в зависимости от специфики. Например, слово «любовь» применимо и к семье, и к гаджетам, о чем слушатели могут даже не подозревать. Анализ песни позволяет выделить основные ее темы.
В нашем случае мы использовали этот метод для анализа тысяч песен и выделили в них основные темы. Разумеется, ключевой темой была любовь. Помимо страстной любви (ее маркировали слова «любовь», «гореть», «сгорать»), присутствовала любовь безответная (слова «любовь», «желать», «никогда»). Просматривались и другие темы: движения тела («покачивание», «прыжок», «вращение»), танцевальные движения («тверк», «мэш», «браш»), девушки и машины («девушка», «дорога», «поцелуй» и «машина») и многие другие.
80
David M. Blei, Andrew Y. Ng, Michael I. Jordan. Latent Dirichlet Allocation // Journal of Machine Learning Research. 2003. № 3. Р. 993–1022. URL: https://www.jmlr.org/papers/volume3/blei03a/blei03a.pdf.