Блог Джафара Алиева

Архив

Социальные сети, как средство для "вычисления" людей

Все, что вы скажете напишете может быть использована против вас.

Вы задумывались над тем, почему так много социальных сетей? Поинтересовавшись, я нашел в сети список 100 популярных сетей. А количество всех, скорее никто и не знает. Львиную долю всех соц. сетей составляют американские. Если думаете, что они созданы только для общения людей, то не торопитесь с ответом. Я уверен, что fb оказывает неоценимую помощь государству США в плане предиктивной аналитики, для классификации народов всей земли и конкретных людей. Только в январе этого года (2017), количество активных пользователей fb составляло 1,86 миллиард человек. А для нахождения количества всех постов этих людей, как говорил герой фильма Джо Блек, “умножьте это число на бесконечность и посмотрите на это через призму вечности”. Теперь Вы имеете некоторое представление об объеме информации, которую обрабатывает робот только одной социальной сети.

Социальные сети

Как же социальные сети нас "вычисляют"?

Я уверен, что среди читателей этой статьи будут и гуманитарии. Поэтому попробую объяснить максимально доходчиво и удаленно от всякого рода сложных вычислений. Как говорится, объясню “на пальцах”.

Допустим, какой-то Субъект написал пост в сети из 100 слов. Обрабатывая такой пост, система из списка этих слов сразу отбрасывает местоимения, частицы, и прочие слова заразы (типа, “зачем”, “я бы”,  “вдруг”, “казалось бы”, и т.д.), оставляя только информативные слова. Допустим, осталось 80 слов. Затем система начинает нормализацию текста, т.е.  все слова приводит в их начальную форму, отбрасывая окончания и всякого рода склонения. Потому что, для системы слова, типа “руководство”, “руководству” или “руководством”, это одни и те же слова.

Теперь начинается самое интересное. У системы есть тематические классификаторы, к которым привязаны определенные ключевые слова. То есть наличие этих слов в тексте помогает соотнести данный текст к определенной теме. Вернемся к нашему посту. Допустим из оставшихся 80 слов, после нормализации 20 относятся к политике, а еще 30 слов к экономической теме. Причем эти два множества слов могут пересекаться, т.е. например, 10 слов относятся как к политике, так и к экономике. Теперь найдем процентное соотношение этих слов в тексте.

20/80 = 0.25 (25%)
30.80 = 0.375 (37.5%)

Значит, этот пост на 25% состоит из политики  и на 37-38% из экономики, что дает право называть его политико-экономическим.

После этого система таким же образом определяет, является ли текст положительным или негативным, т.е. отношение самого Субъекта к теме. Это определяется еще легче. По словам можно определить не только мнение автора, но и такие факторы, как уровень агрессии и от какого лица написан пост. В большинстве случаев пост пишется от первого лица и выражает мнение самого автора. Оценив политико-экономический пост как негативный, система, возможно, решит, что отрицательное настроение Субъекта связана с временными экономическими трудностями в стране.

А что, если пост носит сугубо политический характер и к тому же является негативным? А что если такие посты автора носят регулярный характер? Это дает серьезный повод задумываться над поведением данного Субъекта. И все это решает не человек, а сам робот, которая ”обучена” этому. Ведь это его работа?!

А сколько времени для этого потребуется?

На всю вышесказанную обработку поста уходит менее секунды процессорного времени одного сервера, если учесть, что почти все современные соц. сети используют графовую структуру базы данных, которая тратит мене 10 миллисекунд на поиск связей среди 1 миллиона записей. Конечно, анализируя лишь один пост трудно создавать впечатление о человеке. А если робот проанализирует определенные случайно выбранные  посты, то с высокой точностью сможет сделать выводы о каждом пользователе своей сети. Допустим такое “вычисление” одного человека займет считанные секунды. Скорее менее одной секунды. Я согласен с тем, что умножив, даже одну секунду на количество пользователей, получим один миллиард секунд, что делает приблизительно 11,6 тыс. лет в случае одного сервера. Но учтите, что более 99% всех пользователей пишут ерунду или рекламируют свой товар. Они в данном плане не представляют никакого интереса для робота.

Еще одним важным моментом является горизонтальная масштабируемость и количество серверов в социальной сети. Сколько не искал в интернете, не нашел актуальной информации об этом. Все что удалось найти, это приблизительное число серверов fb на 2012 год. Это число равно приблизительно 180,000 по всему миру. И понятно, что с тех пор это количество лишь увеличилось. Теперь понятно, что это количество и регулярная оптимизация с лихвой компенсируют растущее количество активных пользователей.

Остается добавить к вышесказанному геолокацию пользователей, которую робот “узнает” из IP адреса и включенного GPS навигатора устройства. А некоторые пользователи сами отмечают пином все места, где побывали. Так что, робот еще и узнает, находится ли потенциальный бунтарь внутри страны или наносит удары издалека.

P.S. Тем, кто все еще думают, что его агрессивный пост останется незамеченным со стороны робота, отвечу словами покойного певца Боба Марли:
Bad boys, bad boys, whatcha gonna do, when they come for you.

© Все права защищены

Все статьи этого сайта написаны Джафаром Н.Алиевым. Перепечатывание любой статьи на стороннем ресурсе должно сопровождаться именем автора и ссылкой на данный ресурс. Сам автор следует этим правилам.