Можно ли работать с большими данными так, чтобы при этом не страдала защищенность данных персональных?
Чтобы меня не обвинили в неграмотности, скажу несколько слов о терминологии. Английское словосочетание big brother означает степень родства (старший брат), а также (при написании обоих слов с заглавной буквы) наблюдение и мониторинг. Второе значение происходит из знаменитого романа Джорджа Оруэлла «1984», где Старшим Братом именуется правитель тоталитарной Океании (повсюду развешаны плакаты с его «следящим» портретом и надписью Big Brother is watching you — «Старший Брат смотрит на тебя», — а за жителями страны ведется постоянная слежка). Но хотя роман и переведен на множество языков мира (несколько русских переводов циркулировало в самиздате задолго до публикации «официального» перевода В. Голышева в 1989 году), ассоциация между Старшим Братом и мониторингом «работает» далеко не везде. В частности, у нас ее нет. Поэтому словосочетание Big Brother в тех случаях, когда оно означает не степень родства и не правителя оруэлловской Океании, а слежку, прослушивание и т. п., часто переводят на русский как «Большой Брат» — неправильно, зато однозначно. Это не единственный вариант. Можно попытаться оставить «Старшего Брата» — правда, тогда понадобятся дополнительные объяснения, — и можно вовсе уйти от перевода. Так, первая (нелицензированная) отечественная версия телевизионного шоу Big Brother, построенного на круглосуточном наблюдении за участниками-добровольцами, называлась «За стеклом». А во многих странах, включая Нидерланды, где это шоу было создано, его название оставлено английским — Big Brother. Но проще всего держаться термина «Большой Брат».
Замечу, что в XXI веке отношение к Большому Брату (в отличие от отношения к тоталитаризму) стало очень терпимым — иначе не могло бы появиться «посвященное» ему телешоу. Мы спокойно ходим под видеокамерами, звоним в контакт-центры, ведущие запись наших разговоров, не слишком опасаемся сетевого мониторинга (в США в 1990-х пользователи его побаивались — обнаруженное посещение страниц с предосудительным контентом могло закончиться увольнением). Ситуация пришла в относительное равновесие. Нас возмущает тайное наблюдение или прослушивание, поскольку это заставляет предполагать враждебные цели, но если мы предупреждены о наблюдении и знаем, для чего оно ведется, возражений обычно нет.
Точнее, их не было до недавнего времени. Анализ больших данных вновь сделал нас подозрительными, и не зря. Дело здесь в экстраполяции, в соединении ключевых точек, как образно назвал этот процесс директор по технологиям ЦРУ Айра Хант: сведя воедино информацию из нескольких открытых источников, вполне можно получить данные, не подлежащие разглашению и составляющие чью-либо тайну. ЦРУ ведет работу в этом направлении. «Поскольку нельзя соединить точки, которых у тебя нет, — сказал Хант на конференции GigaOM Structure: Data 2013, — это приводит нас к образу [действий], основанному на попытках всё собирать, и мы всегда его придерживаемся». На его взгляд, «…уже почти в наших силах вести компьютерную обработку всей информации, порождаемой человеком». Журналист веб-ресурса SearchCIO Линда Туччи сопоставила это высказывание Ханта с публикацией еженедельника Federal Computer Week, который, ссылаясь на неназванный источник, сообщил о подписании долговременного (сроком свыше десяти лет) контракта между ЦРУ и Amazon Web Services на построение частного облака за межсетевым экраном ЦРУ. Сумма контракта — более 600 млн. долл. В порождаемую людьми информацию Хант включает данные от мобильных устройств: всякий, у кого есть смартфон, «уже представляет собой ходячую сенсорную платформу», способную, например, однозначно идентифицировать своего владельца по таким характеристикам, как походка или ритм биения сердца. Причем устройство видимо даже тогда, когда оно выключено. Многим, наверное, удобно, что, скажем, друзья и близкие всегда знают, где их найти, но сам технический директор ЦРУ не выражал никакого восторга по этому поводу. Он с грустью говорил о том, что мобильные технологии небезопасны, а «неживое становится разумным».
Основной темой статьи, в которой Линда Туччи упомянула выступление Ханта, были ее впечатления от конференции по управлению корпоративными рисками. Участники этой конференции — риск-менеджеры американских предприятий, представлявших самые разные отрасли, — рассматривали риск, связанный с неправомерным использованием больших данных, как один из самых серьезных. Именно на эту тему по преимуществу велись разговоры в кулуарах, хотя в рамках двухдневной программы конференции прошло всего одно заседание, посвященное рискам безопасности данных и приватности.
Один из выступавших (имя в статье не названо), директор по безопасности страховой компании, работающей в сельской части штата Нью-Йорк, и член правления бостонской фирмы, использующей большие данные для отслеживания террористов, заострил внимание на различии между личными и приватными данными. Скажем, фотография, имя или адрес — данные хотя и личные, но не приватные; постепенно все больше личной информации переходит в этот разряд, а встречный процесс невозможен. Соответственно обработка тех личных данных, которые уже открыты, поможет составить представление о недостающей части, и компании не несут ответственности за обнародование полученной таким путем информации. Правда, законодательство США запрещает использование информации для целей, не заявленных при ее сборе. Если, например, страховщик станет на основе персональных данных выявлять невыгодных клиентов, а потом тем или иным способом от таких клиентов избавляться, это может обернуться для него очень серьезными неприятностями. Что, разумеется, справедливо, но в менее очевидных случаях непросто определить, допустима ли такая-то обработка данных в таком-то бизнес-процессе, или она противоречит законодательству. И без того весьма сложную и противоречивую картину еще больше запутывает размывание самого понятия приватности и личной тайны. Лекарство известно: необходима культура обработки данных, некое общее понимание того, что здесь допустимо, а что нет, — но конкретных предложений пока не видно. Тут вспоминается притча советских времен, гласящая, что некогда КГБ тратил немалые ресурсы на то, чтобы заставить людей молчать. А добившись этой цели, должен был затратить не меньшие средства и усилия, чтобы выяснить, о чем же люди думают на самом деле.
При работе с большими данными применительно к клиентской информации может возникнуть похожий парадокс. Обрабатывая информацию о клиентах, а в перспективе — о населении и его поведении вообще, мы постоянно будем сталкиваться как минимум с этическими, а часто и с юридическими вопросами, которые в отсутствие некой критической массы больших данных раньше могли не возникать в принципе. А для того, чтобы как-то справиться с ними, нам снова придётся прибегать к ресурсоемким технологиям Big Data.
Приведем также примечательный в контексте нашего разговора график (см. рисунок), отражающий статистику ответов на один из вопросов, заданных в исследовании AIIM, которое проводилось в конце 2012 года среди американских компаний. Заключался он в том, какие типы неструктурированной информации пользователи считают наиболее важными с точки зрения её обработки для принятия ответственных для бизнеса решений. В принципе можно предположить, что весьма значительный интерес бизнеса как раз сосредоточен на контенте, касающемся поведения потенциальных клиентов (а при массовом развертывании технологии больших данных — значительной части населения вообще), а также на информации, призванной обеспечить конкурентоспособность бизнеса с правовой стороны. А вторая задача в современном мире встает в связи с попыткой использовать результаты обработки огромных массивов данных.
Напоследок рассмотрю пример, который приводился на московской конференции компании AHConferences, посвященной страховому бизнесу. Одна страховая компания в одной небольшой стране, известной, среди прочего, непропорционально большим количеством водителей-лихачей (страна была названа, а компания нет), предлагает клиентам, желающим застраховать автомобиль, установить на свою машину специализированное устройство — оно ведет мониторинг движения и передает данные страховщику. Тот, кто по результатам мониторинга оказывается аккуратным водителем, получает скидку. Такие условия хорошо описываются в терминах геймификации: принимая их, клиенты вовлекаются в игру. Цель игры — изменить поведение водителей так, чтобы они реже попадали в аварии, скидка выступает в роли игрового приза, а выигрывают все — и страховщик, и застрахованный, и общество в целом. Впрочем, слушателям, которые по большей части были представителями страховых компаний и одновременно владельцами автомобилей, идея показалась довольно-таки сомнительной с точки зрения бизнеса: разве можно продать свободу за скидку? Конечно, от свободы сломать себе шею любому стоит отказаться даже бесплатно, и скидка — вовсе не плата за отказ, а скорее дополнительный бонус, но далеко не очевидно, что клиенты согласятся с этими доводами.
Совсем плохо участники конференции отнеслись ко второй инициативе страховщика — читать записи (только открытые, разумеется) своих клиентов в социальных сетях и составлять их психологические профили. Человек, сидевший рядом со мной, произнес слова «Большой Брат» и «беспредел». Здесь клиенту не предлагают игру — он выступает как пассивный объект наблюдения и может быть наказан (пусть даже всего-навсего лишением скидки) за то, на что не в состоянии повлиять. Думается, ключевое отличие именно в этом: мы готовы принять более или менее равноправную игру по известным нам правилам, но не обработку наших данных с непонятными целями.