Фото Сергея Конькова / ТАСС
С развитием машинного обучения и нейронных сетей банки получили инструменты для анализа информации о клиентах из социальных сетей. Это вызвало дискуссии об этичности использования личных данных без разрешения
На сегодняшний день банки все больше подвержены давлению со стороны высокотехнологичных, компаний и стартапов, которые пытаются охватить все сферы жизнедеятельности потребителей, в частности, финансовую. К примеру, компания Google, наряду с созданием мобильного кошелька, предлагает своим клиентам оформить дебетовую карту. В стороне не остаются и компании-ритейлеры: в США около трети всех транзакций в Starbucks оплачиваются с помощью карты лояльности. Текущая ситуация вынуждает банки искать новые пути использования своих ресурсов и альтернативные денежные потоки.
Именно поэтому все больше банков внедряют в свою деятельность кластеры Big Data для анализа данных о потребителях и выявления скрытых закономерностей в их поведении. При этом, банки обладают существенным преимуществом по части Big Data, так как у них уже имеется огромное количество достоверной информации о своих клиентах: от кредитной истории до ежедневных транзакций. Вдобавок, компании банковской отрасли, являясь посредником между торговыми точками и покупателями, обладают ценной информацией о характере их взаимоотношений.
Более того, по результатам опроса консалтинговой компании Accenture в Северной Америке из всего спектра компаний люди в большей мере готовы доверить личную информацию своему банку:
» style=»display: none»>
Таким образом, для того, чтобы принять вызов, бросаемый рынком, банкам необходимо извлекать максимальную пользу из имеющихся данных, активно внедряя системы анализа Big Data и предиктивную аналитику. Существует два основных источника данных, которые могут быть использованы банками: база данных самой компании, где хранятся структурированные данные, а также неструктурированные данные из социальных сетей.
С развитием алгоритмов машинного обучения и нейронных сетей (семантический анализ, распознавание образов и другие методы) стало возможно анализировать информацию о клиентах из социальных сетей для того, чтобы наилучшим образом понимать образ их мыслей и потребности. Однако данный технологический тренд повлек за собой оживленные дискуссии по поводу этичности использования личных данных без разрешения.
Смотреть галерею: 11 самых надежных банков России — 2017
В конце января, социальная сеть «ВКонтакте» подала в суд на компанию «Double Data» и Национальное бюро кредитных историй. Технологии, разработанные «Double Data», позволяют с высокой точностью найти страницу потенциального заемщика в сети «ВКонтакте» по данным кредитной заявки. Далее оттуда извлекается масса личных данных, на использование которых пользователи социальной сети не давали согласия: данные о местах проживания, работы и учебы, социальные связи, фото, частота посещения страницы и т.д. Все эти данные затем продаются банкам для использования в кредитном скоринге.
Представители «Double Data» указывают на то, что данные, которые они используют, размещены в открытом доступе. Кроме того, Mail.ru Group, которой принадлежит социальная сеть, является прямым конкурентом «Double Data». В 2016 г. Mail.ru Group начала продажу банкам системы оценки кредитных рисков, основанной на методах машинного обучения. Система позволяет, в частности, выявлять «качественных» заемщиков среди тех, кто ранее получал отказы в кредитах. Таким образом, данный иск может быть не столько проявлением заботы об интересах пользователей, сколько формой конкурентной борьбы.
Читать также: Это личное: privacy is dead, или как перестать беспокоиться по этому поводу и начать жить
Однако размещать личные данные, в том числе фотографии и видео, в социальной сети для своих друзей и знакомых и быть готовым к тому, что любой желающий сможет их найти и использовать в своих целях без вашего согласия — вовсе не одно и то же. Это подтверждается, например, реакцией на проект петербургского фотографа Егора Цветкова «Your Face is Big Data». Автор проекта сначала фотографировал случайных попутчиков в метро, затем нашел с помощью приложения FindFace по фотографиям их профили в сети «ВКонтакте». Приложение использует нейросетевые алгоритмы и позволяет идентифицировать людей с высокой точностью даже по мало похожим друг на друга фотографиям. Выставка, созданная фотографом, содержала размещенные вместе пары фотографий: одна сделана в метро, другая, часто достаточно личная и неожиданная для этого человека, взята из сети «ВКонтакте» и помещена рядом. Многие «жертвы» фотографа были шокированы возможностью так легко получить доступ к их контактным данным, фотографиям и личной информации.
Теперь рассмотрим некоторые задачи, которые могут быть решены с помощью технологий Big Data в банковской сфере:
Сегментация клиентов и релевантные предложения. Банки активно применяют персонализированный подход к клиентам, ведь теперь они могут составить «портрет» каждого из них на основе страниц в социальных сетях и транзакций.
Например, если ранее у клиента не было расходов, связанных с автомобилем (топливо, мойка и т.п.), а теперь они появились, и незадолго до этого была потрачена крупная сумма денег, можно считать, что клиент приобрел автомобиль и выслать ему интересные для него предложения. Такие системы детектирования платежных паттернов уже сейчас используются в ряде российских и зарубежных банков. С помощью вычисления важных событий в жизни клиентов индийскому банку HDFC удалось значительно повысить долю активируемых кредитных карт, и теперь более 70% активируемых кредитных карт банка обеспечивается сформированными на основе анализа платежных паттернов рекомендациями.
Что касается российского рынка, то, к примеру, тем, кто часто делает переводы в благотворительные фонды, в Сбербанке предлагают карту «Подари жизнь», а тем, кто часто бывает за границей — страховку для выезжающих за рубеж. В свою очередь, «Альфа-банк», сотрудничая с производителями фитнес-трекеров, предлагает своим клиентам, ведущим активный образ жизни программу «Activity» — накопительный счет с повышенной ставкой, на которые будет начисляться сумма денег, пропорциональная количеству пройденных шагов. Анализ платежных паттернов позволил Ситибанку в Сингапуре предлагать клиентам скидки и cashback в интересующих их магазинах и ресторанах, что привело к повышению лояльности и общей удовлетворенности клиентов.
Кредитный скоринг. Традиционные методы скоринга, в особенности для компаний, требуют длительного сбора комплектов документов, часть которых, например, финансовая отчетность, могут оказаться недостоверными, и значительных трудовых и временных затрат. Ситуацию в корне меняет использование транзакционных данных компаний-клиентов банка: данных о выручке, ее величине, стабильности и равномерности, данных о выплаченных налогах и штрафах, долге и платежах в счет его погашения и других данных. Банковская отрасль уже вступила на путь внедрения транзакционного скоринга, такой подход уже применяется в Банк Хоум Кредит: в сотрудничестве с GlowByte Consulting и SAS была разработана система принятия решений в реальном времени SAS Real Time Decision Manager и средство глубинного анализа текстовой информации SAS Text Miner. Высокопроизводительная платформа позволяет обрабатывать до 80 000 запросов сутки и, в результате, значительно снижает риски при выдаче потребительских кредитов.
Помимо транзакционных данных в кредитном скоринге используются и другие данные. Их спектр постоянно расширяется вместе с ростом качества применяемых алгоритмов, что позволяет постоянно улучшать предсказательную способность скоринговых моделей. В Сбербанке для решения задач кредитного скоринга используются не только традиционные данные, но и ряд дополнительных, например, графы связей клиентов, построенные на основе данных о денежных переводах и данных социальных сетей. Для кредитного скоринга компаний используются тексты новостей с их упоминанием, положительная или отрицательная тональность которых определяется автоматически. Ценные данные для кредитного скоринга предоставляют банкам операторы мобильной связи. Снижают вероятность одобрения кредитной заявки, в частности, большое число активных сим-карт заявителя и небольшое время их работы, мелкие и многочисленные пополнения счетов и подозрительная география звонков. Использование этих данных позволило Сбербанку улучшить качество своих скоринговых моделей на 7 процентных пунктов по метрике Джини.
Оптимизация работы сети отделений и банкоматов. Технологии больших данных позволяют оптимизировать работу сети отделений и банкоматов: геолокационная аналитика позволяет определить наиболее удачные места их расположения, анализ исторических данных по спросу на наличные деньги с учетом определенных событий, погодных условий, выходных и праздничных дней дает возможность предсказать потребность банкоматов в наличности, чтобы не хранить там избыточные средства, которые можно было бы распределить на более доходные направления использования, а математические методы оптимизации помогают перераспределить между банкоматами имеющиеся остатки наличных средств. С помощью технологий больших данных удалось оптимизировать работу банкоматов, в частности, Райффайзенбанку: Yandex Data Factory разработала для банка модель прогнозирования спроса на наличные в банкоматах. В основе анализа лежат данные 2000 банкоматов, в частности, их местонахождение, режим работы, фактический спрос на наличные. Внедрение данной системы позволит в перспективе уменьшить отклонение прогноза от реального спроса на 30% и, соответственно, снизить издержки, связанные с пополнением банкоматов и изъятием лишних средств, примерно на 15%. За рубежом одним из первых подобную платформу разработал индийский банк HDFC: на основе данных о работе пользователя с приложениями и сайтом банка банкомат автоматически определяет предпочитаемый клиентом язык и предлагает ему наиболее часто используемые им и рекомендуемые ему услуги (здесь используются рекомендательные системы).
Внутренний анализ работы сервисов банка. Для оптимизации работы не только физических, но и онлайн сервисов банка очень полезным оказывается автоматический анализ тональности текстов. Например, южноафриканский Nedbank с помощью алгоритмического выявления положительных и отрицательных отзывов в Интернете смог определить наиболее проблемные с точки зрения клиентов области в банковском секторе страны и провел в них улучшения, чтобы получить конкурентные преимущества. Наиболее проблемными областями оказались обслуживание в отделениях (а именно длинные очереди после работы и в обеденное время, когда многие сотрудники банков отправлялись на обед, и неудобные часы работы), а также телефонная поддержка и веб-сайты банков. В результате банк смог получить в этих областях большую долю положительных отзывов, чем отрицательных, и сформировать конкурентное преимущество. С помощью анализа тональности и ключевых слов отзывов и записей в социальных сетях банку Barclays удалось оптимизировать свое мобильное приложение. Выяснилось, что приложение не позволяло клиентам банка, не достигшим 18 лет, получать или отправлять деньги. Это создало массу негативных комментариев как от подростков, так и от родителей. После того как по собранным данным удалось идентифицировать проблему, банк смог оперативно доработать свое приложение, добавив доступ также для 16 и 17-летних.
Предотвращение оттока клиентов. В большинстве случаев стоимость приобретения нового клиента во много раз превосходит стоимость удержания имеющегося, поэтому очень важно выявлять склонных прекратить пользоваться услугами банка клиентов и принимать превентивные меры. Индикаторами здесь могут служить, например, прекращение регулярных платежей, жалобы по телефону или негативные отзывы в Интернете. С помощью сложных предсказательных моделей, использующих исторические данные по транзакциям и еще 115 переменных, компания American Express в Австралии смогла точно идентифицировать более 24% счетов, которые без вмешательства будут закрыты в течение следующих 4 месяцев, и принять по отношению к ним превентивные меры. С помощью предиктивных моделей, сегментации клиентской базы и отдельных программ удержания для каждого из сегментов словацкий Tatra Banka смог снизить отток пользователей кредитных карт на 30%.
Выявление мошеннических операций. В банковской отрасли особенно остро стоит проблема обеспечения безопасности данных и информационных систем. Как известно, злоумышленники нередко пытаются получить доступ к денежным средствам и конфиденциальным данным клиентов. К счастью, алгоритмы машинного обучения и анализа данных могут одинаково эффективно работать как с исходными, так и с зашифрованными, анонимизированные и измененными данными. Технологии больших данных и в особенности глубокого обучения — распознавание лиц, голоса, биометрических характеристик — являются новым этапом в развитии кибербезопасности и позволяют эффективно бороться с мошенничеством. Среди российских банков, активно применяющих глубокое обучения для обеспечения безопасности стоит выделить Тинькофф банк и Сбербанк. В декабре прошлого года в Тинькофф банке была внедрена платформа VisionLabs LUNA, с помощью которой проводятся оффлайн-расследования: анализ клиентской базы с целью выявления признаков мошенничества и верификация клиентов, подавших заявку на получение кредита, с помощью фотографии. До этого, к началу 2014 году в Сбербанке была разработана и внедрена система идентификации клиентов, которая сравнивает фотографий из базы с изображениями, получаемыми веб-камерами на стойках — АС САФИ. В результате потери от получения средств по поддельным документам физических лиц сократились в 10 раз. Бороться с мошенничеством банкам помогают и системы детектирования аномалий. Например, компания Brighterion предлагает 4 системы для борьбы с мошенничеством в банковской среде: iPrevent, iDetect, iPredict и iComply. Так, технология iPrevent изучает и запоминает типичные поведенческие и покупательские паттерны клиентов и реагирует, когда возникает аномальное использование счетов и банковских карт, а система iComply предназначена для борьбы с международными схемами «отмывания» денег. Для борьбы с «отмыванием» денег в соответствии с регуляторными требованиями индийский банк HDFC использует решения SAS Institute. Внедренная банком система позволяет выявлять потенциально подозрительные транзакции, такие как постоянные перемещения денег и отмены операций, перераспределение средств на большое число счетов, позволяет находить крупные счета-«однодневки», выявлять случаи открытия большого количества счетов в короткий период времени и неожиданные всплески активности на давно «спящих» счетах. На российском рынке алгоритмы машинного обучения для предотвращения «отмывания» денег и финансирования терроризма используются Тинькофф банком: в сотрудничестве с SAS была разработана гибкая система мониторинга транзакций, SAS ANti-Money Laundering, позволяющая выявлять подозрительное поведение клиентов на основе их транзакций, а также проводить максимально быстрые, регламентированные проверки на консолидированных данных.
Читать также: Рейтинг 100 крупнейших банков — 2017
Персонализированный финансовый менеджмент. Как известно, людям свойственно вести себя нерационально по отношению к своим доходам и сбережениям: мы часто совершаем импульсивные покупки, а недавнее исследование «Тинькофф. Журнал» показало, что типичный россиянин сберегает лишь 8,7% своего дохода. Люди доверяют банками собственные средства, и поэтому банки, используя имеющиеся данные, должны всячески помогать своим клиентам управлять доходами и достигать долгосрочных целей. Например, используя такой интуитивно понятный алгоритм как деревья решений можно автоматически определить, нужна ли покупка автомобиля и, если да, то какой сможет себе позволить клиент, исходя из его дохода и интересов, а также подобрать подходящие условия кредитования:
В октябре 2015 года Альфа-банк выпустил Alfa-Sense — приложение, личный финансовый помощник клиента, которое должно напоминать о необходимости внести платеж по кредиту, заплатить за коммунальные услуги, подсказывать, как сократить расходы, и давать советы, облегчающие жизнь. Турецкий банк Garanti также выпустил приложение-помощник — IGaranti, которое анализирует транзакции пользователя, предлагая способы экономии средств, расчет остатка денежных средств на конец месяца, а также предлагает персонализированные скидки от брендов-партнеров. Более того, в приложении имеются механизмы предотвращения импульсивных покупок. В первые шесть месяцев после выхода приложение было скачано более 150 000 раз, что вылилось в дополнительные 30 млн долларов на расчетных счетах.
Создание новых потоков прибыли. Обладая огромным количеством ценной для бизнеса информации, банки могут найти альтернативные способы дохода. Одним из таких способов является тесное сотрудничество с брендами и продажа данных о поведении клиентов. Стоит отметить, что в таком случае данные передаются в анонимной, зашифрованной форме, с целью безопасности личных данных потребителей. Тинькофф банк активно использует эту возможность и предлагает брендам, интернет-магазинам и малому бизнесу программу Тинькофф Таргет, с помощью которой они получат возможность создавать таргетированные предложения клиентам, на основе данных, предоставляемых банком. Вдобавок, платформа помогает компаниям привлекать новых клиентов, благодаря точному таргетингу, выявляющему потенциальных покупателей.
Обработка исковых заявлений. В Сбербанке нейронные сети и анализ естественных языков используются для автоматической генерации ответов на исковые заявления. Сначала в исходном исковом заявлении выявляются ключевые «сущности«-блоки на основе правил, затем методами анализа текстов на естественных языках определяются юридические условия конкретного кейса, и далее нейронная сеть глубокого обучения генерирует на базе выявленных элементов ответный текст. Там же ведется разработка интеллектуального помощника для общения с клиентами в мессенджерах.
Сравнительно неиспользованной пока остается область reinforcement learning — обучения с подкреплением. По оценкам специалистов Сбербанка, именно к ней будет приковано основное внимание индустрии в этом году. Обучение с подкреплением позволяет моделям обучаться во взаимодействии со средой, подобно тому как, например, обучаются дети. За определенные действия среда поощряет, за другие — дает отрицательный выигрыш. Например, ребенок запоминает, что не нужно трогать горячие предметы, потому что это больно. Именно результаты reinforcement learning позволили, например, программе AlphaGo выигрывать у выдающихся игроков в одну из самых сложных стратегических игр мире — го. В качестве реакции среды в банковской отрасли может выступать оценка клиентом полезности рекомендаций и предложений, формируемых на основе алгоритмов. Эти алгоритмы затем будут корректироваться в ответ на отклик пользователей в режиме реального времени.
Таким образом, банковскую индустрию можно назвать одним из флагманов использования больших данных в мире, во многом из-за высокого качества и полноты доступных данных. Почти все операции, проводимые банками, проходят в электронной форме, четко записаны и авторизованы в соответствии с требованиями регуляторных органов. В России банковская отрасль также является лидером в области применения больших данных. В ней нашли применение почти все передовые направления анализа данных и машинного обучения — это и глубокое обучение, и обработка естественных языков, и искусственный интеллект, и анализ графов и сетей.