Опрос The Bell и Datafold. Повелитель данных: что вы знаете об их качестве и зачем вам это

Человечество уже сгенерировало в 40 раз больше байтов информации, чем число звезд видимой Вселенной, и эта цифра продолжает увеличиваться в геометрической прогрессии.

До недавнего времени главной проблемой было собрать, разместить и обработать весь нужный объем данных, но за последние 10 лет мир сильно продвинулся в этом вопросе: появились дешевые, быстрые и масштабируемые хранилища данных и эффективные инструменты анализа и визуализации. Теперь качество и надежность данных и необходимость проверять их вручную — главные вызовы в работе дата-аналитиков и инженеров, свидетельствует исследование компании Datafold, которая специализируется на анализе качества данных.

Как машины помогают проверить качество данных и почему за автоматизацией процессов проверки — будущее, читайте в колонке Максима Межанского, вице-президента по развитию компании Datafold, среди клиентов которой компании-единороги Patreon и Thumbtack.

Getty Images

При поддержке

Современный мир гибриден: часть его существует в реальном физическом мире, а часть — в виртуальном. Например, мы с вами — реальны, а современный бизнес — преимущественно виртуален: решения в нем принимаются на основе аналитических данных и моделей.

Если человек в физическом мире решил перейти дорогу и увидел автобус — эта информация не вызовет сомнений и на ее основе человек примет решение, переходить дорогу перед автобусом или подождать, пока он проедет.

Чтобы узнать больше об основных узких местах в анализе качества данных, пройдите опрос и подпишитесь на рассылку Datafold:

9

Вице-президент по развитию компании Datafold Максим Межанский

Но бизнес устроен по-другому. Он основан на данных, которые живут в различных графиках и таблицах: в одной таблице информация о ширине улицы, которую нужно перейти, в другой — о приближающемся автобусе, в третьей — о плотности дорожного трафика и так далее. Чтобы понять, как безопасно перейти улицу, нужно вовремя соотнести все эти таблицы между собой, визуализировать ситуацию и уже на основе этого — принять верное решение. Для этого необходимо, во-первых, чтобы исходные данные корректно отражали реальность. Во-вторых, чтобы аналитик или алгоритм корректно их интерпретировал и использовал в своем анализе. Даже незначительные ошибки могут привести к колоссальным убыткам.

С проблемой качества данных можно бороться по-разному. Например, ведущие IT-компании (Uber, Facebook, Airbnb) создали свой внутренний инструментарий для управления качеством данных. Но это дорого, сложно, долго — 99,99% компаний такая опция недоступна. Наши фаундеры использовали опыт в дата-инжиниринге, полученный ими в ведущих технологических компаниях, в том числе Lyft, чтобы создать продукт, доступный любой Data Science команде, от небольшого стартапа до участников списка Fortune 500.

Продукты Datafold фокусируются на выявлении аномалий в данных до того, как информация будет использована для принятия решений и это нанесет ущерб всем последующим процессам.

Datafold подключается к разнообразным хранилищам аналитики в компании и автоматически создает единый каталог данных с возможностью поиска и моментальной оценки качества информации по целому спектру параметров.

Максим Межанский Вице-президент по развитию компании Datafold

Одна из самых главных проблем в работе с большими данными — это возможность отследить их первоисточник и всю цепочку вычислений и преобразований. Datafold автоматически выявляет зависимости в процессах обработки данных и позволяет специалистам моментально определить достоверность любой таблицы или столбца или обнаружить источник аномалии.

По сути, наши продукты — это инструмент для специалистов по работе с данными бизнеса, как микроскоп для биолога. Сам микроскоп не может сделать никакие выводы, для этого нужен специалист, но опытному биологу он позволяет точно увидеть, что перед ним. Так и с Datafold: с помощью нашего инструментария специалисты по работе с данными могут гораздо быстрее выполнять задачи, связанные с поиском и тестированием данных. Таким образом, мы помогаем бизнесу успешно внедрить аналитику во все процессы с уверенностью в их качестве. «Качество данных напрямую влияет на качество принятых бизнесом решений, на понимание своих клиентов и на отношения с ними», — считает Мелоди Чиен, старший директор-аналитик Gartner.

Среди клиентов Datafold data-driven компании-единороги, например, Patreon. Datafold основана инженерами из России Глебом Межанским и Александром Морозовым. Datafold является выпускником акселератора YCombinator и привлек раунд инвестиций серии А на $20 млн от NEA и Amplify Partners. В Datafold работает распределенная команда из 20 человек из 6 стран. На российском рынке компания привлекает ведущих разработчиков ПО, заинтересованных в теме совершенствования качества данных и продуктивности в аналитике.

Кадровый голод и данные

За 2020 год пользователи произвели 59 зеттабайт данных, или почти 670 трлн полнометражных фильмов. А к 2025 году этот показатель утроится. Мировой рынок аналитики больших данных оценивается в $41,85 млрд по итогам 2019 года, говорится в отчете ResearchAndMarkets. По прогнозам аналитиков, он вырастет до $115,13 млрд к 2028 году.

Профессия Data Scientists — одна из самых востребованных на сегодняшний день, эти специалисты нужны во многих сферах. С помощью аналитики данных можно узнать, где лучше открыть точку продаж, как расположить товары на полках, какую цену установить. Операторы связи используют данные, чтобы установить оптимальные тарифы, производства — спрогнозировать необходимость ремонта или замены оборудования, а банки — определить риск невозврата кредита.

В России Data Scientist с пятилетним опытом в крупной компании может запросить зарплату 500 000 рублей в месяц. И даже при таких зарплатах специалистов в этой области критически мало: дело в том, что в профессию сложно попасть без сильной университетской математики и других специфических hard skills.

Компаниям кажется, что кадровые агентства просто плохо ищут и если «поднажать», то ситуация исправится. Но это фундаментальная ошибка: спрос в data driven компаниях кратно превышает предложение, а людей с необходимыми навыками радикально больше не станет. Выход из ситуации — автоматизация процессов по работе с данными и внедрение программ, которые под это заточены. Таких как Datafold.

Узнать больше  

Фото на обложке материала: Getty Images