Не нужно много времени, чтобы объяснить, что такое excel, зачем он нужен и чем он полезен. Этот, если можно так сказать, All-on-one инструмент вошел в обиход уже очень давно и применяется не только в рамках аналитической работы. Компания Microsoft проделала большую работу и подарила нам tool неописуемый в своем многообразии. VBA (Visual basic for applications) и возможность интеграции Add-ins только усилила это многообразие, сделав его чуть ли не уникальным.
Но, как и во всем, дьявол кроется в деталях, и когда речь о более, скажем так, «тонкой» аналитической работе или обработке big data, мы сталкиваемся с трудностями.
Нам нужны строки
Если мы говорим о более-менее крупной компании, то мы подразумеваем наличие одной или нескольких систем, регулирующих бизнес-процессы, собирающих информацию о клиентах и бизнес-информации (CRM). Такие системы собирают данные в больших объемах и зачастую, если их положить в одной место, количество доходит до нескольких миллиардов строк.Excel же не вывозит объем строк на листе, превышающий одного миллиона. Менеджер скажет: «А при чем здесь объем? Мне нужна одна цифра». Мы поясним, что для более детальной аналитики нам нужна максимальная детализация. Ответы на вопросы, конечно, на уровне статистики, но, чтобы правильно ее построить – нужно видеть все.
Опытный аналитик скажет: «И что? У меня есть power query. У меня есть СУБД, где я сделаю предрасчет. Давно хотел разобраться в Python, говорят Pandas топ». Мы же ответим, что дело в complexity и применение нескольких инструментов требует и больше времени на выполнение работы, и дополнительных знаний, которыми аналитик может не обладать в данный момент времени. Мы любим учиться, но заказчик не всегда хочет ждать.
Интеграция в работу Power Query – уже сам по себе – жирный намек на то, что чего то не хватает. Если мы закопаемся, из чего состоит тот же Power BI, то мы поймем, что применение Power Query – первый шаг к осознанию, что пора внедрять BI систему.
Нам нужна оптимизация
Мы всегда хотим, чтобы все считалось быстро. С Excel это не всегда удается. В зависимости от объема данных и сложности применяемых расчетов – скорость работы книги может достигнуть бесконечности. Бывалые аналитики закрывали данную проблему и через Access, и через тот же Python, но мы опять возвращаемся к вопросу complexity.
Попытка компании Microsoft сделать универсальный инструмент, в данном контексте, сыграла злую шутку. Excel не использует реляционные модели, поэтому попытка подLOOKUPить данные на большой объем – часто превращается в пытку и шаманизм.
Вообще, работа аналитика по большей части – взять большие объемы данных из разных мест и положить это в одно место для дальнейших расчетов и визуализации. Эта raw data может забираться из разных источников в разных форматах. Не все эти форматы хорошо считываются через excel и тоже требуют дополнительное время на преобразование. Если мы забудем на входе типологизировать данные в столбцах - не будет удивлением, если книга зависнет, прекратит работу или вообще в последующем не откроется.
Справедливости ради стоит сказать, что BI системы тоже могут испытывать трудности, когда мы пытаемся интегрировать данных из нескольких источников, но эта проблема лежит в плоскости развития ETL-процессов, о которых мы в будущем обязательно расскажем.
Нам нужен Visibility
После обработки данных, мы хотим их показать. Такими функциями excel тоже не обделен: графики, гистограммы и пироги любых видов, широкие возможности стилизации каждого как душе угодно. Тут у нас проблема кроется не в функционале, а скорей просто в том, что excel – не для этого.
Мы очень редко показываем результат проделанной работы непосредственно в excel. Когда нам нужно провалидировать с кем-то данные, или подтвердить корректность методологии - да. Конечный же итог, со всеми выводами, мы обычно помещаем в Power Point.
Проблематика здесь проявляется в теме user-friendly. Представим себе менеджера, отвечающего за определенную территорию, в рамках которой у него есть обязанности по реализации нескольких проектов. Менеджер захочет увидеть результативность своей территории по каждому проекту, желательно еще и в сравнении с другими регионами. Ему это необходимо, чтобы принять
определенные бизнес-решения. Возможно, он захочет залезть еще глубже и проверить кое какие инсайды, чтобы увеличить результативность и поделиться опытом с организацией.Как это будет происходить, если все построено на excel и презентациях? Он будет искать способ получить источники, собирать их у себя, задавать вопросы аналитику как читать данные и найти то что он хочет. Будет спрашивать помощи коллег или нанимать нового сотрудника, чтобы он «подготавливал» отчеты исключительно для него. Сценариев может быть несколько, но все они вертятся вокруг удобства работы с конечным результатом работы аналитика.Каждая организация находит свой путь, как делиться результатами работы, но каждый их – далек от идеала и требует отдельной большой работы в плане обучения и информировании организации. Всем, по итогу, все равно хочется увидеть One place, где есть все.
Итоги
Мы описали только часть проблем, но это далеко не все. Но выводы уже напрашиваются сами собой – Excel уже не удовлетворяет современным потребностям работы аналитика и требует модернизации. Excel все также нужен и важен, хотя бы потому что удобен для пользователя, который не занимается аналитикой, но хочет доступным образов провести свое небольшое исследование, возможно даже на основе уже обработанных данных.
Если мы посмотрим, например, на структуру Power BI, то увидим такие интегрированные инструменты как power query и power pivot, которые ранее существовали как Add-ins в Excel. Вполне вероятно, после их создания, Microsoft пришло к выводу, что для воплощения полного потенциала и нивелирования описанных недостатков, необходимо создать принципиально новый продукт.
Этот продукт должен быть такой же функциональный, но: ориентированный на работу с большими объемами данных; возможности «моделирования», создания конечной модели данных, которая ляжет в основу аналитики; визуализации этих данных и упрощенный sharing.
К тому же, мы упустили, что для современной компании важена «периодичность» отчетности, ее актуальность на данных момент времени. Если компания подготовилась и научилась корректно собирать данные в БД (мы подразумевает ETL-процесс), то автоматизация и настройка регулярности обновления тоже являются неоспоримым плюсом BI. Как для аналитика (не нужно постоянно вручную обновлять отчет – он обновится сам, можно заниматься другой работой), так и для организации (не нужно ждать, когда опубликуют новый отчет, ты знаешь когда и где он обновится сам).
Как мы видим, с учетом развития этих систем и растущей их популярности – не только мы приходим к выводу, что BI становится уже не опциональным, а необходимым инструментом. Желаем и вам скорейшего перехода! :-)