Наблюдаемость в сочетании с непрерывной автоматизацией и поддержкой искусственного интеллекта обещает предоставить практические ответы, необходимые для обеспечения идеальной работы приложений, а также для совместной работы групп, которые могут обеспечить наилучшее взаимодействие с пользователями и возможные бизнес-результаты.
Переход от сбора данных к ответам
Концепция наблюдаемости набирает обороты по мере того, как компании ускоряют свои стратегии цифровой трансформации, создавая массивные облачные среды, которые по своей природе трудно наблюдать и эксплуатировать из-за их динамического и сложного характера.
Решения в области мониторинга приложений (APM) прошли через собственную цифровую трансформацию, превратившись в Систему Мониторинга и Наблюдаемости.
Осознание, что, несмотря на важность наблюдаемости, недостаточно просто «наблюдать» за данными — крайне важно иметь возможность использовать эти данные для получения ответов, которые в конечном итоге приведут к улучшению бизнес-результатов.
По мере того, как среды микросервисов становятся все более динамичными и масштабируются до сотен тысяч хостов, реальной проблемой становится осмысление данных в контексте всего стека технологий в режиме реального времени, чтобы быстро понять влияние на пользователей и предотвратить проблемы, влияющие на бизнес из-за разрастания инфраструктуры. Это может быть сложной задачей, которая быстро превосходит возможности даже самых квалифицированных и опытных инженеров. Вот почему производители APM добавили в функционал своих решений термин «Наблюдаемость», расширив традиционный мониторинг за счет автоматизированных ответов с помощью ИИ, которые можно масштабировать до самых больших и сложных сред.
* В программном обеспечении наблюдаемость относится к степени, в которой внутреннее состояние и производительность системы могут быть выведены из ее внешних доступных данных.
Традиционный мониторинг производительности приложений (APM) появился, когда программное обеспечение было в основном монолитным, а циклы выпуска измерялись годами, а не днями. Ручная аппаратура и базовые показатели производительности, хотя и громоздкие, когда-то были адекватными, особенно потому, что схемы сбоев были общеизвестны и хорошо изучены.
Поскольку монолиты меняются, уступая место микросервисной архитектуре и облачным приложениям, размеры и сложность которых быстро растут, традиционные подходы к мониторингу терпят неудачу и становятся все более ресурсоемкими и дорогостоящими. Вместо инструментов для заранее определенного набора проблем предприятиям теперь требуется полная прозрачность каждого отдельного компонента этих динамически масштабируемых сред микросервисов. Сюда входят многооблачные инфраструктуры, системы оркестрации контейнеров, такие как Kubernetes, сервисные сетки, функции как услуга и полезные нагрузки многоязычных контейнеров.
Такие приложения более сложны и непредсказуемы, чем когда-либо. Проблемы работоспособности системы редко понимаются во время сбоя, и ИТ-команды тратят слишком много времени на ручное решение проблем и реактивное тушение пожаров, позволяя проблемам разрастаться до тех пор, пока клиенты не перегрузят колл-центры своими проблемами.
Самая большая проблема с современными облачными средами заключается в устранении неизвестных — уникальных сбоев, которые никогда не случались в прошлом и не могут быть обнаружены с помощью информационных панелей. Это проблемы роста, которые пытается решить концепция традиционной наблюдаемости.
Расширенная наблюдаемость решает проблемы приложений, предлагая лучший способ сбора данных со всех компонентов системы, чтобы получить полную и легкую видимость. Большинство устаревших инструментов сосредоточены на сборе и объединении трех основных типов данных — метрик, трассировок и журналов — так называемых трех столпов наблюдаемости.
А вот сбор данных о пользовательском опыте для полного стека сквозного наблюдения на уровне кода – это уже инструмент, который позволяет в дополнение к метрикам, журналам и трассировкам прогнозировать развитие бизнеса. Сотрудники «Unified Technologies» — это четко понимают.
И мы, с помощью Dynatrace, предоставим ответы, а не просто дополнительные данные, с помощью трех различных и полностью дифференцированных возможностей:
- Непрерывное и автоматическое обнаружение и инструментирование для обеспечения масштабируемости, полного и постоянного охвата в высокодинамичных средах с нулевой ручной настройкой.
- Информация о топологии для понимания миллиардов взаимозависимостей и контекста между сущностями в полном стеке и наблюдаемых данных.
- Механизм искусственного интеллекта на основе причинно-следственной связи для предоставления действенных ответов на проблемы посредством точного анализа первопричин на уровне кода в режиме реального времени.
- Большинство подходов к наблюдаемости требуют, чтобы разработчики вручную инструментировали свой код. В средах с тысячами хостов и микросервисов, которые динамически масштабируются в глобальной мультиоблачной инфраструктуре, это становится бесполезным и вынуждает вас переключать основное внимание вашей команды на работу, не добавляющую ценности.
- Платформа Dynatrace постоянно автоматизирует сбор и анализ данных для обеспечения масштабируемости корпоративного уровня и комплексного расширенного наблюдения.
- Автоматическое обнаружение
После установки Dynatrace OneAgent автоматически обнаруживает все приложения, контейнеры, службы, процессы и инфраструктуру при запуске в режиме реального времени. - Автоинструментация
Компоненты системы инструментируются автоматически без изменения конфигурации или кода. Сбор высокоточных данных, таких как метрики, журналы, трассировки и взаимодействие с пользователем, в дополнение к данным топологии, начинается, как только системный компонент становится доступным. - Автоматическое базовое определение
Интеллектуальное базовое определение Dynatrace автоматически изучает «Нормальное» поведение производительности и динамически адаптируется к изменениям окружающей среды. - Автообновления
Чтобы свести к минимуму текущее обслуживание, Dynatrace OneAgent непрерывно, автоматически и безопасно обновляет всю среду.
Метрики, трассировки, журналы и данные взаимодействия с пользователем часто хранятся без значимого контекста, который связывает их вместе. С такими хранилищами данных невозможно оценить целостную работоспособность системы и понять влияние проблем. Например, вы можете получить оповещение о повышенной частоте отказов службы A и другое оповещение, поскольку процесс B увеличивает загрузку ЦП. Но вы не можете сказать, связаны ли эти два предупреждения и как они влияют на реальных конечных пользователей.
Чтобы избежать таких разрозненных данных, Dynatrace автоматически обнаруживает и собирает широкий набор контекстных метаданных для создания карты топологии в реальном времени под названием Smartscape. Он фиксирует отношения и зависимости для всех компонентов системы, как вертикально вверх и вниз по стеку, так и горизонтально между службами, процессами и хостами. В крупных корпоративных системах существуют миллиарды постоянно меняющихся взаимозависимостей, и Smartscape постоянно отслеживает их все.
Карта топологии позволяет понять реальную связь между всеми захваченными данными, а не упрощенную временную корреляцию, которая выявляет фактические причинно-следственные связи между этими захваченными данными. Картирование топологии также является ключевой необходимой основой, которая позволяет ИИ оказывать ощутимое влияние; без него полезность ИИ ограничена.
Искусственный интеллект на уровне кода, основанный на причинно-следственных связях, дает точные ответы
Традиционные решения для наблюдения предлагают мало информации, кроме визуализации на приборной панели. В конце концов, это вынуждает технических экспертов прекращать усилия по внедрению инноваций, пока они вручную анализируют данные и делают обоснованные предположения в отнимающих много времени переговорных комнатах.
Несмотря на все усилия, жалобы пользователей остаются нерешенными, а клиенты продолжают отказываться от услуг дольше, чем ваша организация может себе позволить. Инструментируя ИИ в Наблюдаемость мы надежно снимаем эту нагрузку с людей-операторов, поскольку ИИ автоматизирует анализ первопричин аномалий и специально создан для высокодинамичных сред микросервисов.
Но что отличает встроенный в систему APM ИИ от того, что есть на рынке?:
- ИИ встраивается в ядро платформы и обрабатывает все расширенные данные наблюдаемости из всего стека технологий и данные третьих сторон, независимо от их происхождения.
- Точный анализ первопричин на уровне кода: ИИ точно определяет неисправные компоненты с видимостью на уровне кода, исследуя миллиарды зависимостей за миллисекунды.
- Выявление неудачных развертываний: ИИ избавляется от догадок и точно знает, какое развертывание или изменение конфигурации вызвало каждую конкретную аномалию.
- Обнаружение неизвестных: ИИ не полагается на предопределенные пороговые значения аномалий, а автоматически обнаруживает любые необычные «точки изменения» в данных.
- Автоматическая проверка гипотез: ИИ быстро и систематически просматривает все дерево отказов, прежде чем принимать решения в реальном времени.
- Отсутствие повторяющихся моделей обучения или предположений: в отличие от подходов машинного обучения, которые не могут обнаруживать неизвестные неизвестные, ИИ на основе причинно-следственной связи опирается на карту топологии, которая постоянно обновляется в режиме реального времени.
«Unified Technologies» предлагает использовать платформу Dynatrace для обеспечения максимально возможной прозрачности и масштабируемости за счет автоматизации, картирования топологии с полным стеком и, что наиболее важно, анализа ИИ на основе причинно-следственных связей для предоставления ответов, а не просто экспоненциального увеличения количества данных для наблюдения.