Концептуальные рамки в проектах data science

Концептуальные рамки представляют собой аналитические конструкции, предназначенные для изображения абстрактных идей и систематизации данных. Специалисты по данным часто применяют подобные структуры — осознанно или интуитивно — для разработки планов проектов, выбора моделей машинного обучения, учитывающих различные компромиссы, а также для представления результатов и предложений заинтересованным сторонам. В этой статье рассматриваются распространенные виды концептуальных рамок, простой трехэтапный подход к созданию индивидуальных конструкций и рекомендации по их эффективной реализации.

Распространенные типы рамок

Хотя концептуальные рамки могут принимать разнообразные формы и размеры, в проектах по анализу данных выделяются четыре основных типа: иерархии, матрицы, потоки процессов и реляционные карты. Ниже мы кратко разберем каждый из этих типов.

Иерархии

Иерархические конструкции обычно визуализируются в виде древовидных схем, начинающихся с корневого узла и завершающихся несколькими терминальными узлами, как показано на рисунке 1. Например, корневой узел может обозначать общую идею в таксономии или начальный дихотомический вопрос в дереве решений. Положение узла в иерархии (или древе) предоставляет ценные сведения о его связях с другими узлами. Хотя на рисунке 1 элементы иерархии обозначены как «концепты», ими могут быть любые сущности. Сущности бывают нейтральными (например, идеи, темы, сегменты) или несут положительную или отрицательную окраску (например, доходы, расходы, проблемы, вопросы). Глубина и ширина иерархической структуры могут варьироваться.

Рисунок 1: Общая структура иерархической рамки

В графическом изображении иерархий вертикальные связи между сущностями обычно отображаются явно и могут быть неориентированными (простые линии) или ориентированными (стрелки, направленные вниз или вверх, в зависимости от характера отношений). В отличие от этого, горизонтальные связи между сущностями на одном уровне иерархии обычно не показываются явно. Сущности на одном уровне могут подчиняться естественному порядку (например, временному или пространственному), который можно отразить их размещением в рамке. К примеру, сущности, возникающие раньше в последовательности, следует располагать слева от тех, что появляются позже. Если естественный порядок отсутствует, все равно стоит рассмотреть возможность упорядочивания (например, по степени значимости или приоритету) для облегчения анализа. Сущности на одном уровне иерархии в целом должны находиться на сопоставимом уровне абстракции.

В ряде случаев полезно, чтобы узлы иерархии были взаимно исключающими и коллективно исчерпывающими, или MECE (произносится как «миси»), в значительной мере. Взаимное исключаение подразумевает отсутствие существенных пересечений между концептами, представленными отдельными узлами (то есть без избыточностей), а коллективная исчерпывающая охватывает все ключевые аспекты без пропусков. MECE-иерархия помогает разложить широкую концепцию на подконцепты (или компоненты) для выявления основных факторов, влияющих на целое.

Матрицы

Матрица — это табличная структура данных, включающая n строк и m столбцов. Специалисты по данным, работающие с табличными задачами, регулярно используют матрицы для хранения обучающих данных и весов моделей. Обучение моделей машинного обучения может генерировать многомерные матрицы весов, отражающие сложные взаимосвязи между предикторами и целями. Низкоразмерные матрицы, подобные той, что изображена на рисунке 2, подходят для анализа задач и передачи важных выводов.

Рисунок 2: Общая структура матрицы два на два

Общая матрица два на два, представленная на рисунке 2, сопоставляет две различные размерности. Такая матрица естественно формирует четыре квадранта. По традиции, нижний левый квадрант (где обе размерности «низкие») считается нежелательной зоной, а верхний правый (где обе «высокие») — желательной. Например, компания по маркетинговым исследованиям Gartner применяет матрицы два на два для оценки конкурентной среды в различных отраслях и обозначает верхний правый квадрант (где размещаются лидеры рынка) как «волшебный квадрант».

Размерности матрицы могут отражать непрерывные, порядковые или категориальные типы данных. Идеально, если эти оси имеют отношение к общей цели рамки (например, ключевые подконцепты, проблемы или факторы в конкретном контексте). Взаимодействия между этими размерностями особенно ценны как источник инсайтов, поскольку матрицы хорошо фиксируют именно такие взаимодействия.

В целом, принцип MECE также актуален для выбора размерностей — они должны в совокупности охватывать значимые подконцепты или факторы изучаемой проблемы и избегать дубликатов. Иначе анализ взаимодействия не будет отличаться от изучения отдельной размерности. Если взаимодействие не важно, лучше подойдет иерархическая рамка. Преобразование матричной рамки в иерархическую аналог может быть простым. Например, для превращения матрицы с рисунка 2 в иерархию создайте корневой узел, определяющий общий контекст, его дочерними узлами сделайте размерности 1 и 2, а их дочерними — «высокий» и «низкий».

Потоки процессов

Поток процесса определяет последовательность логически упорядоченных действий, взаимодействующих для достижения общей цели. К примеру, платформы вроде Dataiku и KNIME позволяют строить конвейеры анализа данных как потоки процессов — от загрузки данных до моделирования и генерации отчетов. Рисунок 3 иллюстрирует общую структуру процесса.

Рисунок 3: Общая структура рамки процесса

Элементы процесса на рисунке 3 обозначены как действия, но это могут быть шаги, этапы, операции и т.д. Процесс начинается с действия (действие 1), завершается действием (действие 3) и включает одно или несколько промежуточных (действие 2). Обычно на вход подаются некоторые данные, которые преобразуются в ходе последовательности действий, чтобы получить выход. Обратите внимание, что входы и выходы могут появляться и исчезать на промежуточных этапах.

Как и в иерархиях с матрицами, принцип MECE важен для формулировки действий процесса. Если два действия существенно пересекаются концептуально, их можно объединить в одно или разделить на более детализированный набор уникальных действий. Например, промежуточные действия на рисунке 9 могли возникнуть из такого анализа; действие 2 может быть результатом слияния пересекающихся элементов, а действия 2.1–2.3 — детальной разбивкой особой подгруппы объединенных действий. Если действие или часть процесса повторяется, его можно изобразить как цикл, где действие переходит к ранее произошедшему.

Переход от одного действия к другому должен существенно преобразовывать входы процесса (например, увеличивая, уменьшая, комбинируя или иным образом изменяя их) с целью получения желаемого выхода. Если переход не меняет входы, то действия по обе стороны, вероятно, избыточны и требуют объединения или переразбиения, как описано выше.

Реляционные карты

Реляционные карты переносят акцент с отдельных концептов (или сущностей) на связи между ними. Специалисты по данным, работающие с графами знаний или диаграммами путей в виде «коробки и стрелки» для причинно-следственных отношений (как на рисунке 4), знакомы с этим типом рамок.

Рисунок 4: Общая структура диаграммы пути

Связь в общем случае — это любая функция, соединяющая два различных концепта. Особенно распространены четыре типа связей:

Транзакционные: Связь может отражать одну или несколько транзакций между сущностями. Транзакции могут включать поток материальных объектов (например, покупаемых и продаваемых товаров) или нематериальных (например, информации, денег). Транзакционные связи могут иметь направленность; поток может идти от A к B, от B к A или в обе стороны, и каждое из этих направлений имеет разное значение для сущностей (например, они могут быть получателями, отправителями или и тем, и другим).
Причинно-следственные: Сущности A и B могут быть связаны причинно, если A хотя бы частично отвечает за возникновение или состояние B (или наоборот). Характер причинной связи может различаться. Роль A сильна, если ее присутствие достаточно для полного вызова B (хотя A может не быть единственной такой сущностью). Роль A также сильна, если она необходима для вызова B (хотя A может не справиться в одиночку). Кроме того, если A вызывает B, это не значит, что B вызывает A; направленность явно важна для уточнения причинных связей.
На основе сходства: Сущности могут быть связаны из-за сходства или различия. Например, A и B похожи, если они склонны появляться в одном месте или происходить одновременно (и различны, если появление одной исключает другую). Понятие корреляции — математическая формализация, часто используемая для построения измеримых связей на основе сходства. Обратите внимание, что корреляция двух сущностей не обязательно подразумевает причинную связь (хотя причинная связь влечет корреляцию).
На основе членства: Сущности могут соединяться принадлежностью к одной группе, сообществу или категории. Например, люди связаны, живя в одном районе, продукты — входя в одну категорию, а набор подконцептов — входя в общую концепцию. Действительно, иерархическую рамку можно использовать для углубления в уровни членства внутри рассматриваемых сущностей.

Как создать собственные рамки

Для построения индивидуальной рамки можно использовать следующий трехэтапный подход:

Определите цель рамки.
Выберите подходящие строительные блоки (то есть тип рамки и размерности).
Соберите строительные блоки эффективно, чтобы достичь цели рамки.

Этап 1: Определение цели

При формулировке цели рамки задайте себе вопросы: В каком контексте будет применяться рамка? Что она должна достичь? Можно ли адаптировать существующую рамку — возможно, с небольшими изменениями — или требуется создать новую под конкретные нужды?

Построение рамки должно быть связано с высшей целью, такой как завершение проекта, принятие решения или подготовка документации. После понимания контекста тщательно продумайте, что рамка должна реализовать в конкретных терминах. Предназначена ли рамка для поддержки принятия решений? Должна ли она структурировать логику аргумента в отчете или презентации?

Наличие необходимости в рамке не значит, что ее нужно создавать с нуля. В многих случаях существующие концептуальные конструкции можно использовать без значительных доработок. Уделяя время поддержанию актуального обзора релевантных существующих рамок, вы избегаете лишних затрат на «изобретение велосипеда». Переиспользование имеет преимущества помимо экономии времени; если рамка существует давно, ее ключевые особенности, сильные и слабые стороны могут быть хорошо задокументированы и проверены в разных условиях. Платформы вроде Towards Data Science — отличный источник для отслеживания концептуальных рамок, связанных с проектами анализа данных.

Этап 2: Выбор типа рамки и размерностей

После уточнения цели рамки пора перейти к конкретному ее конструированию. Одна из главных трудностей здесь — концептуальные рамки по природе менее осязаемы, чем физические (как формы на фабрике). Мы интуитивно лучше понимаем связь между формой и функцией — рамкой и ее назначением — когда они материальны. Отличительная черта хорошей концептуальной рамки — способность превратить кажущийся неосязаемым аргумент или решение в нечто более конкретное, и ключ к этому — репрезентация.

В широком смысле репрезентацию концептуальных рамок определяют два аспекта: тип рамки и ее размерности. Сначала вы, вероятно, заметите тип рамки, поскольку он определяет ее общий вид. Предыдущие разделы описали четыре распространенных типа. Размерности рамки диктуют, что именно она может представлять (например, в плане детализации и упорядочивания). Регулируя размерности, один и тот же тип рамки можно переиспользовать для получения разнообразных инсайтов. Вот три распространенных класса размерностей рамок:

Категориальные: Эти размерности состоят из конечного набора дискретных категорий, полностью описывающих размерность. Категории не обязательно упорядочены (например, набор продуктов, сегменты клиентов, пол).
Порядковые: Эти размерности упорядочены, что позволяет анализировать, является ли что-то «меньше», «больше», «равно» и т.д. по отношению к другому (например, отрицательное/положительное, низкое/среднее/высокое).
Непрерывные: Такие размерности доводят идею порядковых до гораздо большей гранулярности. Непрерывность подразумевает числовой характер с возможностью десятичных значений (например, 1.23, -2.718, 3.14159).

Этап 3: Сборка элементов

После определения типа рамки и размерностей их можно объединить для создания индивидуальной конструкции. Часто этапы идентификации и сборки не разделены четко, поскольку редко выполняются по отдельности. Однако тип рамки и ее размерности — базовые строительные блоки — не всегда жестко связаны. Некоторые комбинации логичнее других, и вы можете экспериментировать с блоками различными способами, в несколько итераций, пока рамка не покажется подходящей. Умение замечать и использовать эту комбинаторную гибкость — ключевой навык, который стоит развивать с самого начала работы с рамками.

Кроме того, существуют четыре общих «пути анализа», отражающие связь между рамкой и ее целью:

Описательный: Подходит к цели рамки через сбор и организацию информации о прошлом (например, с помощью графиков, таблиц или письменных обзоров). Это помогает лучше описывать и анализировать произошедшее, но не обязательно объясняет причины или предсказывает повторение.
Диагностический: Берет описательную информацию о прошлых событиях и углубляется, чтобы понять, почему что-то произошло. Это достигается через детальный разбор данных, поиск подсказок и корреляций, попытки установить правдоподобную причинно-следственную связь. Как и в описательном пути, фокус на прошлом.
Прогностический: Отличается от двух предыдущих вопросами и ответами о будущем. Акцент на обоснованных предположениях о том, что произойдет, с использованием количественных методов от простых (например, базовая теория вероятностей, линейные модели) до сложных (например, нейронные сети).
Пресскриптивный: Идет дальше простого прогнозирования, предлагая способы应对 будущих событий. Фокус на определении, как сделать что-то реальностью — или стоит ли это делать — в будущем. Обоснование может быть количественным (например, на основе статистики или моделирования симуляций) или качественным (например, на личном опыте).

Таким образом, типы рамок и размерности можно комбинировать по-разному, чтобы получить индивидуальные конструкции, подходящие для описательных, диагностических, прогностических и пресскриптивных сценариев.

Полезные рекомендации

В этом разделе приведены пять советов по созданию качественных концептуальных рамок. Это не исчерпывающий список, но базовый набор аспектов, на которые стоит обратить внимание.

Совет 1: Сосредоточьтесь на цели и аудитории

Процесс создания рамок в целом включает три этапа: определение цели, затем выбор и комбинацию строительных блоков (типов рамок и размерностей) в соответствии с ней. Первый этап по своей природе подчеркивает стратегическую цель и целевую аудиторию рамки, но на последующих фокус смещается на детали блоков. Чем глубже вы погружаетесь в механику рамки, тем сложнее сохранять обзор исходной цели. Чтобы не терять видение целого, полезно периодически отстраняться во время работы и напоминать себе о стратегической цели и аудитории. Также стоит отложить часть анализа до получения необходимых данных и регулярно получать отзывы от коллег и целевой аудитории, где это возможно.

Совет 2: Стремитесь к максимальной простоте

Перефразируя цитату, часто приписываемую Альберту Эйнштейну — одному из выдающихся конструкторов концептуальных рамок прошлого века, — можно сказать, что рамку следует делать настолько простой, насколько возможно, но не проще. Поскольку процесс включает пробу различных комбинаций типов и размерностей, иногда возникает соблазн добавлять все больше элементов. Однако жертва простотой может снизить практическую ценность рамки. Сложные конструкции трудно понимать, применять, оценивать и развивать — может потребоваться проверка множества предположений и условий, регулировка множества рычагов.

Совет 3: Делайте ее MECE

Обеспечение MECE-свойства рамки дает важные преимущества. С теоретической точки зрения, MECE означает, что подконцепты следуют последовательной логике части и целого; подконцепты должны «суммироваться» в большую концепцию. Ключевой момент — эта логика позволяет заменять набор подконцептов на большую концепцию (и наоборот) в ходе анализа. Аддитивная логика MECE также позволяет строго сравнивать концепты; вместо того чтобы сказать, что два концепта похожи, вы можете точно указать степень сходства по общим подконцептам. С практической стороны, MECE позволяет эффективно «разделять и побеждать» крупные проблемы, а решения подзадач могут быть переиспользованы. Иногда можно решить большую проблему, не решая все подзадачи (например, если большая проблема — дизъюнкция подзадач). Обход подзадач также работает при индуктивном решении (например, как в математической индукции).

Совет 4: Обеспечьте гибкость

В сущности, концептуальная рамка должна соответствовать своей общей цели, так зачем гибкость важна? На практике есть как минимум два сценария, где гибкость сильно помогает. В первом цель — движущаяся мишень, с частыми изменениями (даже небольшими) в ее объеме; адаптация к таким сдвигам болезненна без встроенной гибкости. Во втором рамка проходит несколько итераций, где типы и размерности добавляются, модифицируются и удаляются в ходе эволюции; гибкий дизайн упрощает такие трансформации формы и содержания. Модульность, масштабируемость, устойчивость, расширяемость и переносимость — обычно ассоциируемые с инженерией ПО и архитектурой — также релевантны для создания гибких концептуальных рамок.

Совет 5: Разрабатывайте итеративно

Идеально было бы создать идеальную рамку с первого раза, но это редко случается. Несколько факторов делают первую итерацию скорее черновиком, за которым следуют другие. Общая цель — особенно операционные последствия для построения рамки — может быть не полностью ясна изначально. За пару итераций вы, вероятно, освоите, какие типы и размерности работают, а какие нет. Хотя результат после итерации может быть далек от совершенства, он способен стать минимально жизнеспособным продуктом (MVP), если предлагает рабочее решение цели с минимальными усилиями и сложностью. MVP можно тестировать (например, на реальных данных и пользователях), чтобы выявить сильные и слабые стороны. Каждая следующая итерация улучшает MVP, добавляя, удаляя или меняя элементы предыдущей.

Заключение

Концептуальные рамки помогают превращать абстрактные идеи в конкретные, осязаемые продукты, которые другие могут видеть, использовать и ценить. Это особенно важно для специалистов по данным, или так называемых «работников знаний», чья работа включает сбор, анализ и выводы из данных. Если вы читаете эту статью, вы, вероятно, такой работник. Перефразируя известного гуру менеджмента Питера Друкера, «Данные позволяют работникам знаний выполнять свою работу», но именно способность осмысленно организовывать эти данные приводит к хорошо выполненной задаче — и вкратце, поэтому правильное применение концептуальных рамок способствует успешному проектированию и реализации проектов анализа данных.

Концептуальные рамки для data science проектов