Мы поговорили с Игорем Дубровским, специалистом по визуализации данных в исследовательском центре.
Игорь, как выбрать правильный тип визуализации для конкретных данных?
Я задаю себе три вопроса: какое сравнение я хочу показать, сколько переменных задействовано, есть ли временная компонента. Для сравнения категорий использую столбчатые диаграммы, для распределения — гистограммы или боксплоты, для корреляций — точечные графики. Круговые диаграммы применяю только для двух-трех категорий, не больше. Когда студенты используют круговую диаграмму для восьми категорий, результат нечитаем.
График всегда должен отвечать на конкретный вопрос, а не просто показывать данные.
Какие технические аспекты визуализации критичны для презентации?
Цветовая схема не должна содержать красный и зеленый одновременно из-за дальтонизма — я использую синий и оранжевый. Все линии толщиной минимум 2 пункта, точки диаметром 4-5 пунктов. Легенда располагается внутри области графика, если есть место, это экономит пространство. Каждая ось начинается с нуля для столбчатых диаграмм, но не обязательно для линейных графиков — зависит от контекста.
Как вы представляете неопределенность в данных?
Доверительные интервалы показываю полупрозрачной заливкой вокруг линии тренда. Для дискретных значений использую усы на столбчатых диаграммах. Всегда добавляю текстовое пояснение, что означают эти элементы, потому что не все читатели интерпретируют их правильно интуитивно.