Nina Belyavskaya (aywen) wrote,
Nina Belyavskaya
aywen

Category:

Домашнее задание

Продолжаю развлекаться с Курсерой. И, внезапно, первая неделя нового курса Applied Plotting, Charting & Data Representation in Python оказалась вовсе не про Питон, а прапалитегу про то, насколько можно доверять инфографике.
В качестве учебного материала предлагается глава Graphics Lies, Misleading Visuals из книги New Challenges for Data Design, автор Alberto Cairo. Не нашла пока, есть ли перевод этой книги на русский, странно, если нет. Но ещё поищу.

И домашние задание - найти и проанализировать ошибки и искажения в отображении статистических данных. "Погуглите визуализация информации или что-то такое..."

Но мне гуглить ничего не понадобилось. Потому что - как я люблю такие совпадения - оно само пришло. Начальник в блоге дал ссылку на исследование Яндекс-пробок. Его-то я и взяла.
Точнее - графики из этого исследования.

См. картинку



1. Скрытие важных данных,
Не учитывается общий рост количества машин в городе.

2. Отображение избыточных данных
Приведены данные промежуточных лет (2014-2016), которые создают дополнительную пестроту и мешают увидеть реальную картину изменений.

3. Затуманивание реальности
На графиках учитываются сентябрь и октябрь. В эти месяцы в 2017 году строительные работы на улицах ещё велись, в 2013 году таких затяжных строек и ремонтов не было. Разумеется, ремонт дороги мешает траффику. Хорошо было бы организовать строительные работы так, чтобы они завершались быстрее. Но графики за эти месяцы не позволяют достоверно оценить результат реконструкции. Честно было бы сравнивать данные за ноябрь 2017-апрель 2018 с аналогичными месяцами за прошлые годы. Или даже за февраль-апрель.

Большая проблема этих графиков состоит в том, что используется непрозрачная метрика – баллы яндекс-пробок.
Как объясняется в приложении к статье, «Мы сравниваем время, за которое машины проезжают тот или иной отрезок пути, с эталонным — тем временем, за которое можно проехать по тому же пути ночью, когда улицы совершенно свободны». Однако для центральных улиц города, коротких и извилистых, даже в ночное время характерна меньшая скорость, чем на прямых и широких проспектах в более новых районах. Поэтому даже небольшое снижение средней скорости на таком участке будет давать большее изменение в баллах. Полезнее было бы сравнивать время, необходимое для проезда определённого расстояния, например, 10 км.

4. Искажение данных с помощью графических форм
Для 2017 года используется красный цвет, тогда как для 2013 зелёный. У аудитории красный ассоциируется с плохой ситуацией на дорогах, зелёный – с хорошей. В результате при беглом взгляде даже на первый график кажется, что стало хуже (хотя на самом деле более низкие баллы означают улучшение ситуации).

5. Ещё что-нибудь?
По действующей системе расчёта яндекс-пробок не учитывается транспорт, едущий по выделенным автобусным полосам. Введение выделенных полос – это часть тех изменений, которые были сделаны на центральных улицах Москвы за последние годы. В результате зритель не видит именно тот транспорт, который выиграл от этих изменений. График отражает только точку зрения автомобилистов, число которых меньше, чем число пассажиров наземного транспорта.

Данные для статистики Яндекс получает от автомобильных навигаторов с включенным GPS. Утверждается, что алгоритмы Яндекса умеют отличать пешеходов от автомобилей. Но что насчёт велосипедов? А ведь доля велосипедных поездок в центре ожидаемо больше (prooflink https://cdn-images-1.medium.com/max/1600/1*CMtYO7Zd06DVgPnSIq6NVg.png из статьи https://medium.com/russian/велосипеды-в-городе-230eb284b244). Именно здесь велосипедисты могут внести заметные искажения в статистику.

***


Отдельно печально то, что такие "объективные исследования" провоцируют власти на простые и неправильные решения. Вряд ли количество строек в Москве и в центре Москвы, в частности, будет сокращено. Вряд ли они будут организованы лучше. Но можно быстро расширить обратно улицы, убрав выделенные автобусные полосы! Правда, автомобилисты на этом выиграют полбалла пробок (если выиграют). Зато пассажиры НОТ не только потеряют во времени проезда через центр. Автобус в пробке - это и несоблюдение расписание, как следствие - долгое ожидание на остановках.



Исходный пост опубликован на https://aywen.dreamwidth.org/323620.html. Ответов на Дриме: comment count unavailable.
Tags: город, работа
Subscribe
  • Post a new comment

    Error

    Anonymous comments are disabled in this journal

    default userpic

    Your reply will be screened

  • 26 comments