web

Домашнее задание

Продолжаю развлекаться с Курсерой. И, внезапно, первая неделя нового курса Applied Plotting, Charting & Data Representation in Python оказалась вовсе не про Питон, а прапалитегу про то, насколько можно доверять инфографике.
В качестве учебного материала предлагается глава Graphics Lies, Misleading Visuals из книги New Challenges for Data Design, автор Alberto Cairo. Не нашла пока, есть ли перевод этой книги на русский, странно, если нет. Но ещё поищу.

И домашние задание - найти и проанализировать ошибки и искажения в отображении статистических данных. "Погуглите визуализация информации или что-то такое..."

Но мне гуглить ничего не понадобилось. Потому что - как я люблю такие совпадения - оно само пришло. Начальник в блоге дал ссылку на исследование Яндекс-пробок. Его-то я и взяла.
Точнее - графики из этого исследования.

См. картинку



1. Скрытие важных данных,
Не учитывается общий рост количества машин в городе.

2. Отображение избыточных данных
Приведены данные промежуточных лет (2014-2016), которые создают дополнительную пестроту и мешают увидеть реальную картину изменений.

3. Затуманивание реальности
На графиках учитываются сентябрь и октябрь. В эти месяцы в 2017 году строительные работы на улицах ещё велись, в 2013 году таких затяжных строек и ремонтов не было. Разумеется, ремонт дороги мешает траффику. Хорошо было бы организовать строительные работы так, чтобы они завершались быстрее. Но графики за эти месяцы не позволяют достоверно оценить результат реконструкции. Честно было бы сравнивать данные за ноябрь 2017-апрель 2018 с аналогичными месяцами за прошлые годы. Или даже за февраль-апрель.

Большая проблема этих графиков состоит в том, что используется непрозрачная метрика – баллы яндекс-пробок.
Как объясняется в приложении к статье, «Мы сравниваем время, за которое машины проезжают тот или иной отрезок пути, с эталонным — тем временем, за которое можно проехать по тому же пути ночью, когда улицы совершенно свободны». Однако для центральных улиц города, коротких и извилистых, даже в ночное время характерна меньшая скорость, чем на прямых и широких проспектах в более новых районах. Поэтому даже небольшое снижение средней скорости на таком участке будет давать большее изменение в баллах. Полезнее было бы сравнивать время, необходимое для проезда определённого расстояния, например, 10 км.

4. Искажение данных с помощью графических форм
Для 2017 года используется красный цвет, тогда как для 2013 зелёный. У аудитории красный ассоциируется с плохой ситуацией на дорогах, зелёный – с хорошей. В результате при беглом взгляде даже на первый график кажется, что стало хуже (хотя на самом деле более низкие баллы означают улучшение ситуации).

5. Ещё что-нибудь?
По действующей системе расчёта яндекс-пробок не учитывается транспорт, едущий по выделенным автобусным полосам. Введение выделенных полос – это часть тех изменений, которые были сделаны на центральных улицах Москвы за последние годы. В результате зритель не видит именно тот транспорт, который выиграл от этих изменений. График отражает только точку зрения автомобилистов, число которых меньше, чем число пассажиров наземного транспорта.

Данные для статистики Яндекс получает от автомобильных навигаторов с включенным GPS. Утверждается, что алгоритмы Яндекса умеют отличать пешеходов от автомобилей. Но что насчёт велосипедов? А ведь доля велосипедных поездок в центре ожидаемо больше (prooflink https://cdn-images-1.medium.com/max/1600/1*CMtYO7Zd06DVgPnSIq6NVg.png из статьи https://medium.com/russian/велосипеды-в-городе-230eb284b244). Именно здесь велосипедисты могут внести заметные искажения в статистику.

***


Отдельно печально то, что такие "объективные исследования" провоцируют власти на простые и неправильные решения. Вряд ли количество строек в Москве и в центре Москвы, в частности, будет сокращено. Вряд ли они будут организованы лучше. Но можно быстро расширить обратно улицы, убрав выделенные автобусные полосы! Правда, автомобилисты на этом выиграют полбалла пробок (если выиграют). Зато пассажиры НОТ не только потеряют во времени проезда через центр. Автобус в пробке - это и несоблюдение расписание, как следствие - долгое ожидание на остановках.



Исходный пост опубликован на https://aywen.dreamwidth.org/323620.html. Ответов на Дриме: comment count unavailable.
Метки: ,
Не понял вот это место:

«Мы сравниваем время, за которое машины проезжают тот или иной отрезок пути, с эталонным — тем временем, за которое можно проехать по тому же пути ночью, когда улицы совершенно свободны». Однако для центральных улиц города, коротких и извилистых, даже в ночное время характерна меньшая скорость, чем на прямых и широких проспектах в более новых районах. Поэтому даже небольшое снижение средней скорости на таком участке будет давать большее изменение в баллах.

Если сравнивается не абсолютная скорость, а относительная, то извилистость в ней уже заложена, хотя, возможно, не в той мере.
Смотри, что получается. Если внутри садового кольца эталонная скорость (числа от фонаря) 30 км/ч, а снаружи 60км/ч, то изменение скорости на 3 км/ч внутри даст 10%, а снаружи - только 5%.
Почему плохо? Хорошо. Меня, как водителя (пешехода, пассажира ОТ) не интересует скорость. Меня интересует время, потраченное на преодоление участка. Скорость меня как водителя интересует только в том смысле, что за превышение оштрафовать могут. У пешехода и пассажира таких проблем нет.

То есть снижение скорости интересует как потеря времени. Если я внутри Садового Кольца в идеале преодолеваю некий участок за 10 минут, и вне Садового - тоже, меня не волнует что практически участок 1 вдвое короче участка 2. Для меня и тот и другой - десятиминутный. И если из-за пробок я теряю 5 минут и там и там, у меня в любом случае замедление в полтора раза.
Читала "Время не ждет" Джека Лондона? Помнишь как там Харниш гордился "Я вырастил минуту там, где раньше росли две".
(это когда он реорганизовал общественный транспорт в Сан-Франциско).

Вот "раньше я тут ездил 15 минут, а теперь 10" - это для меня существенное улучшение дорожной ситуации.
На моей памяти таких было только два - открытие участка третьего кольца, когда Коммунивер на Шмитдовском размещался,
и открытие Звенигородского шоссе с выездом на Новорижку через Живописный мост.
Правда, там было скорее "как классно, больше не надо в пробках на Кутузовском толкаться".

Я, конечно, водитель не настоящий. В смысле я не езжу по Москве на машине каждый день. Нервов жалко. Поэтому езжу только тогда, когда не этого избежать - например, если на самом деле мне надо в деревню под Селижарово. Тогда протолкаться 40 минут по Москве и выехать на трассу, а потом спокойно ехать 350 км это проще чем связываться с маршруткой. Кстати если выезжать в 5 утра, то от Трансагентства до выезда на Новорижку будет 20 минут. В 9 вечера - 40.
В 6 - вы меня не заставите ехать я лучше до 9 подожду.
.

Почему?
Вот у нас "пьяная дорога" - на ней быстрее 40 ездят конечно, но крайне редко и обычно в дерево. так точ реально для неё 25-30кмч это уже зелёное дальше некуда :) ну 2, может 3 балла, не более того.
А вот МКАД, на котором едут 90-120. И тут 30 это уже сильнокрасное.
А как ещё их сравнивать? Или считаем что первая дорога по которой на подготовленном раллийном автомобиле Томми Мяккинен несётся 60кмч - это пробка, и 4..6 баллов?
Проблема с яндексовским подходом вот в чем. Если ночью участок проезжается за 5 минут, а днем за 15 - получаем снижение скорости в три раза.

Если же ночью стали проезжать за 4 минуты (например, какой-то светофор в жёлтое мигание ночью стал переключаться), а днем все те же 15 - получаем снижение скорости уже в 3,75 раза, т.е. "баллы пробок" в этом месте типа выросли.
У яндекса бывает забавно видеть, как какая-нибудь глухая проселочная дорога внезапно краснеет - по ней проехала одна машина с навигатором с о скоростью 20 километров в час (подвеску берегла) и больше ближайшие несколько часов ни одна не проедет.
А) "длинная" статистика это немного лечит.
Б) если взять базой даже 50кмч - то пробки менее 6-7 баллов встречаться не будут.
Ну и ухудшение то реально ВЫРОСЛО. Другой вопрос - сейчас то я 140+ по городу давно не ездил, но есть ли лимит "ночной скорости" сверху?
Так что при всех недостатках - не готов предложить более объективной метрики.
Ну вроде же понятно, что для объективной картины надо вводить некие "человеко-часы-километры" - то есть, количество людей, преодолевших по дорогам одно и то же количество километров за определенное количество километров, но тут уже не помогут яндекс-gps - тогда надо подключать к системе автобусы, а к ним еще и данные о пассажирах - и все равно останется серое пятно в виде количества людей в машинах.
Так что где граница сознательного искажения, а где - общая неточность модели....
Именно здесь велосипедисты могут внести заметные искажения в статистику.
Никакие велосипедисты не могут внести никаких искажений в статистику, ибо даже летом доля перемещений на велосипедах в Москве ничтожна мала. Весь Велобайк, на статистику которого вы ссылаетсь, за весь сезон перевозит в разы меньше, чем Мосгортранс за один день.
Это уж не говоря о том, что конкретно за 2015 год много поездок в центре на этих картинках во многом просто потому, что только к концу того сезона Велобайк и начал наконец массово устанавливать станции за пределами ЦАО.
См. также: https://bzikoleaks.livejournal.com/46449.html
и https://bzikoleaks.livejournal.com/39418.html
Вы считаете соотношение велосипедистов к пассажирам. Но яндекс-пробки не учитывают пассажиров, они считают по единицам транспорта (а НОТ на выделенных полосах и вовсе не считают). И это уже другой порядок величин.
Порядок величин у машинок и автобусов как раз тот же. Ибо на машинках тоже совершается пара-тройка миллионов поездок в день, если верить нашему ДепТрансу. А вот с велосипедами разница как раз на порядки - в тысячи раз.
Если у нас велосипедов внутри Садового 5000 поездок в день, а автомобилей 2*10^6 - это уже разница не в тысячИ, всего-то в 400. Не зная ни точных данных, ни точной формулы расчёта яндекс-пробок, я не возьмусь оценить величину погрешности, но у меня есть сомнения в том, что она пренебрежимо мала. То есть для человека, который прямо сейчас сидит за рулём и хочет оценить дорожную обстановку - несущественно. А для сравнительного анализа изменений - хотелось бы более объективных данных.
Октябрь - велосипедами можно просто пренебречь.
Половина сентября - тоже.
Да собственно велосипедами можно пренебрегать в любой день как только погода отличается от "ясно и сухо с утра до вечера"
Бо за лето сидение и ожидание возле велодорожки имело быть не один раз.
В самом лучшем случае велосипедов по количеству сравнимо с машинами еле ползущими в пробке по одной полосе, будучи меньше всего лишь в разы. Ичсх - как раз ПОВЫШАЯ среднюю :)