smz писал(а):
Ну, они все-таки говорят о корреляции, а не прямой зависимости, для утверждения о которой, по их словам, данных пока недостаточно:
These correlations proved to be strong, 99% statistically significant, consistent, plausible, coherent and replicable in different circumstances. Nevertheless, these are just correlations.
(Первоисточник подробнее:
https://runrepeat.com/american-runners- ... mega-study)
А вообще очень интересно, в чем именно ошибки. Они вроде аккуратно учли все другие факторы: женщин, новичков, пешеходов, старение бегунов, а также продвинутых бегунов, уходящих от гладкого бега к трейлам.
Кстати, лет 5 еще назад видел массовый забег в одном небольшом европейском городе. Сам я тогда не бегал, но зрелище меня поразило: узкий огороженный коридор через площадь, по которому люди действительно бегут, сам же город заполнен тысячами и тысячами пешеходов всех возрастов и комплекций, и все в желтых майках с пятизначными номерами.
Это я к тому, как получается среднее время финишера типа 1.15 на 10 км.
Сергей, дело в следующем:
Да, если найти корреляцию между А и В, то она может означать 1) причинно-следственную связь (что А является причиной В), 2) может означать обратную причинно-следственную связь (что В является причиной А), или 3) что А и В не связаны прямо, но есть фактор С, который влияет на них обоих. (Есть еще другие причины, но о них для простоты не будем)
Но в таких случаях мы все же какую-то информацию узнаем о явлениях А и В. Что они косвенно связаны каким-то образом. (Чтоб выделить именно причинно-следственную связь, есть более сложные методы - я о них не буду сейчас)
Но если А и В - это временные ряды (ряд наблюдений одного объекта или явления, измеренных через промежутки времени), то с ними сложнее. Например, А и В могут иметь тенденцию во времени. Например, среднее марафонское время имеет тенденцию к росту с годами. И число людей с ожирением - тоже тенденцию к росту. Две переменные, в каждой из которых есть тенденция, всегда коррелируют. Всегда. Если тенденции однонаправленные - коррелируют положительно. Если разнонаправленные - отрицательно.
Т.е. у А и В есть общий фактор С, который их движет. Но в этом случае мы знаем, что это за фактор. Это время! Если мы найдем корреляцию между А и В, это не даст нам никакой новой информации, кроме того, что мы уже знали: эти процессы имеют тенденцию во времени.
(Подобное же верно, если А и В - другие типы нестационарных во времени процессов: случайные блуждания, итд... Там некоторые тонкости, но идея та же.)
Поэтому искать корреляции между нестационарными процессами - дурацкое занятие. Ты их найдешь почти всегда. Число осадков, выпавших за текущий год в Австралии коррелирует с числом лайков под моими фотографиями в фейсбуке. Итд.
Это то, чем развлекают студентов бакалавриата на первых занятиях по анализу временных рядов. Я не понимаю, как человек мог получить Ph.D., а потом писать такие статьи.
(Есть другие методы анализа таких рядов, их приводят к стационарному виду, выделяют тренды, ищут коинтегрирующие векторы, итд, итп... Но с ожирением ничего умного не получится, это понятно - слишком инерционная эта переменная.)
Там есть некоторые вещи, сделанные правильно. И есть некоторые со смешными ошибками. Про средний возраст: т.к. зависимость между возрастом и временем нелинейна, то среднее время финиша не равно времени финиша среднего по возрасту бегуна. У них это даже на графике нарисовано: линейная аппроксимация строго выше выпуклой кривой
Но мысль, что что-то тут не так, их не посетила.
Про квантили распределения бегунов и их динамику почти нормально. Единственное, я бы еще забеги как-то фильтровала, маленькие от больших. Там квантили могут вести себя совсем по-разному. (Например, на "Ветерках" очень приличные результаты даже у относительно медленных участников. Те же люди на ММ с запасом в верхней половине.)