За пределами выборки – за пределами мышления, или Формула неудачного предсказания
За пределами выборки – за пределами мышления, или Формула неудачного предсказания
Представьте себе, что вы – очень хороший водитель. Так о себе думают почти все водители{145}, но вы можете это доказать – за 30 лет водительского стажа (то есть совершив 20 тыс. поездок) вы пару раз легко наехали на бордюры.
Помимо этого, вы не злоупотребляете алкоголем и уж точно никогда не садитесь за руль пьяным. Однако как-то раз вы расслабляетесь на рождественской вечеринке в офисе. Не так давно умер ваш хороший друг, и вы находитесь в состоянии стресса. Один коктейль водка-тоник превращается в 12. Вы сильно пьяны. Что лучше сделать – поехать домой, сев за руль, или же вызвать такси?
Ответ кажется очевидным – взять такси. И отменить утреннюю встречу.
Рис. 1.6. Аккуратность и точность
Однако вы начинаете руководствоваться иной логикой. Прежде вы уже совершили 20 тыс. поездок, и лишь в двух из них произошли незначительные инциденты. Иными словами, вы спокойно добрались до места назначения в 19 998 случаях. Кажется, что все свидетельствует о том, что вы способны благополучно доехать до дома. А если у вас есть столь убедительные шансы на успех, зачем напрягать себя вызовом такси?
Разумеется, проблема состоит в том, что ни в одной из этих 20 тыс. поездок вы не находились в состоянии столь сильного опьянения. Размер вашей выборки для оценки успеха при вождении в нетрезвом состоянии равен не 20 тыс., а 0, и вы не сможете использовать свой прежний опыт для предсказания риска аварии в будущем. Это – типичный пример проблемы, связанной с ошибкой выборки.
Хотя может показаться, что избежать подобной ошибки легко, рейтинговые агентства ее допустили. Проделанный Moody’s расчет корреляции между различными ипотечными ценными бумагами на основании данных из прошлого был неверен – особенно принимая во внимание тот факт, что компания учитывала данные о ценах на жилье в США, начиная с 1980?х гг.{146}. Однако в период с 1980?х до середины 2000?х гг. цены были стабильными или росли. В подобных обстоятельствах предположение о том, что закладная одного домовладельца мало связана с закладной другого, было достаточно точным. При этом ничто в данных из прошлого не могло показать, что произойдет, когда начнут снижаться цены на все дома. Коллапс на жилищном рынке оказался событием, находившимся за пределами выборки, поэтому созданная модель не могла применяться для оценки риска в этих условиях.
Данный текст является ознакомительным фрагментом.