Информационный критерий Акаике

Информационный критерий Акаике (AIC) — это математический метод оценки того, насколько хорошо модель соответствует данным, из которых она была создана. В статистике AIC используется для сравнения различных возможных моделей и определения того, какая из них лучше всего подходит для данных. AIC рассчитывается из:

  • количество независимых переменных, используемых для построения модели.
  • оценка максимального правдоподобия модели (насколько хорошо модель воспроизводит данные).

Наилучшей моделью согласно AIC является та, которая объясняет наибольшее количество вариаций, используя наименьшее количество независимых переменных.

Когда использовать АИК

В статистике AIC чаще всего используется для выбора модели. Вычисляя и сравнивая оценки AIC нескольких возможных моделей, вы можете выбрать ту, которая лучше всего подходит для данных.

При проверке гипотезы вы можете собирать данные о переменных, в которых вы не уверены, особенно если вы исследуете новую идею. Вы хотите знать, какая из измеренных вами независимых переменных объясняет изменение вашей зависимой переменной.

Хороший способ выяснить это — создать набор моделей, каждая из которых содержит различную комбинацию измеренных вами независимых переменных. Эти комбинации должны быть основаны на:

  • Ваше знание системы обучения — избегайте использования параметров, которые не связаны логически, так как вы можете найти ложные корреляции практически между чем угодно!
  • Ваш экспериментальный план — например, если вы разделили два вида лечения между испытуемыми, то, вероятно, нет причин проверять взаимодействие между двумя видами лечения.

Создав несколько возможных моделей, вы можете использовать AIC для их сравнения. Более низкие оценки AIC лучше, и AIC наказывает модели, которые используют больше параметров. Таким образом, если две модели объясняют одинаковое количество вариаций, модель с меньшим количеством параметров будет иметь более низкий показатель AIC и будет более подходящей моделью.

Как сравнивать модели с помощью AIC

AIC определяет относительную информативность модели, используя оценку максимального правдоподобия и количество параметров (независимых переменных) в модели. Формула для AIC:

$AIC = 2K - 2ln(L)$

K — это количество используемых независимых переменных, а L — оценка логарифмического правдоподобия (вероятность того, что модель могла дать ваши наблюдаемые значения y). По умолчанию K всегда равно 2, поэтому если ваша модель использует одну независимую переменную, ваш K будет равен 3, если в ней используются две независимые переменные, ваш K будет равен 4 и так далее.

Чтобы сравнить модели, использующие AIC, вам необходимо вычислить AIC каждой модели. Если модель более чем на 2 единицы AIC ниже другой, то она считается значительно лучше этой модели.

Вы можете легко рассчитать AIC вручную, если у вас есть логарифмическое правдоподобие вашей модели, но вычисление логарифмического правдоподобия сложно! Большинство статистических программ включают функцию расчета AIC. Мы будем использовать R для запуска нашего анализа AIC.

Пример информационного критерия Акаике

Вы хотите знать, влияет ли употребление подслащенных сахаром напитков на массу тела. Вы собрали вторичные данные из национального обследования состояния здоровья, которое содержит наблюдения за потреблением сахаросодержащих напитков, возрастом, полом и ИМТ (индексом массы тела).

Чтобы выяснить, какие из этих переменных важны для прогнозирования взаимосвязи между потреблением сахаросодержащих напитков и массой тела, вы создаете несколько возможных моделей и сравниваете их с помощью AIC.

Информационный критерий Акаике
Пролистать наверх
Яндекс.Метрика
WhatsApp
ДИССЕРТАНТ